新聞資訊
行業(yè)資訊
服務(wù)器集群故障檢測(cè)
2023-11-16 09:10:40
摘要:集群服務(wù)可以檢測(cè)和隔離網(wǎng)絡(luò)故障。集群服務(wù)使用改進(jìn)的網(wǎng)絡(luò)故障檢測(cè)方法改善故障恢復(fù)操作。故障檢測(cè)和防范是服務(wù)器集群所具有的突出優(yōu)點(diǎn)。當(dāng)集:群中的節(jié)點(diǎn)或應(yīng)用程序失效時(shí),集群服務(wù)器可以通過(guò)重啟失敗的應(yīng)用程序或?qū)⒐收舷到y(tǒng)的工作分散給幸存的集群節(jié)點(diǎn)來(lái)做出響應(yīng)。集群服務(wù)器故障檢測(cè)和防范包括雙向故障轉(zhuǎn)移、應(yīng)用程序故障轉(zhuǎn)移、并行恢復(fù)及自動(dòng)故障恢復(fù)。

集群服務(wù)可以檢測(cè)和隔離網(wǎng)絡(luò)故障。集群服務(wù)使用改進(jìn)的網(wǎng)絡(luò)故障檢測(cè)方法改善故障恢復(fù)操作。故障檢測(cè)和防范是服務(wù)器集群所具有的突出優(yōu)點(diǎn)。當(dāng)集:群中的節(jié)點(diǎn)或應(yīng)用程序失效時(shí),集群服務(wù)器可以通過(guò)重啟失敗的應(yīng)用程序或?qū)⒐收舷到y(tǒng)的工作分散給幸存的集群節(jié)點(diǎn)來(lái)做出響應(yīng)。集群服務(wù)器故障檢測(cè)和防范包括雙向故障轉(zhuǎn)移、應(yīng)用程序故障轉(zhuǎn)移、并行恢復(fù)及自動(dòng)故障恢復(fù)。


集群服務(wù)可以檢測(cè)各個(gè)資源或整個(gè)節(jié)點(diǎn)的故障,并動(dòng)態(tài)地將應(yīng)用程序、數(shù)據(jù)和文件資源轉(zhuǎn)移到集群中可用的正常服務(wù)器上,然后重新啟動(dòng)它們。借此, 數(shù)據(jù)庫(kù)、共享文件和應(yīng)用程序等資源可以對(duì)用戶(hù)和客戶(hù)端應(yīng)用程序保持高度的可用性。


集群服務(wù)器在設(shè)計(jì)上帶有以下兩個(gè)不同的故障檢測(cè)機(jī)制。


? 心跳通信,用于檢測(cè)節(jié)點(diǎn)故障。


? 資源監(jiān)視器和資源DLL, 用于檢測(cè)資源故障。


1.檢測(cè)節(jié)點(diǎn)故障

在集群節(jié)點(diǎn)之間的通信允許集群服務(wù)檢測(cè)節(jié)點(diǎn)故障和狀態(tài)改變并且將集群作為一個(gè)實(shí)體進(jìn)行管理。可以為這種節(jié)點(diǎn)到節(jié)點(diǎn)的通信設(shè)立多重網(wǎng)絡(luò)以便于消除單一點(diǎn)的故障。在集群節(jié)點(diǎn)上運(yùn)行的集群服務(wù)跟蹤集群中節(jié)點(diǎn)的當(dāng)前狀態(tài),并且確定組及其資源何時(shí)故障轉(zhuǎn)移到備用節(jié)點(diǎn)。這種通信采用在每個(gè)節(jié)點(diǎn)的集群服務(wù)之間定期發(fā)送消息的形式進(jìn)行。這些消息被稱(chēng)為“檢測(cè)信號(hào)”,或稱(chēng)“心跳氣”。


通過(guò)心跳通信,每個(gè)節(jié)點(diǎn)可以恰查其他節(jié)點(diǎn)及它們的應(yīng)用程序的可用性。如果服務(wù)器設(shè)有對(duì)心跳通信;做出響應(yīng),則正常工作的服務(wù)器會(huì)啟動(dòng)故障轉(zhuǎn)移過(guò)穩(wěn)(包括對(duì)故障服務(wù)器擁有的資源和應(yīng)用程序的所有權(quán)進(jìn)行仲裁)。仲裁是使用質(zhì)詢(xún)和辯護(hù)協(xié)議來(lái)執(zhí)行的。換而言之,如果某個(gè)節(jié)點(diǎn)似乎發(fā)生了故障,則會(huì)在給定的時(shí)間內(nèi)允許它以幾種方式中的任何一種表明它仍處于正常運(yùn)行當(dāng)中,并且可以向其他正常的節(jié)點(diǎn)通信。如果它無(wú)法證明自己正在正常運(yùn)行,則此時(shí)會(huì)將它移出集群。


多種事件都可能導(dǎo)致節(jié)點(diǎn)無(wú)法響應(yīng)心跳消息,如計(jì)算機(jī)故障、網(wǎng)絡(luò)接口故障、網(wǎng)絡(luò)放障,甚于在可能是由于少有的高峰活動(dòng)期。通常來(lái)說(shuō),當(dāng)所有節(jié)點(diǎn)進(jìn)行通信時(shí),配置數(shù)據(jù)庫(kù)管理器會(huì)向每個(gè)節(jié)點(diǎn)發(fā)送全局性的配置數(shù)據(jù)庫(kù)更新。當(dāng)心跳通信失敗時(shí),日志管理錦還會(huì)將配置數(shù)據(jù)庫(kù)的變更保存到仲裁資源中。這保證了幸存的節(jié)點(diǎn)可以在恢復(fù)過(guò)程中訪問(wèn)最新的集群配置和本地節(jié)點(diǎn)的注冊(cè)表數(shù)據(jù)。


要注意的是,故障檢測(cè)算法相當(dāng)保守。換句話說(shuō),它會(huì)盡量多地給那些明顯發(fā)生故障的節(jié)點(diǎn)以質(zhì)詢(xún)的機(jī)會(huì),然后才會(huì)進(jìn)入故障轉(zhuǎn)移過(guò)程。如果導(dǎo)致心跳響應(yīng)失敗的原因是暫時(shí)的,避免故障轉(zhuǎn)移所可能造成的潛在影響當(dāng)然是再好不過(guò)了。但是,由于無(wú)法知道這樣的節(jié)點(diǎn)還將沉默多長(zhǎng)時(shí)間,故該節(jié)點(diǎn)可能遭受長(zhǎng)時(shí)期的故障影響。因此,在經(jīng)過(guò)一個(gè)合理的時(shí)間段后就應(yīng)該啟動(dòng)故障轉(zhuǎn)移過(guò)程。




2. 檢測(cè)資源故障

如果資源在當(dāng)前主機(jī)節(jié)點(diǎn)上是不可操作的而且不能重新啟動(dòng),則集群服務(wù)認(rèn)為此資源發(fā)生了故障。集群服務(wù)按以下方式檢測(cè)資源故障。


(1)在周期性的時(shí)間間隔內(nèi),集群服務(wù)檢查資源以了解資源是否可操作。集群服務(wù)通過(guò)定期調(diào)用資源監(jiān)視器來(lái)完成此項(xiàng)任務(wù)。反過(guò)來(lái),資源監(jiān)視器則依賴(lài)于每個(gè)資源的資源主動(dòng)態(tài)鏈接庫(kù)( DLL)執(zhí)行一段過(guò)程以檢測(cè)資源是否正常工作。資源 DLL 通過(guò)資源監(jiān)視器將結(jié)果傳給集群服務(wù)??梢酝ㄟ^(guò)設(shè)置“Looks Alive”和“l(fā)s Alive ,輪詢(xún)間隔來(lái)指定集群服務(wù)檢資資源故障的頻率。集群服務(wù)在每個(gè)“l(fā)s Alive ”時(shí)間間隔內(nèi)請(qǐng)求對(duì)資源 的狀態(tài)進(jìn)行比“Looks Al ive" 間隔內(nèi)所傲的更徹底的檢查?!發(fā)s Alive”輪詢(xún)問(wèn)隔通常比“Looks Alive”輪詢(xún)問(wèn)隔長(zhǎng)。


(2)如果資源 DLL 報(bào)告資源不可操作,那么集群服務(wù)會(huì)嘗試重新啟動(dòng)資源??梢灾付悍?wù)在一給定時(shí)間間隅內(nèi)嘗試重新啟動(dòng)資源的次數(shù)如果集群服務(wù)在指定的時(shí)間向陸內(nèi)所做的嘗試的數(shù)量超過(guò)了最大重新啟動(dòng)嘗試次數(shù),但是資源仍不可操作,那么集群服務(wù)會(huì)認(rèn)為資源出了故障。


可以配置是否故障資源引起包含該資源的組故障轉(zhuǎn)移到其他節(jié)點(diǎn)。如果故障資源配肯為引起包含該資源的組故障轉(zhuǎn)移到其他節(jié)點(diǎn),那么集群服務(wù)將嘗試故障轉(zhuǎn)移。如果故障轉(zhuǎn)移嘗試次數(shù)坦過(guò)組的闕值而資源仍然處在故障狀態(tài),則集群服務(wù)將嘗試資源的重新啟動(dòng)。在資源的“故障重試周期”屬性(所有資源的一個(gè)一般屬性)指定的周期結(jié)束后,將做重新啟動(dòng)嘗試。集群服務(wù)開(kāi)始對(duì)資源嘗試重新啟動(dòng)然后故障轉(zhuǎn)移。


雖然“故障重試周期”屬性的單位是ms,但按分鐘順序選擇值。還可以選擇比資源重新啟動(dòng)周期屬性值大的或者相等的值并強(qiáng)制執(zhí)行這個(gè)規(guī)則。


海外服務(wù)器免費(fèi)測(cè)試http://running-capacitor.com/


USA-IDC為您提供免備案服務(wù)器 0元試用
立即聯(lián)系在線客服,即可申請(qǐng)免費(fèi)產(chǎn)品試用服務(wù)
立即申請(qǐng)