BCP的最簡說就是“什么都是兩份”。但你研究越深,它就越難:兩個服務(wù)器,兩個交換機(jī),兩個上行線路,兩個配電裝置,兩個路由器,兩個完全獨立的、觸及全部信息點的網(wǎng)絡(luò)平面?當(dāng)然兩套設(shè)備間的失效轉(zhuǎn)移必須完全自動化的,因為人的響應(yīng)時間以互聯(lián)網(wǎng)的速度來衡量是極度緩慢的。當(dāng)你開始加入越來越多的冗余和越來越多的自動化的時候,復(fù)雜度也就上升了。到某一點上,系統(tǒng)是如此的復(fù)雜,以至于你只能放棄加入更多的故障點。隨著系統(tǒng)向上擴(kuò)展,收益逐漸減少,最終將到達(dá)這樣的點,你的投資收益變成負(fù)值。
該問題的答案可以在宏觀層面上找到。你需有計劃應(yīng)對可能影響區(qū)域服務(wù)的災(zāi)難一一地震、限風(fēng),等等。因此你需要把服務(wù)布署在分開的地理區(qū)域中。至關(guān)重要的是:當(dāng)下次大地震毀掉硅谷的數(shù)據(jù)中心時,必須有自動的方式將你的流量切換到東部海岸。一旦你解決了這個問題,所有的小事情都變得不重要了。如果一個數(shù)據(jù)中心的配電裝置、路由器或交換機(jī)失效,你的流量將自動地轉(zhuǎn)移到其他的大都市。很明顯,為了防止流量在不同的地方來回折騰,某種程度的本地冗余是需要的,但你不需要將之進(jìn)行到收益減少或者負(fù)收益的程度。
與人們的普遍看法相反,數(shù)據(jù)中心的確會有故障,有時原因很古怪。有一天我在參加一個會議時,接到運維中心的電話,通知我說:一個主要的數(shù)據(jù)中心運行中斷。擔(dān)心在我們處理問題時,這個事事件會段掉我的會議,我立即打電話給我的同事了解影響的程度。使我放心的是:她告知,所有網(wǎng)站都已轉(zhuǎn)出那個地點,流量已轉(zhuǎn)移到另外的數(shù)據(jù)中心,她正期待著“烤松鼠”的晚餐,原因是一個壞蛋爬進(jìn)了配電箱,咬穿了主要的配電電纜。松鼠沒能活過那天,不過我們安然無恙地度過了那一天。
正如前面提到的,BCP對于不同的人有許多不同的含義。讓我們看一下這些術(shù)語以及它們對你的站點而言意味著什么。開始時,我先去掉該術(shù)語的一大部分一一人員和地點。管理員工是一個完整BCP計劃的重要組成部分。如果你的辦公大樓燒毀了,所有的人到哪里工作?我是一個工程師,那不是我的領(lǐng)域,所以我將集中于BCP計劃的高可用性部分:保證站點正常工作。即使在高可用性領(lǐng)域,也有各種各樣的技術(shù),從熱/熱(Hot/Hot)、熱暖(Hot/Warn)、熱冷(Hot/Cold)到災(zāi)難恢復(fù)。
熱/熱(Hot/Hot)是高可用性的高級別。用戶可以從任意的數(shù)據(jù)中心使用全部的應(yīng)用程序。讀和寫可以發(fā)生在任何地方。這讓自動的故障轉(zhuǎn)移變得非常簡單,但它不是萬能的。
你必須認(rèn)真思考如何處理數(shù)據(jù)一致性的問題。如果一個數(shù)據(jù)同時寫入兩個地點,在復(fù)制過程中將出現(xiàn)沖突。哪個寫入是正確的?互聯(lián)網(wǎng)是非常動態(tài)的媒介,在很多情況下這并不要緊,不過應(yīng)確保你有所計劃。
熱/暖(Hot/Warm)是一種很好的方式,如果你不能容忍數(shù)據(jù)的不一致性的話。很多應(yīng)用有大量的讀操作,僅偶爾(但很重要)寫一下。在這種情況下,區(qū)別處理這兩種操作是有意義的。讀操作使用熱熱的方式,可由任何數(shù)據(jù)中心提供,具有快速自動的故障轉(zhuǎn)移,這使大部分應(yīng)用具有很高的可靠性。但一次只寫入一個數(shù)據(jù)中心,這保證了數(shù)據(jù)的一致性,代價是一小部分應(yīng)用的故障轉(zhuǎn)移會慢一些。假設(shè)可以降低網(wǎng)站性能的話,就不用同步數(shù)據(jù)復(fù)制。在2寫操作發(fā)生時,盡大努力將數(shù)據(jù)盡快傳到其他地點,但沒有擔(dān)保。復(fù)制延遲可能是幾秒、幾分鐘到幾小時不等。因此,當(dāng)在一個地點進(jìn)行寫操作而緊跟著在另一地點進(jìn)行讀取時,會發(fā)生什么呢?更新可能還沒到達(dá),你會得到過期的數(shù)據(jù)。我們稱之為臨界讀(criticalreads)。你需要識別,以及通過錯誤處理或?qū)⒆x操作引至源站點,來減少臨界讀。
熱/冷(1Hot/Cold)讓我害怕。這種架構(gòu)將讀寫流量送到單一地點,而讓另一個相同的部署在遙遠(yuǎn)的地平線上閑置。它容易建立,但價值很低。當(dāng)災(zāi)難襲來時,你就會質(zhì)疑計劃是否明智。它真的行得通嗎?軟件版本是最新的嗎?最后一次登錄到這個冷站點是什么時候?情況往往是,這個冷站點會被閑置不用一年或更長的時間。當(dāng)你需要時,它可能已遺憾地過時了。擔(dān)心、不確定和懷疑都不可避免地會延長宕機(jī)時間。我見過無數(shù)次的事故,其冷情況下你不能使用冷站點,其意義何在?
站點是如此不可信,以至于我們寧愿有幾小時的宕機(jī)時間,也不用故障轉(zhuǎn)移。如果在緊急災(zāi)難恢復(fù)是最差的技術(shù),本質(zhì)上是霧件(vaporware)。它的本意不是在平常的時候保護(hù)你,而是在大的災(zāi)難發(fā)生時給你提供重建的選項。我們收購的一家公司有災(zāi)難恢復(fù)計劃,它每月需要向第三方公司付“保險”費,該第三方公司維護(hù)了一個大型的數(shù)據(jù)中心,里面充滿了閑置的服務(wù)器和存儲設(shè)備。如果我們們的數(shù)據(jù)中心發(fā)生故障,我們可以用他們的。當(dāng)然,如果有大的災(zāi)難,我們就會和他們的其他所有客戶競爭資源。并沒有實際的計劃,也沒有做過任何測試。在開始探索實際的故障轉(zhuǎn)移會怎么樣的時候,我們發(fā)現(xiàn)了一些令人驚駭?shù)膯栴}。結(jié)果是服務(wù)器和存儲有各自不同部門,
網(wǎng)站建設(shè)服務(wù)器群在一棟樓,而存儲在另一棟。兩棟樓之間有一根千兆以太線路連接,這明顯不能工作。在我們決定自己干時,他們允諾再建第二條千兆的以太線路。
網(wǎng)頁標(biāo)題:BCP是什么?意味著什么?
本文鏈接:http://m.rwnh.cn/news0/148700.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站制作、品牌網(wǎng)站制作、建站公司、網(wǎng)站營銷、網(wǎng)站內(nèi)鏈、定制開發(fā)
廣告
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源:
創(chuàng)新互聯(lián)