一、災備的定義
1.1 什么是災備?
災備指的是用現有的科學技術手段和方法,提前建立起可靠的應急方式,來應對突發事件的發生。
災備包括容災系統和備份系統。
1.2 備份和容災的概念
1.2.1 備份
備份:保障數據的安全性,備份指的是將全部或部分數據集合從生產主機硬盤或陣列中保存到其他的存儲介質的過程。
1.2.2 容災
容災:保障業務的連續性,容災指的是在較遠的異地建立兩套或者多套相同的、包含完整基礎設施(計算、網絡、存儲、電力制冷等)的IT系統,通過網絡的方式實現數據的傳輸,當主數據中心發生故障,可以利用備數據中心快速恢復業務。
1.2.3 兩者區別
保護對象:備份保護的是數據,容災保護的是業務連續性。
實現方式:備份采用備份軟件技術實現,而容災通過復制或者鏡像軟件實現。
時間周期:數據保護的周期不一致,復制或者鏡像的時間周期更短。
補充:歸檔使用的是備份。
1.2.4 兩者關系
只有備份:
如果只有備份,業務無法快速恢復,數據恢復需要時間,這段時間對某些行業帶來的損失是無法估量的。另外,備份一般是周期性執行的,一旦發生數據丟失,從恢復復時間到上次備份時間之間的數據就會丟失。
只有容災:
如果只有容災,業務可以快速恢復,數據也可以被保護,但是生產段有錯誤的操作,或者系統升級失敗之類的,也會被同步到容災端,從而造成業務的中斷。
1.3 災備提供的保護
二、災備的作用
2.1 存在的問題
2.1.1 數據中心存在的問題
- 病毒、操作系統漏洞
- 人為的誤操作
- 恐怖襲擊
- 電力故障
- 硬件故障
- 自然災害(地震、洪水、臺風)
2.1.2 沒有災備會怎么樣?
- 業務中斷
- 數據丟失
- 客戶投訴
- 業務下滑
- 經濟賠償
- 公司倒閉
(數據是無價的,丟了的話問題很大哇!)
2.2 備份的作用
2.2.1 存儲層面,配置備份的五大部分:
- 備份子客戶端
- 備份任務執行載體
- 存儲策略
- 備份介質
- 重刪策略
- 保留策略
- 寫IO數
- 備份內容
- 所需備份的內容
- 過濾不需備份的內容
- 備份策略
- 重刪策略
- 備份類型
- 備份計劃
- 性能優化
- 客戶端對數據的讀流數
2.2.2 云計算層面
云服務器備份服務(CSBS):Cloud Server Backup Service,為云服務器提供整機備份功能,支持基于多云硬盤一致性快照技術的本地備份,以及對備份數據的遠程復制,并支持利用備份數據恢復云服務器數據,最大限度保障用戶數據的安全性和正確性,確保業務安全。
云硬盤備份服務(VBS):Volume Backup Service,基于云硬盤的備份服務。用戶可為云硬盤創建備份,利用備份數據回滾云硬盤,以最大限度保證用戶數據正確性和安全性。
2.2.3 復制類型
同步復制:實時同步進行復制。
異步復制:異步復制數據,數據一致性有待商榷。
2.3 容災的作用
2.3.1 容災的應用場景
- 本地高可用容災(HA)
- 主備容災(AS)
- 雙活數據中心(AA)
- 兩地三中心(3DC)
2.3.2 容災解決方案全景圖
本地生產中心:
- 本地高可用解決方案
同城容災方案(<100km):
- 雙活數據中心解決方案
- 主備容災解決方案
異地容災方案(>100km):
- 兩地三中心容災解決方案
- 主備容災解決方案
2.3.3 本地高可用方案
優點:
- 業務0中斷
- 數據0丟失
- 業務級高可靠。
本地高可用:本地高可用通常為近距離的同一個機房內,使用實時鏡像和同步復制的方案,由于帶寬和距離很近,通常要求RPO=0。
2.3.4 主備容災方案
優點:
- RPO≈0
- TCO低,存儲高中低端互通,異構、利舊。
- 全局拓撲、集中告警
- 自動化,一鍵式容災演練、恢復
關鍵技術:HyperReplication
2.3.5 雙活數據中心容災方案
優點:
- 6層雙活架構。
- 業務0中斷,數據0丟失。
關鍵技術:HyperMetro
2.3.6 兩地三中心方案(級聯/并行)
組網類型 |
優勢 |
不足 |
級聯組網 |
對生產中心性能影響小。 |
當發生區域性災難時,如果同城災備中心完全受損,系統RPO將較大(因為異步復制)。 |
并聯組網 |
當發生區域性災難時,能有效避免級聯組網的不足。 |
對生產中心的性能要求較高。 |
三、災備的衡量
3.1 備份類型
補充:
備份窗口:它指用戶正常使用業務系統不受影響的情況下,能夠對業務系統中的業務數據進行數據備份的時間間隔,或者說是用于備份的時間段。
3.1.1 完全備份
完全備份:又叫全量備份,對某一時間點上的所有數據的一個完全拷貝。備份發起后變更的數據將在下一次進行備份,又稱為全量備份。
- 優點:能夠基于上一次的完全備份恢復數據,恢復窗口小。
- 缺點:占用空間大,備份時間長,備份窗口大。
3.1.2 累計增量式備份
累積增量式備份:以上一次完全備份為基準進行備份,若之前從未進行過備份,則備份所有數據。
- 優點:相對完全備份來說,可以節約一個完全備份的存儲空間,備份窗口較小,恢復窗口較小。
- 缺點:恢復時必須依賴上一次完全備份和本次的累計增量式備份才能完全恢復數據,回復時間較差異增量式備份較短。
3.1.3 差異增量式備份
差異增量式備份:以上一次備份為基準進行備份,若之前從未進行過備份,則備份所有文件。
- 優點:能夠最大限度地節省存儲空間,備份窗口小。
- 缺點:數據恢復時必須以來上一次完全備份和每一次的差異增量式備份才能對數據進行完整恢復,恢復時數據重構較慢,恢復時間較長。
3.1.4 備份策略原則
- 結合完全備份使用,但不要在同一個策略中結合使用累計增量式備份和差異增量式備份。
- 通常應用環境對備份空間和備份窗口的要求較高,因此更多的結合使用完全備份和差異增量式備份。
3.2 災備的指標
3.2.1 恢復點目標(RPO)
恢復點目標(RPO):當業務發生故障時,可以容忍數據丟失的數量,單位為時間。
舉例:8點進行備份,9點丟數據,RPO=1小時,丟了一個小時的數據。
3.2.2 恢復時間目標(RTO)
恢復時間目標(RTO):當業務發生故障時,可以容忍業務中斷的時間,單位為時間。
舉例:比如災難發生后半天內需要恢復數據,那么RTO就是12小時。
3.2.3 綜合標準
災難恢復能力等級 |
RTO(恢復時間目標) |
RPO(恢復點目標) |
1 |
2天以上 |
1天至7天 |
2 |
24小時以內 |
1天至7天 |
3 |
12小時以上 |
數小時至1天 |
4 |
數小時至2天 |
數小時至1天 |
5 |
數分鐘至兩天 |
0至30分鐘 |
6 |
數分鐘 |
0 |
RTO/RPO 與災難恢復能力等級關系(GB/T 20988-2007)
四、災備的實現
4.1 備份的方式
這個在備份組網那一塊再詳細補充...
這里參考:圖解三種備份方式(LAN,LAN free,Server free)_star&storage的技術博客_51CTO博客
4.1.1 LAN-Base
LAN-Base,這種方式很簡單,直接在生產服務器上安裝備份代理,部署一臺備份服務器,這樣即可完成備份,不過這種方式不適合數據量非常大的環境。因為如果備份數據量非常大,會占用以太網的帶寬,雖然說備份操作一般在晚上進行。但是這種方式還是不適合大數據量的情況。因此有了LAN-Free備份。
4.1.2 LAN-Free
LAN-Free,顧名思義,即釋放了LAN的壓力。如上圖所示,數據流直接從File server經過FC switch備份到Tape,而不經過Lan,這樣就不會占用主網絡的帶寬。但是數據仍然會通過文件服務器的本地磁盤--內存—FC switch這步,因此仍然會消耗File server的資源。因此有了下面的Server Free備份來盡可能的減少生產服務器的壓力。
4.1.3 Server-Free
Server-Free,即備份時數據不流經服務器的總線和內存,如上圖,文件服務器使用SAN的File Server Storage空間,現在需要備份文件服務器,則只需將File Server Storage的數據直接備份到Tape。此時文件服務器只需要發出SCSI擴展復制命令,剩下的事情就是File Server Storage和Tape之間的事情了,這樣就減輕了文件服務器的很多壓力,使它可以專注于對外提供文件服務,而不需要再消耗大量CPU、內存、IO在備份的事情上了。
或者還有一種方式即NDMP,Network Data Management Protocol,網絡數據管理協議。它是一種支持智能數據存儲設備、磁帶庫設備及備份應用程序之間互相通信以完成備份過程的通信協議。服務器只要向支持NDMP協議的存儲設備發送NDMP指令,即可讓存儲設備將其自己的數據直接發送到其他設備上,而不需要流經服務器主機。
4.2 備份介質
- 磁盤陣列
- 磁帶庫
- 虛擬帶庫
- 光盤塔、光盤庫
- 云存儲
- 一體機(將主服務器、介質服務器、備份介質集成到一個物理設備上。例如華為的HDP3500E)
4.3 備份設計原則
- 客戶需求(需要備份的數據類型、數據量、備份的對象)
- 備份策略(數據備份的周期、數據備份的時間點)
- 網絡規劃(帶寬的大小、網絡的規劃、組網類型)
- 存儲規劃(備份數據量、未來數據增長量)
4.4 容災的方式
4.5 容災技術
4.5.1 主機層數據復制
主機層數據復制:在生產中心和災備中心的服務器上安裝專用的數據復制軟件,如卷復制軟件,以實現遠程復制功能。兩中心間必須有網絡連接作為數據通道。可以在服務器層增加應用遠程切換功能軟件,從而構成完整的應用級容災方案。這種數據復制方式相對投入較少,主要是軟件的采購成本;兼容性較好,可以兼容不同品牌的服務器和存儲設備,較適合硬件組成復雜的用戶。但這種方式要在服務器上通過軟件來實現同步操作,占用主機資源和網絡資源非常大。
4.5.2 網絡層數據復制
網絡層數據復制:在生產中心和災備中心的服務器上安裝專用的數據復制軟件,如卷復制軟件,以實現遠程復制功能。兩中心間必須有網絡連接作為數據通道。可以在服務器層增加應用遠程切換功能軟件,從而構成完整的應用級容災方案。這種數據復制方式相對投入較少,主要是軟件的采購成本;兼容性較好,可以兼容不同品牌的服務器和存儲設備,較適合硬件組成復雜的用戶。但這種方式要在服務器上通過軟件來實現同步操作,占用主機資源和網絡資源非常大。
4.5.3 存儲層數據復制
存儲層數據復制:要實現數據的復制需要在生產中心和災備中心都部署一套這樣的存儲系統,數據復制功能由存儲系統實現。如果距離比較近(幾十公里之內),之間的鏈路可由兩中心的存儲交換機通過光纖直接連接;如果距離在200公里內,可通過增加DWDM等設備直接進行光纖連接;超過200公里,則可增加存儲路由器進行協議轉換途徑WAN或Internet實現連接。因此,從理論上可實現無限制連接。在存儲層實現數據復制功能是很成熟的技術,而且對應用服務器的性能基本沒有影響。目前,這種容災方案穩定性高、對服務器性能基本無影響,是容災方案的主流選擇。
本文作者:SkyBiuBiu
本文鏈接:
https://www.cnblogs.com/Skybiubiu/p/14992848.html