無論是硬盤固件bug,還是人為刪除,數據丟失會對用戶業務造成極大影響。
根據2020年IBM數據泄露調查報告(The 2020 Cost of a Data Breach Report)顯示:在美國,由于數據丟失帶來的損失平均達到860萬美元,有94%的企業經歷過數據丟失而無法恢復的情況,更驚人的是,70%的中小企業在發生大規模數據丟失后一年內出現破產……
當我們把目光聚焦于數據存儲時會發現,造成數據丟失的原因有很多,根據第三方調研機構Kroll Ontrack的分析報告顯示,有67%的數據丟失是由于硬盤或者系統故障造成的,14%是由于人為誤操作,10%的數據丟失源于軟件失效。想要避免數據丟失就需要提高硬件的可靠性并盡可能降低人為誤操作帶來的風險。
目前,市面上的數據存儲解決方案都填充著各種功能或機制,看似可靠性很高,實則缺乏完整的數據保護閉環。一旦發生故障,往往依然采用“頭痛醫頭腳痛醫腳”的方式打補丁。基于這一洞察,深信服分布式存儲EDS構建了事前主動防御、事中自動處理、事后快速兜底的數據保護框架,重新定義了存儲可靠性,通過軟硬件協同設計,以期充分保障用戶核心業務數據的安全可靠。事前階段的“防患于未然”更是重中之重。
事前主動防御——潛在風險提前布防
對于硬件而言,故障發生往往充滿隨機性且難以預測,與其“坐以待斃”不如“主動出擊”,深信服EDS針對潛在故障,結合硬件故障預測、數據冗余保護、容災備份等構建了主動防御體系。
1.硬盤亞健康預測機制——省心的“硬盤看護”
EDS對硬盤進行了全方位保護,結合AI算法模型,推出了硬盤壞道預測、掃描修復及SSD壽命預測等一系列功能——
硬盤壞道預測:通過收集10萬+塊壞道硬盤的1800多萬條特征數據,進行機器學習算法訓練,最終將算法內置到EDS存儲軟件中,可以實現提前15天發現出硬盤是否出現壞道,預測準確率達98.5%,如果預測到某塊磁盤將出現壞道,則調取壞道掃描和修復進程對磁盤進行掃描和修復。
自動壞道掃描及修復:主動對預測將產生壞道的磁盤進行掃描,如果掃描發現潛藏的壞道,則立即觸發數據修復,即利用冗余機制將壞道上的數據修復至硬盤保留扇區。
預測和檢測結果及時通知:預測和檢測結果都會以頁面告警、郵件告警等方式及時通知用戶風險等級,用戶可根據風險等級提前預備備件。
除了對硬盤壞道的預測、檢查和修復完整閉環流程外,EDS還支持對卡盤、慢盤、SSD壽命到期、IO錯誤等硬件亞健康問題的閉環處理,切實保障數據可靠。
2.副本、糾刪碼機制——故障后的“重構”、“推算”實現復原
針對塊存儲,EDS采用多副本機制,除了多份數據副本之外,還同時存在仲裁副本,保存少量校驗數據即可完成故障后的數據重構。而針對文件、對象存儲,EDS采用糾刪碼機制,對不同節點冗余不同級別的主機/硬盤故障。
3.數據容災機制——故障發生有“兜底”
針對用戶業務系統或者生產數據,深信服提供完整的備份解決方案,針對結構化數據提供實時備份能力;針對海量非結構化數據,通過永久增量與快速掃描技術提供高效的非結構化數據備份和恢復方案。
事中自動處理——實時業務維護與快速故障修復
當故障發生之時,需要考慮兩件事,一個是如何保障業務依舊正常運轉,另一個是如何做到故障快速修復。不僅要求存儲具備“自愈能力”,還要做到“輕傷不下火線”。深信服EDS針對各種難題提供了有效的處理方式。
1.針對硬盤靜默錯誤,通過配置一致性檢查策略,自動檢查并修復由于硬盤靜默錯誤產生的數據不一致問題。
2.針對無法修復的硬盤,EDS觸發自動修復實現數據的自動重建。
3.對于業務系統,當主機/網絡出現異常時,業務IP自動切換到可用節點,最大程度保障業務不中斷。
事后快速兜底——業務數據找回及時止損
在故障發生后,用戶必須要進行業務數據找回以將損失降到最低。深信服EDS實現發生物理災難性故障后,通過備份容災系統,幫助用戶盡快恢復數據;當發生邏輯錯誤時,可以通過快照克隆、回收站進行數據恢復。
其中,回收站可以根據需要進行靈活設置,一旦配置回收站策略,符合策略的文件在刪除后會進入回收站,當刪除操作為誤操作或惡意行為時,管理員通過回收站可以找回刪除的數據,實現快速恢復。
如今,數據已經成為一種新型生產要素,和所有的行業、所有單位、企業,甚至是我們每一個人都是密不可分,而想要挖掘數據的價值,首先就要保障數據的可用性及可靠性,而可靠性是數據的根基。深信服EDS存儲基于數萬家用戶服務的積累,構建了完整的數據保護閉環,提供99.9999%的可靠性,致力于實現用戶業務永無宕機。