21世紀以來,人類進入開發海洋資源和利用海洋戰略空間的新階段,海蘭信依靠海洋與船舶領域超20年的技術積累與沉淀,創新性的將海洋工程與IDC技術相結合,海底數據中心孕育而生。
早在2011年,美國互聯網服務提供商AOL公司就宣布推出ATC的小型無人值守數據中心,稱之為“熄燈”數據中心(Lights Out Data Center)。根據波洛蒙研究所的報告,人為錯誤是導致數據中心故障的罪魁禍首之一。更加糟糕的是,機房的部署環境雖然適宜人類工作,卻不是設備運行的理想環境,其他相應的配套設施,也需要大興土木,投資甚巨。
人力運維就像是把雙刃劍,“熄燈”數據中心意在解決這個矛盾。隨著技術進步和運維流程的革新,尤其是在世紀疫情的大背景下,“熄燈”數據中心的理念再次被提及,無人運維的理念逐漸深入人心。更可靠的設備,更精準的監控,更智能的自動化運維工具,讓這一些都變得可能。
海底數據中心(UDC),就是這樣一種免運維或少運維的數據中心部署形態。那么,海底數據中心又是如何保障系統的可靠性呢?
云服務的可靠性已提升到極致
近期,阿里云公布了最新的云服務器ECS服務等級協議SLA,單實例的可用性從99.95%提升至99.975%,多可用區多實例可用性從99.99%提升至99.995%,均為全球最高水準。99.99%的可用性,意味著云服務器一年內故障時間不超過52分鐘,多可用區多實例則不超過26分鐘。
阿里云是怎么實現這么高的可用性的呢?
首先是計算虛擬化層面的熱遷移技術,它保證云服務器在發生故障時可以在用戶無感的情況下,遷移到新的云服務器;其次,人工智能模型驅動的自動化運維平臺,可實現高效的預防性維護,快速故障隔離,最小化影響面。
存儲服務,其中云盤三副本,對象存儲糾刪碼,基于合理的冗余和快速恢復技術,實現了99.999999999%(12個9)的可靠性和99.995%的可用性。
軟件定義網絡SDN技術已經非常成熟,部署在高可靠的物理網絡設備上的Overlay虛擬網絡,為業務提供了極大的靈活性和可靠性,遠程運維更加更加便捷。
當用戶把業務部署在云上時,就意味著將復雜的物理世界的事情留給了公有云廠商,系統的可靠性得到了保證。
后摩爾定律時代,服務器更耐用
1965年戈登·摩爾提出摩爾定律,距今已經過去近60年,芯片制程技術越來越接近物理的極限。
Intel CPU產品演進,從18個月的周期,延長到Tick-tock兩步走的兩年,又延長到三步走的三年。成本和時間的投入,相比CPU升級換代帶來的算力提升,慢慢變得無足輕重。
可以預見,在更長的生命周期里,服務器提供的算力不會輕易遇到技術上的瓶頸,服務器更新的周期將更長,穩定性也將有所提高。
惰性氣體環境,故障率低80%
研究發現,引起電子元器件故障的原因中,氧化占30%,溫濕度變化占30%,其余為人鼠災害。
在海底數據艙內,充滿了惰性氣體,消除了氧化風險;在20米以上深度的海水包圍下,配合可靠的液冷散熱技術,數據艙不會“中暑”,艙內環境近乎恒溫恒濕。
在這樣的環境下,服務器的各個元器件都工作在相對理想的環境下,可靠性和穩定性得到大幅提升。
根據微軟海底數據中心項目的測試數據,運行在海底數據中心內的服務器,故障率僅為陸地數據中心服務器的1/8。
最近國外IT大廠又出圈了,Oracle和谷歌在倫敦的數據中心,因為高溫天氣冷卻系統出現故障,進而導致機房故障!運維的同學真是操碎心了,想來還是下海吧……