“風扇轉速剛過每分鐘2萬轉,硬盤就掉鏈子,而且多次測試結果都是這樣。”即使看慣了實驗室里不同工況條件下的大場面,浪潮信息服務器研發工程師張海龍對眼前的情況還是有些驚訝,“畢竟各種因素趕到一塊兒的場景太罕見了”。
其實,任何事物在帶來好處的同時,都要付出一定的代價。所謂魚和熊掌兼得,不過是成千上萬次再平衡之后的偶然。
比如:芯片的性能越高,產生的功耗也會隨之增大,提高散熱能力就成為謀求平衡的籌碼;而追求極限散熱,難免對硬盤等部件造成沖擊,兼顧可靠性又變成新一輪平衡游戲的主題。
當然,散熱和可靠性并非零和博弈,只要管控好變量,就有機會走出囚徒困境。
懸在頭上的達摩克利斯劍
在千行百業數字化轉型的大時代,數據中心既是驅動增長的重要引擎,也是不容忽視的“耗電怪獸”。2020年,我國數據中心用電量突破2000億千瓦時,占用電總量比重約2.7%;預計到2030年,這一數字將突破4000億千瓦時,占比升至3.7%。
工信部近期印發《新型數據中心發展三年行動計劃(2021-2023年)》,對PUE(數據中心總能耗/IT設備能耗)明確規定:到2021年底,新建大型及以上數據中心PUE降低到1.35以下,到2023年更要低于1.3。
工信部《新型數據中心發展三年行動計劃(2021-2023年)》
顯而易見,1.3將成為各地新建數據中心的PUE紅線。但目前全國大型數據中心平均PUE為1.55,超大型數據中心平均PUE也僅為1.46。也就是說,在保有量萬臺服務器的數據中心,每耗費一度電,只有64.5%用于IT領域,其余35.5%則用在空調等非IT設備。
數據中心為了降低PUE,必須讓能源更多向IT設備傾斜,這對服務器的供電和散熱研發設計提出了更高要求。供電效率提升可降低CPU等關鍵部件散熱量,從而減少空調等設備的使用。浪潮信息掌握了從12V到48V直流供電技術,48V直流供電預計可減少30%的能耗。
液冷是散熱技術的翹楚,可以用液體取代空氣作為冷媒,帶走部件熱量,目前常見的方式有冷板、浸沒、風液混合等,已在云數據中心和邊緣數據中心規?;渴?對降低PUE效果顯著。但液冷技術對數據中心的機房環境要求苛刻,重新改造的成本也較高,浸沒式液冷的冷卻液價格更是堪比茅臺。
對大多數數據中心來說,風冷才是低成本改善散熱的主流方案,最“簡單粗暴”的做法是提高服務器風扇轉速。風扇高速轉動將熱量快速帶出,可避免部件發熱量過高影響系統穩定性。但不斷加碼風扇轉速直至滿轉時,風扇與硬盤之間會形成大的漩渦,而不規則的湍流影響非常嚴重——服務器內的硬盤碟片磁道密度低于50nm、Ocylim低于10nm,磁頭輕微振動就會造成讀寫性能大幅下降,甚至導致整個硬盤報廢。
硬盤內部結構圖
御風而行的“逍遙”苦旅
莊子在《逍遙游》中有言:“夫列子御風而行,泠然善也。旬有五日而后反。彼于致福者,未數數然也。”一場不強求結果的十五天旅行,固然悠游瀟灑,但僅限于個人境界,無關萬物蒼生。
當張海龍及其背后的研發團隊遭遇系統風扇與硬盤的激烈博弈,想在散熱和可靠性的夾縫中尋求突破時,他們無法輕松自在,跨度長達一年半的“御風之旅”充滿艱辛。
風冷方案歷經40多年的演變,主要通過三條路徑實現散熱優化:一是從散熱器入手,比如材料由鋁變成銅、將翅片加大擴展散熱面積、改良熱管排布、利用富余空間補充遠端散熱等;二是提高風扇速度,制約點是機電控制和馬達質量,主要交由幾家專業的風扇廠商負責;三是在發熱元件附近部署傳感器,類似人體的末梢神經,一旦感知局部升溫就快速投放冷量,反饋越靈敏,調控越精準。
對服務器廠商而言,風扇調控策略是其擅長的領域,研發團隊要做的,恰是從系統風扇本體的聲振性能為切入點,解決散熱與可靠性之間的博弈。
從可能的振源到受振敏感元件之間的路徑太多,需要借助對比和定量分析法,對各個因子逐一進行耦合切斷,主板、存儲控制卡、背板連接器等都曾上過“黑名單”。
在經歷近半年的排查分析后,一個“突發奇想”的行動——索性切開機箱,把振動傳遞路徑上的影響因子全部做解耦抽離,迫使真正的“元兇”浮出水面。機箱一切兩段,切斷了機械傳動路徑,中間用紙板把硬盤和風扇隔開,硬盤不再受風的影響,同時對風扇產生的噪聲也有一定遮擋,硬盤讀寫功能逐漸攀高。再換不同轉速的風扇及方案組合進行反復驗證,最終工程師找出了“氣動噪聲”這個“深藏不露”的重要影響因子。
在流體力學中,這個影響因子叫做:“湍流”,也就是濟南趵突泉公園康熙題字碑的“激湍”的標準名稱。湍流打到風扇扇葉上,風回來得比較無序,而且有部分聲音從風扇背面傳到前方。要把大的空氣漩渦破掉,最理想的方案肯定是將湍流轉換成層流,或者在高風壓條件下把大湍流切成小湍流。
2021年秋季清華大學《湍流概論》中湍流產生的介紹
PS:H.Tennekes&J.L. Lumley 曾對湍流進行過評論:嘗試解決湍流問題的成功與否,強烈地取決于包括做出關鍵性假設的靈感。 湍流需要奔放的發明者,正如需要專業分析師那么重要。
傳統服務器會采用減振墊來減緩振動,這種方法針對機械傳動路徑有效。同時依靠風扇后端的擋風罩切割和控制風向。但當系統風扇轉速從每分鐘2萬轉提升到3萬轉,機箱內部的湍流問題就愈發凸顯,亟需新的機械結構在風力源頭擔當重任。
沒有人愿意啃硬骨頭,除非被逼到墻角。從層流到湍流的轉體,是業界公認的難題。北大的數學大神韋東奕曾從數學模型的角度求解層流到湍流的變化,獲得百萬獎金。服務器的研發工程師則在應用維度作出開創性的嘗試:從初期的百葉窗到最后敲定波導網,其間歷經成百上千次的錘煉。研發工程師采用不同寬度、孔徑的橫向或縱向波導網進行多次對照試驗,起始階段效果并不理想,沒有滿足高可靠性的要求。但測試證明波導網的確能有效緩解振動,有助于提升通風量并形成穩定的平行風流。
研發初期服務器內部系統流場仿真圖
一個偶然的機會,研發人員受到深圳機場航站樓六邊形建筑結構啟發,萌生蜂巢形狀波導網設計思路。綜合測試后發現,六邊形波導網既節省材料,通風量也適宜,同時足夠堅固,對風流能有力約束,并減小湍流造成的振動,解決了風扇散熱與可靠性無法兼得的難題。
波導網內部為鋁制六邊形蜂巢狀小孔,單邊厚度不足0.2mm,重量僅11克左右,可謂“薄如蟬翼”。為探求不同機型最佳波導網結構,研發工程師還針對蜂巢單元的尺寸和蜂巢板的厚度進行測試,為每一款服務器找到孔徑、厚度相匹配的波導網,并對降噪需求突出的機型填加了吸音海綿。
相關數據顯示,配置波導網的M6服務器散熱效率大幅提升17%~22%,可讓數據中心環溫提升1.5~2攝氏度,節約6%~8%的能耗。此外,波導網還能減少氣流對硬盤高頻振動的影響,硬盤IOPS性能提升8%~10%。
“風水大師”背后的故事
波導網的橫空出世,既是極限壓力環境下的成果,也是浪潮信息特色研發模式的產物。
主賽道和訓練賽道相結合,是孕育新技術、產品和解決方案的溫床。浪潮信息在技術儲備方面有良好的預研體系,結構、散熱就是其中的項目。預研中的技術通常具有前瞻性,要在訓練賽道上摸爬滾打;而產品研發更貼近市場需求,預研中相對成熟的技術,才有機會躋身主賽道。波導網從預研到成為M6服務器產品的標配,正是主輔賽道轉化機制的受益者。
仿真與測試協同作戰,是研發進程節時降本、效率提升的不二法門。從硬盤、背板到風扇前界面空間極小,風道來源異常復雜,風洞、煙霧等實測方式無法實施,針對風流、風壓的流體仿真和基于各種特殊要求的機械可靠性仿真,就顯得尤為重要。波導網率先嘗到了甜頭,為更多新技術的仿測協同樹立了標桿。
打破各個資源壁,重新構建跨部門合作關系,是達成最優方案的核心路徑。波導網是全新的部件,需要散熱、結構、存儲等不同團隊持續磨合,在相互妥協的過程中探尋創新的可能。對單一指標的過分強調,有時會變成研發中最大的障礙,而每一次基于共同目標的“讓步”,才是通往成功的階梯。
優秀的研發模式是復制更多波導網傳奇的基石——知道風在哪一個方向吹,就不會迷失在亂云飛渡的技術湍流里。