康普北亞區技術總監 吳健
人氣科幻小說在描繪“機器智能的崛起”時,通常伴隨著激光、爆炸等場景,就算不是這般震撼,至少也會帶有些許哲學上的恐懼意味。但毋庸置疑的是,人們日益關注人工智能(AI)和機器學習(ML)在更廣泛應用中的可能性,而且新的應用也層出不窮。
目前,數百萬人已經開始通過 ChatGPT 和其他AI界面來嘗試這些想法。但這些用戶中的許多人并沒有意識到,他們通過電腦屏幕與富有好奇心的AI助手之間的交流實際上是由位于全球各地的大型數據中心驅動的。
企業也在其數據中心內投資建立自己的AI集群,構建、訓練并完善自己的AI模型,以滿足其自身商業利益。這些AI的核心就是由大量 GPU(圖形處理器)機架所構成的,其可提供AI模型所需的驚人的并行處理能力,以便對其算法進行詳盡的訓練。
在導入數據集后,AI推理會對數據進行分析,并闡釋其中蘊含的意義。例如,基于貓與狗特征差異進行訓練,就能識別出圖片中呈現的是貓還是狗。然后,生成式AI就可以對此數據進行處理,以創建全新的圖像或文本。
正是這種“智能”的處理吸引著全球各地的人們、政府和企業發揮想象力。據IDC最新發布的《全球人工智能支出指南》預計,2027年中國AI投資規模有望達到381億美元,全球占比約9%。近年來,本土人工智能產業向高質量發展邁進,并加速與各行業的不同需求的融合落地。然而,創建一個有用的AI算法需要大量的數據用于訓練,而這是一個成本高昂且耗能的過程。
“智能”源自高效的訓練
數據中心一般都有著離散式的AI和計算集群,他們協同工作以提供訓練AI算法的數據。這些高能耗 GPU 產生的熱量限制了在給定機架空間內能夠安裝GPU的數量,因此必須優化物理布局。另一個令人擔憂的問題是,光纖線纜線路過長會增加插入損耗。
光纖是一種高效、低損耗、低延遲的基礎設施,AI集群的運行速度可達 100G 或 400G。然而,隨著大量數據在AI集群中傳輸,每增加一米光纖布線,都會帶來成本高昂的延遲和損耗。
一般認為,訓練大規模AI所需的時間中,約有三成消耗在網絡延遲上,其余七成用于計算時間。任何減少延遲的機會,哪怕是通過減少 10 米光纖來減少 50 納秒的延遲,都能節省大量的時間和成本。考慮到訓練這樣一個大型AI模型動輒需要花費 1000 萬美元或更多,延遲的代價就非常明顯了。
縮減光纖米數、延遲納秒數和功耗瓦數
運營商應仔細考慮在AI集群中使用哪些光收發器和光纜,以最大限度地降低成本和功耗。由于光纖運行必須盡可能短,因此光學成本將取決于收發器。使用并行光纖的收發器的優勢在于其無需用于波分復用的光復用器和解復用器。因此,使用并行光纖的收發器成本和功耗都更低。收發器成本的節省足以抵消多芯光纜(而非雙工光纜)成本的小幅增加。例如,使用8芯光纜的 400G-DR4 收發器比使用雙工光纜的 400G-FR4 收發器更具成本效益。
單模光纖和多模光纖應用可支持長達 100 米的鏈路。硅光等技術的進步降低了單模收發器的成本,使其接近同等多模收發器的成本。對于高速收發器(400G +)而言,單模收發器的成本往往是同等多模收發器成本的兩倍。雖然多模光纖的成本略高于單模光纖,但由于多模光纖線纜成本主要取決于 MPO 連接器,因此多模和單模之間的線纜成本差異較小。
此外,高速多模收發器的功耗比單模收發器低一到兩瓦。單一AI集群中最多有 768 個收發器,使用多模光纖的設置將節省高達 1.5 千瓦的功率。與每臺 GPU 服務器 10 千瓦的功耗相比,這似乎微不足道,但對于AI集群而言,任何節省功耗的機會都能在AI訓練和運行過程中節省大量費用。
收發器與AOC
許多 AI/ML 集群和 HPC 使用有源光纜(AOC)來實現 GPU 和交換機之間的互連。有源光纜是一種設備直連線纜,兩端集成了光發射器和接收器。大多數有源光纜用于短距離傳輸,其通常使用多模光纖和 VCSEL光源。高速(>40G)有源光纜和連接光收發器的光纜相同,使用的都是 OM3 或 OM4 光纖。AOC 中的發射器和接收器可能與同類收發器中的發射器和接收器相同,但它們不一定適合所有場合使用。每個發射器和接收器都不需要滿足嚴格的互操作性規范,它們只需要與連接到光纜另一端的特定設備一同運行即可。由于安裝人員無法接觸到光纖連接器,因此無需具備清潔和檢查光纖連接器的技能。
AOC 的缺點是不具備收發器能提供的靈活性。安裝 AOC 需要耗費大量時間,因為必須在連接著收發器的情況下布線。正確安裝帶分支的 AOC 尤其具有挑戰性。AOC 的故障率是同等收發器的兩倍。當 AOC 出現故障時,新的 AOC 必須通過網絡來布線,這也就占用了計算時間。最后,當需要升級網絡鏈路時,必須移除 AOC 并用新的 AOC 取而代之。對于收發器,光纖布線是基礎設施的一部分,并且可以在幾代數據速率下保持不變。
結論
AI/ML 已經到來,并將成為人、企業和設備之間交互方式中更重要、更集成的一部分。但不可否認的是,雖然與AI服務的交互可以在手機上實現,但它仍然依賴于大型數據中心基礎設施和算力的驅動,而能夠快速高效地訓練AI的企業將在當前瞬息萬變、超級互聯的世界中占據重要的一席之地。如若當下投資于先進的光纖基礎設施以推動AI的訓練和運行,日后就會收獲令人難以置信的成果。