【ITBEAR科技資訊】6月27日消息,微軟研究人員日前發布了一項名為ZeRO++的創新技術,該技術旨在解決訓練大型AI模型時面臨的數據傳輸成本和帶寬限制等挑戰,以顯著縮短訓練時間并節約成本。
據ITBEAR科技資訊了解,ZeRO++在現有的ZeRO傳輸技術基礎上進行了進一步的優化,并提供了增強的通信策略,以提高訓練效率,同時減少訓練時間和成本。
為了減少參數通信量,ZeRO++采用了一種權重量化的方法。它利用基于塊的量化技術來保持訓練精度,相比原始的ZeRO傳輸技術,量化過程更加高效準確。此外,為了盡量減少通信開銷,ZeRO++通過在每臺機器上保留完整的模型副本,以換取GPU顯存來增加通信帶寬。在梯度通信方面,ZeRO++引入了一種名為qgZ的新型量化梯度通信方式,可降低跨節點的流量和延遲。
這些改進的通信技術極大地減少了通信量。據微軟研究人員表示,與ZeRO相比,ZeRO++可以減少高達4倍的通信量,提高訓練吞吐量和效率。當在每個GPU上使用小批量大小時,在高帶寬集群中,相較于ZeRO-3,ZeRO++的吞吐量提高了28%至36%。在低帶寬集群中,與ZeRO-3相比,ZeRO++實現了平均2倍的加速,使得大型模型的訓練在更多種類的集群上成為可能。
ZeRO++的引入為訓練大型模型帶來了新的可能性,例如Turing-NLG、ChatGPT和GPT-4等。研究人員現已發布了相關技術文檔,使得科研人員可以更有效地利用ZeRO++進行模型訓練,進一步探索人工智能領域的新發展。