【ITBEAR科技資訊】10月9日消息,近日財聯社曝出百度的文心大模型 4.0 正在積極進行訓練,并且已經接近可發布的狀態。今天,我們進一步了解到文心 4.0 的更多細節,包括底層架構、基礎設施、訓練數據集和成本等重要信息。
根據我們的了解,文心大模型 4.0 已經進行了小流量測試,證實了昨天的爆料。這一模型的參數規模大于目前所有已經公開發布的大語言模型(LLM),這意味著文心 4.0 的參數規模預計將突破萬億級別的巨大數字。
文心 4.0 仍然是一個單一模型,而不是采用了混合專家模型(MoE)的方式,這與一些其他大型語言模型(如GPT-4)不同。之前有消息稱,GPT-4 采用混合模型是因為無法讓單一模型的參數規模超過2200億。因此,百度能否在單一模型上取得突破,以及模型能力是否會有明顯提升,這需要等待真正發布后才能確定。
對于如此龐大的參數模型,它對算力的要求顯然不小。據我們了解,文心 4.0 是在萬卡 AI 集群上訓練出來的,這也標志著它是國內首個使用萬卡規模集群進行訓練的大語言模型。目前,國內僅有華為和阿里透露已建成萬卡 AI 集群,但尚未公布具體的模型基于該集群的應用。
這也表明,萬卡集群的建設并不容易,而要充分發揮其潛力更加具有挑戰性。我們分析認為,這可能是百度飛槳深度聯合技術的功勞,使得文心大模型 4.0 可以在萬卡集群上成功訓練如此龐大的模型。
與此同時,除了訓練成本增加外,文心 4.0 的推理成本也大幅上升,據傳言可能達到之前的8-10倍,尤其在高利用率情況下。如果利用率更低,成本可能還會進一步上升。
根據內部員工的消息,百度已經秘密進行了小流量測試文心大模型 4.0,部分文心一言用戶已經在使用最新的模型版本。最快將在下周正式發布。這一說法得到了一些技術社區爆料的佐證。因此,如果你正在使用文心一言,并且感覺到與GPT-4相當,可能你已經在使用文心大模型 4.0。不過,需要強調的是,以上信息并未得到官方確認,大家仍需謹慎對待其準確性。