【ITBEAR科技資訊】6月25日消息,AI 創業公司MosaicML近日發布了一款名為MPT-30B的語言模型,該模型擁有300億參數,訓練成本遠低于其他競爭對手,有望推動AI模型在更廣泛領域的應用并逐步降低訓練成本。
MosaicML首席執行官兼聯合創始人Naveen Rao表示,MPT-30B的訓練成本僅為70萬美元(約502.44萬元人民幣),遠低于類似產品如GPT-3所需的數千萬美元訓練成本。該模型由于成本低、體積小,可以更快速地進行訓練,并且更適合在本地硬件上部署。
據ITBEAR科技資訊了解,MosaicML采用了Alibi和FlashAttention技術來優化模型,這些技術可以實現更長的文本長度和更高的GPU計算利用率。MosaicML還是少數幾個能夠使用Nvidia H100 GPU的實驗室之一,相較于以往的成果,他們的每塊GPU吞吐量提高了2.4倍以上,從而可以更快地完成訓練過程。
除了使AI技術更易獲取外,MosaicML還專注于提高數據質量并提升模型性能。他們目前正在開發一款工具,可以在預訓練過程中逐步引入特定領域的數據,以確保訓練中包含多樣化且高質量的數據組合。
MosaicML表示,將模型參數擴展到300億只是第一步,接下來他們將以降低成本為前提,推出更大體積、更高質量的模型。
需要注意的是,開發者可以從Hugging Face下載并使用開源的MPT-30B基礎模型,還可以使用自己的數據在本地硬件上進行微調。