【ITBEAR科技資訊】4月17日消息,近日,科技領域對于模型訓練的效率和性能展開了新的討論。這主要源于面壁智能發布的一系列高效、低參數的大模型,這些模型在保持高性能的同時,顯著降低了參數規模和訓練成本。
大約一個月前,馬斯克旗下的xAI團隊開源了名為Grok-1的巨型MoE模型,其參數量高達3140億,被譽為“龐然大物”。然而,令人驚訝的是,盡管Grok-1在參數規模上占據優勢,但其性能表現卻僅與Mistral AI的8x7B MoE模型相當。這一現象引發了業內對于“參數數量與模型性能”關系的深入反思。
在此背景下,面壁智能的最新研究成果顯得格外引人注目。據悉,面壁智能自2020年開始訓練大模型以來,便始終致力于提升模型訓練的效率。他們堅信,“讓每一個參數發揮最大的作用”,在同等參數量上實現更好的性能,才是解決大模型“高效”訓練的核心。
今年2月,面壁智能發布了MiniCPM 2B模型,該模型在較小的參數量基礎上實現了與Mistral-7B相當的性能,驗證了其“低參數、高性能”的方法論。更重要的是,面壁智能通過這一系列研究,成功降低了千億大模型的訓練成本。
4月11日,面壁智能又推出了新一代端側旗艦大模型系列,包括顯著增強OCR能力的2.8B多模態模型MiniCPM-V 2.0、僅1.2B卻強過llama2-13B的MiniCPM-1.2B模型等。這些模型的推出進一步證明了面壁智能在高效訓練大模型方面的實力。
據ITBEAR科技資訊了解,面壁智能之所以能夠在模型訓練效率和性能上取得顯著成果,得益于他們獨特的“高效訓練”理念以及在小模型上的深入探索。通過小模型驗證大模型的訓練投入產出比,面壁智能走出了一條獨特的研發路線。這不僅使他們在資源有限的情況下實現了模型的高效訓練,還為未來實現通用人工智能(AGI)奠定了堅實的基礎。
近日,面壁智能也完成了新一輪數億元融資,這將為他們未來的研發工作提供更多的資金支持。在追求高效訓練的道路上,面壁智能正不斷取得新的突破,為大模型領域的發展注入了新的活力。