【ITBEAR】9月13日消息,近日,由阿里云與NVIDIA攜手舉辦的“天池Better Synth-多模態大模型數據合成挑戰賽”在京圓滿收官。此項AI盛事自今年8月啟動以來,便吸引了眾多國內頂尖高校、科研機構及科技企業的積極參與,經過激烈競爭,最終有10支隊伍脫穎而出,斬獲各項榮譽。
隨著大模型技術的迅猛發展,數據質量在AI性能中的決定性作用日益凸顯。據ITBEAR了解,中科院聲學所的張博士指出,在AI系統的實際應用中,數據質量對性能的影響高達80%,而算法本身的貢獻僅占20%。這一背景下,如何解決多模態大模型訓練中的數據需求與資源有限性之間的矛盾,成為了業界和學界共同關注的焦點。
“天池Better Synth-多模態大模型數據合成挑戰賽”作為Data-Juicer for LLMs系列賽的第四場,旨在通過集思廣益,探索數據合成的新技術與策略,以推動多模態大模型的創新進步。比賽采用了線上初賽與線下決賽相結合的賽制,為參賽者提供了與頂尖技術專家面對面交流的機會,并在統一的設備環境下進行研發與調試,確保了賽事的公平與高效。
本次大賽的一大亮點是阿里巴巴通義實驗室提供的一站式大模型數據處理系統Data-Juicer,該系統為參賽隊伍提供了強大且易用的數據處理與生成工具,顯著提升了數據合成的效率。同時,NVIDIA的TensorRT-Model-Optimizer等工具和FP8訓練框架的引入,進一步優化了模型訓練和推理過程。
在為期兩個月的激烈角逐中,大賽共吸引了來自清華大學、北京大學、復旦大學等知名學府的1066支隊伍參與。經過層層選拔,最終誕生的10強隊伍在決賽中展示了他們的創新方案。例如,VLM隊采用SSIM指標來衡量合成數據的學習難度,以提升模型在小數據量下的學習效果;而dxm小分隊則嘗試運用前沿的ImageTextualization技術來消除圖文內容的不對齊問題,增強模型的模態間對齊能力。
“天池Better Synth-多模態大模型數據合成挑戰賽”的成功舉辦,不僅為參賽者提供了寶貴的實踐與交流平臺,更激發了科研生態的創新活力,有望助力多模態大模型技術的產業落地與發展。隨著技術的不斷進步,我們期待未來能夠看到更多“數據驅動的人工智能”應用場景的涌現。
#天池挑戰賽# #多模態大模型# #數據合成# #AI技術# #創新發展#