【ITBEAR】在自然語言處理領域,一個顯著的轉(zhuǎn)折點正在顯現(xiàn):單純的模型規(guī)模和數(shù)據(jù)量增加,似乎已觸及性能提升的瓶頸。業(yè)界開始質(zhì)疑,Scaling Law是否已走到盡頭,低精度訓練與推理是否正導致模型性能提升的邊際效益不斷遞減。然而,這一挑戰(zhàn)也為新的探索開辟了道路。
盡管Scaling Law在自然語言處理中顯露出“力不從心”的跡象,但在多模態(tài)模型領域,它還未被真正驗證。多模態(tài)數(shù)據(jù)因其復雜性,在訓練規(guī)模上難以達到與自然語言處理相當?shù)乃健H欢迦A系大模型公司生數(shù)科技最新發(fā)布的Vidu 1.5,卻為這一領域帶來了新曙光。
Vidu 1.5通過持續(xù)的規(guī)模擴展(Scaling Up),在多模態(tài)領域?qū)崿F(xiàn)了突破性的“奇點”時刻。它涌現(xiàn)出了“上下文能力”,能夠理解和記憶輸入的多主體信息,并展現(xiàn)出對復雜主體更精準的控制。無論是細節(jié)豐富的角色還是復雜的物體,通過上傳不同角度的三張圖片,Vidu 1.5都能確保單主體形象的高度一致。
不僅如此,Vidu 1.5還實現(xiàn)了多主體之間的一致性。用戶可上傳包含人物角色、道具物體、環(huán)境背景等多種元素的圖像,Vidu能夠?qū)⑦@些元素無縫融合,并實現(xiàn)自然交互。這一成就不僅彰顯了Scaling Law在多模態(tài)領域的潛力,更體現(xiàn)了生數(shù)科技所采用的無微調(diào)、大一統(tǒng)技術架構的優(yōu)越性。
回顧大語言模型的發(fā)展歷程,從GPT-2到GPT-3.5的質(zhì)變,同樣實現(xiàn)了從預訓練+特定任務微調(diào)方式到整體統(tǒng)一框架的突破。Vidu 1.5的推出,標志著多模態(tài)大模型也迎來了類似的GPT-3.5時刻。生數(shù)科技CTO鮑凡表示,他們從一開始就瞄準了通用多模態(tài)大模型的目標,并未在Sora等已有方案上亦步亦趨。
生數(shù)科技不僅在技術路線上具有先發(fā)優(yōu)勢,更具備持續(xù)突破的能力。Vidu與業(yè)界其他視頻生成模型相比,已初步形成技術代差。這得益于其重新設計的底層架構,該架構將問題統(tǒng)一為視覺輸入、視覺輸出的patches,并采用單個網(wǎng)絡統(tǒng)一建模變長的輸入和輸出。
實現(xiàn)主體一致性,是視頻模型領域的一大難題。鮑凡比喻道,這好比制造一臺性能卓越的發(fā)動機,雖然知道其重要性,但實現(xiàn)起來卻困難重重。Vidu在主體一致性方面的成果,并非一蹴而就。從Vidu上線之初主打解決一致性問題,到逐步拓展到單主體及多主體控制的全面能力,每一步都凝聚了團隊的智慧與汗水。
與其他仍采用預訓練+LoRA微調(diào)方案的模型不同,Vidu采用的大一統(tǒng)架構,無需單獨進行數(shù)據(jù)收集、標注和微調(diào),僅需1到3張圖就能輸出高質(zhì)量視頻。這一架構不僅提高了效率,還避免了過擬合和特征不精準等問題。
隨著高質(zhì)量數(shù)據(jù)的持續(xù)投入和模型規(guī)模的擴大,Vidu 1.5在底層視頻生成模型上也展現(xiàn)出了類似于大語言模型的智能涌現(xiàn)。例如,它能夠融合不同主體,創(chuàng)造出全新的角色,這是之前未曾預料到的能力。Vidu 1.5在上下文能力和記憶能力方面也取得了顯著提升,能夠生成一致、連貫且有邏輯的視頻內(nèi)容。
生數(shù)科技接下來將繼續(xù)沿著上下文能力這一主線進行迭代。鮑凡表示,隨著模型上下文能力的提升,將為用戶帶來更大的想象空間。例如,通過輸入電影切片,可以生成具有相似攝影技巧的視頻片段;通過輸入經(jīng)典打斗動作的視頻,可以生成打斗技巧精妙、畫面精良的視頻。
Vidu在上下文能力方面的迭代有著自己的節(jié)奏和規(guī)劃。從初期僅能參考單一主體的面部特征,到現(xiàn)在能參考多個主體,未來還將實現(xiàn)參考拍攝技巧、運鏡、調(diào)度等更多因素。這一過程中,參考對象從具體到抽象,要求和難度逐漸提升,但Vidu正穩(wěn)步前行。