10月15日消息,火山引擎在視頻云技術(shù)大會上發(fā)布了大模型訓(xùn)練視頻預(yù)處理方案。目前,該技術(shù)方案已應(yīng)用于豆包視頻生成模型。
火山引擎總裁譚待在活動致辭表示,在AIGC、多模態(tài)等技術(shù)的共同推動下,用戶體驗在多個維度上經(jīng)歷著深刻轉(zhuǎn)變,“基于抖音業(yè)務(wù)實踐和與行業(yè)客戶共創(chuàng),火山引擎視頻云正積極探索AI大模型與視頻技術(shù)的深度融合,在技術(shù)底座、處理鏈路和業(yè)務(wù)增長層面為企業(yè)尋找解法。”譚待說。
據(jù)介紹,對訓(xùn)練視頻進(jìn)行預(yù)處理是保障大模型訓(xùn)練效果的重要前提。預(yù)處理過程可以統(tǒng)一視頻的數(shù)據(jù)格式、提高數(shù)據(jù)質(zhì)量、實現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化、減少數(shù)據(jù)量以及處理標(biāo)注信息,從而使模型能更高效地學(xué)習(xí)視頻中的特征和知識,提升訓(xùn)練效果和效率。
抖音集團(tuán)視頻架構(gòu)負(fù)責(zé)人王悅表示,對大模型廠商而言,上述過程中面臨著諸多挑戰(zhàn)。
“首先,超大規(guī)模視頻訓(xùn)練數(shù)據(jù)集導(dǎo)致計算和處理成本激增,”王悅說,“其次是視頻樣本數(shù)據(jù)參差不齊,然后是處理鏈路環(huán)節(jié)多、工程復(fù)雜,最后還面臨著對GPU、CPU、ARM等多種異構(gòu)算力資源的調(diào)度部署。”
借助Intel的CPU、GPU等不同資源,火山引擎此次發(fā)布的大模型訓(xùn)練視頻預(yù)處理方案依托于自研的多媒體處理框架BMF,能有效應(yīng)對模型訓(xùn)練的算力成本挑戰(zhàn)。此外,該方案還在算法和工程方面進(jìn)行了調(diào)優(yōu),可以對海量視頻數(shù)據(jù)高質(zhì)量預(yù)處理,短時間內(nèi)實現(xiàn)處理鏈路的高效協(xié)同,提高模型訓(xùn)練效率。值得一提的是,火山引擎本次還發(fā)布并開源了移動端后處理解決方案BMF lite版本。BMF lite支持端側(cè)大模型接入和算子加速,更加輕量、通用。
據(jù)了解,豆包視頻生成模型PixelDance于9月24日發(fā)布,該模型采用 DiT 架構(gòu),通過高效的DiT融合計算單元和全新設(shè)計的擴(kuò)散模型訓(xùn)練方法,突破了多主體運動的復(fù)雜交互、多鏡頭切換的內(nèi)容一致性難題。目前,豆包視頻生成模型已通過火山引擎面向企業(yè)開啟邀測。
【來源:網(wǎng)易科技】