【ITBEAR】在視頻云技術大會上,火山引擎推出了一項針對大模型訓練視頻預處理的新方案,該方案已被應用于豆包視頻生成模型。火山引擎總裁譚待在活動中表示,受AIGC和多模態技術推動,用戶體驗正經歷深刻變革。他強調,火山引擎視頻云正基于抖音業務實踐,探索AI大模型與視頻技術的深度融合,旨在從技術底座、處理鏈路和業務增長層面為企業提供解決方案。
預處理訓練視頻是確保大模型訓練效果的關鍵步驟。通過預處理,可以統一視頻數據格式、提升數據質量、實現數據標準化、減少數據量以及處理標注信息,使模型能夠更高效地學習和提取視頻中的特征和知識,從而提升訓練效果和效率。
抖音集團視頻架構負責人王悅指出,大模型廠商在視頻預處理過程中面臨多重挑戰,包括超大規模視頻訓練數據集帶來的高昂計算和處理成本、視頻樣本數據的質量參差不齊、處理鏈路環節眾多且工程復雜,以及需要調度部署多種異構算力資源,如GPU、CPU和ARM。
為了應對這些挑戰,火山引擎依托自研的多媒體處理框架BMF,發布了新的大模型訓練視頻預處理方案。該方案能夠有效降低模型訓練的算力成本,同時在算法和工程方面進行了優化,能夠高質量地預處理海量視頻數據,并在短時間內實現處理鏈路的高效協同,從而提升模型訓練效率。火山引擎還發布并開源了BMF lite版本,這是一個移動端后處理解決方案,支持端側大模型接入和算子加速,更加輕量且通用。
豆包視頻生成模型PixelDance于9月24日發布,采用DiT架構,并通過高效的DiT融合計算單元和全新設計的擴散模型訓練方法,解決了多主體運動的復雜交互和多鏡頭切換的內容一致性難題。目前,豆包視頻生成模型已通過火山引擎向企業開放邀測。