【ITBEAR】火山引擎在近期舉辦的視頻云技術大會上,推出了一項針對大模型訓練視頻預處理的創新方案。該方案已被應用于豆包視頻生成模型,顯示出其在實際應用中的潛力。
火山引擎總裁譚待在會上表示,隨著AIGC和多模態技術的發展,用戶體驗正在發生深刻變化?;鹕揭嬉曨l云正積極探索AI大模型與視頻技術的結合,旨在為企業解決技術、處理鏈路和業務增長層面的問題。
抖音集團視頻架構負責人王悅指出,大模型廠商在視頻預處理過程中面臨多重挑戰,包括龐大的數據集帶來的計算和處理成本問題,視頻樣本質量的不一致,處理鏈路的復雜性,以及多種異構算力資源的調度和部署難題。
為了應對這些挑戰,火山引擎依托自研的多媒體處理框架BMF,發布了這項大模型訓練視頻預處理方案。該方案能夠充分利用Intel的CPU、GPU等不同資源,有效降低模型訓練的算力成本。同時,通過算法和工程的優化,實現了對海量視頻數據的高質量預處理,提升了模型訓練效率。
火山引擎還發布了BMF lite版本,這是一個移動端后處理解決方案,支持端側大模型接入和算子加速,更加輕量且通用。
豆包視頻生成模型PixelDance于9月24日面世,采用DiT架構,并通過創新的擴散模型訓練方法,解決了多主體運動復雜交互和多鏡頭切換的內容一致性難題。目前,該模型已通過火山引擎向企業開放邀測。