【ITBEAR】9月24日消息,字節跳動正式宣布進軍AI視頻生成領域。9月24日,其旗下火山引擎在深圳舉辦了AI創新巡展活動,并在此活動中推出了兩款面向企業市場的大模型:豆包視頻生成-PixelDance和豆包視頻生成-Seaweed,同時開啟了邀測。
在活動現場,豆包視頻生成的效果令人印象深刻。無論是語義理解能力,還是處理多個主體復雜交互畫面的能力,甚至是多鏡頭切換下的內容一致性,豆包視頻生成大模型都展現了業界領先的水平。
據ITBEAR了解,火山引擎總裁譚待表示,視頻生成領域仍有許多技術難關需要攻克。他強調,豆包的兩款模型將持續進化,探索解決關鍵問題的更多可能性,以期加速拓展AI視頻的創作空間和應用落地。
創新技術是豆包視頻生成模型的核心優勢。與以往只能完成簡單指令的視頻生成模型不同,豆包視頻生成模型能夠實現自然連貫的多拍動作與多主體復雜交互。有創作者在體驗后發現,該模型生成的視頻不僅能遵循復雜指令,讓不同人物完成多個動作指令的互動,還能確保人物樣貌、服裝細節甚至頭飾在不同運鏡下的一致性,效果接近實拍。
豆包視頻生成模型基于DiT架構,通過高效的DiT融合計算單元,使視頻能在大動態與運鏡中自由切換,并擁有變焦、環繞、平搖、縮放、目標跟隨等多鏡頭語言能力。其全新設計的擴散模型訓練方法攻克了多鏡頭切換的一致性難題,能在鏡頭切換時同時保持主體、風格、氛圍的一致性,這是豆包視頻生成模型獨特的技術創新。
經過剪映、即夢AI等業務場景的打磨和持續迭代,豆包視頻生成模型具備了專業級的光影布局和色彩調和能力,畫面視覺極具美感和真實感。其深度優化的Transformer結構大幅提升了視頻的泛化能力,支持3D動畫、2D動畫、國畫、黑白、厚涂等多種風格,并適配電影、電視、電腦、手機等各種設備的比例。這使得豆包視頻生成模型不僅適用于電商營銷、動畫教育、城市文旅、微劇本等企業場景,也能為專業創作者和藝術家們提供強大的創作輔助。
目前,新款豆包視頻生成模型正在即夢AI內測版進行小范圍測試,未來將逐步開放給所有用戶。剪映和即夢AI市場負責人陳欣然表示,AI能夠與創作者深度互動,共同創作,帶來許多驚喜和啟發。即夢AI希望成為用戶最親密和有智慧的創作伙伴。
在此次活動中,豆包大模型不僅新增了視頻生成模型,還發布了豆包音樂模型和同聲傳譯模型,已全面覆蓋語言、語音、圖像、視頻等全模態,全方位滿足不同行業和領域的業務場景需求。
隨著產品能力的日益完善,豆包大模型的使用量也在迅速增長。據火山引擎披露,截至9月,豆包語言模型的日均tokens使用量已超過1.3萬億,相比5月首次發布時增長了十倍。同時,多模態數據處理量也分別達到每天5000萬張圖片和85萬小時語音。
譚待認為,大模型的價格已不再是阻礙創新的門檻。隨著企業的大規模應用,大模型支持更大的并發流量正在成為行業發展的關鍵因素。他介紹稱,業內多家大模型目前最高僅支持300K甚至100K的TPM(每分鐘token數),難以承載企業生產環境的流量。而豆包大模型默認支持800K的初始TPM,遠超行業平均水平,客戶還可根據需求靈活擴容。
“在我們的努力下,大模型的應用成本已經得到很好的解決。大模型的發展應該從價格競爭轉向性能和服務的競爭,提供更出色的模型能力和服務。”譚待強調。
關鍵詞:#字節跳動# #AI視頻生成# #豆包大模型# #火山引擎# #即夢AI#