【ITBEAR】作者 | 華衛
近日,百度聯合復旦大學等發布 Hallo2,一個可以生成長達數小時且分辨率為 4K 的人物動畫的視覺模型。Hallo2 目前已經在 GitHub 平臺開源,供全球開發者免費使用和研究,預計將促進視頻生成技術的廣泛應用和發展。( 項目地址:https://fudan-generative-vision.github.io/hallo2/#/)
Hallo2 發布后,在海外引發了不小的震動。有人驚嘆視頻生成的長度和分辨率,也有老用戶從 Hallo 第一代模型就被圈粉,還有對 Hallo2 開源模型和代碼的認可。
Hallo2 備受關注,很重要一個原因是百度和復旦的研究團隊解決了人像視頻生成一個很大的痛點:如何提升視頻生成的時長和質量。
一直以來,生成高質量的人物動畫需要耗費大量的時間和人力成本。而百度與復旦聯合發布的 Hallo2 的出現,有望徹底改變這一現狀,為數字人、電影制作、虛擬助手、游戲開發等領域帶來革命性的變化。
Hallo2 是能夠實現長達一小時、4K 分辨率的音頻驅動人像動畫生成模型。通過創新的圖像塊丟棄、噪聲增強和時間對齊等技術,Hallo2 解決了長時視頻生成中的外觀漂移和視覺不一致問題,支持靈活的語音與文本控制,生成質量達到業內領先水平。
Hallo2 繼承了前代 Hallo 模型的創新框架,繼續采用基于擴散的生成模型和分層音頻驅動視覺合成模塊,提高了音頻與視覺輸出之間的同步精度,并經過改進使得各部分的協同作用更加高效,增強了生成動畫的質量和真實感。Hallo2 不僅在圖像和視頻的質量方面有了顯著提升,而且大幅增加了動作的豐富性和多樣性。
有行業專家表示,Hallo2 的出現,標志著音頻驅動的肖像圖像動畫技術邁入了新的發展階段。百度基于長期的視覺技術積累,正在瞄準行業痛點進行針對性研究和場景落地,不僅為開發者提供了強大的工具,也為未來各種應用場景下的動畫形象創作帶來了新的可能性。