近日,阿里的對口型視頻生成工具EMO備受關注。據(jù)官方介紹,EMO能夠通過上傳一張圖片和一段音頻,即可一鍵生成對口型視頻,實現(xiàn)嘴型與聲音的匹配。(EMO下載地址見文末)
該技術支持多語言、對話、唱歌以及快速語速的適配,但也引發(fā)了一些擔憂,因為它有可能被用來制造虛假視頻,因此一些知名人士可能需要保持警惕。
EMO的工作原理涉及兩個主要階段。首先是幀編碼階段,利用ReferenceNet從參考圖像和動作幀中提取特征;
其次是擴散過程階段,通過預訓練的音頻編碼器處理聲音嵌入,并結合多幀噪聲和面部區(qū)域掩碼來生成頭像。在此過程中,采用了兩種注意機制(參考注意和音頻注意)和時間模塊,以保持角色身份并調節(jié)運動速度。
不僅如此,EMO還支持多語言歌曲和不同風格的頭像生成,能夠處理歌唱、對話等不同場景。它能夠根據(jù)輸入音頻的長度生成不同長度的視頻,并在長時間內(nèi)保持角色身份特征的穩(wěn)定性。
此外,EMO還展示了在快節(jié)奏音樂中保持與音頻同步的能力,確保角色動畫的表現(xiàn)力和動態(tài)性。
這一研究對于頭像視頻生成領域具有重要意義,為多語言、多樣化場景下的角色表現(xiàn)提供了新的可能性。它不僅可以應用于娛樂產(chǎn)業(yè),還可以在學術研究和教育培訓等領域發(fā)揮重要作用。
EMO下載地址:https://humanaigc.github.io/emote-portrait-alive/
注意:目前官方只公布了項目演示和代碼,試玩地址還未上線,請耐心等待~