阿里巴巴再次引領(lǐng)AI技術(shù)潮流,推出了EMO,這是一個(gè)AI肖像視頻生成框架,能夠通過(guò)圖像和音頻生成富有表現(xiàn)力的人像視頻。EMO具有讓頭像唱歌的功能,頗具趣味性。(阿里巴巴EMO地址見(jiàn)文末)
它獨(dú)特之處在于能夠利用單一的參考圖像和音頻來(lái)生成豐富的面部表情和頭部姿勢(shì)變化的肖像視頻,且視頻長(zhǎng)度可根據(jù)音頻而定,保持角色身份的一致性。EMO是一個(gè)純視覺(jué)解決方案,無(wú)需XML和系統(tǒng)元數(shù)據(jù),操作范圍廣泛,并配備多種視覺(jué)感知工具用于操作定位。
目前官方只公布了項(xiàng)目演示和代碼,試玩地址還未上線,請(qǐng)耐心等待~
EMO能夠通過(guò)輸入單一的參考圖像和聲音音頻,如說(shuō)話(huà)和唱歌,生成具有表現(xiàn)力的視頻,其中的嘴型還可以與聲音匹配。這表明EMO能夠處理任意語(yǔ)音和圖像輸入,支持任意語(yǔ)速和圖像,實(shí)現(xiàn)高度個(gè)性化的視頻內(nèi)容生成。甚至可以制作各種風(fēng)格的歌唱視頻,僅需一張藝術(shù)家的圖片即可,極具想象力!
EMO的工作原理主要分為兩個(gè)階段:幀編碼和擴(kuò)散過(guò)程。在幀編碼階段,部署了ReferenceNet從參考圖像和運(yùn)動(dòng)幀中提取特征,而在擴(kuò)散過(guò)程階段,則是預(yù)訓(xùn)練的音頻編碼器處理音頻嵌入。面部區(qū)域蒙版與多幀噪點(diǎn)集成在一起,控制面部圖像的生成,并應(yīng)用兩種形式的注意力機(jī)制:參考注意力和音頻注意力。
EMO的主要功能包括將靜止照片變成會(huì)說(shuō)話(huà)或唱歌的視頻,表情和頭動(dòng)作看起來(lái)真實(shí)自然,支持多種語(yǔ)言和風(fēng)格,能跟上快節(jié)奏,以及模仿不同人的表現(xiàn)。
EMO的應(yīng)用場(chǎng)景廣泛,可用于同步聲音配合,塑造栩栩如生的人物,創(chuàng)建吸引眼球的教學(xué)資源,賦予虛擬助理人性化特質(zhì),增添視頻會(huì)議的魅力和個(gè)性,以及創(chuàng)作印象深刻的營(yíng)銷(xiāo)內(nèi)容。
在官網(wǎng)上,用戶(hù)可以欣賞到EMO生成的驚艷視頻,盡管目前無(wú)法親身體驗(yàn),但EMO的出現(xiàn)無(wú)疑為AI技術(shù)的發(fā)展注入了新的活力。如果對(duì)AI或編程感興趣,不妨關(guān)注EMO的相關(guān)動(dòng)態(tài)。
EMO下載地址:https://humanaigc.github.io/emote-portrait-alive/