近日,AI頂級學術會議IJCAI 2021(人工智能國際聯合會議,International Joint Conference on Artificial Intelligence)發布了論文錄用結果。
網易伏羲共有三篇論文入選,內容涵蓋強化學習、虛擬人、圖形圖像等多個方向。文中提及的自動編舞、擬人行為算法、說話人臉視頻合成等AI技術,能夠廣泛應用在文創產業,有效提高生產效率,優化用戶體驗。
IJCAI始于1969年,每年舉辦一次,是學術界和產業界極負盛名的AI會議,代表了國際前沿的科研水平。本屆IJCAI將于今年8月在以蒙特利爾為主題的虛擬現實中舉行。延續了上一年嚴格的審稿標準,IJCAI 2021論文接收率低至13.9%,在4204篇投稿論文中,僅有587篇被錄取。
以下是網易伏羲本次入選的論文亮點:
1、《從音樂到舞蹈:游戲內角色的自動編舞》
(Automatic Translation of Music-to-Dance for In-Game Characters)
音樂舞蹈是近年來角色扮演類游戲中廣受玩家喜愛的一個功能。此前,業內普遍將音樂舞蹈生成的問題看作是基于時序數據的受監督動作合成問題。不過,應用這類方法生成舞蹈,需要大規模有標注的訓練數據作為基礎,同時生成動作的質量常常不可控。
對此,網易伏羲提出了一個新的思路——用舞蹈專家視角來看待音樂舞蹈問題。團隊首次嘗試將傳統舞蹈理論建模,即在逐片段的舞蹈動作檢索框架下實現了自動編舞。基于上述設計,玩家可以在算法的基礎上進一步編輯舞蹈動作,實現了以往被忽略的交互功能。
考慮到舞蹈動作所需的動作捕捉技術成本較高,且需要專業的舞者進行指導,因此,團隊進一步使用了自監督訓練方法,大大減少了對監督數據的依賴,降低了訓練成本。
目前,論文中提及的算法已在《天諭》手游的舞者系統中落地,為玩家帶去了極富創造性和觀賞性的游戲體驗。
《天諭》手游編舞玩法
2、《獎賞約束的行為克隆》
(Reward-Constrained Behavior Cloning)
深度強化學習技術已經在很多游戲中成功應用。但是,在強化學習的過程中,AI可能會因為種種原因學習到一些奇怪的“不類人”行為,這些行為可能會對游戲玩家的體驗帶來很大影響。例如,在自動駕駛任務中,如果以速度最快為獎賞,AI在行駛過程中可能會有許多的突然剎車和起步以及一些多余的小幅度變向,導致乘坐體驗不佳,而這通常是人類駕駛員不會有的行為。
通過強化學習訓練出來的自動駕駛AI行駛過程可能會有多余的小幅變向
為了克服這個問題,本文提出了一種在獎賞約束下的行為克隆訓練方法(RCBC)。該方法綜合了模仿學習和帶有約束的強化學習訓練方法,在最大化達到目標的同時,盡量通過人類示范數據學習類人的行為,兼顧學習目標的達成和行為過程的類人程度。
使用本文方法學習出的自動駕駛AI在保持較高速度的同時駕駛過程會更平穩(橫坐標:時間,縱坐標:方向盤旋轉角度,本文方法對應的藍色曲線的車輛轉向角度波動會更小
在實驗部分,本文首先在一個簡單的GridWorld環境中驗證了RCBC可以通過調整超參的數值,來達到學習出不同擬人化程度策略的目的。進一步的,在基于MuJoCo的單擺和雙擺環境中,RCBC可以在保持最終獎勵值不降低的情況下,將學習到人類示范中行為模式所需的訓練時間縮短約20%~50%。最后,在更復雜的自動駕駛模擬環境中(TROCS),RCBC可以在達到103km/h速度的情況下(對比算法最快速度109km/h),極大地提高駕駛過程的平穩程度。
3、《Audio2Head:聲音驅動的一鍵式說話人臉視頻生成器》
(Audio2Head: Audio-driven One-shot Talking-head Generation with Natural Head Motion)
網易伏羲的研究旨在通過任意一張人臉圖像和任意一段語音,合成口型同步、頭動自然、表情自然的人臉說話視頻。
此前,基于神經網絡的算法已經使人臉視頻的口型能夠較好的與語音匹配,但仍存在頭動不夠自然、視頻不連貫、存在大量偽影等問題。為解決上述問題,伏羲團隊對頭動單獨建模,提出基于空間編碼的神經網絡進行自然的頭動序列預測。為了對語音相關的整張圖像的運動進行建模,伏羲團隊提出了使用語音先驅動生成整幅圖的稠密運動場,再由稠密運動場引導圖像合成。
由算法合成的人臉說話視頻
大量的實驗結果證明,網易伏羲提出的方法可以讓人臉視頻的頭動顯得自然,并且與語音節奏保持一致,極大地提升了one-shot說話人臉視頻生成研究的效果。據悉,該技術應用范圍十分廣泛,可用于虛擬助手、智能客服、新聞播報、遠程會議、電子游戲等多個領域。