【ITBEAR科技資訊】4月19日消息,微軟的最新研究預覽版模型雖然暫時只能供微軟研究團隊使用,但所展示的功能令人印象深刻。這款模型被稱為VASA-1,它采用了一種全新的框架,用于創造逼真的說話人臉,特別適用于虛擬人物的動畫制作。與之前類似技術相比,VASA-1 在質量和逼真度上似乎有了質的飛躍,能夠減少嘴部動作的偽影,與Google研究院最近推出的VLOGGER人工智能模型類似。
據ITBEAR科技資訊了解,VASA-1的工作原理是利用音頻驅動動畫的方法,可以根據音頻內容生成相應的面部表情和動作。微軟表示,該模型不僅能夠處理面向正面的人像圖像,還能應對不同方向拍攝的圖像,表現出強大的控制能力,包括眼睛注視的方向、頭部距離甚至情緒。
VASA-1的意義在于,它拓展了許多領域的應用可能性。例如,可以用于游戲中的高級唇語同步,提升游戲的沉浸感;也可用于社交媒體視頻的虛擬化身創建,以及基于人工智能的電影制作,使人工智能角色看起來更加逼真。
然而,盡管VASA-1展示了出色的效果,微軟團隊表示,目前這只是一次研究演示,并沒有公開發布的計劃,也不會提供給開發人員在產品中使用。
該模型令人驚訝的一點是,即使在訓練數據集中沒有包含音樂內容,它也能完美地對歌曲進行歌詞嘴型同步,展示出出色的多功能性。它還能處理不同風格的圖像,包括蒙娜麗莎。
雖然微軟團隊強調VASA-1目前僅用于研究,但人們對它未來的潛在應用充滿期待,甚至可能成為未來一些產品的一部分。