對于虛擬人,很多人并不陌生。早前科大訊飛的多語種虛擬主播小晴、央視A.I.虛擬記者通通,給了大眾對技術應用的更多想象空間。
近日,科大訊飛虛擬人技術再突破,發布更加活潑生動的A.I.虛擬人愛加,并最新上線了愛加幫你送新春祝福的H5《你用A.I.拜年了嗎?》,用戶可通過愛加,把最暖心的新春祝福送到家人朋友眼前。(在微信公眾號“科大訊飛”后臺回復“愛加”即刻體驗,還有機會獲得千元驚喜A.I.禮物)
和以往小晴等虛擬人不一樣的是,愛加在聲音、肢體動作乃至于微表情的表達上更豐富,還熟悉更多種語言和方言,用戶通過愛加拜年,能讓天南海北的朋友倍感親切。
技術難點逐一擊破,這次愛加更“人性化”
人工智能不斷進步,A.I.早已不再是冷冰冰的科技,而是演變成為能幫助人類享受智慧生活、守護情感世界的好幫手。虛擬人的應用前景可期,但由于技術限制,其肢體動作、語言、情感表達效果還不能滿足人們期待。
那么科大訊飛是如何攻克合成難點,讓其A.I.虛擬人有更高的觸達率?
首先,拓展A.I.虛擬人的“本事”,讓其“能說會道”“能歌善舞”。在科大訊飛A.I.虛擬人已有的多語種、多方言合成能力之外,科大訊飛提出了基于歌唱音準的無監督歌唱標注方法,將發音和音準分離,利用神經網絡分層級預測,結合高精度神經網絡聲碼器合成高品質歌曲,同時提出姿態自適應的表情合成技術,解決了舞動狀態面部姿態大角度以及多角度快速切換場景下的唇形合成難題,在使得虛擬人在精通各種語言的同時,還能傾情演唱。
其次,增強虛擬人的“人性化”。為了給虛擬人注入情感,使其在互動表達中更有人情味,科大訊飛結合認知心理學理論對虛擬人進行交互情感設計,利用無監督表征學習方法,分離并獲取語音中的情感表征。同時,利用海量文本無監督語義模型對各類文本進行情感分類預測,實現人性化的端到端情感合成系統,讓虛擬人“活潑”起來。
最后,提升虛擬人的“表現力”。為使拜年視頻更具個性化,科大訊飛提出結合場景的背景音樂、音效疊加方案。通過對常用場景分類分析,構建豐富多元的背景音樂、音效資源庫,結合具體應用場景,進行背景音樂、音效的預測、疊加,從而實現高表現力的虛擬形象合成,用戶能定制理想狀態中的拜年場景,讓A.I.拜年場景更加生動多元。
值得一提的是,基于科大訊飛提出的海量說話人的音視頻數據預訓練技術,虛擬人愛加能夠做到基于少量數據就完成快速的建模,滿足多種場景多種風格形象的快速定制,同時,當前虛擬人實時合成的速度以及并發一直是業界的痛點,科大訊飛本次的虛擬人拜年活動支持了高并發在線高質量視頻生成,從而大幅提升虛擬人視頻制作的效率。用戶只需要等待幾秒鐘就可以完成一個A.I.虛擬人合成視頻,有效突破了A.I.虛擬人因為并發路數有限而不能大規模推廣的難題,同時也展現出A.I.虛擬人從toB向toC推廣應用的可能。
可以預見,虛擬人愛加只是一個科大訊飛在虛擬人技術突破的一個新起點,它的出現為下一步A.I.虛擬人的大范圍、規模化應用奠定了堅實基礎。
目前,科大訊飛基于A.I.交互能力的虛擬形象解決方案,已經應用于多個場景,如虛擬站務員、虛擬金融理財顧問、虛擬面試官,科大訊飛虛擬人的多模態得到了廣泛應用。虛擬人愛加的技術突破,正是科大訊飛多年技術的厚積薄發,用A.I.理念改變生活的發展理念的具體呈現。未來,科大訊飛還會為虛擬人帶來怎樣的科技高峰再現,值得期待。