隨著人工智能的快速發(fā)展,視音頻技術(shù)也迎來了蓬勃的發(fā)展期。3月31日至4月1日,國內(nèi)音視頻領(lǐng)域盛會LiveVideoStackCon在北京成功舉辦,眾多業(yè)內(nèi)企業(yè)、技術(shù)專家和學(xué)者齊聚一堂,共同探討多媒體音視頻技術(shù)在技術(shù)升級、業(yè)務(wù)場景和應(yīng)用創(chuàng)新等方面的實踐和探索。作為視音頻技術(shù)領(lǐng)域的代表企業(yè)之一,北京美攝網(wǎng)絡(luò)科技有限公司連續(xù)六年參會,展示了在AIGC、數(shù)字人等領(lǐng)域的領(lǐng)先成果,展現(xiàn)了美攝科技的技術(shù)實力和創(chuàng)新能力。
美攝科技研發(fā)中心高級AI算法專家張瑞全出席活動,并圍繞數(shù)字化內(nèi)容生產(chǎn)快速落地分享了自己的見解。
美攝AIGC數(shù)字人基于虛擬視頻合成技術(shù),通過綜合利用計算機視覺、圖像處理和深度學(xué)習(xí)等技術(shù),可以在無實物的條件下生成虛擬視頻。目前主要有三種視頻生成技術(shù):語音驅(qū)動、動作驅(qū)動以及換臉。目前主要存在兩個技術(shù)難點:一是表情和口型預(yù)測,合成視頻容易出現(xiàn)音色改變、口型抖動、口型失真等干擾;二是視頻幀渲染,如何實現(xiàn)真實面部渲染、防止表情失真,如何獲取訓(xùn)練數(shù)據(jù),都是要解決的問題。
張瑞全向與會者介紹了美攝研發(fā)中心實現(xiàn)表情和口型預(yù)測、3D人臉渲染及合成的技術(shù)原理,并詳細(xì)比較了不同方法的優(yōu)缺點。據(jù)他介紹,美攝科技研發(fā)團隊已經(jīng)拿出了相對成熟的技術(shù)方案,實現(xiàn)了逼真的虛擬視頻合成效果。
以此為依托,張瑞全團隊開發(fā)出多種借助AI技術(shù)快速生成數(shù)字人形象的產(chǎn)品應(yīng)用,包括照片自動生成形象、視頻自動生成形象以及GLB模型自動轉(zhuǎn)換形象三種方式。操作者只需上傳一張照片或一段視頻,錄入預(yù)設(shè)的文本內(nèi)容,系統(tǒng)就可以自動生成對應(yīng)的數(shù)字人形象,并配以逼真的語音播報口型,大大縮短制作周期。
他特別提到,以GLB生成數(shù)字人形象時,可以將其轉(zhuǎn)換為美攝自研的3D文件格式“.ARSCENE”,轉(zhuǎn)換后的效果包可以通過MeisheSDK在不同的平臺上實時渲染驅(qū)動。GLB文件是以圖形語言傳輸格式保存的3D模型,它以二進制格式存儲有關(guān)3D模型的信息,包括節(jié)點層級、攝像機、材質(zhì)、動畫和網(wǎng)格。
而談到近來大熱的ChatGPT,張瑞全表示團隊目前主要關(guān)注兩個應(yīng)用方向。一是智能數(shù)字人語音助手,將ChatGPT的混合語義理解能力和美攝已有的語音交互系統(tǒng)相結(jié)合,當(dāng)用戶提問一些開放性問題時,數(shù)字人助手可以給出更好的回答。二是將ChatGPT、視頻剪輯和數(shù)字人相結(jié)合,用戶只需填寫一句話,設(shè)定好要求,系統(tǒng)就可以通過ChatGPT返回分鏡腳本,并從中提取所需標(biāo)簽,由系統(tǒng)從媒資庫中智能尋找對應(yīng)的圖像和視頻資料。用戶可以選擇推薦素材,一鍵套用模板,直接形成預(yù)覽視頻,極大提高視頻創(chuàng)作效率。
據(jù)張瑞全分享,美攝科技的AIGC數(shù)字人方案已經(jīng)成功落地于多個一線品牌,在智能汽車、智能手表、智能手機、社交軟件等領(lǐng)域的產(chǎn)品中都取得了出色的應(yīng)用效果,為這些產(chǎn)品注入了更多創(chuàng)新和智能化元素。