近日,國內AR頭部企業Rokid正式發布自研XR數字人技術,支持用戶“捏”出專屬數字人形象,同時,該技術還將對行業開放,支持第三方XR開發者通過SDK集成,接入數字人引擎服務,開發屬于自己的數字人形象和體系。目前,該技術已正式接入Rokid Air App(v1.8.7版本)中,多人在線協同應用MSpace也已實現支持多個用戶以數字人形象同時在線進行會議、觀影等交互活動,打造更廣泛的在線交互場景。
自由“捏”臉設計,讓用戶都能成為元宇宙“女媧”
在設計上,Rokid 自研XR數字人在寫實風格與卡通風格中進行了平衡。通過采用五頭身比例,讓數字人的面部特征與表情動作更加突出和生動,同時也更具親和力,可廣泛適配各年齡段人群并被應用在XR 的社交、游戲、工作,以及商超、展陳、導覽等場景。同時,Rokid自研XR數字人還分別設計了眉毛、眼睛、鼻子、嘴巴、臉型以及服裝組合,通過五官和服裝的自由搭配組合,可以讓用戶“捏”出更具個性的數字人形象。
在打造個性化形象的同時,Rokid還在效果呈現和所需資源消耗方面進行了平衡。通過采用更少的網格面來表現,Rokid自研XR數字人技術大大降低了資源消耗和硬件負荷,以便實現在算力有限的硬件上,如AR眼鏡、手機端等同時驅動大量數字人,進而推動數字人在多人在線的同屏社交場景使用。
目前,Rokid自研XR數字人已基本滿足亞裔人群特征。未來Rokid還將推出更多的五官分類組合和動作,更多樣的膚色、發型、發色以及不同地域風格的服裝、道具等,讓不同的國家和地區的用戶都可以創作出具備獨有特征、妝容、服裝以及道具的數字人。
讓數字人聽音而動,自研音頻驅動技術突破行業難題
數字人的模型有了,該如何讓數字人動起來?
目前,業內一般通過面部捕捉的方式來采集面部動畫的數據,從而讓數字人“動”起來,例如ARkit,Faceware,DynamicXYZ等,就是通過捕捉演員的表情動作,然后再映射到高精度的3D角色面部上。
面部捕捉的方式雖然解決了數字人表情靈動的問題,但在現實應用中,如AR眼鏡等設備并不支持面部捕捉。同時,線上會議等場景還需要數字人能實時生成動畫,面部捕捉的方式并不適用。因此,讓數字人的表情幀和聲音幀同頻,嘴部動畫的實時生成就成為了行業難題。
對此,Rokid技術團隊拿出了最新研發成果——ASR(自動語音識別技術)到音素+bs系數的音頻驅動方案。
通過ASR(自動語音識別技術)到音素+bs系數的音頻驅動方案,無需額外的攝像頭對表情動作進行捕捉,Rokid自研XR數字人就能實現口型與表情動作與真人同步匹配。
同時,不同于業界目前普遍采用的ASR(自動語音識別技術)將語音識別成文字,然后通過TTS(從文本到語音)輸出音素+bs系數的音頻驅動方案,Rokid自研XR數字人采用的音頻驅動方案,基于多年積累的ASR技術,省掉了將語音識別成文字,再由文字輸出音素的環節,在保持識別準確度不低于行業標準的情況下,以更短的識別路徑、更低的延遲(相對業界降低延遲30%)、更低性能要求的驅動方案實現了數字人聲音幀和表情幀的絕對同步。
此外,在移動端,Rokid自研XR數字人解決方案單幀處理時間實現了低于3ms/frame,且CPU占用率能保證的在10%以下。
降低接入門檻,Rokid自研XR數字人技術將對外開放
一個行業的繁榮通常離不開兩個要素的躍遷:第一是生產效率的提升,第二是應用成本的降低。這樣的邏輯在三次工業革命中得到了淋漓盡致的詮釋,同樣也適用XR數字人生態的建設。因此,在不斷優化數字人性能的同時,Rokid自研XR數字人技術還將對外開放,讓更多XR行業開發者都能參與到元宇宙數字人生態建設中。
一方面,Rokid自研XR數字人作為YodaOS-XR的系統形象,將支持第三方XR開發者通過SDK集成,接入數字人引擎服務,開發屬于自己的數字人形象和體系。另一方面,Rokid還將推出數字人管理平臺,支持XR開發者可以通過數字人管理平臺進行數字人形象、服裝、道具等設計,以數字人引擎共同豐富元宇宙生態。
數字人作為人們在元宇宙中穿梭的通行證和身份標識,賦予了人們對數字人的無盡想象,也在無形中加速著XR數字人產品的演進。XR數字人的繁榮需要“先行者”們持續嘗試,不斷沉淀,Rokid也希望通過對XR數字人技術的開放,與XR行業開發者、用戶一起讓人類對數字人的美好想象逐步成為現實。