近日,由首都在線舉辦的“澎湃算力 渲出視界”泛渲染業(yè)務(wù)新品發(fā)布會在蘇州圓滿舉行。作為3D可視化領(lǐng)域的知名品牌,老子云CTO夏宇翔受邀出席,并做了《3D數(shù)字人全自動化解決方案和實(shí)踐》的主題分享。
以下內(nèi)容根據(jù)夏宇翔分享內(nèi)容整理。
老子云作為眸瑞科技的技術(shù)平臺,致力于全球的3D可視化技術(shù),專注于讓一切3D模型在全網(wǎng)多端輕量化處理與展示,為行業(yè)數(shù)字化轉(zhuǎn)型升級與數(shù)字孿生應(yīng)用提供成套的3D可視化應(yīng)用方案。眸瑞科技在提供SaaS服務(wù)能力的同時,也提供PaaS的能力,它具有私有化部署或直接云上調(diào)用的方式,能夠全自動的處理模型。迄今為止,注冊用戶達(dá)到100,000,并深耕于100多個細(xì)分行業(yè),是目前市場上應(yīng)用廣泛普及的3D可視化綜合服務(wù)平臺。
現(xiàn)今互聯(lián)網(wǎng)行業(yè)里最熱的話題,元宇宙,元宇宙大家通常提到很多,3D數(shù)字人作為元宇宙非常核心的部分之一,具有以下幾個特點(diǎn):
1. 擁有人的外觀,特定的容貌、性別、性格等特征;
2. 擁有人的行為、語言、表情和肢體表達(dá)能力;
3. 擁有人的思想、具有識別外界環(huán)境,并且能與自然人進(jìn)行交流的能力
實(shí)現(xiàn)以上的展望,通常也需要五大模塊支持,一個是人物形象,現(xiàn)在時下以搜狗為主有基于2D、3D的方式;二是語音生成;三是動畫生成,四是交互(AI驅(qū)動、真人驅(qū)動),通過面部和捕捉系統(tǒng)做交互驅(qū)動;五是音視頻合成的方向。老子云結(jié)合自己的技術(shù)能力,梳理出要完成數(shù)字人項(xiàng)目的三大類:
第一階段:人體采集,圍繞自動化,通過矩陣化采集方案,快速掃描實(shí)體任務(wù)模型,輸出高精準(zhǔn)度模型,通過拓?fù)涞降湍#谶@些資源進(jìn)行二次編輯。
第二階段:基于頭發(fā)的二次編輯以及對模型進(jìn)行深化,通過AMRI展示框架,集成材質(zhì)體系、燈光體系后進(jìn)行渲染、解析程序的動作解析,包括TTS語義的信息,從而實(shí)現(xiàn)資源到展示的開發(fā)。
第三階段:虛擬演播廳,主要是在幾個方向:一是定義數(shù)字人展示框架標(biāo)準(zhǔn);二是支持信創(chuàng)適配;三是輸出SDK,提供多行業(yè)接口調(diào)用;四是支持場景二次編輯,因?yàn)槲覀兌x的是虛擬演播廳;同時在底層渲染器同步多種材質(zhì)體系,包括Unity、UEE等這些,可以基于跨平臺以后編輯完一個模型,可以選擇基本的Stand(音)材質(zhì)都是可以解析的;也支持多種面捕系統(tǒng)動作腳本解析。
傳統(tǒng)的數(shù)字人系統(tǒng)是DCC建模、結(jié)構(gòu)光掃描儀、和激光掃描儀、無法實(shí)現(xiàn)自動化,無法擺脫人工,需要大量的二次修復(fù),老子云推出的框架擁有較大的優(yōu)勢,是一個全自動化建模,自動化修復(fù)的系統(tǒng),它擁有復(fù)合式照片采集系統(tǒng),在搭載錄像機(jī)、攝像機(jī)和攝像頭的同時在板載系統(tǒng)搭載,實(shí)現(xiàn)控制功能。
同時,老子云數(shù)字人平臺擁有智能化捏臉擬合編輯系統(tǒng),通過定義了360個全身動作骨骼點(diǎn)的動作綁定,通過API的方式,已經(jīng)TDS語義訓(xùn)練出動作腳本,就可以使整個模型做任何一個動作。
老子云在首都在線云平臺SaaS服務(wù)搭載的硬件框架上部署的這一套合成方案,集合華為數(shù)字人的3D擬合器以及長城信息的虛擬演播廳,用戶可以通過自由選擇拍攝框架的硬件搭載方案進(jìn)行拍攝后,直接上傳云進(jìn)行自動合成。
目前,老子云的3D數(shù)字人技術(shù)解決方案已經(jīng)成功應(yīng)用于金融、泛娛樂等領(lǐng)域。未來,老子云也將與首都在線共同聯(lián)合打造更多的部署環(huán)境及方案,為教育、文旅、零售等的發(fā)展提供更有力的技術(shù)支持。