如果讓你用一句話簡單描述下騰訊的“數(shù)智人” ,你會想到什么?“它既可以是多才的員工,也可以是吸粉的明星代言人。”這是騰訊云智能數(shù)智人產(chǎn)品總經(jīng)理陳磊的答案。
2022年9月,在央視播出的《閃亮的名字——2022最美教師發(fā)布儀式》上,騰訊數(shù)智人“云萱”以節(jié)目主持人的身份亮相,其通過真實生動的形象和專業(yè)的主持能力,給觀眾帶來了一場亮點頗多的節(jié)目體驗。同年,適逢中國國家博物館創(chuàng)建110周年之際,騰訊數(shù)智人“艾雯雯”走進國博展廳,開啟國博“打工人”新生活,并將在今后通過不斷的學(xué)習(xí),肩負(fù)國博形象代言人和具備多個工作崗位能力的員工的責(zé)任。
而在2023年4月25日,通過騰訊數(shù)智人的支持,數(shù)字經(jīng)濟學(xué)者劉興亮以短視頻“亮三點”為例,展示了他的首個數(shù)智人分身。
圖丨劉興亮用小樣本數(shù)智人生產(chǎn)視頻(來源:資料圖)
“這個形象近似真人,表情、唇型匹配自然,包括我的特色口音也模擬得惟妙惟俏的數(shù)智人,正是騰訊云智能小樣本數(shù)智人。未來,不需要搭建拍攝場地,也不用提前化妝彩排,不受空間、時間限制,數(shù)智人可以隨時隨地幫我生成口播視頻,解放我的生產(chǎn)力。”劉興亮如是說。
推出2D真人小樣本數(shù)智人,只需24小時即可為用戶打造出專屬數(shù)智分身
騰訊自2018年起開始研發(fā)數(shù)智人,一直以來都將“更智慧、更懂行”作為發(fā)展方向。陳磊解釋道:“一個通過AI技術(shù),能夠提升智能性,更智慧。第二個是更懂行,我們進入到各種各樣的行業(yè)和場景,做深入的場景集成,使我們在行業(yè)的技術(shù)訣竅里形成很強的積累,提升行業(yè)的服務(wù)效能。”
綜觀旗下數(shù)智人的整體產(chǎn)品矩陣,其形象類型非常豐富,覆蓋3D寫實、3D半寫實、3D卡通、2D真人、2D卡通五種風(fēng)格,能夠掌握數(shù)百種肢體動作和細膩的面部情感表情,支持內(nèi)容生產(chǎn)、形象資產(chǎn)管理等方面的服務(wù)。
騰訊研究院高級研究員宋揚表示:“整個數(shù)字人圍繞著兩點,第一是好看的皮囊,第二是有趣的靈魂。”
2D真人風(fēng)格分為精品和小樣本兩種模式。前者主要面向客服、虛擬IP形象等場景,成本約在數(shù)十萬、百萬級別,需要一個專業(yè)主播在錄影棚錄制一到兩天,才能完成形象的打造。
而本次溝通會上推出的數(shù)智人,是2D真人小樣本數(shù)智人。其也是根據(jù)真人形象定制,但普通人只需要錄制3至5分鐘的視頻,就能夠生成屬于自己的數(shù)智分身,人工成本、時間和效益等已經(jīng)迎來了極大的改善。
具體來說,用戶只需提交少量的樣本數(shù)據(jù)進行AI訓(xùn)練,比如3分鐘真人口播視頻、100句語音素材,就能在24小時內(nèi)打造出一個與真人形象、語音非常逼真的數(shù)智分身。
圖丨2D真人小樣本數(shù)智人(來源:資料圖)
據(jù)此得到的數(shù)智人,既支持半身或全身形象展示,又能根據(jù)內(nèi)容調(diào)整動作、手勢、口型、表情等,還支持任意更換錄制背景,應(yīng)用場景的適用性得到極大的增強。
事實上,2D小樣本技術(shù)是由3D技術(shù)來提供支撐的。騰訊優(yōu)圖實驗室研究總監(jiān)汪鋮杰表示:“小樣本數(shù)智人從直觀上感受是2D視頻,背后其實是3D人像在做支撐。從‘文本/音頻’信息到‘3D人像驅(qū)動’再到‘2D人像視頻’的模式,通過3D人臉結(jié)構(gòu)的先驗信息引入,使數(shù)智人口型、表情更到位,讓小樣本數(shù)智人形象實現(xiàn)‘皺紋級’還原。”
與此同時,小樣本的背后是“大”,也即基于自監(jiān)督技術(shù),構(gòu)建大的數(shù)據(jù)和模型,用大模型持續(xù)消化語音、文本、口型等更多的數(shù)據(jù)。
從聲音復(fù)刻上看,小樣本數(shù)智人基于騰訊自研的新一代小樣本音色制定技術(shù),以及深度學(xué)習(xí)的聲學(xué)模型及神經(jīng)網(wǎng)絡(luò)聲碼器,能夠有效改善傳統(tǒng)聲學(xué)模型語音韻律單一、語調(diào)平淡的問題,進而提升語音合成的精細化水平。
此外,為了進一步提高小樣本數(shù)智人的品質(zhì),騰訊還運用了包括高精度人像分割、人像美化、視線矯正等多項視覺AI技術(shù)。
加速數(shù)智人向千行百業(yè)普及,向行業(yè)開放數(shù)智人工廠生產(chǎn)能力
如上所述,小樣本數(shù)字人具備基于真人形象定制、人人可用的特點。那么,如果面向的是整個行業(yè)或C端用戶,又該如何才能為每一個人打造獨立專屬的數(shù)智人形象呢?
為了降低數(shù)智人制作門檻,加速數(shù)智人向千行百業(yè)的普及,騰訊云智能提出了“AI+數(shù)智人工廠”的方向。
首先,在基礎(chǔ)設(shè)施即服務(wù)層面,基于騰訊云強大的算力體系,提供強有力的支撐。其次,依托騰訊云TI平臺這個一站式低門檻、低代碼的訓(xùn)練平臺?;赥I-平臺即服務(wù)的能力,構(gòu)建標(biāo)準(zhǔn)化、工業(yè)化的數(shù)智人生產(chǎn)工廠。該工廠覆蓋數(shù)智人生產(chǎn)的全流程環(huán)節(jié),集成了十余種AI算法。未來,即便是沒有研發(fā)經(jīng)驗的普通用戶,也能自行操作并快速打造出屬于自己的、近似真人的分身。
不僅如此,騰訊云智能還面向行業(yè)開放“產(chǎn)、銷、服”的一體化平臺,將數(shù)智人工廠的生產(chǎn)能力開放給整個行業(yè),賦能到每一個個體。使用者可以在騰訊云上開設(shè)賬號、上傳素材、下訂單,生產(chǎn)屬于自己的數(shù)智分身。在進行效果確認(rèn)之后,還能在交互服務(wù)平臺、播報服務(wù)平臺上使用,通過數(shù)智分身進行實時的視頻生產(chǎn)和交互服務(wù)等。
短短幾個月,已經(jīng)有十幾家生態(tài)企業(yè)先后完成了騰訊云智能小樣本數(shù)智人能力接入的簽約,其中包括微媒數(shù)字會議、上海醫(yī)微訊等企業(yè)。
作為一家產(chǎn)品咨詢公司,微媒數(shù)字會議致力于為品牌提供營銷活動數(shù)字化解決方案。其與騰訊云智能合作,為小紅書營銷講師、拾意文化創(chuàng)始人蘇歆打造了一個專屬數(shù)智人,后者幫助蘇歆完成了一套40多節(jié)培訓(xùn)課程的視頻內(nèi)容。
在此之前,同樣的工作需要由包括稿件制作人、主講人、拍攝人等在內(nèi)的全套制作團隊,用一個月的時間來完成。如今,不需要影棚、拍攝和背稿,只需通過數(shù)智人平臺,輸入語音或文本音頻,即可快速批量生成由專屬數(shù)智人出鏡的系列課程視頻,充分實現(xiàn)對視頻內(nèi)容產(chǎn)出的降本增效。
微媒數(shù)字會議創(chuàng)始人兼CEO天狐表示:“我們一直在和騰訊團隊合作探索,如何幫助IP老師更快速地做出千變?nèi)f化的內(nèi)容視頻,幫助媒體同學(xué)快速產(chǎn)出有意思的內(nèi)容,避免同質(zhì)化的內(nèi)容在網(wǎng)上大面積傳播。”
作為醫(yī)療行業(yè)數(shù)字技術(shù)的供應(yīng)商,上海醫(yī)微訊早期采用3D虛擬仿真技術(shù),幫助醫(yī)生進行手術(shù)模擬,幫助患者更好地學(xué)習(xí)和掌握醫(yī)學(xué)知識,后來逐漸通過虛擬現(xiàn)實、AI直播等技術(shù)為醫(yī)療賦能。對于數(shù)智人在醫(yī)療領(lǐng)域的應(yīng)用,該公司也有自己的想法。
首先,該希望通過數(shù)智人打通就醫(yī)過程中各環(huán)節(jié)存在的障礙,比如,在就醫(yī)者進入門診大廳以后,幫助其快速掛號、診室指引等。
其次,通過數(shù)智人為患者提供智能、情感的陪伴。比如,通過數(shù)智人聲音克隆技術(shù)保存需要做喉部手術(shù)的患者的聲音;為罹患老年癡呆的患者提供陪伴服務(wù)等。
同時,幫助醫(yī)生開展醫(yī)患教育和知識分享。比如,用數(shù)智人代替醫(yī)生為患者進行相關(guān)知識的科普和培訓(xùn)。
此外,讓更多的數(shù)智人扮演藥企中的虛擬代表角色,促進藥企的轉(zhuǎn)型發(fā)展。
“這四個領(lǐng)域,賦能醫(yī)生、賦能醫(yī)院、賦能患者、賦能藥企,每個場景都是巨大的,也是我們這樣的公司希望一直能做的事情。”上海醫(yī)微訊數(shù)字科技股份有限公司創(chuàng)始人兼CEO潘耿表示。
推動數(shù)智人應(yīng)用快速落地,讓其能以普惠化的發(fā)展形式走入千行百業(yè),是騰訊云智能打造數(shù)智人業(yè)務(wù)的初心。未來,其將繼續(xù)朝著提升自然語言處理、自動語音識別等AI技術(shù)、探尋豐富的應(yīng)用場景、聯(lián)合更多生態(tài)伙伴等方面前進,為數(shù)智人的發(fā)展開辟更廣闊的空間。