自從OpenAI發(fā)布ChatGPT以來(lái),各行各業(yè)都在聚焦大模型做不同角度的延伸,基于時(shí)下備受關(guān)注的RTE領(lǐng)域,聲網(wǎng)首席科學(xué)家鐘聲也從大模型的角度帶來(lái)了智能化趨勢(shì)與實(shí)時(shí)互動(dòng)相關(guān)話題的分享,共同探討RTE行業(yè)面臨的全新機(jī)遇。
鐘聲指出,從Bing搜索到Office ,ChatGPT已經(jīng)被微軟接入到了各個(gè)業(yè)務(wù)線里。從運(yùn)營(yíng)支撐系統(tǒng)和業(yè)務(wù)支撐系統(tǒng)的維度來(lái)看,ChatGPT是一個(gè)“Game Changer”,它進(jìn)來(lái)以后,對(duì)客服、搜索、助手都是有明顯幫助的。有數(shù)據(jù)顯示,有人在ChatGPT上的聊天時(shí)間比平時(shí)多了5倍,這個(gè)趨勢(shì)可能會(huì)讓娛樂(lè)、咨詢(xún)、學(xué)習(xí)、方案、決策、診斷、設(shè)計(jì)、寫(xiě)代碼等從業(yè)人員自身難保。
ChatGPT可以生成讓人難以想象的內(nèi)容和廣告,從搜索、算法推薦,再逐步過(guò)渡到內(nèi)容完全監(jiān)管,給在座的我們帶來(lái)了很大的威脅。Facebook有1200萬(wàn)商戶(hù)在投放廣告,大家可以試想一下,這些廣告都可以使用算法生成。或許,以后主播、用戶(hù)產(chǎn)出的UGC內(nèi)容都不如算法帶來(lái)的這些內(nèi)容更有趣、更有深度和廣度。
面對(duì)ChatGPT的進(jìn)化,相關(guān)從業(yè)人員可以重點(diǎn)關(guān)注以下五個(gè)方面。
1、性能云計(jì)算、存儲(chǔ)、智能芯?和?效AI算法。一是DSA(架構(gòu)),領(lǐng)域相關(guān)的架構(gòu)并且做存算一體,量子計(jì)算等。推理芯片需要降低成本,即便像現(xiàn)在的ChatGPT,它推理部分的成本仍然很高。二是DSA(算法),為領(lǐng)域定制,理論上要少4、5個(gè)數(shù)量級(jí),才能長(zhǎng)期維持下去。
2、ChatGPT的數(shù)理能力比較差。有人把ChatGPT和另外一個(gè)數(shù)理工具Wolfram/Alpha連在一起,讓ChatGPT吸Wolfram的能力,以此提升在數(shù)理計(jì)算的精確度。舉個(gè)例子,有一家醫(yī)療公司上線了DocsGPT,它可以幫助醫(yī)生做它最不想做的事,比如把賬單送到保險(xiǎn)公司、寫(xiě)病歷等。另外,Meta此前發(fā)布的LLaMA大模型沒(méi)有OpenAI那么大,但它做了70億、130億、650億的好幾個(gè)模型,所以往這個(gè)領(lǐng)域深鉆,讓小模型小一點(diǎn),再專(zhuān)注于自己的特長(zhǎng),并非一定要做像GPT-4這樣全能、智能,通用的人工智能。
3、大模型面臨數(shù)據(jù)資源不夠。再過(guò)幾年,當(dāng)可供AI高質(zhì)量訓(xùn)練的數(shù)據(jù)不夠時(shí),它的進(jìn)步就會(huì)很受限。現(xiàn)實(shí)生活中產(chǎn)生的UGC、AIoT、攝像頭等各種各樣的數(shù)據(jù),基本能夠用來(lái)完善或解決已知的問(wèn)題,但未知的問(wèn)題怎么辦?是不是可以用AIGC自己補(bǔ)充、合成數(shù)據(jù)的方法把它接入到數(shù)理軟件上,用計(jì)算機(jī)程序和數(shù)據(jù)去補(bǔ)充高質(zhì)量的訓(xùn)練數(shù)據(jù),這里最重要的還是看AI是否能夠自己產(chǎn)生數(shù)據(jù)。
4、核心技術(shù)。我特別主張?jiān)谶吘壓投松隙嗉又悄芑乃惴ê托酒瑑?yōu)勢(shì)。跟Web3.0的思路一樣,如果未來(lái)被幾個(gè)少數(shù)的中心化AI控制,人類(lèi)命運(yùn)可能真的會(huì)被主宰了。所以,適當(dāng)把智能分散,讓智能泛在是很有必要的。此外,邊端上的能力個(gè)性化、隱私也很重要。
5、智能泛在。如果大數(shù)據(jù)無(wú)處不在,用AI算法來(lái)學(xué)習(xí)大數(shù)據(jù),然后泛化這個(gè)智能,只需一個(gè)索引就能把它檢索出來(lái),比如生成視頻。
舉幾個(gè)例子,音“融”笑貌,了解我的人,聽(tīng)到我聲音就知道我講話的樣子,甚至能想象出來(lái)我的神態(tài);“笑”逐顏開(kāi),像動(dòng)補(bǔ)、面部,用部分的關(guān)鍵信息就能夠在另外一處重構(gòu)視頻形象;心想“視”成,AIGC按你喜歡的方式生成一段滿(mǎn)足你個(gè)性化需求的視頻。
鐘聲還針對(duì)“聲網(wǎng)生成式AI技術(shù)”做了詳細(xì)分享,他指出,聲網(wǎng)生成式AI技術(shù)聚焦為RTC/RTE領(lǐng)域提供更好的服務(wù),可以實(shí)現(xiàn)超分、超質(zhì)、超音、超流、超測(cè)、超幀、摳圖等。
以在聲網(wǎng)SDK上集成的,僅靠語(yǔ)音數(shù)據(jù)生成視頻或驅(qū)動(dòng)的“超音”案例來(lái)看,左邊輸入ChatGPT的數(shù)據(jù),右邊就可以達(dá)到1080P或者更高的分辨率。從移動(dòng)端上實(shí)現(xiàn)的面捕實(shí)時(shí)驅(qū)動(dòng)案例來(lái)看,由于模型比較好,想要移動(dòng)端覆蓋高,就不能只盯著高端手機(jī)。我們對(duì)算法做了極致的優(yōu)化,像我剛才說(shuō)的超級(jí)畫(huà)質(zhì)一樣,可以一幀1080P。在iPhone10或者iPhone11上處理時(shí)間不到1ms,4K的視頻也能靠軟件處理。
未來(lái),ChatGPT大模型的發(fā)展必將為實(shí)時(shí)互動(dòng)領(lǐng)域帶來(lái)更多的機(jī)遇以及挑戰(zhàn),我們只有提前謀劃,提前布局,才能更精確的踩在風(fēng)口浪尖。