七十年前,“人工智能之父”圖靈提出,如果人無法判斷屏幕的另一側(cè)究竟是人還是機(jī)器,就證明機(jī)器具備了人一樣的智能。這一經(jīng)典的圖靈測(cè)試如同北斗星一般,指引著AI行業(yè)的工作者們不斷前進(jìn)。
AI對(duì)物理世界的探索無疑是當(dāng)下的熱門話題。以ChatGPT和Sora為代表的AIGC展現(xiàn)出了令人震撼的表達(dá)能力,Sora更被認(rèn)為是AI感知物理世界的初步探索。不過,上海大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授武星在璞躍中國日前舉辦的以“AIGC賦能產(chǎn)業(yè)創(chuàng)新”為主題的Global Tech.NETwork活動(dòng)上表示,“我更贊同圖靈獎(jiǎng)獲得者楊立昆的觀點(diǎn):Sora提示詞中生成的大部分看起來逼真的視頻并不表明視頻理解了物理世界。”
喜馬拉雅珠峰AI科技產(chǎn)品研發(fā)總監(jiān)呂睿韜也持類似的觀點(diǎn),“Sora的表達(dá)雖然很好,但它本質(zhì)是假裝出來的,并沒有真正理解世界的規(guī)則。”
AI與物理世界交互一般可以通過視頻與音頻,相比之下,音頻似乎能夠更早達(dá)到圖靈時(shí)刻。
“目前音頻產(chǎn)業(yè)界達(dá)成了共識(shí):第一,未來一定是實(shí)時(shí)跨語種語音交互,這件事情會(huì)提前發(fā)生;第二是語音表達(dá)的人格化,現(xiàn)在所有的AI都在裝作是人,但是音頻模型到30B以上的時(shí)候,真的可能超越人。”呂睿韜在活動(dòng)上表示,“喜馬拉雅每天播放量的10%是AI大模型做的,(大家已經(jīng))分不出是真人還是AI了,這是音頻大模型能力的涌現(xiàn)。”
“2023年所有的行業(yè)里的音頻大模型其實(shí)都只復(fù)刻了音色,但這只占30%,并不是完全復(fù)刻人。”呂睿韜介紹稱,“我們現(xiàn)在在做的是15秒60個(gè)字能夠?qū)崿F(xiàn)從腔調(diào)、口吻、音色,包括情感信息都可以學(xué)習(xí)到、極速生成的大模型。”
音頻大模型不僅可以做語音,同時(shí)可以做音效和音樂,目前喜馬拉雅正圍繞主營業(yè)務(wù)做語音,包括對(duì)話形式,以及多角色、多情感的演繹能力等。呂睿韜稱,去年國內(nèi)很多短劇出海都是喜馬拉雅在做的配套,短劇是有聲書的視覺版,去掉短劇里的視覺,其實(shí)就是有聲書,“如何讓AI把有聲書演好,這是當(dāng)前的命題。”