11月8日消息,在11月7日開幕的第五屆世界互聯(lián)網(wǎng)大會上,搜狗宣布其與新華社合作開發(fā)、全球第一個全仿真智能合成主持人——“AI合成主播”正式亮相,同時搜狗未來人工智能的核心技術“搜狗分身”也獲得了廣泛關注。
據(jù)介紹,觀眾只要向“AI合成主播”輸入一句既有的新聞文本,屏幕上就會出現(xiàn)一位合成的新華社新聞主播,他不僅會用和真人一樣的聲音進行播報,連唇形、面部表情也能完全吻合。這樣的視頻效果,無論看上去還是聽起來,都與現(xiàn)實中的新華社主播的本人播報沒有太大差別。
在合成主播的開發(fā)過程中,搜狗公司的相關技術人員同新華社的新聞主播一同進行了各種探索嘗試,在“搜狗分身”技術的支持下,通過人臉關鍵點檢測、人臉特征提取、人臉重構、唇語識別、情感遷移等多項前沿技術,并結合語音、圖像等多模態(tài)信息進行聯(lián)合建模訓練后,“AI合成主播”正式誕生。
同時,據(jù)搜狗公司智能語音事業(yè)部總經(jīng)理王硯峰介紹,“搜狗分身”技術是搜狗人工智能的核心技術之一,誕生于搜狗“自然交互+知識計算”這一人工智能理念之下。該技術能夠利用搜狗的AI能力,從圖像表情,聲音語言習慣,邏輯思維等層面對AI進行擬人化訓練,然后克隆制造人類的AI分身,進而幫助人類提高信息表達和傳遞的效率。該技術是支撐“AI合成主播”正常運轉(zhuǎn)的核心。
會后,搜狗公司CEO王小川接受騰訊科技等媒體采訪,以下為部分采訪實錄(在不改變原意情況下有所刪減)
媒體:像剛剛主持人說的,會不會他就失業(yè)了?
王小川:首先AI技術分為了感知技術和認知技術。感知是有聲音的、有圖像的,感知技術方向上,機器基本有機會可以做到跟人一樣好。但是在認知技術方向上,機器背后的推理、知識、思考,以語言為核心的邏輯性的東西,機器的處理能力是有限的,這種情況下,涉及到人的高級活動的時候,機器現(xiàn)在是做不到的。
媒體:以后有可能做到嗎?
王小川:現(xiàn)在沒有這個技術。如果是在垂直領域里,特別細分的特定領域,像法律或者醫(yī)療,面越窄,機器更有機會在這個特定的領域里做到更接近人類。不能把AI當成大的詞兒,AI里面有很多內(nèi)涵。在這種情況下,把AI上升到跟人們認知相關的事情,機器在里面只能做輔助,是沒有辦法取代人類的。但如果只是聽個聲音,看個圖像,現(xiàn)在像Face++ 或者商湯做的事情,機器就已經(jīng)能取代一部分感知上的事情了。對于人類的高級活動,現(xiàn)在機器取代人類是沒戲的。高級活動叫認知,低級活動叫感知,目前的機器可以做到感知,這是先給大的框。
媒體:您怎么看AI合成主播,人類跟機器是怎樣的關系?取代還是配合?
王小川:名字我們跟新華社定了,叫AI合成主播。這項技術里面涉及三個合成:聲音合成、表情合成、唇型合成,特別是唇型合成。因為本身虛擬這個詞,畫個卡通畫也叫虛擬,如果叫虛擬主播的話別人容易較真,說這個東西怎么叫虛擬,所以我們叫AI合成主播。AI合成主播和人類的關系是取代還是配合這個問題的話,如果只是感知問題,不涉及到后面的語言組織、撰寫深度稿件的話,它是可以去跟真人接近的。
媒體:意思是人可以做寫新聞稿的人,剩下的事就交給它?
王小川:如果想做到惟妙惟肖,比如什么地方該發(fā)怒,什么地方該柔情,這樣的事情機器很難做到,因為稿子的內(nèi)容機器是不懂的,它不理解真正的含義。如果只用視覺和聽覺表達,AI合成主播可以接近真人,一旦與內(nèi)容有高度相關性,機器的作用就會弱一些。
媒體:搜狗的AI合成主播跟微軟小冰做的主播有什么差異?
王小川:搜狗的AI合成主播是真人的形象,小冰給的是虛擬形象,聲音跟真人不一樣,也沒有表情和唇型的變化。AI合成主播真的是合成之后,能夠起到真人的替身作用。
媒體:這個技術除了在主播領域,還有哪些其他場景的應用?
王小川:比如說現(xiàn)在我們跟凱叔講故事談,以前是凱叔去講故事,以后可能就會變成你的爸爸媽媽給你講故事。在我們大的理念下,主播是其中一塊,之后要把它個性化,變成其他的人。
媒體:搜狗現(xiàn)在有考慮進一步怎么去做么?
王小川:未來搜狗輸入法的方向,我曾經(jīng)講過是叫輔助對話,就是幫你去說話。去年搜狗上市的時候,我一天收到三千條祝福的微信,如果我用語音回,我也要說三千條,而且發(fā)信息的人不一樣,有的是記者朋友,有的是老同學,那么回復內(nèi)容也不一樣,這個時候你就需要個分身了,它能用你的個性幫你去說話,幫你去做機械性的、重復性的勞動。搜狗有兩個理念,一個理念就是讓機器能夠成為你的分身,一個是讓機器成為你的助理。搜狗搜索做問答就是要成為你的助理。這是搜狗AI兩個核心的方向。
媒體:在語言這塊,門檻并不高?
王小川:語言這塊門檻挺高,高德地圖合成林志玲的聲音的時候,林志玲是讀了非常多句話的,不是固定的“向左轉(zhuǎn)向右轉(zhuǎn)”的句子。搜狗現(xiàn)在只要求十幾分鐘的數(shù)據(jù)量就夠了,可以用很小的數(shù)據(jù)合成一個人的聲音。
媒體:為什么?是有什么算法的突破嗎?
王小川:所謂小數(shù)據(jù)其實也是離不開大數(shù)據(jù)的,機器要看很多聲音,然后找到這個人的聲音特征跟別人有什么不一樣,所以小也是大。我們以前說嬰兒學習很快,看一張圖片就會了,其實他是看了很多圖片之后再看一張圖片。所以對特定領域來說,數(shù)據(jù)越小越好,但是要掌握足夠多的通用領域的數(shù)據(jù)。因此這里涉及到的技術,既要有海量聲音的訓練,同時能做到用更少的聲音數(shù)據(jù)訓練特定人的聲音,這是有技術壁壘的。
媒體:合成主播商業(yè)化的節(jié)奏會不會比之前做的其他AI落地的項目要快一點?
王小川:最快的話,第一是翻譯,翻譯是剛需。不只是翻譯寶,搜狗搜索支持用中文搜索全球信息,用中文閱讀全球信息,這是應用了翻譯技術的。翻譯是搜狗的使命之一,輸入法輸入中文轉(zhuǎn)成外文,搜索能搜外文轉(zhuǎn)成中文。我們本身是做信息橋梁的公司,所以翻譯是很重要的,這也是最快落地的技術。首先是語音、圖像,然后是翻譯,翻譯之后是分身,訓練一個人的數(shù)據(jù)之后,幫助他去做表達。最后是問答,就是個人助理,幫你回答問題。對于消費者而言,這是技術演進的路線。
媒體:搜狗做通用訓練的時候,語音素材是怎么拿到的,是平常語音輸入的時候的語音嗎,還是怎么樣的?
王小川:我們有很多合作,很多標注。比如現(xiàn)在我們跟喜馬拉雅有合作,他們讀的東西我們可以拿過來用,盡可能多的采集不同的語音。
媒體:除了醫(yī)療以外,搜狗也在做法律相關的內(nèi)容搜索,對這種領域的選擇標準以及下一步擴展垂直搜索的規(guī)劃是什么?
王小川:首先最大的是醫(yī)療,法律是中間有明顯的知識結構化能力在,這個知識邊界是相對有權威和規(guī)范的,在這種情況下,我們可能去做一個選擇。但是醫(yī)療還是遠遠優(yōu)于法律的。
媒體:搜狗還會擴展其他領域嗎?
王小川:其他領域,百科我們還是想努力能把它做得更加權威和真實。總之有些領域,互聯(lián)網(wǎng)的信息不夠好,我們希望能夠在里面能用新的方法做好,用AI技術或者用不同的方式。
媒體:為什么要做搜狗號,這塊內(nèi)容是怎么樣的,為什么要介入這個市場?
王小川:因為今天做平臺,就像頭條或者像抖音,一頭是用戶在里面去消費,一頭生產(chǎn)方是合作關系,這種合作不是光簽合同的,確實能夠做個平臺,把它放進來了,但搜索引擎不是,搜索的模式是抓來的,頭條號或者說像這樣的搜狗號很大意愿是希望增加內(nèi)容的合作比例,是更規(guī)范,比如這里大家廣告做多少,有一定的互相的共識,這樣能夠提升合作的內(nèi)容和質(zhì)量,讓用戶體驗更好。
媒體:會覺得做得晚嗎?
王小川:再早對我們講也不會成為戰(zhàn)略上的突破點。
媒體:這種信息流的改變會給搜狗帶來更大的營收嗎?
王小川:會有一些,信息流廣告主要是基于APP,搜狗APP或者瀏覽器,能有些補充。如果APP量特別大,收益是大的。
媒體:之前您說一直刷抖音,刷頭條,很容易沉迷進去,搜狗號能不能改變這件事情?
王小川:我們做搜狗號很大層面是為搜索服務的,而不是只說為做信息流這件事情。第二,有些東西改不改變,比如游戲,我們就不做了,對我們而言,從我們興趣愛好經(jīng)驗上不是游戲,游戲一樣,滿足你沉迷在里面,一直獲得虛擬世界,有太虛幻景表達這樣的概念,人是需要的,但是怎么去引導,我們沒有這方面創(chuàng)造引導能力,我們愿意把我們的優(yōu)勢發(fā)揮在我們自己擅長的地方上,我們讓信息表達更加簡單,我們做翻譯,我們在中間去做問答技術。
媒體:搜狗搜索以后在流量渠道或者獲客層面有什么樣的想法?
王小川:渠道方面有兩個事是要突破的,一個地方是利用自有的流量渠道,比如用戶在輸入法輸入的時候,如果甄別到他有這樣的意圖,我們能直接給他提供更好的信息滿足他,甚至給別人做分享,這個事情上我們還有大的空間提升的,搜索跟輸入行為的連接,第二我們希望在搜索結果里,能有更好的差異化或者權威性,就像之前做的微信內(nèi)容,現(xiàn)在我們是著力在強調(diào)醫(yī)療健康內(nèi)容,希望內(nèi)容上有差異化,使得用戶變成主動使用,而不是靠合作的,QQ瀏覽器或者手機廠商,這樣的話成本會降下來。
媒體:搜狗AI方面戰(zhàn)略還是比較聚焦的,有沒有考慮相關多元化或者更多AI的軟件或者科研或者硬件?
王小川:不考慮,我覺得我們已經(jīng)張得很開了,我們在信息文明時代核心就是對知識或者對語言的理解,做AI我認為要滿足幾條,今天說AI是屬于大公司做,大公司有幾個,第一個有場景,有數(shù)據(jù),所以你做AI,如果你沒場景,沒有數(shù)據(jù),只做技術,這件事情是很困難的,我們數(shù)據(jù)和場景是在用戶表達和信息獲取里,在輸入和搜索里,所以我們圍繞場景做這件事情。第二,中間是需要在這里面有持續(xù)的投入,投入里很多創(chuàng)業(yè)公司或者沒有商業(yè)模式的公司,它今天投這樣,如果哪天市場沒打開,那可能這個東西就掉下去,我們是有足夠資金去投,但是也希望跟可見的商業(yè)價值去匹配,我們做翻譯已經(jīng)沒有考慮商業(yè),已經(jīng)在拓展,我們最近一共支持500場同聲傳譯,我們已經(jīng)努力往外拓展的時候,往外拓展不是考慮商業(yè)問題,還是圍繞我們的使命來進行,就是表達和獲取信息更簡單,以及未來讓機器部分取代人或者給人提供服務。
媒體:單純同傳這個問題,機器有沒有可能取代人?
王小川:不能,做不到。如果用好的人,機器是趕不上的,但是有很多地方是因為你沒有優(yōu)秀的同傳或者出國旅游沒法給一個人配一個人,這種情況下,機器可以去作用,翻譯往簡單走是重復性勞動,但是真的好的翻譯是有知識,有思考的,你讓他思考的東西,機器就沒人強,開放性思考,如果只是棋盤上封閉思考,機器下圍棋,可以干,但是開放性的環(huán)境,機器是不夠的。
媒體:會考慮在多媒體搜索上有一些布局嗎?
王小川:搜索核心是以語言為核心的,如果離開了文字,只是畫圖,這是不夠的。我們是有圖像搜索能力,有聲音去做搜索,但核心要點是在閱讀理解,這個事情不是我們最受益或者是我們突破點最大的地方。我們突破是在語言的理解里面,這個更難,比5G還難。
媒體:從硬件的產(chǎn)品上,未來有可能做OEM嗎?
王小川:有可能,但是現(xiàn)在通過自己的東西把它給做透了,再開放,就像亞馬遜一樣,之前做echo的音箱,也是自己做,自己做才有機會跟別人一塊玩,否則第一天就是B2B2C,你不知道客戶在哪兒,或者跟客戶沒有形成正面的習慣,to C公司不夠的,先把自己做透,然后發(fā)現(xiàn)能力不夠了,再開放。
媒體:要到達真正的AI個人助理,還要多久,還要突破哪些東西?
王小川:我們之前20年,我們稱之為信息時代,每個時代都有它的起點,就像最早輪子發(fā)明,有了農(nóng)業(yè)時代,輪子發(fā)明,可以推著小車去種地了,這是原始走過來。后來有蒸汽機,進入工業(yè)時代,后來有了計算機和互聯(lián)網(wǎng),我們進入信息時代,信息時代大的特點就是能夠跨地域,跨時間,時空跨越進行信息的傳遞。像e—mail或者IM就能跟大家進行遠程的交流,或者把信息放在網(wǎng)上,然后你用搜索檢索到,在這種情況下,輸入法、搜索引擎和通訊軟件是對新時代最核心的應用,你剛才問的問題是AI個人助理往下20年里很重要的事情。
媒體:它真的到能夠很好地幫助人,協(xié)助人的階段,還要多久?
王小川:垂直領域慢慢就有了,真的輔助人,給普通人做翻譯,也是AI助理,以前靠真人,現(xiàn)在靠機器能做一部分了,再往下,像我們垂直場景里,我們也在做機器幫你做自動回復,給銷售公司或者客服公司在用。他已經(jīng)開始在做,但是他需要領域支持,是要靠人把這種知識進行訓練之后再做,不是只有思考能力。所以往下是靠數(shù)據(jù)驅(qū)動做這件事情,你讓它只會幫助人,他現(xiàn)在沒有取代人,現(xiàn)在看不到技術取代人,但是幫助人的事已經(jīng)開始發(fā)生了。
媒體:這里是賣解決方案嗎?
王小川:我們是to C,我們會把它用到消費者,讓消費者使用更方便。
媒體:AI合成主播或者未來做的AI合成影像,未來的使用場景是什么樣?
王小川:合成主播,今天給我們核心能力要做對話和問答,同時可以互動的,因此在醫(yī)療,在法律,在一些人機交互里,承擔了一個讓人更友好溝通的角色,但真正服務內(nèi)容是去要面對內(nèi)容的,就是把服務帶進去。另外一種場景就是今天看到一種,交給新華社,他們有編輯在里面寫出稿子來,機器只是讀的角色,是單向的,不是雙向的,所以他只是自然交互,在知識計算里還沒有把這個能力放進去。
媒體:搜狗未來的戰(zhàn)略是AI+IoT(物聯(lián)網(wǎng)),可以這么理解嗎?
王小川:IoT只是一個界面,我不能把IoT放在這么高的高度去,AI是核心,去幫助人表達獲取信息,IoT只是中間幫助你表達獲取信息的入口。
媒體:搜狗為什么不做智能音箱?
王小川:這個產(chǎn)品的核心點在于足夠低價便宜,不是靠技術驅(qū)動的,沒有這方面的能力,只能靠資金驅(qū)動,沒啥AI在里面。相當于虧著錢賣,像打車外賣是燒錢的活,我們其實是不會做的,沒那個能力。
媒體:人工智能賺錢的拐點是什么時候?
王小川:人工智能是項技術,你說技術賺錢,這個詞是不成立的,你要變成某個業(yè)務才能變成賺錢的事情。而且人工智能技術尤其還需要數(shù)據(jù)驅(qū)動,所以小公司更困難。它是一個場景,能做附加的東西,這個不是從拐點上來看的。所以這是社會大分工、讓數(shù)據(jù)交換,讓小公司給大公司提供技術服務,看現(xiàn)在的趨勢,人工智能還真是大公司的事。另一條,如果政府做了很大的數(shù)據(jù)開放,可能會帶來新的投資機會,等于小公司有機會獲得數(shù)據(jù)了,如果政府開放數(shù)據(jù),可能會帶來新的機會,這個事不知道會不會發(fā)生。
媒體:科創(chuàng)板塊有一個新的進展,會不會投資一些公司?會不會自己上。
王小川:我們模式不會變的,我們不會投資賺錢,這不是我們干的活,我們做不過其他專業(yè)機構的。談到我們自己,因為我們在美國已經(jīng)上了,國內(nèi)環(huán)境,科創(chuàng)板塊如果做成功了,有巨大的意義。但是這東西就看政策,只知道這個事發(fā)生了,但是最后怎么演化,希望它成功,對中國是革命性的意義在。
媒體:在選擇2C智能硬件的產(chǎn)品的時候,您覺得現(xiàn)在還有哪些場景不被滿足的?
王小川:第一,需要有更好的錄音筆,真的是給老師,自媒體的人做演講的時候或者雙方談合同的時候,只要有商務活動都能用到,這是需要做的一件事情,但還不是品牌性的產(chǎn)品,要是能力上有升級,會有新的產(chǎn)品,我認為努力帶來大家一起新的技術的思考,也可能是跟硬件廠商合作。
媒體:在數(shù)據(jù)及隱私保護這塊有什么新的變化嗎?
王小川:第一尊重隱私,保護隱私這是屬于很嚴肅的話題,得去做遵守,是符合法律和用戶的文化,但是我們知道如果一邊倒,隱私不可侵犯,這個視角是特別有害的,因為只有別人了解你的個性,才能給你更好的服務。所以這種情況里,從社會整體的價值看,個人能夠把自己一些數(shù)據(jù)開放開,讓企業(yè)知道,可以提供更好的服務,這種事情在安全情況下,該去倡導的一件事情,所以歐盟的做法,最后會把自己坑死掉的,用戶消費者也不買賬,最后沒能服務升級,倒變成整體落后了。
媒體:當搜狗新開一項業(yè)務的時候,什么是取決于這個業(yè)務要不要開,最大的思考維度是什么?
王小川:第一個,我們知道未來趨勢是什么,這個得知道,這是一個源頭。但是第二個事情為什么是我們做,我們在做這事的時候,跟我們價值觀也好,跟我們的能力也好,跟我們當前的狀態(tài)也好,有什么樣的關系。為什么是我,這個事情也是很嚴肅的事。這個事最好有全局的使命,如果這是在趨勢里,在你的使命里,你會努力去做。
媒體:在搜狗公司您對自己的定位更像職業(yè)經(jīng)理人還是聯(lián)合創(chuàng)始人?
王小川:其實我雙重屬性都有,我同時承擔著創(chuàng)始人的精神作用和引領方向,但是因為股權關系,我又得像職業(yè)經(jīng)理人干活,這個是挺獨一無二的狀態(tài)。
【來源:騰訊科技 作者:孫宏超】