2010年10月28日,在中國(guó),一個(gè)由學(xué)生創(chuàng)業(yè)起家的公司推出了第一款專為智能手機(jī)設(shè)計(jì)的中文語(yǔ)音輸入法,訊飛輸入法,開啟了一個(gè)語(yǔ)音交互時(shí)代。在它發(fā)布大約一年后,谷歌、QQ、搜狗、百度等巨頭才相繼推出自己的語(yǔ)音輸入法。可以說(shuō),訊飛輸入法的出現(xiàn),引領(lǐng)和推動(dòng)了輸入和交互模式的變革。
10年時(shí)間,移動(dòng)互聯(lián)和AI(人工智能技術(shù))的發(fā)展,進(jìn)一步改變了人與機(jī)器的交互方式,促進(jìn)了語(yǔ)音輸入的普及。今年賽諾市場(chǎng)研究對(duì)外發(fā)布的《2020年中國(guó)第三方手機(jī)輸入法秋季報(bào)》顯示,語(yǔ)音輸入的頻率明顯增加,成為增長(zhǎng)最快的輸入方式,而且語(yǔ)音輸入方面的創(chuàng)新,已經(jīng)成為一款輸入法新增用戶的牽引力。
今天,語(yǔ)音輸入,與AI一起,被看作是將從根本上改變?nèi)撕蜋C(jī)器的關(guān)系,給下一代軟件創(chuàng)造巨大價(jià)值的技術(shù)。
訊飛輸入法面世10年之際,科大訊飛副總裁章繼東表示:“過(guò)去十年里,訊飛輸入法秉持著技術(shù)頂天,引領(lǐng)語(yǔ)音交互落地的理念,不斷革新產(chǎn)品,努力讓讓億萬(wàn)用戶高效輸入,樂(lè)享溝通。下一個(gè)十年,隨著5G和AIoT時(shí)代的到來(lái),訊飛輸入法將繼續(xù)以過(guò)硬的技術(shù)實(shí)力直面行業(yè)發(fā)展的挑戰(zhàn)與機(jī)遇,不斷提高語(yǔ)音輸入的行業(yè)天花板。”
中國(guó)人的技術(shù)要掌握在中國(guó)人手中
2013,中國(guó)相聲演員方清平用20.5秒快速說(shuō)完了《木蘭辭》的前三段,獲吉尼斯世界紀(jì)錄《講中文速度最快》證書,被稱為世界上講中文速度最快的人。
就在最近,這個(gè)紀(jì)錄被再次刷新。10月20日,方清平在公證人員的公證下,再次挑戰(zhàn)快語(yǔ)速朗讀《木蘭辭》,僅用17.81秒時(shí)間讀出182字。而在此語(yǔ)速下,訊飛輸入法識(shí)別準(zhǔn)確率達(dá)到100%。
實(shí)際上,訊飛輸入法的輸入速度已經(jīng)突破了1分鐘識(shí)別600個(gè)字。人們驚訝于訊飛輸入法的快與準(zhǔn)。而這背后,是科大訊飛語(yǔ)音和人工智能的積累。
時(shí)光回到10年前,當(dāng)時(shí)中國(guó)的語(yǔ)音技術(shù)幾乎還全部掌握在IBM、微軟等外企手里。正在中國(guó)科技大學(xué)讀博士的劉慶峰,收到了李開復(fù)的邀請(qǐng)。李開復(fù)正在創(chuàng)建微軟亞洲研究院,希望劉慶峰加入智能語(yǔ)音團(tuán)隊(duì)。
但劉慶峰的博士導(dǎo)師吳宗紀(jì)一直給學(xué)生們傳遞一個(gè)理念,中國(guó)人的技術(shù)一定要掌握在中國(guó)人的手上。因此,劉慶峰拒絕了李開復(fù)的邀請(qǐng),與幾個(gè)同學(xué)一起創(chuàng)建了科大訊飛,并于2008年在深交所上市,也是中國(guó)在校大學(xué)生創(chuàng)業(yè)第一個(gè)上市公司。
公司創(chuàng)立伊始,語(yǔ)音就被確立為訊飛的核心發(fā)展方向,以語(yǔ)音為入口的人工智能技術(shù)也成為科大訊飛發(fā)展的關(guān)鍵。“很多的技術(shù)是看不見的,但是我們相信相應(yīng)技術(shù)會(huì)改變世界。”科大訊飛副總裁章繼東說(shuō)。每一次技術(shù)革新,訊飛都會(huì)快速的應(yīng)用在自己的產(chǎn)品上。
2010年,訊飛AI研究院就將GMM-hmm-隱馬爾可夫模型應(yīng)用到語(yǔ)音識(shí)別系統(tǒng)中,通過(guò)運(yùn)用WFST解碼器,提高復(fù)雜的語(yǔ)言模型,達(dá)到了70%識(shí)別率。2012年,訊飛又在輸入法中使用了深度神經(jīng)網(wǎng)絡(luò)技術(shù),把全球首個(gè)中文云識(shí)別的DNA上線到產(chǎn)品中,使得語(yǔ)音識(shí)別率一下子提升了到80%。2018年 ,訊飛又開始使用Hybrid-CNN 算法,通過(guò)結(jié)構(gòu)優(yōu)化大幅提升并發(fā)路數(shù),語(yǔ)音識(shí)別準(zhǔn)確率突破98%。今年,訊飛又在產(chǎn)品中加入了動(dòng)態(tài)自適應(yīng)編解碼語(yǔ)音識(shí)別引擎 ,進(jìn)一步實(shí)現(xiàn)了多模態(tài)輸入和領(lǐng)域個(gè)性化識(shí)別。
“在這10年里,訊飛秉承了一個(gè)很樸素的理念,就是提升整個(gè)社會(huì)的效率。”科大訊飛輸入法業(yè)務(wù)總經(jīng)理程坤說(shuō)。
今天,當(dāng)你撥打各大運(yùn)營(yíng)商、銀行等客服電話,很多客服不是真人,而是機(jī)器發(fā)出的聲音,背后運(yùn)用的就是訊飛的技術(shù);你出行中使用的打車軟件、導(dǎo)航軟件,導(dǎo)航中林志玲、郭德綱、TFBOYS等等的合成音,也是出自訊飛之手。每年的國(guó)家普通話評(píng)測(cè)、中高考的口語(yǔ)評(píng)測(cè),機(jī)器評(píng)測(cè)技術(shù)也來(lái)源于訊飛……科大訊飛以這樣的方式“隱行”在無(wú)數(shù)個(gè)終端的背后。數(shù)據(jù)顯示,科大訊飛占據(jù)了中文語(yǔ)音市場(chǎng)70%以上的份額。
個(gè)性化語(yǔ)音:讓技術(shù)有溫度
2020年2月,全國(guó)各地的眾多醫(yī)生、護(hù)士馳援武漢抗擊新冠疫情。但很多人也遇到了一個(gè)小問(wèn)題,聽不太懂武漢話。為此,訊飛輸入法團(tuán)隊(duì)經(jīng)過(guò)10天的緊急技術(shù)攻關(guān),上線了武漢話轉(zhuǎn)普通話功能,并開放給廣大用戶,助力醫(yī)患溝通,在短短的時(shí)間里,累計(jì)服務(wù)了3萬(wàn)人。
方言,其實(shí)也是訊飛輸入法團(tuán)隊(duì)在2011年就遇到的一個(gè)難題。中國(guó)有太多人說(shuō)的是方言,如果無(wú)法準(zhǔn)確進(jìn)行方言的識(shí)別,那么語(yǔ)音輸入終將淪為雞肋。
經(jīng)過(guò)用戶調(diào)查和數(shù)據(jù)分析后,訊飛輸入法選擇從需求排名最高的粵語(yǔ)、四川話和河南話入手。2012年的一次版本更新后,上線了粵語(yǔ)語(yǔ)音輸入,成為首款支持粵語(yǔ)語(yǔ)音輸入的輸入法,緊接著上線了四川話和河南話的語(yǔ)音輸入。截止到目前,訊飛輸入法的粵語(yǔ)語(yǔ)音識(shí)別準(zhǔn)確率已經(jīng)超過(guò)95%,陸續(xù)上線了23種方言的語(yǔ)音識(shí)別。
語(yǔ)言是很奇妙的東西,承載了民族和族群幾千年的文化。但如果保護(hù)不及時(shí),語(yǔ)言消失了,文化也就隨之消失了。數(shù)據(jù)顯示,世界上大約有6000 ~ 10000多種語(yǔ)言,大部分將于本世紀(jì)末消失。
人文內(nèi)容的載體,需要現(xiàn)代技術(shù)的加持。2017年,訊飛輸入法發(fā)起“方言保護(hù)計(jì)劃”公益行動(dòng),通過(guò)智能語(yǔ)音技術(shù)保護(hù)方言;截至目前,方言庫(kù)的珍貴語(yǔ)料近140萬(wàn)條,并通過(guò)A.I.語(yǔ)言復(fù)制實(shí)現(xiàn)23種方言識(shí)別。“科大訊飛一系列核心技術(shù)的不斷突破,有利于拓展方言保護(hù)的新方法、新思路。”訊飛輸入法業(yè)務(wù)部總經(jīng)理程坤表示。
語(yǔ)音識(shí)別的終極目標(biāo),就是讓用戶便利自然的輸入文字或發(fā)送指令。當(dāng)語(yǔ)音識(shí)別率越高,相應(yīng)的用戶體驗(yàn)也就越好,社會(huì)價(jià)值就更大。為了用戶體驗(yàn)的極致,訊飛在“個(gè)性化語(yǔ)音”功能上下足功夫,通過(guò)拓展人工智能技術(shù),解決輸入環(huán)境復(fù)雜、表達(dá)習(xí)慣差異、方言等問(wèn)題。
在這個(gè)過(guò)程當(dāng)中,科大訊飛遇到并解決了很多問(wèn)題。其中最典型的問(wèn)題就是的語(yǔ)義的區(qū)別,比如“程坤”和“陳坤”聽起來(lái)差不多,“張總”和“章總”要對(duì)應(yīng)具體的人才能分得清。人在理解相似音的時(shí)候,就會(huì)出現(xiàn)歧義,更何況是機(jī)器。為此,2012年訊飛就在行業(yè)內(nèi)首創(chuàng)了個(gè)性化語(yǔ)音識(shí)別,允許用戶將本地的人名,自己定義的專業(yè)詞匯,特有詞語(yǔ),上傳到訊飛的后臺(tái)。這樣,用戶下次說(shuō)到這些詞語(yǔ)時(shí),訊飛輸入法就可以把相應(yīng)的詞語(yǔ)識(shí)別出來(lái)。為了方便用戶的操作,2017年,訊飛又推出了語(yǔ)音自適應(yīng)的修改,后臺(tái)會(huì)自動(dòng)記錄和學(xué)習(xí)用戶的修改過(guò)程,在用戶無(wú)感知的情況下,就能體驗(yàn)到語(yǔ)音輸入越來(lái)越正確。
“我們覺得,科技最重要的是要有溫度,為廣大的用戶提供很好的價(jià)值。”科大訊飛副總裁章繼東說(shuō)。訊飛還做了無(wú)障礙語(yǔ)音輸入,包括給每個(gè)表情包都做上標(biāo)簽,滿足視障群體對(duì)無(wú)障礙輸入個(gè)性化輸入需求,在互聯(lián)網(wǎng)的世界里鋪設(shè)了“盲道”。
中國(guó)盲人協(xié)會(huì)信息信息促進(jìn)委員會(huì)的副主任朱毅清認(rèn)為,訊飛輸入法在無(wú)障礙方面做的大量工作,改變了盲人朋友的學(xué)習(xí)、就業(yè)、工作、生活,使他們的生活發(fā)生巨大的變化。
洞察到用戶對(duì)語(yǔ)言翻譯的不同需求,訊飛輸入法還在2013年上線了英文語(yǔ)音輸入,并在2015年首創(chuàng)了語(yǔ)音翻譯功能 “隨聲譯”,目前已經(jīng)支持英日韓俄等多種外語(yǔ)的面對(duì)面翻譯,成為一種人際溝通工具。
隨著移動(dòng)通信技術(shù)進(jìn)步和網(wǎng)絡(luò)社交的崛起,人們的溝通和表達(dá)有了越來(lái)越多的選擇,對(duì)于溝通效率也提出了更高的要求。作為“中國(guó)人工智能國(guó)家隊(duì)”一員,訊飛輸入法希望借助背后強(qiáng)大的A.I.技術(shù)力量,不斷破解實(shí)際應(yīng)用的難題,為廣大用戶解決不同場(chǎng)景的需求。
十年磨劍 再赴征程
今天,5G和AIOT時(shí)代已來(lái),隨著智能家居、車載、可穿戴設(shè)備等新的場(chǎng)景和需求不斷增加。人們會(huì)越來(lái)越多的面對(duì)更多遠(yuǎn)場(chǎng)、移動(dòng)、無(wú)屏場(chǎng)景下進(jìn)行輸入的情況,傳統(tǒng)的輸入方式越來(lái)越不友好,語(yǔ)音將是最核心最主流的輸入方式。
為了人機(jī)交互的新要求,訊飛輸入法在最新推出10.0版本上,搭載了“動(dòng)態(tài)自適應(yīng)編解碼語(yǔ)音識(shí)別引擎”,新增的唇形輔助輸入,能夠提高嘈雜環(huán)境及近距離多人說(shuō)話的識(shí)別效果。該版本還優(yōu)化了領(lǐng)域詞識(shí)別,可更精準(zhǔn)的匹配游戲、醫(yī)療、旅游、購(gòu)物等不同的場(chǎng)景詞匯。
除了語(yǔ)音功能邊界的拓展,訊飛輸入法10.0版本還基于“免切換”的理念,實(shí)現(xiàn)英文單詞連續(xù)手寫,即在輸入面板既可以手寫漢字也可以直接手寫完整的英文單詞。至此,訊飛輸入法已實(shí)現(xiàn)語(yǔ)音、拼音、手寫多種方式的中英文輸入免切換。
實(shí)際上,早在2016年,訊飛輸入法就提出來(lái)了“萬(wàn)物互聯(lián)”的概念,認(rèn)為未來(lái)人們的人機(jī)交互式是以語(yǔ)音為主,手勢(shì)和圖像為輔。
現(xiàn)如今,雖然智能手機(jī)依舊是最常見的終端形態(tài),但也有越來(lái)越多的新設(shè)備正在出現(xiàn)。小到可穿戴的眼鏡、手表,大到智能家居、汽車電子等,都被賦予“生命力”。而隨著越來(lái)越多的設(shè)備被智能化,訊飛也越來(lái)越堅(jiān)信自己選擇的方向是正確的。
從訊飛輸入法首次面世到現(xiàn)在,已經(jīng)過(guò)去了整整10年時(shí)間。10年很長(zhǎng),世界發(fā)生了新的變化,要輸入的場(chǎng)景也發(fā)生了變化,訊飛輸入法也不斷的跨越手機(jī)終端,邁向AIOT時(shí)代,用戶可以在平板、電視車載和墨水屏的輸入技術(shù)。10年也很短,在大科技的時(shí)代,這夠是一家公司完成從0到1,從1到N的起步階段,未來(lái)要走的路還有很長(zhǎng)。
如今,語(yǔ)音技術(shù)正當(dāng)其時(shí),訊飛輸入法的日語(yǔ)音交互次數(shù)已經(jīng)達(dá)到10億次,累計(jì)服務(wù)設(shè)備數(shù)超5億,語(yǔ)音用戶占比超70%。在萬(wàn)物互聯(lián)時(shí)代的呼喚下,“十年磨劍,再赴征程”,訊飛輸入法將憑借頂天的技術(shù)持續(xù)引領(lǐng)產(chǎn)品創(chuàng)新。
“我們要不斷的把最新的技術(shù)用到產(chǎn)品上面去,為廣大用戶創(chuàng)造更多的價(jià)值,我們要用人工智能建設(shè)美好世界。”章繼東說(shuō),作為以核心源頭技術(shù)與創(chuàng)新的公司,不論是上一個(gè)10年,還是下一個(gè)10年,訊飛的使命不會(huì)變。