6月4-6日,由中國(guó)科學(xué)技術(shù)協(xié)會(huì)、中國(guó)科學(xué)院、中國(guó)工程院、浙江省人民政府指導(dǎo),中國(guó)人工智能學(xué)會(huì)、杭州市人民政府主辦的2021全球人工智能技術(shù)大會(huì)在杭州召開。大會(huì)匯聚了來(lái)自世界各地的人工智能領(lǐng)域院士專家,共同為人工智能的發(fā)展建言獻(xiàn)策。
6日下午,在多語(yǔ)種智能信息處理專題論壇上,中國(guó)人工智能學(xué)會(huì)(以下簡(jiǎn)稱:CAAI)多語(yǔ)種智能信息處理專業(yè)委員會(huì)正式成立。國(guó)務(wù)院參事、CAAI理事長(zhǎng)、中國(guó)工程院院士戴瓊海,CAAI名譽(yù)理事長(zhǎng)、中國(guó)工程院院士李德毅,中國(guó)工程院院士、新疆多語(yǔ)種信息技術(shù)重點(diǎn)實(shí)驗(yàn)室主任吾守爾·斯拉木發(fā)表致辭,來(lái)自學(xué)術(shù)界、產(chǎn)業(yè)界的多位重磅嘉賓帶來(lái)了精彩報(bào)告。百度首席技術(shù)官、CAAI/ACL Fellow王海峰以《機(jī)器翻譯:從夢(mèng)想到現(xiàn)實(shí)》為題,介紹了機(jī)器翻譯相關(guān)研究的重要成果和產(chǎn)業(yè)應(yīng)用。
機(jī)器翻譯邁入深度學(xué)習(xí)時(shí)代
機(jī)器翻譯的發(fā)展歷程可以追溯到1947年機(jī)器翻譯設(shè)想的提出。在70多年的時(shí)間里,機(jī)器翻譯經(jīng)歷了基于規(guī)則的方法、統(tǒng)計(jì)機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯三個(gè)階段,進(jìn)入深度學(xué)習(xí)時(shí)代。
神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的大規(guī)模產(chǎn)業(yè)應(yīng)用面臨高質(zhì)量、多語(yǔ)言、跨模態(tài)的產(chǎn)業(yè)化需求。在翻譯質(zhì)量方面,百度研發(fā)了融合豐富特征的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型,漏譯率降低80%;多智能體聯(lián)合學(xué)習(xí)模型,突破單一模型學(xué)習(xí)能力不足的限制;在國(guó)際權(quán)威機(jī)器翻譯評(píng)測(cè)中獲得第一名,翻譯質(zhì)量大幅提升。2015年5月,百度在全球率先上線大規(guī)模神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯產(chǎn)品。
在多語(yǔ)言翻譯方面,針對(duì)語(yǔ)言數(shù)量多、語(yǔ)料分布不均衡、部署復(fù)雜、實(shí)現(xiàn)難度大等難題,百度研發(fā)了基于共享編碼器的翻譯模型,突破了低資源語(yǔ)言的翻譯瓶頸,研制了多語(yǔ)言翻譯統(tǒng)一框架,大幅提升部署效率,實(shí)現(xiàn)203種語(yǔ)言互譯,支持41006個(gè)翻譯方向。
機(jī)器同傳方面,針對(duì)同傳翻譯質(zhì)量與時(shí)延難以兼顧的痛點(diǎn),百度打造了基于語(yǔ)義單元的同傳模型,翻譯準(zhǔn)確率超過80%,時(shí)間延遲約為3秒,翻譯水平媲美人類譯員。同時(shí),在端到端同傳模型方面,突破了語(yǔ)音識(shí)別和機(jī)器翻譯交互同步解碼,實(shí)現(xiàn)跨模態(tài)知識(shí)共享。百度在機(jī)器翻譯技術(shù)上持續(xù)創(chuàng)新突破的同時(shí),也積極開放合作,聯(lián)合Google、清華大學(xué)等舉辦機(jī)器同傳研討會(huì)、發(fā)布面向真實(shí)演講場(chǎng)景的中英同傳數(shù)據(jù)集,促進(jìn)同傳研究。
每天翻譯超千億字符,跨語(yǔ)言溝通正在成為現(xiàn)實(shí)
機(jī)器翻譯是百度很早就開始積累和打造的AI技術(shù)之一。2010年以來(lái),百度在大規(guī)模產(chǎn)業(yè)化機(jī)器翻譯技術(shù)、海量翻譯知識(shí)獲取、多語(yǔ)言翻譯、機(jī)器同聲傳譯等方面均進(jìn)行了系統(tǒng)而深入的研究,技術(shù)上不斷突破創(chuàng)新,產(chǎn)業(yè)應(yīng)用不斷豐富。百度翻譯已形成包括翻譯PC版、翻譯APP、AI同傳、以及翻譯開放平臺(tái)等完整的產(chǎn)品矩陣,實(shí)時(shí)準(zhǔn)確地響應(yīng)全球海量復(fù)雜多樣的翻譯請(qǐng)求,每天翻譯超過千億字符,較十年前增長(zhǎng)了十萬(wàn)倍。
截止目前,百度翻譯已服務(wù)50多萬(wàn)家企事業(yè)單位和開發(fā)者,覆蓋30多個(gè)領(lǐng)域,持續(xù)在人們生活工作、公共服務(wù)、科研學(xué)習(xí)等方面發(fā)揮作用:服務(wù)服貿(mào)會(huì)、進(jìn)博會(huì)、全球人工智能技術(shù)大會(huì)等上百場(chǎng)重要國(guó)際會(huì)議;服務(wù)經(jīng)濟(jì)發(fā)展、助力跨國(guó)貿(mào)易平臺(tái)/企業(yè)降本增效;免費(fèi)開放生物醫(yī)藥領(lǐng)域翻譯,與防疫志愿者小組等合作,助力全球抗疫等等。
資料顯示,全球權(quán)威咨詢機(jī)構(gòu)Gartner發(fā)布《Hype Cycle for Natural Language Technologies, 2020》,將百度評(píng)為神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯標(biāo)桿機(jī)構(gòu)。百度是國(guó)內(nèi)機(jī)器翻譯領(lǐng)域唯一入圍單位。2020年12月,Gartner在報(bào)告《Market Guide for AI-Enabled Translation Services》中提到,百度憑借在機(jī)器翻譯方面出色的表現(xiàn)強(qiáng)勢(shì)入圍全球AI翻譯服務(wù)代表性提供商。
報(bào)告最后,王海峰表示,百度將始終堅(jiān)持技術(shù)創(chuàng)新,推動(dòng)技術(shù)進(jìn)步,為產(chǎn)業(yè)升級(jí)、社會(huì)經(jīng)濟(jì)高質(zhì)量發(fā)展、國(guó)家繁榮昌盛做出更大貢獻(xiàn)。