8月5日,ACL 2021正式頒發“最佳論文”獎項,字節跳動AI Lab的機器翻譯技術論文在3350篇論文投稿中脫穎而出,當選今年度“最佳論文”。ACL大會由國際計算語言學協會主辦,被視為自然語言處理與計算語言學領域最高級別的學術會議。多年來,自然語言處理被譽為“人工智能皇冠上的明珠”,在機器翻譯、搜索、信息流、輸入法等領域都有著廣泛的應用。
1.機器翻譯新突破
自1949年信息論先驅Warren Weaver發表翻譯備忘錄、提出機器翻譯的可能性以來,機器翻譯已經過了幾十年的發展迭代,如今進入到了一個可以運用“神經網絡”和加入了“深度學習技術”的AI翻譯時代。不可否認的是,全球化的商業巨頭已經走在了最前端。
以AI為內核的混合智能技術也正在成為開啟經濟新周期的密鑰之一。
這絕不是理論上的先知先覺。洞察美國科技巨頭——如谷歌、Facebook等公司,我們會清醒發現,它們都在進入一個密集的AI基礎設施投資新周期。這樣的行為,或許會在中短期對它們的財務報表形成一定擾動,但相比于未來的收益,不值一提。
字節跳動作為互聯網新貴,機器翻譯是其AI能力發展程度的重要體現之一。該公司業務覆蓋150個國家和地區,員工也遍布全球各地。在其11萬名員工跨越語言障礙、順暢交流協作的背后,字節跳動AI Lab火山翻譯團隊多年打磨的機器翻譯模型的支持必不可少。
基于文本翻譯、語音翻譯、圖像翻譯、語種識別等技術能力,火山翻譯推出了一系列形態多樣的產品與服務,包括機器翻譯云服務、智能視頻翻譯、智能同傳等。此外,火山翻譯還支持垂直領域的快速模型定制,能夠滿足不同群體和不同行業的翻譯需求。
除了在抖音、今日頭條等產品上的使用,火山翻譯團隊也早已將機器翻譯技術應用于辦公場景中。以在線辦公軟件飛書為例,不僅郵件、文檔和表格可以開啟譯文或雙語對照模式,IM消息也可以做到即時翻譯,會議也同樣可以享受同聲傳譯的快感,包括目標語言字幕式翻譯。這類機器翻譯技術的應用,使得來自于不同國家的參會者可以說著自己的母語更自如地進行交流,而不再囿于語言障礙產生誤解。
據火山翻譯負責人王明軒介紹,內部很多大熱的軟件中都可以看到火山翻譯的身影。無論是在泛娛樂端還是工具端的應用,火山翻譯多語言互譯的速度和準確度都經受住了考驗。
如今,火山翻譯已經上線了56門語種之間的互譯,支持的語向翻譯多達3080個。據透露,今年內火山翻譯上線語種將超過150個。值得一提的是,火山翻譯不需要英語等通用語作為中間語,可以支持任意兩個語種之間的互譯,大大提高了翻譯速度。
今年內,火山翻譯上線語種將超過150個
以火山同傳為例,在半年時間內,火山同傳就已經在多場會議與直播中嶄露頭角,包括北京智源大會、第四屆首席技術官領袖峰會、日本藝術家村上隆首場中國直播等。不僅為不同場景提供定制化同傳字幕服務方案,同時采用人工保障方案實時校準,保證字幕精準性和流暢性,為高端會議的進行提供了保障。
火山翻譯的前沿技術也獲得了學術界認可,今年共有9篇論文被ACL 2021接收,就是由AI Lab的NLP基礎研究團隊和火山翻譯團隊合作實現的。由字節跳動AI Lab提出的一種新的詞表學習方案VOLT,更是獲得了年度唯一的“最佳論文”獎項。這是ACL59年歷史上,華人科學家團隊第二次贏得最高榮譽。
王明軒透露,火山翻譯現在每天都要處理數億次翻譯請求,可以說每一個上線語種都經過了實際用戶的檢驗,“因此,穩定和高質量的翻譯服務是我們必須提供的保障。”
持續不斷地為用戶提供高水平翻譯服務靠的不是運氣,而是火山翻譯背后強大的技術支撐和工程能力,以及字節跳動開放體系的聯動支持。
2.技術底色支撐應用落地
火山翻譯之所以能在近年快速落地,實現商業價值,離不開其濃厚的技術基底。
微軟技術學院院士黃學東曾表示,一家公司構建的翻譯系統效果如何,主要取決于兩點:一是數據是否夠全、夠多;二是算法是否足夠好。
海量數據是AI自我迭代不可或缺的基礎,由于背靠字節全球化布局,火山翻譯可以獲得更好的AI訓練結果,并從AI賦能中率先獲益。
同時,得益于字節跳動多年機器學習和自然語言處理領域的深耕,其AI團隊擁有百余項技術發明專利,在機器翻譯技術上更是獨創了multilingual Random Aligned Substitution Pre-training (mRASP)多語言預訓練算法,把幾十種語言語料融合在一起訓練,獲得的模型在具體語對上微調取得了44個語對的業界最佳性能。
據悉,目前研究界主流的多語言翻譯模型主要在英語相關的語對上進行訓練。這樣的系統通常在英語相關的語向(有監督語向)上表現不錯,而在非英語方向(零資源方向)的翻譯效果不佳。針對這個問題,火山翻譯團隊近期提出了更簡潔優雅的大規模多語言預訓練新范式mRASP2,通過引入對比學習,輔以對齊增強方法,將單語語料和雙語語料囊括在統一的訓練框架之下,旨在充分利用語料,學習更好的語言表示,并由此提升多語言翻譯性能。
這一多語言預訓練新范式運用在機器翻譯時,就像是一個精通兩三門語言的人類學者,在學習另一門語言時,速度就會更快。“人類在多語言學習過程中會自發去總結語言學習中比較抽象的共性,再去學習新語言的特性。因此想要提升個人語言學習能力,往往需要學習更多的語言。”火山翻譯就將這一規律植入神經網絡翻譯中,創造出了一個統一的具備多種語言能力的模型,在遇到新的語言時,臨時少量學習即可達到很流利的語言水平。
火山翻譯多語言預訓練新范式源于人類語言學習規律
機器翻譯模型實際是基于源語言生成目標語言的條件概率模型,實驗結果表明mRASP2在有監督、無監督、零資源的場景下均取得翻譯效果的提升。其中有監督場景平均提升1.98 BLEU(bilingual evaluation understudy,翻譯精確度),無監督場景平均提升14.13 BLEU,零資源場景平均提升10.26 BLEU。
這意味著,無論是語料庫豐富的通用語言,還是訓練數據稀缺的小語種,機器都可以通過這一新范式,把翻譯能力遷移到不同語言上,使不同語言之間的信息互相利用,完成學習迭代。
隨著語種數量增加,翻譯任務增多,對機器自然語言處理任務的能力水平也提出了新的要求。
早在2019年12月,火山翻譯團隊曾經開源過一款Transformer類模型推理加速引擎LightSeq。作為業界第一款支持多種模型和解碼方法的推理加速引擎,LightSeq的推理速度快于其它同類軟件,更是遠遠超過了TensorFlow和PyTorch。
Transformer模型結構圖(以機器翻譯為例)
最近,LightSeq發布了最新版本,引入了引擎方面的重大更新——支持了Transformer全流程訓練加速,在不同的批處理大小下相比主流訓練庫最高可加速3倍多,是業界目前最快的推理和訓練引擎,可以把推理速度提升10倍。
訓練速度快,指的是模型更迭比較快;推理速度快,就是指用戶體驗到的翻譯速度更快。至此從訓練到推理部署的整個過程都已被LightSeq2.0打通。
從用戶端來看,LightSeq2.0可以應用于機器翻譯、自動問答、智能寫作、對話回復生成等眾多文本生成場景,大大提高線上模型推理速度,改善用戶的使用體驗,降低企業運營服務成本。
“以翻譯任務為例,LightSeq2.0相比于TensorFlow最多可以達到14倍加速。同時領先目前其他開源序列推理引擎,例如最多可比Faster Transformer快1.4倍。”王明軒介紹,訓練英法翻譯模型,pytorch 之類的框架需要一周,火山翻譯只需要2天多;而翻譯一句話,16層的神經網絡業界普遍需要600多ms,LightSeq2.0只需要80ms。
總結起來,在各類場景中至關重要的火山翻譯產品,都離不開技術團隊的精心打磨。核心是大規模多語言預訓練新范式mRASP2和推理和訓練引擎LightSeq2.0的結合,保證了語種的多樣性以及互譯的精確度,輔之以并行文本生成能力Glancing Transformer 模型(GLAT)、端對端語音翻譯工具包NeurST等多項機器翻譯前沿技術,使火山翻譯多次得到市場及學術界的認可。
在2020年國際機器翻譯大賽WMT2020上,火山翻譯團隊一共獲得七項冠軍:在39支參賽隊伍的激烈競爭中,火山翻譯以顯著優勢在「中文-英語」的關鍵語向翻譯項目競賽上拿下了世界冠軍;此外,火山翻譯還拿下了「德語-英語」、「德語-法語」、「英語-高棉語」和「英語-普什圖語」語向機器翻譯項目的冠軍,還斬獲了平行語料過濾對齊項目普什圖語和高棉語的兩項第一。
今年的WMT2021大賽,火山翻譯通過強大的并行文本生成能力GLAT,在受限資源賽道奪得德語到英語方向翻譯比賽自動評價第一。
WMT是由ACL舉辦的世界頂級機器翻譯比賽,主要宗旨是評估機器翻譯最新發展水平,傳播通用測試數據集和公共訓練數據,改進機器翻譯評估評測方法。德英語向是該賽事競爭最激烈的大語種項目之一。自2006年以來,WMT已連續舉辦了16屆,參賽者來自世界各地的頂級企業、高校和科研機構,包括微軟、臉書、騰訊、阿里巴巴、百度、華為等,比賽結果被廣泛認可為機器翻譯技術的風向標。
此次也是GLAT在國際大賽的首次亮相,就成功擊敗了從左向右逐詞翻譯的“自回歸模型”技術,打破后者在機器翻譯領域的絕對統治地位。
自左向右生成(左)和并行生成(右)
相比于自回歸式翻譯系統自左向右的逐詞輸出,并行翻譯系統則采用了更新穎的并行生成技術,在翻譯的過程中同時輸出所有的詞,從而可以獲得數倍的翻譯加速。“并行翻譯”是由機器同步輸出所有的詞,不依賴之前的輸出詞,翻譯速度將提高數十倍,甚至“句子越長,提升速度越明顯”。
同樣,為了進一步提升語音翻譯的準確度和翻譯速度,火山翻譯利用前述技術思路,將預訓練模型應用在語音同傳中。
傳統基于級聯的語音翻譯系統的缺點之一就是自動語音識別轉錄錯誤頻發,而火山翻譯推出的端到端語音翻譯工具包NeurST,利用預處理音頻數據集的簡單方法,繞過了轉錄步驟。不僅減少了滯后時間提升了翻譯速度,也使開發人員可以騰出時間從事更高級的語音翻譯工作。
3.技術開源,推動行業發展
火山翻譯團隊由分布在全球各地的科學家和工程師組成,平均年齡不到30歲,均有各大科研機構和大型企業任職經歷,但負責人表示,火山翻譯的成就很大程度仍歸功于字節跳動整個公司在技術端的開放。
“字節跳動是一個開放的架構,很多技術都會在內部共享,比如字節人工智能實驗室(AI Lab)的前沿機器翻譯技術”,王明軒介紹,AI Lab為公司今天現有的產品和業務提供核心技術支持和服務。
在WMT2021上大放異彩的并行文本生成能力GLAT,就是火山翻譯團隊和AI Lab其他研究團隊合作的技術產出。其實,AI Lab已將很多AI技術應用到實際產品中,用戶相對比較熟悉的可能是在抖音、今日頭條、西瓜等App中的應用,火山翻譯也是字節跳動AI技術在產品研發層面的成功落地案例:通過內部技術研發、產品經理、產品運營等專業團隊形成一條“前沿技術+產品研發+運營反饋”的閉環。
字節跳動開放的架構,成就了內部技術的高復用率
除了支持公司產品和內部辦公以外,火山翻譯將技術和服務能力集成于字節跳動旗下的ToB技術服務平臺火山引擎中,將火山同傳、火山翻譯API、火山翻譯Studio等在內的一系列矩陣產品開放給更多行業的企業用戶們。
好的技術需要匹配好的工程能力來實現落地。有賴于火山引擎更加接近客戶端的反饋,火山翻譯的技術、工程團隊也可以打磨出更符合市場需求的解決方案。比如在去年12月12日,日本藝術家村上隆首場中國直播,吸引了百萬用戶的關注,這場跨國直播的成功也離不開火山翻譯提供的高質量實時智能同傳字幕。
影院級字幕翻譯在直播中保證了用戶體驗
為了給用戶更專注的體驗,免受翻譯字幕跳動帶來的視覺干擾,火山同傳根據應用場景做出定向技術優化,創新性地推出了“影院級字幕”方案。據介紹,在村上隆的直播中,火山翻譯團隊除了采用前沿的神經網絡機器翻譯技術進行模型訓練外,還針對直播場景引入了領域適應技術,將村上隆以往的訪談和演講數據用于優化算法,并對口語規范化、專業術語定制都進行了特殊優化處理,確保最終呈現的字幕能夠簡潔、精準。
借力于開放的技術體系,火山翻譯也選擇用更開放的態度推動產業發展。
“開源是推動科技進步的重要力量,我們受益于開源,更需要為開源社區做出貢獻”,王明軒表示,字節跳動已經把包括LightSeq系列項目在內的多種技術開源,與各界共享技術成果,希望能幫助廣大科研人員節約時間成本,為學術界和產業界激發創造力提供有力支持。
4.構建B端增長曲線
在技術團隊的研發和實際案例的鍛煉后,火山翻譯逐漸有了較為全面的覆蓋能力和場景適應性,對于產品的市場化方向,團隊也有了更清晰的認知。
“我們一直致力于更加行業化、個性化地解決用戶的需求,為B端客戶創造更大的價值。”王明軒表示,B端的營收更加穩定,市場更廣闊,在未來2到3年內是火山翻譯主要的覆蓋目標。
面向普通用戶,火山翻譯也推出了AR智能翻譯眼鏡以及火山翻譯瀏覽器版本,讓用戶體驗最新技術成果。“但C端更多是輔助作用,主要目標市場還是B端。”
選擇B端市場也是字節跳動的下一增長曲線所在。火山引擎各類技術的開放,意味著字節構建B端業務的步伐正在加快,服務體系也愈加成熟。
近年來,互聯網科技巨頭們的商業化路徑逐漸清晰,先是聚集規模流量變現(比如廣告),接下來是挖掘技術的價值(大數據、云計算等更底層的基礎設施)。這條路是亞馬遜,阿里巴巴,騰訊等前輩們走過的,在這個馬太效應依舊明顯的ToB市場里,年輕的字節跳動必須錨定優勢才能進行差異化競爭。
火山引擎定位自己為“企業智能增長服務”,而增長,正是商業世界所渴求的,也是字節跳動在短短幾年內創造的神話。
在現代工業物流體系下,商業增長不可能離開信息的獲取。在過去的幾年中,機器翻譯讓國際貿易增加了10%,而現今世界仍有上千種語言未能實現本地化,被稱為“長尾語言”,本地化意味著可以與說同一種語言的人群進行更廣泛的交流。一個很好的例子是,在非洲,斯瓦希里語已成為一種普遍的交流用語,實現斯瓦希里語的本地化意味著1600萬以其為母語的人和8200萬以其為第二語言的非洲人建立起了溝通。
當然,獲取新信息的需求對于每個地區的人們都存在,“全球現存有5000多種語言,400多種文字,AI加持下的機器翻譯是打破這種信息障礙,使不同語言的人們可以進行交流,了解對方的理想方式。”王明軒表示,除了商業意義之外,火山翻譯更希望能夠讓大眾體會到機器翻譯給日常生活帶來的便利,真正做到消除語言障礙,實現無國界溝通。(來源:電腦報)