近期,國外一份調查報告誤將392萬和83萬的采購費用翻譯為39.2億和830萬,鬧出國際笑話。有分析認為,此烏龍事件是國外機器翻譯軟件造成的。
讓很多人意想不到的是,看似簡單的數字,在機器翻譯中向來是一大痛點。就以「392.687694萬元(人民幣)」為例,我們測試不同翻譯軟件的翻譯結果。
數字翻譯「中譯英」測試
首先測試「中譯英」,國內外9款主流翻譯軟件中,只有火山翻譯和騰訊翻譯君準確地翻譯出了392萬。其余7款產品,有翻譯成392的,有翻譯成39.2億的(與“烏龍”報告結果一致),甚至還有翻譯成392萬億的,比正確結果擴大一億倍,另外4款都翻譯成了3.92億。測試結果如下列組圖所示。
火山翻譯:
騰訊翻譯君:
以下為其他7款翻譯產品的測試結果。
翻譯為39.2億(與國外報告翻譯結果一致):
翻譯為392:
翻譯為392萬億:
翻譯為3.92億:
數字翻譯「英譯中」測試
我們用不同軟件把英文「3.92687694 million yuan (RMB)」 翻譯回中文,會是怎么樣的結果?
這次只有火山翻譯準確翻譯出了392萬元人民幣。其他8款產品,有翻成3.92萬的,有翻成39.2億的,也有翻成392萬億的,另外5家都翻成了3.92萬億。測試結果見下列組圖。
火山翻譯:
其他產品的翻譯結果:
數字的重要性毋庸多言,在商業條款中如果翻譯錯一個數字,可能會帶來成千上萬的損失;建筑圖紙中一個數字翻譯的疏漏,就可能導致一項龐大建筑工程轟然倒塌。想要保證數字翻譯的準確度,遠不是謄寫一串阿拉伯數字再翻譯單位這么簡單。從上面測試中也可以看到,一些國際巨頭的翻譯產品,在數字翻譯中照樣會出現偏差萬倍甚至上億倍的錯誤。
數字翻譯難在哪?
數字翻譯對翻譯者關于目標語言數字表達的理解要求較高,在中英翻譯中,數字翻譯的難點主要在以下方面:
a.中英語言中不同的數字單位,如1000萬翻譯成10 million,不能簡單地「拷貝」
b.很長的數字容易帶來偏差
c.超大數字的翻譯問題,如trillion、萬億以上的單位
d.中英語言中不同的計量單位,如中文中的“斤”,容易被翻譯成“kg”
e.帶有貨幣符號的數字容易犯錯
當前,很多翻譯軟件對數字沒有做額外的處理,采用的是與普通文字相同的sequence-to-sequence神經機器翻譯模型。這一模型翻譯質量較高,流暢性較好,但存在一個顯著的缺陷, 就是缺乏常識和推理能力,無法理解對于人類來說比較簡單的規則,例如,“萬”和“million”的的轉換、單位貨幣之間的不同等。
火山翻譯如何解決數字翻譯難題?
我們從火山翻譯技術分享中了解到,火山翻譯的翻譯模型見到對應的數字之后,會將其抽取出來,通過推理、計算等智能過程,對數字進行跨語言的語義轉換,然后將其置于翻譯句子適當的位置中,類似人類的翻譯推理過程。
火山翻譯是字節跳動旗下火山引擎的AI中臺能力之一,技術能力已經在飛書的文檔、消息翻譯和火山引擎的企業級客戶中廣泛應用。由于當前機器翻譯場景中存在大量的數字內容,數字翻譯也一直是火山翻譯團隊持續優化的重要方向。目前, 火山翻譯已經支持56門語言、3080個語向的翻譯。