過去10余年間,人工智能(AI)經歷了一次復興,其中最重要的技術進步之一發生在自然語言處理(NLP)領域。
2006年谷歌發布了萬億詞語料庫——Trillion Word Corpus,并從大量的公共網頁中獲得了n-gram頻率;2010年ImageNet制作了一個包含2萬張內容標簽的圖片的公開語料庫;2014年微軟推出人機對話交互平臺“小冰”,對話數據累計超過300億輪……
NLP技術的進步使得機器翻譯質量大幅提高,也催生了更多數字化場景應用,隨之國內NLP產業也迎來快速發展。據艾瑞咨詢等統計研究,2021年中國NLP核心產品及相關產業規模超1000億元;2022年預計NLP核心產品及相關產業規模將達到1500億元;到2025年,這一規模將達2400億元。
浪潮之下,NLP產品路徑通用性與專用性的要素之爭,人工智能下半程的技術趨勢如何,中國NLP發展又將走向何方?
恰逢國內領先的跨領域多模態自然語言處理方案商、服務商、運營商——中科凡語成立4周年之際,筆者邀請到了中國科學院自動化研究所研究員、博士生導師、中科凡語董事長周玉博士,就以上問題作探討解讀,共同探討關于NLP的技術前沿與產業趨勢。
中國科學院自動化研究所研究員、博士生導師、中科凡語董事長周玉博士從通用到定制形成動態閉環,搭建NLP底層技術平臺
此次采訪時已經是晚上9點,剛剛忙完工作的周玉通過電話接受了筆者的采訪,期間周玉條分縷析的講了一個多小時,言談間難掩創業的興奮與激情,語氣鏗鏘有力,思維邏輯清晰,論據詳實充分。見微知著,或許正是這樣嚴謹端正的態度,才使其脫穎而出成為NLP學界為數不多的頂尖女性學者、創業者。
深耕NLP領域多年,周玉對NLP領域發展前景自是十分看好,但在談到目前主流NLP產品的應用落地時深感任重道遠。
周玉坦言,雖然未來十年在產業界被公認為NLP技術發展黃金期,但產品落地方面,尚有許多問題亟待解決。“較為典型的問題有兩個,一是高定制化場景帶來的高溝通門檻,使得技術人員和需求方往往需要多次磨合,溝通效率較低;二是要開發通用性較強的產品,對不同領域、不同場景的應用會需要不同的業務數據支撐,適配過程較為漫長。”
面對NLP產品的定制化和通用性難題,中科凡語的產品開發路徑或許對行業有一定啟示。周玉表示,NLP的產品落地的特殊性在于其必須要有一個定制化的過程,但是先通用還是先定制,這其實有點類似“先有雞還是先有蛋”的哲學思考,具體實踐時其實是更偏向于一種動態化的閉環。
“早期,可以面對不同行業領域客戶先提煉出共性需求,搭建一個通用的技術框架,滿足基礎的模塊功能;然后再構建通用場景的通用產品;之后再遷移到特定場景進行定制化開發;最后在定制化過程中再衍生出面向特定場景的產品。總的來看,其實是在動態演化過程中不斷完善迭代。”
以OCR翻譯(圖像識別翻譯)為例,目前市面上常見的方法是先做OCR的識別,然后再機器翻譯,但此類方式普遍面臨效率低、場景識別弱、復雜場景效果差等問題。中科凡語基于這些痛點,會先提供通用性較強的OCR模塊產品部署到客戶端,滿足當下迫切需求,然后再通過實際應用中的反饋、長尾效應等搜集問題和需求,再通過技術人員進行二次深度開發,最大化的平衡客戶需求與產品性能之間的錨點。
周玉直言,“NLP產品開發的底層邏輯是技術儲備,技術儲備越豐富,通用技術模塊越成熟,遷移成本就會越低,在特定行業的產品化效率也就越高,行業壁壘也就隨之建立起來。”
這一開發邏輯,從中科凡語過往的產品中清晰可循。比如“信譯”是基于為用戶提供優質、專業、準確、高效的機器翻譯服務;“信推”是針對長文本完成多模態自動摘要生成和關鍵詞提取及內容推送;“信取”則提供跨場景、多語言、多粒度的數據爬取、融合、分類及管理,等等。
“目前中科凡語所推出的‘五信’,‘飛譯’或是‘洞知’產品,都是基于客戶普遍的共性需求所建立的。未來的產品開發,我們還是將繼續朝著系統化、模塊化、工具化的方向出發,為客戶提供更易組裝、更加靈活、適用性更強的智能服務產品,構建多模塊、廣適用、高精度的底層NLP技術平臺。”周玉說到。
專業領域億級語料數據 為行業發展提供動力
如果說產品路徑與架構搭建了NLP技術的經脈,那么數據,或者更確切說是來自專業領域內的高質量標注數據,則是當前AI深度學習時代下NLP技術的血液,為NLP技術推動產業發展提供關鍵動力。
在劉慈欣的科幻小說《詩云》中,曾暢想過這樣一幅“技術與藝術對抗”的終極浪漫場景:一個高等外星文明為了寫出超越李白的詩歌,窮盡了太陽系的大部分能量,列舉出了所有可能的字詞組合,最終,他們“借助偉大的技術,寫出了詩詞的巔峰之作”,卻還是選擇了認輸,因為他們“不可能把它們從詩云中檢索出來”。
標注數據之于NLP,頗有異曲同工之妙。NLP技術本質上是基于深度學習的,相比于視覺或音頻信息,自然語言更加抽象,蘊含了更加豐富的人類定義的知識,導致相比其他AI技術領域,NLP對標注數據的要求也更嚴苛、難度更大。可以說,NLP的技術效果很大程度上取決于標注數據的質量和規模。
如何獲得高質量、大規模的標注數據?
周玉表示,“數據標注并非只是簡單的數據層面的問題,相較圖像、視頻等類型,NLP采標方式更為復雜,難度大很多,因此更需要標注人員、標注數據和和算法三方面的協同作戰。”
為此,中科凡語作了大量的基礎準備工作。“在標注人員方面,比如以翻譯樣本標注為例,考慮到翻譯人員對語言語種的專業性涉獵,中科凡語同全國100多所高校外國語學院達成了合作,并建立了與之相對應的人物畫像,豐富語種人才庫的同時,進一步降低了適配時間,提升適配效率;在標注數據方面,分層分級,重點篩選種子樣本,因為相較普通樣本,種子樣本往往能起到1比20的效果;再通過不斷優化迭代算法方面的優勢,來最大化的降低標注成本,篩選出有價值的數據。”周玉解釋到。
同時,通過前臺數據與后臺算法的深度綁定,中科凡語進一步提升了數據儲備的質量和規模。“前臺數據一旦有更新的標注,后臺算法也會相應進行優化,確保標注數據的高質量高精度;再通過工程化開發來減輕數據標注中的重復勞動,提升業務效率,進而形成一個良性的閉環。”
基于中國科學院自動化研究所相關團隊20余年的積累以及同廣大國內語言類高校的深入合作,中科凡語目前已經建立了涵蓋特定行業、教育、醫療、航空等多個領域的億級雙語平行語料及大規模涵蓋多語言、多領域、多場景、多任務、多層次的高精準標注語料,NLP語料數據方面行業領先。同時,通過創新迭代的智能化標注算法,中科凡語也在不斷充實NLP語料池,著力挖掘大規模、高質量的標注數據,致力為NLP行業的場景定制、技術突破、產業發展等提供源源不斷的動力。
高質量的標注數據不僅帶來效率提升、技術升級,更是NLP發展的必然趨勢。現今,數據標注正處于早期階段,但可以預見的是,隨著人工智能的浪潮進入下半場,數據標注將迎來井噴期,促進感知智能向認知智能的轉變。
深耕行業夯實優勢,NLP下一個十年中文論劍
毋論產品路徑與技術趨勢如何領先,NLP發展最終還是要歸到產業應用的“肌肉”上來看。
縱觀國內外NLP產業發展現狀,國外NLP技術由于起步早、技術領先,而國內目前則處于奮起直追階段。據倫敦帝國理工學院對NLP相關會議論文統計顯示,自2012年至2020年期間,美國以近4000篇論文的數量遙遙領先,中國位居第二。隨著中國企業逐漸從“輔助角色”進化為中堅力量,“學術界+工業界”的雙輪驅動推動中國AI力量悄然變化。
以中科凡語為例,作為孵化于中國科學院自動化研究所的國產NLP領域先行者,承接了研究所相關團隊過去20多年在NLP領域技術積累,在技術、數據乃至人才方面都有著天然優勢。成立四年來,中科凡語已成功落地了100多家G端客戶、50余家B端客戶,同時還承擔了多項國家和政府重大需求項目,例如為“一帶一路”沿線國家提供翻譯、信息整合及分析服務等,未來還將持續深耕認知智能、通用智能、因果推斷等技術領域,進一步推動NLP成果產業化。
值得一提的是,中科凡語還于2020年11月成立了凡語AI研究院,共吸引高級發展顧問、教授級專家委員、博士青年委員等60多人加入,涵蓋NLP領域技術大牛、業務精英以及語言專家等,旨在吸引行業頂尖人才共同進行前沿研究,夯實中科凡語在NLP領域的領先競爭優勢,并不斷探索新的基礎模型與技術路線,建立競合協同的行業生態。
此外,其他業界知名公司如百度、阿里、騰訊、華為、今日頭條等,也在結合自身固有業務優勢,在NLP領域持續投入研發,加速業務變革與升級。
除了學術界與工業界,國家相關政策也持續出臺,重點扶持人工智能相關產業發展。
2019年,由科學技術部發布的《國家新一代人工智能開放創新平臺建設工作指引》中指出,要鼓勵人工智能細分領域領軍企業搭建開源、開放平臺,面向公眾開放人工智能技術研發資源,向社會輸出人工智能技術服務能力。
2020年7月,由中央網信辦等五部門發布的《國家新一代人工智能標準體系建設指南》中也強調,到2023年要初步建立人工智能標準體系,重點研制數據、算法、系統、服務等重點急需標準。
《中國制造2025》《“十四五”規劃綱要》等重要政府文件中,都明確了人工智能在我國未來科學研究和產業發展中的重要作用。
……
盡管目前出現了一些挑戰與瓶頸,但總的來看,在政策紅利和藍海市場的雙重利好下,NLP 已步入發展快車道,并涌現了許多商業化應用,如機器翻譯、輿情監測、自動摘要、問答機器人、客服機器人、電銷機器人、智能推薦等。
隨著AI技術不斷走向“深水區”,作為AI最高層次的NLP也將伴隨著數智化的產業趨勢快速迭代更新。就像《技術的本質》中所說的,“技術是高度可重構的,它們是流動的東西,永遠不會靜止,永遠不會完結,永遠不會完美。”
周玉對此深以為然:“NLP技術的發展永遠沒有終點。中科凡語希望能通過本身在NLP領域積累的人才、算法、數據等優勢,聯合業界的專家學者、行業精英,一同做NLP最前沿技術和應用的探討,無限逼近甚至超越人類的理解能力,用我們這一代人的努力扛起國產NLP發展的大旗。”
正是無數這樣的科學家、創業者、奮斗者的星聚,才推動著中國NLP技術在這十余年來的快速進步,并不斷建設世界范圍的中文信息處理影響力。
相信下一個十年,NLP將迎來中文論劍的時代。