語言與知識技術,被歸類為認知智能,一直是人工智能最熱門的研究與應用領域。9月15日,百度世界2020召開,作為“AI新型基礎設施”百度大腦6.0的重要組成部分,百度語義理解技術與平臺文心(ERNIE)在大會上的發布吸引了大量NLP開發者的目光,尤其基于多流機制的預訓練語言生成技術ERNIE-GEN、知識增強跨模態語義理解技術ERNIE-ViL等,均達到了世界領先水平。
文心(ERNIE)是百度在語言與知識領域深耕多年的技術大成,同時登頂國際權威榜單GLUE也代表著中國語義理解技術在世界舞臺的地位。
隨著企業智能化轉型的深入,智能文本處理得需求廣泛存在,通用API/SDK已無法充分滿足需求,而傳統的NLP 定制方法在實際的產業應用中面臨著不少問題,包括:需要較多高質量的人工標注數據、缺少NLP技術選型與模型調優經驗、迭代調優耗時長等,再加上往往需要高昂的算力花費,讓不少企業望而生畏。對此,在今年8月25日的百度大腦語言與知識技術峰會上,百度集團副總裁吳甜重磅發布語義理解技術與平臺文心(ERNIE),為企業提供了一種革新性的應用范式,集先進的預訓練模型、全面的NLP算法集、端到端開發套件和平臺化服務于一體,提供一站式NLP開發與服務,讓企業用戶更簡單、高效地定制企業級文本模型。
百度通過將世界領先的NLP技術成果開放給業界,降低了NLP技術的準入門檻,讓各大產業都能快速擁有構建和應用文本智能的能力,為產業智能化提供了全新的加速度。在今年7月的世界人工智能大會(WAIC)上,文心(ERNIE)更是摘得了大會最高榮譽SAIL獎(Super AI Leader,卓越人工智能引領者),在人工智能領域技術創新和應用探索等方面獲得權威肯定。
目前,文心(ERNIE)累計支持2萬余名開發者,覆蓋金融、通信、教育、電商等行業,并在多個公開權威語義評測中獲得了近十項世界冠軍。
破局NLP建模難題,為企業NLP應用按下加速鍵
從數據到應用,文心提供一整套文本建模能力
文心(ERNIE)基于領先的語義理解核心技術,內置百度自研業界效果領先的預訓練模型集ERNIE和全面領先的算法集,將文本數據處理、基于深度學習的模型訓練、模型評估和上線部署等NLP開發流程進行易用性封裝,為NLP開發者提供一整套效果領先、簡單易用、高效靈活的NLP模型開發服務。
豐富的文本數據處理能力,擺脫繁瑣數據處理流程
不論是互聯網領域還是傳統行業,大量的企業核心信息都分布在非結構化的文本數據中。在IDC的報告中也提及:“最近幾年全球新增的數據中,有80%來自非結構化數據。”一方面,這些文本數據蘊含著的高價值信息,對企業的良性發展至關重要;另一方面,對這些信息的處理往往要耗費大量的人力,也是一筆不小的成本。
數據是模型訓練的起點。而在實際業務應用中,文本數據在數據處理的環節就要面臨數據標注成本高、數據樣本不均衡、數據質量不高、格式處理繁瑣等一系列問題。
數據標注成本高?交給文心“智能標注”能力
一般來說,高質量的標注數據越多,模型的效果就會越好。但數據標注本身就是件耗時耗力又耗錢的事情,如何能夠低成本獲取大量高質量標注數據對企業來說至關重要。文心(ERNIE)提供了全新的“智能標注”能力,開發者只需要標注少量數據,文心就可以基于這部分數據學習、優化,結合人工校正,快速完成大量無標注數據的高質量標注。
(體驗文心智能標注功能,可登錄EasyDL)
數據樣本分布不均?“數據增強”功能試一試
在實際的應用場景中,往往會面臨文本數據的樣本分布不均的情況。比如NLP領域常見的文本審核任務,需精準分類出正常文本和敏感文本,是一個典型的文本分類問題。但在實際的數據收集中,正常樣本與敏感樣本的數量很容易失衡,經常會遇到9:1(90%的正常樣本),甚至差異更大的情況,但又要求訓練出的模型能夠更全召回敏感文本。這種情況就需要文本“數據增強”的功能,來豐富和擴展敏感樣本的數量,讓數據更豐富、比例更適合。
此外,還有數據噪聲多、格式處理繁瑣等問題,文心也一一提供了解決方案:文本“數據降噪”幫助開發者快速定位高噪聲數據,支持豐富數據格式和配套的預處理能力。
超強實力的預訓練模型和算法集,快速get高質量模型
文心(ERNIE)內置百度自研業界效果領先的中文預訓練模型和NLP優質算法集。其中ERNIE預訓練模型開創性地將大數據預訓練與多源豐富知識相結合,通過持續學習技術,不斷吸收海量文本數據中詞匯、結構、語義等方面的新知識,實現模型效果不斷進化,如同人類持續學習一樣。這些硬核實力也讓它在去年12月,斬獲自然語言理解權威榜單GLUE榜首。
文心(ERNIE)模型集包括通用模型、任務模型、領域模型、輕量級模型等預訓練模型,為業界提供最完備的預訓練模型能力。
全面的評估工具和部署能力,模型落地無憂
為了滿足各行業模型應用的需求,文心(ERNIE)還配套了完整的模型評估與部署能力。文心提供了10余套常用NLP評估工具,包括多標簽分類評估、準召率、宏/微平均、正逆序比、BLEU值、ROUGE值、馬修斯相關系數等,同時也支持用戶靈活自定義評估指標。
在部署方面,文心(ERNIE)也很好地支持了模型的公有云部署和本地化部署兩種方式,方便用戶根據不同的業務需求來選擇合適的部署方式。
從世界級技術突破到產業級NLP應用能力
聚焦企業業務價值,面向不同業務需求提供豐富產品形態
為了讓文心(ERNIE)的世界級技術突破轉化為企業發展的動能,在產業應用中發揮更大價值,文心還提供了多種使用方式,讓不同需求、不同開發層次的企業開發者都能快速掌握。
零門檻、無代碼的云端開發體驗:EasyDL-NLP
百度EasyDL是一個零門檻的AI開發平臺,支持開發者一站式定制高精度AI模型。文心通過EasyDL提供了一整套簡單高效的NLP開發能力,提供零代碼、少代碼的模型訓練方式,同時也支持高階用戶進行靈活組網調參。開發者無須了解算法細節,最快5分鐘即可上手,快速定制NLP模型。目前EasyDL已支持了單標簽和多標簽的文本分類、短文本匹配、情感傾向分析等NLP常用任務類型。
可深度定制的企業級全功能開發能力:BML-智能文本
百度BML平臺是全功能的百度機器學習平臺,為企業用戶提供一站式人工智能模型建設功能服務。文心(ERNIE)通過百度BML平臺建設BML-智能文本產品能力,基于各類文本處理場景提供豐富的自動化產線,實現一站式文本建模開發與應用。
真實業務實踐淬煉,豐富場景化落地經驗
文心已在金融、媒體、電商等業務場景中嶄露頭角
目前,文心(ERNIE)已廣泛應用于搜索引擎、信息流、智能音箱等互聯網產品中,同時也在金融、電商、媒體、教育等行業中落地,成為推動產業智能化轉型的利器。
某互聯網金融企業,攜手文心,基于用戶數據快速建模,實現高效評估借貸用戶風險的能力。結合文心的預訓練模型,對用戶行為信息進行語義層面深度建模,用戶風控少量訓練數據進行精細Fine-tuning,在較短時間內完成模型收斂取得準確率顯著提升。金融風控領域模型準確率背后關乎著企業的收入,模型的效果提升,帶來的是真實的價值收益!
某綜合性電商平臺使用EasyDL中的文心(ERNIE)搭建起了完整的智能評分系統平臺架構。AI賦能后的服務考核監督機制得以升級,用戶的差評反饋都會被自動分析處理,大大提升了服務效率與服務質量。該系統將負面問題處理率由先前的60%提升到100%,客服運營人力由5人/日降至3人/日。
文心與企業開發者共同成長
全流程技術服務支持,真正做到“授之以漁”
除了基于預訓練技術提供完善的開發工具外,文心(ERNIE)還面向企業用戶提供全流程技術服務配套。包括業務問題分析、技術選型指導、模型優化指導、開發者使用培訓等服務,真正做到"授之以漁"。
百度大腦推出文心(ERNIE),正是為了幫助企業在NLP賽道上跨過技術、工具、算力、人才等門檻,開發者和企業進行開放賦能,讓語義理解等技術在產業內“遍地開花”,真正幫助企業降本增效,并發展出智能化的新業態。百度大腦正在通過語義理解研究新思路,在推動人工智能技術的發展的同時,進一步推動產業智能化發展,讓文心(ERNIE)成為AI時代的文本智能化利器。