機器之心整理
參與:蛋醬、小舟
一堂為期三小時的手把手 AI 開發教學課程,讓開發者學到了什么?
2020 年,人工智能技術進入商業化落地的全新階段。對于入門不久的初級開發者或者轉型中小企業來說,如何最輕松、最高效地進行 AI 開發和部署?
2020 世界人工智能大會云端峰會是由上海市政府打造的國際頂級人工智能會議,于 7 月 9 日正式開幕。「開發者日」作為 WAIC 云端峰會主題論壇及特色活動,也是 WAIC 期間唯一面向 AI 開發者的專業活動。
在 7 月 11 日上午舉行的 2020 WAIC「開發者日百度公開課」上,機器之心聯合百度為開發者們提供了一堂 3 小時極致學習課程,來自百度 AI 的四位工程師為大家帶來了從 NLP、CV 到零門檻 AI 開發平臺 EasyDL 的實戰經驗分享。
本文對此次公開課的核心內容進行了整理,感興趣的小伙伴可通過文后視頻學習。
如何使用 UNIT 搭建智能對話系統
首先是百度資深研發工程師、UNIT 平臺的技術負責人孫叔琦講述「如何使用 UNIT 平臺搭建智能對話系統」。
1.UNIT 平臺技術與服務全景
UNIT 平臺技術與服務全景。
最底層的核心技術平臺包含了知識建設與管理能力、預置技能與資源、核心任務式理解、對話系統框架層面的技術,以及語音和語義一體化集成技術。在基礎平臺之上,百度為智能客服、消費電子、企業服務、車載出行等常見的行業場景包裝了復用度較高的場景方案、行業方案,這些技術和方案都支持公有云部署、私有化部署,在一些特定的場景下還可以支持嵌入式的部署。在技術和方案的上方,是人才方面的生態服務,包括技術方案的顧問服務、培訓認證服務、質監交互服務以及托管研發服務。
2.UNIT 平臺技術解析
孫叔琦首先進行了技術層面的講解。使用 UNIT 最方便快捷的方法就是利用其預置技能,大概分為三類:
一類是開發者可以拿來直接用于服務的資源,也就是「開箱即用」,包括天氣、智能問答等;
一類是為稍微有一些能力的開發者提供的高準確解析型對話技能,比如對話理解服務,開發者可以在對話理解的結果基礎上對接自己的系統;
一類是針對特定領域的輕定制需求,在某些場景下,對話技能需要面向具體業務定制才能滿足開發者的實際需要,UNIT 提供的這些技能,可供開發者進行小幅度修改以適配業務。
UNIT 的預置技能。
如果預置技能并不能夠滿足所有的需求,那么就需要開發者自己動手開發一些對話技能。下圖是對話系統定制的一般過程。
開發者在平臺上需要做的事情首先是定義對話任務,對話任務包括對話意圖的定義以及對話規則的定義,并針對所定義的對話任務提供知識,包括意圖的表述、意圖里面關鍵詞、詞槽的一些資源詞典以及對話規則里跟業務對接部分的一些資源提供進來,UNIT 平臺會自動地通過訓練機器學習的方法以及一些配套的機制去生成開發者業務上的對話系統。
對話系統可大致分為兩類:任務式對話和問答對話。二者的區別是前者需要對對話的參數化進行精確的處理。任務式對話需要把一句話解析成意圖和詞槽這樣的參數化的形式,而問答對話需要最后的答案。所以問答式對話更傾向于做常見的業務問題的解答。
任務式對話中有一個非常關鍵的技術「任務式對話理解」。任務式對話理解技術強調的有兩點,首先是要提供專業的效果,第二是獲取成本要足夠低。對話理解技術可以把很長的請求解析成結構化的表達形式,包括意圖、詞槽以及詞槽之間依賴關系,詞槽的規范值等等。
而開發中用到問答對話,是因為問答系統的接入門檻比較低,只需要提供簡單的問答資源,系統就可以工作。在此,孫叔琦重點介紹了對話式文檔問答和表格問答兩種處理技術。
UNIT 整合了文檔分析、整合了語義匹配、閱讀理解等等技術,為開發者帶來了端到端的對話式文檔問答技術。開發者可以直接提供業務文檔,經過該技術的處理,直接生成針對文檔做問答的對話系統。該對話系統在無需整理 FAQ 的情況下,兩輪對話之內即可解決 87% 的問題。
數據表格問答方面往往需要大量的預處理工作, UNIT 通過數據分析以及 NL2SQL 的技術,實現了結構化知識問答。開發者提供結構化數據表之后,即可針對數據表做問答,省去了整理數據庫、整理數據表格的步驟,直接就可以實現表格問答。
對話管理在開發者的業務中解決的是多輪對話的問題。在多輪對話問題中開發者的主要需求有幾種:
對話邏輯要嚴格的可控;
在一些細小、微觀邏輯上面需要盡量多的內置;
在對話過程中希望和業務資源做互動,把業務資源接入進來,讓對話系統能夠完成業務上的事情;
可能還有一些更高層次的需求,即讓對話變得智能,可以自動地學習和成長。
針對這四項需求,對話管理的框架的整體設計如下圖。
UNIT 設計了語音語義一體化的集成框架,通過語音語義一體化的中控,將百度的語音能力整合進來,在語音的接口上通過端到端地輸入語音、輸出語音。整合各項技術的同時,還針對語音場景所常見的異常情況提供一些預置處理。
3.UNIT 平臺輸出模式與生態服務
整個系統開發完成后,怎么和業務系統、和相關服務對接呢?下圖展示了 UNIT 對外輸出模式。
面向入門階段的開發者,以及自研系統和需要托管研發的業務方,UNIT 都提供了一系列生態服務能力,包括培訓、認證等,保證各式各樣的開發者均可非常順利完成對話系統。
4.UNIT 應用落地情況
UNIT 現在主要的應用落地情況,包括四個大的維度:
第一個維度是智能客服,即通過智能 IVR 的方式實現業務咨詢、業務辦理等需求;
第二個維度是消費電子,主要支持的是手機系統以及 App 里面的語音助手等服務;
第三個維度是車載出行;
第四個維度是企業服務,包括會議管理、智能 BI、智能 OA、服務機器人等。
飛槳視覺技術解析與應用
百度深度學習平臺飛槳(PaddlePaddle)資深研發工程師杜宇寧主要介紹了飛槳視覺技術解析與應用。
上圖為飛槳平臺的全景圖,主要由飛槳的開源深度學習平臺和飛槳企業版兩部分組成。
飛槳開源深度學習平臺主要包含四個部:核心框架、基礎模型庫、端到端的開發套件和工具組件。核心框架包括開發、訓練和推理三部分,奠定了整個飛槳面向學術研究和產業應用的基礎。基礎模型庫目前覆蓋自然語言處理、計算機視覺、推薦、語音等多個方向,算法總數達到 146 個,旨在助力開發者二次開發。端到端的開發套件在基礎模型庫的升級,對于 AI 典型的任務,打通模型的訓練到推理部署的全流程,有助于開發者落地應用 AI 技術。
杜宇寧重點分享了 PaddleCV 模型庫以及幾個典型的端到端開發套件。PaddleCV 是飛槳針對計算機視覺領域打造的一個模型庫,覆蓋了圖像分類和目標檢測、圖像分割、視頻分類和動作定位、文本識別、度量學習、關鍵點檢測、圖像生成、3D 視覺以及模型壓縮這些方面。提供了我們常見的這些場景的模型訓練方法和使用的預訓練模型。在上述基礎上又打造了一系列端到端的開發套件,包括 PaddleClas 的圖像分類套件、PaddleDetection 目標檢測套件、PaddleOCR 的文本識別套件等等。
飛槳近期推出的 PaddleClas 圖像分類套件是面向工業界和學術界的圖像分類任務工具集。PaddleClas 的模型庫非常豐富,包括了 23 個系列的分類網絡以及訓練配置,提供了 117 個模型在 ImageNet 數據集上的預訓練模型和性能評估,這也是目前所知的業界豐富度最高的分類代碼庫。
此外 PaddleClas 還提供了一個 SSLD 蒸餾方案以及 8 種數據增廣方法,幫助使用者提升圖像分類的效果。SSLD 蒸餾方案已將 ResNet 50 系列模型的精度提升到了 82.4%,是目前開源里面精度最高的 ResNet50 模型。最新的代碼庫中,該模型的精度已經進一步從 82.4% 提升到 83%。
PaddleClas 的 github 地址:https://github.com/PaddlePaddle/PaddleClas
PaddleDetection 套件則提供了多種模塊化設計的檢測性模塊,預置了多種數據增強方式、組件以及損失函數,可與產業應用無縫銜接。在該套件中,對 YOLOv3 模型進行深度優化,精度提升至 43.6%,與原作比,提升 10.6%。此外,針對移動端,嵌入式這些端側應用,提供了基于 SSD(驍龍 845 預測耗時 41ms,mAP 16.6%)、YoloV3(驍龍 845 預測耗時 110ms,mAP 25.9%)、Faster RCNN(驍龍 845 預測耗時 376ms,mAP 30.2%)的不同優化方案,以滿足不同場景對速度和精度的要求。此外它提供了 PaddleSlim 模型壓縮和 Paddle Inference 的集成,讓檢測任務實現在企業中輕松部署,可支撐當前工業質檢、遙感圖像檢測、無人巡檢等多方面的產業應用。
PaddleDetection 的 github 地址:https://github.com/PaddlePaddle/PaddleDetection
PaddleOCR 套件是百度推出的旨在打造豐富領先實用的文本識別模型的工具庫。目前 PaddleOCR 主要開源包括了兩種業界領先的檢測算法「EAST」和「DB」,以及包括 CRNN 在內的四種文本識別算法。此外還打造一個大小僅為 8.6M 的超輕量級中文 OCR 識別模型,和一款效果更好的通用中文 OCR 模型。目前,百度自研的檢測算法 SAST 以及識別算法 SRN 也在適配過程中,近期也將在 PaddleOCR 內開源。
下面介紹了一下 8.6M 超輕量級中文 OCR 模型。超輕量模型的特點就是運行時顯存 / 內存占用更小,計算量更少,從而使用更加方便。
上面表格的預測耗時沒有包括預處理時間,近期 PaddleOCR 項目給出最新的超輕量中文模型(8.6M)在各平臺的預測部署方案以及預測耗時 benchmark 如下:
當然超輕量模型,模型本身小的話,效果上面不是非常的理想。所以開發者又進一步發布了基于 ResNet 系列通用中文 OCR 識別模型,這個模型是比超輕量級模型有更好的效果。
PaddleOCR 的 github 地址:https://github.com/PaddlePaddle/PaddleOCR
接下來簡要介紹一下飛槳在其他視覺任務上的套件。首先看一下圖像分割套件,PaddleSeg。和 PaddleDetection 一樣,PaddleSeg 從數據算法的支持,包括訓練優化等方面其實是非常完備的,包括工業級部署,到一些實際案例等,都提供了很多的支持。通過這個圖可以看到和 PaddleDetection 一樣,有強大的部署能力。
針對模型壓縮飛槳推出了 PaddleSlim 的模型壓縮庫,它支持模型的裁剪、量化、蒸餾、搜索等多個方向。其主要特色包括三點:
在百度業務中有大量的使用;
用戶自己定義的一些模型可以方便地使用它的工具進行模型壓縮,
在一些標準的,像圖像分類、目標檢測等這些問題上做了一些比較全的驗證。
PaddleSeg 的 github 地址:https://github.com/PaddlePaddle/PaddleSeg
PaddleSlim 的 github 地址:https://github.com/PaddlePaddle/PaddleSlim
飛槳模型庫的 github 地址:https://github.com/PaddlePaddle/models
最后,杜宇寧簡單介紹了應用案例:無人電力巡檢項目。
飛槳零門檻 AI 開發平臺 EasyDL
接下來,百度 AI 技術生態部高級產品經理子季和百度 AI 與數據平臺部資深研發工程師趙云進行了零門檻 AI 開發平臺 EasyDL 的技術實踐分享。
隨著人工智能技術在各行各業的落地應用,AI 模型的定制開發需求也越來越普遍。一個定制模型的開發,往往涉及由諸多模塊組成的復雜機器學習系統,包括從數據采集、數據標注、特征提取、模型訓練,到訓練資源的管理、流程管理工具、模型效果評估等等,最終還包括預測服務的部署、預測服務監控等。EasyDL 定位為零門檻 AI 開發平臺,就是為了解決各行各業在 AI 落地應用中的此類問題。
EasyDL 整體思路與產品架構。
上圖展示了 EasyDL 的整體思路與產品架構:在「輸入部分」,企業開發者能夠輸入圖片、文本、視頻、音頻各類數據集,通過 EasyDL 平臺進行加工、學習、部署和服務之后,即可完成最終所需的 AI 預測服務輸出,比如公有云 API 的形式、設備端 SDK 的形式、軟硬一體的形式或者本地服務器部署的形式。在這樣的大框架里面,EasyDL 把最復雜的模塊封裝在一個簡單的系統操作平臺上,讓 AI 落地應用的門檻變得更低。
面向不同 AI 基礎的用戶、不同行業的用戶,EasyDL 也推出了不同的版本。算法基礎較為薄弱的 AI 初學者,可使用 EasyDL 經典版,其定位為零算法基礎定制高精度 AI 模型,能夠實現快速落地應用;專業的算法工程師、開發者,可使用 EasyDL 專業版,專業版是一個可編程、深度開發 AI 模型的開發平臺,能滿足進一步調參需求;同時為了解決行業里面的難題,EasyDL 也推出了行業版本,比如目前的 EasyDL 零售版。
EasyDL 全景圖。
EasyDL 是一個端到端一站式 AI 開發平臺,集成了核心智能數據服務、開發與訓練、端云一體服務部署三大模塊。
1、核心智能數據服務
智能數據服務 EasyData 是百度在 2020 年 4 月份正式推出的業界首個專注于 AI 開發領域智能數據的服務,包含數據采集、數據清洗、數據標注和數據擴充幾項功能模塊。
智能標注是該服務中的一項重點功能,目前支持物體檢測、圖像分割、文本分類這三類常見任務的場景。整體流程為:標注少量數據、啟動智能標注、難例標注,完成一鍵標注。此外,EasyDL 利用百度獨創的 Hard Sample 主動學習挖掘算法,可以針對不同任務進行針對性適配,從而解決檢測、分割、文本等多場景的難例挖掘的問題。從效果上看,可使用戶在僅標注數據集大概 30% 左右數據量的條件下,即可訓練出標注全量數據同等效果的模型。
2、開發與訓練模塊
開發與訓練模塊預置了百度自有的超大規模視覺預訓練模型和 ERNIE NLP 預訓練模型,集成了自動超參搜索、自動數據增強等多種先進訓練機制和多種場景化算法和網絡,同時提供了豐富的、完善的模型評估方案,并且支持數據閉環和持續訓練。
在這個工具的基礎之上,EasyDL 也提供了多種靈活的開發方式,如零代碼建模、Notebook 開發、腳本調參等開發方式,方便各類開發者基于 EasyDL 快速完成 AI 服務的模型訓練和服務獲取。
3、端云一體服務部署
目前 EasyDL 整體支持公有云 API、本地服務器部署、設備端 SDK 和軟硬一體產品這四種服務部署形態。
實際上,EasyDL 目前已經成為應用和落地最為廣泛的 AI 開發平臺,覆蓋了工業、農業、交通運輸、政務、互聯網等各行業的落地應用。更多落地應用案例可以在 EasyDL 官網 ai.baidu.com/easydl 找到。
多年來,百度深入布局人工智能技術各領域,開發者也一直是百度極為重視的力量。目前,百度飛槳累積開發者數量已超過 194 萬,服務企業數量達到 84000 家,發布模型數量已超過 23 萬個。面對正在到來的人工智能全面落地期,百度將持續開放更多 AI 能力,助力企業和開發者進行更加便捷高效的人工智能開發。