機器之心原創
機器之心編輯部
在 2020 年的中國機器學習平臺市場,百度的 EasyDL 又拿了第一。
近日,全球權威咨詢機構 IDC(國際數據公司)發布了中國《深度學習框架和平臺市場份額》報告。調研數據顯示,截至 2020 年 12 月,百度的「零門檻 AI 開發平臺」EasyDL 以 22.80% 的市場份額位列機器學習平臺市場份額第一,并連續兩年保持市場第一。
數據來源:IDC《深度學習框架和平臺市場份額》2020.12。
報告指出,在機器學習平臺方面,百度 EasyDL 的用戶認知度最高,也是受訪者使用頻率最高的平臺。
據統計,自 2017 年推出以來,百度 EasyDL 已經累計服務了70 多萬的用戶,覆蓋 20 多個行業,得到了大量企業與個人開發者的廣泛認可與應用。
其實,隨著 AI 技術落地的不斷深入,市場上已經涌現出多款致力于降低 AI 應用門檻的訓練和服務平臺,為什么 EasyDL 如此受歡迎?哪些人、哪些行業在用?平臺的背后有何支撐?今天,我們就來探討一下這些問題。
為什么 EasyDL 如此受歡迎?
要解釋 EasyDL 受歡迎的原因,我們就不得不提兩個理念。
第一個理念是:讓開發 AI 服務「像使用家電一樣簡單」。
在 EasyDL 誕生之前,百度大腦已經通過百度 AI 開放平臺開放了多項標準能力,如人臉識別、文字識別、語音技術等,但隨著 AI 落地的深入,不少企業發現,在越來越多的實際應用場景中,需要結合場景數據進行模型的定制。有研究顯示,這樣的定制化需求占比高達 86%。
但與之相矛盾的是,大部分中小企業并不具備專業的算法開發能力,開發定制 AI 模型對于他們來說太難了。
以一家制作箱包的傳統企業為例。在箱包出廠之前,他們需要借助 X 光掃描箱包內是否含有針、剪刀等異物,然后靠人眼來檢查掃描圖像。但問題在于,有些「針」可能非常小,不易被肉眼察覺。因此,這家企業就在想:能否讓 AI 去「看」這些 X 光圖像。
這就涉及到了定制 AI 模型的問題,因為通用的標準模型在識別「針」、「剪刀」等特定物體時可能達不到企業想要的準確率。如果你懂 AI,這個問題可能非常容易解決??蓡栴}在于,這是一家制造類企業,真正懂 AI、擁有豐富模型訓練經驗的人才可能寥寥無幾。
當然,這還只是其中的一道坎兒,其他坎兒還包括:數據如何采集?采集到之后還要花多少錢標注?模型訓練好之后要怎么部署?部署之后效果不理想是不是還得花很長時間迭代?完成這些工作是不是需要組建一支技術團隊?如果這些問題得不到妥善解決,企業就會面臨項目成本高、周期長、前期對項目效果無法準確預期等問題。
針對這些問題,EasyDL 提供了「一站式 AI 服務」,把數據、訓練和部署的活兒都攬了過來,還實現了全流程自動化,用戶只需要根據平臺的提示進行操作即可,不懂算法、不會寫代碼都不是問題。
這就像使用家電一樣:你不必了解家電的內部構造和電路原理,也能享受家電帶來的便捷;同理,你不懂 AI,也能借助 EasyDL 享受到 AI 浪潮帶來的紅利。
第二個理念是:「像高級 AI 工程師一樣專業」去訓練高質量 AI 模型。
我們生活中有很多「傻瓜式」的產品。這種產品很多都有個特點:上手容易,但效果一般。因此,如何在降低使用難度的同時保證其專業性成為這類產品開發的難點。也就是說,機器可以包攬很多操作,幫助用戶實現「傻瓜式」操作,但機器本身不能傻,還要非常聰明。
越是追求使用簡單,它的內在就會越復雜,EasyDL 也是一樣。為了讓 EasyDL 像高級 AI 工程師一樣專業,百度從模型、數據、部署等多個方面進行了打磨。
在模型方面,GPT-3 等超大模型已經證明了什么是「鈔能力」。在現有的理論水平下,利用「海量數據預訓練 + 遷移學習」的范式提升模型性能已經成了一股風潮,但這股風潮對于中小企業、研究機構和個人研究者來說都很不友好,畢竟動輒成百、上千萬美元的訓練成本沒有多少公司能夠承擔。而且,這些超大規模預訓練模型很多都是不開源的,即使開源也可能存在各種局限。
在這方面,EasyDL 有一個強大的「底座」——百度開源深度學習平臺飛槳。借助飛槳的強大能力,EasyDL 打包了各種任務的大規模預訓練模型。這里說的「大規?!褂卸啻竽??帶來的提升有多少呢?我們來看幾組數據:
圖像分類的預訓練模型用海量互聯網數據進行大規模訓練(包括 10 萬 + 的物體類別,6500 萬的超大規模圖像數量),適用于各類圖像分類場景,平均精度可提升 3.24%-7.73%;
物體檢測的預訓練模型用 800 + 類別,170 萬張圖片以及 1000 萬 + 物體框的數據集進行大規模訓練,適用于各類物體檢測應用場景,平均精度可提升 1.78%-4.53%;
自然語言處理的文心 ERNIE 2.0 模型學習知識超 10 億條,包含 1500 萬篇百科語料和詞語、實體知識,3 億篇文章的因果結構關系,700 萬輪人類對話,以及2000 萬的語言邏輯關系等知識,適用于各類 NLP 應用場景,在中英文的 16 個典型 NLP 任務上超越了業界最好模型;目前,最新版 ERNIE 模型已經累計學習 50 億條知識;
……
這些數據說明,EasyDL 在很多方向都具備強大的通用知識,就像一個修煉了多年內功的武林高手。有了這些通用知識,模型只需要學習少量帶有用戶領域專業知識的數據就可以「觸類旁通」,去解決特定場景下的任務。目前,EasyDL 已經支持圖像、語音、視頻、文本、OCR、結構化數據、商品檢測等多種模型類型。
為了提升模型性能,EasyDL 還內置了 AutoDL/ML 自動化建模機制,包含自動數據增強、自動超參搜索、自動網絡架構搜索等技術,可以降低零算法基礎用戶的使用門檻,提升專業開發者的建模、調參效率。
當然,數據的處理也是可以充分智能化的,這就要提到 EasyDL 的智能數據服務了。
為了實現數據采集、清洗、標注的一站式服務,EasyDL 建設了 EasyData 智能數據服務平臺。
在數據采集方面,定制模型所需要的數據往往不能從網上直接下載,而是需要建設符合實際場景的樣本數據集,對此,EasyData 提供了軟硬一體、端云協同的自動數據采集方案,支持接入攝像頭采集圖片、云服務數據回流兩種數據采集方式。
在數據標注方面,EasyData 提供了圖片、文本、音頻、視頻四種數據格式的 11 種數據標注模板。但鑒于用戶的數據可能比較多,標起來費時費力,EasyDL 開發出了智能標注方案,還支持多人標注。在物體檢測、圖像分割、文本分類三類任務場景中,通過百度自研的 Hard Sample 主動學習挖掘算法,進行針對性適配,在同樣的模型效果指標下,可減少 70% 的數據標注量。
在數據清洗方面,EasyData 創新性地開放了圖片數據清洗的完整解決方案,支持相似度去重、去模糊、裁剪、旋轉、鏡像 5 種標準的清洗方案,和自動識別人體、人臉等高級清洗方案等,大幅提升了清洗數據的效率。
模型訓練完成后就到了部署環節,這也是決定深度學習平臺生態擴展能力的關鍵一環。
在這一環節,有些開發者可能會問:我的數據私密性要求高,EasyDL 訓練的模型可以本地部署嗎?對硬件要求高嗎?想開發安卓的圖像識別應用,平臺是否支持?我想用設備端 SDK,但沒有自己的前端智能硬件設備怎么辦?
目前,EasyDL 提供了公有云 API、設備端 SDK、本地服務器部署、軟硬一體部署四種方案。
其中,公有云 API 可以支持彈性擴縮容,并使用在線數據閉環手動挖掘識別有錯誤的數據,有效持續迭代提升模型效果。設備端 SDK 支持超過 15 種芯片類型、Windows、Linux、Android、iOS 4 大常用操作系統,能滿足各種定制化模型在端側部署預測的需求。本地服務器部署支持企業將 AI 模型部署在本地服務器上,在本地局域網進行數據交互,保護數據隱私。在軟硬一體方案部署上,EasyDL 提供了 6 款軟硬一體方案,支持專項適配與加速,覆蓋高中低全矩陣,模型識別速度可提升 10 倍。
像家電一樣簡單的操作,像高級 AI 工程師一樣專業的能力,這兩個理念幫助 EasyDL 在短短的幾年內吸引了 70 多萬用戶。那么,這些用戶都來自哪些行業?EasyDL 幫他們解決了哪些問題?我們來一起梳理一下。
哪些行業在用 EasyDL?
從整體來看,EasyDL 的用戶橫跨互聯網、智能硬件、零售、工業、醫療、安防監控、物流等多個行業,典型的應用場景包括生產安全、工業質檢、貨架巡檢、盤點計數等。
一般來講,降本增效是企業的普遍訴求。以噴油器制造企業柳州源創電噴為例,這家公司在進行汽車噴油器閥座的質檢時,每日的需求 4000-6000 件,峰值能達到 12000 件,但由于閥座體積非常小,人工檢測非常費力,常規上要由熟練工人每天付出 4-7 班才能滿足質檢需求,時間成本與人力成本高昂。
通過一場競賽,柳州源創接入了 EasyDL 的圖像能力,讓 AI 作為 “質檢之眼”,實現了自動化檢測瑕疵。通過打造一整套瑕疵識別、自動化分類流轉的解決方案,柳州源創成功實現了零件瑕疵判讀的無人化,公司可節約近 60 萬 / 年的人力成本,檢驗效率整體提高了 30%,這一個點的技術優化,助推企業加快產業升級邁出了一大步。
在這一應用中,EasyDL 的能力與效果被完全發掘。雖然閥座體積小、被檢測瑕疵如黑點、劃痕等目標更小,但基于 EasyDL 底層的超大規模預訓練模型與優化封裝好的模型訓練算法,即使目標小也能準確完成識別,達到業務應用的要求。這樣優異的模型效果,是企業在追求 AI 服務時最為看重的要素之一,能夠幫助企業更高效地實現 AI 落地應用。
此外,EasyDL 還在諸多領域幫助企業實現業務和流程創新。
以地鐵維修為例,地下軌道建設和維修工作經常需要工人進入地鐵的封閉軌行區進行操作,由于每次作業前都需要準備好必要的工具,所以工作前后都需要人工清點工具以避免遺漏在地下的封閉區域。而這樣傳統重復操作不光費時費力,往返路途也有很大的安全隱患。為此,長沙地鐵借助 EasyDL 自主研發了「智能維修頭盔」,能夠自動拍照并識別常用工具名稱和數量,及時查看是否有遺漏,降低安全隱患。
類似的應用還包括疫情期間的口罩佩戴識別、施工現場的安全帽佩戴識別等。
EasyDL 的背后:十年磨一劍
EasyDL 這款 AI 平臺的成功,離不開百度多年以來在 AI 領域的技術積累。
2010 年初,已經有了 10 年技術積累的百度,開始全面布局人工智能,陸續開始了包括自然語言處理、機器翻譯、語音、圖像、知識圖譜、機器學習、數據挖掘、用戶理解等技術的研發。
在之后的十年里,百度創造了多個「第一」:
2013 年初,百度成立了世界上第一個深度學習研究院;
2015 年,百度上線了世界上第一個大規模神經網絡機器翻譯系統;
2016 年,百度發布了開源深度學習平臺飛槳,如今,飛槳已經成為中國首個開源開放、技術領先、功能完備的產業級深度學習平臺;
2019 年,百度 ERNIE 模型在國際權威的通用語言理解評估基準 GLUE 上首次突破了 90 大關,獲得全球第一;去年,這一模型又斬獲全球規模最大的語義評測比賽 SemEval 2020 5 項冠軍,刷新多模態領域權威榜單 VCR,還拿到了世界人工智能大會的最高獎項——SAIL 獎;
……
這些奠基性的工作為 EasyDL 等產品的成功埋下了伏筆。
從技術到硬件,從場景到應用,通過百度 AI to B 的重要承載者和輸出者——百度智能云,為各行各業大規模輸送百度的 AI 技術成果與平臺能力,支持產業智能化升級。百度智能云擁有中國最領先的 AI 開放平臺,日調用量突破 1 萬億,已開放超過 270 項 AI 能力,培養了超過 100 萬人工智能領域的從業者,這個規模也在持續快速增長。
有了這樣堅實的支撐,百度 EasyDL 連續兩年保持市場第一也是意料之中。