時局如此,國產AI框架雄心更盛。氣勢更足、功能更新力度更大、開發者羊毛更豐厚……而且新發布還不是全部,已獲得的成績也相當亮眼:先用AI算法為中國傳統產業節省了1個億。這就是百度旗下AI開源框架飛槳(PaddlePaddle),剛剛秀出的肌肉。
2016年開源至今,飛槳目前有150萬AI開發者,超過6.5萬企業用戶,在定制化訓練平臺上發布了16.9萬個模型。儼然中國第一大深度學習開源平臺。并且形勢所迫,自主可控也成為AI框架等基礎平臺發展要求之一。所以在此次飛槳更新發布中,也無處不透露著“國家隊”擔當。
在采訪中,百度方面透露,飛槳不僅是完全自主知識產權的深度學習平臺,而且在分布式訓練的性能以及易用性上,都超過了國內外競爭對手。那么接下來如何實現更多場景、更全面地同場競技優勢?此次的九大新產品、上億新羊毛,以及進一步產業落地,就更值得關注。
九大新產品都是啥?
在“WAVE Summit+”2019深度學習開發者秋季峰會上,飛槳迎來全面升級。
百度CTO、深度學習技術及應用國家工程實驗室主任王海峰,率先登臺分享最新思考,他說:深度學習正在推動人工智能進入工業大生產階段,具有很強的通用性,同時具備了標準化、自動化和模塊化的基本特征,推動人工智能技術從實驗室走向產業,并且越來越大規模使用起來。而深度學習技術和平臺也在不斷發展,在未來的時間里也將繼續發揮重要作用。我們秉承開源開放的理念,把飛槳平臺開源開放,與所有開發者一起,推動科技發展、產業創新和社會進步。
此次飛槳一共有9大產品全新發布:包含一個模式、一個端側推理引擎、四大產品開發套件,三個工具組件。具體詳情如下:
首先,一個模式,指的是飛槳Master模式。
百度AI技術平臺體系執行總監、深度學習技術及應用國家工程實驗室副主任吳甜介紹說:飛槳是一個源于產業實踐,與產業共進的深度學習開源開放平臺。未來,飛槳將持續發展超大規模分布式計算、異構計算能力,定位于全硬件平臺支持、端云邊結合,為應用場景提供面向場景的端到端套件,構建融合數據和知識的預訓練結合遷移學習的Master開發模式,為開發者提供最強大的生產平臺和基礎設施,加速產業智能化。
核心是依靠百度的強大算力,提升開發者在部署模型時的移動性。具體來說,開發者只使用自己的少量標注數據,加上飛槳的遷移學習工具,就能將自己的算法模型快速部署到自己的應用場景中。帶來的直接影響,是面向產業場景平臺開發時,降低工作量,提升模型的準確度、可靠性。
其次,一個端側推理引擎,指的是Paddle Lite 2.0。這一輕量級深度學習推理框架,在今年8月份正式發布。這次的升級中,專注易用性,提供了預測到部署完整工具鏈,只需要7行代碼調用Resnet50,也支持極致輕量級部署。硬件支持也更加廣泛,移動端支持8種主流硬件,新增華為NPU和邊緣設備FPGA支持,寒武紀、比特大陸等國產硬件的支持也在路上。在架構設計上對硬件擴展也更加友好。最后是性能,百度深度學習技術平臺部總監馬艷軍,現場放出了與其他幾家主流框架的性能對比圖,基本上都是“吊打”狀態:
第三,四大面向場景的端到端開發套件,也是飛槳體系中完全新增的模塊。覆蓋語義理解、圖像分割、目標檢測,以及個性化推薦。
包含ERNIE 2.0,一個基于持續學習的語義理解預訓練框架,號稱在16個中英文任務全面超越對標產品。核心亮點在于,新構建的預訓練任務類型可以無縫的加入訓練框架,持續的進行語義理解學習。
還有PaddleSeg,產業級圖像分割庫,提供了18個預訓練模型,覆蓋了DeepLabv3+, U-Net, ICNet三類主流的分割模型。通過統一的配置,幫助用戶完成從訓練到部署的全流程圖像分割應用。
以及目標檢測庫PaddleDetection,已集成60+預訓練模型。目的是為工業界和學術界提供易使用的目標檢測模型。在這個庫中,飛槳還提供了許多目標檢測小模型,方便給移動端設備使用。
此外新增的套件,是用于個性化推薦的ELASTIC CTR,這一套件源自于百度的產業實踐。可以實現分布式訓練CTR預估任務和Serving流程一鍵部署,提供了端到端的CTR訓練和二次開發的解決方案。
最后,三大發布,都聚焦在深度學習領域前沿的工具組件:PALM,多任務學習框架。
其中內置了模型backbone(BERT、ERNIE等)、常見的任務范式(分類、匹配、序列標注、機器閱讀理解等)和數據集讀取與處理工具。功能亮點在于易用性,對于典型的任務場景,幾乎無需書寫代碼便可完成新任務的添加。對于特殊的任務場景,用戶可通過對預置接口的實現來完成對新任務的支持。
PGL,圖神經網絡框架。
提供了一系列的Python接口用于存儲/讀取/查詢圖數據結構,并且提供基于游走(Walk Based)以及消息傳遞(Message Passing)兩種計算范式的計算接口。利用這些接口,可以搭建最前沿的圖學習算法,結合飛槳核心框架,就基本能夠覆蓋大部分的圖網絡應用,包括圖表示學習以及圖神經網絡。現在,PGL已有13個圖學習模型,涵蓋圖神經網絡和圖表示學習的主流模型。
PaddleFL,聯邦學習框架。
其能力在于復制和比較不同的聯邦學習算法。在PaddleFL中,還提供了很多聯邦學習策略及其在計算機視覺、自然語言處理、推薦算法等領域的應用,在部署大規模分布式集群中部署聯邦學習系統時,也較為容易。
此外,伴隨著這次1.6版本發布,飛槳還有12項產品重要升級。比如:
(1)提供更多的算子庫、簡單高效的API接口、完善的文檔內容,全面提升易用性。
(2)升級輕量級模型結構自動搜索PaddleSlim,增加了基于硬件搜索等能力,打通訓練、壓縮和部署全流程。
(3)NLP、CV、推薦系統、語音等各大基礎模型庫的模型,從原來的60+到了100+。這其中有多個在AI競賽中奪冠的算法模型,比如在EMNLP獲得了10項閱讀理解項目冠軍的D-Net。
(4)Paddle Hub,新增了超參優化Auto Fine-tune功能,預訓練模型數量大幅增加,支持飛槳Master模式。
(5)深度強化學習框架PARL并行能力升級,支持進化算法。
(6)Paddle2ONNX和X2Paddle升級,飛槳和其他框架的模型互轉更加方便。
聚焦產業場景,上億新羊毛待薅
所以上述新發布究竟夠不夠競爭力?自飛槳開源以來,作為深度學習框架,經常被人拿來與PyTorch、TensorFlow兩大框架進行對比。但時至今日,飛槳官方認為已經不能再單純以AI框架視之了。他們更愿意定位自稱:深度學習開源平臺。以百度多年的深度學習技術研究和業務應用為基礎,集深度學習核心框架、基礎模型庫、端到端開發套件、工具組件和服務平臺于一體。
在接受量子位采訪時,吳甜解釋了這一定位背后的考慮:“不同的AI框架都有其相應的發展規劃,這就是飛槳選擇的發展路線。”現在,百度對外宣稱的飛槳四大領先技術時,框架只是其中之一。而且如今談AI發展,不談落地都顯得太虛。于是大會主題演講中,飛槳也重點分享了發展至今的側重點與發力點:產業。因為產業之大,轉型之需,AI的降本增效作用簡直再明顯不過。在發布會舉辦前夕,百度還專門發布了一個名為“看中國算法工程師如何手動省出1個億”的視頻。
其中在農業、工業制造、質檢和電力搶修等方面,AI算法都在幫助傳統產業降本增效。先節省一個億,這是飛槳已經完成的小目標。但AI發展,產業場景也已經是各大人工智能平臺服務供應商的必爭之地,接下來如何面對這種日益白熱化的競爭?飛槳透露的打法是:放羊毛、建生態,與開發者和傳統產業一起贏。一手抓開發者培養和教育。比如百度響應教育部產學研合作號召,在全國開展深度學習師資培訓班,有效地彌補了國內高校AI教師缺口。在一年半的時間里,飛槳已成功舉辦8期培訓,培養了1000多個AI專業高校教師,從教育環節開始,讓計算機學生從接觸飛槳,將來散落到產業界才能遍地開花。產業界還有“黃埔學院”,學術界與高校組建聯合實驗室,飛槳已經和西交、中科大、南大、浙大、大連理工合作,人才聯合培養。另一手給福利。在今日大會發布最后,飛槳也發布了最新生態激勵計劃:
(1)免費開放10多個AI課程;
(2)支持100多所重點高校教學培訓;
(3)為1000多個企業轉型提供助力計劃;
(4)還有百萬級的AI競賽獎金和億元級GPU算力資源支持。
(5)不過,這兩手效果如何、究竟夠不夠硬,還得經受時間和實踐檢驗。
當然還得經受激烈競爭檢驗。如今機器學習的框架之爭,全球范圍內已經淪TensorFlow和PyTorch兩家的較量,要從這兩家手中分一杯羹,僅僅有產業界的支持是遠遠不夠的。但飛槳現在也算在國內擁有民心和祝愿。在活動現場上,一則這樣的留言格外醒目,或許也是2019年潮水方向里的小小注腳:還是得支持國產深度學習框架啊,免得國外框架壟斷,又要跟電腦操作系統和芯片一個結局。
所以,好風憑借力,飛槳要加油。畢竟天時地利都有,最關鍵的人心也兼具,唯有拿出更好成績,才能實現更大雄心了。你說呢?