10月21日,第六屆世界互聯網大會進入第二天。下午,以眼下大熱的人工智能為主題的分論壇“人工智能:開啟智能經濟新時代”,吸引了眾多關注該領域發展現狀及未來的聽眾。現場座無虛席,連通道上都擠滿慕名而來的聽眾,堪稱本屆大會的“人氣王”。百度CTO王海峰出席AI論壇并帶來了“一攬子”技術干貨。
百度是國內投入最早、技術最強、布局最完整的人工智能領軍企業。作為百度人工智能多年技術積累和產業實踐的集大成,百度大腦實現了AI算法、計算架構和應用場景的融合創新,成為“軟硬一體AI大生產平臺”,以飛槳深度學習平臺為基礎底座,以百度智能云為載體,賦能各行各業的智能化升級。截至目前,百度大腦已開放216項核心AI能力,日調用量突破1萬億次,開發者超過150萬,產業用戶發布模型超過16.9萬個。
在演講中,王海峰分享了對人工智能技術的通用性特征,以及人工智能進入工業大生產階段的思考,介紹了百度大腦作為“軟硬一體AI大生產平臺”的領先技術能力、飛槳深度學習平臺的優勢、以及產業智能化的豐富成果。他表示,以深度學習為核心基礎的新一代人工智能技術,是新一輪科技革命和產業變革的核心驅動力量,呈現出標準化、自動化和模塊化的通用性特征,開始進入工業大生產階段,加速各行各業的智能化進程。
以下為王海峰AI論壇演講實錄:
各位領導、各位專家、各位來賓,大家下午好!
我跟大家分享的題目是《人工智能進入工業大生產階段》,我知道這個論壇的主題是“人工智能:開啟智能經濟新時代”,怎么開啟?我的觀點是如果想讓人工智能更快地、更有效地助力經濟的發展,需要讓人工智能真正像工業大生產的方式進入各行各業的生產環節,進而推動整個生產力的進步,也推動社會的進步。
為了論述我剛才講的工業大生產階段,我們先回顧一下人類歷史上已經發生過的幾次工業革命。我們都知道從200多年以前開始,人類歷史上已經發生了三次工業革命,分別為人類帶來機械技術、電力技術和信息技術,而且每一次工業革命的核心技術都不限于某一個行業,而是廣泛應用于各行各業,應用于人類的工業大生產,進而改變了人們的生產方式、生活方式甚至思維方式。
工業大生產的技術有非常強的通用性,這些技術也呈現出一些顯著的特征,比如標準化、自動化和模塊化。所以,我認為一個技術同時擁有標準化、自動化和模塊化的特征,可以影響各行各業,就具備進入工業大生產階段的一些基本前提。
人工智能是新一輪科技革命和產業變革的核心驅動力量。百度大腦是百度多年人工智能技術積累和業務實踐的集大成,我們從2010年左右就開始布局人工智能相關的各種基礎能力,經過多年的積累,在2016年形成初步完善的布局,因而發布百度大腦1.0。發展到今年,百度大腦不僅僅有很強的跟AI相關的各方面“軟”能力,同時也開始進入工業大生產的階段。一方面,百度大腦更多地在與硬件,比如跟芯片、硬件平臺進行結合,形成軟硬一體的平臺;另一方面,是我之后會提到的關于這些技術也逐漸具備了標準化、模塊化、自動化的特征,而且已經開始應用于各行各業,顯示出通用性。
百度AI大生產平臺的一些基本架構包括基本的算力和數據,深度學習平臺中的核心框架、工具組件、服務平臺;上面有各種相對通用的AI能力,比如跟人的視覺、聽覺和感知相關的計算機視覺技術、語音技術,同時也包括跟人的認知相關的自然語言處理、知識圖譜等基礎技術。在此基礎上,還要有定制的訓練平臺,比如面向各種垂直場景的應用技術進行定制化的平臺,此外還有適用于多種場景的多端部署能力,包括云上、端上、邊緣上以及各種各樣的設備上,從而形成AI的解決方案。
我剛才講的第一點就是深度學習的平臺,我認為深度學習框架和平臺是AI時代的操作系統。一方面,它向下對接硬件、芯片,而且為了達到更好的效果,芯片是需要針對深度學習框架技術進行定制優化,從而達到軟硬一體優化的更優效果;而向上,深度學習框架和平臺承接各種應用,它相當于處在一個比較核心的承上啟下位置。所以,我認為它是“智能時代的操作系統”。
百度深度學習平臺飛槳經過多年打磨,已形成完善布局,包括基礎框架,無論是開發、訓練還是預測;產業實踐打磨的模型庫;端到端的開發套件、工具組件和服務平臺。飛槳是一套很龐大的架構,其中有幾個方面是我們認為很重要、很領先的技術,開發方面具有開發便捷的深度學習框架;訓練方面能支持超大規模深度學習模型訓練的技術;還有多端多平臺部署的高性能的推理引擎以及產業級的模型庫。
開發方面,一方面是組網的編程范式更符合程序員寫程序的習慣,所以程序員開發起來非常方便,而且它同時支持動態圖和靜態圖,兼具靈活性和穩定性的優勢。另一方面,為了更好設計神經網絡結構,我們開發了自動化的網絡設計,現在這種自動設計出來的網絡已經超越了人類專家設計的網絡的效果。
而超大規模的深度學習訓練技術已經能支持萬億級參數模型的訓練,而且可以做到實時更新。訓練出模型以后,我們需要部署、應用,進行各種推理,這時候涉及到多端多平臺的部署能力,而且為了在各種場景當中應用得更好,也做了通用架構推理速度的優化。
有了這些基礎框架,無論是開發、訓練還是推理的能力,在真正應用的時候需要針對各種場景建構各種模型。基于此,飛槳也提供了非常全面的官方支持,經過產業驗證的工業級的模型庫,而且這種模型庫一方面在產業應用中得到很多驗證,另外一方面也參加了國際標準測試,得到很多領先的結果。
人工智能技術有感知、認知技術,包括語音、視覺、語言和知識等,這也是百度大腦具備的核心能力。語音方面,我們今年研發的SMLTA多級截斷流式注意力模型,使準確率進一步提升,而且不僅在正常的比較安靜、標準的環境下得到很好的識別效果,在嘈雜的環境或者中英文混讀的情況下也能得到很好的效果。如果大家平時會用語音輸入,會發現你只說中文,可能效果很好,但中英文混說的時候效果就要差很多,這是由于語音識別技術能力所決定的。但是,我們現在不斷地提升模型,將兩種語言混合在一起仍然能得到比較好的效果。
語音合成方面,如果僅僅能夠讓人聽清楚、聽得明白,這不是特別難的事,但如果聽得很流暢、很舒服而且有不同的音色、風格、情感等,難度就大大提升了。我們研發的語音合成技術,可以將這些要素分別解耦、分別訓練,最后形成統一的聲音。這時候不僅讓聲音的自然度更好,同時也可以進行各種定制。
如果大家用過地圖的導航,知道一般地圖會提供一些標準的聲音,但你要想用你的孩子、親人、朋友或者用任何其他人的定制的聲音,并不容易實現。但基于我們現在最新研制的語音合成技術,任何人只要在百度地圖app上對著手機說20句話,就可以為你定制模擬說話人聲音的合成音。比如你開車的時候,就可以用你孩子的聲音幫你導航,快速尋找合適的路線。
視覺技術領域也包括很多方面,比如人臉關鍵點的識別等,這可以做3D技術,比如這是一個虛擬的主持人。
語言方面,很重要的一點是語義理解,我們研制的持續學習語義理解框架ERNIE,不僅包含深度學習技術,同時也加入了知識、知識圖譜等,讓ERNIE得到了非常好的效果。
此外,還有交互的技術,比如說百度的對話式交互平臺已經有6萬多個定制技能,累計交互已有500多億次。再有是兩種語言之間的翻譯,我們首創語義單元驅動的上下文感知翻譯模型,而且不僅翻譯準確,實時性更好。
所有百度AI技術,我們已經通過百度大腦開放平臺以及飛槳開源開放平臺全面開放,大家都可以基于這些平臺開發自己的產品、發展自己的業務。另一方面,我們也依托百度智能云,可以更好地將軟硬一體、包括數據、算法、算力結合起來,共同部署這些AI能力。
當然,提到AI,安全方面也非常重要。百度AI安全方面也形成一個完整的布局,從基礎層到平臺層再到生態層都有很多布局,大家有興趣可以進一步了解。
整體上,百度AI大生產平臺已經開放216項能力,每天的調用量超過萬億次,并有150多萬開發者和企業用戶發布的大量模型。
AI賦能各行各業,幫助各行各業進入工業大生產時代。大家可以看到,不管是工業、農業、服務業各方面都可以受益于AI能力。
謝謝大家!