8月14日,首期“DI極客說”線上技術沙龍成功舉辦。技術沙龍以“決策AI的研究與應用”為主題,邀請到多位業內專家分享決策AI領域的最新研究成果。
上海人工智能實驗室科學技術發展部部長、研究員喬宇表示,OpenDILab(開源決策智能平臺)是上海人工智能實驗室重點布局發展的開源平臺,未來上海人工智能實驗室還將持續投入建設新一代人工智能生態,推進科技創新、產業發展和人才培養形成合力,促進人工智能發展。
強化學習:走出游戲,改變世界
俞揚《環境模型學習——讓強化學習走出游戲》主題分享
當前,針對強化學習的研究大多被限制于游戲環境中,尚處于“好看不好用”的境地,原因之一是強化學習樣本效率低下。南京大學教授,南棲仙策創始人俞揚認為,基于環境模型的強化學習將是解決這一難題,“讓強化走出游戲”的主要途徑。
俞揚在“DI極客說”中分享了環境模型學習的研究進展,及其在真實強化學習應用中的效用。一旦有了良好環境模型,強化學習的大量試錯可在環境模型中完成,從而極大的減少了在真實環境的試錯采樣的數量,使得強化學習更具可用性。然而,以往環境模型學習的理論與實驗均難以支持這一想法,使得研究主流逐漸拋棄對學習良好環境模型的期待。俞揚認為,在實踐需求中可以看到,環境模型具有難以替代的應用優勢,強化學習將是改變世界的技術。
高陽《Mastering Atari Games with Limited Data》主題分享
如何讓強化學習應用于更多的實際場景?
清華大學交叉信息研究院助理教授高陽分享了Efficient Zero強化學習算法,該算法有助于從高維圖象觀測環境中學到有效策略,從而將強化學習推向在真實世界中更有用的場景。高陽介紹,Efficient Zero算法是由Muzero算法改進而來,針對Muzero算法的監督訓練信號問題、環境動力建模問題及異策略偏差問題,相應解決方案分別為:self modellearner、valueprefix、off-policy correction。Efficient Zero算法在經典學術環境上可以快速達到人類水平,并在部分環境上超越人類,而且整個環境訓練過程,其數據效率相較于DQN算法有大幅提升。
OpenDILab:致力破解“標準化”難題
在題為《從感知AI的發展到理解決策AI的未來》的報告中,上海人工智能實驗室青年科學家、OpenDILab開源決策智能平臺負責人劉宇分享了從感知AI到決策AI技術體系的整體發展趨勢,包括感知AI、強化學習和決策AI在計算流上的異同,以及計算機視覺在深度學習時代的發展。
劉宇《從感知AI的發展到理解決策AI的未來》主題分享
自2012年以來,AlexNet的廣泛應用使得計算機視覺發展有了質的飛躍;在2014-2016階段,由于FaceNet、DeepID等細分領域算法的突破,計算機視覺在幾個擁有海量數據的領域達到超越人類水平的高度;在2017-2020階段,計算機視覺有了更進一步的發展,產生了如AutoML、NAS、HPO等半自動AI模型的訓練和生產的流程;最近一兩年,基于通用預訓練模型的算法突破,使得一個計算機視覺模型可以解決大多數相似而長尾分布的任務。
劉宇認為,環境革新和算法革新兩大核心動力正帶動決策AI快速發展,但決策AI目前仍面臨著“標準化難”的瓶頸。而OpenDILab將致力于從環境多樣性、計算復雜性以及計算尺度多樣性等方面著手,提高訓練過程標準化水平,從而推動決策AI的發展。
牛雅哲《從零到一,堅持做正確的事——通用決策AI平臺的開拓創新之路》主題分享
上海人工智能實驗室OpenDILab核心研發人員牛雅哲從平臺設計和工程實現的角度進行解讀,分享了OpenDILab為提高決策AI在環境、算法、計算規模的通用性而儲備的一系列技術解決方案。OpenDILab作為通用決策智能平臺,可高效地處理解決AI技術遇到的各種復雜性問題,為決策AI生態圈提供基礎技術支持。
“DI極客說”系列技術沙龍由上海人工智能實驗室主辦,全球高校人工智能學術聯盟承辦,商湯科技作為支持單位,AI研習社作為直播平臺, PaperWeekly作為合作自媒體共同打造。“DI極客說”系列技術沙龍將通過邀請多元化技術嘉賓,介紹決策AI相關領域的前沿科技成果,分享科研和產業化應用經驗,一起共建“知識共享”的決策AI開源技術生態。
OpenDILab(開源決策智能平臺)介紹:
OpenDILab(開源決策智能平臺)于2021年7月8日世界人工智能大會的開幕式和科學前沿全體會議上正式發布。該平臺作為上海人工智能實驗室開源平臺體系OpenXLab的重要組成部分,是國際上首個覆蓋最全學術界算法和工業級規模的決策AI平臺,具備一套完備的決策AI訓練和部署框架,自頂而下涵蓋了包括應用生態層,算法抽象層,異步分布式管理層和最底層的分布式執行層,適配從單機到萬CPU/GPU聯合訓練的全尺度調度系統優化。