日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

英偉達Eureka在超過80%的任務中都超越人類專家,讓機器人平均性能提升到50%以上。

訓練機器人,AI比人類更拿手!

英偉達最新AI AgentEureka ,用GPT-4生成獎勵函數,結果教會機器人完成了三十多個復雜任務。

比如,快速轉個筆,打開抽屜和柜子、拋球和接球。

用GPT-4訓練機器人,英偉達最新Agent開源:任務越復雜越拿手

尤其是轉筆這個技能,要知道靠人類逐幀制作動畫,也是非常困難的。

最終,Eureka在超過80%的任務中都超越人類專家,讓機器人平均性能提升到50%以上。

這一研究吸引了數十萬網友關注,有人表示:直接快進到它彈鋼琴那天,直接為大眾所用。

用GPT-4訓練機器人,英偉達最新Agent開源:任務越復雜越拿手

 

用GPT-4訓練機器人,英偉達最新Agent開源:任務越復雜越拿手

英偉達科學家,也是此次共同作者之一Jim Fan評價到,它是超級人類獎勵工程師。它可以輔助機器人工程師設計復雜任務。

目前該項目完全開源。

GPT-4生成獎勵策略

在機器人學習中,大模型擅長生成高級語義規劃和中級操作,比如拾取和放置(VIMA、RT-1等),但在復雜任務控制方面有所欠缺。

而Eureka的關鍵所在,就是通過上下文來實現了人類水平的獎勵算法設計。

簡單來說,就是用GPT-4的零樣本生成、代碼編寫以及上下文改進功能,對獎勵執行策略進行優化,由此通過強化學習來進行復雜的技能。

用GPT-4訓練機器人,英偉達最新Agent開源:任務越復雜越拿手

研究人員提出了一種混合梯度架構,外循環運行 GPT-4 來細化獎勵函數(無梯度),而內循環運行強化學習來訓練機器人控制器(基于梯度)。

主要有三個關鍵組成部分:

模擬器環境代碼作為上下文啟動初始“種子”獎勵函數。

GPU上的大規模并行強化學習,可以快速評估大量候選獎勵。

獎勵反射reward reflection,得益于GPT-4評估和修改能力,一步步迭代。

首先,無需任何特定提示工程和獎勵模版。使用原始Isaac Gym (一種GPU加速的物理模擬器)環境代碼作為上下文,生成初始獎勵函數。

這種無梯度的情境學習方式,可以根據各種形式的人類輸入,生成性能更強、符合開發人員愿景的獎勵函數。

其次,Eureka在每個進化步驟中都會生成很多候選函數,然后利用強化學習訓練來進行快速評估。

以往這種過程需要幾天甚至幾周來完成,但由Isaac Gym可將模擬時間提高1000倍,強化學習內循環能在幾分鐘完成。

最后,依賴于獎勵反射,Eureka還支持一種新形式的上下文 RLHF。它能夠將人類操作員的反饋融入自然語言中,以引導和調整獎勵功能。

最終,在29種不同的開源RL環境中,83%基準測試中Eureka都優于人類,并實現了52%改進。

用GPT-4訓練機器人,英偉達最新Agent開源:任務越復雜越拿手

這些環境包括10種不同的機器人形態,比如四足機器人、四旋翼機器人、雙足機器人、機械手等。

用GPT-4訓練機器人,英偉達最新Agent開源:任務越復雜越拿手

讓研究人員驚訝的是,尤其在處理復雜、高維電機控制的任務上,Eureka表現更好,且與人類獎勵的相關性越低。

甚至在少數情況下,AI的策略與人類的策略呈現負相關。

用GPT-4訓練機器人,英偉達最新Agent開源:任務越復雜越拿手

這就有點像當年 AlphaGo的下棋策略,人類看不懂學不會,但十分有效。

英偉達出品

這項研究由英偉達、賓夕法尼亞大學、加州理工學院、德州大學奧斯汀分校的研究人員來完成。

用GPT-4訓練機器人,英偉達最新Agent開源:任務越復雜越拿手

可以看到的是,近半數研究人員都是華人。

一作是Yecheng Jason Ma,目前是賓大GRASP 實驗室的四年級博士生,研究方向是強化學習和機器人學習。

英偉達科學家Jim Fan此次也是通訊作者之一。

咳咳,不過至于網友提到的彈鋼琴,Jim Fan自己曾分享過:只需幾個簡單按鈕,AI就能實時即興生成演奏音樂。

用GPT-4訓練機器人,英偉達最新Agent開源:任務越復雜越拿手

不知道,未來會不會這樣的呢?(不過,這研究已經是2018年的了)

本文作者:白交,來源:量子位,原文標題:《用GPT-4訓練機器人,英偉達最新Agent開源:任務越復雜越拿手》

分享到:
標簽:GPT
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定