日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

機器人學習目前已經被廣泛應用于現實世界,并可以完成精密的手部、腿部動作。但在動態且高速的人機互動中,機器人學習并不常見。谷歌選擇開發乒乓球機器人,正是為了探索這類情況下人工智能的可能性。

·使用i-Sim2Real這種方式,在模擬環境下可以讓數年的實時訓練在幾分鐘或幾小時內完成。

谷歌i-Sim2Real項目乒乓球機器人與人類訓練。本文圖片來源:谷歌

似乎現存的每一種桌上運動中,人工智能都立于不敗之地。乒乓球競技中,谷歌AI同樣難逢敵手。10月18日,谷歌公布其正在研究的“乒乓球機器人”項目,在與人類對打時一回合可接球340次。目前,谷歌強調這只是人類與AI的“合作”,并非擊敗人類,但以AI成長的速度,它將很快成為專業選手。

機器人學習目前已經被廣泛應用于現實世界,并可以完成精密的手部、腿部動作。但在動態且高速的人機互動中,機器人學習并不常見。谷歌選擇開發乒乓球機器人,正是為了探索這類情況下人工智能的可能性。

解決“先有雞還是先有蛋”

在這個名為i-Sim2Real的項目中,谷歌的乒乓球機器人在模擬環境中不斷學習,并將學習成果運用于現實世界,最終可以在一個與人類的乒乓球接發回合中,接球超過三百次。它還能把球送回不同的區域,雖然不能精確到數字上,但已經足夠精確到讓機器人規劃策略,來控制乒乓球的最終目的地。

乒乓球機器人可以在一個回合中接球超過三百次。視頻來源:谷歌(00:10)

谷歌之所以選擇乒乓球運動,是因為機器人可以與快節奏以及相對不可預測的人類行為進行交互,同時乒乓球的規則相對于籃球、板球等運動也較為簡單直接。機器人完成乒乓球動作時,既要求速度又要求精度,這對學習算法提出了很高的要求。同時,這類運動具有固定的、可預測的環境,使其成為研究人機交互和強化學習問題的理想測試平臺。這些特性使得谷歌開發了i-Sim2Real項目。

i-Sim2Real也不僅僅是關于乒乓球機器人,更是一種人工智能創造過程的方式,在這個過程中,機器學習模型被教會在虛擬環境或模擬中做什么,然后再應用這些知識,目標是盡可能長時間地與人類進行接球回合而不失誤。在現實世界中直接與人類玩家進行訓練既繁瑣又耗時,當需要數年的試驗和錯誤才能建立一個工作模型時,使用i-Sim2Real這種方式顯得十分有效,它在模擬環境下可以讓數年的實時訓練在幾分鐘或幾小時內完成。

這種方式聽起來簡單高效,但在模擬中機器人并不是萬能的。人類的活動具有一定的不可預測性,并不容易模擬,需要先有人類的行為模型作為支撐。而人類的行為模型,又需要與機器人互動獲得。這就陷入了一個“是先有雞還是先有蛋”的死循環。

i-Sim2Real解決這一雞和蛋問題的方法,是使用一個簡單的人類行為模型作為近似起點,并讓機器人在模擬訓練和現實訓練之間交替學習。在每次迭代中,都會細化人類行為模型和策略。在機器人接近人類行為的過程中,初期的不理想是可以接受的,因為機器人也只是剛剛開始學習,之后每一場比賽都會收集更多真實的人類數據,提高準確性,讓AI學到更多。

i-Sim2Real的訓練方法。

GoalsEye:通過自我監督來自主練習

除了i-Sim2Real這種模擬與現實交替進行的方法,研究人員也在探索只使用現實的數據學習的方法,即GoalsEye項目。

一開始,模仿學習(IL)為研究人員提供了一種簡單而穩定的思路,但它需要人類行為進行演示,并且機器人的技術無法超過演示者的水平。同時,當演示者擁有在高速環境下精確接球的能力時,收集其數據具有一定挑戰性,而且在剛開始時可能非常低效。因此研究人員嘗試了一種結合最近行為進行重復的方法,從一個小的、結構薄弱的、非目標數據集開始,不斷學習精確定位目標的策略。

這種方法使得在訓練的過程中,機器人的自主學習能力顯得至關重要。研究人員設置了一個強調精度的乒乓球任務,要求機器人將球返回到桌子上的任意目標位置。機器人可以通過自我監督來實現自主練習。例如,機器人可以設置隨機目標,“擊中左后角”或“將球從右側過網”,并嘗試使用當前掌握的策略來實現這些目標,從而不斷改進。所有嘗試都會記錄并添加到不斷擴展的數據集中。這種自主練習是反復進行的,機器人通過不斷的設置隨機目標并嘗試目標,從而擴展訓練數據,調整策略。

GoalsEye策略旨在實現直徑20厘米的目標(左)。人類玩家瞄準同一個目標(右)。

GoalsEye的訓練方法。

其效果也是顯而易見的,在進行最初的2480次人類行為演示后,機器人只在9%的情況下能準確地達到距離目標30厘米以內的目標。然而,當機器人又自主練習了大約13500次后,達到目標的準確率上升到43%。同時,演示數量的提升提高了后續自我練習的效率,這說明,計算時間、成本等因素后,演示可以適當替換自我練習,從而更高效的進行訓練。

在這兩個使用機器人乒乓球研究平臺的互補項目中,i-Sim2Real可以在模擬與現實中交替學習策略,而GoalsEye則證明,從現實世界的非結構化數據中學習,結合自我訓練,對于在精確且動態的要求中學習目標條件策略是有效的。

【來源:澎湃新聞】

分享到:
標簽:機器人 乒乓球 人類 學習 目標 訓練 策略 模擬
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定