日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

這是關于如何使用強化學習訓練AI玩貪吃蛇游戲的簡單指南。文章逐步展示了如何設置自定義游戲環境并使用python標準化Stable-Baselines3算法庫訓練AI玩貪吃蛇。

在本項目中,我們使用的是Stable-Baselines3,這是一個標準化的庫,它提供了易于使用的基于PyTorch的強化學習(RL)算法實現。

首先,設置環境。Stable-Baselines庫內有很多內置的游戲環境,這里我們使用經典貪吃蛇的修改版本,并在中間額外設置十字交叉的墻。

一個更好的獎勵計劃是只獎勵更接近食物的步驟。在這里必須小心,因為貪吃蛇仍然只能學會繞圈走動,在接近食物時獲得獎勵,然后轉身又回來。為了避免這種情況,我們還必須對遠離食物給予等效的懲罰,換句話說,我們需要確保閉環上的凈獎勵為零。我們還需要引入對撞墻的懲罰,因為在某些情況下,貪吃蛇會選擇撞墻來接近食物。

大多數機器學習算法都相當復雜且難以實現。幸運的是,Stable-Baselines3已經實現了幾種我們可以使用的最先進的算法。在示例中,我們將使用Proximal Policy Optimization(PPO)。雖然我們不需要知道算法如何工作的細節(如果有興趣,請看這個解釋視頻),但我們需要對它的超參數是什么以及它們的作用有一個基本的了解。幸運的是,PPO只有其中一些,我們將使用以下內容:

learning_rate:設置策略更新的步驟有多大,與其他機器學習方案相同。將其設置得太高會阻止算法找到正確的解決方案,甚至將算法推向一個永遠無法恢復的方向。將其設置得太低會使訓練花費更長的時間。一個常見的技巧是在訓練期間使用調度器函數來調整它。

gamma:未來獎勵的折扣系數,介于0(僅即時獎勵重要)和1(未來獎勵與即時獎勵價值相同)之間。為了保持訓練效果,最好將其保持在0.9以上。

clip_range1+-clip_range:PPO的一個重要特性,它的存在是為了確保模型不會在訓練時發生顯著改變。減少它有助于在后期訓練階段微調模型。

ent_coef:從本質上講,它的值越高,就越鼓勵算法探索不同的非最優動作,這可以幫助該方案擺脫局部獎勵最大值。

一般來說,從默認的超參數開始即可。

接下來的步驟是針對一些預先確定的步驟進行訓練,然后親自查看算法的運行情況,然后使用性能最佳的可能的新參數重新開始。在這里,我們繪制了不同訓練時間的獎勵。

經過足夠多的步驟后,訓練貪吃蛇的算法收斂到某個獎勵值,就可以完成訓練或嘗試微調參數并繼續訓練。

達到最大可能獎勵所需的訓練步驟很大程度上取決于問題、獎勵方案和超參數,因此建議在訓練算法前先優化一下。在訓練AI玩貪吃蛇游戲示例的最后,我們發現AI已經能做到在迷宮中找到食物并避免與尾巴相撞了。

分享到:
標簽:人工智能 機器學習
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定