日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

 

學習強化學習之前需要掌握的3種技能

 

1.監督學習

現代強化學習幾乎完全集中在深度強化學習上。深度強化學習中的“深”一詞意味著在算法的核心方面使用神經網絡。神經網絡在學習過程中進行一些高維近似。話雖如此,該模型并不需要具有許多層和特征,這是一個普遍的誤解,深層暗示了許多層。

幾乎所有的課程和教程都假定你可以微調簡單的神經網絡以近似狀態值或創建最終策略。從歷史上看,這些模型對以下所有訓練參數高度敏感:學習率,批量大小,模型參數,數據規范化等等。RL學習中有許多問題,最好的方法是學習監督學習,然后讓AutoML工具為你完成工作。

從學習一些代碼開始,理解代碼所有內容,然后重新構建。這樣做幾次,你會學的很好。監督學習也是一項技能,在接下來的十年中,它將轉化為計算機科學的大多數領域,因此請緊跟其后。

學習強化學習之前需要掌握的3種技能

 

2.人工智能中的搜索方法

RL是策略空間中的一個搜索問題。近年來影響最大的論文都是從古老的搜索問題中得到了嚴重的啟發。讓我們來看看最近在RL最有影響力的三篇論文:

  1. 迄今為止最主流的強化學習結果是:Deepmind掌握了許多游戲,并進行了大規模強化學習。最近是利用規劃網絡來探索的未來行動(https://deepmind.com/research/publications/investigation-model-free-planning)
  2. 基于模型的RL的研究現狀:基于模型的策略優化(MBPO)。MBPO正在狀態作用空間的附近區域進行搜索,以獲得更完整的知識。這種模擬的知識就像是一種簡單的探索。(https://arxiv.org/abs/1906.08253)
  3. 無模型的RL研究現狀:Soft Actor-critic (SAC)。SAC以有效勘探和高峰值性能相結合而聞名。它通過最大化策略上的熵項來實現這一點。作為一個搜索問題,直接策略搜索是RL最關鍵的方面。

你可以在加州大學伯克利分校和麻省理工學院的人工智能課程學習,試試做一兩個項目挑戰自己。

https://inst.eecs.berkeley.edu/~cs188/

https://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-034-artificial-intelligence-fall-2010/

學習強化學習之前需要掌握的3種技能

 

3.理解學術論文

注意,我并沒有說閱讀學術論文,關鍵是要能夠理解它們。

學術領域變化迅速,每天都有論文在活躍的Twitter社區中公布(說真的,關注幾位著名的研究人員——這對你跟上進度很有幫助)。你需要學習的是把有影響力的論文與噪音區分開,把進步與炒作區分開。

它不是關于引用量,盡管我承認引用是一個很好的區別途徑。你應該關注的是實驗:它們是遵循提出問題、實驗、提出解決方案的軌跡,還是只是對另一個方法的漸進改進?最好的論文尋找的是真理,而不是數字。

最好的研究是尋找最重要的問題,而不管學術討論的浪潮。學會辨別這些信號,你就能跟上這個領域的步伐,成為未來十年有價值的人才。

學習強化學習之前需要掌握的3種技能

 

結尾

我寫了很多關于強化學習的基本技能的教程,之后會發布出來。

  1. 什么是馬爾科夫決策過程?
  2. 強化學習的線性代數。
  3. 強化學習的基本迭代方法。

分享到:
標簽:強化 學習
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定