
1.監督學習
現代強化學習幾乎完全集中在深度強化學習上。深度強化學習中的“深”一詞意味著在算法的核心方面使用神經網絡。神經網絡在學習過程中進行一些高維近似。話雖如此,該模型并不需要具有許多層和特征,這是一個普遍的誤解,深層暗示了許多層。
幾乎所有的課程和教程都假定你可以微調簡單的神經網絡以近似狀態值或創建最終策略。從歷史上看,這些模型對以下所有訓練參數高度敏感:學習率,批量大小,模型參數,數據規范化等等。RL學習中有許多問題,最好的方法是學習監督學習,然后讓AutoML工具為你完成工作。
從學習一些代碼開始,理解代碼所有內容,然后重新構建。這樣做幾次,你會學的很好。監督學習也是一項技能,在接下來的十年中,它將轉化為計算機科學的大多數領域,因此請緊跟其后。

2.人工智能中的搜索方法
RL是策略空間中的一個搜索問題。近年來影響最大的論文都是從古老的搜索問題中得到了嚴重的啟發。讓我們來看看最近在RL最有影響力的三篇論文:
- 迄今為止最主流的強化學習結果是:Deepmind掌握了許多游戲,并進行了大規模強化學習。最近是利用規劃網絡來探索的未來行動(https://deepmind.com/research/publications/investigation-model-free-planning)
- 基于模型的RL的研究現狀:基于模型的策略優化(MBPO)。MBPO正在狀態作用空間的附近區域進行搜索,以獲得更完整的知識。這種模擬的知識就像是一種簡單的探索。(https://arxiv.org/abs/1906.08253)
- 無模型的RL研究現狀:Soft Actor-critic (SAC)。SAC以有效勘探和高峰值性能相結合而聞名。它通過最大化策略上的熵項來實現這一點。作為一個搜索問題,直接策略搜索是RL最關鍵的方面。
你可以在加州大學伯克利分校和麻省理工學院的人工智能課程學習,試試做一兩個項目挑戰自己。
https://inst.eecs.berkeley.edu/~cs188/
https://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-034-artificial-intelligence-fall-2010/

3.理解學術論文
注意,我并沒有說閱讀學術論文,關鍵是要能夠理解它們。
學術領域變化迅速,每天都有論文在活躍的Twitter社區中公布(說真的,關注幾位著名的研究人員——這對你跟上進度很有幫助)。你需要學習的是把有影響力的論文與噪音區分開,把進步與炒作區分開。
它不是關于引用量,盡管我承認引用是一個很好的區別途徑。你應該關注的是實驗:它們是遵循提出問題、實驗、提出解決方案的軌跡,還是只是對另一個方法的漸進改進?最好的論文尋找的是真理,而不是數字。
最好的研究是尋找最重要的問題,而不管學術討論的浪潮。學會辨別這些信號,你就能跟上這個領域的步伐,成為未來十年有價值的人才。

結尾
我寫了很多關于強化學習的基本技能的教程,之后會發布出來。
- 什么是馬爾科夫決策過程?
- 強化學習的線性代數。
- 強化學習的基本迭代方法。