回答一:
TRPO得到的結果是PPO(tRustregionpolicyoptimization)類似的解決方案。TRPO規定解一個constrAInedoptimization(KLdivergence低于某個值),而PPO則直接將constraints放入objective中。
在TRPO中,這個optimization需要使用conjugategradient的近似解決方案,并且需要規定constraint的二次導向KLdivergence,所以當問題很大時,它會花費大量的資源。而且PPO只需要一次導的信息,這樣就大大節省了資源,可以應用到規模較大的問題上(自然需要添加一些細節,這樣結果就不會和TRPO差太多了)。Deepmind最近的一篇文章EmergenceofLocomotiotiotionBen(DPPO)).
現在OpenAI已經把PPO當作默認算法,deepmind也在最近的幾篇文章中使用過,所以我認為有什么問題可以深入加強學習,那就勇敢地使用這個算法吧。
Azure OpenAI 企業API接口開通申請:https://forms.office.com/r/7Y4wFaqAxV
回答二:
事實上,PPO的本質應該是:
對于likelihood-ratiopolicygradient算法,本質上是提高“好”樣本的可能性,降低“差”樣本的可能性。那普通的策略梯度是怎樣的呢?這是關于一種取樣,如果它的return恰好很高,那么它的可能性就會迅速增加,相反,如果return是負的,那么它的可能性就會迅速降低。這實際上是不穩定的,因為策略梯度方差本來就很大。所以,PPO從更新中忽略了這種樣本。僅此而已。
回答三:
PPO算法這個太專業了,我盡量簡單一點。
在加強學習算法的突破中,兩個指標非常重要,一個是你能得到多少關于你最終改進的對策,另一個是你的樣本效率。
第一個標準很容易理解,就是看你使用的最終效果。第二個標準的原因來自一個客觀事實。互動獲取數據往往非常昂貴。我們應該盡可能少地使用互動來實現可用的情況。PPO算法就是解決這些問題。
回答四:
OpenAI發布的PPO算法是一種基于概率的策略優化算法,它可以升級對策參數,以滿足環境的變化。
它可以在更低的步驟中獲得更多的利潤,并更快地學習改變的環境。PPO算法可以幫助研究人員更好地了解機器人行為,幫助他們處理機器人行為控制問題。
也可用于無人駕駛、機器人操作、空中制導技術等機器人領域的任務。