回答一:
TRPO得到的結(jié)果是PPO(tRustregionpolicyoptimization)類似的解決方案。TRPO規(guī)定解一個constrAInedoptimization(KLdivergence低于某個值),而PPO則直接將constraints放入objective中。
在TRPO中,這個optimization需要使用conjugategradient的近似解決方案,并且需要規(guī)定constraint的二次導(dǎo)向KLdivergence,所以當(dāng)問題很大時,它會花費大量的資源。而且PPO只需要一次導(dǎo)的信息,這樣就大大節(jié)省了資源,可以應(yīng)用到規(guī)模較大的問題上(自然需要添加一些細(xì)節(jié),這樣結(jié)果就不會和TRPO差太多了)。Deepmind最近的一篇文章EmergenceofLocomotiotiotionBen(DPPO)).
現(xiàn)在OpenAI已經(jīng)把PPO當(dāng)作默認(rèn)算法,deepmind也在最近的幾篇文章中使用過,所以我認(rèn)為有什么問題可以深入加強學(xué)習(xí),那就勇敢地使用這個算法吧。
Azure OpenAI 企業(yè)API接口開通申請:https://forms.office.com/r/7Y4wFaqAxV
回答二:
事實上,PPO的本質(zhì)應(yīng)該是:
對于likelihood-ratiopolicygradient算法,本質(zhì)上是提高“好”樣本的可能性,降低“差”樣本的可能性。那普通的策略梯度是怎樣的呢?這是關(guān)于一種取樣,如果它的return恰好很高,那么它的可能性就會迅速增加,相反,如果return是負(fù)的,那么它的可能性就會迅速降低。這實際上是不穩(wěn)定的,因為策略梯度方差本來就很大。所以,PPO從更新中忽略了這種樣本。僅此而已。
回答三:
PPO算法這個太專業(yè)了,我盡量簡單一點。
在加強學(xué)習(xí)算法的突破中,兩個指標(biāo)非常重要,一個是你能得到多少關(guān)于你最終改進的對策,另一個是你的樣本效率。
第一個標(biāo)準(zhǔn)很容易理解,就是看你使用的最終效果。第二個標(biāo)準(zhǔn)的原因來自一個客觀事實。互動獲取數(shù)據(jù)往往非常昂貴。我們應(yīng)該盡可能少地使用互動來實現(xiàn)可用的情況。PPO算法就是解決這些問題。
回答四:
OpenAI發(fā)布的PPO算法是一種基于概率的策略優(yōu)化算法,它可以升級對策參數(shù),以滿足環(huán)境的變化。
它可以在更低的步驟中獲得更多的利潤,并更快地學(xué)習(xí)改變的環(huán)境。PPO算法可以幫助研究人員更好地了解機器人行為,幫助他們處理機器人行為控制問題。
也可用于無人駕駛、機器人操作、空中制導(dǎo)技術(shù)等機器人領(lǐng)域的任務(wù)。