日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告：魔扣目錄網(wǎng)為廣大站長(zhǎng)提供免費(fèi)收錄網(wǎng)站服務(wù)，提交前請(qǐng)做好本站友鏈：【網(wǎng)站目錄：http://www.ylptlb.cn 】，免友鏈快審服務(wù)（50元/站），

點(diǎn)擊這里在線咨詢客服

網(wǎng)站：51998
待審：31
小程序：12
文章：1030137
會(huì)員：747

首頁 > 新聞資訊 > IT業(yè)界 >正文

如何理解看待 OpenAI 公布PPO算法？

發(fā)布時(shí)間：2023-07-31 20:57:58 作者：網(wǎng)友整理

回答一:

TRPO得到的結(jié)果是PPO(tRustregionpolicyoptimization)類似的解決方案。TRPO規(guī)定解一個(gè)constrAInedoptimization(KLdivergence低于某個(gè)值)，而PPO則直接將constraints放入objective中。

在TRPO中，這個(gè)optimization需要使用conjugategradient的近似解決方案，并且需要規(guī)定constraint的二次導(dǎo)向KLdivergence，所以當(dāng)問題很大時(shí)，它會(huì)花費(fèi)大量的資源。而且PPO只需要一次導(dǎo)的信息，這樣就大大節(jié)省了資源，可以應(yīng)用到規(guī)模較大的問題上(自然需要添加一些細(xì)節(jié)，這樣結(jié)果就不會(huì)和TRPO差太多了)。Deepmind最近的一篇文章EmergenceofLocomotiotiotionBen(DPPO)）.

現(xiàn)在OpenAI已經(jīng)把PPO當(dāng)作默認(rèn)算法，deepmind也在最近的幾篇文章中使用過，所以我認(rèn)為有什么問題可以深入加強(qiáng)學(xué)習(xí)，那就勇敢地使用這個(gè)算法吧。

Azure OpenAI 企業(yè)API接口開通申請(qǐng)：https://forms.office.com/r/7Y4wFaqAxV

回答二：

事實(shí)上，PPO的本質(zhì)應(yīng)該是：

對(duì)于likelihood-ratiopolicygradient算法，本質(zhì)上是提高“好”樣本的可能性，降低“差”樣本的可能性。那普通的策略梯度是怎樣的呢？這是關(guān)于一種取樣，如果它的return恰好很高，那么它的可能性就會(huì)迅速增加，相反，如果return是負(fù)的，那么它的可能性就會(huì)迅速降低。這實(shí)際上是不穩(wěn)定的，因?yàn)椴呗蕴荻确讲畋緛砭秃艽?。所以，PPO從更新中忽略了這種樣本。僅此而已。

回答三：

PPO算法這個(gè)太專業(yè)了，我盡量簡(jiǎn)單一點(diǎn)。

在加強(qiáng)學(xué)習(xí)算法的突破中，兩個(gè)指標(biāo)非常重要，一個(gè)是你能得到多少關(guān)于你最終改進(jìn)的對(duì)策，另一個(gè)是你的樣本效率。

第一個(gè)標(biāo)準(zhǔn)很容易理解，就是看你使用的最終效果。第二個(gè)標(biāo)準(zhǔn)的原因來自一個(gè)客觀事實(shí)?；?dòng)獲取數(shù)據(jù)往往非常昂貴。我們應(yīng)該盡可能少地使用互動(dòng)來實(shí)現(xiàn)可用的情況。PPO算法就是解決這些問題。

回答四：

OpenAI發(fā)布的PPO算法是一種基于概率的策略優(yōu)化算法，它可以升級(jí)對(duì)策參數(shù)，以滿足環(huán)境的變化。

它可以在更低的步驟中獲得更多的利潤(rùn)，并更快地學(xué)習(xí)改變的環(huán)境。PPO算法可以幫助研究人員更好地了解機(jī)器人行為，幫助他們處理機(jī)器人行為控制問題。

也可用于無人駕駛、機(jī)器人操作、空中制導(dǎo)技術(shù)等機(jī)器人領(lǐng)域的任務(wù)。

分享到：

標(biāo)簽：算法 PPO

網(wǎng)友整理

注冊(cè)時(shí)間：

網(wǎng)站：5 個(gè) 小程序：0 個(gè) 文章：12 篇

51998
網(wǎng)站
12
小程序
1030137
文章
747
會(huì)員

趕快注冊(cè)賬號(hào)，推廣您的網(wǎng)站吧！

文章分類

熱門網(wǎng)站

各百科-專業(yè)百科問答知識(shí)名網(wǎng)站 m.geelcn.com
免費(fèi)軟件,綠色軟件園,手機(jī)軟件下載,熱門游戲下載中心-中當(dāng)網(wǎng) m.deelcn.com
魔扣科技 www.ylptlb.cn
體育新聞_國際體育資訊_全球體育賽事-中名網(wǎng) www.feelcn.com/tiyu/tiyuxinwen/
食品安全_健康飲食_舌尖上的安全-中名網(wǎng) www.feelcn.com/shenghuo/shipinanquan/
中合網(wǎng) www.heelcn.com
中當(dāng)網(wǎng) www.deelcn.com
魔扣網(wǎng)站維護(hù)代運(yùn)營(yíng) www.ylptlb.cn/tg
中合網(wǎng)-健康養(yǎng)生知識(shí)科普名站 m.heelcn.com
各百科 www.geelcn.com

最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲，玩家需要根據(jù)9

答題星

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試

全階人生考試2018-06-03

各種考試題，題庫，初中，高中，大學(xué)四六

運(yùn)動(dòng)步數(shù)有氧達(dá)人

運(yùn)動(dòng)步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動(dòng)步數(shù)，積累氧氣值。還可偷

每日養(yǎng)生app

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績(jī)?cè)u(píng)定

體育訓(xùn)練成績(jī)?cè)u(píng)定2018-06-03

通用課目體育訓(xùn)練成績(jī)?cè)u(píng)定

熱門文章