日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

近年來,強化學(xué)習(xí)的研究熱度不斷攀升,在智能制造、自動駕駛、大語言模型等多個領(lǐng)域取得了耀眼成績,展示出巨大的研究潛力。然而,強化學(xué)習(xí)算法高效、可靠的工程實現(xiàn)仍是長期存在的問題。由于其算法結(jié)構(gòu)的復(fù)雜性,微小的代碼差異就可能嚴(yán)重影響實際性能。

為了解決這一問題,科研和開發(fā)者社區(qū)先后提出了多個強化學(xué)習(xí)框架,如強調(diào)穩(wěn)定性和可靠性的 Stable-Baselines3、模塊化設(shè)計的 Tianshou 以及單文件實現(xiàn)算法的 CleanRL,為強化學(xué)習(xí)的學(xué)術(shù)研究和應(yīng)用開發(fā)做出了積極貢獻。然而,大部分項目的活躍周期較短,未建立合理的長期演進計劃,并且代碼風(fēng)格迥異,限制了社區(qū)的開源協(xié)作。它們也沒有構(gòu)建完整的項目生態(tài),僅專注于模型訓(xùn)練,而忽略了評估、部署等現(xiàn)實需求。同時,這些項目缺乏完備的測試數(shù)據(jù),導(dǎo)致復(fù)現(xiàn)成本極高,阻礙了后續(xù)研究的進行。

為了解決以上問題,來自香港理工大學(xué)、寧波東方理工大學(xué)(暫名)、普渡大學(xué)和大疆科技的研究者和算法團隊,受到電信中「長期演進技術(shù)(LTE)」的啟發(fā),發(fā)布了名為 RLLTE 的開源強化學(xué)習(xí)框架,旨在為促進強化學(xué)習(xí)研究和應(yīng)用提供開發(fā)組件和工程標(biāo)準(zhǔn)。RLLTE 不僅提供高質(zhì)量的算法實現(xiàn),還可作為工具庫用于新算法的開發(fā)。

引入大語言模型、首個支持國產(chǎn)算力生態(tài),全新開源RL框架RLLTE來了

論文鏈接:https://arxiv.org/pdf/2309.16382.pdf

代碼 / Demo 鏈接:https://Github.com/RLE-Foundation/rllte

官方網(wǎng)站:https://docs.rllte.dev/

引入大語言模型、首個支持國產(chǎn)算力生態(tài),全新開源RL框架RLLTE來了

RLLTE 從「探索 - 利用」的角度出發(fā)對強化學(xué)習(xí)算法進行完全解耦,將它們分解為若干最小基元,例如用于處理觀測的編碼器(Encoder),以及用于經(jīng)驗存儲和采樣的存儲器(Storage)。RLLTE 為每一種基元提供了豐富的模組供開發(fā)者選擇,使得開發(fā)者可以以「搭積木」的方式進行強化學(xué)習(xí)算法的構(gòu)建。RLLTE 框架的主要功能和亮點如下:

極致模塊化:RLLTE 的核心設(shè)計思想是像 PyTorch 一樣為強化學(xué)習(xí)算法開發(fā)提供標(biāo)準(zhǔn)、便捷、即插即用的開發(fā)組件,而并非專注于提供具體的算法實現(xiàn)。因此,RLLTE 實現(xiàn)的算法中每個組件都是可替換的,并且支持用戶使用自定義的模塊。這一解耦過程有助于算法可解釋性的研究和更深層次的改進探索。

長期演進:RLLTE 作為一個長期演進的框架,將會持續(xù)更新強化學(xué)習(xí)中的先進算法和工具。為了保持項目的體量和高質(zhì)量,RLLTE 只更新通用的算法,抑或是在采樣效率或者泛化能力方面做出的改進,并且要求這些算法必須在廣受認可的基線上取得杰出的性能。

數(shù)據(jù)增強:近年來的大量研究將數(shù)據(jù)增強技巧引入強化學(xué)習(xí)算法,以實現(xiàn)采樣效率和泛化能力的顯著提升。RLLTE 默認支持數(shù)據(jù)增強操作,并提供大量觀測(Observations)增強和內(nèi)在獎勵(Intrinsic Rewards)模組供開發(fā)者選擇。

豐富的項目生態(tài):RLLTE 同時考慮學(xué)術(shù)界和工業(yè)界的需求,構(gòu)建了豐富的項目生態(tài)。開發(fā)者可以在一個框架中實現(xiàn)任務(wù)設(shè)計、模型訓(xùn)練、評估以及部署。并且,RLLTE 還嘗試將大語言模型引入該框架,以降低用戶學(xué)習(xí)成本,加速強化學(xué)習(xí)的應(yīng)用構(gòu)建。

完備的基線數(shù)據(jù):現(xiàn)有的強化學(xué)習(xí)框架通常只在有限的任務(wù)上進行算法測試,缺乏完備的測試數(shù)據(jù)(訓(xùn)練曲線和測試分數(shù)等)。由于強化學(xué)習(xí)訓(xùn)練的高算力消耗,這是可以理解的,但阻礙了后續(xù)的研究進行。為了解決這一問題,RLLTE 依托 Hugging Face 平臺建立了數(shù)據(jù)倉庫,并對內(nèi)置算法在廣受認可的基線上進行測試以提供完整的訓(xùn)練數(shù)據(jù)。

多硬件支持:在當(dāng)前全球算力需求激增的背景下,RLLTE 被設(shè)計為支持多種算力設(shè)備以保證靈活性和可拓展性。當(dāng)前,框架支持使用 NVIDIA GPU 和 HUAWEI NPU 進行訓(xùn)練,并支持在 NVIDIA TensorRT 以及 HUAWEI CANN 架構(gòu)下進行推理端部署。RLTLE 也是首個支持國產(chǎn)算力生態(tài)的強化學(xué)習(xí)框架。

引入大語言模型、首個支持國產(chǎn)算力生態(tài),全新開源RL框架RLLTE來了

RLLTE 框架介紹

RLLTE 框架主要包含三個層級:核心層(Core)、應(yīng)用層(Application)以及工具層(Tool)。

核心層從「探索 - 利用」的角度對 RL 算法進行完全解耦,并將其拆分成以下 6 大基元:

引入大語言模型、首個支持國產(chǎn)算力生態(tài),全新開源RL框架RLLTE來了

RLLTE 為每一類基元提供了大量模組供開發(fā)者選擇。例如,storage 模塊中提供了 VanillaReplayStorage 和 DictReplayStorage 分別用于存儲普通格式和字典格式的觀測數(shù)據(jù)。

應(yīng)用層基于核心層的模組提供強化學(xué)習(xí)算法的實現(xiàn)(rllte.agent)、預(yù)訓(xùn)練(Pre-trAIning)、模型部署(Deployment)以及開發(fā)助手(Copilot)。

工具層為任務(wù)設(shè)計(rllte.env)、模型評估(rllte.evaluation)以及基線數(shù)據(jù)(rllte.hub)提供方便的應(yīng)用接口。

用戶可以直接調(diào)用 RLLTE 實現(xiàn)好的算法進行訓(xùn)練,例如使用 DrQ-v2 算法解決視覺控制任務(wù):

引入大語言模型、首個支持國產(chǎn)算力生態(tài),全新開源RL框架RLLTE來了

開始訓(xùn)練,將會看到以下輸出:

引入大語言模型、首個支持國產(chǎn)算力生態(tài),全新開源RL框架RLLTE來了

或者,使用內(nèi)置的算法原型和模塊進行快速算法開發(fā):

引入大語言模型、首個支持國產(chǎn)算力生態(tài),全新開源RL框架RLLTE來了

使用 RLLTE,開發(fā)者只需幾十行代碼即可實現(xiàn) A2C 等知名強化學(xué)習(xí)算法。并且,對于實現(xiàn)好的算法,開發(fā)者可以更換其內(nèi)置模塊以進行性能比較和算法改進。例如,比較不同的 Encoder 對同一算法性能的影響:

引入大語言模型、首個支持國產(chǎn)算力生態(tài),全新開源RL框架RLLTE來了

對于訓(xùn)練好的模型,開發(fā)者可以調(diào)用 rllte.evaluation 中的工具進行算法評估和可視化:

引入大語言模型、首個支持國產(chǎn)算力生態(tài),全新開源RL框架RLLTE來了

在學(xué)術(shù)研究中,使用 rllte.hub 快速獲取算法的訓(xùn)練數(shù)據(jù)和模型參數(shù):

引入大語言模型、首個支持國產(chǎn)算力生態(tài),全新開源RL框架RLLTE來了

大語言模型融入 RL 框架

RLLTE 是首個嘗試引入大語言模型的強化學(xué)習(xí)框架,以此來降低開發(fā)者的學(xué)習(xí)成本,以及協(xié)助進行強化學(xué)習(xí)應(yīng)用的開發(fā)。

引入大語言模型、首個支持國產(chǎn)算力生態(tài),全新開源RL框架RLLTE來了

RLLTE 參考了 LocalGPT 等項目的設(shè)計理念,開發(fā)了 Copilot,無需額外訓(xùn)練并且保證用戶數(shù)據(jù)的絕對隱私。其首先使用 instructor embedding 工具對由項目文檔、教程以及強化學(xué)習(xí)論文等構(gòu)成的語料庫進行處理,以建立本地化的向量數(shù)據(jù)庫,然后使用諸如 Vicuna-7B 的大模型對問題進行理解,并基于該向量數(shù)據(jù)庫給出答案。用戶可以根據(jù)自己的算力情況自由更換基礎(chǔ)模型,未來我們也將進一步豐富該語料庫并添加更多高級功能來實現(xiàn)更加智能的強化學(xué)習(xí)專屬 Copilot。

作為一個長期演進的強化學(xué)習(xí)框架,RLLTE 未來將持續(xù)跟蹤最新的研究進展并提供高質(zhì)量的算法實現(xiàn),以適應(yīng)開發(fā)者變化的需求并對強化學(xué)習(xí)社區(qū)產(chǎn)生積極影響。

分享到:
標(biāo)簽:模型 語言
用戶無頭像

網(wǎng)友整理

注冊時間:

網(wǎng)站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨大挑戰(zhàn)2018-06-03

數(shù)獨一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運動步數(shù)有氧達人2018-06-03

記錄運動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定