欧美一区不卡在线观看,成人免费一区二区三区,日产精品久久久一区二区

最近大型語(yǔ)言模型（LLM）的成功促使越來(lái)越多的人探索通過(guò)它解決各種復(fù)雜的任務(wù)，其中 LLM 增強(qiáng)的自主 agent（LAA）尤為引人矚目。LLA 將 LLM 的智能擴(kuò)展到了順序動(dòng)作執(zhí)行中，在通過(guò)收集觀察結(jié)果與環(huán)境交互并解決復(fù)雜任務(wù)方面展現(xiàn)出了優(yōu)越性能。這類代表性工作有 BabyAGI、AutoGPT3、ReAct、LangchAIn 等。

但這些探索可能還不夠，主要在以下三個(gè)方面存在局限：

首先，最優(yōu) agent 架構(gòu)尚未確定。以 ReAct 為例，它向 agent 提示預(yù)定義的樣本，LLM 學(xué)會(huì)通過(guò)上下文學(xué)習(xí)生成下一步動(dòng)作。此外，ReAct 認(rèn)為一個(gè) agent 在動(dòng)作執(zhí)行之前應(yīng)有中間推理步驟。

其次，現(xiàn)有 LAA 中 LLM 能否發(fā)揮多大功效，目前并沒(méi)有全面的了解。現(xiàn)在的初步工作只比較了一些 LLM 骨干的性能，比如 ReAct 將 PaLM 作為骨干 LLM，ReWOO 則將 OpenAI 的 text-davinci-003 模型作為 agent 規(guī)劃的指令調(diào)優(yōu) Alpaca 模型。同時(shí)目前很少有工作全面比較使用不同預(yù)訓(xùn)練 LLM 的 LAA 性能。最近雖有一些工作發(fā)布了評(píng)估 LLM 作為 agent 的基準(zhǔn)，但未能共同考慮 agent 架構(gòu)和它們的 LLM 骨干。

最后，越來(lái)越復(fù)雜的任務(wù)可能需要多個(gè) agent 共同發(fā)揮作用。比如 ReWOO 最近發(fā)現(xiàn)將推理從觀察中解耦出來(lái)可以提升 LAA 的效率。

在今天介紹的這篇論文中，來(lái)自 Salesforce Research 的研究者認(rèn)為，隨著任務(wù)復(fù)雜度的增加，特別是在開放域環(huán)境中，協(xié)調(diào)多個(gè) agent 來(lái)完成一項(xiàng)任務(wù)會(huì)更好。舉例而言，對(duì)于網(wǎng)頁(yè)導(dǎo)航任務(wù)，我們可以使用一個(gè)點(diǎn)擊 agent 來(lái)與點(diǎn)擊按鈕進(jìn)行交互，并請(qǐng)求另一個(gè)搜索智能體來(lái)檢索其他資源。

論文鏈接：https://arxiv.org/pdf/2308.05960.pdf

研究者建議全面比較 LAA 的性能，并深入探索了 LAA 的 agent 架構(gòu)和 LLM 骨干。具體地講，他們基于現(xiàn)有環(huán)境構(gòu)建了 agent 基準(zhǔn)，從而評(píng)估建構(gòu)在不同 LLM 骨干之上的不同 agent 架構(gòu)的性能。該 agent 基準(zhǔn)中的任務(wù)還劃分了不同的復(fù)雜程度，使得 agent 性能與任務(wù)復(fù)雜度的關(guān)聯(lián)分析成為可能。

此外，這些 agent 架構(gòu)在設(shè)計(jì)上旨在廣泛驗(yàn)證現(xiàn)有的設(shè)計(jì)選擇。關(guān)于多個(gè) LAA 的編排，研究者提出了一種新穎的架構(gòu) BOLAA，它在多個(gè)協(xié)作 agent 之上有一個(gè)控制器模塊，用于多個(gè)分工 LAA 的選擇和通信。

本文的貢獻(xiàn)主要體現(xiàn)在以下幾個(gè)方面：

開發(fā)了 6 種不同的 LAA agent 架構(gòu)，并將這些架構(gòu)與不同骨干 LLM 結(jié)合，從而在提示、自我思考和規(guī)劃中驗(yàn)證 LAA 的設(shè)計(jì)直覺(jué)。同時(shí)開發(fā)了用于編排多 agent 策略的架構(gòu) BOLAA，增加了單體 agent 的動(dòng)作交互能力；
在決策制定網(wǎng)頁(yè)導(dǎo)航環(huán)境和知識(shí)推理任務(wù)環(huán)境中進(jìn)行廣泛實(shí)驗(yàn)，報(bào)告了最終稀疏獎(jiǎng)勵(lì)和中間召回方面的性能，這為 LAA 及其兼容的 LLM 的最優(yōu)選擇提供了定性指示；
結(jié)果顯示，與其他 LAA 架構(gòu)相比，BOLAA 在 WebShop 環(huán)境中始終取得了最佳性能。這些表明了在解決復(fù)雜任務(wù)時(shí)多個(gè)專業(yè) agent 的協(xié)作至關(guān)重要，可以說(shuō)應(yīng)該與訓(xùn)練具有強(qiáng)泛化能力的大型 LLM 同等重要。

愛(ài)丁堡大學(xué)博士生符堯認(rèn)為，這項(xiàng)工作揭示了一種新的分布式計(jì)算范式：分布式 AI 計(jì)算。在傳統(tǒng)分布式計(jì)算中，每個(gè)節(jié)點(diǎn)處理部分任務(wù)；同樣在分布式 AI 計(jì)算中，一個(gè) agent 就變成了處理部分任務(wù)的節(jié)點(diǎn)。

Agent 架構(gòu)

在這部分，研究者比較了不同的 LAA 架構(gòu)。他們首先展示了如何基于現(xiàn)有工作的直覺(jué)來(lái)設(shè)計(jì)不同的單體 LAA，然后展示了多個(gè) LAA 的編碼設(shè)計(jì)，即 BOLAA。

每種類型的 LAA 都能夠通過(guò)自己的交互策略與環(huán)境交互。常見(jiàn)的 agent 類型包括：

Zeroshot LAA
ZeroshotThink LAA
ReAct LAA
PlanAct LAA
PlanReAct LAA

BOLAA：協(xié)調(diào)多個(gè) agent

盡管現(xiàn)有的 LLM 在完成各種語(yǔ)言理解任務(wù)方面取得了成功，但仍有許多問(wèn)題尚未得到充分探討，如上下文長(zhǎng)度限制、上下文內(nèi)學(xué)習(xí)和泛化能力等。因此，采用單體 LAA 來(lái)完成所有任務(wù)具有挑戰(zhàn)性，尤其是在任務(wù)復(fù)雜度較高的情況下。研究者因此提出了一種新的 agent 架構(gòu)，用于協(xié)調(diào)多個(gè) LAA。

如圖 3 所示，BOLAA 有兩個(gè)主要模塊，即分工 agent 池和控制器。

分工 agent 池管理多個(gè) LAA，每個(gè) LAA 可能只專注于生成一種類型的執(zhí)行。例如在網(wǎng)絡(luò)導(dǎo)航環(huán)境中，可以建立點(diǎn)擊 LAA 和搜索 LAA。這樣，前者只生成下一個(gè)點(diǎn)擊按鈕，而后者只輸出搜索查詢，從而將復(fù)雜的任務(wù)劃分為可行的任務(wù)?？刂破鞯脑O(shè)計(jì)目的是從 agent 池中有選擇地調(diào)用 LAA。

控制器有一個(gè) agent 選擇層，用于選擇最相關(guān)的 LAA 進(jìn)行調(diào)用。然后，控制器為選定的 LAA 構(gòu)建信息并建立通信。從分工 LAA 獲得響應(yīng)后，控制器將其解析為可執(zhí)行的操作，然后與環(huán)境交互。

請(qǐng)注意，也可以將這些分工 LAA 設(shè)計(jì)為思考 / 計(jì)劃 agent。這樣，自我思考和規(guī)劃工作流也會(huì)被保留下來(lái)。

實(shí)驗(yàn)結(jié)果

研究者從兩個(gè)環(huán)境中構(gòu)建了評(píng)估基準(zhǔn)，WebShop 和 HotPotQA 以及維基百科 API 的用例。

關(guān)于評(píng)估指標(biāo)，研究者使用每個(gè)環(huán)境中的獎(jiǎng)勵(lì)得分來(lái)評(píng)估 LAA 性能。在 WebShop 環(huán)境中，獎(jiǎng)勵(lì)被定義為購(gòu)買商品與 ground-truth 商品之間的屬性重疊率。在 HotPotQA 環(huán)境中，獎(jiǎng)勵(lì)被定義為 agent 答案與 ground-truth 答案之間的 F1 分?jǐn)?shù)分級(jí)。

此外，研究者為 WebShop 環(huán)境開發(fā)了召回性能，如果在一個(gè)任務(wù)會(huì)話中檢索到 ground-truth 項(xiàng)目，召回性能定義為 1；如果沒(méi)有檢索到地面實(shí)況項(xiàng)目，召回性能定義為 0。召回率以 WebShop 環(huán)境中所有任務(wù)的平均召回分?jǐn)?shù)來(lái)報(bào)告。

決策模擬

研究者比較了 WebShop 環(huán)境中 LAA 的決策性能。下表 1 列出了平均獎(jiǎng)勵(lì)方面的表現(xiàn)。Agent 提示是根據(jù)不同 LLM 模型的最大上下文長(zhǎng)度構(gòu)建的。關(guān)于 BOLAA，研究者設(shè)計(jì)了一個(gè)搜索 LAA 和一個(gè)點(diǎn)擊 LAA，分別生成搜索查詢和點(diǎn)擊元素。觀察結(jié)果如下：

與其他 LAA 架構(gòu)相比，BOLAA 的性能最佳，尤其是在高性能 LLM 上構(gòu)建時(shí)。
將 LLM 與最佳 LAA 架構(gòu)配對(duì)至關(guān)重要。
強(qiáng)大的 LLM 能夠在 Zeroshot LAA arch 下進(jìn)行泛化。
當(dāng) Agent 基于開源 LLM 構(gòu)建時(shí)，規(guī)劃流通?？梢蕴岣咝阅?。

知識(shí)推理模擬

隨后，研究者在 HotPotQA 環(huán)境中進(jìn)行了基準(zhǔn)測(cè)試，以評(píng)估 LAA 的多步驟推理能力。由于在該環(huán)境中，可用的搜索、查找和完成運(yùn)算都與知識(shí)推理有關(guān)，很難分開，因此他們將 BOLAA arch 留待此后工作中使用，只比較其他 agent arch 的性能。結(jié)果如下表 3 所示：

總體來(lái)說(shuō)，ReAct agent 引擎的性能最好，這可以從幾個(gè)方面來(lái)解釋。

首先，少樣本提示對(duì)于 LAA 的行為生成和推理能力是必要的，尤其是在使用較小規(guī)模語(yǔ)言模型進(jìn)行實(shí)驗(yàn)時(shí)。其次，通過(guò)比較 ReAct、PlanAct 和 PlanReAct，可以得出結(jié)論：LAA 的規(guī)劃流阻礙了其在知識(shí)推理環(huán)境和任務(wù)中的表現(xiàn)。原因在于，知識(shí)推理任務(wù)需要上下文信息來(lái)進(jìn)行推理，而規(guī)劃流是在交互之前執(zhí)行的。因此，這些生成的規(guī)劃往往會(huì)導(dǎo)致 LAA 產(chǎn)生更多幻覺(jué)。第三，在知識(shí)推理任務(wù)中，模型大小比上下文長(zhǎng)度更重要。大型模型的推理能力更強(qiáng)，因此表現(xiàn)更好。

此外，OpenAI gpt-3.5 模型的卓越推理能力再次得到驗(yàn)證。研究者還觀察到 Llama2-70b 在所有開源 LLM 中表現(xiàn)最佳，這表明 Llama-2 模型未來(lái)可能會(huì)進(jìn)行微調(diào)。

在比較了 LAA 和 LLM 的總體性能之后，研究者對(duì)它們?cè)谌蝿?wù)復(fù)雜度方面的性能進(jìn)行了更詳細(xì)的研究，結(jié)果如下圖所示：