成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Agent四大范式 | 綜述:全面理解Agent工作原理

發布于 2024-5-23 14:40
瀏覽
0收藏

什么是智能體Agent

Autonomous agents 又被稱為智能體Agent。能夠通過感知周圍環境、進行規劃以及執行動作來完成既定任務。在這些能力中,規劃尤為重要,它涉及到復雜的理解、推理和決策制定。

大語言模型出現以前,我們一般通過規則的方法,或者強化學習的方法來實現。但是這兩種方法各有弊端:

  • 規則的方法是指把復雜的自然語言問題轉化為規則符號,往往需要行業專家的介入,缺乏容錯能力,小錯誤可能導致整個系統的失敗。
  • 而強化學習一般是構建策略網絡或獎勵模型,但是一般需要大量樣本進行訓練,但是收集數據往往成本很高,所以這種方法可行性不大,很難推廣開來。

近幾年,大語言模型的興起因此了智能體應用這個領域的巨大變化。大語言模型在邏輯推理、工具應用、策略規劃、指令遵循等方面都有非常不錯的表現,這使得大家開始意識到,將大語言模型作為Agent應用的核心認知系統,可以極大的提高智能體的規劃能力。

而且最近,吳恩達一直在吹Agent的風 劃重點 | 吳恩達:Agent模式將在不久的將來超過下一代模型 ,也確實,越來越多的人發現,模型訓練成本高昂,還不如用Agent的方法來實現更加智能的應用體。

Agent四大范式 | 綜述:全面理解Agent工作原理-AI.x社區圖片

這篇文章中,作者將Agent應用的能力分為五個主要類別:任務分解、多方案選擇、外部模塊輔助規劃、反思與優化、記憶增強規劃。

Agent四大范式 | 綜述:全面理解Agent工作原理-AI.x社區圖片

? 任務分解是指借助LLM將任務拆解為若干個子任務,并依次對每個子任務進行規劃。

? 多方案選擇是指大型語言模型深入“思考”,針對特定任務提出多種可能的方案。接著,利用針對性的任務搜索機制,從中挑選一個最合適的方案來實施。

? 外部模塊輔助規劃。該策略專門設計用于引入外部規劃器,以增強規劃過程的效率和計劃的可行性,同時大型語言模型主要負責將任務規范化。

? 反思與優化。這種策略著重于通過自我反思和細節完善來增強規劃能力。它激勵大型語言模型Agent應用在遭遇失敗后進行深入反思,并據此優化規劃方案。

? 記憶增強規劃。該策略通過引入一個附加的記憶組件來提升規劃能力,該組件中存儲了各種寶貴信息,包括基本常識、歷史經驗、領域專業知識等。在進行規劃時,這些信息會被調取出來,充當輔助提示,以增強規劃的效果。

這五大研究方向并非相互獨立,而是相互關聯,往往需要同時運用多種技術手段。

任務分解

在現實世界中,環境往往充滿了復雜性和變化,因此通過一次規劃來解決復雜任務往往比較困難。所以將復雜任務簡化是一個非常有效的辦法,有點類似于“分而治之”的策略(如下圖)。任務分解一般包括兩個環節:

? 將復雜任務拆解為多個子任務,稱為分解階段

? 為子任務指定規劃,這個階段被稱為子規劃階段

Agent四大范式 | 綜述:全面理解Agent工作原理-AI.x社區圖片

目前,一般有兩種組合方式:

? 1.先分解后規劃(Decomposition-First Methods)

? 2.邊分解邊規劃(Interleaved Decomposition Methods)

先分解后規劃(Decomposition-First Methods)

先分解后規劃策略是先把任務拆解為子任務,然后再為每個子任務指定子規劃。包括 HuggingGPT、Plan-and-Solve、ProgPrompt等典型方法都是用的這種方法進行規劃。

? HuggingGPT整合Huggingface Hub的多種多模態模型,打造出一個能夠應對多模態任務的智能代理。該代理擅長處理如圖像生成、分類、物體識別、視頻注釋、語音轉文本等任務。LLM在此過程中充當指揮官,負責解析人類輸入的任務、挑選合適的模型并產出最終答復。最為關鍵的初階段任務拆解中,HuggingGPT明確指導LLM將接到的任務細化為一系列子任務,并明確任務間的依賴性。

? Plan-and-Solve 改進了Few Shot COT方法,將其原始的“讓我們一步步來思考”轉變為“首先制定計劃”和“執行計劃”的兩步提示指令。這種COT方法在數學、常識及符號推理方面均有所提升。

? ProgPrompt 則將自然語言描述的任務轉譯為編程問題,通過代碼定義代理的動作空間和環境中的對象,每個動作都明確為一個函數,每個對象則作為一個變量。這樣,任務規劃便自然轉化為生成函數的過程。執行任務時,代理會先創建一個以函數調用來體現的計劃,隨后逐步實施。

邊分解邊規劃(Interleaved Decomposition Methods)

邊分解邊規劃方法是指任務分解和子任務規劃交錯進行。包括思維鏈、ReAct、PAL、PoT等方法都是用的這種策略。

? CoT展示了LLM在少樣本學習上的能力。它通過幾個構建的路徑引導LLM對復雜問題進行推理,利用LLM的推理能力進行任務拆解。Few Shot CoT 通過“讓我們一步步思考”這一神奇指令,激活了LLM的Few Shot COT功能。

? ReAct與CoT不同,它將推理與規劃分開處理,在推理(思考步驟)與規劃(行動步驟)之間進行切換,顯著提升了規劃能力。視覺ChatGPT采用ReAct機制,將LLM作為代理的大腦,結合一系列視覺模型,賦予代理圖像處理的能力。

? PAL 通過發揮LLM的編碼專長,優化了CoT,在推理過程中引導LLM生成代碼,并最終通過代碼解釋器(如Python)執行代碼以得到答案,有效助力代理解決數學和符號推理難題。

? PoT將推理過程徹底編程化,作者還運用了針對代碼數據訓練的CodeX模型,增強了解決數學和財務問題的效能。

利弊

先分解后規劃的優勢在于,能夠在子任務與原任務之間聯系更加緊密,所以可以降低任務遺漏和幻覺的風險。但是,由于子任務在最初就被固定下來,缺乏靈活調整的機制,任何一步的失誤都可能會導致整體的失敗。

邊分解邊規劃的策略,可以根據環境反饋來調整分解策略,增強應對錯誤得能力。但是在處理復雜任務時,如果過程太長,可能會導致LLM產生幻覺,讓后續的子任務和子規劃偏離既定目標。

此外,任務分解帶來了額外的時間和計算成本。

而且,對于一些被拆分的子任務太多的高復雜度任務而言,規劃過程會受到LLM上下文長度的限制,從而導致規劃路徑偏離原有路徑。

多方案選擇

鑒于任務本身的復雜性及大型語言模型(LLM)內在的不確定性,LLM-Agent為特定任務制定的計劃可能千差萬別。盡管LLM具備強大的推理能力,但單獨生成的計劃可能并非最優,甚至不可執行。更自然的方法是采用多計劃選擇,該過程包括兩個主要步驟:多計劃生成和最優計劃挑選。

多方案生成

多計劃生成的目的在于產生一系列計劃路徑,形成候選計劃集。常見的方法有:

? 通過在解碼過程中調整采樣策略,比如溫度參數、top-k參數,來獲取不同的多個推理路徑。

? 思維樹(ToT)包括兩種生成計劃策略,一種是與前述的采樣策略參數調整一致,另一種是指導LLm通過提示詞中的少量示例來生成不同的規劃。

? 思維圖(GoT)引入思維轉換的概念,對ToT進行了擴展,支持任意思維的聚合。

? LLM-MCTS 和RAP 則將LLM作為蒙特卡洛樹搜索(MCTS)中的啟發式策略函數,通過多次調用獲取多種可能的行動方案。

如何在多個方案中選擇最佳策略也有多種方法:

? 自洽性策略通過簡單的多數投票法來確定最受歡迎的計劃作為最佳選擇。

? 思維樹(ToT)利用其樹狀結構,支持包括廣度優先搜索(BFS)和深度優先搜索(DFS)在內的樹狀搜索算法。在決定擴展哪個節點時,ToT借助大型語言模型Agent應用(LLM)來評估多種可能的行動,并從中挑選出最佳選項。

? LLMMCTS 和RAP 也使用樹狀結構輔助進行多計劃搜索,但它們采用的是蒙特卡洛樹搜索(MCTS)算法。

外部模塊輔助規劃

盡管大型語言模型(LLMs)在推理和任務分解方面表現出色,但在面對如數學問題求解或生成合法行動等具有復雜約束的環境時,仍面臨挑戰。為應對這些挑戰,研究人員采取了將LLMs與外部規劃器相結合的多種方法,這些方法大致可分為符號規劃器和神經規劃器兩大類。

符號規劃器

? LLM+P 通過整合基于PDDL的符號規劃器,提升了LLMs的規劃效率。研究者利用LLM的語義解析和編碼能力,將問題轉化為文本語言提示,輸入至LLM。這樣,LLM便能將環境內的行為和特定任務轉化為PDDL語言格式。在獲得正式化描述后,研究者使用Fast-Downward 求解器來執行規劃。

? 在LLM+P的基礎上,LLM-DP專為動態交互環境設計,它在接收環境反饋后,將信息形式化為PDDL語言,并利用BFS 求解器來生成計劃。

? LLM+PDDL 同樣采用PDDL語言來形式化任務,并增加了手動驗證步驟,以檢查LLM生成的PDDL模型中可能的問題。在規劃過程中,研究者建議使用LLM生成的計劃作為初始啟發式解,以加快局部搜索規劃器(如LPG)的搜索速度。

? LLM+ASP [Yang et al., 2023b]將LLM描述的自然語言問題轉化為原子事實,將任務轉化為答案集編程(ASP)問題,然后使用ASP求解器CLINGO來生成計劃。

神經規劃器

神經規劃器,這類深度學習模型通過強化學習或模仿學習在收集的規劃數據上進行訓練,能夠在特定領域內實現高效的規劃。以DRRN 為例,它通過強化學習方法將規劃過程視作馬爾可夫決策過程,培養出一個策略網絡來構建深度決策模型。決策變換器(DT)則讓變換器模型能夠模仿規劃數據中的人類決策行為。

神經規劃器雖然在部分領域使用了更小的參數獲得較高的規劃效率,但是經常會遇到數據不足、泛化能力有限的情況。所以為了提高規劃能力,研究者一般吧Agent應用和輕量級神經規劃器結合的方式。

? CALM 就是這種結合的早期嘗試,它將語言模型與基于強化學習的神經規劃器結合起來。語言模型負責處理文本形式的環境信息,并基于這些信息生成一系列候選行動。隨后,DRRN策略網絡對這些候選行動進行重新排序,以選出最優的行動方案。

? SwiftSage 鑒了認知心理學中的雙系統理論,將規劃過程劃分為慢速思考和快速思考兩個部分。慢速思考負責復雜的推理和理性決策,而快速思考則依賴于長期訓練形成的直覺反應。研究者們利用通過模仿學習訓練的DT模型作為快速思考模型,以快速生成計劃。當計劃執行中出現錯誤,暗示問題較為復雜時,系統會切換到慢速思考模式,此時LLM會基于當前狀態進行深入的推理和規劃。這種快速與慢速思考相結合的方法,在提高效率方面顯示出了顯著的效果。

反思與優化(Reflection and Refinement)

反思和優化是規劃過程中不可或缺的兩大支柱,在提升模型Agent應用的容錯和糾錯能力上有很大作用。由于大語言模型的幻覺特點,已經在處理復雜問題時的局限性,Agent應用在做任務規劃時,往往會陷入思維旋渦。通過回顧和總結經驗,可以使得Agent在后續的嘗試中糾正錯誤,打破循環。

? Self-refine:是通過迭代生成、反饋、精煉,使得大語言模型每次生成計劃后,都能提供反饋,根據反饋進行調整。

? Reflexion:則是在ReAct的基礎上增加評估器,用來評估行動軌跡,在發現錯誤后進行自我反思,從而糾正錯誤。

? CRITIC:則是利用外部工具,比如知識庫、搜索引擎來驗證LLM生成的行動,然后借助外部知識進行自我糾錯,減少事實性錯誤。??Agent四大范式 | CRITIC:吳恩達力推Agent設計范式??

? InteRecAgent 采用了ReChain機制來進行自我糾錯,LLM在此過程中評估交互推薦代理生成的響應和工具使用計劃,總結錯誤反饋,并決定是否需要重新開始規劃。

? LEMA 則先收集錯誤的規劃樣本,隨后利用更高級的GPT-4進行修正,這些經過修正的樣本用于微調LLM-Agent,顯著提高了LLaMA模型在不同規模上的性能。

記憶增強規劃

大語言模型Agent應用在記憶方面主要有兩種方法來增強規劃能力:基于檢索增強生成(RAG)的方法和基于 嵌入式記憶(Embodied Memory,這里我翻譯成嵌入式記憶可能更合理,有更好的翻譯也歡迎大家指正。)。

RAG記憶

RAG現在也是很火的一種LLM應用技術框架,是指通過信息檢索的方式輔助文本生成,可以為LLM提供最新的知識更新。存儲的內容形式多種多樣,包括文本、表格、知識圖譜等。

這里針對RAG不多講,下次爭取找幾篇RAG的綜述跟大家一起讀一讀。

嵌入式記憶

所謂嵌入式記憶,是相對RAG將知識存儲在外部系統而言,嵌入式記憶是將知識通過Finetune的方式把知識存儲在大模型里面,嵌入到模型參數里面。從頭開始訓練一個模型成本巨大,所以一般采用PEFT的技術來進行微調,比如:LoRA、QLoRA、P-tuning等。

CALM通過訓練一個GPT2模型,可以完成一些規劃任務,并且還有比較好的泛化能力。AgentTuning 將不同任務的規劃軌跡整合成對話形式,對LLaMA模型進行微調,顯著提升了在未見規劃任務上的性能表現。

Agent應用的局限性

雖然在吳恩達最近的觀點中,Agent應用有潛力成為未來AGI的通用技術路線,但是現有的Agent應用還有很多問題和局限性。

? 幻覺現象。在規劃過程中,LLM常常出現幻覺,導致規劃不合理,對任務提示不忠實,或無法遵循復雜指令。比如,計劃中可能包含了與環境中不存在的物品進行交互的行動。雖然通過精心設計的提示可以緩解這些問題,但是理論上并不能完全消除幻覺帶來的問題。

? 生成計劃的可行性。基于統計學習的LLM通過海量數據優化下一個詞的出現概率,與符號化人工智能相比,這種方法在遵循復雜約束時存在挑戰,特別是在處理LLM訓練期間不常遇到的約束。因此,LLM生成的計劃可能在沒有充分考慮先決條件的情況下缺乏可行性。將LLM與符號化規劃模型結合,而不改變LLM本身,是一個充滿希望的研究方向。

? 生成計劃的效率。高效地生成計劃是規劃中的關鍵議題。然而,現有的LLM代理在規劃時,往往只基于LLM輸出的生成計劃進行貪婪選擇,忽略了計劃的效率。未來的研究可能需要引入額外的效率評估模塊,與LLM協同工作,以制定更高效的計劃。

? 多模態環境反饋的處理。LLM最初旨在處理文本輸入,但現實世界的環境反饋往往是多模態的,包括圖像、音頻等,這些內容在自然語言中難以表達。因此,LLM代理在處理這類情境時存在局限。未來的研究可能需要考慮整合多模態大型模型的發展,并重新考慮相關的規劃策略。

? 細致的評估方法。當前的基準測試主要依賴于任務的最終完成狀態,缺少對每一步的細致評估。此外,環境反饋通常是規則驅動的、過于簡化的,與現實世界情境有較大差異。一個可能的研究方向是利用像LLM這樣的高智能模型來設計更加真實的評估環境。

例如,生成代理將人類代理的日常經驗以文本形式存儲,并基于當前情境的相關性和時效性來檢索記憶。MemoryBank、TiM和RecMind等系統則利用文本編碼模型將記憶編碼成向量,并建立索引結構,以便檢索。在檢索時,當前狀態的描述作為查詢條件,用于從記憶庫中檢索記憶。不同系統在記憶更新方式上有所區別:MemGPT借鑒了計算機架構中的多級存儲概念,將LLM的上下文視為RAM,而將額外的存儲結構視作磁盤,LLM可以自主決定是否檢索歷史記憶或將當前上下文存儲起來。REMEMBER系統則采用Q值表來存儲歷史記憶,每條記錄包含環境、任務、動作和Q值,以便在檢索時根據環境和任務的相似性來生成計劃Arxiv。

通往 AGI 的神秘代碼

if like_this_article():
    do_action('點贊')
    do_action('再看')
    add_wx_friend('iamxxn886')

if like_all_arxiv_articles():
    go_to_link('https://github.com/HuggingAGI/HuggingArxiv')    star_github_repo(

Agent四大范式 | 綜述:全面理解Agent工作原理-AI.x社區

本文轉載自??大語言模型論文跟蹤??,作者:HuggingAGI 


已于2024-5-23 15:28:32修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 欧美一级黄色片 | 在线免费看黄 | 亚洲国产精品第一区二区 | 麻豆一区二区三区 | 国产精品视频一区二区三区 | 一区在线视频 | 国产在线视频一区 | 久久99精品久久久久久噜噜 | 日本a级大片 | 国产一区二区三区四区区 | 国产精品久久久久国产a级 欧美日韩国产免费 | 天天干在线播放 | 奇米影视77 | 精品成人免费视频 | 国产精品久久精品 | 免费精品视频一区 | 久久久这里都是精品 | 麻豆久久| 精品视频一区二区三区四区 | 国产一级在线 | 久久久.com| 欧美久久精品一级c片 | 亚洲精品第一 | 成年人视频在线免费观看 | 99一区二区| 在线观看中文字幕 | 国产精品毛片 | 欧美在线不卡 | 激情久久av一区av二区av三区 | 欧美在线 | 精品国产乱码久久久久久丨区2区 | 精品久久国产老人久久综合 | www.黄色网| 久久精品综合网 | 羞羞的视频免费在线观看 | 免费av观看| 一区免费视频 | 国产精品日日做人人爱 | 成人久久18免费网站麻豆 | 国产精品嫩草影院精东 | av网站免费在线观看 |