#AIGC創(chuàng)新先鋒者征文大賽#AI Agent要如何修煉，才能真正落地？原創(chuàng)

發(fā)布于 2024-9-27 17:24

瀏覽

0收藏

【本文正在參與 AI.x社區(qū)AIGC創(chuàng)新先鋒者征文大賽】(http://m.ekrvqnd.cn/aigc/2223.html)

在AI技術(shù)日新月異的當(dāng)下，智能體（Agent）技術(shù)正迅速崛起，成為AI領(lǐng)域的一大熱點(diǎn)。Agent技術(shù)在各行業(yè)應(yīng)用場景中表現(xiàn)出巨大潛力，然而伴隨著機(jī)遇的同時(shí)，Agent技術(shù)的發(fā)展以及應(yīng)用落地也面臨著諸多挑戰(zhàn)。

在近期落幕的WOT全球技術(shù)創(chuàng)新大會(huì)上，九章云極DataCanvas的資深算法工程師薛磊，聚焦于Agent的構(gòu)建與落地，從理論框架到實(shí)踐案例，分享了他在Agent領(lǐng)域的洞見和經(jīng)驗(yàn)，探討了Agent技術(shù)在當(dāng)今人工智能生態(tài)中的定位與價(jià)值。

1.概述：AI Agent是如何興起的

首先就AI Agent是什么，薛磊做了簡要概述。

就定義來說，Agent一詞起源于拉丁語中的"Agere"，意思是“to do”。在現(xiàn)代人工智能領(lǐng)域，Agent被定義為能夠自主理解、規(guī)劃決策、執(zhí)行復(fù)雜任務(wù)的智能體。就組成來說，Agent通常由大型語言模型（LLM）加上規(guī)劃、記憶、工具調(diào)用和執(zhí)行能力組成。某種程度上，兩者可以類比為人類的大腦和雙手。

在大模型時(shí)代，Agent技術(shù)得到了顯著的發(fā)展和應(yīng)用。一方面，大模型相當(dāng)于Agent的“大腦”，提供了處理復(fù)雜任務(wù)所需的智能和知識(shí)。另一方面，大模型的興起降低了使用AI Agent的門檻，使得更多的人和應(yīng)用能夠利用這些技術(shù)。

那么，Agent是如何工作的呢？簡單來說，Agent的整體框架由三個(gè)關(guān)鍵部分組成：大腦、感知、行動(dòng)。

大腦：由大型語言模型組成，負(fù)責(zé)存儲(chǔ)知識(shí)、記憶，并進(jìn)行信息處理和決策。
感知：感知模塊擴(kuò)展了Agent的感知空間，使其能夠處理文本、聽覺和視覺等多種模態(tài)的輸入。
行動(dòng)：行動(dòng)模塊接收大腦模塊發(fā)送的行動(dòng)序列，并執(zhí)行與環(huán)境交互的行動(dòng)。

這些組成部分使Agent能夠像人類一樣進(jìn)行思考、感知和行動(dòng)。在薛磊看來，雖然通用大模型在許多領(lǐng)域都表現(xiàn)出色，但Agent可以針對(duì)特定的垂直領(lǐng)域進(jìn)行優(yōu)化和擴(kuò)展。作為一個(gè)模塊，Agent可以作為輔助工具，被集成到更大的系統(tǒng)中，輔助不同行業(yè)、職業(yè)以及個(gè)人，其設(shè)計(jì)和功能使其能夠在不同的應(yīng)用場景中發(fā)揮關(guān)鍵作用，同時(shí)保持靈活性和可擴(kuò)展性。

2.組成：量身定制一個(gè)框架

隨后，薛磊重點(diǎn)介紹了Agent框架。

在計(jì)算領(lǐng)域，Agent框架指導(dǎo)智能體如何感知環(huán)境、如何做出決策、如何采取行動(dòng)。換句話說，它提供了一種組織智能體行為、決策及交互的方法，使它們能夠適應(yīng)環(huán)境變化并高效達(dá)成目標(biāo)。

當(dāng)前有許多主流的Agent流程框架中，而ReAct是應(yīng)用比較廣的。ReAct為什么受歡迎呢？

究其原因：一是提升交互質(zhì)量。ReAct允許模型在執(zhí)行任務(wù)的過程中生成推理軌跡，這意味著模型可以邊思考邊行動(dòng)，同時(shí)記錄下自己的思考過程；二是適應(yīng)復(fù)雜任務(wù)。ReAct框架下的模型可以在執(zhí)行過程中動(dòng)態(tài)調(diào)整策略，這使得它們能夠處理那些多步驟、具有不確定性和動(dòng)態(tài)變化的任務(wù)；三是通過將推理和行動(dòng)相結(jié)合，ReAct增強(qiáng)了模型的決策能力。模型不僅依賴于靜態(tài)的預(yù)先訓(xùn)練知識(shí)，還可以根據(jù)新信息進(jìn)行實(shí)時(shí)學(xué)習(xí)和調(diào)整，這在處理復(fù)雜多變的場景時(shí)尤為重要。

薛磊提到，九章云極自研Agent框架有五個(gè)核心部分，分別是Session、Agent、Action、Tool、Planner。

#AIGC創(chuàng)新先鋒者征文大賽#AI Agent要如何修煉，才能真正落地？-AI.x社區(qū)
Session：代表用戶與Agent的交互會(huì)話，作為思維的主線，記錄用戶與Agent交互的整個(gè)生命周期。

Agent：作為交互的核心，負(fù)責(zé)理解和響應(yīng)用戶的需求，觸發(fā)相應(yīng)的計(jì)劃和行動(dòng)。
Planner：負(fù)責(zé)制定計(jì)劃和策略，根據(jù)用戶的需求和上下文信息，規(guī)劃Agent的行動(dòng)步驟。
Action：涉及到Agent執(zhí)行具體動(dòng)作的能力，包括調(diào)用內(nèi)部或外部的工具來完成任務(wù)。
Tool：工具或資源，供Agent在執(zhí)行任務(wù)時(shí)調(diào)用，如搜索引擎、數(shù)據(jù)庫或其他應(yīng)用程序。
關(guān)于自研框架的交互過程，薛磊做了進(jìn)一步說明。

當(dāng)用戶通過對(duì)話或其他方式向Agent提出需求或問題時(shí)，Agent通過Prompt工程中的意圖識(shí)別技術(shù)，理解用戶的意圖。Planner再根據(jù)用戶的意圖和上下文信息，制定行動(dòng)計(jì)劃。之后Agent根據(jù)計(jì)劃，通過Action調(diào)用相應(yīng)的Tool執(zhí)行任務(wù)。執(zhí)行完畢后，Agent將結(jié)果反饋給用戶，如果需要，還可能進(jìn)行多輪對(duì)話以優(yōu)化結(jié)果。

而在整個(gè)交互過程中，Alaya-Session會(huì)充當(dāng)這個(gè)過程的記錄者。它記錄用戶與Agent的每一次會(huì)話，包括用戶的請(qǐng)求、Agent的響應(yīng)以及交互過程中的所有細(xì)節(jié)。一來它記錄用戶的交互歷史，這種記憶功能使得Agent能夠在后續(xù)的交互中利用歷史數(shù)據(jù)，提供更加個(gè)性化和連貫的服務(wù)；二來通過結(jié)合歷史上下文和當(dāng)前會(huì)話的信息，Alaya-Session可以幫助Agent更準(zhǔn)確地把握用戶意圖。

#AIGC創(chuàng)新先鋒者征文大賽#AI Agent要如何修煉，才能真正落地？-AI.x社區(qū)

3.構(gòu)建：打造出色的Agent系統(tǒng)

不過，薛磊也提到，在開發(fā)Agent框架的過程中，團(tuán)隊(duì)使用了多種開源工具來輔助構(gòu)建和測試他們的系統(tǒng)。其中ChatGPT4作為優(yōu)秀的工具，在過程中發(fā)揮了重要作用，但隨著開發(fā)和測試的深入，使用ChatGPT4等工具的費(fèi)用、調(diào)用次數(shù)或其他限制條件開始成為問題。

當(dāng)無法繼續(xù)依賴這些工具時(shí)，記錄會(huì)話過程中的所有信息就變得尤為重要。記錄的數(shù)據(jù)將用于對(duì)模型進(jìn)行后期微調(diào)，以改進(jìn)其性能和適應(yīng)性。這可能涉及到調(diào)整模型以更好地適應(yīng)特定的任務(wù)或優(yōu)化其在特定場景下的表現(xiàn)。同時(shí)，通過分析記錄的數(shù)據(jù)，開發(fā)者可以對(duì)框架進(jìn)行初步選擇或調(diào)整，以確定哪些組件或策略最有效，哪些需要改進(jìn)。

薛磊表示，在構(gòu)建和優(yōu)化Agent框架的過程中，團(tuán)隊(duì)從以下幾個(gè)關(guān)鍵方面進(jìn)行了處理，以確保系統(tǒng)的高效性和智能性。

其一，基座大模型。 基座大模型相當(dāng)于Agent的“大腦”，決定著任務(wù)的起因、結(jié)果和成功率。它在處理垂直領(lǐng)域的專有名詞時(shí)尤為重要。例如，在電信行業(yè)中，套餐的名稱和價(jià)格是特定領(lǐng)域的術(shù)語，這些在通用大模型中可能不被理解。因此，需要對(duì)基座大模型進(jìn)行特定領(lǐng)域的訓(xùn)練和優(yōu)化。

其二，知識(shí)庫。 知識(shí)庫是Agent的“記憶”，包括永久記憶和瞬間記憶。它通過向量檢索、系數(shù)檢索、混合檢索和狀態(tài)記憶等技術(shù)，存儲(chǔ)和檢索歷史會(huì)話和事件信息，為Agent提供決策支持。

其三，Prompt工程。 Prompt工程是Agent交互的核心。它不僅僅是為大模型設(shè)定角色和任務(wù)，更是一種新式的編程方式。通過精心設(shè)計(jì)的提示詞，可以引導(dǎo)大模型理解和執(zhí)行復(fù)雜的任務(wù)。比如，任務(wù)拆解是Planner的基礎(chǔ)能力，而這些都需要提示詞的方向的擴(kuò)展。

其四，Action/工具。 Action主要涉及到調(diào)用工具和接口，執(zhí)行具體的任務(wù)。通過統(tǒng)一的形式和方法調(diào)用，簡化了Action的執(zhí)行過程，使其更加高效。

#AIGC創(chuàng)新先鋒者征文大賽#AI Agent要如何修煉，才能真正落地？-AI.x社區(qū)
通過這些方面的綜合處理和協(xié)同工作，九章云極自研的Agent框架能夠?qū)崿F(xiàn)高效、準(zhǔn)確的交互和任務(wù)執(zhí)行，同時(shí)保持靈活性和擴(kuò)展性。這些組件共同構(gòu)成了一個(gè)完整的AI Agent系統(tǒng)，使其能夠在各種復(fù)雜應(yīng)用場景中提供服務(wù)。

4.落地：三大應(yīng)用挑戰(zhàn)與解決方案

雖然擁有出色的Agent框架是一個(gè)很好的開始，但要實(shí)現(xiàn)Agent應(yīng)用的真正落地，還需要面對(duì)一系列的挑戰(zhàn)。最初，人們普遍對(duì)Agent的能力抱有很高的期望。但在開發(fā)實(shí)踐中，常常會(huì)發(fā)現(xiàn)，Agent在運(yùn)行看似正常的情況下，卻未能如預(yù)期那樣執(zhí)行任務(wù)。

針對(duì)這種情況，薛磊總結(jié)了九章云極在推進(jìn)Agent應(yīng)用落地過程中所面臨的三大挑戰(zhàn)，并分享了相應(yīng)的解決方案。

挑戰(zhàn)一：基座大模型的不可控性

未經(jīng)專業(yè)訓(xùn)練和微調(diào)的大型基礎(chǔ)模型在執(zhí)行復(fù)雜操作指令時(shí)表現(xiàn)出較弱的理解和規(guī)劃能力。另外，不可忽視的是成本高和部署難的問題。

解決方案

垂直大模型：訓(xùn)練專注于特定領(lǐng)域的大型模型，以提高對(duì)特定任務(wù)的理解和執(zhí)行能力。
大模型+小模型：結(jié)合使用大型基礎(chǔ)模型與小型專業(yè)模型，利用小型模型處理特定任務(wù)，而大型模型負(fù)責(zé)分發(fā)和協(xié)調(diào)。

挑戰(zhàn)二：不可避免的大模型幻覺現(xiàn)象

大模型在執(zhí)行任務(wù)時(shí)可能會(huì)出現(xiàn)幻覺問題，特別是在缺乏先驗(yàn)知識(shí)和訓(xùn)練數(shù)據(jù)的情況下，常常會(huì)導(dǎo)致任務(wù)拆解和計(jì)劃制定過程中出錯(cuò)。

解決方案

模型微調(diào)：通過對(duì)模型進(jìn)行特定領(lǐng)域的訓(xùn)練，使其專注于某個(gè)專業(yè)領(lǐng)域，這樣它能在該領(lǐng)域內(nèi)達(dá)到較高的準(zhǔn)確度。
Prompt工程：通過精心設(shè)計(jì)的提示來引導(dǎo)模型的輸出，確保其按照預(yù)期的方式回答問題
DingDb多模數(shù)據(jù)庫：這是九章云極自研的多模向量庫，它能夠同時(shí)處理結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)，實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一管理和查詢。使用多模態(tài)數(shù)據(jù)庫來提供輔助的記憶功能，幫助模型更好地理解和執(zhí)行任務(wù)。

挑戰(zhàn)三：效率低下，交互緩慢

大模型推理速度不快，Agent通常需要多次調(diào)用大模型來完成任務(wù)，導(dǎo)致整體體驗(yàn)緩慢，用戶等待時(shí)間長。還有，任務(wù)識(shí)別調(diào)用出現(xiàn)問題時(shí)，可能會(huì)導(dǎo)致多次問答的循環(huán)發(fā)生，導(dǎo)致交互的遲滯和用戶的困惑。

解決方案

模型加速：即通過優(yōu)化方法減少不必要的輸入，從而降低模型的計(jì)算負(fù)擔(dān)。
容錯(cuò)自查：即利用較小規(guī)模的模型對(duì)大型模型的結(jié)果進(jìn)行復(fù)查驗(yàn)證，以提高準(zhǔn)確性和效率。

5.案例：“輔助辦公AI PPT”是如何運(yùn)作的

隨后，薛磊簡單分享了三個(gè)Agent應(yīng)用。

第一，會(huì)議預(yù)定。會(huì)議預(yù)定Agent遵循標(biāo)準(zhǔn)化的工作流程。用戶與Agent對(duì)話時(shí)，Agent會(huì)提取關(guān)鍵詞，并檢查是否包含會(huì)議參與者、時(shí)間及地點(diǎn)等必要信息。如果信息完整，Agent會(huì)調(diào)用預(yù)定接口完成會(huì)議安排；若信息不全，則繼續(xù)詢問直到獲取所有必需信息。

#AIGC創(chuàng)新先鋒者征文大賽#AI Agent要如何修煉，才能真正落地？-AI.x社區(qū)
第二，智能信息收集。智能信息收集Agent主要負(fù)責(zé)從對(duì)話中提取關(guān)鍵信息（如姓名、地點(diǎn)等），并通過設(shè)置提示信息、信息驗(yàn)證和反饋機(jī)制來確保數(shù)據(jù)的準(zhǔn)確性。例如，在保險(xiǎn)報(bào)案場景中，Agent會(huì)引導(dǎo)用戶提供詳細(xì)的報(bào)案信息，并對(duì)提供的信息進(jìn)行驗(yàn)證，以確保信息的有效性和完整性。

#AIGC創(chuàng)新先鋒者征文大賽#AI Agent要如何修煉，才能真正落地？-AI.x社區(qū)
第三，輔助辦公 AI PPT。此應(yīng)用幫助用戶通過對(duì)話生成PPT演示文稿。它結(jié)合了大模型的Planner功能，能夠根據(jù)用戶的需求生成PPT大綱和內(nèi)容。用戶通過對(duì)話啟動(dòng)PPT生成流程，Agent根據(jù)用戶的意圖和提供的信息（如主題、內(nèi)容等）生成PPT大綱。用戶可以上傳文檔或提供主題，系統(tǒng)會(huì)根據(jù)這些信息生成PPT內(nèi)容。

#AIGC創(chuàng)新先鋒者征文大賽#AI Agent要如何修煉，才能真正落地？-AI.x社區(qū)
薛磊介紹，AI PPT應(yīng)用流程基于大模型的Planner，Planner分為兩大類：有狀態(tài)的Planner和無狀態(tài)的Planner。與大多數(shù)在線AI PPT創(chuàng)建工具相似，九章云極目前嘗試的是有狀態(tài)的Planner，它們都有預(yù)設(shè)的流程。不過，九章云極的Planner采用了有狀態(tài)的設(shè)計(jì)，這意味著它能夠根據(jù)用戶的對(duì)話歷史做出響應(yīng)。

用戶可以通過自然語言與系統(tǒng)交流，而且這種對(duì)話是靈活的。這意味著用戶不僅可以按照既定的流程進(jìn)行，還可以隨時(shí)跳出流程，進(jìn)行閑聊或其他操作。這種靈活性得益于前端路由機(jī)制，它可以根據(jù)用戶的指令來決定是否繼續(xù)當(dāng)前的流程。

#AIGC創(chuàng)新先鋒者征文大賽#AI Agent要如何修煉，才能真正落地？-AI.x社區(qū)
通過這種方式，輔助辦公AI PPT應(yīng)用能夠更加靈活地響應(yīng)用戶需求，并有效生成高質(zhì)量的PPT文檔。

6.結(jié)語：面向未來的思考

最后，薛磊提到了他對(duì)于未來Agent發(fā)展趨勢的幾點(diǎn)思考。在他看來，以下三個(gè)方向值得關(guān)注：

其一，Multi- Agents的集成爆發(fā)。 多智能體系統(tǒng)中，這些智能體可以是不同的軟件程序、機(jī)器人、傳感器等，它們各自具備一定的智能和自主性。MAS的核心思想是通過多個(gè)智能體的協(xié)作與協(xié)調(diào)，共同完成一個(gè)復(fù)雜任務(wù)，從而實(shí)現(xiàn)單個(gè)智能體無法完成的目標(biāo)。

其二，跨平臺(tái)部署。 隨著開源生態(tài)的蓬勃發(fā)展，以及模型能力的持續(xù)提升，未來PC端和移動(dòng)端將廣泛部署更加智能、個(gè)性化且功能豐富的系統(tǒng)級(jí)Agent，為用戶提供無縫、高效的跨平臺(tái)服務(wù)體驗(yàn)。

其三，多模態(tài)能力的擴(kuò)展。 目前這一領(lǐng)域正處于快速發(fā)展階段。GPT-4o的出現(xiàn)也令人振奮。未來Agent將超越傳統(tǒng)的文本對(duì)話，通過整合動(dòng)作識(shí)別、語言理解、情感分析等多模態(tài)交互能力，并與硬件設(shè)備深度融合，實(shí)現(xiàn)更加自然、直觀且智能的交互體驗(yàn)，真正成為人們?nèi)粘Ｉ钪胁豢苫蛉钡闹悄芑锇椤?/p>

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

回復(fù)