成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

極簡設(shè)計鑄就卓越性能:Alita 通用智能體的進(jìn)化思考

人工智能
在AI領(lǐng)域,通用智能體的發(fā)展正面臨覆蓋不全、創(chuàng)造力受限等難題。Alita 以其 “極簡預(yù)定義、極大自我進(jìn)化” 的創(chuàng)新設(shè)計理念,在GAIA 基準(zhǔn)測試中 75.15% pass@1 以及 87.27% pass@3 的性能表現(xiàn)讓我印象深刻。

大家好,我是肆〇柒。今天,我要和大家聊一篇極具創(chuàng)新性的論文 ——《ALITA: GENERALIST AGENT ENABLING SCALABLE AGENTIC REASONING WITH MINIMAL PREDEFINITION AND MAXIMAL SELF-EVOLUTION》。該論文由普林斯頓大學(xué)、清華大學(xué)、上海交通大學(xué)等多所頂尖高校等機構(gòu)提出。這些研究機構(gòu)在人工智能領(lǐng)域都具有深厚的技術(shù)積累和廣泛的研究影響力,它們的攜手合作為我們帶來了 Alita 這一突破性的通用智能體項目。

在AI領(lǐng)域,大型語言模型(LLM)經(jīng)歷了從單純文本生成到能夠自主規(guī)劃和執(zhí)行復(fù)雜任務(wù)的智能體的深刻演變。這些智能體,如旅行規(guī)劃助手、Computer Use 智能體以及多步驟研究任務(wù)執(zhí)行者等,能夠以極小的人工監(jiān)督為用戶提供更智能的服務(wù)。它們的出現(xiàn),標(biāo)志著 AI 技術(shù)在處理復(fù)雜、開放性任務(wù)方面取得了重大突破,為各行各業(yè)帶來了前所未有的機遇。

隨著應(yīng)用場景的不斷拓展,人們逐漸發(fā)現(xiàn),現(xiàn)有的通用智能體在應(yīng)對多領(lǐng)域任務(wù)時存在諸多局限性。例如,它們往往依賴于大規(guī)模手動預(yù)定義的工具和工作流,這不僅導(dǎo)致系統(tǒng)復(fù)雜且難以維護(hù),還限制了智能體的靈活性和泛化能力。此外,不同工具之間的接口不兼容問題也使得智能體難以無縫集成各種功能,增加了系統(tǒng)的不穩(wěn)定性。這些問題迫切需要一種全新的設(shè)計范式來突破瓶頸,實現(xiàn)更高效、更智能的任務(wù)處理。

正所謂 “簡潔是終極的復(fù)雜”。Alita 作為一種新型通用智能體,秉持極簡預(yù)定義和極大自我進(jìn)化的設(shè)計原則,為通用智能體領(lǐng)域帶來了一場深刻思考。它摒棄了傳統(tǒng)智能體對繁瑣預(yù)定義工具和工作流的依賴,轉(zhuǎn)而通過自主學(xué)習(xí)和動態(tài)能力擴展,在保持設(shè)計簡潔性的同時,實現(xiàn)了強大的任務(wù)處理能力和廣泛的適用性。Alita 的提出,不僅挑戰(zhàn)了現(xiàn)有的通用智能體設(shè)計范式,還為大家?guī)韱l(fā),也許一個更加高效、靈活和智能的通用智能體時代即將到來。從下圖可以看到,Alita 在性能上就體現(xiàn)了其優(yōu)勢,與 manus.ai 和 OpenAI DeepResearch 相比,有出色的表現(xiàn)。

圖片

Alita 與 Manus.ai 以及 OpenAI Deep research 性能的對比

Alita 的設(shè)計理念:極簡預(yù)定義與極大自我進(jìn)化

摒棄繁雜:極簡預(yù)定義,智能體架構(gòu)的 “斷舍離”

Alita 的設(shè)計嚴(yán)格遵循 “極簡預(yù)定義” 原則,僅配備一個用于直接問題解決的核心組件 —— 網(wǎng)絡(luò)智能體。這種高度精簡的設(shè)計思路與傳統(tǒng)智能體形成鮮明對比,后者往往依賴大量手工設(shè)計的工具和復(fù)雜工作流,不僅開發(fā)成本高昂,還因預(yù)定義工具的局限性難以適應(yīng)新任務(wù)和環(huán)境變化。而 Alita 通過大幅減少預(yù)定義組件,有效降低了系統(tǒng)復(fù)雜性和維護(hù)成本,同時顯著增強了其泛化能力,使其能夠輕松應(yīng)對各種任務(wù)場景,無需為每個特定任務(wù)單獨定制工具和工作流。從 Figure 2 可以直觀地看到,傳統(tǒng)通用智能體依賴大規(guī)模手動工程構(gòu)建預(yù)定義工具和工作流,而 Alita 剝離了這些繁瑣的預(yù)定義部分,以簡潔架構(gòu)實現(xiàn)更廣泛的任務(wù)適應(yīng)性。

擁抱進(jìn)化:極大自我進(jìn)化,智能體動態(tài)成長密碼

Alita 借助通用組件自主構(gòu)建、優(yōu)化和復(fù)用外部能力,實現(xiàn)可擴展的智能體推理,其核心在于通過從開源生成任務(wù)相關(guān)的模型上下文協(xié)議(MCP)。當(dāng)面臨新任務(wù)時,Alita 能夠根據(jù)任務(wù)需求,動態(tài)地從開源資源中獲取相關(guān)信息和工具,并將其轉(zhuǎn)化為 MCP。這些 MCP 如同智能體的能力擴展模塊,可被即時調(diào)用和執(zhí)行,使 Alita 能夠以靈活多變的方式應(yīng)對各種復(fù)雜任務(wù)。從 Figure 2 可以看到,與傳統(tǒng)智能體固定工具和工作流的模式不同,Alita 通過 MCP 創(chuàng)建實現(xiàn)動態(tài)能力擴展,打破傳統(tǒng)智能體能力固定化的局限,賦予了 Alita 持續(xù)進(jìn)化和自我提升的能力,使其在不斷變化的任務(wù)環(huán)境中始終保持競爭力和適應(yīng)性。這一機制讓 Alita 能夠在任務(wù)執(zhí)行過程中,根據(jù)實際情況靈活調(diào)整和擴展自身能力,實現(xiàn)真正的自我進(jìn)化。

平衡之道:于極簡與進(jìn)化間,智能體設(shè)計的黃金分割

Alita 的設(shè)計理念并非簡單地追求簡潔或進(jìn)化,而是在兩者之間找到了獨特的平衡。極簡預(yù)定義為智能體提供了穩(wěn)定的基礎(chǔ)架構(gòu),確保系統(tǒng)高效運行和易于維護(hù);而極大自我進(jìn)化則使智能體能夠突破預(yù)定義的限制,動態(tài)適應(yīng)各種復(fù)雜任務(wù)和環(huán)境變化。這種平衡使得 Alita 在保持簡潔性的同時,具備了強大的任務(wù)處理能力和廣泛的適用性。從下圖的對比中可以清晰地看到,傳統(tǒng)智能體由于過度依賴預(yù)定義工具和工作流,導(dǎo)致其在面對新任務(wù)時靈活性不足。

圖片

傳統(tǒng)通用智能體與 Alita 的比較。傳統(tǒng)通用智能體嚴(yán)重依賴大規(guī)模人工工程,而 Alita 堅持最小預(yù)定義和最大自我進(jìn)化

而 Alita 通過極簡設(shè)計與自我進(jìn)化的結(jié)合,實現(xiàn)了敏捷的任務(wù)適應(yīng)和高效的問題解決。這種平衡的設(shè)計理念,不僅提升了智能體的性能和適應(yīng)性,還為通用智能體領(lǐng)域的發(fā)展提供了一種全新的思路和方向。

Alita 的架構(gòu)與方法:全方位技術(shù)解讀

架構(gòu)概覽:管理智能體與網(wǎng)絡(luò)智能體的極簡設(shè)計

Alita的框架由管理智能體和網(wǎng)絡(luò)智能體構(gòu)成,二者分工明確又緊密協(xié)作。管理智能體作為中央?yún)f(xié)調(diào)者,負(fù)責(zé)任務(wù)的整體規(guī)劃和資源調(diào)配;網(wǎng)絡(luò)智能體則專注于外部信息的檢索和資源獲取。在任務(wù)執(zhí)行過程中,管理智能體根據(jù)任務(wù)需求調(diào)動網(wǎng)絡(luò)智能體,網(wǎng)絡(luò)智能體從外部獲取必要的信息和工具,然后管理智能體對這些信息和工具進(jìn)行整合和利用,最終完成任務(wù)目標(biāo)。這種架構(gòu)設(shè)計既保證了系統(tǒng)的高效運行,又使得各個組件能夠?qū)W⒂谧陨砩瞄L的功能,提升了整體性能。下圖直觀地展示了 Alita 的架構(gòu),讓我們能清晰地看到其各部分是如何協(xié)同工作的。

圖片

Alita 的架構(gòu)。在收到問題后,Manager Agent 會啟動一個迭代的 CodeReAct 循環(huán)來分析任務(wù)、識別功能缺口,并觸發(fā) MCP 頭腦風(fēng)暴進(jìn)行綜合創(chuàng)造。該系統(tǒng)動態(tài)地執(zhí)行開源搜索、腳本生成以及虛擬環(huán)境執(zhí)行,以構(gòu)建與任務(wù)相關(guān)的功能。有用的被封裝成可復(fù)用的 MCP 并存儲在 MCP 沙盒中。在整個過程中,Manager Agent 與 Web Agent 合作以檢索外部信息,并持續(xù)整合中間結(jié)果,直到產(chǎn)生最終輸出。這一過程使得 Alita 能夠在不依賴大量手工制作、復(fù)雜工具和工作流程的情況下自我進(jìn)化

執(zhí)行流程:任務(wù)處理的標(biāo)準(zhǔn)化

任務(wù)執(zhí)行流程始于構(gòu)建包含原始查詢的增強型提示。管理智能體隨后啟動多步推理過程,涉及查詢外部源、規(guī)劃和合成新工具、在隔離環(huán)境執(zhí)行等步驟。成功生成工具后,相應(yīng)的腳本會被轉(zhuǎn)化為MCP并存儲起來,以便未來復(fù)用。當(dāng)接收到任務(wù)時,管理智能體首先對任務(wù)進(jìn)行初步分析,確定所需的信息和工具類型。然后,網(wǎng)絡(luò)智能體根據(jù)指示從外部資源中檢索相關(guān)信息,如開源代碼庫、文檔等。接著,管理智能體利用檢索到的信息生成新的工具或調(diào)整現(xiàn)有工具,以滿足任務(wù)需求,并在一個安全的隔離環(huán)境中執(zhí)行這些工具。執(zhí)行結(jié)果經(jīng)過驗證后,相關(guān)的腳本和環(huán)境配置會被封裝成MCP,存儲在內(nèi)部工具注冊表中。這一流程確保了任務(wù)執(zhí)行的高效性和安全性,同時通過MCP的生成和存儲,實現(xiàn)了知識和能力的積累與復(fù)用。

管理智能體:智能體中的 “智慧大腦”

管理智能體在接收任務(wù)提示后,首先調(diào)用MCP群思來評估智能體當(dāng)前的能力是否足以完成任務(wù)。若發(fā)現(xiàn)能力不足,則確定所需補充的具體工具類型和功能。隨后,管理智能體將任務(wù)分解為多個子任務(wù),并將這些子任務(wù)分配給網(wǎng)絡(luò)智能體或生成所需的外部工具來完成。在必要時,管理智能體利用網(wǎng)絡(luò)智能體檢索到的信息生成新的工具及其對應(yīng)的環(huán)境配置指令。收集所有中間結(jié)果后,管理智能體進(jìn)行最終的結(jié)果匯總和響應(yīng)生成,將復(fù)雜的信息整合為簡潔明了的答案呈現(xiàn)給用戶。

管理智能體所使用的工具包簡潔而強大,包括MCP群思、腳本生成工具和代碼運行工具。MCP群思用于識別能力差距和規(guī)劃工具生成;腳本生成工具根據(jù)任務(wù)需求創(chuàng)建定制化的工具;代碼運行工具則在隔離環(huán)境中驗證和執(zhí)行腳本,確保生成的工具安全可靠。這些工具根據(jù)任務(wù)的動態(tài)需求智能調(diào)用,相互協(xié)作,共同推動任務(wù)的順利進(jìn)行。

網(wǎng)絡(luò)智能體:智能體外部信息的 “抓手”

網(wǎng)絡(luò)智能體在內(nèi)部知識不足時發(fā)揮關(guān)鍵作用,通過檢索外部信息來補充智能體的知識和能力。尤其在需要獲取領(lǐng)域特定代碼或文檔的任務(wù)中,網(wǎng)絡(luò)智能體能夠快速定位和提取相關(guān)信息,為任務(wù)解決提供有力支持。

網(wǎng)絡(luò)智能體配備了簡單文本瀏覽器和頁面級控制工具,如訪問工具、頁面上翻工具和頁面下翻工具,以便在網(wǎng)頁中導(dǎo)航和檢索信息。此外,它還運用谷歌搜索工具和github搜索引擎工具,實現(xiàn)對開放網(wǎng)絡(luò)和代碼資源的高效搜索。這種設(shè)計使網(wǎng)絡(luò)智能體能夠?qū)崟r獲取代碼片段和上下文信息,為工具規(guī)劃和生成提供豐富的素材,確保智能體在面對復(fù)雜任務(wù)時能夠迅速獲取必要的資源和知識。

MCP 創(chuàng)建組件:智能體的 “創(chuàng)意工廠”

MCP群思通過提供任務(wù)和框架描述,對智能體的能力進(jìn)行初步評估。當(dāng)發(fā)現(xiàn)框架能力不足以完成任務(wù)時,它為工具生成提供具體參考,指導(dǎo)后續(xù)的任務(wù)規(guī)劃和工具選擇。這就好比在開始一項工程前,先進(jìn)行詳細(xì)的勘察和評估,確定所需的資源和設(shè)備類型,為后續(xù)施工打下堅實基礎(chǔ)。

腳本生成工具根據(jù)子任務(wù)描述、代碼構(gòu)建建議以及網(wǎng)絡(luò)智能體獲取的GitHub鏈接等信息生成外部工具。它還生成環(huán)境腳本和清理腳本,確保生成的腳本具有有效性、獨立性和可執(zhí)行性。環(huán)境腳本負(fù)責(zé)搭建工具運行所需的環(huán)境,清理腳本則在任務(wù)完成后清理冗余文件和環(huán)境,避免資源浪費和系統(tǒng)污染。通過這種方式,腳本生成工具為任務(wù)執(zhí)行提供了穩(wěn)定可靠的運行環(huán)境,確保工具能夠正常發(fā)揮作用。

代碼運行工具在隔離環(huán)境中驗證腳本功能。如果腳本執(zhí)行成功并產(chǎn)生預(yù)期結(jié)果,則將其注冊為可復(fù)用的MCP。這一過程不僅保證了腳本的質(zhì)量和安全性,還支持迭代細(xì)化,允許對腳本進(jìn)行錯誤檢查和性能優(yōu)化,不斷提升其表現(xiàn)。這如同在產(chǎn)品出廠前進(jìn)行嚴(yán)格的質(zhì)量檢測和優(yōu)化,確保每個交付給用戶的工具都具備高品質(zhì)和高可靠性。

環(huán)境管理模塊負(fù)責(zé)解析倉庫或腳本元數(shù)據(jù),提取依賴和設(shè)置指令,創(chuàng)建新的Conda環(huán)境并安裝依賴。它確保了不同任務(wù)之間的環(huán)境隔離,避免了不同任務(wù)間的依賴沖突,提高了系統(tǒng)的兼容性和可移植性。在環(huán)境初始化失敗時,環(huán)境管理模塊會啟動自動化恢復(fù)程序,嘗試多種備用策略,如放寬版本約束或確定功能所需的最小依賴集。如果恢復(fù)嘗試失敗,則丟棄問題工具并記錄失敗信息,以便后續(xù)離線分析和改進(jìn)。這種機制保證了系統(tǒng)的穩(wěn)定性和健壯性,使智能體能夠在復(fù)雜的任務(wù)環(huán)境中持續(xù)運行而不受影響。

對MCP創(chuàng)建關(guān)鍵技術(shù)細(xì)節(jié)的探討

精準(zhǔn)篩選 :信息篩選與工具評估

Alita 在從開源資源中獲取信息和工具時,采用了一套 sophisticated 的信息篩選和工具評估機制。它首先利用基于機器學(xué)習(xí)的文本相似度計算方法,快速從海量開源資源中篩選出與任務(wù)描述具有高度相關(guān)性的候選工具。這一過程不僅考慮了工具的功能描述和關(guān)鍵詞匹配,還結(jié)合了任務(wù)的上下文信息和歷史任務(wù)數(shù)據(jù),確保篩選出的工具在語義層面與當(dāng)前任務(wù)緊密相關(guān)。

接下來,Alita 會進(jìn)一步對候選工具進(jìn)行評估,以確定其適用性和可靠性。評估指標(biāo)包括工具的代碼質(zhì)量、社區(qū)反饋、使用頻率以及與其他工具的兼容性等。通過一個多維度的評估模型,Alita 能夠準(zhǔn)確地量化每個候選工具的優(yōu)勢和局限性,從而為后續(xù)的工具選擇提供有力依據(jù)。

流程精煉 :轉(zhuǎn)化為 MCP 的關(guān)鍵步驟

將篩選后的工具轉(zhuǎn)化為 MCP 的過程涉及多個關(guān)鍵步驟。首先,Alita 會根據(jù)任務(wù)需求和工具特性,定義一個標(biāo)準(zhǔn)化的封裝格式,確保每個 MCP 都包含清晰的接口定義和輸入輸出參數(shù)說明。這一封裝過程通過一套專門的適配器代碼實現(xiàn),能夠?qū)⒉煌瑏碓吹墓ぞ呓y(tǒng)一轉(zhuǎn)化為 Alita 可識別和調(diào)用的 MCP 格式。

然后,Alita 會自動生成與 LLM 的交互協(xié)議,定義 MCP 在任務(wù)執(zhí)行過程中的調(diào)用邏輯和數(shù)據(jù)流動方式。這一協(xié)議不僅確保了 MCP 與 Alita 其他組件之間的無縫協(xié)作,還支持動態(tài)調(diào)整和優(yōu)化,以適應(yīng)不同任務(wù)場景的需求。

最后,Alita 會對轉(zhuǎn)化后的 MCP 進(jìn)行一系列的測試和驗證,包括功能測試、性能測試和安全性測試等,確保其在實際應(yīng)用中的可靠性和穩(wěn)定性。通過這一嚴(yán)謹(jǐn)?shù)牧鞒蹋珹lita 能夠?qū)㈤_源工具高效地轉(zhuǎn)化為具有高復(fù)用性和強適應(yīng)性的 MCP,為智能體的動態(tài)能力擴展提供堅實的技術(shù)支持。

實驗評估:彰顯 Alita 卓越性能

實驗設(shè)置

基準(zhǔn)測試

GAIA基準(zhǔn)測試是評估通用AI助手能力的重要工具,包含466個基于現(xiàn)實場景的問題,涵蓋日常任務(wù)、科學(xué)推理、網(wǎng)頁瀏覽和工具使用等多個領(lǐng)域。這些問題對人類來說概念簡單,但對AI系統(tǒng)而言卻極具挑戰(zhàn)性,能夠全面測試智能體在處理多樣化任務(wù)時的性能和適應(yīng)性。

Mathvista基準(zhǔn)測試專注于評估基礎(chǔ)模型在視覺語境中的數(shù)學(xué)推理能力,涉及視覺理解、數(shù)學(xué)推理、編程等多項技能。由于資源限制,實驗中隨機選取了100個樣本進(jìn)行測試。

Pathvqa基準(zhǔn)測試是一個醫(yī)學(xué)視覺問答數(shù)據(jù)集,能夠評估智能體在視覺理解、空間推理、醫(yī)學(xué)知識搜索或整合以及自然語言處理等多個維度的能力。同樣由于資源限制,實驗中也隨機選取了100個樣本進(jìn)行測試。

基線比較

實驗中選取了多種基線進(jìn)行對比,包括Octotools、Open Deep Research-smolagents、AutoAgent、OWL、A-World和OpenAI Deep Research等。這些基線代表了當(dāng)前通用智能體領(lǐng)域的不同設(shè)計思路和技術(shù)實現(xiàn)。例如,Octotools通過標(biāo)準(zhǔn)化工具卡片封裝多種功能,賦予智能體處理多領(lǐng)域任務(wù)的強大能力;Open Deep Research則側(cè)重于自動化多步驟研究任務(wù),通過整合多樣化在線信息生成綜合性報告。通過與這些基線的比較,可以全面評估Alita的性能優(yōu)勢和創(chuàng)新之處。

實驗結(jié)果

Alita在GAIA基準(zhǔn)驗證數(shù)據(jù)集上表現(xiàn)出色,以Claude-Sonnet-4和GPT-4o為模型配置時,取得了75.15% pass@1和87.27% pass@3的最佳性能,超越了其他復(fù)雜度更高的智能體系統(tǒng)。下表展示了 Alita 和其他基線智能體系統(tǒng)在 GAIA、Mathvista 和 PathVQA 基準(zhǔn)測試中的性能比較,從中可以看到 Alita 在不同難度級別上的優(yōu)勢。

圖片

在GAIA、Mathvista和PathVQA基準(zhǔn)測試中,Alita和基線智能體系統(tǒng)的性能對比。ODR-Smolagents指的是Smolagents框架中的 Open Deep Research Agent。OpenAI-DR指的是OpenAI的Deep Research。表格展示了GAIA在不同難度級別上的準(zhǔn)確率,以及在Mathvista和PathVQA上的整體性能。Pass@1、pass@2和pass@3分別表示運行Alita框架1次、2次和3次所達(dá)到的準(zhǔn)確率,并從中選擇最佳答案。Alita在GAIA的所有級別上都優(yōu)于所有基線智能體,實現(xiàn)了最高的總準(zhǔn)確率在使用Claude 3.7 Sonnet + GPT-4o配置時,Alita在GAIA上的pass@1準(zhǔn)確率為72.73%,在Mathvista上達(dá)到74.00%,在PathVQA上達(dá)到52.00%,全面優(yōu)于多個基線系統(tǒng)。

在GAIA的不同難度級別上,Alita的性能表現(xiàn)也十分優(yōu)異。例如,在Level 1任務(wù)中,Alita的pass@1準(zhǔn)確率達(dá)到81.13%,pass@3準(zhǔn)確率高達(dá)96.23%;在難度更高的Level 3任務(wù)中,pass@1準(zhǔn)確率仍能達(dá)到46.15%,pass@3準(zhǔn)確率為65.38%。相較于基線系統(tǒng)如Octotools在Level 1的18.40% pass@1準(zhǔn)確率、Open Deep Research-smolagents在Level 3的34.62% pass@1準(zhǔn)確率等,Alita的優(yōu)勢顯而易見。這表明Alita不僅在簡單任務(wù)中表現(xiàn)出色,在處理復(fù)雜任務(wù)時也能保持較高的準(zhǔn)確率和穩(wěn)定性,充分體現(xiàn)了其設(shè)計理念的先進(jìn)性和有效性。

深度洞察:Alita 生成 MCP 的復(fù)用價值

Alita 生成的 MCP 的復(fù)用價值

復(fù)用Alita生成的MCP具有雙重益處。一方面,這些MCP能夠助力其他智能體框架提升性能。由于Alita通過試錯法為GAIA等基準(zhǔn)測試設(shè)計了一套實用的MCP,這些MCP可以直接被其他智能體框架使用,無需從頭開始開發(fā),從而節(jié)省了大量的開發(fā)時間和資源,提高了任務(wù)解決效率。另一方面,MCP復(fù)用可以視為一種新型的知識蒸餾方式。與傳統(tǒng)的通過大型LLM生成的數(shù)據(jù)對小型LLM進(jìn)行微調(diào)的知識蒸餾不同,MCP復(fù)用更加高效、低成本和快速。它將大型LLM中蘊含的高級知識和能力封裝成MCP,直接傳遞給小型LLM智能體,使后者能夠迅速獲得處理復(fù)雜任務(wù)的能力,縮小了大小型LLM智能體之間的性能差距。

對 Open Deep Research-smolagents 的復(fù)用效果

實驗數(shù)據(jù)顯示,在GAIA的不同難度級別上,Open Deep Research-smolagents在使用Alita生成的MCP后性能顯著提升。下表呈現(xiàn)了具體的提升數(shù)據(jù),讓這一結(jié)論更有說服力。

圖片

帶有 Alita 生成的 MCP 和不帶 Alita 生成的 MCP 的 ODR-smolagents 性能對比。結(jié)果在不同的GAIA級別上進(jìn)行了報告:1級、2級、3級和平均值。每一列對應(yīng)相應(yīng)GAIA級別的性能。重復(fù)使用 Alita 生成的 MCP 可以提升其他智能體的性能例如,在Level 1任務(wù)中,pass@1準(zhǔn)確率從33.96%提高到39.62%;在Level 2任務(wù)中,從29.07%提高到36.05%;在Level 3任務(wù)中,從11.54%提高到15.38%。這表明Alita生成的MCP不僅能夠提升智能體在簡單任務(wù)中的表現(xiàn),還能在復(fù)雜任務(wù)中發(fā)揮重要作用,且在所有難度級別上均有改善,充分證明了MCP的通用實用性和對不同任務(wù)場景的良好適應(yīng)性。

對小型 LLM 智能體的復(fù)用效果

以基于GPT-4o-mini的基礎(chǔ)框架為例,使用Alita生成的MCP后,其在GAIA不同難度級別上的性能均顯著提升。在Level 1任務(wù)中,pass@1準(zhǔn)確率從32.08%提高到39.62%;在Level 2任務(wù)中,從20.93%提高到27.91%;在Level 3任務(wù)中,從3.85%大幅提高到11.54%。特別是在最具挑戰(zhàn)性的Level 3任務(wù)中,準(zhǔn)確率實現(xiàn)了三倍增長,凸顯了MCP在復(fù)雜推理任務(wù)上的巨大價值。這說明MCP能夠有效地將大型LLM的高級推理和問題解決能力傳遞給小型LLM智能體,彌補了后者在處理復(fù)雜任務(wù)時的能力不足,為資源有限的智能體提供了一種低成本、高效能的性能提升途徑。下表直觀地反映了這種提升效果。

圖片

在 GPT-4o-mini 基礎(chǔ)框架上,有無 Alita 生成的 MCP 時的性能對比。結(jié)果在不同的 GAIA 層級(1級、2級、3級和平均值)進(jìn)行了報告。每一列分別對應(yīng)相應(yīng) GAIA 層級的性能表現(xiàn)。Alita 生成的 MCP 的復(fù)用顯著提升了小規(guī)模 LLM 上智能體的性能

Alita 在小型 LLM 上的表現(xiàn)

對比Alita在Claude-3.7-Sonnet + GPT-4o和GPT-4o-mini模型配置下的GAIA表現(xiàn),可以發(fā)現(xiàn)底層模型的編碼能力對Alita的性能有著關(guān)鍵影響。下表則清晰地展示了不同模型配置下 Alita 的性能差異。

圖片

Alita(Claude-3.7-Sonnet,GPT-4o)與 Alita(GPT-4o-mini)的性能對比。結(jié)果在不同的 GAIA 級別進(jìn)行了報告:一級、二級、三級以及平均值。每一列對應(yīng)相應(yīng) GAIA 級別的性能。較小模型的整合顯著降低了性能在Claude-3.7-Sonnet + GPT-4o配置下,Alita的pass@1準(zhǔn)確率為72.73%,而在GPT-4o-mini配置下,這一數(shù)值下降到43.64%。這表明,盡管Alita的設(shè)計理念能夠顯著提升智能體的性能,但其底層模型的編碼能力仍然是決定性能上限的重要因素。然而,隨著LLM編碼和推理能力的不斷提升,Alita的性能也將持續(xù)增強。這預(yù)示著未來通用智能體的設(shè)計可能會向更極簡的方向發(fā)展,人類開發(fā)者將更多地專注于設(shè)計能夠激發(fā)智能體創(chuàng)造力和進(jìn)化能力的模塊,而非直接為每個任務(wù)預(yù)定義工具和工作流,從而推動智能體技術(shù)向更加智能化、自適應(yīng)化的方向邁進(jìn)。

案例研究:YouTube 360 VR 視頻字幕提取

以GAIA中的一個Level 3難題——YouTube 360 VR視頻字幕提取問題為例,我們可以詳細(xì)剖析Alita的解決流程。Case Study 部分詳細(xì)記錄了這一過程,讓我們能深入了解 Alita 如何基于任務(wù)進(jìn)行結(jié)構(gòu)化的 MCP 群思,并有效利用外部資源完成復(fù)雜任務(wù)。如下 Case Study: YouTube 360 VR Video Subtitle Extraction

Question ID: 0512426f-4d28-49f0-be77-06d05daec096
Question: In the YouTube 360 VR video from March 2018 narrated by 
the voice actor of Lord of the Rings’ Gollum, what number was mentioned 
by the narrator directly after dinosaurs were first shown in the video?
Our Answer: 100000000
Correct Answer: 100000000
Is Correct: Yes
Generated MCP: YouTube Video Subtitle Crawler

Alita Workflow:

1. MCP Brainstorming: Alita propose the development of a "YouTube Video 
Subtitle Crawler" MCP, which should automate the extraction of subtitles from
a given YouTube video. This involves scraping the subtitles of the video and 
processing them to isolate the relevant text after the event in question.

2. Web Agent Execution: To implement the subtitle extraction, a search is 
conducted in open-source repositories to find relevant tools that can assist in 
extracting YouTube video transcripts. An appropriate tool, the youtube-transcript-
api, is identified from the following GitHub repository:
  https://github.com/jdepoix/youtube-transcript-api

3. Manager Agent: The Manager Agent synthesizes the information from the 
GitHub repository and proceeds to write a Python function that leverages the 
youtube-transcript-api to retrieve the transcript of the video with corresponding 
environment setup instructions.
The environment setup and installation steps are defined as follows:

conda create -n youtube_transcript
conda activate youtube_transcript
pip install youtube-transcript-api

The Python code to retrieve the video transcript is as follows:

from youtube_transcript_api import YouTubeTranscriptApi
# Initialize the API
ytt_api = YouTubeTranscriptApi()
# Retrieve the transcript
video_id = ...
transcript_list = ytt_api.list(’video_id’)
...

4. Manager Agent Execution: Leveraging the Python code and the established 
environment, the Manager Agent successfully packaged the YouTube Video 
Subtitle Crawler MCP. Subsequently, this MCP was employed to efficiently scrape
the subtitles from the video, enabling the extraction of the relevant content. After 
analyzing the content, the correct number (100000000) mentioned by the narrator 
following the dinosaur scene is extracted from the transcript.

5. Final Output: The number "100000000" is identified as the correct answer.

任務(wù)要求從2018年3月由《指環(huán)王》中咕嚕姆配音演員敘述的YouTube 360 VR視頻中,提取出在恐龍首次出現(xiàn)后敘述者提到的數(shù)字。Alita首先通過MCP群思提出開發(fā)“YouTube視頻字幕爬取器”的想法,明確該MCP需要從給定的YouTube視頻中自動提取字幕,并處理文本以定位相關(guān)事件后的文本內(nèi)容。接著,網(wǎng)絡(luò)智能體執(zhí)行任務(wù),在開源代碼庫中搜索相關(guān)工具,并找到了youtube-transcript-api這一合適工具。管理智能體隨后整合信息,編寫了一個Python函數(shù),利用youtube-transcript-api獲取視頻字幕,并提供了相應(yīng)的環(huán)境設(shè)置指令。通過在建立的環(huán)境中運行該Python代碼,成功爬取視頻字幕,并從中提取出正確的數(shù)字“100000000”。這一案例直觀地展示了Alita如何基于任務(wù)進(jìn)行結(jié)構(gòu)化的MCP群思,并有效利用外部資源完成復(fù)雜任務(wù),體現(xiàn)了其設(shè)計理念在實際應(yīng)用中的強大威力和高效性。

局限性與未來展望

Alita 的短板:局限性分析

盡管Alita在多個基準(zhǔn)測試中表現(xiàn)出色,但它對LLM編碼能力的高度依賴也帶來了一定的局限性。當(dāng)LLM的編碼能力較弱時,Alita的性能可能不如傳統(tǒng)通用智能體。例如,在使用編碼能力較弱的LLM時,Alita生成的工具可能不夠準(zhǔn)確或高效,導(dǎo)致任務(wù)執(zhí)行失敗或結(jié)果不理想。此外,Alita生成的MCP可能存在過擬合問題,即在特定數(shù)據(jù)集或任務(wù)類型上表現(xiàn)良好,但在其他場景中難以泛化。這限制了Alita在更廣泛領(lǐng)域的應(yīng)用和推廣。

未來展望:智能體設(shè)計新思考

隨著 LLM 編碼和推理能力的不斷提升,Alita 的性能有望進(jìn)一步增強。未來通用智能體的設(shè)計可能會更加注重激發(fā)智能體的創(chuàng)造力和自我進(jìn)化能力,而非依賴大量預(yù)定義的工具和工作流。人類開發(fā)者可以將更多精力放在設(shè)計能夠促進(jìn)智能體自主學(xué)習(xí)和動態(tài)適應(yīng)的模塊上,使智能體能夠根據(jù)任務(wù)需求自動調(diào)整和優(yōu)化自身能力。同時,MCP 作為一種有效的知識封裝和傳遞機制,將在智能體之間實現(xiàn)更廣泛的知識共享和能力復(fù)用,推動整個通用智能體領(lǐng)域的快速發(fā)展。

總結(jié)與感想

Alita以其極簡預(yù)定義和極大自我進(jìn)化的核心設(shè)計理念,為通用智能體領(lǐng)域帶來了一場深刻的思考。它通過減少對預(yù)定義工具和工作流的依賴,賦予了智能體更強的自主性和適應(yīng)性,使其能夠在多樣化任務(wù)中實現(xiàn)高效推理和問題解決。這一創(chuàng)新架構(gòu)不僅挑戰(zhàn)了傳統(tǒng)的通用智能體設(shè)計規(guī)范,還為該領(lǐng)域的技術(shù)發(fā)展提供了新的思路和方向,推動了通用智能體向更加智能化、自適應(yīng)化的方向邁進(jìn)。

從實驗表現(xiàn)可以看到,Alita的簡潔設(shè)計并未削弱其性能,反而在多個基準(zhǔn)測試中取得了卓越的成果。這種設(shè)計理念使得智能體能夠更加靈活地應(yīng)對任務(wù)變化,減少了系統(tǒng)開發(fā)和維護(hù)的成本,同時提高了智能體的泛化能力和可擴展性。Alita的設(shè)計思想,證明了通過簡化設(shè)計和強化自主進(jìn)化能力,可以實現(xiàn)更高效、更智能的任務(wù)處理。

綜上,Alita為我們展示了未來智能體的可能形態(tài)和發(fā)展方向。通過理解 Alita 的設(shè)計理念,可以讓我們對傳統(tǒng)通用智能體的設(shè)計產(chǎn)生反思,它巧妙地解決了現(xiàn)有智能體面臨的諸多難題,如覆蓋不全、創(chuàng)造力受限等。在GAIA等基準(zhǔn)測試中的優(yōu)異表現(xiàn),充分證明了這種設(shè)計理念的可行性和有效性。

同時,我們也要認(rèn)識到它的局限性。盡管Alita在多個基準(zhǔn)測試中表現(xiàn)出色,但它對LLM編碼能力的高度依賴是存在局限的。當(dāng)LLM的編碼能力較弱時,Alita的性能可能不如傳統(tǒng)通用智能體。例如,在使用編碼能力較弱的LLM時,Alita生成的工具可能不夠準(zhǔn)確或高效,導(dǎo)致任務(wù)執(zhí)行失敗或結(jié)果不理想。另外,Alita生成的MCP可能存在過擬合問題,即在特定數(shù)據(jù)集或任務(wù)類型上表現(xiàn)良好,但在其他場景中難以泛化。這限制了Alita在更廣泛領(lǐng)域的應(yīng)用和推廣。Alita 對大型語言模型編碼能力的依賴提醒我們,盡管它取得了顯著進(jìn)展,但仍有提升空間。Alita 目前比較依賴于頂級 Sota 模型編碼。我在想,以這個通用智能體為基礎(chǔ),也許可以通過構(gòu)建垂域環(huán)境的方式,對任務(wù)更細(xì)致的定義,借鑒 Alita 的思想來實現(xiàn)高性能的垂域智能體。畢竟,Alita的設(shè)計思想中,體現(xiàn)出 MCP 作為一種有效的知識封裝和傳遞機制,將在智能體之間實現(xiàn)更廣泛的知識共享和能力復(fù)用。

參考資料

  • ALITA: GENERALIST AGENT ENABLING SCALABLE AGENTIC REASONING WITH MINIMAL PREDEFINITION AND MAXIMAL SELF-EVOLUTION

     https://arxiv.org/pdf/2505.20286

  • GitHub - CharlesQ9/Alita

     https://github.com/CharlesQ9/Alita

責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2025-06-05 08:46:00

2025-04-07 02:00:00

2013-09-30 10:17:57

SAP

2013-11-08 17:56:28

SAP中國商業(yè)同略會

2024-06-13 09:20:26

2011-08-14 23:00:10

聯(lián)想工作站

2011-07-02 14:41:13

惠普工作站

2015-09-23 11:36:06

2010-03-09 13:54:55

2019-05-21 09:00:00

網(wǎng)站Web主機加載時間

2024-03-14 11:55:21

2023-08-26 21:38:04

Kuma框架CSS

2019-08-12 18:29:50

存儲

2024-07-23 14:10:48

2018-12-03 11:37:50

深信服云IT超融合

2016-07-27 17:35:20

服務(wù)商

2025-04-11 12:04:58

2025-06-16 01:00:00

智能體AlphaEvolvAI

2025-05-23 03:00:00

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 欧美国产亚洲一区二区 | 日本午夜视频 | v片网站 | 亚洲性爰 | 中文字幕亚洲一区二区三区 | 影音av| 91免费在线播放 | 欧美一区二区三区的 | 狠狠操狠狠搞 | 国产午夜精品视频 | 在线视频一区二区三区 | 久久国产婷婷国产香蕉 | 色偷偷人人澡人人爽人人模 | 精品久久久久久久久久 | 日本三级电影免费观看 | 亚洲一区成人 | 狠狠干在线 | 中文字幕在线播放第一页 | 99久久久久| av一区二区三区在线观看 | 欧美性受xxxx白人性爽 | 国产精品中文字幕在线 | 一区二区三区中文字幕 | 一区二区三区在线观看免费视频 | 91色网站 | 91大神在线资源观看无广告 | 精品国产伦一区二区三区观看说明 | 国产福利视频 | 国产成人在线免费 | 一区二区日本 | 久久在线免费 | 91网站视频在线观看 | 精品国产aⅴ| 国产欧美在线播放 | 国产成人精品免费视频 | 日韩欧美在线免费观看 | 精品日韩 | 狠狠躁夜夜躁人人爽天天高潮 | 最新中文字幕在线 | 天天操天天干天天曰 | 国产精品一区二 |