成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

用AI自動(dòng)設(shè)計(jì)智能體,數(shù)學(xué)提分25.9%,遠(yuǎn)超手工設(shè)計(jì)

人工智能 新聞
基于 ADAS 所發(fā)現(xiàn)的智能體的性能大大優(yōu)于最先進(jìn)的手工設(shè)計(jì)的基線。

基礎(chǔ)模型 (FM) 如 GPT 和 Claude ,正在成為通用智能體的強(qiáng)有力支持,被越來(lái)越多的用于多種推理和規(guī)劃任務(wù)。

然而,在解決問(wèn)題時(shí),需要的智能體通常是具有多個(gè)組件的復(fù)合智能體系統(tǒng),而不是單片模型查詢 。此外,為了使智能體能夠解決復(fù)雜的現(xiàn)實(shí)世界任務(wù),它們通常需要訪問(wèn)外部工具,例如搜索引擎、代碼執(zhí)行和數(shù)據(jù)庫(kù)查詢。

因此,人們提出了許多有效的智能體系統(tǒng)構(gòu)建塊,例如思維鏈規(guī)劃和推理、記憶結(jié)構(gòu)、工具使用和自我反思。盡管這些智能體已經(jīng)在各種應(yīng)用中取得了顯著的成功,但開(kāi)發(fā)這些構(gòu)建塊并將它們組合成復(fù)雜的智能體系統(tǒng)通常需要特定領(lǐng)域的手動(dòng)調(diào)整以及研究人員和工程師的大量努力。

然而,機(jī)器學(xué)習(xí)的歷史告訴我們,手工設(shè)計(jì)的解決方案最終會(huì)被模型學(xué)習(xí)到的解決方案所取代。

本文,來(lái)自不列顛哥倫比亞大學(xué)、非營(yíng)利人工智能研究機(jī)構(gòu) Vector Institute 等的研究者制定了一個(gè)新的研究領(lǐng)域,即智能體系統(tǒng)的自動(dòng)化設(shè)計(jì)(ADAS,Automated Design of Agentic Systems),并提出了一種簡(jiǎn)單但有效的 ADAS 算法,名為元智能體搜索(Meta Agent Search),以證明智能體可以通過(guò)代碼編程來(lái)發(fā)明新穎而強(qiáng)大的智能體設(shè)計(jì)。

該研究旨在自動(dòng)創(chuàng)建強(qiáng)大的智能體系統(tǒng)設(shè)計(jì),包括開(kāi)發(fā)新的構(gòu)建塊并以新的方式組合它們。

實(shí)驗(yàn)表明,基于 ADAS 所發(fā)現(xiàn)的智能體的性能大大優(yōu)于最先進(jìn)的手工設(shè)計(jì)的基線。例如,本文設(shè)計(jì)的智能體在 DROP 的閱讀理解任務(wù)中將 F1 分?jǐn)?shù)提高了 13.6/100(與基線比),在 MGSM 的數(shù)學(xué)任務(wù)中將準(zhǔn)確率提高了 14.4%。此外,在跨域遷移后,它們?cè)?GSM8K 和 GSM-Hard 數(shù)學(xué)任務(wù)上的準(zhǔn)確率分別比基線提高了 25.9% 和 13.2%。

與手工設(shè)計(jì)的解決方案相比,本文算法表現(xiàn)出色,這說(shuō)明 ADAS 在自動(dòng)化智能體系統(tǒng)設(shè)計(jì)方面的潛力。此外,實(shí)驗(yàn)表明,所發(fā)現(xiàn)的智能體不僅在跨相似領(lǐng)域遷移時(shí)表現(xiàn)良好,而且在跨不同領(lǐng)域遷移時(shí)也表現(xiàn)出色,例如從數(shù)學(xué)到閱讀理解。

  • 論文地址:https://arxiv.org/pdf/2408.08435
  • 項(xiàng)目地址:https://github.com/ShengranHu/ADAS
  • 論文主頁(yè):https://www.shengranhu.com/ADAS/
  • 論文標(biāo)題:Automated Design of Agentic Systems

新研究領(lǐng)域:智能體系統(tǒng)的自動(dòng)化設(shè)計(jì)(ADAS)

該研究提出了一個(gè)新的研究領(lǐng)域 —— 智能體系統(tǒng)的自動(dòng)化設(shè)計(jì)(Automated Design of Agentic Systems,ADAS),并描述了 ADAS 算法的三個(gè)關(guān)鍵組成部分——搜索空間、搜索算法、評(píng)估函數(shù)。ADAS 使用搜索算法跨搜索空間來(lái)發(fā)現(xiàn)智能體系統(tǒng)。

圖片

搜索空間:搜索空間定義了哪些智能體系統(tǒng)可以在 ADAS 中被表征并被發(fā)現(xiàn)。例如,像 PromptBreeder (Fernando et al., 2024) 這樣的工作僅改變智能體的文本提示,而其他組件(例如控制流)保持不變。因此,在搜索空間中,無(wú)法表征具有與預(yù)定義控制流不同控制流的智能體。

搜索算法:搜索算法定義了 ADAS 算法如何探索搜索空間。由于搜索空間通常非常大甚至無(wú)界,因此應(yīng)考慮探索與利用的權(quán)衡(Sutton & Barto,2018)。理想情況下,該算法既可以快速發(fā)現(xiàn)高性能智能體系統(tǒng),又可以避免陷入局部最優(yōu)。現(xiàn)有方法包括使用強(qiáng)化學(xué)習(xí)(Zhuge et al., 2024)或迭代生成新解決方案的 FM(Fernando et al., 2024)作為搜索算法。

評(píng)估函數(shù):根據(jù) ADAS 算法的應(yīng)用,可能需要考慮不同的優(yōu)化目標(biāo),例如智能體的性能、成本、延遲或安全性。評(píng)估函數(shù)定義如何評(píng)估候選智能體的這些指標(biāo)。例如,為了評(píng)估智能體在未見(jiàn)過(guò)的數(shù)據(jù)上的表現(xiàn),一種簡(jiǎn)單的方法是計(jì)算任務(wù)驗(yàn)證數(shù)據(jù)的準(zhǔn)確率。

該研究提出的簡(jiǎn)單但有效的 ADAS 算法——元智能體搜索的核心概念是指示元智能體迭代地創(chuàng)建有趣的新智能體,評(píng)估它們,將它們添加到智能體存儲(chǔ)庫(kù)中,并使用此存儲(chǔ)庫(kù)幫助元智能體在后續(xù)迭代中創(chuàng)建更有趣的新智能體。與現(xiàn)有的利用人類興趣概念的開(kāi)放式算法類似,該研究鼓勵(lì)元智能體探索有趣的、有價(jià)值的智能體。

元智能體搜索的核心思想是采用 FM 作為搜索算法,基于不斷增長(zhǎng)的智能體存儲(chǔ)庫(kù)來(lái)迭代編程有趣的新智能體。該研究為元智能體定義了一個(gè)簡(jiǎn)單的框架(100 行代碼以內(nèi)),為其提供了一組基本功能,例如查詢 FM 或格式化提示。

因此,元智能體只需要編寫(xiě)一個(gè)「前向」函數(shù)來(lái)定義一個(gè)新的智能體系統(tǒng),類似于 FunSearch 中的做法(Romera-Paredes et al., 2024)。該函數(shù)接收任務(wù)信息并輸出智能體對(duì)任務(wù)的響應(yīng)。

如圖 1 所示,元智能體搜索的核心思想是讓元智能體在代碼中迭代地編程新的智能體。下面顯示了元智能體程序新智能體程序的主要提示,其中提示中的變量高亮顯示。

圖片

實(shí)驗(yàn)

所有實(shí)驗(yàn)結(jié)果表明本文發(fā)現(xiàn)的智能體大大優(yōu)于基線最先進(jìn)的手工設(shè)計(jì)的智能體。值得注意的是,該研究發(fā)現(xiàn)的智能體在 DROP 閱讀理解任務(wù)上比基線提高了 13.6/100(F1 分?jǐn)?shù)),在 MGSM 數(shù)學(xué)任務(wù)上比基線提高了 14.4%(準(zhǔn)確率)。此外,研究者發(fā)現(xiàn)的智能體在從 GPT-3.5 遷移到 GPT-4 后,在 ARC 任務(wù)上的表現(xiàn)比基線提高了 14%(準(zhǔn)確率),在從 MGSM 數(shù)學(xué)任務(wù)遷移到 GSM8K 和 GSM-Hard 中的 held-out 數(shù)學(xué)任務(wù)后,準(zhǔn)確率分別提高了 25.9% 和 13.2%。

案例研究:ARC 挑戰(zhàn)

如圖 3a 所示,元智能體搜索可以有效且逐步地發(fā)現(xiàn)性能優(yōu)于最新手工設(shè)計(jì)的智能體。文本框中突出顯示了重要的突破。

此外,圖 3b 顯示了發(fā)現(xiàn)最好的智能體,其中采用了復(fù)雜的反饋機(jī)制來(lái)更有效地細(xì)化答案。仔細(xì)觀察搜索進(jìn)度就會(huì)發(fā)現(xiàn),這種復(fù)雜的反饋機(jī)制并不是突然出現(xiàn)的。

圖片

推理和問(wèn)題 - 解決域

跨多個(gè)域的結(jié)果表明,元智能體搜索可以發(fā)現(xiàn)表現(xiàn)優(yōu)于 SOTA 手工設(shè)計(jì)的智能體(表 1)。

圖片

泛化性以及可遷移性

研究者進(jìn)一步展示了所發(fā)現(xiàn)智能體的可遷移性和可泛化性。

如表 2 所示,研究者觀察到搜索到的智能體(searched agent)始終優(yōu)于手工設(shè)計(jì)的智能體,并且差距很大。值得注意的是,研究者發(fā)現(xiàn) Anthropic 最強(qiáng)大的模型 Claude-Sonnet 在所有測(cè)試模型中表現(xiàn)最佳,使基于該模型的智能體在 ARC 上實(shí)現(xiàn)了近 50% 的準(zhǔn)確率。

如表 3 所示,研究者觀察到元智能體搜索的性能與基線相比具有類似的優(yōu)勢(shì)。值得注意的是,與基線相比,本文的智能體在 GSM8K 和 GSM-Hard 上的準(zhǔn)確率分別提高了 25.9% 和 13.2%。

圖片

更令人驚訝的是,研究者觀察到在數(shù)學(xué)領(lǐng)域發(fā)現(xiàn)的智能體可以遷移到到非數(shù)學(xué)領(lǐng)域(表 4)。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-08-20 13:30:17

2025-01-13 12:58:44

2025-05-20 02:00:15

2025-05-15 09:08:00

2025-05-22 06:59:53

2024-11-26 00:14:08

2017-12-11 16:25:25

2025-03-12 12:21:27

2024-05-11 08:27:41

Agent智能體GPT

2024-12-25 14:10:00

AI人工智能設(shè)計(jì)

2024-11-04 08:47:00

2025-04-27 01:05:00

AI智能日志

2024-11-18 19:06:21

2023-07-29 16:01:15

智能體模型任務(wù)

2023-04-18 11:09:05

ChatGPTDALL-E機(jī)器學(xué)習(xí)

2021-03-31 14:10:27

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2019-12-10 16:50:01

人工智能設(shè)計(jì)Philipe Sta

2025-06-11 09:07:00

AI芯片技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美日韩亚洲一区 | 国产精品a久久久久 | 精品国产一级 | 在线播放国产一区二区三区 | 99色综合| 日韩欧美三区 | 精品久久久久久亚洲综合网 | 久久久久久999 | 欧美性成人 | 伊人在线 | 亚洲欧美成人影院 | 亚洲高清在线观看 | 免费精品一区 | 黄色大片在线免费观看 | 欧美午夜精品 | 精品日韩欧美一区二区 | 国产精品久久久久久久久久尿 | 久久99视频 | 久久亚洲国产 | 国外成人在线视频网站 | 国产欧美一区二区三区在线看 | 亚洲视频免费 | 欧美三级三级三级爽爽爽 | 亚洲久在线 | 人人玩人人添人人澡欧美 | 亚洲美女天堂网 | 台湾av在线| 玖玖国产精品视频 | 久久国内精品 | 亚洲一区二区精品视频 | 午夜精品一区 | 精品欧美一区二区三区久久久 | 成人欧美一区二区三区在线播放 | 精品久久久久久亚洲精品 | 欧美激情在线一区二区三区 | 亚洲激情在线观看 | 中文字幕不卡 | 天色综合网 | 午夜在线影院 | 久久久久久久久91 | 久久男女视频 |