成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI設(shè)計(jì)自己,代碼造物主已來!UBC華人一作首提ADAS,數(shù)學(xué)能力暴漲25.9%

人工智能 新聞
AI掌握自我設(shè)計(jì)的權(quán)力,將會怎樣?最近,來自UBC等機(jī)構(gòu)研究人員提出了「智能體自動(dòng)化設(shè)計(jì)」系統(tǒng),讓元智能體使用搜索算法,自動(dòng)構(gòu)建強(qiáng)大的同類。

AI訓(xùn)AI已經(jīng)老生常談了,那么,AI能夠設(shè)計(jì)出更強(qiáng)的AI嗎?

這不,來自UBC等機(jī)構(gòu)的研究人員提出了一種全新系統(tǒng)——智能體自動(dòng)化設(shè)計(jì)(ADAS)。

圖片

ADAS就是為了讓AI自動(dòng)創(chuàng)建強(qiáng)大的智能體,包括發(fā)明新的構(gòu)建模塊,或以新的方式組合它們。

具體來說,作者提出了一個(gè)「元智能體搜索」簡單而有效的算法。

其中元智能體根據(jù)不斷擴(kuò)大的數(shù)據(jù)庫,迭代編程出有趣的智能體。

圖片

論文地址:https://arxiv.org/pdf/2408.08435

鑒于圖靈完備性,新方法可以學(xué)習(xí)任何可能的智能體系統(tǒng),包括新提示、工具使用、控制流程,以及組合。

再加上,ADAS本身就是一個(gè)智能體,因此也可以實(shí)現(xiàn)自身改進(jìn),從而讓「元智能體」自我進(jìn)化。

實(shí)驗(yàn)證明,新系統(tǒng)可以讓代碼自定義智能體,而且「元智能體」可通過代碼,來設(shè)計(jì)新的智能體。

而且,由「元智能體搜索」發(fā)明的新智能體,即便在跨領(lǐng)域/跨模型轉(zhuǎn)移時(shí),仍保持優(yōu)越性、穩(wěn)健性。

正如論文所言,這項(xiàng)研究展示了,一個(gè)令人興奮的新研究方向的潛力,即自動(dòng)設(shè)計(jì)越來越強(qiáng)的智能體系統(tǒng)。

AI設(shè)計(jì)強(qiáng)大的自己,真到了那天,或許AGI就不遠(yuǎn)了。

圖片

那么,它是如何做到的呢?

AI自我設(shè)計(jì),代碼造物主已來

機(jī)器學(xué)習(xí)史,指明AI方向

以往,研究人員投入了大量精力,開發(fā)強(qiáng)大通用智能體。

其中,基礎(chǔ)模型被用作智能體系統(tǒng)中的模塊,比如,思維鏈、自我反思、Toolformer等等。

然而,機(jī)器學(xué)習(xí)的歷史告訴我們,手動(dòng)設(shè)計(jì)的解決方案,最終會被自我學(xué)習(xí)的方案所取代。

說來也巧,幾天前「AI科學(xué)家」研究也是出自Jeff Clune之手。

圖片

不列顛哥倫比亞大學(xué)CS教授,曾任OpenAI研究團(tuán)隊(duì)負(fù)責(zé)人,DeepMind高級研究顧問

在上一篇研究中,展示了一個(gè)自動(dòng)化研究流程,AI一口氣完成了十篇論文,部分還達(dá)到了機(jī)器學(xué)習(xí)頂會的接收的門檻。

關(guān)鍵是,AI的助力,直接將研究成本打了下來,每篇論文僅15美元。

圖片

那么,若是讓AI設(shè)計(jì)AI,不僅省事省力,而且AI還能自我迭代。

論文中,研究團(tuán)隊(duì)提出的ADAS,由三個(gè)關(guān)鍵部分組成:

- 搜索空間:定義了ADAS可以創(chuàng)建的所有可能的智能體系統(tǒng)

- 搜索算法:ADAS用來在搜索空間中尋找優(yōu)秀智能體設(shè)計(jì)的方法

- 評估函數(shù):用于判斷創(chuàng)建的智能體的質(zhì)量或性能

圖片

具體來說,ADAS就是涉及使用搜索算法,來發(fā)現(xiàn)搜索空間中的智能體系統(tǒng),從而優(yōu)化評估函數(shù)。

圖片

元智能體搜索

為了進(jìn)一步實(shí)施想法,研究人員提出了「元智能體搜索」算法,用于演示代碼中定義和搜索智能體的方法。

元智能體搜索的核心思想是,讓基礎(chǔ)模型(FM)作為元智能體,根據(jù)不斷擴(kuò)增的數(shù)據(jù)庫,迭代新智能體。

理論上,元智能體可以從頭開始編程任何可能的構(gòu)建模塊和智能體系統(tǒng)。

圖片

不過,在實(shí)踐中,為避免元智能體提供任何基本功能(比如FM查詢API、現(xiàn)有工具)是低效的。

因此,論文中,作者為元智能體定義了一個(gè)簡單的框架(100行代碼以內(nèi)),為其提供了一組基本的功能,如查詢FM或格式化提示。

結(jié)果,元智能體只需要編程一個(gè)「前向」函數(shù)來定義一個(gè)新的智能體系統(tǒng),類似于FunSearch中的做法。

圖片

這個(gè)函數(shù)接收任務(wù)信息,并輸出智能體對任務(wù)的響應(yīng)。

如下圖所示,作者展示了元智能體編程新智能體的主要提示,其中提示中的變量,被高亮顯示。

提示中,研究人員鼓勵(lì)元智能體基于不斷增長的先前發(fā)現(xiàn)檔案,探索有趣的新智能體。

另外,他們還在元智能體中采用了自我反思迭代,其中它對提案的新穎性和正確性進(jìn)行兩次迭代的改進(jìn),并在運(yùn)行代碼時(shí)出現(xiàn)錯(cuò)誤時(shí)進(jìn)行最多三次改進(jìn)。

圖片

在生成新的智能體后,研究人員決定使用目標(biāo)領(lǐng)域的驗(yàn)證數(shù)據(jù)對其進(jìn)行評估。

評估結(jié)果

ARC挑戰(zhàn)

抽象和推理語料庫(Abstraction and Reasoning Corpus,ARC)是一個(gè)非常具有挑戰(zhàn)性的基準(zhǔn),可以通過衡量人工智能系統(tǒng)有效獲取新技能的能力,來評估它們的一般智力。

圖片

ARC挑戰(zhàn)包括3個(gè)重要步驟:

-給AI系統(tǒng)展示多個(gè)視覺輸入輸出網(wǎng)格模式的例子

-AI系統(tǒng)從例子中學(xué)習(xí)網(wǎng)格模式的轉(zhuǎn)換規(guī)則

-在給定測試輸入網(wǎng)格模式的情況下,預(yù)測輸出網(wǎng)格模式

經(jīng)研究團(tuán)隊(duì)驗(yàn)證,元智能體搜索能夠發(fā)現(xiàn)新的代理系統(tǒng),并在ARC挑戰(zhàn)中,優(yōu)于SOTA人工設(shè)計(jì)智能體。

圖片

推理和問題解決

接下來,元智能體需要接受在數(shù)學(xué)、閱讀和推理領(lǐng)域的考驗(yàn)。

用于測試的是4個(gè)常用基準(zhǔn):用于評估閱讀理解能力的DROP、評估多語言環(huán)境下數(shù)學(xué)能力的MGSM 、評估多任務(wù)問題解決的MMLU,以及評估在科學(xué)領(lǐng)域解決研究生水平問題的GPQA。

結(jié)果表明,元智能體搜索可以發(fā)現(xiàn)性能優(yōu)于SOTA人工設(shè)計(jì)的智能體——

圖片

元智能體搜索和SOTA人工設(shè)計(jì)智能體的性能比較,元智能體搜索在每個(gè)領(lǐng)域都發(fā)現(xiàn)了比基線更好的智能體

不得不強(qiáng)調(diào)的一點(diǎn)是,在閱讀理解和數(shù)學(xué)領(lǐng)域,自我學(xué)習(xí)的智能體把人工設(shè)計(jì)的智能體遠(yuǎn)遠(yuǎn)甩在身后:F1分?jǐn)?shù)提高了13.6/100,準(zhǔn)確率提高了14.4%。

元智能體搜索在多任務(wù)和科學(xué)領(lǐng)域的表現(xiàn)也優(yōu)于基線,但二者差距沒有這么懸殊。

總的來說,不同領(lǐng)域的基準(zhǔn)測試結(jié)果顯示出元智能體搜索在針對特定領(lǐng)域定制智能體方面的有效性。

泛化和可轉(zhuǎn)移性

至此,研究人員已經(jīng)說明了元智能體搜索可以為各個(gè)任務(wù)找到有效的智能體,那么,這些新發(fā)現(xiàn)的智能體是否具有可轉(zhuǎn)移性和可推廣性呢?

這就需要進(jìn)行新的實(shí)驗(yàn)。

首先將發(fā)現(xiàn)的代理從GPT-3.5轉(zhuǎn)移到ARC上的其他FM中,以測試在使用一個(gè)FM執(zhí)行元智能體搜索時(shí)發(fā)現(xiàn)的代理是否可以推廣到其他FM中。

團(tuán)隊(duì)選擇了三種流行的模型進(jìn)行轉(zhuǎn)移,Claude-Haiku、GPT-4和Claude-Sonnet。

依然采用與在ARC挑戰(zhàn)和MGSM中使用的相同的基線。

如下表所示,元智能體搜索到的智能體始終優(yōu)于人工設(shè)計(jì)的智能體,而且,差距不小。

圖片

值得注意的是,Claude-Sonnet,這個(gè) Anthropic最強(qiáng)大的模型,在所有測試模型中表現(xiàn)最好,使最好的智能體在ARC上達(dá)到近50%的準(zhǔn)確率。

接下來,研究人員將元智能體所發(fā)現(xiàn)的智能體從MGSM領(lǐng)域轉(zhuǎn)移到其他數(shù)學(xué)領(lǐng)域,以測試新智能體是否可以在不同的領(lǐng)域進(jìn)行泛化。

同樣,測試了MGSM的前3個(gè)智能體,并將它們轉(zhuǎn)移到四個(gè)流行的數(shù)學(xué)領(lǐng)域:GSM8K、GSM-Hard、SVAMP和ASDiv,以及在上一小節(jié)中除數(shù)學(xué)之外的三個(gè)領(lǐng)域。

如下表所示,與基線相比,元智能體搜索保持了性能優(yōu)勢。

圖片

與基線相比,在GSM8K和GSM-Hard上的準(zhǔn)確率分別提高了25.9%和13.2%。

更令人驚訝的是,在數(shù)學(xué)領(lǐng)域中發(fā)現(xiàn)的智能體可以被轉(zhuǎn)移到非數(shù)學(xué)領(lǐng)域。

圖片

雖然最初在數(shù)學(xué)領(lǐng)域中搜索的智能體的性能與專門為目標(biāo)領(lǐng)域設(shè)計(jì)的智能體并不完全匹配,但它們?nèi)匀粌?yōu)于(在閱讀理解和多任務(wù)中)或(在科學(xué)中)SOTA人工設(shè)計(jì)的智能體基線。

這些結(jié)果表明,元智能體搜索可以發(fā)現(xiàn)可推廣的設(shè)計(jì)模式和智能體系統(tǒng)。

作者介紹

這篇論文的一作和二作是兩位華人,Shengran Hu和Cong Lu,他們目前都在不列顛哥倫比亞大學(xué)(UBC)就讀,師從Jeff Clune。

Shengran Hu

圖片

Hu現(xiàn)在是UBC的一名博士生,主要研究興趣是AI智能體和開放式學(xué)習(xí)系統(tǒng)。

Cong Lu

圖片

Cong Lu是UBC向量學(xué)院的博士后研究員,致力于開發(fā)安全、具有好奇心并能以開放式方式學(xué)習(xí)的自主智能體。

Lu之前在牛津大學(xué)獲得了博士學(xué)位,在攻讀博士學(xué)位期間,他對離線強(qiáng)化學(xué)習(xí)特別感興趣,包括對未見過的任務(wù)的泛化、離線世界模型的不確定性量化、像素學(xué)習(xí)以及強(qiáng)化學(xué)習(xí)的擴(kuò)散合成數(shù)據(jù)。

Jeff Clune

圖片

如前所述,Jeff Clune現(xiàn)任UBC計(jì)算機(jī)科學(xué)的教授,同時(shí)也是CIFAR AI主席、向量學(xué)院成員,DeepMind高級顧問。

值得一提的是,CIFAR(加拿大高等研究院,發(fā)音為「see-far」)自1982年成立以來不斷發(fā)展,已從加拿大學(xué)者的一個(gè)小團(tuán)體發(fā)展成為全球研究界的領(lǐng)導(dǎo)者,象征著全球性、跨學(xué)科性和無限性。

向量學(xué)院成立于2017年,是一所非盈利研究性機(jī)構(gòu),也是加拿大政府鼎力支持的AI研究中心,人工智能教父Geoffrey Hinton當(dāng)年成為了這家機(jī)構(gòu)的首席科學(xué)顧問。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-08-23 08:08:00

2023-06-19 09:36:16

AI矩陣

2025-03-03 09:00:00

2022-07-20 11:26:59

Web3.0去中心化投資

2024-12-03 10:15:00

2022-12-23 15:04:33

Meta模型

2023-11-16 15:58:00

訓(xùn)練數(shù)據(jù)

2025-06-03 08:51:00

2021-05-26 09:13:35

Linux之父未來科技

2022-02-07 09:35:00

CUP細(xì)胞研究

2023-06-19 19:22:50

AI場景隨機(jī)數(shù)學(xué)

2021-10-29 22:45:47

大數(shù)據(jù)算法技術(shù)

2022-05-16 13:46:22

2D3D,AI

2025-02-17 14:34:52

2023-10-19 08:27:31

AI模型

2021-12-09 09:45:44

AI 數(shù)據(jù)神經(jīng)網(wǎng)絡(luò)

2021-09-03 00:54:31

人工智能機(jī)器人工具

2020-07-30 16:00:50

新冠疫情人工智能AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 久久久久久九九九九九九 | 玖玖国产| 久久精品在线 | 在线中文一区 | 手机看黄av免费网址 | 免费毛片网 | 亚洲成av人片在线观看 | 最新伦理片| 亚洲视频一区在线观看 | 在线观看国产视频 | 亚洲在线 | 国产极品粉嫩美女呻吟在线看人 | 天天躁日日躁狠狠躁2018小说 | 成人精品视频在线 | 日韩欧美在线观看视频 | 亚洲视频欧美视频 | 久久久久亚洲 | 亚洲成人一区 | 91精品国产色综合久久 | 中文字幕在线三区 | 久久久国产一区二区三区 | 色婷婷综合久久久久中文一区二区 | 久草青青草 | 国产精品一区二区三区四区 | 国产成人综合在线 | 黄色av网站免费看 | 国产精品美女久久久久aⅴ国产馆 | 国产日韩欧美一区二区 | 91玖玖 | 国产中文一区二区三区 | 亚洲午夜网 | 中文字幕免费视频 | 欧美视频免费在线 | 激情婷婷成人 | 粉嫩粉嫩芽的虎白女18在线视频 | 日韩精品网站 | 一级毛片视频在线观看 | 国产成人一区二区三区精 | 在线不卡视频 | 国产精品一区二区日韩 | 91国内视频在线 |