成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

小模型的意見(jiàn)也有用!GPT-4+AutoGPT在線(xiàn)決策:買(mǎi)東西再也不用糾結(jié)了

人工智能 新聞
大語(yǔ)言模型和AutoGPT結(jié)合的新范式來(lái)了!

這篇論文通過(guò)對(duì)真實(shí)世界決策任務(wù)中的Auto-GPT代理進(jìn)行了全面的基準(zhǔn)研究,探索了大型語(yǔ)言模型(LLM)在決策任務(wù)中的應(yīng)用。

圖片

論文鏈接:https://arxiv.org/pdf/2306.02224.pdf

作者比較了多種流行的LLM(包括GPT-4,GPT-3.5,Claude和Vicuna)在Auto-GPT決策任務(wù)中的表現(xiàn),并引入了一種名為「額外意見(jiàn)」的新算法,該算法可以將小的專(zhuān)家模型融入到Auto-GPT方案中,從而提高了任務(wù)性能。

作者觀點(diǎn)

在這一研究中最有趣的發(fā)現(xiàn)是大語(yǔ)言模型,尤其是GPT4有了類(lèi)似于人類(lèi)的能力,可以從不同的意見(jiàn)中提取有用信息,進(jìn)行思考和批判然后提高自己的結(jié)果。

那么問(wèn)題來(lái)了,GPT是怎么受益于不同意見(jiàn)的呢?

人類(lèi)的心理學(xué)研究過(guò)一些人類(lèi)受益于不同意見(jiàn)的方式以及一些模式,比如人類(lèi)會(huì)給有權(quán)威的意見(jiàn)更多的權(quán)重,會(huì)傾向于忽略極少數(shù)的個(gè)別意見(jiàn),會(huì)給自己的意見(jiàn)過(guò)多的權(quán)重,通常三到六個(gè)意見(jiàn)就足夠了等等。

這個(gè)方向還值得很多后續(xù)的研究,比如現(xiàn)在我們是用一個(gè)小的專(zhuān)家模型來(lái)提供不同意見(jiàn),如果讓大模型們互相爭(zhēng)論呢?

主要貢獻(xiàn)

1.首次展示Auto-GPT可以輕松適應(yīng)與真實(shí)世界場(chǎng)景密切相似的在線(xiàn)決策任務(wù)。

2.提供了流行LLM(包括GPT-4, GPT-3.5,Claude和Vicuna)之間的全面基準(zhǔn)比較。我們提出了關(guān)于這些模型適用于自主代理的發(fā)現(xiàn)。

3. 證明了從小的專(zhuān)家模型那里獲得的第二意見(jiàn)可以顯著提高任務(wù)性能。這可以成為為在不進(jìn)行模型微調(diào)的情況下將監(jiān)督信號(hào)引入Auto-GPT的一種新的方法。

實(shí)驗(yàn)設(shè)置

提示設(shè)計(jì)

在沒(méi)有進(jìn)行大規(guī)模調(diào)優(yōu)的情況下,我們將任務(wù)需求或問(wèn)題直接作為Auto-GPT的目標(biāo),適配了Auto-GPT進(jìn)行各項(xiàng)任務(wù)。

比如輸入像「I want to purchase a folding storage box that is easy to install, made of faux leather, and has dimensions of 60x40x40cm」的句子。

為了幫助Auto-GPT理解可用的行動(dòng),我們將每個(gè)行動(dòng)表現(xiàn)為一個(gè)工具。

值得注意的是,在沒(méi)有示例的情況下,僅使用工具指令的效果較差。然而,只要有少量的示例,性能就會(huì)顯著提高。因此,我們?cè)诠ぞ哐菔局邪ㄒ坏饺齻€(gè)few-shot示例,以利用LLM的上下文學(xué)習(xí)能力。

考慮額外意見(jiàn)

圖片

我們進(jìn)一步改進(jìn)了Auto-GPT的工作流,以便考慮來(lái)自外部專(zhuān)家模型的額外意見(jiàn)。

具體來(lái)說(shuō),在Auto-GPT的決策階段,我們從專(zhuān)家模型中抽樣出前k個(gè)意見(jiàn),并將這些意見(jiàn)放入提示的上下文部分,以供大語(yǔ)言模型參考。

在這項(xiàng)工作中,我們簡(jiǎn)單地使用了對(duì)于每個(gè)任務(wù)都已經(jīng)準(zhǔn)備好的IL模型作為外部專(zhuān)家。

提供給LLM額外意見(jiàn)的提示遵循這樣的模板:‘Here’s one(a few) suggestion(s) for the command: Please use this suggestion as a reference and make your own judgement. ’

Webshop實(shí)驗(yàn)設(shè)置:

Webshop是一個(gè)模擬網(wǎng)購(gòu)環(huán)境,從http://Amazon.com上抓取超過(guò)118萬(wàn)個(gè)產(chǎn)品。

該環(huán)境提供了如搜索、點(diǎn)擊、導(dǎo)航、購(gòu)買(mǎi)等真實(shí)的行動(dòng)空間。

評(píng)估過(guò)程主要看是否成功購(gòu)買(mǎi)了描述的產(chǎn)品,需要產(chǎn)品、屬性、選項(xiàng)和價(jià)格全都匹配。

基線(xiàn)模型是采用模仿學(xué)習(xí)(IL)方法的模型,它的動(dòng)作策略組件已經(jīng)過(guò)微調(diào)。這個(gè)基線(xiàn)模型將與采用Auto-GPT方式運(yùn)行的大語(yǔ)言模型進(jìn)行比較。

ALFWorld實(shí)驗(yàn)設(shè)置

ALFWorld是一個(gè)研究環(huán)境,結(jié)合了復(fù)雜的任務(wù)導(dǎo)向和語(yǔ)言理解。該環(huán)境包含超過(guò)25000個(gè)獨(dú)特的、程序生成的任務(wù),涵蓋廚房、客廳、臥室等真實(shí)環(huán)境。

這些任務(wù)需要復(fù)雜的解決問(wèn)題的能力和對(duì)語(yǔ)言及環(huán)境的深入理解。初始評(píng)估使用模仿學(xué)習(xí)(IL)的DAgger代理進(jìn)行,然后與采用Auto-GPT風(fēng)格的生成語(yǔ)言模型進(jìn)行比較。

實(shí)驗(yàn)結(jié)果

直接比較結(jié)果

圖片


圖片

本研究主要通過(guò)運(yùn)行Webshop和ALFWorld兩種實(shí)驗(yàn),比較了不同的大型語(yǔ)言模型(Large Language Models,LLMs)和模仿學(xué)習(xí)(Imitation Learning,IL)模型在AutoGPT配置中的表現(xiàn)。

首先,Webshop試驗(yàn)中,GPT4表現(xiàn)出色,其性能超過(guò)了其他IL模型。盡管無(wú)圖像輸入的原始IL模型僅取得了適度的成功率,但是加入了圖像輸入的IL模型表現(xiàn)更好。

然而,只使用GPT3.5或Claude的Auto-GPT代理表現(xiàn)不如原始IL模型,但是,GPT4本身的性能優(yōu)于所有IL模型。

其次,在ALFWorld實(shí)驗(yàn)中,IL模型與Beam Search的組合顯著優(yōu)于無(wú)Beam Search的版本。而在AutoGPT設(shè)置中運(yùn)行的Claude和GPT3.5的性能均未超越IL模型,但GPT4明顯超越了IL模型的性能,無(wú)論是否使用Beam Search。

此外,我們提出了一種新的研究模式,將大型語(yǔ)言模型(LLMs)與專(zhuān)家模型結(jié)合起來(lái)。

首先從專(zhuān)家模型中采樣出前k個(gè)附加觀點(diǎn),然后將這些觀點(diǎn)呈現(xiàn)給LLMs,讓它們考慮這些觀點(diǎn)并做出最后的決定。這種方法在GPT4上表現(xiàn)得特別好,這表明GPT4在考慮來(lái)自多個(gè)弱學(xué)習(xí)模型的觀點(diǎn)時(shí),可以提高其性能。

總的來(lái)說(shuō),GPT4在所有模型中表現(xiàn)出了最佳的性能,并且能夠有效地利用專(zhuān)家模型的建議來(lái)提高其決策能力。

我們推薦使用GPT4,因?yàn)樗诳紤]了其他模型的觀點(diǎn)后,其決策性能顯著提高。最后Abaltion Study證明了這些額外意見(jiàn)必須是有一點(diǎn)價(jià)值的,隨機(jī)的意見(jiàn)并沒(méi)有任何幫助,見(jiàn)AutoGPT(GPT3.5) + Random

采用額外意見(jiàn)比例

在我們的實(shí)驗(yàn)中,我們發(fā)現(xiàn)GPT-4模型在處理額外意見(jiàn)時(shí)表現(xiàn)出極高的辨別能力。即使在信息噪聲中,GPT-4也能區(qū)分出有益和無(wú)關(guān)的建議。

而GPT-3.5模型在面對(duì)可能導(dǎo)致混淆的輸入時(shí),表現(xiàn)出了明顯的劣勢(shì)。總的來(lái)說(shuō),LLM與額外意見(jiàn)的一致性或不一致性,很大程度上取決于LLM的理解能力和額外意見(jiàn)的質(zhì)量。

圖片


圖片

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2021-12-21 09:05:46

命令Linux敲錯(cuò)

2024-04-15 00:08:00

MySQLInnoDB數(shù)據(jù)庫(kù)

2023-09-12 13:39:08

2015-05-29 09:01:48

2021-06-08 07:48:26

數(shù)據(jù) Python開(kāi)發(fā)

2020-06-15 08:03:17

大文件OOM內(nèi)存

2024-01-26 07:00:11

Python工具無(wú)向圖

2018-10-11 15:51:32

ChromeGoogle瀏覽器

2023-11-27 17:11:02

數(shù)據(jù)庫(kù)oracle

2019-01-14 00:43:08

可視化圖表數(shù)據(jù)分析數(shù)據(jù)可視化

2020-10-29 15:17:49

代碼開(kāi)發(fā)工具

2020-04-10 09:55:28

Git 工具黑魔法

2020-12-18 08:23:16

安卓手機(jī)系統(tǒng)谷歌

2023-12-21 09:00:00

開(kāi)發(fā)并發(fā)編程

2021-08-13 22:38:36

大數(shù)據(jù)互聯(lián)網(wǎng)技術(shù)

2023-07-29 22:02:06

MyBatis數(shù)據(jù)庫(kù)配置

2025-04-25 10:00:00

2022-09-14 08:02:25

加密算法Bcryp

2015-10-22 10:38:43

Wi-Fi燃?xì)鈭?bào)警器
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产在线一区二区 | 精品国产一级 | 中文字幕国产一区 | 日韩av一二三区 | 色资源在线| 精品一区二区久久 | 欧美亚洲日本 | 欧美大片久久久 | 毛片国产| 国精日本亚洲欧州国产中文久久 | 97免费在线观看视频 | 精品久久一区 | 欧美成人精品一区二区三区 | 日本久久精品 | 伊人网在线播放 | 91在线一区 | 99精品一区二区三区 | 国产视频91在线 | 国产成人亚洲精品自产在线 | 天堂av影院 | 亚洲成人av | 一区二区三区播放 | 成人午夜免费福利视频 | 99国内精品久久久久久久 | 日韩在线一区二区 | 久草视频观看 | av在线电影网站 | 99久久精品免费看国产小宝寻花 | 国产精品久久久久aaaa | 国产精品久久一区二区三区 | 91.xxx.高清在线| 日日操夜夜操天天操 | 亚洲人成人一区二区在线观看 | 亚洲视频欧美视频 | 中文字幕男人的天堂 | 国产乱码精品一区二区三区av | 久久精品电影 | 久久人人网 | 天天操天天射综合 | 欧美区日韩区 | 日韩色综合 |