小模型的意見(jiàn)也有用！GPT-4+AutoGPT在線(xiàn)決策：買(mǎi)東西再也不用糾結(jié)了

作者：新智元 2023-06-13 18:46:00

大語(yǔ)言模型和AutoGPT結(jié)合的新范式來(lái)了！

這篇論文通過(guò)對(duì)真實(shí)世界決策任務(wù)中的Auto-GPT代理進(jìn)行了全面的基準(zhǔn)研究，探索了大型語(yǔ)言模型（LLM）在決策任務(wù)中的應(yīng)用。

論文鏈接：https://arxiv.org/pdf/2306.02224.pdf

作者比較了多種流行的LLM（包括GPT-4，GPT-3.5，Claude和Vicuna）在Auto-GPT決策任務(wù)中的表現(xiàn)，并引入了一種名為「額外意見(jiàn)」的新算法，該算法可以將小的專(zhuān)家模型融入到Auto-GPT方案中，從而提高了任務(wù)性能。

作者觀點(diǎn)

在這一研究中最有趣的發(fā)現(xiàn)是大語(yǔ)言模型，尤其是GPT4有了類(lèi)似于人類(lèi)的能力，可以從不同的意見(jiàn)中提取有用信息，進(jìn)行思考和批判然后提高自己的結(jié)果。

那么問(wèn)題來(lái)了，GPT是怎么受益于不同意見(jiàn)的呢？

人類(lèi)的心理學(xué)研究過(guò)一些人類(lèi)受益于不同意見(jiàn)的方式以及一些模式，比如人類(lèi)會(huì)給有權(quán)威的意見(jiàn)更多的權(quán)重，會(huì)傾向于忽略極少數(shù)的個(gè)別意見(jiàn)，會(huì)給自己的意見(jiàn)過(guò)多的權(quán)重，通常三到六個(gè)意見(jiàn)就足夠了等等。

這個(gè)方向還值得很多后續(xù)的研究，比如現(xiàn)在我們是用一個(gè)小的專(zhuān)家模型來(lái)提供不同意見(jiàn)，如果讓大模型們互相爭(zhēng)論呢？

主要貢獻(xiàn)

1.首次展示Auto-GPT可以輕松適應(yīng)與真實(shí)世界場(chǎng)景密切相似的在線(xiàn)決策任務(wù)。

2.提供了流行LLM（包括GPT-4， GPT-3.5，Claude和Vicuna）之間的全面基準(zhǔn)比較。我們提出了關(guān)于這些模型適用于自主代理的發(fā)現(xiàn)。

3. 證明了從小的專(zhuān)家模型那里獲得的第二意見(jiàn)可以顯著提高任務(wù)性能。這可以成為為在不進(jìn)行模型微調(diào)的情況下將監(jiān)督信號(hào)引入Auto-GPT的一種新的方法。

實(shí)驗(yàn)設(shè)置

提示設(shè)計(jì)

在沒(méi)有進(jìn)行大規(guī)模調(diào)優(yōu)的情況下，我們將任務(wù)需求或問(wèn)題直接作為Auto-GPT的目標(biāo)，適配了Auto-GPT進(jìn)行各項(xiàng)任務(wù)。

比如輸入像「I want to purchase a folding storage box that is easy to install, made of faux leather, and has dimensions of 60x40x40cm」的句子。

為了幫助Auto-GPT理解可用的行動(dòng)，我們將每個(gè)行動(dòng)表現(xiàn)為一個(gè)工具。

值得注意的是，在沒(méi)有示例的情況下，僅使用工具指令的效果較差。然而，只要有少量的示例，性能就會(huì)顯著提高。因此，我們?cè)诠ぞ哐菔局邪ㄒ坏饺齻€(gè)few-shot示例，以利用LLM的上下文學(xué)習(xí)能力。

考慮額外意見(jiàn)

我們進(jìn)一步改進(jìn)了Auto-GPT的工作流，以便考慮來(lái)自外部專(zhuān)家模型的額外意見(jiàn)。

具體來(lái)說(shuō)，在Auto-GPT的決策階段，我們從專(zhuān)家模型中抽樣出前k個(gè)意見(jiàn)，并將這些意見(jiàn)放入提示的上下文部分，以供大語(yǔ)言模型參考。

在這項(xiàng)工作中，我們簡(jiǎn)單地使用了對(duì)于每個(gè)任務(wù)都已經(jīng)準(zhǔn)備好的IL模型作為外部專(zhuān)家。

提供給LLM額外意見(jiàn)的提示遵循這樣的模板：‘Here’s one(a few) suggestion(s) for the command: Please use this suggestion as a reference and make your own judgement. ’

Webshop實(shí)驗(yàn)設(shè)置：

Webshop是一個(gè)模擬網(wǎng)購(gòu)環(huán)境，從http://Amazon.com上抓取超過(guò)118萬(wàn)個(gè)產(chǎn)品。

該環(huán)境提供了如搜索、點(diǎn)擊、導(dǎo)航、購(gòu)買(mǎi)等真實(shí)的行動(dòng)空間。

評(píng)估過(guò)程主要看是否成功購(gòu)買(mǎi)了描述的產(chǎn)品，需要產(chǎn)品、屬性、選項(xiàng)和價(jià)格全都匹配。

基線(xiàn)模型是采用模仿學(xué)習(xí)（IL）方法的模型，它的動(dòng)作策略組件已經(jīng)過(guò)微調(diào)。這個(gè)基線(xiàn)模型將與采用Auto-GPT方式運(yùn)行的大語(yǔ)言模型進(jìn)行比較。

ALFWorld實(shí)驗(yàn)設(shè)置

ALFWorld是一個(gè)研究環(huán)境，結(jié)合了復(fù)雜的任務(wù)導(dǎo)向和語(yǔ)言理解。該環(huán)境包含超過(guò)25000個(gè)獨(dú)特的、程序生成的任務(wù)，涵蓋廚房、客廳、臥室等真實(shí)環(huán)境。

這些任務(wù)需要復(fù)雜的解決問(wèn)題的能力和對(duì)語(yǔ)言及環(huán)境的深入理解。初始評(píng)估使用模仿學(xué)習(xí)（IL）的DAgger代理進(jìn)行，然后與采用Auto-GPT風(fēng)格的生成語(yǔ)言模型進(jìn)行比較。

實(shí)驗(yàn)結(jié)果

直接比較結(jié)果

本研究主要通過(guò)運(yùn)行Webshop和ALFWorld兩種實(shí)驗(yàn)，比較了不同的大型語(yǔ)言模型（Large Language Models，LLMs）和模仿學(xué)習(xí)（Imitation Learning，IL）模型在AutoGPT配置中的表現(xiàn)。

首先，Webshop試驗(yàn)中，GPT4表現(xiàn)出色，其性能超過(guò)了其他IL模型。盡管無(wú)圖像輸入的原始IL模型僅取得了適度的成功率，但是加入了圖像輸入的IL模型表現(xiàn)更好。

然而，只使用GPT3.5或Claude的Auto-GPT代理表現(xiàn)不如原始IL模型，但是，GPT4本身的性能優(yōu)于所有IL模型。

其次，在ALFWorld實(shí)驗(yàn)中，IL模型與Beam Search的組合顯著優(yōu)于無(wú)Beam Search的版本。而在AutoGPT設(shè)置中運(yùn)行的Claude和GPT3.5的性能均未超越IL模型，但GPT4明顯超越了IL模型的性能，無(wú)論是否使用Beam Search。

此外，我們提出了一種新的研究模式，將大型語(yǔ)言模型（LLMs）與專(zhuān)家模型結(jié)合起來(lái)。

首先從專(zhuān)家模型中采樣出前k個(gè)附加觀點(diǎn)，然后將這些觀點(diǎn)呈現(xiàn)給LLMs，讓它們考慮這些觀點(diǎn)并做出最后的決定。這種方法在GPT4上表現(xiàn)得特別好，這表明GPT4在考慮來(lái)自多個(gè)弱學(xué)習(xí)模型的觀點(diǎn)時(shí)，可以提高其性能。

總的來(lái)說(shuō)，GPT4在所有模型中表現(xiàn)出了最佳的性能，并且能夠有效地利用專(zhuān)家模型的建議來(lái)提高其決策能力。

我們推薦使用GPT4，因?yàn)樗诳紤]了其他模型的觀點(diǎn)后，其決策性能顯著提高。最后Abaltion Study證明了這些額外意見(jiàn)必須是有一點(diǎn)價(jià)值的，隨機(jī)的意見(jiàn)并沒(méi)有任何幫助，見(jiàn)AutoGPT(GPT3.5) + Random

采用額外意見(jiàn)比例

在我們的實(shí)驗(yàn)中，我們發(fā)現(xiàn)GPT-4模型在處理額外意見(jiàn)時(shí)表現(xiàn)出極高的辨別能力。即使在信息噪聲中，GPT-4也能區(qū)分出有益和無(wú)關(guān)的建議。

而GPT-3.5模型在面對(duì)可能導(dǎo)致混淆的輸入時(shí)，表現(xiàn)出了明顯的劣勢(shì)。總的來(lái)說(shuō)，LLM與額外意見(jiàn)的一致性或不一致性，很大程度上取決于LLM的理解能力和額外意見(jiàn)的質(zhì)量。