小模型的意見(jiàn)也有用!GPT-4+AutoGPT在線(xiàn)決策:買(mǎi)東西再也不用糾結(jié)了
這篇論文通過(guò)對(duì)真實(shí)世界決策任務(wù)中的Auto-GPT代理進(jìn)行了全面的基準(zhǔn)研究,探索了大型語(yǔ)言模型(LLM)在決策任務(wù)中的應(yīng)用。
論文鏈接:https://arxiv.org/pdf/2306.02224.pdf
作者比較了多種流行的LLM(包括GPT-4,GPT-3.5,Claude和Vicuna)在Auto-GPT決策任務(wù)中的表現(xiàn),并引入了一種名為「額外意見(jiàn)」的新算法,該算法可以將小的專(zhuān)家模型融入到Auto-GPT方案中,從而提高了任務(wù)性能。
作者觀點(diǎn)
在這一研究中最有趣的發(fā)現(xiàn)是大語(yǔ)言模型,尤其是GPT4有了類(lèi)似于人類(lèi)的能力,可以從不同的意見(jiàn)中提取有用信息,進(jìn)行思考和批判然后提高自己的結(jié)果。
那么問(wèn)題來(lái)了,GPT是怎么受益于不同意見(jiàn)的呢?
人類(lèi)的心理學(xué)研究過(guò)一些人類(lèi)受益于不同意見(jiàn)的方式以及一些模式,比如人類(lèi)會(huì)給有權(quán)威的意見(jiàn)更多的權(quán)重,會(huì)傾向于忽略極少數(shù)的個(gè)別意見(jiàn),會(huì)給自己的意見(jiàn)過(guò)多的權(quán)重,通常三到六個(gè)意見(jiàn)就足夠了等等。
這個(gè)方向還值得很多后續(xù)的研究,比如現(xiàn)在我們是用一個(gè)小的專(zhuān)家模型來(lái)提供不同意見(jiàn),如果讓大模型們互相爭(zhēng)論呢?
主要貢獻(xiàn)
1.首次展示Auto-GPT可以輕松適應(yīng)與真實(shí)世界場(chǎng)景密切相似的在線(xiàn)決策任務(wù)。
2.提供了流行LLM(包括GPT-4, GPT-3.5,Claude和Vicuna)之間的全面基準(zhǔn)比較。我們提出了關(guān)于這些模型適用于自主代理的發(fā)現(xiàn)。
3. 證明了從小的專(zhuān)家模型那里獲得的第二意見(jiàn)可以顯著提高任務(wù)性能。這可以成為為在不進(jìn)行模型微調(diào)的情況下將監(jiān)督信號(hào)引入Auto-GPT的一種新的方法。
實(shí)驗(yàn)設(shè)置
提示設(shè)計(jì)
在沒(méi)有進(jìn)行大規(guī)模調(diào)優(yōu)的情況下,我們將任務(wù)需求或問(wèn)題直接作為Auto-GPT的目標(biāo),適配了Auto-GPT進(jìn)行各項(xiàng)任務(wù)。
比如輸入像「I want to purchase a folding storage box that is easy to install, made of faux leather, and has dimensions of 60x40x40cm」的句子。
為了幫助Auto-GPT理解可用的行動(dòng),我們將每個(gè)行動(dòng)表現(xiàn)為一個(gè)工具。
值得注意的是,在沒(méi)有示例的情況下,僅使用工具指令的效果較差。然而,只要有少量的示例,性能就會(huì)顯著提高。因此,我們?cè)诠ぞ哐菔局邪ㄒ坏饺齻€(gè)few-shot示例,以利用LLM的上下文學(xué)習(xí)能力。
考慮額外意見(jiàn)
我們進(jìn)一步改進(jìn)了Auto-GPT的工作流,以便考慮來(lái)自外部專(zhuān)家模型的額外意見(jiàn)。
具體來(lái)說(shuō),在Auto-GPT的決策階段,我們從專(zhuān)家模型中抽樣出前k個(gè)意見(jiàn),并將這些意見(jiàn)放入提示的上下文部分,以供大語(yǔ)言模型參考。
在這項(xiàng)工作中,我們簡(jiǎn)單地使用了對(duì)于每個(gè)任務(wù)都已經(jīng)準(zhǔn)備好的IL模型作為外部專(zhuān)家。
提供給LLM額外意見(jiàn)的提示遵循這樣的模板:‘Here’s one(a few) suggestion(s) for the command: Please use this suggestion as a reference and make your own judgement. ’
Webshop實(shí)驗(yàn)設(shè)置:
Webshop是一個(gè)模擬網(wǎng)購(gòu)環(huán)境,從http://Amazon.com上抓取超過(guò)118萬(wàn)個(gè)產(chǎn)品。
該環(huán)境提供了如搜索、點(diǎn)擊、導(dǎo)航、購(gòu)買(mǎi)等真實(shí)的行動(dòng)空間。
評(píng)估過(guò)程主要看是否成功購(gòu)買(mǎi)了描述的產(chǎn)品,需要產(chǎn)品、屬性、選項(xiàng)和價(jià)格全都匹配。
基線(xiàn)模型是采用模仿學(xué)習(xí)(IL)方法的模型,它的動(dòng)作策略組件已經(jīng)過(guò)微調(diào)。這個(gè)基線(xiàn)模型將與采用Auto-GPT方式運(yùn)行的大語(yǔ)言模型進(jìn)行比較。
ALFWorld實(shí)驗(yàn)設(shè)置
ALFWorld是一個(gè)研究環(huán)境,結(jié)合了復(fù)雜的任務(wù)導(dǎo)向和語(yǔ)言理解。該環(huán)境包含超過(guò)25000個(gè)獨(dú)特的、程序生成的任務(wù),涵蓋廚房、客廳、臥室等真實(shí)環(huán)境。
這些任務(wù)需要復(fù)雜的解決問(wèn)題的能力和對(duì)語(yǔ)言及環(huán)境的深入理解。初始評(píng)估使用模仿學(xué)習(xí)(IL)的DAgger代理進(jìn)行,然后與采用Auto-GPT風(fēng)格的生成語(yǔ)言模型進(jìn)行比較。
實(shí)驗(yàn)結(jié)果
直接比較結(jié)果
本研究主要通過(guò)運(yùn)行Webshop和ALFWorld兩種實(shí)驗(yàn),比較了不同的大型語(yǔ)言模型(Large Language Models,LLMs)和模仿學(xué)習(xí)(Imitation Learning,IL)模型在AutoGPT配置中的表現(xiàn)。
首先,Webshop試驗(yàn)中,GPT4表現(xiàn)出色,其性能超過(guò)了其他IL模型。盡管無(wú)圖像輸入的原始IL模型僅取得了適度的成功率,但是加入了圖像輸入的IL模型表現(xiàn)更好。
然而,只使用GPT3.5或Claude的Auto-GPT代理表現(xiàn)不如原始IL模型,但是,GPT4本身的性能優(yōu)于所有IL模型。
其次,在ALFWorld實(shí)驗(yàn)中,IL模型與Beam Search的組合顯著優(yōu)于無(wú)Beam Search的版本。而在AutoGPT設(shè)置中運(yùn)行的Claude和GPT3.5的性能均未超越IL模型,但GPT4明顯超越了IL模型的性能,無(wú)論是否使用Beam Search。
此外,我們提出了一種新的研究模式,將大型語(yǔ)言模型(LLMs)與專(zhuān)家模型結(jié)合起來(lái)。
首先從專(zhuān)家模型中采樣出前k個(gè)附加觀點(diǎn),然后將這些觀點(diǎn)呈現(xiàn)給LLMs,讓它們考慮這些觀點(diǎn)并做出最后的決定。這種方法在GPT4上表現(xiàn)得特別好,這表明GPT4在考慮來(lái)自多個(gè)弱學(xué)習(xí)模型的觀點(diǎn)時(shí),可以提高其性能。
總的來(lái)說(shuō),GPT4在所有模型中表現(xiàn)出了最佳的性能,并且能夠有效地利用專(zhuān)家模型的建議來(lái)提高其決策能力。
我們推薦使用GPT4,因?yàn)樗诳紤]了其他模型的觀點(diǎn)后,其決策性能顯著提高。最后Abaltion Study證明了這些額外意見(jiàn)必須是有一點(diǎn)價(jià)值的,隨機(jī)的意見(jiàn)并沒(méi)有任何幫助,見(jiàn)AutoGPT(GPT3.5) + Random
采用額外意見(jiàn)比例
在我們的實(shí)驗(yàn)中,我們發(fā)現(xiàn)GPT-4模型在處理額外意見(jiàn)時(shí)表現(xiàn)出極高的辨別能力。即使在信息噪聲中,GPT-4也能區(qū)分出有益和無(wú)關(guān)的建議。
而GPT-3.5模型在面對(duì)可能導(dǎo)致混淆的輸入時(shí),表現(xiàn)出了明顯的劣勢(shì)。總的來(lái)說(shuō),LLM與額外意見(jiàn)的一致性或不一致性,很大程度上取決于LLM的理解能力和額外意見(jiàn)的質(zhì)量。