像GPT-4這樣的大型語言模型在應(yīng)用中出現(xiàn)的涌現(xiàn)能力是幻象嗎?
5月24日 事實證明,人們對于AI能力的認(rèn)知還有許多誤區(qū)和歧義,因此需要消除這些誤解。
像ChatGPT和GPT-4這樣的大型語言模型(LLM)得到全球關(guān)注,人們也在充分發(fā)揮他們的想象力,這樣功能強(qiáng)大的AI系統(tǒng)展現(xiàn)出了迷人的魅力,但許多研究人員指出,很多人對大型語言模型的了解只是冰山一角。
斯坦福大學(xué)研究人員日前進(jìn)行的一項研究表明,大型語言模型(LLM)的一些能力可能被人們誤解了。研究人員研究了先前報道的大型語言模型(LLM)在訓(xùn)練和開發(fā)過程中出現(xiàn)的“涌現(xiàn)能力”。他們在研究中發(fā)現(xiàn),當(dāng)選擇正確的指標(biāo)來評估大型語言模型(LLM)時,大型語言模型(LLM)的涌現(xiàn)能力就會消失。
這項研究的結(jié)果很重要,因為它揭開了大型語言模型(LLM)具有的一些神奇能力的神秘面紗,并且還對“規(guī)模是創(chuàng)造更好的大型語言模型唯一途徑”這一觀點提出了質(zhì)疑。
大型語言模型(LLM)的涌現(xiàn)能力
一些研究已經(jīng)檢驗了大型語言模型(LLM)顯示出的涌現(xiàn)能力。一項研究將涌現(xiàn)能力定義為“在較小的模型中不存在,但在較大的模型中存在的能力”。基本上,這意味著機(jī)器學(xué)習(xí)模型在某些任務(wù)上具有隨機(jī)性能,直到其大小達(dá)到一定的閾值。在達(dá)到閾值之后,隨著其規(guī)模的增長,大型語言模型(LLM)的能力將開始提升。可以在圖1中看到LLM表現(xiàn)出的涌現(xiàn)能力,其性能在一定范圍內(nèi)突然躍升。
大型語言模型(LLM)顯示出大規(guī)模的涌現(xiàn)能力,在模型大小達(dá)到一定閾值之前,其完成任務(wù)的性能保持在隨機(jī)水平。之后,隨著模型規(guī)模的變大,其性能將會躍升并開始提高。
研究人員對LaMDA、GPT-3、Gopher、Chinchilla和PaLM等具有1000多億個參數(shù)的大型語言模型(LLM)的涌現(xiàn)能力進(jìn)行了研究。這些研究包括從BIG-Bench中選擇的任務(wù),BIG-Bench是一個眾包基準(zhǔn),包括語言學(xué)、常識推理和數(shù)學(xué)等許多領(lǐng)域。他們還使用了TruthfulQA、大規(guī)模多任務(wù)語言理解(MMLU)和場景中的單詞(WiC)進(jìn)行了測試,這些測試都是為了了解大型語言模型(LLM)在處理復(fù)雜語言任務(wù)方面的局限性。
有幾個原因使大型語言模型(LLM)的涌現(xiàn)能力變得非常重要。首先,這些研究表明,在開展進(jìn)一步創(chuàng)新的情況下擴(kuò)展大型語言模型(LLM)規(guī)模可以繼續(xù)在更通用的AI能力方面取得進(jìn)展。其次,隨著大型語言模型(LLM)的發(fā)展,人們無法預(yù)測它們會帶來什么。當(dāng)然,這些研究結(jié)果將會進(jìn)一步強(qiáng)化大型語言模型(LLM)的神秘光環(huán)。
為什么大型語言模型(LLM)的涌現(xiàn)能力會被炒作
斯坦福大學(xué)的這項新研究對大型語言模型(LLM)所謂的涌現(xiàn)能力提出了不同的看法。根據(jù)他們的研究,對大型語言模型(LLM)的涌現(xiàn)能力的觀察通常是由于指標(biāo)的選擇引起的,而不是規(guī)模。斯坦福大學(xué)的研究人員認(rèn)為,“現(xiàn)在關(guān)于涌現(xiàn)能力的說法是研究人員分析的結(jié)果,而不是特定任務(wù)中模型行為隨著規(guī)模的增加而發(fā)生變化。”他們指出,強(qiáng)有力的支持證據(jù)表明,涌現(xiàn)能力可能不是擴(kuò)展AI模型的基本屬性。
具體來說,他們認(rèn)為涌現(xiàn)能力似乎只出現(xiàn)在非線性或不連續(xù)地縮放任何模型的每個令牌錯誤率的指標(biāo)下。這意味著在衡量任務(wù)性能時,一些指標(biāo)可能顯示出大規(guī)模的涌現(xiàn)能力,而另一些則顯示出持續(xù)的改進(jìn)。
例如,有些測試只測量大型語言模型(LLM)輸出正確令牌的數(shù)量。這種情況尤其發(fā)生在與分類和數(shù)學(xué)相關(guān)的任務(wù)中,只有當(dāng)所有生成的令牌都是正確的時候,其輸出才是正確的。
實際上,LLM模型輸出的令牌逐漸接近正確的令牌。但由于最終答案與基本事實不同,它們都被歸類為不正確,直到它們達(dá)到所有標(biāo)記都是正確的閾值。
研究人員表示,在他們的研究中,如果對相同的輸出使用不同的指標(biāo),涌現(xiàn)能力就會消失,LLM模型的性能也會平衡提高。這些指標(biāo)衡量的是到達(dá)正確答案的線性距離,而不僅僅是計算正確答案。
當(dāng)用非線性指標(biāo)進(jìn)行評估時,LLM出現(xiàn)涌現(xiàn)能力;當(dāng)用線性指標(biāo)進(jìn)行評估時,性能會平穩(wěn)提高
研究人員還發(fā)現(xiàn),在某些情況下,出現(xiàn)涌現(xiàn)能力是由于沒有足夠的測試數(shù)據(jù)。通過創(chuàng)建更大的測試數(shù)據(jù)集,其性能改進(jìn)就會變得穩(wěn)步提高。
為了進(jìn)一步證明這一點,研究人員試圖了解是否能在其他類型的深度神經(jīng)網(wǎng)絡(luò)中重現(xiàn)涌現(xiàn)能力的情況。他們對視覺任務(wù)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行了測試。測試結(jié)果表明,如果他們使用非線性指標(biāo)來評估LLM模型的性能,那么就會觀察到在大型語言模型(LLM)中會出現(xiàn)相同的情況。
為什么這個結(jié)論至關(guān)重要?
研究人員在發(fā)表的論文總結(jié)出一個重要的結(jié)論:“對于一個固定的任務(wù)和一個固定的模型家族,研究人員可以選擇一個指標(biāo)來創(chuàng)建涌現(xiàn)能力,也可以選擇一個指標(biāo)來消除涌現(xiàn)能力。因此,涌現(xiàn)能力可能是研究人員選擇的產(chǎn)物,而不是模型家族在特定任務(wù)上的基本屬性。”
研究人員表示,并不是說大型語言模型(LLM)不能顯示出涌現(xiàn)能力,但他們強(qiáng)調(diào),之前聲稱的LLM中的涌現(xiàn)能力可能是研究人員在分析時引發(fā)的幻象。
這一研究的一個重要收獲是對于認(rèn)識大型語言模型(LLM)性能提供了一個更關(guān)鍵的視角。鑒于LLM的驚人能力和成果,如今已經(jīng)有了一種將它們擬人化的趨勢,或?qū)⑺鼈兣c其不具備的特性聯(lián)系起來。
這項研究得出的結(jié)論很重要,因為它們將有助于為大型語言模型(LLM)領(lǐng)域帶來更清醒的認(rèn)識,并更好地理解擴(kuò)大LLM模型規(guī)模的影響。Sam Bowman最近發(fā)布的一篇論文指出:“當(dāng)實驗室投資訓(xùn)練一個新的大型語言模型(LLM)并逐步擴(kuò)大規(guī)模時,他們有理由相信將會獲得具有經(jīng)濟(jì)價值的各種新能力,但他們幾乎無法對這些能力做出自信的預(yù)測,或者他們需要做些什么準(zhǔn)備才能負(fù)責(zé)任地部署這些能力。”而有了更好的技術(shù)來衡量和預(yù)測改進(jìn),研究人員將能夠更好地評估更大的LLM模型的效益和風(fēng)險。
這種方法也有助于鼓勵研究人員探索創(chuàng)建更大的大型語言模型(LLM)的替代方案。雖然只有大型科技公司才能負(fù)擔(dān)得起訓(xùn)練和測試大型LLM的成本,但規(guī)模較小的公司也可以對較小的模型進(jìn)行研究。有了這些指標(biāo),他們將能夠更好地探索這些較小的LLM的功能,并找到新的研究方向來改進(jìn)它們。