不用RLHF，匹敵GPT-4！Meta重磅發布LIMA 65B，1000個樣本性能飛升，LeCun轉贊

作者：新智元 2023-05-23 13:45:15

人工智能

RLHF并沒有那么重要！Meta最新650億參數模型LIMA，僅用1000個樣本，實現與GPT-4相匹敵的性能。

人人都知，讓ChatGPT稱霸天下的秘密武器，就是人類反饋強化學習（RLHF）。

而現在，Meta AI等機構的爆火研究LIMA直接打破這一規則，直言RLHF并沒有那么重要！

論文一出，直接在AI圈炸了鍋！

就連LeCun忍不住發推炫一番：LIMA：LLaMa-65B+1000監督樣本=GPT-4/Bard級別的性能。

正如標題所稱，LIMA是「Less is More for Alignment」，暗示著一個強大的預訓練AI模型，通過幾個樣本就足以實現高質量的結果。

而LIMA僅在1000個精心挑選的樣本上微調LLaMa-65B，而且無需RLHF，就實現了與GPT-4和Bard相媲美的性能。

論文地址：https://arxiv.org/abs/2305.11206

論文中，研究人員將這一突破稱為「表面對齊假設」（Superficial Alignment Hypothesis）。

實驗證明了，大語言模型在預訓練階段就已習得大部分知識，僅用有限的指令微調數據，足以教會模型產生高質量的內容。

高質量的數據就可以克服小樣本量？訓練這樣模型的成本是多少，這是否意味著小型LLM玩家可以與OpenAI/谷歌競爭？

還有網友質疑，GPT-4在57%情況中擊敗LIMA，還能說性能相當？

RLHF并非王者？

大語言模型經過預訓練，能在大規模上預測下一個token，讓其學習通用表征。這些表征可以轉移到幾乎任何語言理解或生成任務中。

為了實現這種轉移，人們已經提出各種「對齊」語言模型的方法，主要側重在百萬級token上進行指令調優。

而最近采用較多的是，從人類反饋中進行強化學習（RLHF）。這些反饋便是在與人類標注者進行數百萬次互動中收集的。

ChatGPT令人深刻的表現，主要歸功于RLHF。根據OpenAI的思路，RLHF分為三步。

然而，現有的對齊方法代價是高昂的，需要大量算力，以及專門的數據才能實現像ChatGPT一樣的性能。

Meta AI卻要逆行其道，證明了，一個預訓練語言模型可以通過簡單地微調精心挑選的1000個樣本，就能實現強大的性能。

在此，研究人員提出「表面對齊假設」（Superficial Alignment Hypothesis），假設「對齊」可以是一個簡單的過程，。

在這個過程中，模型的知識和能力幾乎完全是在預訓練期間學習的，而「對齊」只告訴模型學習與用戶交互的風格或格式

為了驗證這個假設，Meta等研究者挑選了1000個近似于真實用戶提示，以及高質量響應的樣本。

他們從其他研究論文、WikiHow、StackExchange和Reddit等來源進行手動挑選，訓練數據的總量大約是750,000個token。

訓練提示（輸入）、響應（輸出）以及測試提示的來源

此外，研究者手動編寫了250個提示和響應的樣本，同時對任務的多樣性進行了優化。

最后，研究人員對預訓練LLaMa 65B模型在1000個樣本集上進行微調，并進行了人類評估。

評估結果

Meta將LIMA與5個模型基準進行了比較：（在2023年4月期間，對所有基準的響應進行了采樣）

Alpaca 65B——利用52,000個樣本對LLaMa 65B微調后得到的大模型

DaVinci003——基于RLHF訓練的大語言模型

Bard——基于谷歌的PaLM模型

Claude——通過強化學習Constitutional AI訓練的52B參數模型

GPT-4——目前使用RLHF訓練的最強的模型

為了比較LIMA和其他SOTA模型，Meta為每個測試提示生成一個單一的響應。

然后，要求人類參與者將LIMA的輸出與每個基準進行比較，并標記他們更喜歡哪一個。

在人類偏好研究中，盡管Alpaca 65B的訓練數據量是LIMA的52倍，但它產生的輸出往往比LIMA的不如人意。

讓人大跌眼鏡的是，DaVinci003也是同樣的情況，雖然程度較小。該模型使用了RLHF進行訓練，這本應是一種更優越的對齊方法。

而Bard在42%的時間中，其產生的回答優于LIMA。這也意味著，剩下的58%時間里，LIMA的響應至少和Bard一樣優秀。

最后，研究者發現，雖然Claude和GPT-4通常表現得比LIMA更好，但在一些情況下，LIMA實際上能產生更好的回答。

另外，諷刺的是，在GPT-4的偏好研究中，有19%的時間，GPT-4更喜歡LIMA的輸出。

「表面對齊假設」

Meta將這一發現定義為「表面對齊假設」（Superficial Alignment Hypothesis）。

它表明，所謂預訓練后的對齊階段，主要是讓模型學會一種特定的風格或格式，這種風格或格式在與用戶交互時可以被模型回憶起來。

因此，「微調」更多是關于風格，而不是實質。

LIMA的結果表明，實際上，利用簡單的方法就可以解決對齊和微調AI模型這類復雜問題。

這與諸如OpenAI的RLHF那些，特別繁瑣和復雜的微調過程，形成了鮮明的對比。

不過，LIMA也不是萬能的。Meta認為，該方法存在兩個明顯的局限：

第一，用高質量的示例構建數據集是一種非常具有挑戰性的方法，很難擴展。

第二，LIMA并不像已經有產品的模型那樣強大，比如GPT-4。

團隊表示，雖然LIMA的生成結果，在大部分情況下質量都很高。但一個「對抗性的提示」或一個「不走運的樣本」，依然會讓模型產生不理想的答案。

Yann LeCun對GPT-4和類似模型背后努力的相對貶值采取了務實的看法。

他將大型語言模型看作是近期的一個元素，至少在中期內不會「在沒有重大變化」的情況下發揮作用。

以上，主要評估是根據最先進的模型對LIMA進行評估，但需要明確的是，其中一些模型實際上已經在訓練期間使用了數百萬真實用戶的提示。

對此，研究人員通過手動分析50個隨機示例來進行絕對的評估。

并將每個示例標記成3個類別：Fail，響應不符合提示符的要求；Pass，響應符合；Excellent，對提示提供了優秀的響應。

實驗結果顯示，50%的LIMA回答被認為是優秀的，它能夠遵循所有的50個分析提示中的44個。

如下，LIMA針對育兒建議和生成食譜的示例進行的輸出。

另外，一個僅在1000個樣本上微調的模型在多輪對話中表現又如何？

在零樣本上，LIMA的響應出奇地連貫，并引用了前面對話的信息。在10次對話中，LIMA有3次未能遵循提示。

為了提高對話能力，研究人員收集了30個多輪對話。其中10個是由作者手動編寫，20個來自Stack Exchange，并根據助手風格進行編輯。

研究者使用組合的1,030個示例對預訓練模型進行微調，得到一個新版本的LIMA，并針對相同的提示進行了10次實時對話。

實驗發現加入這30個示例后生成質量顯著提升，優質響應比例從45.2％提高到76.1％！

LIMA如何以「少」勝「多」

團隊通過消融實驗，研究了訓練數據多樣性、質量和數量的影響。

Meta發現，為了對齊目的，提高輸入多樣性和輸出質量有可測量的正面效應，而單獨增加數量卻沒有。

實驗設置

團隊在各種數據集上微調了一個擁有70億參數的LLaMa模型，并控制了相同的超參數。

團隊對每個測試集提示抽取5個回應，并通過讓ChatGPT（GPT-3.5 Turbo）在1-6的Likert量表上評級回應的幫助性來評估回應質量。

多樣性

為了測試提示多樣性的影響，同時控制質量和數量，團隊比較了在質量過濾后的Stack Exchange數據和wikiHow數據上的訓練效果。

圖5顯示，更多樣的Stack Exchange數據顯著提升了模型的性能。

質量

為了測試響應質量的影響，團隊從Stack Exchange抽取了2000個沒有任何質量或風格過濾的示例，并比較了在這個數據集和過濾后的數據集上訓練的模型。

圖5顯示，在過濾和未過濾的數據源上訓練的模型之間存在著0.5點的差異。

數量

在眾多機器學習設置中，都會采用增加示例數量的策略，來提升性能。

為了測試其影響，團隊從Stack Exchange中抽取了呈指數增長的訓練集。

但實際上，如圖6所示，數據翻倍的訓練集并未改善響應質量。

如此一來也暗示了，對齊的規模法則不必然只受數量影響，而更可能是在保持高質量響應的同時，提升提示的多樣性。

作者介紹

Chunting Zhou是Meta AI的一名研究科學家。

2022年5月，她在卡內基梅隆大學語言技術研究所獲得博士學位，在那里從事自然語言處理工作，導師是Graham Neubig。Zhou的主要研究興趣在于自然語言處理和機器學習的交叉領域，并對開發對分布變化具有魯棒性的方法感興趣，目的是學習模型能夠在各種群體中表現統一。

此外，Zhou還研究生成模型，及其在自然語言處理任務中的應用。

參考資料：

https://arxiv.org/abs/2305.11206

責任編輯：武曉燕來源：新智元

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看