成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

斯坦福新作:無指令調優的指令遵循

人工智能 新聞
本文中,來自斯坦福大學的研究者更進一步探索了這樣一種想法,即指令遵循甚至可以隱式地從語言模型中產生,即通過并非明確設計的方法產生。

指令調優(Instruction tuning)是一種優化技術,通過對模型的輸入進行微調,以使其更好地適應特定任務。先前的研究表明,指令調優樣本效率是很高效的,只需要大約 1000 個指令-響應對或精心制作的提示和少量指令-響應示例即可。

本文中,來自斯坦福大學的研究者更進一步探索了這樣一種想法,即指令遵循甚至可以隱式地從語言模型中產生,即通過并非明確設計的方法產生。本文發現了兩種執行隱式指令調優的適應形式,與顯式指令調優相比,它們似乎存在缺陷:(1)響應調優,僅對響應進行訓練;(2)單任務調優,僅對來自狹窄目標領域的數據進行訓練,如詩歌生成。

圖片


  • 論文標題:Instruction Following without Instruction Tuning
  • 論文地址:https://arxiv.org/pdf/2409.14254
  • 博客地址:https://nlp.stanford.edu/~johnhew/instruction-following.html

首先,該研究證明,響應調優(僅對響應進行訓練而不對其指令進行條件限制)足以產生指令遵循。特別是使用 LIMA 數據集進行調優,在 AlpacaEval 2 上的評估表明,響應調優模型與指令調優模型相比,有43%的勝率,在同等性能下則對應 50% 的勝率。

響應調優不提供有關從指令到響應映射的明確信息,只提供有關所需響應分布的信息。這表明,指令-響應映射可以在預訓練期間學習,但所有理想響應的概率都太低而無法生成。

從響應調優的結果來看,指令調優的關鍵部分是得到期望響應的分布。然而,作者發現這也不重要。對單任務、窄域數據進行微調,例如將英語請求映射到Python片段,或者從詩歌標題生成詩歌,也會產生廣泛的指令遵循行為。

也就是說,盡管訓練只生成 Python 代碼或詩歌,但模型在收到指令后仍會生成傳記或食譜。例如,經過詩歌調優的 Llama-2-7B 在 AlpacaEval 2 中與經過指令調優的 Llama-2-7B 勝出 23.7%,而基礎模型勝出率為 2.4%。

總之,本文結果表明, 即使適應方法本意不在于產生指令遵循行為,它們也可能隱式地做到這一點。

圖片

論文作者之一John Hewitt 表示:這是他在斯坦福 NLP 的最后一篇論文。Hewitt即將加入哥倫比亞大學擔任助理教授。圖片

實驗設置

指令調優。指令調優可以對一個語言模型的參數θ進行微調,以調整它的行為并針對查詢給出包含相關有幫助答案的響應。給定包含指令和對應響應的一組示例D_ins = {instruction_i , response_i }^k _i=1,指令調優可以優化:

圖片 

指令格式。在語言模型實踐中,指令和響應之間的區別通過輸入中的格式化token來指定。研究者使用了 Tulu 格式。之所以會介紹指令格式,是因為它可能對從語言模型中產生指令遵循行為的難易程度很重要。

圖片 
定義指令遵循行為。研究者區分了指令遵循行為和非指令遵循行為,實際上存在一系列更好和更糟糕的響應,沒有單一的界限。為了保證一定程度的系統性,他們使用了以下評估設置

AlpacaEval vs 可比較的指令調優模型。研究者根據AlpacaEval LLM-as-a-judge框架來測量每個模型與可比較指令調優模型在長度控制方面的正面交鋒勝率。

貪婪解碼。研究者從模型中貪婪地解碼,以觀察指令遵循響應什么時候最有可能是模型的延續。

響應調優產生指令遵循

在本章中,研究者探討了響應調優,即僅對響應進行微調,而無需任何相應的指令。

響應調優方法,給定包含指令和對應響應的一組示例D_ins = {instructioni , response_i }^k_i=1,響應調優將指令字符串替換為空字符串,并優化如下:


圖片 
研究者比較了指令調優和響應調優。對于適應數據集,研究者使用包含1030個訓練示例的LIMA。對于基礎預訓練模型,研究者使用了Llama-2-7B 和 OLMo-7B-Feb2024語言模型,并對這兩個模型的所有參數進行微調。對于超參數選擇,研究者在為本文開發的held-out驗證集上使用了 AlpacaEval 相對GPT-3.5-turbo的勝率。驗證集部分手寫部分由GPT-4生成,包含各種知識、蒸餾、翻譯和行政指令,比如「給我安排兩天假期去玩《虛幻勇士》」。

結果發現,響應調優的Llama-2-7B模型對指令調優的Llama-2-7B的平均勝率是43.3%,而基礎模型對指令調優模型的勝率為2.4%。對于OLMo-7B-Feb2024,響應調優模型對指令調優模型的勝率為 43.7%, 而基礎模型的勝率為 4.7%。研究者在下圖2中提供了響應調優、指令調優和基礎Llama-2-7B模型的示例。


圖片

對于Llama-2-7B 和 OLMo-7B-Feb2024 基礎模型,響應調優模型的行為比基礎模型更接近指令調優模型。指令調優始終優于響應調優,但差別不大。因此在調整過程中指定指令會帶來一些收益,但這對于產生基線水平的指令遵循行為并不重要。


響應排序能力研究者提出了響應排序能力:為一個指令的正確響應分配的可能性高于一個其他隨機指令的預期響應。對于獨立的指令-響應對(instruction, response)~ D 和(instruction′ , response′)~ D 以及一個模型 pθ,若如下公式(3)所示,則響應排序能力成立。圖片

由于這兩個概率可能都很小,因此即使沒有遵循指令的模型,響應排序能力也可以成立。通過響應調優來增加預期響應的概率,并且當模型的很多指令具有響應排序能力時,可能會產生預期的響應。

對于Alpaca訓練集,研究者針對預訓練、LIMA 指令調優和響應調優模型,計算了它們指令對的響應排序能力成立的可能性。結果表明,預訓練模型的響應排序能力成立的可能性與指令調優模型類似。具體如下表2所示。圖片

單任務微調產生指令遵循

此方法與指令調優相同,只是輸入和輸出的分布發生了變化。

研究發現,在每個單任務微調數據集上對 Llama-2-7B 和 OLMo-7B-Feb2024 進行微調都會導致一般的指令遵循行為,并且與基礎模型相比,指令調優模型(表 3)的勝率明顯更高。
圖片 
在 OLMo-7B-Feb2024 和 Llama-2-7B上,對 GSM 數據集進行微調可獲得最高的 AlpacaEval 勝率。圖 4 提供了模型輸出的示例。
圖片 
如圖 5 所示,對于非常類似于 GSM 的指令,模型輸出遵循 GSM 樣式及其使用的特定數學符號。然而,對于大多數指令,作者注意到輸出僅受到 GSM 的細微影響:它們具有普遍存在的 GSM 序列結尾樣式,以四個哈希和一個整數答案結尾,例如 ####1。


圖片

更多技術細節和實驗結果請參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-28 09:52:00

2012-03-21 21:38:27

蘋果

2013-01-31 09:45:14

斯坦福超級電腦百萬內核

2023-10-18 09:25:08

模型推理

2022-10-20 15:38:02

谷歌模型

2019-12-16 14:33:01

AI人工智能斯坦福

2009-05-19 09:06:41

Apple斯坦福iPhone

2025-01-17 10:26:19

模型開發ChatGPT

2024-12-03 10:30:00

AI模型

2022-02-09 10:06:21

觸覺設備計算機人工智能

2018-12-03 09:35:26

互聯網

2016-09-27 16:06:48

2017-11-28 14:18:29

2024-07-12 13:40:23

2021-03-05 10:57:33

AI 數據人工智能

2021-03-10 14:48:27

人工智能

2025-06-04 08:00:00

2022-07-04 09:12:09

AI技術論文

2024-04-24 09:47:36

2025-04-09 11:25:36

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 超碰超碰| 黄色精品| 91 在线 | 久久新| 国产精品电影在线观看 | 精品九九九 | 欧美性网 | 黄色av网站免费看 | 国产视频久久久 | 一区二区三区国产好 | 日本成人久久 | 黄色片免费看 | 无码一区二区三区视频 | 精品国产91久久久久久 | 国产精品视频久久久 | 精品自拍视频在线观看 | 可以免费看的毛片 | 一级看片免费视频囗交动图 | 久久免费精品 | 亚洲综合二区 | 久久影院一区 | 国产资源一区二区三区 | 成人在线电影网站 | 亚洲手机在线 | 国产精品波多野结衣 | 亚洲一级黄色 | 亚洲色欧美另类 | 日韩一区二区在线观看 | 国产成人99久久亚洲综合精品 | 午夜视频免费在线观看 | www.亚洲视频.com | 精品国模一区二区三区欧美 | 欧美日韩专区 | 日日草天天干 | 插插插干干干 | 久草综合在线视频 | 日韩欧美在线免费观看 | 中文字幕在线不卡 | 国产一级片久久久 | 国产精品久久久久久久久污网站 | 青青草亚洲 |