成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

無需SFT也不用RL,樣本級推理優化神器SLOT來了,準確率輕松+10%

人工智能 新聞
近期,當很多人還在糾結用什么 label 和 reward 訓練大模型的時候,以及糾結用什么樣的基準模型進行公平比較的時候,西湖大學 MAPLE 實驗室另辟蹊徑:既然 LLM 在復雜指令上表現不佳,需要引入單獨的 SFT 或者 RL 過程,那為什么不讓模型在推理時「臨時學習」一下這個具體的問題呢?這個看似「離譜」的想法,竟然帶來了驚人的效果提升。

試想一下,如果你參加考試時,可以在答題前花幾秒鐘「適應」一下這道具體的題目,你的表現會不會更好?

這正是西湖大學研究團隊在最新論文中提出的核心思想。他們開發的 SLOT(Sample-specific Language Model Optimization at Test-time)方法,把每個輸入 prompt 本身當作一份「迷你訓練數據」,讓模型在生成答案前先「學習」理解這個具體問題。

更令人驚訝的是,這個方法簡單到離譜:

  • 只需要優化一個輕量級參數向量 delta(僅修改最后一層特征)
  • 只需要幾步 (比如 3 步) 梯度下降
  • 計算開銷幾乎可以忽略不計(僅增加 7.9% 推理時間)
  • 完全即插即用,無需修改原模型

圖片


效果炸裂

多項基準測試刷新紀錄

即便拿最有挑戰性的高性能基線做比較對象,實驗結果令人矚目 (所有 log 都在開源 github 里):

  • Qwen2.5-7B 在 GSM8K 數學推理任務上準確率從 57.54% 飆升至 66.19%,提升 8.65 個百分點。
  • DeepSeek-R1-Distill-Llama-70B 在 GPQA Diamond 上達到 68.69%,創下 70B 級別開源模型新紀錄
  • 在高難度的 AIME 2024 數學競賽題上,多個模型實現 10% 以上的提升

圖片

核心創新

把 Prompt 當作「測試時訓練樣本」

傳統的 LLM 在面對復雜或特殊格式的指令時經常「翻車」,它可能會忽略格式要求或給出錯誤答案。

SLOT 的解決方案優雅而簡單:針對單獨一個問題,直接在最后一層特征上加一個 delta 向量,并在問題 prompt 本身上最小化交叉熵損失即可。

由于僅僅需要在最后一層上優化一個加性的 delta 參數向量,每個問題只需要經過一次網絡推理。通過把輸入給最后一層的中間結果進行緩存,優化 delta 的過程幾乎不需要增加計算開銷。

圖片

由于方法十分簡單,任何偽代碼公式都多余,這里給出如何把 SLOT 應用于你的工作的 transformers 版本代碼(vLLM 版本也已開源)。

以 modeling_qwen.py 里 Qwen2ForCausalLM 模型為例,研究團隊在 forward 函數里獲得 hidden_states 之后插入這段代碼:首先初始化一個全 0 的 delta 向量,加在 last hidden states 上;然后用當前的 prompt 作為訓練數據,delta 作為可學習參數,以交叉熵損失優化,得到 sample-specific 的 delta 參數;之后即可用優化好的 delta 生成后續 token。

圖片

為什么如此有效?

深入分析揭示秘密

研究團隊通過分析發現,SLOT 優化后的 delta 會顯著調整輸出詞匯的概率分布:

圖片


  • 增強的詞匯:reasoning、think、thinking 等推理相關詞匯
  • 抑制的詞匯:數字符號(0-9)、模態動詞(should、will)、結束符 </s>

這意味著 SLOT 在鼓勵模型「深思熟慮」,避免過早結束推理或陷入表面的模式匹配。

亮點在于:不同于 SFT 或者 RL 的微調算法,該方法無需:

  • 修改模型架構
  • 額外的訓練數據
  • 復雜的采樣策略
  • 昂貴的計算資源

廣泛適用

從 1.5B 到 70B,從基礎模型到推理專家

SLOT 在各種規模和類型的模型上都展現出穩定的提升:

  • Qwen 系列:1.5B 到 32B 均有提升。
  • Llama 系列:包括 Llama-3.1。
  • DeepSeek-R1 系列:即使是已經專門優化過推理能力的模型,仍能獲得顯著提升。

特別值得注意的是,在最具挑戰性的任務上,SLOT 的提升最為明顯:

  • C-Eval Hard 子集:+8.55%
  • AIME 2024:部分模型提升超過 13%
  • GPQA Diamond: 由 65.66 提升到 68.69 (開源 sota 級別)

結語

在大模型時代,當所有人都在追求「更大、更強」時,SLOT 用一個簡單得「離譜」的想法證明:有時候,讓模型在回答前先「理解」一下問題,就能帶來驚人的效果。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-10-26 08:40:15

模型隱私推理

2025-05-29 09:18:20

2023-12-12 13:51:00

AI訓練

2022-09-25 17:07:27

訓練圖像

2023-10-28 13:36:48

模型ChatGPT

2025-03-11 08:50:00

2023-11-20 21:56:04

AI推理

2025-06-06 04:10:00

LLM人工標注RL

2025-04-18 08:42:52

模型推理AI

2023-11-01 13:47:12

模型研究

2022-04-09 10:16:52

神經網絡深度學習AI

2025-02-17 10:37:27

2023-02-03 16:31:02

模型

2024-06-06 10:08:32

2022-04-22 10:29:46

機器學習數據集計算

2025-05-21 13:56:37

模型圖像AI

2024-09-12 13:50:00

模型訓練

2022-06-07 07:38:43

威士忌氣味測試

2024-07-08 08:39:00

2024-04-19 13:53:20

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产成人免费视频网站视频社区 | 国产精品美女一区二区三区 | 黄色一级电影在线观看 | 国产精品免费一区二区三区 | 在线国产一区 | 亚洲二区在线观看 | 伊人91在线 | 黄网站涩免费蜜桃网站 | 精品久久久久久久久久久久久久 | 久久久久久亚洲国产精品 | 红桃成人在线 | 日韩在线视频网址 | 久热精品免费 | 一级黄色淫片 | www.99热这里只有精品 | 81精品国产乱码久久久久久 | 国产高清精品一区二区三区 | 最新中文字幕在线 | 亚洲综合第一页 | 91精品一区 | 在线观看视频91 | 武道仙尊动漫在线观看 | 黑人巨大精品欧美一区二区免费 | 日韩在线免费 | 久久综合久色欧美综合狠狠 | 黄网站在线播放 | 免费a v网站 | 狠狠色狠狠色综合系列 | 久久99蜜桃综合影院免费观看 | 最新日韩欧美 | 天天色综网 | 色资源在线 | 99视频在线 | 一区二区三区四区毛片 | 中文字幕在线一区二区三区 | 波多野结衣电影一区 | 精品欧美一区二区三区久久久 | 亚洲高清视频在线 | 国产99久久 | 日本成年免费网站 | 精品美女视频在免费观看 |