無需SFT也不用RL，樣本級推理優化神器SLOT來了，準確率輕松+10%

2025-06-10 09:05:00

近期，當很多人還在糾結用什么 label 和 reward 訓練大模型的時候，以及糾結用什么樣的基準模型進行公平比較的時候，西湖大學 MAPLE 實驗室另辟蹊徑：既然 LLM 在復雜指令上表現不佳，需要引入單獨的 SFT 或者 RL 過程，那為什么不讓模型在推理時「臨時學習」一下這個具體的問題呢？這個看似「離譜」的想法，竟然帶來了驚人的效果提升。

試想一下，如果你參加考試時，可以在答題前花幾秒鐘「適應」一下這道具體的題目，你的表現會不會更好？

這正是西湖大學研究團隊在最新論文中提出的核心思想。他們開發的 SLOT（Sample-specific Language Model Optimization at Test-time）方法，把每個輸入 prompt 本身當作一份「迷你訓練數據」，讓模型在生成答案前先「學習」理解這個具體問題。

更令人驚訝的是，這個方法簡單到離譜：

只需要優化一個輕量級參數向量 delta（僅修改最后一層特征）
只需要幾步 (比如 3 步) 梯度下降
計算開銷幾乎可以忽略不計（僅增加 7.9% 推理時間）
完全即插即用，無需修改原模型

論文標題：SLOT: Sample-specific Language Model Optimization at Test-time
論文地址：https://arxiv.org/pdf/2505.12392
GitHub地址：https://github.com/maple-research-lab/SLOT

效果炸裂

多項基準測試刷新紀錄

即便拿最有挑戰性的高性能基線做比較對象，實驗結果令人矚目 (所有 log 都在開源 github 里)：

Qwen2.5-7B 在 GSM8K 數學推理任務上準確率從 57.54% 飆升至 66.19%，提升 8.65 個百分點。
DeepSeek-R1-Distill-Llama-70B 在 GPQA Diamond 上達到 68.69%，創下 70B 級別開源模型新紀錄
在高難度的 AIME 2024 數學競賽題上，多個模型實現 10% 以上的提升

核心創新

把 Prompt 當作「測試時訓練樣本」

傳統的 LLM 在面對復雜或特殊格式的指令時經常「翻車」，它可能會忽略格式要求或給出錯誤答案。

SLOT 的解決方案優雅而簡單：針對單獨一個問題，直接在最后一層特征上加一個 delta 向量，并在問題 prompt 本身上最小化交叉熵損失即可。

由于僅僅需要在最后一層上優化一個加性的 delta 參數向量，每個問題只需要經過一次網絡推理。通過把輸入給最后一層的中間結果進行緩存，優化 delta 的過程幾乎不需要增加計算開銷。

由于方法十分簡單，任何偽代碼公式都多余，這里給出如何把 SLOT 應用于你的工作的 transformers 版本代碼（vLLM 版本也已開源）。

以 modeling_qwen.py 里 Qwen2ForCausalLM 模型為例，研究團隊在 forward 函數里獲得 hidden_states 之后插入這段代碼：首先初始化一個全 0 的 delta 向量，加在 last hidden states 上；然后用當前的 prompt 作為訓練數據，delta 作為可學習參數，以交叉熵損失優化，得到 sample-specific 的 delta 參數；之后即可用優化好的 delta 生成后續 token。

為什么如此有效？

深入分析揭示秘密

研究團隊通過分析發現，SLOT 優化后的 delta 會顯著調整輸出詞匯的概率分布：

增強的詞匯：reasoning、think、thinking 等推理相關詞匯
抑制的詞匯：數字符號（0-9）、模態動詞（should、will）、結束符 </s>

這意味著 SLOT 在鼓勵模型「深思熟慮」，避免過早結束推理或陷入表面的模式匹配。

亮點在于：不同于 SFT 或者 RL 的微調算法，該方法無需：

修改模型架構
額外的訓練數據
復雜的采樣策略
昂貴的計算資源

廣泛適用

從 1.5B 到 70B，從基礎模型到推理專家

SLOT 在各種規模和類型的模型上都展現出穩定的提升：

Qwen 系列：1.5B 到 32B 均有提升。
Llama 系列：包括 Llama-3.1。
DeepSeek-R1 系列：即使是已經專門優化過推理能力的模型，仍能獲得顯著提升。

特別值得注意的是，在最具挑戰性的任務上，SLOT 的提升最為明顯：

C-Eval Hard 子集：+8.55%
AIME 2024：部分模型提升超過 13%
GPQA Diamond: 由 65.66 提升到 68.69 (開源 sota 級別)

結語

在大模型時代，當所有人都在追求「更大、更強」時，SLOT 用一個簡單得「離譜」的想法證明：有時候，讓模型在回答前先「理解」一下問題，就能帶來驚人的效果。

責任編輯：張燕妮來源：機器之心

訓練模型 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看