成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

7B的DeepSeek蒸餾Qwen數學超o1!在測試時間強化學習,MIT積分題大賽考93分

人工智能
LADDER利用模型現有能力來生成問題變體,形成循序漸進的難度梯度,最終實現自舉學習。整個過程只需對答案進行驗證即可,無需人工干預。

見識過32B的QwQ追平671的DeepSeek R1后——

剛剛,7B的DeepSeek蒸餾Qwen模型超越o1又是怎么一回事?

圖片圖片

新方法LADDER,通過遞歸問題分解實現AI模型的自我改進,同時不需要人工標注數據。

使Deepseek-R1蒸餾的Qwen2.5 7B模型在麻省理工學院積分大賽MIT Integration Bee)上達到90分超越o1。

圖片圖片

注意,不是積分制的比賽哦,是只做微積分中積分題的比賽,MIT的數學高手每年都會挑戰一次,題目像這樣:

圖片圖片

LADDER論文來自小型獨立研究團體Tufa Labs,論文已上傳到arXiv。

圖片圖片

在推理時間強化學習

LADDER,全稱Learning through Autonomous Difficulty-Driven Example Recursion,即”通過自主難度驅動的樣本遞歸進行學習”。

這個名字聽起來有點拗口,但核心其實很容易理解:就是讓語言模型(LLM)通過自我生成和求解漸進簡化的問題變體,來不斷提升自己解決復雜問題的能力。

圖片圖片

具體來說,LADDER是一個結構化框架,由以下組件組成:

  • 變體生成:一種結構化方法,用于生成復雜問題的逐漸簡化變體的樹,從而建立自然的難度梯度。
  • 解的驗證:一種用于驗證積分解的數值積分方法。
  • 強化學習:用于在變體樹上訓練基礎模型的協議。

圖片圖片

而LADDER這個名字,也意味著像是模型學會了”爬梯子”:通過自主生成一系列從易到難的問題變體,不斷練習和強化,最終爬到頂端。

圖片

以往的訓練方法,總是離不開大規模標注數據。

LADDER利用模型現有能力來生成問題變體,形成循序漸進的難度梯度,最終實現自舉學習。整個過程只需對答案進行驗證即可,無需人工干預。

相比之前的方法,LADDER有三大優勢:

不再依賴人工標注數據,降低了數據獲取成本;模型通過生成問題變體構建針對性的學習路徑,學習更高效;生成的問題變體與原始問題相關性高,避免陷入無關細節。

此外,作者還提出了一種創新的測試時強化學習方法TTRL。在推理階段遇到復雜的數學積分測試問題時,TTRL會動態生成一系列更簡單的積分變體,模型通過解決這些變體來積累經驗,找到解決原始難題的方法。

這種測試時計算擴展的思路,為進一步提升模型性能開辟了新的道路。不同于簡單增加輸出長度,TTRL能夠讓模型在推理時針對性地”刷題”,動態擴展能力邊界。

通過LADDER,一個原本只有1%準確率的Llama 3.2 3B模型,在沒有任何人工標注數據的情況下,解題準確率飆升至82%。

圖片圖片

更強大的基礎模型Qwen2.5 7B Deepseek-R1 Distilled,在用上LADDER方法后,

MIT Integration Bee比賽的成績就從50%提高到73%。

圖片

最后,LADDER加上TTRL方法,讓最終成績達到90。

圖片

不過作者也強調,與o1的對比不是嚴格的頭對頭評估。

o1無法訪問數字檢查器,這意味著它在不同的約束下運行。LADDER的結果強調了通過遞歸問題分解和強化學習進行自我提升的有效性,而不是表明它直接優于o1的方法。

論文地址:https://arxiv.org/abs/2503.00735

參考鏈接:
[1]https://x.com/yoshiyama_akira/status/1897662722679959583

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-03-11 13:07:58

2025-01-10 11:42:40

2025-01-06 12:46:16

模型數據訓練

2024-09-14 14:00:00

AI模型

2025-02-08 09:30:00

2024-09-13 06:32:25

2025-01-10 12:58:37

2025-02-20 09:11:28

2025-05-26 08:52:00

2024-09-18 10:37:00

強化學習AI模型

2025-02-25 12:30:00

2022-11-02 14:02:02

強化學習訓練

2025-02-13 09:10:00

2025-06-24 08:45:00

強化學習算法AI

2025-04-29 09:06:00

2025-01-21 09:00:00

2025-01-26 08:40:00

AI模型預測

2025-01-21 10:10:56

2025-05-28 02:25:00

2025-01-23 14:53:15

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久国产精品视频 | 久久aⅴ乱码一区二区三区 91综合网 | 午夜av电影院 | 国产精品久久久久无码av | 日韩欧美专区 | 日韩欧美国产一区二区三区 | 国产激情视频网 | 亚洲小视频 | 亚洲欧美一区二区三区国产精品 | 亚洲久久在线 | 久久久蜜臀国产一区二区 | 精品免费国产一区二区三区四区 | 麻豆毛片 | 少妇黄色 | 国产a一区二区 | 福利国产| 日韩一区二区福利 | 国产精品激情在线 | 亚洲另类春色偷拍在线观看 | 久久久精品在线 | 午夜精品久久 | 色视频www在线播放国产人成 | 国产亚洲一区二区三区 | 韩日一区二区 | 国产精品久久久久久久久久 | 亚洲色图网址 | 欧美一区二区三区日韩 | 成人午夜精品 | 黄色国产在线播放 | www.久久影视 | 日韩精品一区二区三区在线播放 | 欧美一区二区三区四区五区无卡码 | 日韩在线大片 | 在线观看国产网站 | 久久99精品久久久久久 | 午夜影院黄 | 欧美一区二区 | www.日本国产| 天天影视网天天综合色在线播放 | 久久久久中文字幕 | 天天天天操|