成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

7B小模型超越DeepSeek-R1:模仿人類教師,弱模型也能教出強(qiáng)推理LLM | Transformer作者團(tuán)隊

人工智能 新聞
用Sanaka AI的新方法訓(xùn)練出的7B小模型,在傳授推理技能方面,比671B的DeepSeek-R1還要有效。

Thinking模式當(dāng)?shù)溃處熌P鸵苍搶W(xué)會“啟發(fā)式”教學(xué)了——

由Transformer作者之一Llion Jones創(chuàng)立的明星AI公司Sakana AI,帶著他們的新方法來了!

這個方法要求教師模型像優(yōu)秀的人類教師一樣,根據(jù)已知解決方案輸出清晰的逐步解釋,而不再是從頭開始自己解決。

圖片

用Sanaka AI的新方法訓(xùn)練出的7B小模型,在傳授推理技能方面,比671B的DeepSeek-R1還要有效。

訓(xùn)練比自己大3倍的學(xué)生模型也不在話下。

圖片

對此有網(wǎng)友評價:我們剛剛才意識到,最好的老師不是房間里最聰明的人。

圖片圖片

像人類老師一樣

圖片

許多高級推理模型,如DeepSeek-R1,遵循兩階段的訓(xùn)練過程:首先訓(xùn)練教師模型,然后使用其輸出訓(xùn)練學(xué)生模型,最終產(chǎn)品為學(xué)生模型。

傳統(tǒng)上,這些教師模型通過昂貴的強(qiáng)化學(xué)習(xí)(RL)進(jìn)行訓(xùn)練,模型必須從頭學(xué)習(xí)解決復(fù)雜問題,只有在得到正確答案時才會獲得獎勵:

先讓教師模型得到問題的答案,再把答案仔細(xì)過濾并重新用作學(xué)生模型的訓(xùn)練數(shù)據(jù)。

這種方法緩慢、昂貴且往往過于偏狹,過于依賴教師模型自身能力。因為教師模型拿到的僅僅只有問題,它們需要自己思考給出結(jié)果。

而Sanaka AI的新方法不再通過解決問題來教學(xué),而是讓新的強(qiáng)化學(xué)習(xí)教師(RLTs)“學(xué)會教學(xué)”

要求它們根據(jù)已知解決方案輸出清晰的逐步解釋,就像優(yōu)秀的人類教師一樣。

就像一位好教師不需要重新發(fā)現(xiàn)數(shù)學(xué)定理來解釋它們一樣,RLTs在輸入提示中既獲得問題的內(nèi)容,也獲得每個問題的正確答案

它們的任務(wù)是提供有助于學(xué)生模型學(xué)習(xí)的、逐步的詳細(xì)解釋,從而連接這些知識點。如果學(xué)生模型能夠根據(jù)教師對問題的解釋輕松理解正確解決方案,那么這就是RLTs做得好的信號。

也就是說,對RLTs的獎勵不再是能自己解決問題,而是能解釋對學(xué)生模型有多有幫助。

Sanaka AI的新方法解決了傳統(tǒng)方法中的兩個問題:

首先,新方法的訓(xùn)練循環(huán)使教師訓(xùn)練與其真正目的(為學(xué)生進(jìn)行蒸餾/冷啟動提供幫助)保持一致,從而大大提高了效率。

其次,將問題和正確答案同時輸入RLT,能幫助原本無法獨(dú)立解決問題的小型模型學(xué)會教學(xué)。

這些特性使Sanaka AI的新方法能更快、更經(jīng)濟(jì)、更有效地訓(xùn)練出具有強(qiáng)大推理能力的學(xué)生模型。

小型教師模型的“不合理但有效”

為了驗證新方法的有效性,Sanaka AI用新方法訓(xùn)練了一個7B的RLT小模型作為教學(xué)模型與此前最先進(jìn)的方法進(jìn)行比較。

競爭方法使用規(guī)模更大的模型,如DeepSeek-R1和QwQ,并結(jié)合GPT-4o-mini等工具在用于訓(xùn)練學(xué)生模型之前清理其輸出,以獲得額外幫助。

圖片

結(jié)果發(fā)現(xiàn):使用相同的Qwen2.5學(xué)生模型、相同的問題以及相同的評估設(shè)置,RLT以遠(yuǎn)少的計算量取得了比DeepSeek-R1和QwQ更好的效果。

把學(xué)生模型的規(guī)模擴(kuò)大,結(jié)果同樣令人驚訝:7B的RLT成功訓(xùn)練了一個32B的學(xué)生模型,其規(guī)模是自己四倍以上,并取得了優(yōu)異的成果。

Sanaka AI的新方法還可以和傳統(tǒng)RL方法相輔相成:

上圖展示了在2024年美國邀請數(shù)學(xué)考試(AIME)、競賽數(shù)學(xué)和研究生級問答基準(zhǔn)(GPQA)上的平均性能。

新方法和傳統(tǒng)RL方法聯(lián)合使用,使RLT獲得了改進(jìn)性能,并補(bǔ)充了傳統(tǒng)RL方法在問題解決方面的應(yīng)用。

用作起點時,RLT幫助學(xué)生模型達(dá)到了更高的性能水平。

從成本角度來看,差異非常顯著:使用RLT訓(xùn)練32B的學(xué)生模型僅需單個計算節(jié)點一天時間,而傳統(tǒng)RL方法在相同硬件上需要數(shù)月。

一項定性分析揭示了RLTs提供的解釋與Deepseek-R1的蒸餾軌跡之間存在一些差異:

圖片

Deepseek-R1的輸出常常依賴于外部工具,例如計算器、網(wǎng)絡(luò)上的討論以及玩梗,包括一些具有誤導(dǎo)性的內(nèi)容。

相比之下,RLT提供的解釋避免了令人困惑的語言,并增加了額外的邏輯步驟來幫助學(xué)生。

這些直觀的改進(jìn)能夠轉(zhuǎn)化為學(xué)生語言模型的改進(jìn)學(xué)習(xí),像人類專家一樣簡潔且清晰。

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-03-10 08:30:00

AI模型訓(xùn)練

2025-03-27 10:28:32

2025-03-17 12:13:26

AI模型生成

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-03-05 03:00:00

DeepSeek大模型調(diào)優(yōu)

2025-03-05 10:21:04

DeepSeekLVLM

2025-02-13 08:51:23

DeepSeek大模型

2025-02-03 14:17:27

2025-03-06 17:29:21

2025-02-21 10:34:49

2025-02-12 12:45:59

2025-02-17 08:43:00

模型推理訓(xùn)練

2025-01-10 11:42:40

2025-04-03 06:30:00

2023-10-13 19:58:33

Mistral7B模型

2024-02-04 08:00:00

Zephyr 7B大語言模型算法

2025-04-11 12:04:58

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 欧美日韩精品影院 | 国产精品夜夜夜一区二区三区尤 | 午夜精品久久久久久 | 成人欧美一区二区三区色青冈 | 91中文字幕在线观看 | 日韩高清一区 | 九九国产| 色偷偷888欧美精品久久久 | 国产美女免费视频 | 大乳boobs巨大吃奶挤奶 | 国产精品.xx视频.xxtv | 亚洲一区二区三区四区视频 | 国产精品久久国产精品 | 五月婷婷丁香婷婷 | 夜色www国产精品资源站 | 午夜天堂| 伊人精品在线视频 | 逼逼网| 欧美一级毛片免费观看 | 成人在线免费观看av | 国产高清在线精品 | 欧美aⅴ | 国产高清在线精品一区二区三区 | 免费一级欧美在线观看视频 | 久久精品av麻豆的观看方式 | 国产精品久久久久国产a级 欧美日本韩国一区二区 | 久久久国产一区二区三区四区小说 | 一区二区av| 精品欧美一区免费观看α√ | 免费黄色大片 | 亚洲天堂男人的天堂 | 日本中文字幕在线视频 | 亚洲精品在线播放 | 国产精品99久久久久久久vr | 日本三级网站在线 | 成人做爰9片免费看网站 | 成人国产精品久久久 | 欧美日韩成人在线观看 | 欧美黑人一级爽快片淫片高清 | 国内久久| 在线视频亚洲 |