Kimi思考模型k1.5是怎么練成的？細節(jié)曝光

發(fā)布于 2025-1-22 11:58

瀏覽

0收藏

Kimi發(fā)布新一代多模態(tài)思考模型k1.5，在競賽數(shù)學(xué)、代碼能力及視覺思考等測試中，k1.5模型性能已達到全球領(lǐng)先模型OpenAI o1 正式版水平，月之暗面也成為OpenAI 之外，全球第二家到達該水平的人工智能企業(yè)。

Kimi 1.5 long-CoT評測結(jié)果

Kimi思考模型k1.5是怎么練成的？細節(jié)曝光-AI.x社區(qū)

long to short，用長鏈式思考技術(shù)改進短鏈式思考模型，在短鏈式推理性能測試中，k1.5模型在數(shù)學(xué)、代碼、視覺多模態(tài)和通用能力等方面到達或超越GPT-4o、Claude Sonnet 3.5等全球領(lǐng)先模型。

Kimi 1.5 short-CoT評測結(jié)果

Kimi思考模型k1.5是怎么練成的？細節(jié)曝光-AI.x社區(qū)

新模型發(fā)布的同時，kimi還首次對外公布了多模態(tài)模型技術(shù)訓(xùn)練報告，k1.5的訓(xùn)練包括這幾個階段：

預(yù)訓(xùn)練 -> SFT -> Long-CoT SFT -> RL

其中，預(yù)訓(xùn)練與SFT要點概況如下：

預(yù)訓(xùn)練：k1.5 的預(yù)訓(xùn)練涉及多模態(tài)數(shù)據(jù)（文本、視覺、OCR 等），并分為三個階段：視覺-語言預(yù)訓(xùn)練、冷啟動階段和長文本激活階段。
監(jiān)督微調(diào)：使用高質(zhì)量的標(biāo)注數(shù)據(jù)進行分階段學(xué)習(xí)率調(diào)整微調(diào)，涵蓋問答、寫作、數(shù)學(xué)、編程和視覺-文本數(shù)據(jù)。

25頁的技術(shù)報告重點聚焦在強化學(xué)習(xí)部分：

數(shù)據(jù)構(gòu)建 -> 預(yù)熱 Long-CoT SFT -> RL -> Long2Short

https://github.com/MoonshotAI/Kimi-k1.5/blob/main/Kimi_k1.5.pdf

Kimi思考模型k1.5是怎么練成的？細節(jié)曝光-AI.x社區(qū)

1. RL數(shù)據(jù)構(gòu)建

數(shù)據(jù)質(zhì)量和多樣性對強化學(xué)習(xí)的效果至關(guān)重要。高質(zhì)量的提示集可以引導(dǎo)模型進行穩(wěn)健的推理，并減少 reward hacking 和 overfitting 的風(fēng)險。

多樣化覆蓋：涵蓋廣泛的學(xué)科領(lǐng)域（如 STEM、編程和通用推理），以增強模型的適應(yīng)性。
難度平衡：包含不同難度級別的問題，以支持模型的逐步學(xué)習(xí)。
可驗證性：答案和推理過程應(yīng)能夠被準確驗證，避免模型通過錯誤的推理過程得出正確答案。

2、預(yù)熱-Long-CoT微調(diào)

通過構(gòu)建小的高質(zhì)量 Long-CoT 熱身數(shù)據(jù)集并進行微調(diào)，目的是讓模型內(nèi)化人類推理的關(guān)鍵認知過程（如規(guī)劃、評估、反思和探索），從而提升其在復(fù)雜推理任務(wù)中的表現(xiàn)和邏輯連貫性。

3、強化學(xué)習(xí)

強化學(xué)習(xí)是 k1.5 的核心訓(xùn)練階段，無需依賴蒙特卡洛樹搜索（MCTS）、價值函數(shù)或過程獎勵模型等復(fù)雜技術(shù)，通過長上下文擴展和策略優(yōu)化實現(xiàn)高效學(xué)習(xí)。

Kimi思考模型k1.5是怎么練成的？細節(jié)曝光-AI.x社區(qū)

長上下文擴展是k1.5的核心創(chuàng)新之一。通過將上下文窗口擴展到128k，模型能夠處理更復(fù)雜的推理任務(wù)。背后的關(guān)鍵技術(shù)是 partial rollout ，它允許模型在訓(xùn)練過程中復(fù)用之前生成的軌跡片段，避免從頭開始生成新軌跡，從而顯著提高訓(xùn)練效率。
k1.5采用在線鏡像下降算法的變體進行策略優(yōu)化，通過采樣策略、長度懲罰和數(shù)據(jù)配方優(yōu)化，進一步提升模型性能。長度懲罰機制通過限制模型生成過長的推理過程，提高推理效率，同時避免“過度思考”問題。此外，模型還采用了curriculum sampling和 prioritized sampling 策略，優(yōu)先訓(xùn)練模型在困難問題上的表現(xiàn)。

4、Long2short

Long-CoT模型表現(xiàn)出色，但在測試時消耗的token數(shù)量比Short-CoT更多。有沒可能將Long-CoT推理模型的思維先驗轉(zhuǎn)移到Short-CoT推理模型中，從而即使在測試時的token預(yù)算有限的情況下，也能提升性能，答案是肯定，k1.5嘗試了以下方法：