成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Kimi思考模型k1.5是怎么練成的?細節(jié)曝光

發(fā)布于 2025-1-22 11:58
瀏覽
0收藏

Kimi發(fā)布新一代多模態(tài)思考模型k1.5,在競賽數(shù)學(xué)、代碼能力及視覺思考等測試中,k1.5模型性能已達到全球領(lǐng)先模型OpenAI o1 正式版水平,月之暗面也成為OpenAI 之外,全球第二家到達該水平的人工智能企業(yè)。

    Kimi 1.5 long-CoT評測結(jié)果

Kimi思考模型k1.5是怎么練成的?細節(jié)曝光-AI.x社區(qū)

long to short,用長鏈式思考技術(shù)改進短鏈式思考模型,在短鏈式推理性能測試中,k1.5模型在數(shù)學(xué)、代碼、視覺多模態(tài)和通用能力等方面到達或超越GPT-4o、Claude Sonnet 3.5等全球領(lǐng)先模型。

    Kimi 1.5 short-CoT評測結(jié)果

Kimi思考模型k1.5是怎么練成的?細節(jié)曝光-AI.x社區(qū)

新模型發(fā)布的同時,kimi還首次對外公布了多模態(tài)模型技術(shù)訓(xùn)練報告,k1.5的訓(xùn)練包括這幾個階段:

預(yù)訓(xùn)練 -> SFT -> Long-CoT SFT -> RL

其中,預(yù)訓(xùn)練與SFT要點概況如下:

  • 預(yù)訓(xùn)練:k1.5 的預(yù)訓(xùn)練涉及多模態(tài)數(shù)據(jù)(文本、視覺、OCR 等),并分為三個階段:視覺-語言預(yù)訓(xùn)練、冷啟動階段和長文本激活階段。
  • 監(jiān)督微調(diào):使用高質(zhì)量的標(biāo)注數(shù)據(jù)進行分階段學(xué)習(xí)率調(diào)整微調(diào),涵蓋問答、寫作、數(shù)學(xué)、編程和視覺-文本數(shù)據(jù)。

25頁的技術(shù)報告重點聚焦在強化學(xué)習(xí)部分

數(shù)據(jù)構(gòu)建 -> 預(yù)熱 Long-CoT SFT -> RL -> Long2Short

https://github.com/MoonshotAI/Kimi-k1.5/blob/main/Kimi_k1.5.pdf

Kimi思考模型k1.5是怎么練成的?細節(jié)曝光-AI.x社區(qū)

1. RL數(shù)據(jù)構(gòu)建

數(shù)據(jù)質(zhì)量和多樣性對強化學(xué)習(xí)的效果至關(guān)重要。高質(zhì)量的提示集可以引導(dǎo)模型進行穩(wěn)健的推理,并減少 reward hacking 和 overfitting 的風(fēng)險。

  • 多樣化覆蓋:涵蓋廣泛的學(xué)科領(lǐng)域(如 STEM、編程和通用推理),以增強模型的適應(yīng)性。
  • 難度平衡:包含不同難度級別的問題,以支持模型的逐步學(xué)習(xí)。
  • 可驗證性:答案和推理過程應(yīng)能夠被準確驗證,避免模型通過錯誤的推理過程得出正確答案。

2、預(yù)熱-Long-CoT微調(diào)

通過構(gòu)建小的高質(zhì)量 Long-CoT 熱身數(shù)據(jù)集并進行微調(diào),目的是讓模型內(nèi)化人類推理的關(guān)鍵認知過程(如規(guī)劃、評估、反思和探索),從而提升其在復(fù)雜推理任務(wù)中的表現(xiàn)和邏輯連貫性。

3、強化學(xué)習(xí)

強化學(xué)習(xí)是 k1.5 的核心訓(xùn)練階段,無需依賴蒙特卡洛樹搜索(MCTS)、價值函數(shù)或過程獎勵模型等復(fù)雜技術(shù),通過長上下文擴展和策略優(yōu)化實現(xiàn)高效學(xué)習(xí)。

Kimi思考模型k1.5是怎么練成的?細節(jié)曝光-AI.x社區(qū)

  • 長上下文擴展是k1.5的核心創(chuàng)新之一。通過將上下文窗口擴展到128k,模型能夠處理更復(fù)雜的推理任務(wù)。背后的關(guān)鍵技術(shù)是 partial rollout ,它允許模型在訓(xùn)練過程中復(fù)用之前生成的軌跡片段,避免從頭開始生成新軌跡,從而顯著提高訓(xùn)練效率。
  • k1.5采用在線鏡像下降算法的變體進行策略優(yōu)化,通過采樣策略、長度懲罰和數(shù)據(jù)配方優(yōu)化,進一步提升模型性能。長度懲罰機制通過限制模型生成過長的推理過程,提高推理效率,同時避免“過度思考”問題。此外,模型還采用了curriculum sampling和 prioritized sampling 策略,優(yōu)先訓(xùn)練模型在困難問題上的表現(xiàn)。

4、Long2short

Long-CoT模型表現(xiàn)出色,但在測試時消耗的token數(shù)量比Short-CoT更多。有沒可能將Long-CoT推理模型的思維先驗轉(zhuǎn)移到Short-CoT推理模型中,從而即使在測試時的token預(yù)算有限的情況下,也能提升性能,答案是肯定,k1.5嘗試了以下方法:

  • 模型融合(Model Merging):通過平均權(quán)重合并Long-CoT 和Short-CoT 模型。?
  • 最短拒絕采樣(Shortest Rejection Sampling):從多次采樣中選擇最短的正確答案。?
  • 直接偏好優(yōu)化(DPO):通過正負樣本對訓(xùn)練Short-CoT 模型。?
  • Long2Short RL 訓(xùn)練:通過 RL 進一步優(yōu)化Short-CoT 模型的性能。

Kimi思考模型k1.5是怎么練成的?細節(jié)曝光-AI.x社區(qū)

本文轉(zhuǎn)載自?? PaperAgent??,作者: PaperAgent


標(biāo)簽
已于2025-1-24 10:11:05修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 久久亚洲综合 | 99国产精品99久久久久久 | 伊人网站视频 | 成人精品高清 | 日韩免费一区二区 | 午夜精品久久久久久久久久久久 | 成人做爰69片免费观看 | av天天爽| 在线观看国产 | 日本黄色一级片视频 | 欧美色综合网 | 欧美视频成人 | 久久高清免费视频 | 中文字幕精品一区二区三区精品 | 一区二区三区免费 | www.亚洲成人网 | 一区二区三区中文字幕 | 韩国主播午夜大尺度福利 | 精品欧美一区二区三区精品久久 | 亚洲网站观看 | 国产美女一区二区 | 怡红院怡春院一级毛片 | 精品久久久久久亚洲精品 | 日日操操 | 国产一区二区毛片 | 欧美黑人狂野猛交老妇 | 一级二级三级在线观看 | 久久久久久天堂 | 国产aaaaav久久久一区二区 | 国产成人精品一区二区三区四区 | 国产伦精品一区二区三毛 | 91精品欧美久久久久久久 | 国产一区在线免费观看 | 夜夜撸av | 韩日在线 | 欧美一级大片 | 欧美国产精品 | 在线电影日韩 | 欧美日韩专区 | 在线日韩欧美 | 视频一区二区在线观看 |