成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

200B參數擊敗滿血DeepSeek-R1,字節豆包推理模型Seed-Thinking-v1.5要來了

人工智能 新聞
Seed-Thinking-v1.5 是一款通過深度思考提升推理能力的模型,在多個權威基準測試中展現出卓越性能。

字節跳動豆包團隊今天發布了自家新推理模型 Seed-Thinking-v1.5 的技術報告。從報告中可以看到,這是一個擁有 200B 總參數的 MoE 模型,每次工作時會激活其中 20B 參數。其表現非常驚艷,在各個領域的基準上都超過了擁有 671B 總參數的 DeepSeek-R1。有人猜測,這就是字節豆包目前正在使用的深度思考模型。

圖片

字節近期官宣的「2025 火山引擎 Force Link AI 創新巡展」活動推文中提到,4 月 17 日首發站杭州站時,豆包全新模型將重磅亮相,這會是 Seed-Thinking-v1.5 的正式發布嗎?

圖片


  • 報告標題:Seed-Thinking-v1.5: Advancing Superb Reasoning Models with Reinforcement Learning 
  • 項目地址:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5
  • 報告地址:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/blob/main/seed-thinking-v1.5.pdf

Seed-Thinking-v1.5 是一款通過深度思考提升推理能力的模型,在多個權威基準測試中展現出卓越性能。在具體評測中,該模型在 AIME 2024 測試中獲得 86.7 分,Codeforces 評測達到 55.0 分,GPQA 測試達到 77.3 分,充分證明了其在 STEM(科學、技術、工程和數學)領域以及編程方面的出色推理能力。

圖片

除推理任務外,該方法在不同領域都表現出顯著的泛化能力。例如,在非推理任務中,其勝率比 DeepSeek R1 高出 8%,這表明了其更廣泛的應用潛力。

從技術架構看,Seed-Thinking-v1.5 采用了混合專家模型(Mixture-of-Experts,MoE)設計,總參數量為 200B,實際激活參數僅為 20B,相比同等性能的其他最先進推理模型,規模相對緊湊高效。

為全面評估模型的泛化推理能力,團隊開發了 BeyondAIME 和 Codeforces 兩個內部基準測試,這些測試工具將向公眾開放,以促進相關領域的未來研究與發展。

先來看看其具體表現。

圖片

在數學推理方面,在 AIME 2024 基準上,Seed-Thinking-v1.5 取得了 86.7 的高分,與高計算量的 o3-mini-high 差不多。

由于 AIME 2024 已經不足以彰顯前沿模型的差異,豆包團隊還使用了另一個更具挑戰性的評估基準 BeyondAIME,其中所有問題都是人類專家新整理編寫的。結果可以看到,雖然 Seed-Thinking-v1.5 的成績超過了 R1 和 o1,但相比于 o3 和 Gemini 2.5 pro 還有所差距。

在競賽編程方面,在 Codeforces 基準上,該團隊沒有采用之前的依賴 Elo 分數的評估策略,而是采用了基于最新的 12 場 Codeforces 競賽的具體評估方案。

具體來說,他們報告的是 pass@1 和 pass@8 指標,其中 pass@k 表示模型能否在 k 次嘗試內解決問題,即從 k 次生成的提交中選擇最佳結果。之所以選擇報告  pass@8,是因為能提供更穩定的結果,并且更接近實際用戶提交模式。

結果來看,Seed-Thinking-v1.5 在這兩個指標上均超過 DeepSeek-R1,不過與 o3 的差距仍舊比較明顯。該團隊表示未來將公開發布這個評估集。

在科學問題上,Seed-Thinking-v1.5 在 GPQA 基準上得分為 77.3,接近 o3 的表現。該團隊表示,這一提升主要歸功于數學訓練帶來的泛化能力的提升,而非增加了特定領域的科學數據。

豆包也測試了 Seed-Thinking-v1.5 在非推理任務上的表現。這里他們使用的測試集盡力復現了真實的用戶需求。通過人類對 Seed-Thinking-v1.5 與 DeepSeek-R1 輸出結果的比較評估,結果發現,Seed-Thinking-v1.5 獲得的用戶積極反饋總體高出 8.0%,凸顯了其在復雜用戶場景處理能力方面的能力。

下面我們就來簡單看看豆包是如何創造出 Seed-Thinking-v1.5 的。

開發高質量推理模型有三大關鍵:數據、強化學習算法和基礎設施。為了打造出 Seed-Thinking-v1.5,該團隊在這三個方面都進行了創新。

數據

推理模型主要依賴思維鏈(CoT)數據,這種數據展示逐步推理過程。該團隊的初步研究表明,過多非思維鏈數據會削弱模型探索能力。

研究團隊在強化學習訓練中整合了 STEM 問題、代碼任務、邏輯推理和非推理數據。其中邏輯推理數據提升了 ARC-AGI 測試表現。而數學數據則展現除了優秀的泛化能力。

另外,他們還構建了一個新的高級數學基準 BeyondAIME,其中包含 100 道題,每道題的難度等于或高于 AIME 中最難的題目。與 AIME 類似,所有答案都保證為整數(不受特定數值范圍的限制),這能簡化并穩定評估過程。

強化學習算法

推理模型的強化學習訓練常出現不穩定性,尤其對未經監督微調的模型。為解決這一問題,研究團隊提出了 VAPO 和 DAPO 框架,分別針對基于價值和無價值的強化學習范式。兩種方法均能提供穩健的訓練軌跡,有效優化推理模型。

獎勵建模

獎勵建模是強化學習的關鍵,它確定了策略的目標。良好的獎勵機制能在訓練時提供準確的信號。團隊針對可驗證和不可驗證的問題使用不同的獎勵建模方法。

1、可驗證問題

通過適當的原則和思維軌跡,團隊利用 LLMs 來判斷各種場景下的可驗證問題。這種方法提供了超越基于規則的獎勵系統局限性的更普遍解決方案。

團隊設計了兩個遞進式的獎勵建模方案:Seed-Verifier 和 Seed-Thinking-Verifier:

  • Seed-Verifier  基于一套由人類制定的原則,利用大語言模型的能力評估由問題、參考答案和模型生成答案組成的三元組。如果參考答案與模型生成的答案本質上等價,它返回「YES」;否則返回「NO」。這里的等價不要求逐字匹配,而是基于計算規則和數學原理進行深層評估,確保獎勵信號準確反映模型回答的本質正確性。
  • Seed-Thinking-Verifier 的靈感來自人類的判斷過程,通過細致思考和深入分析得出結論。為此,團隊訓練了一個能夠提供詳細推理路徑的驗證器,將其視為可驗證任務,與其他數學推理任務一起優化。該驗證器能夠分析參考答案與模型生成答案之間的異同,提供精確的判斷結果。

Seed-Thinking-Verifier 顯著緩解了 Seed-Verifier 存在的三個主要問題:

  • 獎勵欺騙(Reward Hacking):非思考型模型可能利用漏洞獲取獎勵,而不真正理解問題。Seed-Thinking-Verifier 的詳細推理過程使這種欺騙變得更加困難。
  • 預測的不確定性:在參考答案與模型生成答案本質相同但格式不同的情況下,Seed-Verifier 可能有時返回「YES」,有時返回「NO」。Seed-Thinking-Verifier 通過深入分析答案背后的推理過程,提供一致的結果。
  • 邊界情況處理失敗:Seed-Verifier 在處理某些邊界情況時表現不佳。Seed-Thinking-Verifier 提供詳細推理的能力使其能夠更好地應對這些復雜場景。

表 1 展示了上述兩種驗證器的性能。結果表明,Seed-Verifier 在處理某些特殊情況時效果欠佳,而 Seed-Thinking-Verifier 展現出提供準確判斷的卓越能力。盡管后者的思維過程消耗了大量 GPU 資源,但其產生的精確且穩健的獎勵結果對于賦予策略強大的推理能力至關重要。

圖片

2、不可驗證問題

研究團隊為不可驗證問題訓練了一個強化學習獎勵模型,使用與 Doubao 1.5 Pro 相同的人類偏好數據,主要覆蓋創意寫作和摘要生成。

團隊采用了成對生成式獎勵模型,通過直接比較兩個回答的優劣并將「是 / 否」概率作為獎勵分數。這種方法讓模型專注于回答間的實質差異,避免關注無關細節。

實驗表明,此方法提高了強化學習的穩定性,尤其在混合訓練場景中減少了不同獎勵模型間的沖突,主要是因為它能降低異常分數的生成,避免與驗證器產生顯著的分數分布差異。

基礎設施

大語言模型強化學習系統需要強大基礎設施支持。團隊開發的流式推演架構通過優先級樣本池異步處理軌跡生成,使迭代速度提升 3 倍。系統還支持自動故障恢復的混合精度訓練,確保大規模強化學習運行的穩定性。

框架

Seed-Thinking-v1.5 采用的訓練框架是基于 HybridFlow 編程抽象構建的。整個訓練工作負載運行在 Ray 集群之上。數據加載器和強化學習算法在單進程 Ray Actor(單控制器)中實現。模型訓練和響應生成(rollout)在 Ray Worker Group 中實現。

流式 Rollout 系統

其 SRS 架構引入了流式 Rollout,可將模型演化與運行時執行解耦,并通過參數 α 動態調整在策略和離策略的樣本比例:

  • 將完成率(α ∈ [0, 1])定義為使用最新模型版本以在策略方式生成的樣本比例。
  • 將剩余的未完成片段(1- α)分配給來自版本化模型快照的離策略 rollout,并通過在獨立資源上異步延續部分生成來實現無縫集成。

此外,該團隊還在環境交互階段實現了動態精度調度,通過后訓練量化和誤差補償范圍縮放來部署 FP8 策略網絡。

為了解決 MoE 系統中 token 不平衡的問題,他們實現了一個三層并行架構,結合了用于分層計算的 TP(張量并行化)、具有動態專家分配的 EP(專家并行)和用于上下文分塊的 SP(序列并行)。這樣一來,其 kernel auto-tuner 就能根據實時負載監控動態選擇最佳 CUDA 核配置。

訓練系統

為了高效地大規模訓練 Seed-Thinking-v1.5 模型,該團隊設計了一個混合分布式訓練框架,該框架集成了先進的并行策略、動態工作負載平衡和內存優化。下面詳細介紹一下其中的核心技術創新:


  • 并行機制:該團隊 TP(張量并行)/EP(專家并行)/CP(上下文并行)與完全分片數據并行(FSDP)相結合,用于訓練 Seed-Thinking-v1.5。具體而言,他們將 TP/CP 應用于注意力層,將 EP 應用于 MoE 層。
  • 序列長度平衡:有效序列長度可能在不同的 DP 等級上不平衡,從而導致計算負載不平衡和訓練效率低下。為了應對這一挑戰,他們利用 KARP 算法重新排列了一個 mini-batch 內的輸入序列,使它們在 mini-batch 之間保持平衡。
  • 內存優化:他們采用逐層重新計算、激活卸載和優化器卸載來支持更大 micro-batch 的訓練,以覆蓋 FSDP 造成的通信開銷。
  • 自動并行:為了實現最佳系統性能,他們開發了一個自動微調系統,稱為 AutoTuner。具體來說,AutoTuner 可按照基于配置文件的解決方案對內存使用情況進行建模。然后,它會估算各種配置的性能和內存使用情況,以獲得最佳配置。
  • 檢查點:為了以最小的開銷從不同的分布式配置恢復檢查點,該團隊使用了 ByteCheckpoint。這能讓用戶彈性地訓練任務以提高集群效率。
責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-04-11 12:10:33

2025-03-06 17:29:21

2025-04-11 14:54:44

2025-04-15 00:50:00

字節跳動豆包大模型

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-03-07 08:30:00

2025-02-21 10:34:49

2025-02-25 14:46:59

2025-03-27 10:28:32

2025-03-06 10:14:39

2025-03-10 08:30:00

AI模型訓練

2025-03-06 09:55:49

2025-02-12 12:45:59

2025-03-05 03:00:00

DeepSeek大模型調優

2025-02-12 14:09:31

DeepSeekChatGPTAPI

2025-02-25 08:20:50

AI程序員DeepSeek

2025-03-19 09:20:00

2025-05-15 08:30:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 青青草一区二区三区 | 久久久久黑人 | 在线观看国产视频 | 亚洲精品视频免费观看 | 黄a网 | 国产精品五月天 | 激情综合五月 | 国产91在线 | 中日 | 国产不卡一区在线观看 | 一区二区三区四区在线 | 一区二区三区网站 | 成人免费视频网址 | 国内av在线 | 久久在线 | 久久91精品国产一区二区三区 | 日本电影韩国电影免费观看 | 精品在线免费观看视频 | 在线播放一区二区三区 | 在线中文一区 | 久久综合国产精品 | 国产精品美女久久久久久不卡 | 成人在线精品 | 国产激情一区二区三区 | 伊人超碰| 成人在线一区二区 | 国产精品99 | 国产亚洲精品久久yy50 | 国产乱码精品一区二区三区忘忧草 | 日韩1区| 999国产视频| 国产精品久久久久久久久久久久午夜片 | 二区在线观看 | 成人亚洲 | 久久久久久久国产 | 久久久久九九九女人毛片 | 精品国产乱码久久久久久果冻传媒 | 一区中文字幕 | 成人免费一区二区三区视频网站 | 成人一区在线观看 | 日韩精品免费在线观看 | 国产一级久久久久 |