字節(jié)跳動(dòng)最新思考模型 Seed-Thinking-v1.5 技術(shù)細(xì)節(jié)公開(kāi),4 月 17 日開(kāi)放接口
4 月 14 日消息,IT之家從豆包大模型團(tuán)隊(duì)獲悉,字節(jié)跳動(dòng)最新思考模型 Seed-Thinking-v1.5 技術(shù)細(xì)節(jié)今日公開(kāi),該模型將于 4 月 17 日通過(guò)火山引擎開(kāi)放接口供用戶體驗(yàn)。
該模型在數(shù)學(xué)、編程、科學(xué)推理等專業(yè)領(lǐng)域及創(chuàng)意寫作等通用任務(wù)中表現(xiàn)突出,同時(shí),模型采用 MoE 架構(gòu),總參數(shù) 200B,激活參數(shù)為 20B,具備顯著的推理成本優(yōu)勢(shì),單位推理成本相比 DeepSeek R1 降低 50%。
- 技術(shù)報(bào)告鏈接:https://github.com/ ByteDance-Seed / Seed-Thinking-v1.5
模型各方面具體表現(xiàn):
- 專業(yè)領(lǐng)域:數(shù)學(xué)推理(AIME 2024 得分 86.7,追平 OpenAI o3-mini-high)、編程競(jìng)賽(Codeforces pass@8 達(dá) 55.0%,接近 Gemini 2.5 Pro)、科學(xué)推理(GPQA 得分 77.3%,接近 o3-mini-high),均達(dá)到或接近業(yè)界第一梯隊(duì)水平。
- 通用任務(wù):人類評(píng)估表現(xiàn)超 DeepSeek R1 8%,覆蓋多場(chǎng)景需求。
- 成本優(yōu)勢(shì):?jiǎn)挝煌评沓杀鞠啾?DeepSeek R1 降低 50%,實(shí)現(xiàn)性能與效率的平衡。
數(shù)據(jù)體系:融合可驗(yàn)證與創(chuàng)意性數(shù)據(jù)
針對(duì)推理與生成任務(wù)的不同需求,團(tuán)隊(duì)優(yōu)化了數(shù)據(jù)處理策略:
- 可驗(yàn)證數(shù)據(jù)(如數(shù)學(xué)、代碼題):通過(guò)百萬(wàn)級(jí)數(shù)據(jù)三重清洗(人工篩選 → 模型過(guò)濾 → 多模型驗(yàn)證),保留 10 萬(wàn)道高難度題目;設(shè)計(jì)答案整數(shù)化改造、離線沙箱驗(yàn)證等機(jī)制,確保模型輸出真實(shí)推理過(guò)程;
- 非可驗(yàn)證數(shù)據(jù)(如創(chuàng)意寫作):基于豆包 1.5 Pro 訓(xùn)練集,剔除低價(jià)值樣本,采用兩兩對(duì)比獎(jiǎng)勵(lì)法,優(yōu)化生成質(zhì)量;
- 全新評(píng)測(cè)基準(zhǔn):構(gòu)建了超難數(shù)學(xué)數(shù)據(jù)集 BeyondAIME(100 道無(wú)答案題干題目),解決現(xiàn)有測(cè)試區(qū)分度不足問(wèn)題。
獎(jiǎng)勵(lì)模型:雙軌體系校準(zhǔn)訓(xùn)練方向
團(tuán)隊(duì)提出雙軌獎(jiǎng)勵(lì)機(jī)制,兼顧“對(duì)錯(cuò)分明”與“見(jiàn)仁見(jiàn)智”任務(wù):
- 可驗(yàn)證任務(wù):開(kāi)發(fā)了兩代驗(yàn)證器(Seed-Verifier → Seed-Thinking-Verifier),從字符匹配升級(jí)為推理步驟逐行對(duì)比(訓(xùn)練 / 測(cè)試集準(zhǔn)確率超 99%),杜絕模型“獎(jiǎng)勵(lì)欺騙”;
- 非可驗(yàn)證任務(wù):引入 pairwise 對(duì)比訓(xùn)練,通過(guò)千萬(wàn)次“AB 測(cè)試”,捕捉人類對(duì)創(chuàng)意、情感等的隱性偏好,避免“眾口難調(diào)”;
- 雙軌融合:針對(duì)混合場(chǎng)景設(shè)計(jì)協(xié)調(diào)機(jī)制,硬指標(biāo)(對(duì)錯(cuò))與軟偏好(優(yōu)劣)互補(bǔ),支撐全場(chǎng)景訓(xùn)練。
訓(xùn)練方法:“監(jiān)督精調(diào) + 強(qiáng)化學(xué)習(xí)”雙階段優(yōu)化
Seed-Thinking-v1.5 采用“打基礎(chǔ) + 磨能力”的全鏈路訓(xùn)練:
- 監(jiān)督精調(diào)(SFT):基于 40 萬(wàn)高質(zhì)量實(shí)例(30 萬(wàn)可驗(yàn)證 +10 萬(wàn)非可驗(yàn)證數(shù)據(jù)),結(jié)合人工與模型協(xié)同篩選,構(gòu)建長(zhǎng)思考鏈數(shù)據(jù)集,確保模型“像人類一樣思考”;
- 強(qiáng)化學(xué)習(xí)(RL):通過(guò)三重?cái)?shù)據(jù)引擎(可驗(yàn)證 / 通用 / 混合數(shù)據(jù))、算法創(chuàng)新(價(jià)值預(yù)訓(xùn)練、解耦 GAE 等)以及在線數(shù)據(jù)適配技術(shù),解決訓(xùn)練不穩(wěn)定、長(zhǎng)鏈推理斷層等問(wèn)題,動(dòng)態(tài)調(diào)整數(shù)據(jù)分布以保持最佳訓(xùn)練狀態(tài)。
訓(xùn)練框架:支撐 20B MoE 的底層架構(gòu)
為應(yīng)對(duì) 20B MoE(總參數(shù) 200B)的復(fù)雜訓(xùn)練需求,團(tuán)隊(duì)優(yōu)化了底層架構(gòu):
- HybridFlow 編程模型:支持算法快速探索與分布式并行運(yùn)行;
- 流式推理系統(tǒng)(SRS):通過(guò)“流式推理”技術(shù)解耦模型演進(jìn)與異步推理,將訓(xùn)練速度提升 3 倍,萬(wàn)億參數(shù)下穩(wěn)定性達(dá) 95%;
- 三層并行架構(gòu):結(jié)合張量 / 專家 / 序列并行,動(dòng)態(tài)均衡負(fù)載,基于 KARP 算法優(yōu)化 GPU 算力利用率。