騰訊混元-TurboS:首個混合Transformer-Mamba MoE超大模型來了
騰訊混元團隊發(fā)布了他們最新的力作——Hunyuan-TurboS,首個混合Transformer-Mamba MoE架構的超大模型。
大家都知道,傳統(tǒng)Transformer模型在處理長文本時一直面臨挑戰(zhàn),O(N2)的復雜度以及KV-Cache問題讓長文本訓練和推理效率大打折扣。 而這次,混元-TurboS巧妙地融合了Mamba和Transformer兩種架構的優(yōu)勢:
? Mamba的高效長序列處理能力
? Transformer強大的上下文理解能力
強強聯(lián)合,效果自然驚艷!
官方數(shù)據(jù)顯示,Hunyuan-TurboS在多個關鍵benchmark上表現(xiàn)出色:
? 數(shù)學、推理、對齊能力超越或持平 GPT-4o-0806、DeepSeek-V3 以及各類開源模型。
? 知識能力同樣突出,在 MMLU-Pro 等專業(yè)評測中也具備競爭力。
Hunyuan-TurboS的推理成本相比之前的Turbo模型降低了整整7倍! 性能提升的同時,成本大幅下降。
為了進一步提升模型能力,混元團隊還對TurboS進行了多項后訓練優(yōu)化:
? 引入慢思考(Slow-thinking)集成,顯著提升了模型在數(shù)學、編程和推理任務上的表現(xiàn)。
? 通過精細化的指令調(diào)優(yōu),增強了模型的對齊性和Agent執(zhí)行能力。
? 進行了英語訓練優(yōu)化,從而提升模型的通用性能。
除了模型架構和訓練優(yōu)化,混元團隊還升級了獎勵系統(tǒng):
? 采用基于規(guī)則的評分和一致性驗證,保證模型輸出的質(zhì)量和可靠性。
? 引入代碼沙箱反饋,大幅提升模型在STEM領域的準確性。
? 使用生成式獎勵,優(yōu)化模型在問答和創(chuàng)意性任務上的表現(xiàn),并有效減少獎勵作弊現(xiàn)象。
寫在最后:
Mamba 是一種新型的狀態(tài)空間模型 (State Space Model, SSM)。 簡單來說,你可以把它理解為一種更高效處理長序列數(shù)據(jù)的模型架構,它主要為了解決 Transformer 模型在處理長序列時效率低下的問題而提出的。
Mamba 是由 Albert Gu (卡耐基梅隆大學)和 Tri Dao(普林斯頓大學) 兩位研究人員主導開發(fā)的。
Mamba 的創(chuàng)新之處在于它引入了“選擇性狀態(tài)空間 (Selective State Spaces)” 的概念。 簡單來說,Mamba 模型中的 SSM 參數(shù)不再是固定的,而是會根據(jù)輸入的內(nèi)容動態(tài)變化。 這樣一來,模型就能根據(jù)當前處理的token,有選擇性地記住或遺忘信息,從而更好地進行內(nèi)容相關的推理。
此外,Mamba 的設計也考慮了硬件效率,它在保持類似循環(huán)神經(jīng)網(wǎng)絡 (RNN) 的結構的同時,還能進行并行計算,這使得 Mamba 在推理速度上比 Transformer 更快(約快 5 倍)。 而且,Mamba 的計算復雜度是線性于序列長度的,這意味著處理更長的序列也不會顯著增加計算負擔。