MiniMax-M1接棒DeepSeek,中國AI走向高性價比創新
DeepSeek R1的發布讓整個AI界重新思考成本與性能的關系。用相對較低的成本訓練出媲美GPT-4的模型,這種可能性正在變為現實。而現在,中國AI公司MiniMax又悄然交出了另一份答卷。
這家因海螺(Hailuo)AI視頻而聲名鵲起的公司,剛剛發布了他們的最新大型語言模型MiniMax-M1。M1完全采用Apache 2.0許可證開源,任何企業和開發者都可以免費使用。
更有趣的是訓練成本:僅用53.47萬美元就完成了完整的強化學習訓練。MiniMax-M1的成本控制能力真是令人矚目。
1. 低調的技術獨角獸
MiniMax成立于2021年,創始人閆俊杰的履歷堪稱"學霸模板":東南大學數學本科、重慶郵電大學通信工程碩士、中科院自動化所博士、清華大學計算機系博士后。
他曾在商湯科技擔任副總裁、研究院副院長及智慧城市事業群CTO,是商湯通用智能技術的核心負責人。
可以說,MiniMax的核心團隊有著深厚的技術積淀。
從2022年的天使輪開始,經過多輪融資,直至2024年阿里巴巴領投的6億美元(估值超過25億美元),短短兩年多時間,MiniMax就躋身獨角獸行列。
有很多人可能不知道MiniMax,但是可能都認識他們的海螺視頻(Hailuo AI)。
這款AI視頻生成工具以出色的視頻質量和逼真效果在全球范圍內獲得了廣泛認可,目前已經吸引了遍布180個地區的創作者使用。
從視頻生成到大語言模型,MiniMax正在構建一個多模態的AI生態。
2. 如何用更少的錢做更多的事
那么,MiniMax是如何做到用低成本來訓練出一個高質量大模型的呢?
主要在兩個方面:巧妙的架構設計和高效的算法優化。
2.1 混合注意力的巧妙組合
一般的模型在處理長文本時,處理速度會變得很慢,答案就在于傳統Transformer架構的 "quadratic computational complexity" 問題。隨著文本長度增加,計算量增長越來越快,就像滾雪球一樣。
MiniMax-M1的解決方案很有意思:他們采用了一種叫 "Lightning Attention" 的線性注意力機制,但沒有完全拋棄傳統方法。具體來說,每7個 "Lightning Attention" 塊后面跟著1個傳統的注意力塊,形成了一個7+1的混合架構。
從技術參數來看,這個模型總共有4560億參數,但每次只激活459億參數(約10%),這就是MoE(專家混合)架構的魅力。
結果是什么呢?在生成長度為 64K token 時,M1 消耗的 FLOPs 不到 50%,而在長度為 100K token 時,消耗的 FLOPs 約為 25%。這種顯著的計算成本降低使得 M1 在推理和大規模 RL 訓練中都更加高效
2.2 CISPO算法的效率提升
如果說混合注意力解決了"怎么算"的問題,那么CISPO算法就解決了"怎么學"的問題。
使用CISPO算法,MiniMax-M1只需要約50%的訓練步數就能達到與傳統DAPO算法相近的性能。
這直接轉化為了成本優勢。具體來說,使用512張H800顯卡,訓練3周,總成本僅為53.47萬美元。
使用不同的 RL 算法對 Qwen2.5-32B-base 模型進行訓練,并在 AIME 2024 基準上報告性能。CISPO 在相同訓練步數的情況下顯著優于 DAPO 和 GRPO。
這種效率提升,正是MiniMax能夠以相對較低成本訓練出高質量模型的關鍵所在。
CISPO 在 AIME 2024 上的表現與 GRPO 和 DAPO 的比較,基于 Qwen2.5-32B-base。CISPO 在相同訓練步數的情況下性能優于 GRPO 和 DAPO,并且使用 50%的訓練步數就能達到與 DAPO 相當的性能
3. 專注實用性的表現
從各項測試來看,MiniMax-M1展現出了明顯的"實用主義"傾向。
在軟件工程任務上,MiniMax-M1在SWE-bench Verified測試中達到了56%的成績。它非常接近DeepSeek-R1-0528的57.6%,而明顯超過了Qwen3-235B的34.4%。對于開發者來說,這意味著MiniMax-M1可以成為一個相當不錯的編程助手。
長文本理解是另一個亮點。得益于100萬token的上下文支持,MiniMax-M1在處理長文檔時表現出色:在OpenAI-MRCR(128k)測試中達到76.1%,在100萬token的測試中也能保持58.6%的表現。這對于需要處理大量文檔的企業用戶來說,無疑是個好消息。
在工具使用能力方面,TAU-bench測試顯示MiniMax-M1在航空業務場景能達到62%,在零售場景達到63.5%。這表明它在實際業務應用中具備了不錯的適應性。
當然,MiniMax-M1也有自己的短板。在數學推理等任務上,它的表現相對一般:AIME 2024測試中為86%,AIME 2025為76.9%,與最新的DeepSeek-R1-0528等模型仍有差距。
4. 技術社區的反響
MiniMax-M1發布后在國際技術社區引發了廣泛關注。Hacker News等技術論壇的開發者們對其混合注意力機制和CISPO算法表示認可,認為技術報告值得深入研究。特別是53.47萬美元的訓練成本,被視為成本控制的重要突破。
有趣的是,硬件門檻成為了熱門討論話題。雖然完整運行需要8張H200顯卡(約25萬美元),但通過Q4/Q8量化技術,可以將硬件需求降至可以接受范圍。這引發了關于本地部署可行性的熱烈討論。技術社區普遍認為,隨著硬件的發展,本地運行高質量LLM將在幾年內變得更加經濟實用。
5. 中國AI的新趨勢
從DeepSeek R1到MiniMax-M1,我們看到了中國AI發展的新趨勢。
MiniMax-M1進一步推進了大模型成本革命,大幅降低的訓練成本讓更多團隊有機會進入AI領域。兩個模型都選擇了開源策略,正在改變全球AI技術的競爭格局,當高質量AI模型可以被任何人免費使用時,創新門檻被大大降低。更重要的是,中國AI公司不再單純追求基準測試的極致表現,而是更關注實用性、成本效率和技術普及,這種理念轉變正在改變整個AI行業的競爭規則,讓AI價值惠及更多企業和開發者。
本文轉載自????AI取經路??,作者:AI取經路
