智譜開源多模態推理新王者!9B參數挑戰72B巨頭 原創
小模型的大智慧,正在重構全球AI競爭規則。
?
昨天,在上海張江科學會堂上,智譜CEO張鵬正式發布GLM-4.1V-Thinking,旨在探索視覺語言模型中推理的上限。這個僅90億參數的多模態模型,在18項關鍵測試中逼平甚至超越了參數規模八倍于己的行業巨頭Qwen-2.5-VL-72B。
?
?
就在發布當天,浦東創投集團與張江集團宣布向智譜注資10億元戰略投資,首筆交割即時完成。
?
GLM-4.1V-9B-Thinking的誕生,標志著多模態模型從「感知」向「認知」的關鍵躍遷。在MMStar、MMMU-Pro等28項權威評測中,它獲得了23項10B級模型最佳成績。
?
?
而這來源于團隊的兩大創新機制:一是思維鏈推理機制,可以讓模型像人類一樣展示思考過程;二是課程采樣強化學習策略,引導AI由淺入深掌握復雜技能。
?
目前,在arXiv公開的技術報告顯示單張RTX 3090顯卡即可流暢運行該模型,MIT開源協議允許免費商用。這意味著普通開發者不必依賴昂貴的云計算資源也能在本地部署。
?
多模態能力的全面進化
?
在多模態能力方面,GLM-4.1V-9B-Thinking展現出驚人的場景適應性:它能解析長達兩小時的視頻內容,理清人物關系和事件邏輯;看懂數學題并給出詳細解題步驟;甚至識別手機界面元素,幫用戶創建日程會議。
?
在官方演示視頻中,它像足球解說員一樣實時解說足球賽事,從戰術執行到球員跑位,專業程度甚至不亞于人類解說員。這種能力來源于獨特的架構設計——視覺編碼器采用三維卷積處理視頻流,語言解碼器則通過3D旋轉位置編碼增強空間理解。
?
?
訓練策略的革新之道
?
智譜團隊精心設計了三階段訓練方案。預訓練階段通過海量圖文、視頻數據建立基礎認知;監督微調階段引入高質量思維鏈數據集強化推理能力;最關鍵的強化學習階段采用課程采樣技術,讓模型像學生一樣從易到難攻克STEM解題、GUI操作等復雜任務。
?
團隊還采用了跨領域泛化設計。當模型在STEM數據上訓練時,也同步提升了視覺定位和GUI交互能力——數學推理中培養的邏輯鏈條,可以遷移到界面操作任務中。
?
在實際應用場景中,GLM-4.1V-9B-Thinking展現出令人驚嘆的多元能力:
?
有網友對一道2025年高考數學立體幾何真題進行實測,它能逐步推導體積計算過程。
?
?
Prompt:請幫我解決這個題目,給出詳細過程和答案
?
輸出結果如下:
?
【圖片來源于網絡,侵刪】
?
這些場景進一步驗證了技術報告的核心結論:當強化學習加入訓練流程后,模型在GUI操作、視頻理解等任務上的性能直線提升。
?
隨著“Agents開拓者計劃”的推進,這批開源模型將化身千萬智能體,融入教育課件、醫療影像、工業質檢的各個環節中。
?
這或許正孕育著中國AI登頂的下一個支點。
