9B“小”模型干了票“大”的:性能超8倍參數模型,拿下23項SOTA | 智譜開源
如果一個視覺語言模型(VLM)只會“看”,那真的是已經不夠看的了。
因為現在真實世界的任務簡直不要太復雜,要想讓AI干點實事兒,光有多模態還不夠,必須還得有深度思考的強推理能力。
而就在剛剛,智譜發布并開源了一個僅9B大小的模型——GLM-4.1V-9B-Thinking,在28項評測中一舉拿下23個SOTA!
毫無懸念地成為10B級別里效果最好的VLM模型;而在18項評測中,它都可以與自身8倍參數量的Qwen-2.5-VL-72B一較高下,甚至是超越的程度。
整體來看,GLM-4.1V-9B-Thinking之所以能夠這般“以小搏大”,核心原因就是會思考:
引入了思維鏈(Chain-of-Thought)推理機制,并通過課程采樣強化學習(RLCS,Reinforcement Learning with Curriculum Sampling)來全面提升模型能力。
值得一提的是,在智譜這次發布新模型之際,浦東創投集團和張江集團對其進行了10億元投資,并將于近期完成首次交割。
評測是一方面,但也正如我們剛才提到的,現在的AI“貴在”得能干點實事兒,那么GLM-4.1V-9B-Thinking具體“療效”如何,我們繼續往下看。
先看效果
例如我們在不給提醒的情況下,先“喂”GLM-4.1V-9B-Thinking一幅名畫:
然后向它提問:
這幅畫中哪些元素違背物理規律?藝術家可能通過這些矛盾表達什么哲學思想?
可以看到,GLM-4.1V-9B-Thinking先是看出了這是西班牙超現實主義畫家薩爾瓦多·達利創作的《記憶的永恒》;然后也道出了畫作中存在違背物理的視覺符號等。
我們再讓它看一眼今年高考的一道圖文并茂數學真題,并附上一句Prompt:
請幫我解決這個題目,給出詳細過程和答案。
(PS:這道題很多大模型在之前都有出現過翻車。)
GLM-4.1V-9B-Thinking在思考片刻過后,就會給出一個簡潔且精準的答案——A:
再如此前同樣讓一眾大模型“頭疼”的看時鐘和日期問題,我們也讓GLM-4.1V-9B-Thinking試一試:
看這張圖,分別是什么時間和什么日期?
在同時處理兩個易出錯的問題時,GLM-4.1V-9B-Thinking依舊是給出了相對準確答案(時間有一點小偏差,應該是10點11分):
以及還有生活中比較有趣且實用的例子——看手相:
有懂手相的小伙伴,也可以留言討論GLM-4.1V-9B-Thinking看得是否準確哦~
由此可見,GLM-4.1V-9B-Thinking在“邊看邊想”這件事已經達到了普通人的水準。
整體而言,它現在的能力包括但不限于:
- 超長視頻解析:能看懂長達2小時的視頻,準確分析其中的人物、事件和時間關系
- 智能讀圖問答:不僅能描述圖片內容,還能結合常識進行邏輯推理和解答
- 理科解題助手:支持數學、物理等理科題目解答,提供詳細解題步驟
- 圖文識別轉換:可精準提取圖片/視頻中的文字和表格,轉為結構化數據
- 專業文檔處理:擅長解讀金融、政務等專業文件,快速提取關鍵信息
- 圖像定位標注:能標出圖片中指定對象的具體位置坐標
- 智能界面操作:可識別電腦/手機界面元素,執行點擊、滑動等操作指令
- 看圖寫代碼:根據設計圖自動生成前端網頁代碼
再看技術
在看完效果之后,我們再來聊聊GLM-4.1V-9B-Thinking背后的技術。
從GLM-4.1V-9B-Thinking的模型架構來看,主要包含三大塊的內容,它們分別是:
- 視覺編碼器(ViT Encoder)
- 多層感知機適配器(MLP Projector)
- 語言解碼器(Language Decoder)
視覺編碼器就好比模型的 “眼睛”,團隊給它選了AIMv2-Huge這個 “超級視力裝備”。
一般的 “眼睛” 看視頻用的是二維卷積,就像一張張照片,但GLM-4.1V-9B-Thinking這個 “眼睛” 換成了三維卷積,這樣它就能像看電影一樣,在時間維度上 “快進快退”,快速處理視頻,效率大大提高。要是遇到靜態圖片,它就把圖片多復制幾份,假裝是 “小短片”,保證輸入格式統一。
為了讓這個 “眼睛” 不管看到多寬多窄、多清晰的畫面都能適應,團隊還給它做了兩個升級。
第一個是加了二維旋轉位置編碼,這就像給 “眼睛” 戴了一副 “特殊眼鏡”,就算畫面特別寬(寬高比超過 200:1),或者特別清晰(4K 以上分辨率),它也能穩穩地 “看清楚”。
第二個是保留了可學習的絕對位置嵌入,就像給 “眼睛” 記住每個畫面位置的 “小本本”,在訓練的時候,通過雙三次插值,讓它能靈活適應不同大小的畫面。
語言解碼器則是模型的 “嘴巴” 和 “大腦”,負責理解你的問題,然后給出答案。
團隊把原來的旋轉位置編碼升級成了三維的,這讓模型在同時處理畫面和文字的時候,能更好地理解空間關系,就像你一邊看地圖一邊聽別人描述路線,能更快找到方向,而且它回答文字問題的能力一點沒減弱。
多層感知機適配器就像是 “眼睛” 和 “大腦” 之間的 “翻譯官”,把 “眼睛” 看到的信息翻譯成 “大腦” 能理解的語言,讓整個模型順暢地工作。
在訓練GLM-4.1V-9B-Thinking方面,則是包含三個階段:預訓練(Pretraining)、監督微調(SFT)和課程采樣強化學習(RLCS)。
預訓練階段
在最初階段,團隊的目標是讓模型具備廣泛的圖文理解能力。
為此,智譜采用了“雙通道并行”的訓練方式,對模型進行了12萬步的訓練。每次輸入的文本長度為8192,整體批量大小為1536。訓練用的數據包括圖像配文字、圖文混合內容、識別文字(OCR)、圖像定位、指令問答等多種類型。
為了提高訓練效率,團隊還用了“樣本拼接”的方法,把不同長度的訓練數據拼成接近最大長度的長序列,這樣可以盡可能多地利用顯存,減少浪費。
為了讓模型更好地處理高分辨率圖片、視頻片段以及特別長的文本,團隊在訓練中加入了更復雜的數據,比如視頻的連續畫面和長度超過8000字的圖文內容。
在這個階段,團隊把輸入的序列長度擴展到了3萬多(具體是32,768),并采用了更高級的并行訓練方式(兩路張量并行加上四路上下文并行),繼續訓練了一萬步,同時保持之前的總批量大小不變(1,536),以確保訓練的穩定性和效率。
監督微調(SFT)階段
在微調階段,團隊專門準備了一批高質量的“思維鏈”(CoT)訓練數據,目的是提升模型在處理復雜因果關系和長篇推理問題時的能力。這些訓練樣本都按照統一的格式進行組織:
<think> {推理過程} </think> <answer> {最終答案} </answer>
<think> {推理過程} </think> <answer> {最終答案} </answer>
微調時團隊對模型的全部參數進行了訓練,輸入長度設為32768,批量大小為32。
訓練內容來自多個實際任務場景,比如解數學題、多輪對話、任務規劃和復雜指令的執行,數據形式包括圖文結合、多模態輸入和純文本等多種類型。
這個階段不僅進一步提升了模型處理多模態信息的推理能力,同時也讓它在語言理解和邏輯推理方面依然表現穩定。
課程采樣強化學習(RLCS)階段
在SFT的基礎上,團隊還引入了課程采樣強化學習來提升性能。
團隊主要結合了基于可驗證獎勵的強化學習(RLVR)和基于人類反饋的強化學習(RLHF)來覆蓋多個關鍵任務維度:
- STEM領域問題求解(數學、物理、化學)
- 多模態信息定位與理解(OCR、實體定位、視頻分析)
- 智能體任務(GUI交互、代理規劃)
- 文檔與圖表理解、邏輯推理、復雜指令執行等
團隊采用“課程學習”的方式進行大規模強化訓練,也就是先讓模型從簡單任務開始,逐步挑戰更難的任務。通過這種由淺入深的訓練策略,模型在實用性、準確性以及穩定性方面都有了明顯的提升。
最后,關于GLM-4.1V-9B-Thinking的論文、代碼等也均已開源,感興趣的小伙伴可以看看文末鏈接哦~
論文地址:https://arxiv.org/abs/2507.01006
開源列表:
[1]Github:https://github.com/THUDM/GLM-4.1V-Thinking
[2]ModelScope:https://modelscope.cn/collections/GLM-41V-35d24b6def9f49
[3]Hugging Face:https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d
[4]HuggingFace 體驗鏈接:https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo
[5]魔搭社區體驗鏈接: https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-Demo
智譜MaaS開發平臺bigmodel.cn同步上線GLM-4.1V-Thinking-Flash API:
[1]API 使用指南:https://www.bigmodel.cn/dev/howuse/visual-reasoning-model/glm-4.1v-thinking
[2]API 接口文檔:https://www.bigmodel.cn/dev/api/visual-reasoning-model/glm-4.1v-thinking
[3]體驗中心:https://www.bigmodel.cn/trialcenter/modeltrial/text?modelCode=glm-4.1v-thinking-flash