成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

9B“小”模型干了票“大”的：性能超8倍參數模型，拿下23項SOTA | 智譜開源

2025-07-02 14:39:29

人工智能新聞

智譜發布并開源了一個僅9B大小的模型——GLM-4.1V-9B-Thinking，在28項評測中一舉拿下23個SOTA！

如果一個視覺語言模型（VLM）只會“看”，那真的是已經不夠看的了。

因為現在真實世界的任務簡直不要太復雜，要想讓AI干點實事兒，光有多模態還不夠，必須還得有深度思考的強推理能力。

而就在剛剛，智譜發布并開源了一個僅9B大小的模型——GLM-4.1V-9B-Thinking，在28項評測中一舉拿下23個SOTA！

毫無懸念地成為10B級別里效果最好的VLM模型；而在18項評測中，它都可以與自身8倍參數量的Qwen-2.5-VL-72B一較高下，甚至是超越的程度。

整體來看，GLM-4.1V-9B-Thinking之所以能夠這般“以小搏大”，核心原因就是會思考：

引入了思維鏈（Chain-of-Thought）推理機制，并通過課程采樣強化學習（RLCS，Reinforcement Learning with Curriculum Sampling）來全面提升模型能力。

值得一提的是，在智譜這次發布新模型之際，浦東創投集團和張江集團對其進行了10億元投資，并將于近期完成首次交割。

評測是一方面，但也正如我們剛才提到的，現在的AI“貴在”得能干點實事兒，那么GLM-4.1V-9B-Thinking具體“療效”如何，我們繼續往下看。

先看效果

例如我們在不給提醒的情況下，先“喂”GLM-4.1V-9B-Thinking一幅名畫：

然后向它提問：

這幅畫中哪些元素違背物理規律？藝術家可能通過這些矛盾表達什么哲學思想？

可以看到，GLM-4.1V-9B-Thinking先是看出了這是西班牙超現實主義畫家薩爾瓦多·達利創作的《記憶的永恒》；然后也道出了畫作中存在違背物理的視覺符號等。

我們再讓它看一眼今年高考的一道圖文并茂數學真題，并附上一句Prompt：

請幫我解決這個題目，給出詳細過程和答案。

（PS：這道題很多大模型在之前都有出現過翻車。）

GLM-4.1V-9B-Thinking在思考片刻過后，就會給出一個簡潔且精準的答案——A：

再如此前同樣讓一眾大模型“頭疼”的看時鐘和日期問題，我們也讓GLM-4.1V-9B-Thinking試一試：

看這張圖，分別是什么時間和什么日期？

在同時處理兩個易出錯的問題時，GLM-4.1V-9B-Thinking依舊是給出了相對準確答案（時間有一點小偏差，應該是10點11分）：

以及還有生活中比較有趣且實用的例子——看手相：

有懂手相的小伙伴，也可以留言討論GLM-4.1V-9B-Thinking看得是否準確哦~

由此可見，GLM-4.1V-9B-Thinking在“邊看邊想”這件事已經達到了普通人的水準。

整體而言，它現在的能力包括但不限于：

超長視頻解析：能看懂長達2小時的視頻，準確分析其中的人物、事件和時間關系
智能讀圖問答：不僅能描述圖片內容，還能結合常識進行邏輯推理和解答
理科解題助手：支持數學、物理等理科題目解答，提供詳細解題步驟
圖文識別轉換：可精準提取圖片/視頻中的文字和表格，轉為結構化數據
專業文檔處理：擅長解讀金融、政務等專業文件，快速提取關鍵信息
圖像定位標注：能標出圖片中指定對象的具體位置坐標
智能界面操作：可識別電腦/手機界面元素，執行點擊、滑動等操作指令
看圖寫代碼：根據設計圖自動生成前端網頁代碼

再看技術

在看完效果之后，我們再來聊聊GLM-4.1V-9B-Thinking背后的技術。

從GLM-4.1V-9B-Thinking的模型架構來看，主要包含三大塊的內容，它們分別是：

視覺編碼器（ViT Encoder）
多層感知機適配器（MLP Projector）
語言解碼器（Language Decoder）

視覺編碼器就好比模型的 “眼睛”，團隊給它選了AIMv2-Huge這個 “超級視力裝備”。

一般的 “眼睛” 看視頻用的是二維卷積，就像一張張照片，但GLM-4.1V-9B-Thinking這個 “眼睛” 換成了三維卷積，這樣它就能像看電影一樣，在時間維度上 “快進快退”，快速處理視頻，效率大大提高。要是遇到靜態圖片，它就把圖片多復制幾份，假裝是 “小短片”，保證輸入格式統一。

為了讓這個 “眼睛” 不管看到多寬多窄、多清晰的畫面都能適應，團隊還給它做了兩個升級。

第一個是加了二維旋轉位置編碼，這就像給 “眼睛” 戴了一副 “特殊眼鏡”，就算畫面特別寬（寬高比超過 200:1），或者特別清晰（4K 以上分辨率），它也能穩穩地 “看清楚”。

第二個是保留了可學習的絕對位置嵌入，就像給 “眼睛” 記住每個畫面位置的 “小本本”，在訓練的時候，通過雙三次插值，讓它能靈活適應不同大小的畫面。

語言解碼器則是模型的 “嘴巴” 和 “大腦”，負責理解你的問題，然后給出答案。

團隊把原來的旋轉位置編碼升級成了三維的，這讓模型在同時處理畫面和文字的時候，能更好地理解空間關系，就像你一邊看地圖一邊聽別人描述路線，能更快找到方向，而且它回答文字問題的能力一點沒減弱。

多層感知機適配器就像是 “眼睛” 和 “大腦” 之間的 “翻譯官”，把 “眼睛” 看到的信息翻譯成 “大腦” 能理解的語言，讓整個模型順暢地工作。

在訓練GLM-4.1V-9B-Thinking方面，則是包含三個階段：預訓練（Pretraining）、監督微調（SFT）和課程采樣強化學習（RLCS）。

預訓練階段

在最初階段，團隊的目標是讓模型具備廣泛的圖文理解能力。

為此，智譜采用了“雙通道并行”的訓練方式，對模型進行了12萬步的訓練。每次輸入的文本長度為8192，整體批量大小為1536。訓練用的數據包括圖像配文字、圖文混合內容、識別文字（OCR）、圖像定位、指令問答等多種類型。

為了提高訓練效率，團隊還用了“樣本拼接”的方法，把不同長度的訓練數據拼成接近最大長度的長序列，這樣可以盡可能多地利用顯存，減少浪費。

為了讓模型更好地處理高分辨率圖片、視頻片段以及特別長的文本，團隊在訓練中加入了更復雜的數據，比如視頻的連續畫面和長度超過8000字的圖文內容。

在這個階段，團隊把輸入的序列長度擴展到了3萬多（具體是32,768），并采用了更高級的并行訓練方式（兩路張量并行加上四路上下文并行），繼續訓練了一萬步，同時保持之前的總批量大小不變（1,536），以確保訓練的穩定性和效率。

監督微調（SFT）階段

在微調階段，團隊專門準備了一批高質量的“思維鏈”（CoT）訓練數據，目的是提升模型在處理復雜因果關系和長篇推理問題時的能力。這些訓練樣本都按照統一的格式進行組織：

<think> {推理過程} </think> <answer> {最終答案} </answer>
<think> {推理過程} </think> <answer> {最終答案} </answer>

微調時團隊對模型的全部參數進行了訓練，輸入長度設為32768，批量大小為32。

訓練內容來自多個實際任務場景，比如解數學題、多輪對話、任務規劃和復雜指令的執行，數據形式包括圖文結合、多模態輸入和純文本等多種類型。

這個階段不僅進一步提升了模型處理多模態信息的推理能力，同時也讓它在語言理解和邏輯推理方面依然表現穩定。

課程采樣強化學習（RLCS）階段

在SFT的基礎上，團隊還引入了課程采樣強化學習來提升性能。

團隊主要結合了基于可驗證獎勵的強化學習（RLVR）和基于人類反饋的強化學習（RLHF）來覆蓋多個關鍵任務維度：

STEM領域問題求解（數學、物理、化學）
多模態信息定位與理解（OCR、實體定位、視頻分析）
智能體任務（GUI交互、代理規劃）
文檔與圖表理解、邏輯推理、復雜指令執行等

團隊采用“課程學習”的方式進行大規模強化訓練，也就是先讓模型從簡單任務開始，逐步挑戰更難的任務。通過這種由淺入深的訓練策略，模型在實用性、準確性以及穩定性方面都有了明顯的提升。

最后，關于GLM-4.1V-9B-Thinking的論文、代碼等也均已開源，感興趣的小伙伴可以看看文末鏈接哦~

論文地址：https://arxiv.org/abs/2507.01006

開源列表：

[1]Github：https://github.com/THUDM/GLM-4.1V-Thinking
[2]ModelScope：https://modelscope.cn/collections/GLM-41V-35d24b6def9f49
[3]Hugging Face：https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d
[4]HuggingFace 體驗鏈接：https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo
[5]魔搭社區體驗鏈接： https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-Demo

智譜MaaS開發平臺bigmodel.cn同步上線GLM-4.1V-Thinking-Flash API：

[1]API 使用指南：https://www.bigmodel.cn/dev/howuse/visual-reasoning-model/glm-4.1v-thinking

[2]API 接口文檔：https://www.bigmodel.cn/dev/api/visual-reasoning-model/glm-4.1v-thinking

[3]體驗中心：https://www.bigmodel.cn/trialcenter/modeltrial/text?modelCode=glm-4.1v-thinking-flash

責任編輯：張燕妮來源：量子位

開源模型 AI

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：伊人网一区 | 韩国理论电影在线 | 日日干日日 | 国产乱码高清区二区三区在线 | 亚洲免费人成在线视频观看 | 国产1区| 2023亚洲天堂 | 欧美一区二区三区 | 欧美精品福利视频 | av中文在线 | 岛国精品| 免费a国产| 九九久久在线看 | 日韩亚洲一区二区 | 免费视频久久 | 国产欧美视频一区二区 | 亚洲精品一区在线观看 | 欧美一区二区三区久久精品 | 欧美激情久久久 | 午夜电影福利 | 国产成人精品a视频一区www | 欧美视频成人 | 最新日韩av| 热99| 天天操夜夜看 | 中文字幕在线观看 | 国产最新精品视频 | 亚洲美女视频 | 99精品网 | 中文字幕免费在线 | 精品96久久久久久中文字幕无 | 免费一区二区三区在线视频 | 国产电影一区二区 | 国产日韩欧美中文在线播放 | 国产精品久久久久久久久久久久 | 国产久视频 | 麻豆毛片| 亚洲人成人一区二区在线观看 | 日韩三级一区 | 最新国产精品视频 | www.久久影视 |