成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

9B“小”模型干了票“大”的:性能超8倍參數模型,拿下23項SOTA | 智譜開源

人工智能 新聞
智譜發布并開源了一個僅9B大小的模型——GLM-4.1V-9B-Thinking,在28項評測中一舉拿下23個SOTA!

如果一個視覺語言模型(VLM)只會“看”,那真的是已經不夠看的了。

因為現在真實世界的任務簡直不要太復雜,要想讓AI干點實事兒,光有多模態還不夠,必須還得有深度思考的強推理能力。

而就在剛剛,智譜發布并開源了一個僅9B大小的模型——GLM-4.1V-9B-Thinking,在28項評測中一舉拿下23個SOTA!

毫無懸念地成為10B級別里效果最好的VLM模型;而在18項評測中,它都可以與自身8倍參數量的Qwen-2.5-VL-72B一較高下,甚至是超越的程度。

圖片

整體來看,GLM-4.1V-9B-Thinking之所以能夠這般“以小搏大”,核心原因就是會思考

引入了思維鏈(Chain-of-Thought)推理機制,并通過課程采樣強化學習(RLCS,Reinforcement Learning with Curriculum Sampling)來全面提升模型能力。

值得一提的是,在智譜這次發布新模型之際,浦東創投集團和張江集團對其進行了10億元投資,并將于近期完成首次交割。

評測是一方面,但也正如我們剛才提到的,現在的AI“貴在”得能干點實事兒,那么GLM-4.1V-9B-Thinking具體“療效”如何,我們繼續往下看。

先看效果

例如我們在不給提醒的情況下,先“喂”GLM-4.1V-9B-Thinking一幅名畫:

圖片

然后向它提問:

這幅畫中哪些元素違背物理規律?藝術家可能通過這些矛盾表達什么哲學思想?

圖片

可以看到,GLM-4.1V-9B-Thinking先是看出了這是西班牙超現實主義畫家薩爾瓦多·達利創作的《記憶的永恒》;然后也道出了畫作中存在違背物理的視覺符號等。

我們再讓它看一眼今年高考的一道圖文并茂數學真題,并附上一句Prompt:

請幫我解決這個題目,給出詳細過程和答案。

(PS:這道題很多大模型在之前都有出現過翻車。)

圖片

GLM-4.1V-9B-Thinking在思考片刻過后,就會給出一個簡潔且精準的答案——A

圖片

再如此前同樣讓一眾大模型“頭疼”的看時鐘和日期問題,我們也讓GLM-4.1V-9B-Thinking試一試:

看這張圖,分別是什么時間和什么日期?

圖片

在同時處理兩個易出錯的問題時,GLM-4.1V-9B-Thinking依舊是給出了相對準確答案(時間有一點小偏差,應該是10點11分):

圖片

以及還有生活中比較有趣且實用的例子——看手相

圖片

有懂手相的小伙伴,也可以留言討論GLM-4.1V-9B-Thinking看得是否準確哦~

圖片

由此可見,GLM-4.1V-9B-Thinking在“邊看邊想”這件事已經達到了普通人的水準。

整體而言,它現在的能力包括但不限于:

  • 超長視頻解析:能看懂長達2小時的視頻,準確分析其中的人物、事件和時間關系
  • 智能讀圖問答:不僅能描述圖片內容,還能結合常識進行邏輯推理和解答
  • 理科解題助手:支持數學、物理等理科題目解答,提供詳細解題步驟
  • 圖文識別轉換:可精準提取圖片/視頻中的文字和表格,轉為結構化數據
  • 專業文檔處理:擅長解讀金融、政務等專業文件,快速提取關鍵信息
  • 圖像定位標注:能標出圖片中指定對象的具體位置坐標
  • 智能界面操作:可識別電腦/手機界面元素,執行點擊、滑動等操作指令
  • 看圖寫代碼:根據設計圖自動生成前端網頁代碼

再看技術

在看完效果之后,我們再來聊聊GLM-4.1V-9B-Thinking背后的技術。

從GLM-4.1V-9B-Thinking的模型架構來看,主要包含三大塊的內容,它們分別是:

  • 視覺編碼器(ViT Encoder)
  • 多層感知機適配器(MLP Projector)
  • 語言解碼器(Language Decoder)

圖片

視覺編碼器就好比模型的 “眼睛”,團隊給它選了AIMv2-Huge這個 “超級視力裝備”。

一般的 “眼睛” 看視頻用的是二維卷積,就像一張張照片,但GLM-4.1V-9B-Thinking這個 “眼睛” 換成了三維卷積,這樣它就能像看電影一樣,在時間維度上 “快進快退”,快速處理視頻,效率大大提高。要是遇到靜態圖片,它就把圖片多復制幾份,假裝是 “小短片”,保證輸入格式統一。

為了讓這個 “眼睛” 不管看到多寬多窄、多清晰的畫面都能適應,團隊還給它做了兩個升級。

第一個是加了二維旋轉位置編碼,這就像給 “眼睛” 戴了一副 “特殊眼鏡”,就算畫面特別寬(寬高比超過 200:1),或者特別清晰(4K 以上分辨率),它也能穩穩地 “看清楚”。

第二個是保留了可學習的絕對位置嵌入,就像給 “眼睛” 記住每個畫面位置的 “小本本”,在訓練的時候,通過雙三次插值,讓它能靈活適應不同大小的畫面。

語言解碼器則是模型的 “嘴巴” 和 “大腦”,負責理解你的問題,然后給出答案。

團隊把原來的旋轉位置編碼升級成了三維的,這讓模型在同時處理畫面和文字的時候,能更好地理解空間關系,就像你一邊看地圖一邊聽別人描述路線,能更快找到方向,而且它回答文字問題的能力一點沒減弱。

多層感知機適配器就像是 “眼睛” 和 “大腦” 之間的 “翻譯官”,把 “眼睛” 看到的信息翻譯成 “大腦” 能理解的語言,讓整個模型順暢地工作。

在訓練GLM-4.1V-9B-Thinking方面,則是包含三個階段:預訓練(Pretraining)、監督微調(SFT)和課程采樣強化學習(RLCS)。

預訓練階段

在最初階段,團隊的目標是讓模型具備廣泛的圖文理解能力。

為此,智譜采用了“雙通道并行”的訓練方式,對模型進行了12萬步的訓練。每次輸入的文本長度為8192,整體批量大小為1536。訓練用的數據包括圖像配文字、圖文混合內容、識別文字(OCR)、圖像定位、指令問答等多種類型。

為了提高訓練效率,團隊還用了“樣本拼接”的方法,把不同長度的訓練數據拼成接近最大長度的長序列,這樣可以盡可能多地利用顯存,減少浪費。

為了讓模型更好地處理高分辨率圖片、視頻片段以及特別長的文本,團隊在訓練中加入了更復雜的數據,比如視頻的連續畫面和長度超過8000字的圖文內容。

在這個階段,團隊把輸入的序列長度擴展到了3萬多(具體是32,768),并采用了更高級的并行訓練方式(兩路張量并行加上四路上下文并行),繼續訓練了一萬步,同時保持之前的總批量大小不變(1,536),以確保訓練的穩定性和效率。

監督微調(SFT)階段

在微調階段,團隊專門準備了一批高質量的“思維鏈”(CoT)訓練數據,目的是提升模型在處理復雜因果關系和長篇推理問題時的能力。這些訓練樣本都按照統一的格式進行組織:

<think> {推理過程} </think> <answer> {最終答案} </answer>
<think> {推理過程} </think> <answer> {最終答案} </answer>

微調時團隊對模型的全部參數進行了訓練,輸入長度設為32768,批量大小為32。

訓練內容來自多個實際任務場景,比如解數學題、多輪對話、任務規劃和復雜指令的執行,數據形式包括圖文結合、多模態輸入和純文本等多種類型。

這個階段不僅進一步提升了模型處理多模態信息的推理能力,同時也讓它在語言理解和邏輯推理方面依然表現穩定。

課程采樣強化學習(RLCS)階段

在SFT的基礎上,團隊還引入了課程采樣強化學習來提升性能。

團隊主要結合了基于可驗證獎勵的強化學習(RLVR)和基于人類反饋的強化學習(RLHF)來覆蓋多個關鍵任務維度:

  • STEM領域問題求解(數學、物理、化學)
  • 多模態信息定位與理解(OCR、實體定位、視頻分析)
  • 智能體任務(GUI交互、代理規劃)
  • 文檔與圖表理解、邏輯推理、復雜指令執行等

團隊采用“課程學習”的方式進行大規模強化訓練,也就是先讓模型從簡單任務開始,逐步挑戰更難的任務。通過這種由淺入深的訓練策略,模型在實用性、準確性以及穩定性方面都有了明顯的提升。

圖片

最后,關于GLM-4.1V-9B-Thinking的論文、代碼等也均已開源,感興趣的小伙伴可以看看文末鏈接哦~

論文地址:https://arxiv.org/abs/2507.01006

開源列表:

[1]Github:https://github.com/THUDM/GLM-4.1V-Thinking
[2]ModelScope:https://modelscope.cn/collections/GLM-41V-35d24b6def9f49
[3]Hugging Face:https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d
[4]HuggingFace 體驗鏈接:https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo
[5]魔搭社區體驗鏈接: https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-Demo

智譜MaaS開發平臺bigmodel.cn同步上線GLM-4.1V-Thinking-Flash API:

[1]API 使用指南:https://www.bigmodel.cn/dev/howuse/visual-reasoning-model/glm-4.1v-thinking

[2]API 接口文檔:https://www.bigmodel.cn/dev/api/visual-reasoning-model/glm-4.1v-thinking

[3]體驗中心:https://www.bigmodel.cn/trialcenter/modeltrial/text?modelCode=glm-4.1v-thinking-flash

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-12-03 08:49:38

微軟開源

2024-04-02 09:17:50

AI數據開源

2025-06-17 09:07:24

2024-04-30 14:11:00

訓練模型

2022-12-06 14:11:32

開源模型

2025-05-12 09:00:00

2025-03-13 12:39:22

2024-06-04 14:09:00

2025-03-19 09:20:00

2025-04-27 08:30:00

2025-06-17 17:14:01

DeepSeekSOTA開源

2025-06-11 09:03:29

2025-04-14 00:30:00

2022-03-21 17:56:59

大模型訓練訓練框架

2022-03-21 15:06:10

模型字節跳動框架

2021-07-06 10:21:55

Facebook AI開源

2025-01-03 15:39:02

2024-01-16 12:31:13

OpenAIGLM-4大模型

2023-05-29 13:53:46

開源模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 伊人网一区 | 韩国理论电影在线 | 日日干日日 | 国产乱码高清区二区三区在线 | 亚洲免费人成在线视频观看 | 国产1区| 2023亚洲天堂 | 欧美一区二区三区 | 欧美精品福利视频 | av中文在线 | 岛国精品| 免费a国产| 九九久久在线看 | 日韩亚洲一区二区 | 免费视频久久 | 国产欧美视频一区二区 | 亚洲精品一区在线观看 | 欧美一区二区三区久久精品 | 欧美激情久久久 | 午夜电影福利 | 国产成人精品a视频一区www | 欧美视频成人 | 最新日韩av| 热99| 天天操夜夜看 | 中文字幕 在线观看 | 国产最新精品视频 | 亚洲美女视频 | 99精品网 | 中文字幕免费在线 | 精品96久久久久久中文字幕无 | 免费一区二区三区在线视频 | 国产电影一区二区 | 国产 日韩 欧美 中文 在线播放 | 国产精品久久久久久久久久久久 | 国产久视频 | 麻豆毛片| 亚洲人成人一区二区在线观看 | 日韩三级一区 | 最新国产精品视频 | www.久久影视 |