視覺模型進入MoE時代！DeepSeek開源全新視覺模型VL2，逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話！

原創(chuàng) 精選

作者：言征 2024-12-17 13:55:21

人工智能

多模態(tài)可以說是今年以來大模型向前演進的一個趨勢，從語言到視覺、聽覺等深入研究，既可以進一步解鎖大模型的通用能力，同時也會讓未來的AI應用更加繁榮和落地。

編輯 | 言征

出品 | 51CTO技術棧（微信號：blog51cto）

12月13日晚，國內開源模型玩家深度求索發(fā)布了視覺模型 DeepSeek-VL2。這次DeepSeek視覺模型給這一領域帶來了不少看新看點：

1、模型層面，視覺模型也可以使用 MoE 架構，而且可以配合動態(tài)切圖

2、新增了不少生成玩法，如：視覺定位，模型可以根據提示識別出物體的邊界范圍，再比如梗圖理解和解析。

3、圖表理解：可以根據plot圖逆向生成代碼。

4、從OCR到故事生成：可以N張圖一期喂給模型，模型直接生成強相關的故事。

先上一張圖，讓大家品一品，一句提示，讓大模型明白圖中的人物：誰是淡定姐。

圖片

當然，DeepSeek-VL2 肯定是開源的了，具體型號有3B、16B 、 27B。模型和論文均已發(fā)布：

模型下載：https://huggingface.co/deepseek-ai

GitHub主頁：https://github.com/deepseek-ai/DeepSeek-VL2

1.模型新升級

首先看數據方面，VL2 比上一代 DeepSeek-VL 多一倍優(yōu)質訓練數據，引入梗圖理解、視覺定位、視覺故事生成等新能力。

在模型架構上，視覺部分使用切圖策略支持動態(tài)分辨率圖像，語言部分采用 MoE 架構低成本高性能。

圖片

在訓練方法上，繼承 DeepSeek-VL 的三階段訓練流程，同時通過負載均衡適配圖像切片數量不定的困難，對圖像和文本數據使用不同流水并行策略，對 MoE 語言模型引入專家并行，實現高效訓練。

在不少視覺理解測試中，評分結果跟GPT4o、Qwen打平，甚至更好，關鍵是VL2可以用更少的參數量就能達到極好的效果。DeepSeek-VL2 模型展現出了強大能力，在各項評測指標上均取得了極具優(yōu)勢的成績：

圖片

具體的測評結果如下：

圖片

2.動態(tài)分辨率支持

據介紹，DeepSeek-VL2 僅使用一個 SigLIP-SO400M 作為圖像編碼器，通過將圖像切分為多張子圖和一張全局縮略圖來實現動態(tài)分辨率圖像支持。這一策略使得 DeepSeek-VL2 最多支持 1152x1152 的分辨率和 1:9 或 9:1 的極端長寬比，這樣就可以適配更多應用場景。

圖片