DeepSeek開源Janus-Pro-7B:多模態AI模型性能超越DALL-E 3 和 Stable Diffusion 3!
作者:AIGC Studio
DeepSeek又宣布開源新一代多模態模型Janus-Pro-7B,該模型在圖像生成、視覺問答等任務中全面超越 OpenAI 的 DALL-E 3 和 Stable Diffusion 3,并以“理解-生成雙路徑”架構和極簡部署方案引發AI社區轟動。
中國人工智能公司 DeepSeek 的 R1“推理”人工智能已經引起了廣泛關注,位居應用商店排行榜首位并改變了股市。隨后DeepSeek又宣布開源新一代多模態模型Janus-Pro-7B,該模型在圖像生成、視覺問答等任務中全面超越 OpenAI 的 DALL-E 3 和 Stable Diffusion 3,并以“理解-生成雙路徑”架構和極簡部署方案引發AI社區轟動。
性能表現:小模型吊打行業巨頭
Janus-Pro-7B雖僅有70億參數(約為GPT-4的1/25),卻在關鍵測試中碾壓對手:
- 文生圖質量:在GenEval測試中以80%準確率擊敗DALL-E 3(67%)和Stable Diffusion 3(74%)
- 復雜指令理解:在DPG-Bench測試中達84.19%準確率,能精準生成如“山腳下有藍色湖泊的雪山”等復雜場景
- 多模態問答:視覺問答準確率超越GPT-4V,MMBench測試得分79.2分接近專業分析模型
技術突破:像“雙面神”分工協作
傳統模型讓同一套視覺編碼器既理解圖片又生成圖片,如同讓廚師同時設計菜單和炒菜。Janus-Pro-7B創新地將視覺處理拆分為兩條獨立路徑:
- 理解路徑:用SigLIP-L視覺編碼器快速提取圖片核心信息(如“這是一只橘貓在沙發上”)
- 生成路徑:通過VQ分詞器將圖像分解為像素點陣,像拼樂高一樣逐步繪制細節(如毛發紋理、光影效果) 這種“分頭行動”的設計解決了傳統模型的角色沖突問題,訓練時還混合了7200萬張合成圖像與真實數據,提升生成穩定性。
開源與商業使用
- 免費商用:采用MIT開源協議,允許無限制商業使用
- 極簡部署:提供1.5B(需16GB顯存)和7B(需24GB顯存)版本,普通顯卡即可運行
- 一鍵生成:官方提供Gradio交互界面,輸入generate_image(prompt="夕陽下的雪山", num_images=4)即可批量出圖
相關鏈接
- GitHub倉庫:https://github.com/deepseek-ai/Janus
- 模型下載:https://huggingface.co/deepseek-ai/Janus-Pro-7B
應用場景:從藝術到隱私保護
- 創意產業:設計師輸入文本生成海報原型,游戲開發者快速構建場景素材
- 教育工具:教師用模型生成火山噴發動態示意圖輔助地理教學
- 企業隱私:醫院、銀行可本地部署,避免患者病歷、金融數據上傳云端
- 文化傳播:能識別全球地標并生成帶文化符號的圖片
責任編輯:張燕妮
來源:
AIGC Studio