成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

讓 LLM 既能“看”又能“推理”!

發布于 2025-5-14 07:15
瀏覽
0收藏

DeepSeek-R1 會推理,GPT-4o 會看。能否讓

1 LLM既能看又能推理?

DeepSeek-R1取得很大成功,但它有個問題——無法處理圖像輸入

1.1 DeepSeek模型發展

自2024.12,DeepSeek已發布:

  • DeepSeek-V3(2024.12):視覺語言模型(VLM),支持圖像和文本輸入,類似 GPT-4o
  • DeepSeek-R1(2025.1):大規模推理模型(LRM),僅支持文本輸入,但具備更強的推理能力,類似 OpenAI-o1

我們已領略視覺語言模型(VLM)和大規模推理模型(LRM),下一個是誰?

我們需要視覺推理模型(VRM)——既能看又能推理。本文探討如何實現它。

2 現有模型的問題

當前VLM 不能很好推理,而 LRM 只能處理文本,無法理解視覺信息。若想要一個既能看懂圖像,又能深度推理的模型?

物理問題示例

我是一個學生,向 LLM 提問物理問題,并附帶一張圖像。

讓 LLM 既能“看”又能“推理”!-AI.x社區

就需要一個模型能同時:

  1. 理解圖像內容
  2. 進行深度推理(如分析問題、評估答案、考慮多種可能性)

就需要?? 一個大規模視覺推理模型(VRM),視覺推理模型示意圖:

讓 LLM 既能“看”又能“推理”!-AI.x社區

討論咋訓練 VRM 之前,先了解VLM(視覺語言模型)架構。

3 VLM架構

如LLaVA,Large Language and Vision Assistant(大規模語言與視覺助手),2023年底發布的知名 VLM。

LLM 通常采用 Transformer 結構,輸入文本后將其轉化為 token,再通過數學計算預測下一個 token。

如若輸入文本 "Donald Trump is the",LLM可能預測下一 token 為 "POTUS"(美國總統)。LLM 預測過程示意圖:

讓 LLM 既能“看”又能“推理”!-AI.x社區

那VLM咋工作的?VLM不僅根據前面的文本預測輸出,還會參考輸入的圖像。VLM 預測過程示意圖:

讓 LLM 既能“看”又能“推理”!-AI.x社區

咋讓 LLM 理解圖像?

4 VLM咋處理圖像輸入?

核心思路:將圖像數據轉換成 LLM 能理解的格式

LLaVA論文用 CLIP 視覺編碼器將圖像轉化為向量。然后,在編碼器后添加一個可訓練的線性層。圖像編碼示意圖:

讓 LLM 既能“看”又能“推理”!-AI.x社區

最終的視覺隱藏狀態(Hv)會與文本 token 的隱藏狀態拼接在一起,輸入 Transformer 層,最后生成預測結果。

LLaVA 在這里使用的是 Vicuna 作為 LLM。

讓 LLM 既能“看”又能“推理”!-AI.x社區

LLaVA 結構示意圖

不過,僅僅有這個結構是不夠的,模型還需要訓練,才能真正理解圖像內容。

5 VLM咋訓練?

LLaVA 采用了**端到端微調(End-to-End Fine-tuning)**的方式。

端到端微調:將整個模型視作一個黑盒,并進行整體訓練。

LLaVA 端到端微調示意圖:

讓 LLM 既能“看”又能“推理”!-AI.x社區

訓練時,CLIP編碼器的參數通常是凍結的,只更新線性層(W)和 LLM(?)的參數。LLaVA 微調過程示意圖:

讓 LLM 既能“看”又能“推理”!-AI.x社區

6 能否用強化學習(RL)訓練 VLM?

RL在 LLM 領域表現出色,提升了推理能力(如 RLHF 訓練的 GPT-4)。若用 RL 訓練 VLM,是否能打造更強的視覺推理模型?

圖像分類任務為例。

6.1 任務定義:圖像分類

訓練時,希望模型能根據圖像內容,輸出正確的類別標簽

讓 LLM 既能“看”又能“推理”!-AI.x社區

圖像分類示意圖

數據集中的每條數據包括:圖像、標題(正確答案)、問題

讓 LLM 既能“看”又能“推理”!-AI.x社區

強化學習獎勵設計

可設計兩種獎勵機制:

  • 正確性獎勵:如果模型輸出的答案正確(例如"dog"),則獎勵 +1。讓 LLM 既能“看”又能“推理”!-AI.x社區
  • 格式獎勵:如果模型按照固定格式輸出(先思考??<think>??,再回答??<answer>??),則額外獎勵。讓 LLM 既能“看”又能“推理”!-AI.x社區

這可鼓勵模型在回答前進行推理,而不是盲目給出答案。

7 實際應用

VLM目前在某些場景仍表現不佳,如數學和科學類問題

如題目正確答案 2 bpm,但 GPT-4o 回答錯誤:

讓 LLM 既能“看”又能“推理”!-AI.x社區

GPT-4o錯誤回答:

讓 LLM 既能“看”又能“推理”!-AI.x社區

如能讓 LLM 在視覺推理方面更強,或許能正確解答。期望的 VRM 結果:

本文轉載自??JavaEdge??,作者:JavaEdge

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 久久久精品影院 | 亚洲国产精品久久久 | 91精品国产综合久久久久久漫画 | 在线免费小视频 | 黄色免费网站在线看 | 99免费看 | 中文字幕视频在线 | 日韩美女在线看免费观看 | 欧美伊人 | 91精品国产91久久久久久最新 | 欧美视频免费 | 日韩一区欧美一区 | 亚洲人成人一区二区在线观看 | 日韩精品在线网站 | av av在线| 亚洲国产精品美女 | 久久激情av | 欧美在线一区视频 | 精品国产一区久久 | 精品欧美色视频网站在线观看 | 久久国产精品久久久久久久久久 | 国产日韩电影 | 亚洲大片在线观看 | 一级毛片视频在线观看 | 亚洲国产精品一区二区三区 | 亚洲天堂av在线 | 91社影院在线观看 | 天天干夜夜| www.精品国产 | 久久精品91久久久久久再现 | 午夜成人免费视频 | 久久国产精品免费视频 | 岛国二区| 一级片在线观看 | 中文字幕亚洲一区二区三区 | 国产一级黄色网 | 色综网 | 国产午夜精品一区二区三区四区 | 精品免费视频 | 毛片网络 | av入口 |