通向高分辨率VLM (11): VILA-HD 原創

發布于 2025-5-8 06:39

瀏覽

0收藏

4k分辨率的視覺預訓練：PS3

Paper: ??https://arxiv.org/abs/2503.19903??

Demo: ??https://huggingface.co/spaces/bfshi/VILA-HD-demo??

在之前介紹的高分辨率VLM系列中，我們見證了視覺語言模型，視覺編碼器逐漸從224/384的固定低分辨率，通過動態切圖/原生動態分辨率方法，逐漸走向了動態的高分辨率圖像輸入。

想必對于讀過該系列的讀者，高分辨率在視覺領域的的重要性不用多說。英偉達團隊將視覺預訓練擴展到了4k分辨率，提出了方法PS3，并基于此構建了一個名為VILA-HD的高分辨率多模態大模型。相比于動態分辨率，其擁有更少的計算復雜度，規避了動態分辨率的transformer方法N方的推理計算復雜度，對高分辨率下的推理速度帶來了巨大的提升。

作者以自動駕駛和為案例講述了高分辨率預訓練的重要性：

通向高分辨率VLM (11): VILA-HD-AI.x社區

盡管一些方法可以在沒有高分辨率預訓練的情況下處理高分辨率圖像，但作者發現，高分辨率預訓練能夠利用大規模預訓練數據學習高質量的高分辨率特征，從而提升性能。PS3 在 4K 分辨率上預訓練后，明顯優于 S2 和 AnyRes 等基線模型。

以往的視覺預訓練方法（如 CLIP 和 SigLIP）無法擴展到高分辨率，因為計算成本過高。視覺模型需要對整張圖像進行編碼，計算復雜度至少是二次的。然而，對于高分辨率圖像，通常不需要查看整張圖像。例如，在上述例子中，只需要關注停車標志即可回答問題。這意味著，與其對整張圖像進行對比學習，不如在局部區域和局部描述之間進行對比學習。這樣，模型仍然可以學習高分辨率圖像的詳細表示，而幾乎不需要額外成本。

通向高分辨率VLM (11): VILA-HD-AI.x社區

PS3 的成功關鍵在于能夠根據任何文本提示選擇性地處理高分辨率區域。這是通過一種自上而下（即提示感知）的選擇機制實現的，該機制允許模型專注于任何給定文本提示最相關的區域，并對低分辨率全局圖像和高分辨率局部區域分別進行編碼。通過用戶的query去選擇相關區域，能顯著減少無用的細節信息提取。

通向高分辨率VLM (11): VILA-HD-AI.x社區

PS3的預訓練方法

數據準備

高分辨率圖像數據：收集了7500萬張1K到4K分辨率的圖像，包括自然圖像和文檔圖像。
局部描述和邊界框：為每張圖像生成了2.82億對局部區域的邊界框和詳細描述。這些描述由MLLM（如Qwen2-VL）生成，確保模型能夠學習到高分辨率圖像中的細節特征。

模型設計

PS3的模型設計分為三個階段：

低分辨率全局特征提取（Low-Res Feature Extraction）：使用與SigLIP相同的ViT架構提取低分辨率全局特征。
自上而下或自下而上的局部區域選擇（Top-Down or Bottom-Up Patch Selection）：模型根據低分辨率特征和文本提示（或圖像顯著性）計算每個空間位置的選擇分數，并選擇重要的局部區域。
高分辨率多尺度特征提取（High-Res Multi-Scale Feature Extraction）：對選定的局部區域進行高分辨率特征提取，并通過低分辨率KV緩存將全局上下文信息融入局部特征中。

預訓練算法

PS3的預訓練算法包括以下關鍵設計：

局部對比損失（Localized Contrastive Loss）：通過對比局部高分辨率特征和局部描述的文本嵌入來學習詳細的視覺表示。
邊界框監督（Box Supervision）：使用標注的邊界框監督模型選擇與局部描述相關的圖像區域，從而提高選擇的準確性。

通向高分辨率VLM (11): VILA-HD-AI.x社區

Building VILA-HD with PS3

作者使用PS3作為視覺編碼器，構建了高分辨率MLLM，VILA-HD，可以有效地處理高達4K的分辨率輸入。VILA-HD通過首先從PS3和文本query中獲取低分辨率特征，然后使用PS3選擇性地處理與文本提示相關的高分辨率區域，有效地處理高分辨率圖像。可以根據計算預算靈活地決定在VILA-HD中處理多少個高分辨率patch。

通向高分辨率VLM (11): VILA-HD-AI.x社區

VILA-HD 與 PS3 展現出出色的擴展特性：

當分辨率提升且選擇每個分辨率的所有塊時，VILA-HD 與 PS3 的擴展曲線優于沒有高分辨率預訓練的基線模型。
VILA-HD 與 PS3 可以在不增加額外訓練和推理成本的情況下，通過選擇固定數量的塊來提升分辨率并提高性能。
VILA-HD 與 PS3 可以通過選擇更多塊來權衡更好的性能，從而擴展訓練或測試時的計算量。

與 NVILA 和 Qwen2-VL 等頂尖多模態語言模型相比，VILA-HD 在包括圖表、文檔、OCR 和自然圖像理解的所有基準測試中表現出色，并在需要高分辨率感知的基準測試（如 V*bench）上創下新紀錄。VILA-HD 還實現了最佳效率，這得益于 PS3 的自上而下的塊選擇機制。具體來說，在選擇相同數量的標記時，PS3 顯著提高了 ViT 的效率，同時實現了更好的性能。PS3 也是唯一能夠處理 4K 分辨率的方法。

通向高分辨率VLM (11): VILA-HD-AI.x社區

4KPro：4K 分辨率感知Benchmark

以往基準測試不需要 4K 分辨率感知：盡管以往的圖像問答基準測試包含高達 4K 分辨率的圖像，但這些問題并不真正需要 4K 分辨率感知來回答。我們手動檢查了每個問題的最低可識別分辨率（MRR），即回答問題所需的最低分辨率，發現大多數問題只需要不超過 1K 分辨率即可回答。
4KPro 嚴格要求 4K 分辨率感知：為此，我們提出了 4KPro，這是一個嚴格要求 4K 分辨率感知的新基準測試。4KPro 包括自動駕駛、家居、游戲和 GUI 理解四個專業領域的 4K 分辨率問答任務。
VILA-HD 在 4KPro 上實現頂尖性能和效率：VILA-HD 與 PS3 的擴展曲線優于沒有高分辨率預訓練的基線模型。VILA-HD 還實現了比 Qwen2-VL 等以往多模態語言模型更好的性能和效率