長視頻生成新突破！FAR模型+FlexRoPE讓16倍時長創作更高效

發布于 2025-4-1 00:57

瀏覽

0收藏

1. Long-Context Autoregressive Video Modeling with Next-Frame Prediction

長視頻生成新突破！FAR模型+FlexRoPE讓16倍時長創作更高效-AI.x社區

在語言生成領域，長上下文自回歸模型已取得顯著進展，但視頻生成卻一直難以有效利用長時間序列信息。為解決這一難題，我們提出了一種名為Frame AutoRegressive的全新視頻生成方法。。

FAR借鑒了語言模型逐幀學習的思路，通過捕捉視頻連續幀之間的時序因果關系，顯著提升了模型的收斂效率，表現優于現有主流方法（如Token AR和視頻擴散模型）。然而，長視頻生成仍面臨兩大挑戰：一是視頻內容存在大量冗余信息，二是隨著視頻時長增加，數據量激增導致訓練成本飆升。

為突破這些限制，我們進一步提出FlexRoPE技術。這項創新在推理階段為位置編碼機制（RoPE）添加了靈活的時間衰減功能，使模型能將處理時長外推至原長度的16倍，同時保持計算效率。這意味著我們只需用適配短視頻的上下文長度，就能高效訓練長視頻模型。

實驗結果顯示，FAR在短視頻和長視頻生成中均達到當前最優水平，為視頻自回歸建模提供了簡單而強大的基線方案。

論文: ??https://arxiv.org/pdf/2503.19325??

2. CoMP: Continual Multimodal Pre-training for Vision Foundation Models

長視頻生成新突破！FAR模型+FlexRoPE讓16倍時長創作更高效-AI.x社區

預訓練視覺基礎模型（VFMs）是AI理解圖像的核心工具，但如何讓它們“學得更好”一直是技術難點。今天，我們帶來一項創新：通過結合文本和圖像的持續訓練，讓視覺模型在保持圖像原始分辨率的同時，更精準地理解多模態信息。

我們的方法有三大亮點：

1?? 創新訓練策略：通過三階段訓練，模型不僅能“看懂”圖像，還能通過語言關聯優化，讓圖像和文本的表達更一致；2?? 性能全面提升：在圖像分類、目標分割等任務中表現顯著提升，甚至在凍結模型參數的情況下，依然達到頂尖水平；3?? 實際應用突破：例如在圖表理解任務（ChartQA）中準確率達66.7%，文檔問答（DocVQA）達75.9%，圖像分類準確率（ImageNet-1K）更是達到87.4%，分割任務（ADE20K）表現也刷新紀錄（mIoU 49.5）。

這意味著什么？通過過持續優化視覺與語言的協同能力，AI不僅能“看”得更清晰，還能“理解”更深入。

論文: ??https://arxiv.org/pdf/2503.18931??

3. Scaling Vision Pre-Training to 4K Resolution

長視頻生成新突破！FAR模型+FlexRoPE讓16倍時長創作更高效-AI.x社區

在日常任務中，高分辨率感知至關重要，但目前的視覺預訓練大多局限于低分辨率（例如378 x 378像素），因為處理更大圖像的成本會急劇增加。為了解決這個問題，我們開發了PS3技術，它能夠將視覺預訓練擴展到4K分辨率，同時幾乎不增加計算成本。

PS3的核心創新：

局部處理代替全局對比：不同于傳統的全局圖像表示學習，PS3專注于選擇性地處理圖像中的關鍵區域，并與詳細的局部描述進行對比，這樣既能捕捉高清細節，又能大幅減少計算負擔。
智能聚焦：PS3模型能夠在較低分辨率下編碼整個圖像，并根據文本提示的重要性或相關性，智能地放大和處理特定的高分辨率區域。

VILA-HD：更高效、更強大的多模態模型：

當我們把PS3應用于多模態大語言模型（MLLM）時，得到的VILA-HD不僅在高分辨率視覺感知上遠超其他未經過高分辨率訓練的基線模型（如AnyRes和S^2），而且使用的令牌數量減少了多達4.3倍。這意味著更高的效率和更低的成本。

性能突破：

性能提升顯著：VILA-HD在多個基準測試中表現出色，超越了包括NVILA和Qwen2-VL在內的先前多模態LLM。
速度與精度兼顧：特別是在4KPro這個新提出的4K分辨率圖像問答基準上，VILA-HD相比GPT-4o提高了14.5%的準確率，比Qwen2-VL提高了3.2%，并且運行速度快了2.96倍。

論文: ??https://arxiv.org/pdf/2503.19903??