打破長視頻理解瓶頸:HoPE混合位置編碼提升VLM長度泛化能力
李浩然,CMU 機器學習系研究生,研究方向是基礎模型的長上下文建模、對齊、以及檢索增強生成。
如今的視覺語言模型 (VLM, Vision Language Models) 已經在視覺問答、圖像描述等多模態任務上取得了卓越的表現。然而,它們在長視頻理解和檢索等長上下文任務中仍表現不佳。
雖然旋轉位置編碼 (RoPE, Rotary Position Embedding) 被廣泛用于提升大語言模型的長度泛化能力,但是如何將 RoPE 有效地擴展到多模態領域仍然是一個開放問題。具體而言,常用的擴展方法是使用 RoPE 中不同的頻率來編碼不同的位置信息 (x,y,t)。然而,由于 RoPE 中每個維度攜帶的頻率不同,所以存在著不同的分配策略。那么,到底什么是將 RoPE 擴展到多模態領域的最佳策略呢?
來自 CMU 和小紅書的研究團隊對這一問題進行了深入研究,他們首次提出了針對多模態 RoPE 擴展策略的理論評估框架,指出現有多模態 RoPE 泛化能力不足的原因之一是保留 RoPE 中所有頻率對長上下文語義建模有負面影響。基于此分析,他們提出的混合位置編碼(HoPE, Hybrid of Position Embedding)大幅提升了 VLM 的長度泛化能力,在長視頻理解和檢索等任務中達到最優表現。
- 論文標題:HoPE: Hybrid of Position Embedding for Length Generalization in Vision-Language Models
- arXiv 鏈接:https://arxiv.org/pdf/2505.20444
- 代碼鏈接:https://github.com/hrlics/HoPE
研究亮點
發現 —— 保留所有頻率限制語義建模
作者們首先定義了語義偏好這一性質,即在任意的相對距離下,使用多模態 RoPE 的注意力機制分配給語義相近的 Query, Key pair 的注意力應該要高于語義上無關的 Query, Key pair。如果這一基本性質不能得以保證,那么上下文中明明應該被關注的部分將不被重點關注,進而影響長度泛化能力。
然而,在現有的多模態 RoPE 的頻率分配策略中,語義偏好性質都無法在長上下文場景中得到保證。其緣由是用于時間維度的任意非零頻率在長上下文中都會產生過多的旋轉,導致語義相近的 Query, Key pair 注意力分數期望低于語義上無關的 Query, Key pair。
基于語義偏好性質的多模態 RoPE 分析框架
(1)低頻率時間建模優于高頻率時間建模
作者們定義的語義偏好性質可以進一步簡化為下面的形式:
其中, 分別是分配給時間 (t) 和空間 (x,y) 的頻率,
是 Query/Key 每個維度的方差,而
代表了 Query 和 Key 之間的相對位置。
考慮一個長上下文場景,也就是 ,基于語義偏好性質的分析框架可以首先證明為什么在多模態 RoPE 中,使用最低頻率建模時間維度(VideoRoPE)要優于最高頻率建模時間維度 (M-RoPE)。首先,考慮到單一圖像尺寸的有限性,語義偏好性質中的空間項幾乎保持非負性。
然而,由于在長上下文中 較大。語義偏好性質中的時間項很容易為負,從而破壞語義偏好性質:
因此易得,使用高頻率來建模時間維度相比于使用低頻率更容易破壞語義偏好性質,從而在長上下文中表現更差。
(2)低頻率時間建模在長上下文中仍不可靠
雖然使用低頻率建模時間維度更有助于保持語義偏好性質,但是在足夠長的上下文中,這一性質依然會被破壞。在最極端的情況下,多模態 RoPE 中用于建模時間維度的頻率都是 RoPE 中最小的頻率,也就是:
那么,語義偏好性質中的時間項可以化簡為:
然而,當上下文長度足夠大時,即滿足:
就存在,使得
從而令語義偏好性質不成立。
算法 —— 零頻率時間建模和多尺度時序學習
在以往的研究中,大家通常利用注意力可視化分析來決定多模態 RoPE 中的頻率分配策略。該研究首次從理論上分析了不同頻率分配策略對 VLM 長度泛化能力的影響,指出了保留所有頻率的策略抑制了多模態長下文中的語義建模。根據此分析,該研究提出了混合位置編碼(HoPE, Hybrid of Postion Embedding), 旨在提升 VLM 在長上下文中的語義建模能力,從而進一步提升其長度泛化能力。
具體而言,在頻率分配策略中,HoPE 提出了混合頻率分配策略,結合了時間維度的無位置編碼(NoPE, No Position Embedding)和空間維度的多模態位置編碼,達成了在任意長度上下文中穩定保持語義偏好性質的效果。具體而言,時間維度的零頻率建模相比于任意其他的頻率分配策略提供了更強的語義偏好性質保障:
也就是在任意相對距離下,語義相近的 QK pair 所獲的的注意力期望大于語義無關的 QK pair 的概率更大。
其對應的旋轉矩陣如下:
在位置編碼方面,部分方法對于視覺 token 的時間編碼 (t) 采取不縮放 (No Scaling) 的策略,而考慮到視覺 token 的冗余性和信息密度方面與文本 token 的不同,有方法采用的固定縮放 (Fixed Scaling) 的策略。相比之下,HoPE 考慮了實際場景中不同視頻的進行速度的不同(如紀錄片和動作片),對于視覺 token 的時間編碼 (t) 采取了動態縮放策略。在訓練階段通過取不同的縮放因子使 VLM 學習不同尺度的時序關系,增強其對不同視頻速度的魯棒性,另外,在推理期間,縮放因子可以隨著應用場景的不同而調整,提供了適應性的選擇。
實驗
該文章在長視頻理解、長視頻檢索的多個 benchmark 中對不同的方法進行了對比,驗證了 HoPE 在多模態長上下文建模中的卓越表現,在不同模型尺寸、測試長度、測試任務上幾乎都達到了最優的表現。