離線VLLM魔改流式
通過內(nèi)存緩沖+輪次壓縮解決上下文記憶和效率矛盾,通過外部激活模型實(shí)現(xiàn)主動性,是StreamBridge 的關(guān)鍵創(chuàng)新點(diǎn)
傳統(tǒng)的視頻大語言模型 (Video-LLM)通常一次性處理整個視頻,對實(shí)時輸入支持不足。然而在機(jī)器人、無人駕駛等應(yīng)用中,需要模型具有因果感知和動態(tài)反應(yīng)能力,即能夠在視頻流不斷到來時及時理解新內(nèi)容并主動輸出。
StreamBridge提出了一個簡單有效的框架,將現(xiàn)有的離線Video-LLM縫升級為可處理流式視頻的系統(tǒng)。它針對流式場景中的兩大核心挑戰(zhàn):(1) 多輪實(shí)時理解:模型需要持續(xù)跟蹤最近視頻幀,同時結(jié)合歷史上下文多輪交互;(2) 主動響應(yīng)生成:模型應(yīng)當(dāng)主動監(jiān)控視頻流,在關(guān)鍵時刻生成回應(yīng),而不必等待用戶明確提問。
上圖為流式視頻理解場景示例。上面的部分為多輪交互模式,用戶在不同時間點(diǎn)提問;下面展示了主動響應(yīng)模式,模型根據(jù)視頻內(nèi)容主動輸出。在上方示例中,用戶在視頻播放過程中多次提問,每輪關(guān)注最近的視頻段并結(jié)合歷史信息進(jìn)行回答;在下方示例中,助手無需提示,通過繪畫過程的展開主動輸出指導(dǎo)性反饋。
1.三大配方
StreamBridge旨在彌合離線與流式之間的鴻溝,使預(yù)訓(xùn)練視頻模型在上述場景中表現(xiàn)出色。StreamBridge 框架與關(guān)鍵技術(shù): 為實(shí)現(xiàn)流式理解,StreamBridge在已有Video-LLM基礎(chǔ)上引入了三大組件:
1)內(nèi)存緩沖 (Memory Buffer): 對每一幀圖像,系統(tǒng)首先通過視覺編碼器提取嵌入向量,并連同任何生成的文本嵌入向量存入內(nèi)存緩沖區(qū)。當(dāng)收到用戶查詢Q且激活模型 (Activation Model)發(fā)出明確的觸發(fā)信號D時,緩沖區(qū)中的視覺和文本嵌入被展開成序列輸入LLM生成回答。生成的回答R也會追加到緩沖區(qū),以保留完整的多輪交互歷史。這樣,StreamBridge能夠累積上下文,不斷擴(kuò)展對話歷史而不丟失前文信息。
2)輪次衰減壓縮 (Round-Decayed Compression):
隨著視頻流時間增長,緩沖區(qū)內(nèi)嵌入序列長度會不斷增加。為避免過長輸入帶來的計算和延遲問題,StreamBridge 設(shè)計了輪次衰減壓縮策略。具體來說,系統(tǒng)預(yù)設(shè)最大允許長度MaxLen,若當(dāng)前輸入超過該閾值,則從最早的對話輪開始,對視覺嵌入逐幀進(jìn)行平均池化合并,直至序列長度在MaxLen之內(nèi)。這一策略能減少傳遞給LLM的信息量,同時保留了與當(dāng)前回答最相關(guān)的近期視覺上下文。
3)激活模型 (Activation Model):
為了實(shí)現(xiàn)主動響應(yīng),StreamBridge引入了一個解耦的、輕量級的激活子模型。該激活模型本質(zhì)上是一個獨(dú)立的小型多模態(tài)LLM,它在每個時間步依據(jù)當(dāng)前幀(及可選的查詢Q)預(yù)測是否需要觸發(fā)主模型輸出。具體地,在訓(xùn)練時向每幀視覺嵌入添加可學(xué)習(xí)的激活標(biāo)記,并將該幀的最新激活標(biāo)記輸入激活模型的二分類頭預(yù)測響應(yīng)概率。若預(yù)測分?jǐn)?shù)超過閾值alpha,則激活信號D為真,主Video-LLM將基于緩沖區(qū)內(nèi)容生成回答。通過這一機(jī)制,StreamBridge可以及時響應(yīng)關(guān)鍵信號,在無需明確提問的情況下主動輸出結(jié)果,從而體現(xiàn)出類似人類的主動行為。
StreamBridge的本次研究的核心貢獻(xiàn)在于一方面它給出了一個通用的解決方案,將任何預(yù)訓(xùn)練的離線Video-LLM快速適配到流式理解場景,無需全盤重訓(xùn),僅需額外添加上述輕量組件即可。原模型的離線視頻理解能力得到保留,且同時具備了多輪交互和主動輸出的能力。
另一方面,StreamBridge組建了一個大規(guī)模流式視頻理解數(shù)據(jù)集Stream-IT。該數(shù)據(jù)集重新整理了多種公開數(shù)據(jù)(如密集視頻字幕、序列步驟識別、帶時標(biāo)的VideoQA等),并生成了跨越長視頻的流水式問答對,涵蓋多樣的任務(wù)類型與指令格式,為流式Video-LLM的訓(xùn)練和評測提供了重要資源。
2.性能評估
StreamBridge設(shè)計中針對延遲和長期記憶做了多項(xiàng)優(yōu)化。內(nèi)存緩沖機(jī)制確保多輪交互中的歷史上下文不丟失,而輪次衰減壓縮則在保證近期上下文信息的同時削減不必要的舊幀細(xì)節(jié),從而減輕每次推理時的信息量。這些措施聯(lián)合降低了單步推理的計算延遲。另一方面,激活模型的引入使系統(tǒng)無需對每幀都進(jìn)行完整推理,而是只在檢測到關(guān)鍵幀時才觸發(fā)模型響應(yīng)。這意味著系統(tǒng)可以在后臺持續(xù)觀察視頻,當(dāng)有重要視覺變化或用戶關(guān)注點(diǎn)時才即時輸出,避免了不必要的重復(fù)計算。綜上,StreamBridge通過內(nèi)存管理和智能觸發(fā)策略,在流水線處理和時延控制方面取得了良好的平衡。
實(shí)驗(yàn)設(shè)置與對比分析: 為評估StreamBridge的效果,在多個任務(wù)和基準(zhǔn)上進(jìn)行了測試。實(shí)驗(yàn)中使用了主流Video-LLM模型(如LLaVA-OV-7B、Qwen2-VL-7B、Oryx-1.5-7B),并在構(gòu)建的Stream-IT數(shù)據(jù)集(約60萬條示例)上進(jìn)行了微調(diào),增強(qiáng)模型的流式理解能力。測試基準(zhǔn)包括多輪實(shí)時理解任務(wù)(如OVO-Bench、Streaming-Bench)和常規(guī)模態(tài)視頻理解基準(zhǔn)(如MVBENCH、VideoQA等)。
結(jié)果表明,采用StreamBridge后,各模型在流式任務(wù)上表現(xiàn)顯著提升:例如,Qwen2-VL模型在OVO-Bench上的平均得分由約55.98提高到63.35,在Streaming-Bench上由69.04提高到72.01。進(jìn)一步對模型進(jìn)行Stream-IT數(shù)據(jù)集微調(diào)后,Qwen2-VL分別達(dá)到了71.30和77.04,甚至超過了GPT-4o和Gemini 1.5 Pro;Oryx-1.5模型在OVO-Bench上提高了11.92分,Streaming-Bench上提高了4.2分。
StreamBridge 框架為視頻多模態(tài)大模型的實(shí)時應(yīng)用提供了一種通用可行的解決方案。通過內(nèi)存緩沖、動態(tài)壓縮和激活模型三者協(xié)同,離線訓(xùn)練的Video-LLM成功具備了實(shí)時多輪交互和主動響應(yīng)的能力。實(shí)驗(yàn)驗(yàn)證了其在流式視頻理解中的有效性和通用性。
本文轉(zhuǎn)載自????魯班模錘????,作者:龐德公
