LLM合集:港大利用GPT-4o生成QA對,打造大規模多模態視頻思維鏈(COT)數據集
1. VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection
大型視覺語言模型(LVLMs)的進步顯著提升了多模態理解能力,但在視頻推理任務中仍面臨挑戰,主要原因是高質量、大規模數據集的缺乏。現有的視頻問答(VideoQA)數據集往往依賴于成本高昂且粒度不足的手動標注,或者使用會產生冗余幀分析的自動構建方法,這限制了它們在復雜推理任務中的可擴展性和有效性。為了解決這些挑戰,我們提出了VideoEspresso,這是一個新的數據集,它包含保留了關鍵空間細節和時間連貫性的VideoQA對,以及中間推理步驟的多模態標注。我們的構建流程采用了一種語義感知的方法來減少冗余,并通過GPT-4o生成QA對。此外,我們開發了視頻思維鏈(CoT)標注以豐富推理過程,指導GPT-4o從QA對和視頻內容中提取邏輯關系。
為了充分利用高質量的VideoQA對,我們提出了一種混合LVLM協作框架,該框架包括一個幀選擇器和一個兩階段指令微調推理LVLM。此框架能夠自適應地選擇核心幀,并利用多模態證據進行CoT推理。在我們提出的基準測試中,與9種流行的LVLM相比,在14項任務上,我們的方法在大多數任務上優于現有基線,展示了卓越的視頻推理能力。
論文: https://arxiv.org/pdf/2411.14794
2. EfficientViM: Efficient Vision Mamba with Hidden State Mixer based State Space Duality
在資源受限環境中部署神經網絡時,先前的工作構建了輕量級架構,分別使用卷積和注意力機制來捕捉局部和全局依賴關系。最近,狀態空間模型(SSM)作為一種有效的全局token交互方式出現,其在token數量上的計算成本呈線性增長,具有明顯優勢。然而,基于SSM構建的高效視覺骨干網絡研究較少。在本文中,我們提出了一種名為Efficient Vision Mamba (EfficientViM)的新架構,該架構基于隱藏狀態混合器的狀態空間二元性(HSM-SSD),能夠以更低的計算成本高效地捕捉全局依賴關系。在HSM-SSD層中,我們重新設計了之前的SSD層,使得可以在隱藏狀態內執行通道混合操作。此外,我們提出了多階段隱藏狀態融合方法,進一步增強隱藏狀態的表示能力,并提供了一種緩解由內存限制操作引起瓶頸的設計。
結果表明,EfficientViM系列在ImageNet-1k上達到了新的速度-精度平衡,相比第二優秀的模型SHViT,性能提高了0.7%,同時運行速度更快。另外,在圖像縮放或采用蒸餾訓練時,與之前的工作相比,我們在吞吐量和準確率方面都觀察到了顯著提升。
論文: https://arxiv.org/pdf/2411.15241
3. SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis
盡管大型多模態模型取得了進展,但在處理長且未經剪輯的視頻內容時仍面臨挑戰,主要原因是上下文長度的限制和巨大的內存開銷。這些限制往往導致信息丟失嚴重,并降低了模型響應的相關性。隨著網絡平臺上視頻數據的指數級增長,理解長視頻對于推進通用智能至關重要。在本文中,我們介紹了SALOVA(段增強長視頻助手):一種新穎的視頻-大語言模型框架,旨在通過有針對性的檢索過程增強對長視頻內容的理解。
為實現這一目標,我們解決了兩個主要挑戰:
我們發布了SceneWalk數據集,這是一個高質量的87,800個長視頻集合,每個視頻都在片段級別進行了密集標注,以使模型能夠捕捉場景連續性并保持豐富的描述性上下文。
我們的框架通過允許精確識別和檢索與查詢相關的視頻片段,從而緩解了當前視頻-大語言模型的局限性,提高了生成響應的上下文相關性。通過廣泛的實驗,SALOVA展示了在處理復雜長視頻方面的增強能力,顯著提升了在長時間序列中保持上下文完整性的能力。
論文: https://arxiv.org/pdf/2411.16173
4. Edit Away and My Face Will not Stay: Personal Biometric Defense against\n Malicious Generative Editing
擴散模型的最新進展使得生成式圖像編輯變得更加容易,這雖然促進了創意編輯,但也引發了倫理問題,尤其是在涉及惡意修改人像時,這些修改可能威脅到個人隱私和身份安全。現有的保護方法主要依賴于對抗性擾動來抵消編輯效果,但往往難以應對多樣化的編輯請求。我們提出了一種名為FaceLock的新方法,通過優化對抗性擾動來破壞或顯著改變生物特征信息,使編輯后的輸出在生物特征上無法識別。FaceLock將面部識別和視覺感知集成到擾動優化過程中,以提供對各種編輯嘗試的強健保護。
我們還指出了常用評估指標中的缺陷,并揭示了它們如何被操縱,強調了需要可靠的保護評估方法。實驗表明,FaceLock在抵御惡意編輯方面優于基線方法,并且對凈化技術具有魯棒性。消融研究證實了其穩定性和在基于擴散的編輯算法中的廣泛適用性。我們的工作推進了生物特征防御,并為圖像編輯中的隱私保護實踐奠定了基礎。
論文: https://arxiv.org/pdf/2411.16832
本文轉載自 ??AI-PaperDaily??,作者: AI-PaperDaily
