LLM合集:微軟開源新一代視頻token化方法VidTok,打造高性能視頻Token化解決方案
1. VidTok: A Versatile and Open-Source Video Tokenizer
將視頻內容編碼為緊湊的潛在token已經成為視頻生成和理解中的一個基本步驟,這是為了應對像素級表示中固有的冗余問題。因此,隨著以視頻為中心的研究日益重要,對高性能、開源視頻token化工具的需求也在不斷增長。我們推出了 VidTok,這是一種多功能的視頻Tokenizer,在連續和離散token化方面都提供了最先進的性能。
VidTok 相較于現有方法引入了幾個關鍵改進:模型架構方面采用了卷積層和上/下采樣模塊;為了解決傳統向量量化(VQ)常見的訓練不穩定性和碼本崩潰問題,我們將有限標量量化(FSQ)整合到離散視頻token化中;改進了訓練策略,包括兩階段訓練過程和使用較低幀率等措施。
通過集成這些改進,VidTok 在多個評估指標上實現了顯著的進步,如峰值信噪比(PSNR)、結構相似性(SSIM)、感知路徑長度(LPIPS)以及弗雷歇視頻距離(FVD),在標準化的評估設置下表現出色,超越了現有方法。
VidTok 的推出不僅提升了視頻token化的效率和質量,還為視頻內容的理解與生成提供了一種強大的工具,有助于推動視頻技術的發展。
論文:??https://arxiv.org/pdf/2412.13061??
2. Mix-LN: Unleashing the Power of Deeper Layers by Combining Pre-LN and Post-LN
大語言模型(LLMs)取得了顯著的成功,但最新的研究發現,這些模型的深層往往貢獻較小,并且可以在不影響整體性能的情況下被剪枝。雖然一些人將此視為模型壓縮的機會,我們認為這是一個由于廣泛使用Pre-LN而導致的訓練不足問題。我們證明了在像 GPT 和 LLaMA 這樣的模型中常用的 Pre-LN 會導致其深層的梯度范數減弱,從而降低了這些層的有效性。相反,后層歸一化(Post-LN)在深層保持較大的梯度范數,但在早期層則遭遇梯度消失的問題。
為了解決這個問題,我們引入了一種新的歸一化技術——混合層歸一化(Mix-LN),它在同一模型內結合了 Pre-LN 和 Post-LN 的優勢。Mix-LN 在早期層應用 Post-LN,在深層應用 Pre-LN,確保整個網絡各層之間有更均勻的梯度分布。這使得網絡的所有部分——無論是淺層還是深層——都能有效地參與到訓練中。通過對從70M到7B參數規模的各種模型進行大量實驗,我們證明 Mix-LN 一貫優于單獨使用 Pre-LN 或 Post-LN,促進了更加平衡和健康的全網梯度范數,提高了 LLM 預訓練的整體質量。
此外,我們還展示了使用 Mix-LN 預訓練的模型在監督微調(SFT)和人類反饋強化學習(RLHF)期間比使用 Pre-LN 或 Post-LN 的模型學得更好,強調了高質量深層的重要性。通過有效解決當前 LLM 深層效率低下的問題,Mix-LN 解鎖了它們的潛力,增強了模型能力而無需增加模型尺寸。我們的代碼可在 https://github.com/pixeli99/MixLN 獲取。
論文:??https://arxiv.org/pdf/2412.13795??
3. FastVLM: Efficient Vision Encoding for Vision Language Models
提升輸入圖像分辨率對于增強視覺語言模型(VLMs)的性能至關重要,尤其是在涉及豐富文本圖像理解的任務中。然而,像 ViTs 這樣的流行視覺編碼器在高分辨率下變得效率低下,因為大量的token和堆疊的自注意力層導致了高的編碼延遲。在不同的操作分辨率下,VLM 的視覺編碼器可以在兩個方面進行優化:減少編碼延遲和最小化傳遞給語言模型(LLM)的視覺token數量,從而降低整體延遲。
基于對圖像分辨率、視覺延遲、token數量和 LLM 尺寸之間相互作用的全面效率分析,我們推出了 FastVLM,這是一種在延遲、模型尺寸和準確性之間實現了優化權衡的模型。FastVLM 包含 FastViTHD,這是一種新型的混合視覺編碼器,旨在輸出更少的token并大幅減少高分辨率圖像的編碼時間。與先前的方法不同,FastVLM 僅通過縮放輸入圖像就實現了視覺token數量和圖像分辨率之間的最佳平衡,無需額外的token修剪,并簡化了模型設計。
在 LLaVA-1.5 設置中,FastVLM 在保持與先前工作相似的 VLM 基準性能的同時,首次token生成時間(TTFT)提升了3.2倍。相比最高分辨率(1152x1152)下的 LLaVa-OneVision,FastVLM 使用相同的0.5B參數量的語言模型,在如 SeedBench 和 MMMU 等關鍵基準測試中達到了可比的性能,但 TTFT 快了85倍,且視覺編碼器體積小了3.4倍。
論文:??https://arxiv.org/pdf/2412.13303??
4. AniDoc: Animation Creation Made Easier
二維動畫的制作遵循一個行業標準的工作流程,包括四個基本階段:角色設計、關鍵幀動畫、中間幀繪制(in-betweening)和上色。我們的研究旨在通過利用日益強大的生成式人工智能來降低上述過程中的勞動力成本。基于視頻擴散模型,我們開發了 AniDoc 這一視頻線稿上色工具,它可以自動將草圖序列轉換為符合參考角色規范的彩色動畫。
我們的模型采用對應匹配作為顯式指導,這使得它對參考角色與每一幀線稿之間的變化(例如姿勢變化)具有很強的魯棒性。此外,我們的模型甚至可以自動化中間幀繪制的過程,用戶只需提供一個角色圖像以及起始和結束的草圖,就可以輕松創建時間上連貫的動畫。
這項技術不僅大大減少了動畫制作過程中的人力投入,也提高了創作效率和靈活性。我們的代碼可以在以下網址獲取:https://yihao-meng.github.io/AniDoc_demo。
論文:???https://arxiv.org/pdf/2412.14173??
本文轉載自 ??AI-PaperDaily??,作者: AI-PaperDaily
