成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<tfoot id="jewss"><tr id="jewss"><abbr id="jewss"></abbr></tr></tfoot>

<abbr id="jewss"><wbr id="jewss"></wbr></abbr>

<source id="jewss"><progress id="jewss"></progress></source>

<td id="jewss"></td><input id="jewss"><output id="jewss"></output></input><pre id="jewss"><nav id="jewss"></nav></pre>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

LLM合集：微軟開源新一代視頻token化方法VidTok，打造高性能視頻Token化解決方案

發布于 2024-12-20 10:36

瀏覽

0收藏

1. VidTok: A Versatile and Open-Source Video Tokenizer

LLM合集：微軟開源新一代視頻token化方法VidTok，打造高性能視頻Token化解決方案-AI.x社區

將視頻內容編碼為緊湊的潛在token已經成為視頻生成和理解中的一個基本步驟，這是為了應對像素級表示中固有的冗余問題。因此，隨著以視頻為中心的研究日益重要，對高性能、開源視頻token化工具的需求也在不斷增長。我們推出了 VidTok，這是一種多功能的視頻Tokenizer，在連續和離散token化方面都提供了最先進的性能。

VidTok 相較于現有方法引入了幾個關鍵改進：模型架構方面采用了卷積層和上/下采樣模塊；為了解決傳統向量量化（VQ）常見的訓練不穩定性和碼本崩潰問題，我們將有限標量量化（FSQ）整合到離散視頻token化中；改進了訓練策略，包括兩階段訓練過程和使用較低幀率等措施。

通過集成這些改進，VidTok 在多個評估指標上實現了顯著的進步，如峰值信噪比（PSNR）、結構相似性（SSIM）、感知路徑長度（LPIPS）以及弗雷歇視頻距離（FVD），在標準化的評估設置下表現出色，超越了現有方法。

VidTok 的推出不僅提升了視頻token化的效率和質量，還為視頻內容的理解與生成提供了一種強大的工具，有助于推動視頻技術的發展。

論文:??https://arxiv.org/pdf/2412.13061??

2. Mix-LN: Unleashing the Power of Deeper Layers by Combining Pre-LN and Post-LN

LLM合集：微軟開源新一代視頻token化方法VidTok，打造高性能視頻Token化解決方案-AI.x社區

大語言模型（LLMs）取得了顯著的成功，但最新的研究發現，這些模型的深層往往貢獻較小，并且可以在不影響整體性能的情況下被剪枝。雖然一些人將此視為模型壓縮的機會，我們認為這是一個由于廣泛使用Pre-LN而導致的訓練不足問題。我們證明了在像 GPT 和 LLaMA 這樣的模型中常用的 Pre-LN 會導致其深層的梯度范數減弱，從而降低了這些層的有效性。相反，后層歸一化（Post-LN）在深層保持較大的梯度范數，但在早期層則遭遇梯度消失的問題。

為了解決這個問題，我們引入了一種新的歸一化技術——混合層歸一化（Mix-LN），它在同一模型內結合了 Pre-LN 和 Post-LN 的優勢。Mix-LN 在早期層應用 Post-LN，在深層應用 Pre-LN，確保整個網絡各層之間有更均勻的梯度分布。這使得網絡的所有部分——無論是淺層還是深層——都能有效地參與到訓練中。通過對從70M到7B參數規模的各種模型進行大量實驗，我們證明 Mix-LN 一貫優于單獨使用 Pre-LN 或 Post-LN，促進了更加平衡和健康的全網梯度范數，提高了 LLM 預訓練的整體質量。

此外，我們還展示了使用 Mix-LN 預訓練的模型在監督微調（SFT）和人類反饋強化學習（RLHF）期間比使用 Pre-LN 或 Post-LN 的模型學得更好，強調了高質量深層的重要性。通過有效解決當前 LLM 深層效率低下的問題，Mix-LN 解鎖了它們的潛力，增強了模型能力而無需增加模型尺寸。我們的代碼可在 https://github.com/pixeli99/MixLN 獲取。

論文:??https://arxiv.org/pdf/2412.13795??

3. FastVLM: Efficient Vision Encoding for Vision Language Models

LLM合集：微軟開源新一代視頻token化方法VidTok，打造高性能視頻Token化解決方案-AI.x社區

提升輸入圖像分辨率對于增強視覺語言模型（VLMs）的性能至關重要，尤其是在涉及豐富文本圖像理解的任務中。然而，像 ViTs 這樣的流行視覺編碼器在高分辨率下變得效率低下，因為大量的token和堆疊的自注意力層導致了高的編碼延遲。在不同的操作分辨率下，VLM 的視覺編碼器可以在兩個方面進行優化：減少編碼延遲和最小化傳遞給語言模型（LLM）的視覺token數量，從而降低整體延遲。

基于對圖像分辨率、視覺延遲、token數量和 LLM 尺寸之間相互作用的全面效率分析，我們推出了 FastVLM，這是一種在延遲、模型尺寸和準確性之間實現了優化權衡的模型。FastVLM 包含 FastViTHD，這是一種新型的混合視覺編碼器，旨在輸出更少的token并大幅減少高分辨率圖像的編碼時間。與先前的方法不同，FastVLM 僅通過縮放輸入圖像就實現了視覺token數量和圖像分辨率之間的最佳平衡，無需額外的token修剪，并簡化了模型設計。

在 LLaVA-1.5 設置中，FastVLM 在保持與先前工作相似的 VLM 基準性能的同時，首次token生成時間（TTFT）提升了3.2倍。相比最高分辨率（1152x1152）下的 LLaVa-OneVision，FastVLM 使用相同的0.5B參數量的語言模型，在如 SeedBench 和 MMMU 等關鍵基準測試中達到了可比的性能，但 TTFT 快了85倍，且視覺編碼器體積小了3.4倍。

論文:??https://arxiv.org/pdf/2412.13303??

4. AniDoc: Animation Creation Made Easier

LLM合集：微軟開源新一代視頻token化方法VidTok，打造高性能視頻Token化解決方案-AI.x社區

二維動畫的制作遵循一個行業標準的工作流程，包括四個基本階段：角色設計、關鍵幀動畫、中間幀繪制（in-betweening）和上色。我們的研究旨在通過利用日益強大的生成式人工智能來降低上述過程中的勞動力成本。基于視頻擴散模型，我們開發了 AniDoc 這一視頻線稿上色工具，它可以自動將草圖序列轉換為符合參考角色規范的彩色動畫。

我們的模型采用對應匹配作為顯式指導，這使得它對參考角色與每一幀線稿之間的變化（例如姿勢變化）具有很強的魯棒性。此外，我們的模型甚至可以自動化中間幀繪制的過程，用戶只需提供一個角色圖像以及起始和結束的草圖，就可以輕松創建時間上連貫的動畫。

這項技術不僅大大減少了動畫制作過程中的人力投入，也提高了創作效率和靈活性。我們的代碼可以在以下網址獲取：https://yihao-meng.github.io/AniDoc_demo。

論文:???https://arxiv.org/pdf/2412.14173??

本文轉載自 ??AI-PaperDaily??，作者： AI-PaperDaily

標簽

贊

收藏

回復

舉報

回復

相關推薦

next-token被淘汰！Meta實測「多token」訓練方法，推理提速3倍，性能大漲10%+

duhorse ? 3440瀏覽 ? 0回復
這家世界模型公司發布中國版Sora級視頻生成大模型，走向世界模型打造新一代數據引擎

輕薄滴假象 ? 3360瀏覽 ? 0回復
YOLOv9：深度解析新一代實時目標檢測王者

sword_hero ? 6427瀏覽 ? 0回復
微軟重磅開源 GraphRAG：新一代 RAG 技術來了！

玄姐聊AGI ? 6269瀏覽 ? 0回復
新一代的交互形式LUI（language user interface）到來，微軟為它架了一座橋

Syrupup ? 3558瀏覽 ? 0回復
無限生成視頻，還能規劃決策，擴散強制整合下一token預測與全序列擴散

輕薄滴假象 ? 2439瀏覽 ? 0回復
視頻生成控制提升幾十倍，新一代輕量級ControlNeXt火了，賈佳亞團隊正挑戰Scaling Law

輕薄滴假象 ? 2578瀏覽 ? 0回復
微軟：RAG并不是你唯一的解決方案！

PaperAgent ? 3025瀏覽 ? 0回復
探索阿里通義千問 Qwen2.5：新一代開源大模型的卓越力量

穿越時空111 ? 5552瀏覽 ? 0回復
Zyphra發布Zamba2-7B：新一代高性能小型語言模型

Halo咯咯 ? 2754瀏覽 ? 0回復
Text2SQL 新一代解決方案Tool-SQL，基于LLM和Agent智能體實現，效果提升顯著

AI博物院 ? 6108瀏覽 ? 0回復
為什么多模態AI是下一個風口？深度解讀新一代LLM

芝士AI吃魚 ? 5116瀏覽 ? 0回復
直擊痛點，新一代身份保持視頻生成解決方案！阿里等提出FantasyID:多視角與3D融合！

angel ? 2062瀏覽 ? 0回復
LLM合集：微軟發布基于過程的自獎勵方法顯著提升數學推理性能

AIPaperDaily ? 1765瀏覽 ? 0回復
別搞 GraphRAG 了，擁抱新一代 RAG 范式 DeepSearcher

玄姐聊AGI ? 2974瀏覽 ? 0回復
新一代視頻修復技術FloED性能超越所有擴散模型! | 港科大&達摩院

angel ? 1534瀏覽 ? 0回復
搶占AI先機：一體化解決方案與算力租賃如何重塑未來競爭力？

算家計算 ? 1319瀏覽 ? 0回復
別搞 GraphRAG 了，擁抱新一代 RAG 范式 DeepSearcher

玄姐聊AGI ? 1948瀏覽 ? 0回復
Mem0：新一代 AI 智能體的 MCP 持久化記憶架構體系

玄姐聊AGI ? 1326瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

厲害了！大模型自注意力模塊關鍵發現 2天前發布
【LLM合集】讓AI別'杠精式'思考！三招讓大模型能力翻倍 2025-06-18 06:58:24發布

熱門推薦

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

AI Agents開源工具棧全解析~ 0回復

效果&成本雙突破！快手提出端到端生成式推薦系統OneRec！ 0回復

上一篇： LLM合集：港大利用GPT-4o生成QA對，打造大規模多模態視頻思維鏈（COT）數據集

下一篇：微軟推出MixLLM，全局混合精度量化方法助力模型效能飛躍

社區精華內容

目錄

主站蜘蛛池模板：一区二区不卡高清 | 国产精品日产欧美久久久久 | 日本手机看片 | 国产传媒视频在线观看 | 国产一区亚洲 | av在线免费网 | 在线一级片 | 午夜影院在线视频 | 波多野结衣二区 | 中文字幕一区二区三区四区五区 | 欧美久久视频 | 日本成人一区二区 | 久久久久久久电影 | 在线视频欧美日韩 | 91传媒在线观看 | 九九99靖品 | 古装人性做爰av网站 | 蜜桃免费一区二区三区 | 国产农村一级国产农村 | 玖玖免费 | 爱爱无遮挡| 亚洲成年在线 | 国产日韩一区二区 | 欧美激情国产日韩精品一区18 | 99看片网 | 三级黄色大片网站 | 蜜桃视频成人 | 亚洲精品一区二区网址 | 亚洲精品福利视频 | 日韩电影一区 | 国产精品mv在线观看 | 99精品久久久久久中文字幕 | 日韩欧美在线观看 | 最新免费黄色网址 | 国产主播第一页 | 亚洲精品在线观看视频 | 亚洲精美视频 | www.99热这里只有精品 | 亚洲精品在线免费观看视频 | 亚洲综合大片69999 | 日韩欧美国产精品一区二区三区 |

<strike id="cihmt"></strike>

<samp id="cihmt"></samp>

<code id="cihmt"><pre id="cihmt"></pre></code>