成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<s id="2uyyi"><em id="2uyyi"></em></s>

<abbr id="2uyyi"><code id="2uyyi"></code></abbr>

<bdo id="2uyyi"></bdo>

<s id="2uyyi"><tbody id="2uyyi"></tbody></s>

<code id="2uyyi"><source id="2uyyi"></source></code><abbr id="2uyyi"><code id="2uyyi"></code></abbr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

OmniTokenizer-視覺tokenizer生成

發(fā)布于 2025-1-9 10:15

瀏覽

0收藏

本文介紹一種視覺tokenizer的生成。

AIGC生成模型在人工智能領(lǐng)域發(fā)展迅速，視覺生成主要有基于語言模型和擴(kuò)散模型兩種范式，而tokenizer是其核心組件?，F(xiàn)有tokenizer分別針對圖像或視頻輸入設(shè)計，存在應(yīng)用靈活性和數(shù)據(jù)可擴(kuò)展性的局限。因此需要一種聯(lián)合圖像 - 視頻標(biāo)記器，以實現(xiàn)從兩種數(shù)據(jù)中聯(lián)合學(xué)習(xí)，緩解單模態(tài)數(shù)據(jù)稀缺問題，并提高模型的通用性和可擴(kuò)展性。

今天介紹一種OmniTokenizer方法，感興趣的小伙伴可以看看原文：https://arxiv.org/abs/2406.09399

模型架構(gòu)

OmniTokenizer-視覺tokenizer生成-AI.x社區(qū)

上圖為OmniTokenize架構(gòu)圖，從中可以看出：

OmniTokenizer 由 patch 嵌入層和獨(dú)立的時空注意力塊組成。采用時空解耦架構(gòu)，在空間維度使用窗口注意力機(jī)制，因其具有局部聚合能力和效率；在時間維度使用因果注意力機(jī)制，以捕捉視頻中的運(yùn)動并確保時間連貫性。
輸入數(shù)據(jù)首先進(jìn)行 Patchify 操作，將圖像和視頻幀分別分割為不重疊的塊并投影得到嵌入，然后通過時空分離的編碼器獲取潛在代碼，解碼器與編碼器對稱，最后通過線性投影層將時空標(biāo)記映射回像素空間。

訓(xùn)練過程

OmniTokenizer-視覺tokenizer生成-AI.x社區(qū)

漸進(jìn)式訓(xùn)練策略，包括兩個連續(xù)階段：

首先在固定分辨率的圖像數(shù)據(jù)上進(jìn)行訓(xùn)練，以建立對靜態(tài)視覺信息的理解，即基礎(chǔ)的空間編碼能力
然后引入視頻數(shù)據(jù)，在多分辨率上進(jìn)行聯(lián)合訓(xùn)練，學(xué)習(xí)時間動態(tài)信息，從而使模型能夠準(zhǔn)確捕捉單幀的空間細(xì)節(jié)和視頻序列的時間關(guān)系。訓(xùn)練過程中使用向量量化目標(biāo)函數(shù)，并在后期通過 KL 散度進(jìn)行微調(diào)

實驗結(jié)果

OmniTokenizer-視覺tokenizer生成-AI.x社區(qū)

在 ImageNet、CelebA - HQ 和 FFHQ 等圖像數(shù)據(jù)集以及 UCF - 101 和 Moments - in - Time 等視頻數(shù)據(jù)集上評估。在相同壓縮率和碼本大小下，OmniTokenizer - VQVAE 在圖像數(shù)據(jù)集上的重建 FID 指標(biāo)優(yōu)于現(xiàn)有方法，在 ImageNet 上達(dá)到 1.11，比之前的 SOTA 方法 ViT - VQGAN 提高了 13%；OmniTokenizer - VAE 進(jìn)一步將 FID 降低到 0.69。在視頻數(shù)據(jù)集上也取得了最佳的重建結(jié)果。

文轉(zhuǎn)載自公眾號瓦力算法學(xué)研所，作者：喜歡瓦力的卷卷

原文鏈接：??https://mp.weixin.qq.com/s/k9YCnDS0nUMmC8eJSiEpLw??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

GPT超越擴(kuò)散、視覺生成Scaling Law時刻！北大&字節(jié)提出VAR范式

輕薄滴假象 ? 2811瀏覽 ? 0回復(fù)
值得細(xì)讀的八個視覺大模型生成式預(yù)訓(xùn)練方法

angel ? 6182瀏覽 ? 0回復(fù)
字節(jié)豆包全新圖像Tokenizer：生成圖像最低只需32個token，最高提速410倍

輕薄滴假象 ? 3774瀏覽 ? 0回復(fù)
視覺文本視頻生成最強(qiáng)方案！Text-Animator效果確實好！

angel ? 3153瀏覽 ? 0回復(fù)
MSRA：視覺生成六大技術(shù)問題

Crystalcxt ? 2209瀏覽 ? 0回復(fù)
MSRA古紓旸：2024年，視覺生成領(lǐng)域最重要的問題有哪些？

angel ? 2625瀏覽 ? 0回復(fù)
淺談視覺Transformer技術(shù)

zhcs333 ? 3134瀏覽 ? 0回復(fù)
（視覺定位、圖像生成、編輯、理解）

angel ? 4229瀏覽 ? 0回復(fù)
ECCV 2024 | 探索離散Token視覺生成中的自適應(yīng)推理策略

輕薄滴假象 ? 2306瀏覽 ? 0回復(fù)
視覺任務(wù)大一統(tǒng)！圖像生成，編輯，翻譯三合一！全能視覺助手PixWizard來襲！

angel ? 3206瀏覽 ? 0回復(fù)
LLM實踐系列-詳談Tokenizer訓(xùn)練細(xì)節(jié)

NLP工作站 ? 3625瀏覽 ? 0回復(fù)
AI2驚艷發(fā)布OneDiffusion：突破性大規(guī)模擴(kuò)散模型，支持多任務(wù)生成與理解，重塑視覺AI應(yīng)用

angel ? 3281瀏覽 ? 0回復(fù)
南大&清華&騰訊聯(lián)合打造IBQ：自回歸生成最強(qiáng)視覺分詞器

angel ? 3566瀏覽 ? 0回復(fù)
視覺模型進(jìn)入MoE時代！DeepSeek開源全新視覺模型VL2，逆向由圖生成代碼、梗圖解析、幾張圖生成一篇童話！

51CTO技術(shù)棧 ? 7755瀏覽 ? 0回復(fù)
Tokenizer不存在了？Meta開源BLT算法！

NLP前沿1 ? 2378瀏覽 ? 0回復(fù)
視覺自回歸建模（VAR）：通過下一尺度預(yù)測實現(xiàn)可擴(kuò)展的圖像生成（NIPS2024best)

AIRoobt ? 4225瀏覽 ? 0回復(fù)
ViDoRAG：提升視覺RAG性能10%

大語言模型論文跟蹤 ? 2369瀏覽 ? 0回復(fù)
告別粗糙AI生成！BlobCtrl帶你玩轉(zhuǎn)元素級視覺編輯，效果炸裂！(北大&港中文&騰訊)

angel ? 1717瀏覽 ? 0回復(fù)
比肩可靈視頻生模型；改善視覺Tokenizer性能；高壓縮潛在表示；像素空間擴(kuò)散生成

AI研究前瞻 ? 1203瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

LLM面經(jīng)——多模態(tài)大模型訓(xùn)練中”模態(tài)懶惰“問題如何解決？ 2025-06-24 06:03:37發(fā)布
大模型面經(jīng)——MLLM中模態(tài)對齊有哪些難點？有什么解決方法？ 2025-06-10 10:42:03發(fā)布

熱門推薦

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒問題 0回復(fù)

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實測：真·超DS！ 1回復(fù)

AI Agents開源工具棧全解析~ 0回復(fù)

效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復(fù)

上一篇：如何全面評估多模態(tài)大模型能力？MLLM評測任務(wù)與指標(biāo)總結(jié)

下一篇：大模型面經(jīng)：SFT和RL如何影響模型的泛化或記憶能力？

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板： 99久9| 精品影院 | 狠狠干av| 成人黄色在线视频 | 午夜欧美一区二区三区在线播放 | av在线三级 | 99热99| 好姑娘影视在线观看高清 | 精品成人av | 欧美一区二区三区 | 91精品国产乱码久久久久久久久 | av黄色在线| 国产日韩一区二区三免费高清 | 欧美日韩高清 | 99亚洲精品 | 久久久国产精品 | 久久久网 | 国产一区久久 | 亚洲精选久久 | 夫妻午夜影院 | 97av视频在线观看 | 久久伊| 久久国产精品99久久久久久丝袜 | 国产最好的av国产大片 | 国产亚洲精品久久19p | 天天综合久久网 | 日韩欧美亚洲 | 毛片网站免费观看 | 国产精品福利在线 | 成年人视频免费在线观看 | 亚洲精品视频在线观看视频 | 日韩精品在线看 | 久久躁日日躁aaaaxxxx | 欧美一区二区三区在线播放 | 欧美伊人久久久久久久久影院 | 久久久观看 | 亚洲免费在线观看av | 免费观看的av毛片的网站 | 精品国产视频 | 日本成人毛片 | 国产乱码精品1区2区3区 |

<bdo id="ckmqq"><dd id="ckmqq"></dd></bdo>

<input id="ckmqq"></input>

<kbd id="ckmqq"><noscript id="ckmqq"></noscript></kbd>

<abbr id="ckmqq"><table id="ckmqq"></table></abbr>