成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

連環(huán)畫創(chuàng)作源泉!港科大、騰訊等開源SEED-Story:開創(chuàng)性多模態(tài)長(zhǎng)故事生成! 精華

發(fā)布于 2024-7-31 10:02
瀏覽
0收藏

連環(huán)畫創(chuàng)作源泉!港科大、騰訊等開源SEED-Story:開創(chuàng)性多模態(tài)長(zhǎng)故事生成!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2407.08683
github鏈接:https://github.com/TencentARC/SEED-Story

亮點(diǎn)直擊

  • SEED-Story,一種利用多模態(tài)大語言模型(MLLM)生成具有豐富敘述性文本和上下文相關(guān)圖像的多模態(tài)故事的新方法。
  • 提出了多模態(tài)注意力匯聚機(jī)制,以高效生成長(zhǎng)度大于訓(xùn)練時(shí)使用的序列長(zhǎng)度的長(zhǎng)故事。
  • 引入了StoryStream,這是一個(gè)專門為訓(xùn)練和基準(zhǔn)測(cè)試多模態(tài)故事生成而設(shè)計(jì)的大規(guī)模數(shù)據(jù)集。

連環(huán)畫創(chuàng)作源泉!港科大、騰訊等開源SEED-Story:開創(chuàng)性多模態(tài)長(zhǎng)故事生成!-AI.x社區(qū)

隨著圖像生成和開放形式文本生成的顯著進(jìn)步,生成交織圖像-文本內(nèi)容的領(lǐng)域變得越來越引人入勝。多模態(tài)故事生成,即生成敘述性文本和生動(dòng)圖像交織在一起的內(nèi)容,已成為一個(gè)具有廣泛應(yīng)用的寶貴且實(shí)用的任務(wù)。然而,這一任務(wù)帶來了重大挑戰(zhàn),因?yàn)樗枰斫馕谋竞蛨D像之間復(fù)雜的相互作用,并具備生成長(zhǎng)序列連貫、上下文相關(guān)的文本和視覺效果的能力。


本文提出了SEED-Story,一種利用多模態(tài)大語言模型(MLLM)的新方法來生成擴(kuò)展的多模態(tài)故事。本文的模型建立在MLLM強(qiáng)大的理解能力之上,預(yù)測(cè)文本tokens和視覺tokens,后者隨后通過改編的視覺去分詞器處理,以生成具有一致角色和風(fēng)格的圖像。進(jìn)一步提出多模態(tài)注意力匯聚機(jī)制,以在高度高效的自回歸方式下生成最多25個(gè)序列(訓(xùn)練時(shí)僅10個(gè)序列)的故事。此外,本文還提出了一個(gè)名為StoryStream的大規(guī)模高分辨率數(shù)據(jù)集,用于訓(xùn)練本文的模型并在各個(gè)方面定量評(píng)估多模態(tài)故事生成任務(wù)。

連環(huán)畫創(chuàng)作源泉!港科大、騰訊等開源SEED-Story:開創(chuàng)性多模態(tài)長(zhǎng)故事生成!-AI.x社區(qū)

連環(huán)畫創(chuàng)作源泉!港科大、騰訊等開源SEED-Story:開創(chuàng)性多模態(tài)長(zhǎng)故事生成!-AI.x社區(qū)

連環(huán)畫創(chuàng)作源泉!港科大、騰訊等開源SEED-Story:開創(chuàng)性多模態(tài)長(zhǎng)故事生成!-AI.x社區(qū)

方法

使用多模態(tài)大語言模型進(jìn)行故事生成

視覺Tokenization和De-tokenization 本文的方法概述如下圖2所示。為了有效擴(kuò)展視覺故事,本文的模型必須理解并生成圖像和文本。借鑒最近在統(tǒng)一圖像理解和生成的生成性多模態(tài)大語言模型(MLLM)方面的進(jìn)展,研究者們開發(fā)了一種多模態(tài)故事生成模型。

連環(huán)畫創(chuàng)作源泉!港科大、騰訊等開源SEED-Story:開創(chuàng)性多模態(tài)長(zhǎng)故事生成!-AI.x社區(qū)

本文的模型使用預(yù)訓(xùn)練的Vision Transformer(ViT)作為視覺分詞器,并使用預(yù)訓(xùn)練的擴(kuò)散模型作為視覺去分詞器,通過使用ViT的特征作為輸入來解碼圖像。具體而言,來自ViT分詞器的視覺embeddings被輸入到一個(gè)可學(xué)習(xí)模塊中,然后作為預(yù)訓(xùn)練的SD-XL的U-Net的輸入。這個(gè)過程用視覺embeddings替代了原始的文本特征。在這一階段,參數(shù)使用開放世界的文本-圖像對(duì)數(shù)據(jù)以及故事數(shù)據(jù)進(jìn)行優(yōu)化,以增強(qiáng)模型的編碼-解碼能力。在這一訓(xùn)練階段之后,期望視覺分詞器和去分詞器模塊能夠在特征空間中盡可能多地保留圖像信息。


故事指令調(diào)優(yōu) 在故事生成指令調(diào)優(yōu)過程中,每次迭代隨機(jī)抽取一個(gè)故事數(shù)據(jù)點(diǎn)的隨機(jī)長(zhǎng)度子集。模型的任務(wù)是預(yù)測(cè)故事文本的下一張圖片和下一句句子。在MLLM中,所有圖像都使用預(yù)訓(xùn)練的ViT分詞器轉(zhuǎn)換為圖像特征。對(duì)于目標(biāo)文本tokens,進(jìn)行下一個(gè)token預(yù)測(cè),并使用交叉熵?fù)p失來訓(xùn)練這個(gè)離散目標(biāo)。對(duì)于目標(biāo)圖像特征,模型使用一系列可學(xué)習(xí)的查詢作為輸入,并連續(xù)輸出一系列潛在embeddings。然后,計(jì)算MLLM輸出與目標(biāo)圖像特征之間的余弦相似度損失。在這一階段,使用LoRA模塊微調(diào)SEED-Story模型。


去分詞器適應(yīng) 在指令調(diào)優(yōu)之后,SEED-Story MLLM有效地生成了語義正確的故事圖像,但缺乏風(fēng)格一致性和細(xì)節(jié)。將這個(gè)問題歸因于MLLM輸出的潛在空間與圖像特征之間的不對(duì)齊。為了解決這個(gè)問題,對(duì)去分詞器進(jìn)行了風(fēng)格和紋理對(duì)齊的適應(yīng)。在這個(gè)階段,僅訓(xùn)練SD-XL圖像去分詞器。在MLLM輸出embeddings的條件下,期望SD-XL生成與真實(shí)圖像在像素級(jí)別對(duì)齊的圖像。去分詞器的單獨(dú)訓(xùn)練有兩個(gè)主要優(yōu)勢(shì)。首先,它避免了LLM與去分詞器之間的優(yōu)化沖突。其次,它節(jié)省了內(nèi)存,使得這一過程可以在內(nèi)存有限的GPU上執(zhí)行。

使用多模態(tài)注意力匯聚生成長(zhǎng)故事

生成長(zhǎng)篇視覺故事在教育和娛樂等各種應(yīng)用中具有巨大的潛力。然而,用多模態(tài)大語言模型(MLLM)創(chuàng)建這些故事面臨重大挑戰(zhàn)。延長(zhǎng)、交織故事的數(shù)據(jù)集不僅稀缺,而且由于其復(fù)雜性會(huì)阻礙訓(xùn)練過程。為了解決這個(gè)問題,采用了“短期訓(xùn)練,長(zhǎng)期測(cè)試”的方法,在較短的敘事上訓(xùn)練模型,并在推理過程中擴(kuò)展到較長(zhǎng)的生成。


此外,在推理過程中,生成比訓(xùn)練數(shù)據(jù)顯著更長(zhǎng)的故事常常導(dǎo)致模型退化,產(chǎn)生質(zhì)量較低的圖像,如下圖10第一行所示。這個(gè)過程還需要大量的tokens使用來確保連續(xù)性和連貫性,這反過來增加了內(nèi)存和計(jì)算需求。

連環(huán)畫創(chuàng)作源泉!港科大、騰訊等開源SEED-Story:開創(chuàng)性多模態(tài)長(zhǎng)故事生成!-AI.x社區(qū)

一個(gè)簡(jiǎn)單的解決方案是使用滑動(dòng)窗口技術(shù),如下圖3右(b)所示。然而,這種方法會(huì)破壞Key-Value(KV)緩存中的tokens關(guān)系,導(dǎo)致生成結(jié)果不理想,如StreamingLLM所示。為了克服這一問題,StreamingLLM引入了一種注意力匯聚機(jī)制,可以保留初始tokens,從而在不損害質(zhì)量的情況下高效處理長(zhǎng)生成。雖然這種方法在語言模型中有效,但在多模態(tài)上下文中的效果減弱,如圖3右(c)所示。

連環(huán)畫創(chuàng)作源泉!港科大、騰訊等開源SEED-Story:開創(chuàng)性多模態(tài)長(zhǎng)故事生成!-AI.x社區(qū)

為了增強(qiáng)多模態(tài)長(zhǎng)生成,重新審視了MLLM的注意力圖。在對(duì)各種模型和案例進(jìn)行了大量實(shí)驗(yàn)后,分析了不同層和頭部的注意力圖。分析表明,大多數(shù)查詢主要集中在四種類型的tokens上:

  • 起始tokens
  • 標(biāo)點(diǎn)符號(hào)tokens
  • 圖像開始(BoI)tokens
  • 圖像結(jié)束(EoI)tokens

與僅限語言的模型不同,MLLM對(duì)特定的圖像tokens,尤其是BoI和EoI附近的圖像tokens給予了大量關(guān)注,如上圖3左所示。


基于這些見解,本文提出了一種新的MLLM擴(kuò)展生成機(jī)制,稱為多模態(tài)注意力匯聚。在生成過程中,始終保留起始tokens和BoI及EoI相鄰的圖像tokens。盡管標(biāo)點(diǎn)符號(hào)tokens接收到高關(guān)注值,但它們的潛在值規(guī)范最小,對(duì)最終輸出貢獻(xiàn)不大,因此不保留它們,如[13]所指出。本文提出的機(jī)制使本文的模型能夠在保持較低計(jì)算負(fù)擔(dān)的同時(shí)生成高質(zhì)量的圖像。

連環(huán)畫創(chuàng)作源泉!港科大、騰訊等開源SEED-Story:開創(chuàng)性多模態(tài)長(zhǎng)故事生成!-AI.x社區(qū)

實(shí)驗(yàn)

故事可視化

以往的故事生成方法主要利用擴(kuò)散模型,側(cè)重于故事圖像的可視化。這些模型以前一張圖像和文本作為輸入,然后根據(jù)當(dāng)前的文本提示生成下一張圖像。為了公平比較,研究者們將本文的模型調(diào)整為僅可視化格式。對(duì)于StoryGen,也對(duì)其進(jìn)行訓(xùn)練,使其使用前面的圖像和文本生成圖像。對(duì)于LDM,僅提供文本-圖像對(duì)。視覺結(jié)果如下圖5所示。

連環(huán)畫創(chuàng)作源泉!港科大、騰訊等開源SEED-Story:開創(chuàng)性多模態(tài)長(zhǎng)故事生成!-AI.x社區(qū)

與baseline相比,SEED-Story模型顯示了更好的風(fēng)格和角色一致性以及更高的質(zhì)量。下表2中進(jìn)行了定量評(píng)估,以展示有效性。

連環(huán)畫創(chuàng)作源泉!港科大、騰訊等開源SEED-Story:開創(chuàng)性多模態(tài)長(zhǎng)故事生成!-AI.x社區(qū)

多模態(tài)故事生成

為了進(jìn)行比較分析,現(xiàn)有的多模態(tài)故事生成方法相對(duì)較少。為了建立比較基準(zhǔn),在數(shù)據(jù)集上微調(diào)了最近開發(fā)的MM-interleaved模型。下圖6中詳細(xì)介紹了比較結(jié)果。使用FID評(píng)估生成圖像的視覺質(zhì)量。

連環(huán)畫創(chuàng)作源泉!港科大、騰訊等開源SEED-Story:開創(chuàng)性多模態(tài)長(zhǎng)故事生成!-AI.x社區(qū)

連環(huán)畫創(chuàng)作源泉!港科大、騰訊等開源SEED-Story:開創(chuàng)性多模態(tài)長(zhǎng)故事生成!-AI.x社區(qū)

此外,GPT-4V在多個(gè)維度上比較并選擇MM-interleaved和SEED-Story生成結(jié)果中的優(yōu)選項(xiàng):風(fēng)格一致性,評(píng)估不同圖像之間的風(fēng)格一致性;故事吸引力,衡量敘述吸引和保持觀眾興趣的能力;以及圖像-文本一致性,評(píng)估圖像與其伴隨文本之間的對(duì)齊和相關(guān)性。


為了進(jìn)行定性展示,展示了SEED-Story如何有效地幫助用戶控制故事情節(jié)。下圖7顯示,使用相同的起始圖像但不同的初始文本,敘述分支成兩個(gè)不同的故事情節(jié)。

連環(huán)畫創(chuàng)作源泉!港科大、騰訊等開源SEED-Story:開創(chuàng)性多模態(tài)長(zhǎng)故事生成!-AI.x社區(qū)

下圖8和圖9中提供了更多案例,以證明本文多模態(tài)長(zhǎng)故事生成的能力。SEED-Story可以生成帶有引人入勝的情節(jié)和生動(dòng)圖像的長(zhǎng)序列。

連環(huán)畫創(chuàng)作源泉!港科大、騰訊等開源SEED-Story:開創(chuàng)性多模態(tài)長(zhǎng)故事生成!-AI.x社區(qū)

連環(huán)畫創(chuàng)作源泉!港科大、騰訊等開源SEED-Story:開創(chuàng)性多模態(tài)長(zhǎng)故事生成!-AI.x社區(qū)

長(zhǎng)故事生成

為了驗(yàn)證在長(zhǎng)故事生成方面的有效性,本文進(jìn)行了一項(xiàng)實(shí)驗(yàn),使用SEED-Story模型可視化一個(gè)長(zhǎng)故事,但采用不同的注意力機(jī)制。將數(shù)據(jù)分成長(zhǎng)度為10的故事,以考慮訓(xùn)練效率。將窗口大小設(shè)置為與訓(xùn)練長(zhǎng)度相同。下圖10中的定性結(jié)果顯示,當(dāng)推理長(zhǎng)度超過訓(xùn)練長(zhǎng)度時(shí),窗口注意力迅速崩潰。盡管密集注意力和注意力匯聚方法表現(xiàn)更好,但隨著推理序列的加長(zhǎng),仍未能生成有意義的圖像。相比之下,多模態(tài)注意力匯聚始終生成高質(zhì)量的圖像。

連環(huán)畫創(chuàng)作源泉!港科大、騰訊等開源SEED-Story:開創(chuàng)性多模態(tài)長(zhǎng)故事生成!-AI.x社區(qū)

在效率方面,多模態(tài)注意力匯聚相較于密集注意力表現(xiàn)出顯著的改進(jìn),與窗口注意力和普通注意力匯聚相比,僅有適度的時(shí)間和內(nèi)存成本增加。這些額外的成本來自在KV緩存中保留額外的圖像tokens。下表3中的定量結(jié)果證實(shí)了上述結(jié)論。

連環(huán)畫創(chuàng)作源泉!港科大、騰訊等開源SEED-Story:開創(chuàng)性多模態(tài)長(zhǎng)故事生成!-AI.x社區(qū)

結(jié)論

本文介紹了SEED-Story,這是一種利用多模態(tài)大語言模型生成具有豐富敘述文本和上下文相關(guān)圖像的多模態(tài)長(zhǎng)故事的開創(chuàng)性方法。提出了一種多模態(tài)注意力匯聚機(jī)制,使本文的模型能夠高效地生成長(zhǎng)序列。此外,還提出了一個(gè)名為StoryStream的高質(zhì)量數(shù)據(jù)集,用于有效地訓(xùn)練和基準(zhǔn)測(cè)試多模態(tài)故事生成任務(wù)。

連環(huán)畫創(chuàng)作源泉!港科大、騰訊等開源SEED-Story:開創(chuàng)性多模態(tài)長(zhǎng)故事生成!-AI.x社區(qū)

連環(huán)畫創(chuàng)作源泉!港科大、騰訊等開源SEED-Story:開創(chuàng)性多模態(tài)長(zhǎng)故事生成!-AI.x社區(qū)

連環(huán)畫創(chuàng)作源泉!港科大、騰訊等開源SEED-Story:開創(chuàng)性多模態(tài)長(zhǎng)故事生成!-AI.x社區(qū)

本文轉(zhuǎn)自 AI生成未來 ,作者:Shuai Yang等


原文鏈接:??https://mp.weixin.qq.com/s/cmsXLXRx_5_D-VWuAl7-Hg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 在线视频亚洲 | 国产中文字幕网 | 精品乱码一区二区三四区视频 | 国产精品性做久久久久久 | 国产精品精品视频 | 国产午夜精品一区二区三区 | 亚洲综合精品 | 中文字幕日韩一区 | 精品一区二区久久久久久久网站 | 九九看片 | 亚洲成人动漫在线观看 | 亚洲伊人久久综合 | 在线中文字幕日韩 | 欧美美女爱爱视频 | 日本视频中文字幕 | 亚洲 欧美 日韩 在线 | 国产精品欧美一区二区三区不卡 | 成人精品鲁一区一区二区 | 亚洲高清在线 | 日韩欧美一区二区三区四区 | 中文字幕成人av | 99精品久久久 | 视频在线一区二区 | 久久国际精品 | 国产欧美日韩一区二区三区在线 | 亚洲精品第一 | 久久三区 | 亚洲国产精品久久 | 91免费看片 | 一区精品国产欧美在线 | 久久综合久久久 | 国产在线高清 | 亚洲免费精品一区 | 欧洲一区视频 | 日韩不卡在线 | 国产精品伦理一区 | 国产婷婷在线视频 | 日韩欧美一区二区三区免费看 | 亚洲精品在线观看网站 | 亚洲乱码国产乱码精品精的特点 | 一区二区成人 |