成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成 精華

發布于 2024-7-16 09:49
瀏覽
0收藏

長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區

文章鏈接:https://arxiv.org/abs/2406.16260
工程地址:https://video-infinity.tanzhenxiong.com/
代碼地址:https://github.com/Yuanshi9815/Video-Infinity


雖然最近擴散模型在視頻生成方面取得了顯著的成果,但生成的視頻通常僅限于少量幀,導致剪輯只持續幾秒鐘。生成較長視頻的主要挑戰包括顯著的內存需求以及在單個GPU上所需的長時間處理。一個簡單的解決方案是將工作負載分散到多個GPU上,但這會導致兩個問題:


  1. 確保所有GPU有效通信以共享時間和上下文信息;
  2. 修改現有的視頻擴散模型,這些模型通常在短序列上進行訓練,以創建更長的視頻而無需額外訓練。


為了解決這些問題,本文介紹了Video-Infinity,一種分布式推理pipeline,能夠在多個GPU上并行處理以生成長視頻。具體來說,提出了兩種一致性機制:剪輯并行和雙范圍注意力。剪輯并行優化了跨GPU的上下文信息收集和共享,最小化通信開銷,而雙范圍注意力則調節時間自注意力,在設備之間有效平衡局部和全局上下文。兩種機制結合在一起,分配工作負載并實現快速生成長視頻。在8×Nvidia 6000 Ada GPU(48G)設置下,本文的方法可以在大約5分鐘內生成最多2300幀的視頻,使得長視頻生成的速度比現有方法快100倍。

長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區


亮點直擊

  • 首次通過分布式并行計算解決長視頻生成問題,提高了可擴展性并減少了生成時間。
  • 引入了兩種相互關聯的機制:剪輯并行化優化了GPU間的上下文信息共享,雙范圍注意力機制調整時間自注意力以確保設備間視頻的連貫性。
  • 本文的實驗表明,與現有的超長文本到視頻方法Streaming T2V 相比,本文的方法可以快達100倍。

生成效果展示

長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區

長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區

長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區

長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區

介紹

人類一直以來追求在數字系統中復制我們所生活的動態世界。傳統上這部分工作由物理學和圖形學主導,但最近隨著數據驅動生成模型的出現而得到了增強。這些模型可以創建高度逼真的圖像和視頻,使其與現實難以區分。然而,這些模型通常只能生成非常短的視頻片段,大多數限制在16-24幀。一些模型可以擴展到60或120幀,但在分辨率和視覺質量上做出了很大妥協。


生成長視頻面臨重大挑戰,主要是由于模型訓練和推理所需的資源需求巨大。當前的模型受限于可用資源,通常在短片段上進行訓練,很難在更長的序列中保持質量。此外,一次性生成一分鐘長的視頻可能會占用GPU內存,使任務顯得難以實現。


現有的解決方案,包括自回歸方法、分層方法和從短到長的方法,提供了部分補救措施,但存在顯著的局限性。自回歸方法按順序生成幀,依賴于前面的幀。分層方法先創建關鍵幀,然后填充過渡幀。此外,一些方法將長視頻視為多個重疊的短視頻片段。這些方法不是端到端的;它們通常缺乏全局連續性,需要大量計算,尤其是在重疊區域,并且在跨段一致性方面掙扎。


為了解決這些問題,本文引入了一個用于分布式長視頻生成的新框架,稱為Video-Infinity。從高層次來看,它采用分而治之的原則。它將長視頻生成任務分解為較小的、可管理的段。這些段分布在多個GPU上,允許并行處理。所有客戶端應協同工作,以確保最終視頻在語義上的連貫性。


這種設置雖然簡單明了,但面臨兩個主要挑戰:確保所有GPU之間有效通信以共享上下文信息,以及調整現有模型(通常在較短序列上訓練)以生成更長的視頻而無需額外的訓練。


為了克服這些挑戰,本文引入了兩種協同機制:剪輯并行化和雙范圍注意力機制。剪輯并行化通過將上下文信息分成三部分,實現了多個GPU之間的高效協作。它采用交錯通信策略,分三步完成共享。在剪輯并行化的基礎上,雙范圍注意力機制精細調整時間自注意力機制,以在設備間實現局部和全局上下文的最佳平衡。這種平衡使得在短片段上訓練的模型能夠擴展到長視頻生成,同時保持整體連貫性。


更令人興奮的是,通過利用這兩種策略,Video-Infinity將內存開銷從二次方減少到線性。憑借多設備并行的強大能力和足夠的顯存,本文的系統可以生成任意長度甚至無限長的視頻。


因此,本文的方法顯著延長了可生成視頻的最大長度,并加快了長視頻生成的速度。具體而言,在8×Nvidia 6000 Ada(48G)設置下,本文所提出的方法在僅5分鐘內就能生成長達2300幀的視頻。

前提

視頻生成的擴散模型

長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區

長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區


長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區

長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區

長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區

分布式長視頻生成

在本文的核心pipeline中,Video-Infinity將視頻的潛變量分割成多個片段,然后分布到多個設備上。如下圖 3 所示,在其中沿著時間維度劃分視頻的潛變量。這種分割允許在不同設備上并行地對不重疊幀進行去噪處理。為了實現這一點,本文提出了剪輯并行機制(在后面章節中詳細介紹),它有效地同步設備間的時間信息。此外,本文也引入了雙范圍注意力機制,調節時間注意力以確保無需額外訓練的長視頻一致性。

長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區

長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區

視頻擴散的剪輯并行化機制

為了確保分布在不同設備上的片段的一致性,本文提出了剪輯并行機制,如上圖3所示。該機制并行化了視頻擴散模型的時間層,并實現了高效的設備間通信。


并行化的時間模塊:在標準擴散模型中,時間模塊聚合跨幀的特征,可以簡化為:

長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區

長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區

長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區

長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區

長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區

這種連接提供了對處理特征的整體視圖,保持了分布式系統中時間的一致性。關于這些時間模塊如何整合上下文的進一步細節將在文章的后面章節中討論。


長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區


最終,所有節點完成上下文同步,確保每個設備擁有執行計算所需的全部上下文。更多細節可以參考原文附錄。

將每個模塊并行化

在剪輯并行化的基礎上,本節詳細介紹了每個時間模塊中信息如何進行同步。關鍵技術是雙范圍注意力(Dual-scope attention),它促進了無需訓練的長視頻生成并降低了通信成本。


視頻擴散模型通常包括三個時間模塊:注意力模塊(Attention())、卷積模塊(Conv())和群規范化模塊(GroupNorm())。本文定制了這些模塊,使它們能夠集成到剪輯并行化中,實現跨多設備的分布式處理,從而有效地實現視頻內容的同步和一致性。


DualScope注意力模塊。在并行推理中應用注意力帶來了新的挑戰。原始的注意力模塊需要同時訪問所有輸入標記。為了在剪輯并行性下采用它,需要跨設備聚合標記,這導致了巨大的通信成本。此外,當應用于更長序列時,那些在較短視頻片段上訓練的注意力模塊通常會降低質量。

長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區

實驗

設置

基礎模型。在實驗中,選擇了文本到視頻模型VideoCrafter2 (320 x 512) 作為本文方法的基礎模型。VideoCrafter2 模型是在16幀視頻上訓練的,擅長生成既一致又高質量的視頻片段。它還是VBench 評估中得分最高的開源視頻生成模型。


指標評估。使用VBench 作為綜合視頻評估工具,涵蓋各種視頻維度的廣泛指標。對于每種方法,使用VBench 提供的提示生成視頻進行評估。所測量的指標包括VBench 中視頻質量類別下的所有指標,包括主體一致性、背景一致性、時間閃爍、運動平滑度、動態程度、美學質量和成像質量??紤]到VBench 評估通常針對16幀視頻片段進行,本文對超過16幀的視頻進行了評估方法的修改:從每個視頻中隨機抽取五個16幀片段進行單獨評估,然后計算這些評估的平均分數。


基線方法。本文的方法與幾種其他方法進行了基準比較:

  • FreeNoise : 本文選擇FreeNoise作為基準,因為它也是一種無需訓練的方法,可以基于VideoCrafter2 模型生成長視頻。它采用重新調度技術來初始化噪聲,并結合基于窗口的注意力融合來生成更長的視頻。
  • Streaming T2V : 為了評估本文方法在生成長視頻方面的有效性,選擇了Streaming T2V作為基準。Streaming T2V涉及訓練一個新模型,使用自回歸方法生成長格式視頻。與本文的方法類似,它也具備生成超過1000幀視頻的能力。
  • OpenSora V1.1 : 基于DiT 的視頻擴散模型,支持最多120幀,可以在各種分辨率下生成視頻,并專門針對長視頻序列進行了訓練,以增強其擴展視頻生成能力。

?

長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區


實現細節。默認情況下,所有擴散的參數均保持與VideoCrafter2 的原始推理設置一致,去噪步驟設置為30。本文的實驗在8 × Nvidia 6000 Ada(48G內存)上進行。為了實現剪輯并行化中的時間模塊,本文使用 torch.distributed 工具包,并使用Nvidia的NCCL作為后端,以促進高效的GPU間通信。此外,所有fps條件設置為24,分辨率設置為512 × 320。請注意,Streaming T2V的分辨率無法修改,因此視頻以其默認分辨率生成(預覽視頻為256 × 256,最終視頻為720 × 720)。

主要結果

容量和效率

本文在8 × Nvidia 6000 Ada(48G)設置上評估了本文所提出方法的能力。本文的方法成功地生成了分辨率為512 × 320、時長達95秒(以24幀每秒計算)的2300幀視頻。值得注意的是,得益于高效的通信和多GPU并行處理的利用,整個計算過程大約花費了5分鐘(312秒)。


下表1展示了各種方法在相同設備規格下生成長視頻的能力。為了確??杀刃?,本文將所有方法生成的視頻分辨率標準化為512x320。對于StreamingT2V,本文提供了兩組數據:一組用于生成預覽視頻,分辨率為256x256;另一組用于生成分辨率為720x720的最終視頻。結果表明,本文的方法在端到端類別中是最具能力的,可以生成長達2300幀的最長視頻 — 比OpenSora V1.1多8.2倍。此外,本文的方法在生成128幀短視頻和1024幀長視頻方面始終表現出最短的時間。值得注意的是,在生成1024幀視頻時,本文的方法比唯一能夠生成這種長度視頻的基線方法StreamingT2V快100多倍。即使與StreamingT2V生成更小、分辨率較低的預覽視頻的速度相比,本文的方法也快16倍。

長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區

視頻質量本文比較了本文方法生成的視頻與FreeNoise 和StreamingT2V 在長視頻生成方面的表現。下圖4展示了使用相同提示生成的不同方法生成的一些視頻幀。此外,下表2顯示了這些方法生成的視頻質量,評估了VBench 中的各種指標。

長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區

如上圖所示,雖然StreamingT2V方法生成了具有足夠動態性的長視頻,但它們在開始和結束之間缺乏一致性。相比之下,FreeNoise 生成的視頻在整個過程中對象位置保持一致,但視覺上變化較少。例如,彈吉他的人的視頻保持了單一的姿勢,僅有微小的移動。同樣地,左側的狗專注地看著攝像頭,耳朵、鼻子或身體的位置沒有變化。OpenSora V1.1 未能生成第一個視頻,第二個視頻的背景也不夠平滑。相反,本文的方法不僅確保了更好的一致性,而且在生成的視頻中呈現出更明顯的運動。

長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區

上表 2顯示,與本文中提到的基礎模型VideoCrafter 2 相比,本文的方法在大多數指標上略有下降,除了動態指標。在生成64幀視頻時,本文的方法與其他方法相比表現出優勢和劣勢。然而,本文的平均指標得分高于FreeNoise和OpenSora V1.1。在生成更長的192幀視頻時,本文的方法在大多數評估指標上表現優于StreamingT2V,這是唯一能夠生成這種長度視頻的其他方法。

消融

長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區

長視頻生成速度提升100倍!新加坡國立提出Video-Infinity:分布式長視頻生成-AI.x社區

移除局部上下文。從上圖5的頂部面板可以觀察到,ResNet()中同步信息的缺失導致在設備(1)上的最后一幀(第23幀)和設備(2)上的第一幀(第24幀)之間出現了細節上的差異,這些差異在圖中用紅色標出。例如,人物服裝顏色的差異和機器人手上桌面零件的形狀差異,這些在原始推斷中并不存在。當 Attention() 模塊的上下文缺失時,第23幀和第24幀變成了明顯不同的圖像,顯示出相鄰設備生成的視頻段之間存在顯著的不連續性。這些觀察結果表明,ResNet() 和 Attention() 模塊中的同步對于在不同設備上生成的視頻幀的視覺一致性和連續性至關重要。


移除全局上下文。上圖5的底部面板展示了當全局上下文同步缺失時,視頻內部的內容一致性難以維持的情況。例如,在第12幀和第16幀中,地平線保持較高,但在第20幀以后,地平線明顯上升。此外,當移除局部上下文同步時,雖然不同設備片段之間的內容保持一致,但在過渡區域缺乏共享上下文導致異常。例如,第22幀的雪內容突然過渡到圖中標記為紅色的狗。這些示例突顯了全局和局部上下文同步在視頻生成中的重要性。

結論

本文介紹了Video-Infinity,這是一個利用多個GPU進行長視頻生成的分布式推斷pipeline。提出了兩種機制,剪輯并行化和雙范圍注意力機制,來解決分布式視頻生成中的關鍵挑戰。剪輯并行化通過優化上下文信息的交換來減少通信開銷,而雙范圍注意力修改了自注意力機制以確保設備間的一致性。這些創新共同促成了高達2,300幀的視頻快速生成,大幅提升了與現有方法相比的生成速度。這種方法不僅擴展了擴散模型在視頻制作中的實際應用性,還為長視頻生成效率設立了新的基準。

限制

為了充分發揮本文方法的潛力,它依賴于多個GPU的可用性。此外,本文的方法在涉及場景轉換的視頻生成方面表現不佳。


本文轉自 AI生成未來 ,作者:Zhenxiong Tan等


原文鏈接:??https://mp.weixin.qq.com/s/DqiKcrW7xui-0fIzdUZT9g??

已于2024-7-16 09:49:00修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产999精品久久久久久 | 人人九九精 | 91中文字幕在线 | 色偷偷噜噜噜亚洲男人 | 91精品国产91久久综合桃花 | 懂色tv | 国产免费一区 | 日韩二三区 | 激情国产在线 | 国产探花在线精品一区二区 | 日韩av一区二区在线观看 | 亚欧精品| 在线观看视频一区二区三区 | 国产欧美视频一区二区 | 午夜免费网站 | 欧美.com| 久久精品一区 | 全免费a级毛片免费看视频免 | 伊人久久一区二区 | 成年人在线视频 | 日韩精品一区二区三区高清免费 | 亚洲视频在线免费观看 | 神马影院一区二区三区 | 国产在线精品一区二区三区 | 午夜免费视频 | 青青久在线视频 | 国产精品视频网 | 91视频正在播放 | 亚洲一级二级三级 | 日韩视频在线播放 | 亚洲高清一区二区三区 | 国产精品欧美一区二区三区不卡 | 国产精品久久久久久久久久妇女 | 99国内精品久久久久久久 | 99热热热热| 国产美女视频 | 日本一区二区视频 | 毛片免费视频 | 日韩av在线一区二区三区 | 日韩精品一区二区三区在线播放 | 91精品国产91久久久久久三级 |