成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

給我一張圖,生成30秒視頻!

人工智能 新聞
近日,DeepMind提出了一種基于概率幀預測的圖像建模和視覺任務的通用框架——Transframer。

AI又進階了?

而且是一張圖生成連貫30秒視頻的那種。

圖片

emm....這質量是不是有點太糊了

要知道這只是從單個圖像(第一幀)生成的,而且沒有任何顯示的幾何信息。

這是DeepMind最近提出的一種基于概率幀預測的圖像建模和視覺任務的通用框架——Transframer。

簡單講,就是用Transframer來預測任意幀的概率。

這些幀可以以一個或者多個帶標注的上下文幀為條件,既可以是先前的視頻幀、時間標記或者攝像機標記的視圖場景。

Transframer架構

先來看看這個神奇的Transframer的架構是怎么運作的。

圖片

論文地址就貼在下面了,感興趣的童鞋可以看看~https://arxiv.org/abs/2203.09494

為了估計目標圖像上的預測分布,我們需要一個能夠生產多樣化、高質量輸出的表達生成模型。

盡管DC Transformer在單個圖像域上的結果可以滿足需求,但并非以我們需要的多圖像文本集 {(In,an)}n 為條件。

因此,我們對DC Transformer進行了擴展,以啟用圖像和注釋條件預測。

我們替換了DC Transformer 的Vision-Transformer風格的編碼器,該編碼器使用多幀 U-Net 架構對單個DCT圖像進行操作,用于處理一組帶注釋的幀以及部分隱藏的目標DCT圖像。

下面看看Transframer架構是如何工作的。

(a)Transframer將DCT圖像(a1和a2)以及部分隱藏的目標DCT圖像(aT)和附加注釋作為輸入,由多幀U-Net編碼器處理。接下來,U-Net輸出通過交叉注意力傳遞給DC-Transformer解碼器,該解碼器則自動回歸生成與目標圖像的隱藏部分對應的DCT Token序列(綠色字母)。(b)多幀U-Net block由NF-Net卷積塊、多幀自注意力塊組成,它們在輸入幀之間交換信息和 Transformer式的殘差MLP。

圖片

再來看看處理圖像輸入的Multi-Frame U-Net。

U-Net的輸入是由N個DCT幀和部分隱藏目標DCT幀組成的序列,注釋信息以與每個輸入幀相關聯的向量的形式提供。

U-Net的核心組件是一個計算塊,它首先將一個共享的NF-ResNet 卷積塊應用于每個輸入幀,然后應用一個Transformer樣式的自我注意塊來聚合跨幀的信息。(圖2 b)

NF-ResNet塊由分組卷積和擠壓和激發層組成,旨在提高TPU的性能。

下面,圖(a)比較了RoboNet (128x128) 和KITTI視頻的絕對和殘差DCT表征的稀疏性。

由于RoboNet由只有少數運動元素的靜態視頻組成,因此殘差幀表征的稀疏性顯著增加。

而KITTI視頻通常具有移動攝像頭,導致連續幀中幾乎所有地方都存在差異。

但在這種情況下,稀疏性小帶來的好處也隨之弱化。

圖片

多視覺任務強者

通過一系列數據集和任務的測試,結果顯示Transframer可以應用在多個廣泛任務上。

其中就包括視頻建模、新視圖合成、語義分割、對象識別、深度估計、光流預測等等。

圖片

視頻建模

通過Transframer在給定一系列輸入視頻幀的情況下預測下一幀。

研究人員分別在KITTI和RoboNet兩個數據集上,訓練了Transframer在視頻生成上的性能如何。

圖片

對于KITTI,給定5個上下文幀和25采樣幀,結果顯示,Transframer模型在所有指標上的性能都有所提高,其中LPIPS和FVD的改進是最顯而易見的。

圖片

在RoboNet上,研究人員給定2個上下文幀和10個采樣幀,分別以64x64 和 128x128 的分辨率進行訓練,最終也取得了非常好的結果。

圖片圖片

視圖合成

在視圖合成方面,研究者通過提供相機視圖作為表 1(第 3 行)中描述的上下文和目標注釋,以及 統一采樣多個上下文視圖,直到指定的最大值。

通過提供1-2個上下文視圖,在ShapeNet 基準上評估模型Transframer,明顯優于PixelNeRF和SRN。

圖片

此外在數據集Objectron進行評估后,可以看出當給定單個輸入視圖時,模型會產生連貫的輸出,但會遺漏一些特征,比如交叉的椅子腿。

當給出1個上下文視圖,以128×128分辨率合成的視圖如下:

圖片圖片

當再給出2個上下文視圖,以128×128分辨率合成的視圖如下:

圖片圖片

多視覺任務

不同的計算機視覺任務通常使用復雜的架構和損失函數來處理。

這里,研究人員在8個不同的任務和數據集上使用相同的損失函數聯合訓練了Transframer模型。

這8個任務分別是:單個圖像的光流預測、對象分類、檢測和分割、語義分割(在2個數據集上)、未來幀預測和深度估計。

圖片

結果顯示,Transframer學會在完全不同的任務中生成不同的樣本,在某些任務中,比如 Cityscapes,該模型產生了質量上好的輸出。

但是,在未來幀預測和邊界框檢測等任務上的模型輸出質量參差不齊,這表明在此設置中建模更具挑戰性。

?

責任編輯:張燕妮 來源: 新智元
相關推薦

2021-02-07 09:01:10

Java并發編程

2019-09-11 10:12:12

華為

2015-03-10 10:15:27

AppleWatch開發Swift

2015-09-14 09:07:15

Java多線程

2015-09-23 10:04:03

開放數據

2015-10-29 15:09:32

信息圖數據

2023-09-05 08:53:51

2018-05-18 18:09:44

人工智能

2013-12-16 10:59:52

WiFi上鎖WiFi被盜

2024-05-07 08:49:45

微服務架構模式

2018-02-13 14:56:24

戴爾

2020-09-12 16:45:49

Git

2025-03-11 10:58:00

2015-06-24 10:51:10

iOS學習流程

2021-09-29 11:30:01

大數據技術架構

2025-04-24 10:31:54

2024-09-11 14:25:00

視頻生成AI

2019-06-23 17:30:07

AI 數據人工智能

2016-11-10 10:03:02

微軟Power BI組件
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久激情五月丁香伊人 | 日韩三级免费网站 | 密色视频 | 一级做a爰片性色毛片16美国 | 91麻豆蜜桃一区二区三区 | 欧美爱爱视频网站 | 欧美一级大黄 | 99精品在线 | 日韩精品免费一区二区在线观看 | 资源首页二三区 | 中文字幕日韩av | 亚洲一区二区免费视频 | 久久久精品视频免费看 | 春色av | 国产成人99久久亚洲综合精品 | 欧美午夜精品 | 欧美久久精品一级黑人c片 91免费在线视频 | 精品视频 免费 | 欧美99久久精品乱码影视 | 日韩一区二区福利视频 | 91精品国产综合久久精品图片 | 欧美日韩在线一区二区 | 久久国内精品 | 91看片在线观看 | 黄色欧美 | 激情伊人网 | 国产99久久| 午夜在线 | 国产视频线观看永久免费 | 成人一区二区三区在线观看 | a级在线| 欧美精品一区二区三区四区 在线 | 国产综合视频 | 国产一区二区三区在线视频 | 精品久久久久久久久久久 | 男女啪啪高潮无遮挡免费动态 | 一级少妇女片 | 91视频大全| 91在线观看免费 | 亚洲成人精品 | 日韩在线看片 |