成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

視頻場景圖生成任務新SOTA!中山大學提出全新時空知識嵌入框架,登頂刊TIP'24

人工智能 新聞
STKET框架將先驗時空知識納入多頭交叉注意機制中,從而可以學習到更多有代表性的視覺關系表示,在視頻圖生成基準上大幅領先其他算法。

視頻場景圖生成(VidSGG)旨在識別視覺場景中的對象并推斷它們之間的視覺關系。

該任務不僅需要全面了解分散在整個場景中的每個對象,還需要深入研究它們在時序上的運動和交互。

最近,來自中山大學的研究人員在人工智能頂級期刊IEEE T-IP上發表了一篇論文,進行了相關任務的探索并發現:每對物體組合及其它們之間的關系在每個圖像內具有空間共現相關性,并且在不同圖像之間具有時間一致性/轉換相關性。

論文鏈接:https://arxiv.org/abs/2309.13237

基于這些先驗知識,研究人員提出了一種基于時空知識嵌入的Transformer(STKET)將先驗時空知識納入多頭交叉注意機制中,從而學習更多有代表性的視覺關系表示。

具體來說,首先以統計方式學習空間共現和時間轉換相關性;然后,設計了時空知識嵌入層對視覺表示與知識之間的交互進行充分探索,分別生成空間和時間知識嵌入的視覺關系表示;最后,作者聚合這些特征,以預測最終的語義標簽及其視覺關系。

大量實驗表明,文中提出的框架大幅優于當前競爭算法。目前,該論文已經被接收。

論文概述

隨著場景理解領域的快速發展,許多研究者們開始嘗試利用各種框架解決場景圖生成(Scene Graph Generation, SGG)任務,并已取得了不俗的進展。

但是,這些方法往往只考慮單張圖像的情況,忽略了時序中存在著的大量的上下文信息,導致現有大部分場景圖生成算法在無法準確地識別所給定的視頻中包含的動態視覺關系。

因此,許多研究者致力于開發視頻場景圖生成(Video Scene Graph Generation, VidSGG)算法來解決這個問題。

目前的工作主要關注從空間和時間角度聚合對象級視覺信息,以學習對應的視覺關系表示。

然而,由于各類物體與交互動作的視覺外表方差大以及視頻收集所導致的視覺關系顯著的長尾分布,單純的僅用視覺信息容易導致模型預測錯誤的視覺關系。

針對上述問題,研究人員做了以下兩方面的工作:

首先,提出挖掘訓練樣本中包含的先驗時空知識用以促進視頻場景圖生成領域。其中,先驗時空知識包括:

1)空間共現相關性:某些對象類別之間的關系傾向于特定的交互。

2)時間一致性/轉換相關性:給定對的關系在連續視頻剪輯中往往是一致的,或者很有可能轉換到另一個特定關系。

其次,提出了一種新穎的基于時空知識嵌入的Transformer(Spatial-Temporal Knowledge-Embedded Transformer, STKET)框架。

該框架將先驗時空知識納入多頭交叉注意機制中,從而學習更多有代表性的視覺關系表示。根據在測試基準上得到的比較結果可以發現,研究人員所提出的STKET框架優于以前的最先進方法。

圖1:由于視覺外表多變和視覺關系的長尾分布,導致視頻場景圖生成充滿挑戰

基于時空知識嵌入的Transformer

時空知識表示

在推斷視覺關系時,人類不僅利用視覺線索,還利用積累的先驗知識[1, 2]。受此啟發,研究人員提出直接從訓練集中提取先驗時空知識,以促進視頻場景圖生成任務。

其中,空間共現相關性具體表現為當給定物體組合后其視覺關系分布將高度傾斜(例如,「人」與「杯子」之間的視覺關系的分布明顯不同于「狗」與「玩具」之間的分布)和時間轉移相關性具體表現為當給定前一時刻的視覺關系后各個視覺關系的轉換概率將大幅變化(例如,當已知前一時刻的視覺關系為「吃」時,下一時刻視覺關系轉移為「書寫」的概率大幅下降)。

如圖2所示,可以直觀地感受到給定物體組合或之前的視覺關系后,預測空間可以被大幅的縮減。

圖2:視覺關系的空間共現概率[3]與時間轉移概率

具體而言,對于第i類物體與第j類物體的組合,以及其上一時刻為第x類關系的情況,首先通過統計的方式獲得其對應的空間共現概率矩陣E^{i,j}和時間轉移概率矩陣Ex^{i,j}。

接著,將其輸入到全連接層中得到對應的特征表示,并利用對應的目標函數確保模型所學到的的知識表示包含對應的先驗時空知識。

圖3:學習空間(a)和時間(b)知識表示的過程

知識嵌入注意力層

空間知識通常包含有關實體之間的位置、距離和關系的信息。另一方面,時間知識涉及動作之間的順序、持續時間和間隔。

鑒于它們獨特的屬性,單獨處理它們可以允許專門的建模更準確地捕獲固有模式。

因此,研究人員設計了時空知識嵌入層,徹底探索視覺表示與時空知識之間的相互作用。

圖片

圖4:空間(左側)和時間(右側)知識嵌入層

時空聚合模塊

如前所述,空間知識嵌入層探索每個圖像內的空間共現相關性,時間知識嵌入層探索不同圖像之間的時間轉移相關性,以此充分探索了視覺表示和時空知識之間的相互作用。

盡管如此,這兩層忽略了長時序的上下文信息,而這對于識別大部分動態變化的視覺關系具有幫助。

為此,研究人員進一步設計了時空聚合(STA)模塊來聚合每個對象對的這些表示,以預測最終的語義標簽及其關系。它將不同幀中相同主客體對的空間和時間嵌入關系表示作為輸入。

具體來說,研究人員將同一對象對的這些表示連接起來以生成上下文表示。

然后,為了在不同幀中找到相同的主客體對,采用預測的對象標簽和IoU(即并集交集)來匹配幀中檢測到的相同主客體對。

最后,考慮到幀中的關系在不同批次中有不同的表示,選擇滑動窗口中最早出現的表示。

實驗結果

為了全面評估所提出的框架的性能,研究人員除了對比現有的視頻場景圖生成方法(STTran, TPI, APT)外,也選取了先進的圖像場景圖生成方法(KERN, VCTREE, ReIDN, GPS-Net)進行比較。

其中,為確保對比的公平,圖像場景圖生成方法通過對每一幀圖像進行識別,從而達到對所給定視頻生成對應場景圖的目標。

圖5:在Action Genome數據集上以Recall為評價指標的實驗結果

圖6:在Action Genome數據集上以mean Recall為評價指標的實驗結果

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-07-01 12:19:33

2020-11-05 16:21:15

中山大學

2025-03-17 10:25:28

2025-03-17 12:48:50

2021-02-24 15:38:37

數據語言架構

2024-10-17 14:17:44

DiTSOTA機制

2023-11-29 15:00:00

數據訓練

2009-05-19 11:46:21

2024-04-11 07:09:43

大模型人工智能AI

2014-11-13 10:17:30

中山大學新炬網絡學院大數據技術

2024-02-29 13:55:00

模型訓練

2022-11-04 17:02:31

AI模型

2023-03-14 14:06:52

訓練模型

2023-10-30 17:23:54

數據模型

2024-12-20 09:39:05

2021-11-16 15:37:43

AI 數據人工智能

2023-08-22 13:20:00

模型訓練

2016-12-24 00:08:11

教育信息化

2025-04-03 09:27:44

2025-02-21 09:35:00

3DAI生成
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 我想看一级黄色毛片 | 国产亚洲第一页 | 日韩视频一区在线观看 | 国产精品色婷婷久久58 | 亚洲中午字幕 | 免费看a| 黄色在线播放视频 | 亚洲欧美久久 | 国精品一区二区 | av在线播放一区二区 | 欧美日韩在线播放 | 91影视 | 成人动漫一区二区 | 久久久久一区二区三区四区 | 久草电影网 | 欧美日韩视频在线第一区 | 成人在线一区二区三区 | a级片在线观看 | 国产一区免费 | 亚洲自拍一区在线观看 | 亚洲精品美女 | 国产乱码一区 | 国产精品国产a | 成人免费毛片片v | 久久99网| 久久国产精品亚洲 | 成人欧美一区二区三区1314 | 久久成人18免费网站 | 欧美二区在线 | 91综合在线观看 | 国产精品久久精品 | 亚洲免费在线观看av | 在线精品亚洲欧美日韩国产 | 免费黄色片在线观看 | 日韩欧美在线视频一区 | 黄色一级大片在线免费看产 | www.久久久.com | 国产成人福利在线观看 | 99精品在线| 中文字幕精品一区二区三区精品 | 国产精品一二三区 |