成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

聽聲辨物,這是AI視覺該干的???

人工智能 新聞
來自合肥工業(yè)大學、商湯、澳國立、北航、英偉達、港大和上海人工智能實驗室的研究者提出了一項新的視聽分割任務。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯(lián)系出處。

聽到“唔哩——唔哩——”的警笛聲,你可以迅速判斷出聲音來自路過的一輛急救車。

能不能讓AI根據(jù)音頻信號得到發(fā)聲物完整的、精細化的掩碼圖呢?

來自合肥工業(yè)大學、商湯、澳國立、北航、英偉達、港大和上海人工智能實驗室的研究者提出了一項新的視聽分割任務(Audio-Visual Segmentation, AVS)

視聽分割,就是要分割出發(fā)聲物,而后生成發(fā)聲物的精細化分割圖。

相應的,研究人員提出了第一個具有像素級標注的視聽數(shù)據(jù)集AVSBench

新任務、新的數(shù)據(jù)集,搞算法的又有新坑可以卷了。

據(jù)最新放榜結果,該論文已被ECCV 2022接受。

精準鎖定發(fā)聲物

聽覺和視覺是人類感知世界中最重要的兩個傳感器。生活里,聲音信號和視覺信號往往是互補的。

視聽表征學習(audio-visual learning)已經催生了很多有趣的任務,比如視聽通信(AVC)、視聽事件定位(AVEL)、視頻解析(AVVP)、聲源定位(SSL)等。

這里面既有判定音像是否描述同一事件/物體的分類任務,也有以熱力圖可視化大致定位發(fā)聲物的任務。

但無論哪一種,離精細化的視聽場景理解都差點意思。

△ AVS 任務與 SSL 任務的比較

視聽分割“迎難而上”,提出要準確分割出視頻幀中正在發(fā)聲的物體全貌——

即以音頻為指導信號,確定分割哪個物體,并得到其完整的像素級掩碼圖。

AVSBench 數(shù)據(jù)集

要怎么研究這個新任務呢?

鑒于當前還沒有視聽分割的開源數(shù)據(jù)集,研究人員提出AVSBench 數(shù)據(jù)集,借助它研究了新任務的兩種設置:

1、單聲源(Single-source)下的視聽分割

2、多聲源(Multi-sources)下的視聽分割

數(shù)據(jù)集中的每個視頻時長5秒。

單聲源子集包含23類,共4932個視頻,包含嬰兒、貓狗、吉他、賽車、除草機等與日常生活息息相關的發(fā)聲物。

△AVSBench單源子集的數(shù)據(jù)分布

多聲源子集則包含了424個視頻。

結合難易情況,單聲源子集在半監(jiān)督條件下進行,多聲源子集則以全監(jiān)督條件進行。

研究人員對AVSBench里的每個視頻等間隔采樣5幀,然后人工對發(fā)聲體進行像素級標注。

對于單聲源子集,僅標注采樣的第一張視頻幀;對于多聲源子集,5幀圖像都被標注——這就是所謂的半監(jiān)督和全監(jiān)督。

△對單聲源子集和多聲源子集進行不同人工標注

這種像素級的標注,避免了將很多非發(fā)聲物或背景給包含進來,從而增加了模型驗證的準確性。

一個簡單的baseline方法

有了數(shù)據(jù)集,研究人員還拋磚引玉,在文中給了個簡單的baseline。

吸收傳統(tǒng)語義分割模型的成功經驗,研究人員提出了一個端到端的視聽分割模型。

這個模型遵循編碼器-解碼器的網(wǎng)絡架構,輸入視頻幀,最終直接輸出分割掩碼。

另外,還有兩個網(wǎng)絡優(yōu)化目標。

一是計算預測圖和真實標簽的損失。

而針對多聲源情況,研究人員提出了掩碼視聽匹配損失函數(shù),用來約束發(fā)聲物和音頻特征在特征空間中保持相似分布。

部分實驗結果

光說不練假把式,研究人員進行了廣泛實驗。

首先,將視聽分割與相關任務的6種方法進行了比較,研究人員選取了聲源定位(SSL)、視頻物體分割(VOS)、顯著性物體檢測(SOD)任務上的各兩個SOTA方法。

實驗結果表明,視聽分割在多個指標下取得了最佳結果。

△和來自相關任務方法進行視聽分割的對比結果

其次,研究人員進行了一系列消融實驗,驗證出,利用TPAVI模塊,單聲源和多聲源設置下采用兩種backbone的視聽分割模型都能得到更大的提升。

△引入音頻的TPAVI模塊,可以更好地處理物體的形狀細節(jié)(左),并且有助于分割出正確的發(fā)聲物(右)

對于新任務的視聽匹配損失函數(shù),實驗還驗證了其有效性。

One More Thing

文中還提到,AVSBench數(shù)據(jù)集不僅可以用于所提出的視聽分割模型的訓練、測試,其也可以用于驗證聲源定位模型

研究人員在項目主頁上表示,正在準備比AVSBench大10倍的AVSBench-v2

一些視頻的分割demo也上傳在主頁上。感興趣的話可以前往查看~

論文地址:

https://arxiv.org/abs/2207.05042

GitHub地址:

https://github.com/OpenNLPLab/AVSBench

項目主頁:

https://opennlplab.github.io/AVSBench/

責任編輯:張燕妮 來源: 量子位
相關推薦

2018-03-07 22:08:16

游戲語音

2017-12-22 21:06:55

語音視頻SDK聽聲辨位

2021-01-29 11:01:22

物聯(lián)網(wǎng)人工智能智能家居

2016-01-11 11:12:27

阿里騰訊IM聊天

2017-11-06 17:52:49

物聯(lián)網(wǎng)

2015-07-29 15:47:49

2022-12-06 08:45:33

數(shù)據(jù)庫OS產品

2022-03-02 14:31:00

微信來電移動應用

2015-11-02 09:38:22

WiFiWiFi技術識別

2020-08-17 08:22:45

物聯(lián)網(wǎng)專業(yè)技術

2020-07-29 10:27:08

人工智能語音識別技術

2018-10-09 09:37:59

物聯(lián)網(wǎng)聯(lián)網(wǎng)設備IOT

2023-04-25 13:54:07

游戲AI

2017-12-29 10:11:58

物聯(lián)網(wǎng)

2019-09-27 17:36:54

物聯(lián)網(wǎng)技術大數(shù)據(jù)

2019-10-10 05:00:49

物聯(lián)網(wǎng)聯(lián)網(wǎng)技術IOT

2020-08-06 07:00:00

人工智能深度學習技術

2022-09-03 13:35:39

機器視覺AI人工智能

2023-05-12 14:10:48

商業(yè)建筑物聯(lián)網(wǎng)

2020-08-21 13:55:56

微軟開源PyTorch
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 午夜精品91 | 日本在线看片 | 日日操操 | 国产精品一区视频 | 国产精品久久久久一区二区三区 | 激情毛片| 亚洲三级在线观看 | 一区二区日本 | 毛片网站在线观看视频 | 北条麻妃一区二区三区在线视频 | 在线视频一区二区三区 | 国产精品色 | 日本中出视频 | 免费观看的av | 久草网视频 | 久久九九网站 | 欧美久久一区 | 日韩欧美中文 | 欧美久久一区 | 一级全黄少妇性色生活免费看 | 久草视频在线播放 | 日韩一区二区三区在线 | 亚洲精品二区 | 日韩中文欧美 | 一区二区三区国产视频 | 天天插日日操 | 久久精品国产一区二区三区 | 日韩中文字幕在线不卡 | 久久久久久毛片免费观看 | 国产一二三视频在线观看 | 成年网站在线观看 | 日韩成人精品视频 | 成人在线精品视频 | 一级日韩 | 国产日韩视频 | 草久久| 欧美午夜一区二区三区免费大片 | 精品国产不卡一区二区三区 | 欧美日韩国产在线 | 久久久久一区二区三区四区 | 国产成人精品区一区二区不卡 |