成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

現在,用音頻也能指揮GAN生成圖像了

新聞 人工智能
現在,有人“靈機一動”,從CLIP中學習了一種音頻表示方法。用這個方法搭配VQGAN-CLIP,就能實現聲音到圖像的轉變!

[[432735]]

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

 CLIP大家都不陌生吧?

由OpenAI于今年1月份推出,能夠實現文本描述與圖片的精準匹配。

現在,有人“靈機一動”,從CLIP中學習了一種音頻表示方法。

用這個方法搭配VQGAN-CLIP,就能實現聲音到圖像的轉變

比如給它聽4種不同的青蛙叫,它就能生成4種青蛙的照片:

現在,用音頻也能指揮GAN生成圖像了

給它聽不同的教堂鈴聲,就能生成下面這樣的圖像:

現在,用音頻也能指揮GAN生成圖像了

嗯,畫風有點詭異,仿佛看到了還未被完全馴服的AI的內心世界……

不過這是不是還挺有意思?

那同樣都使用VQGAN-CLIP,到底是用文字生成還是用這種音頻表示的生成效果更好呢?

這也有一張對比圖片:

現在,用音頻也能指揮GAN生成圖像了

第一行是VQGAN-CLIP根據文字生成的圖片,第二行是根據音頻。從左到右分別為:街頭音樂、狗叫、小孩玩耍、槍擊聲。

你覺得哪個更像?

目前,關于這個音頻表示方法的研究已被國際聲學、語音與信號處理頂會ICASSP接收。

現在,用音頻也能指揮GAN生成圖像了

所以,一個音頻是怎么和圖像連接起來的呢?

從CLIP中提取音頻表示方法

下面就來看看這個音頻表示方法有何特殊之處。

方法名叫Wav2CLIP,從下圖我們可以看出它和CLIP的模型架構非常像。

現在,用音頻也能指揮GAN生成圖像了

作為視聽(audio-visual)對應模型,Wav2CLIP也有兩個編碼器,一個是凍結圖像編碼器(Frozen Image Encoder),一個是音頻編碼器,分別從視頻中提取圖像和音頻數據進行訓練。

凍結圖像編碼器通過凍結CLIP的圖像編碼器獲得,也就是將CLIP視覺模型的圖結構和權重固化到一起后直接加載運行。

音頻編碼器的預訓練通過提取視頻中CLIP圖像的embedding完成,這也是Wav2CLIP的前置(pretext)任務。

按照CLIP論文的原始方法,研究人員采用對比損失(contrastive loss)進行特征提取,并添加多層感知器(MLP)作為投影層。

交叉投影的損失函數定義如下:

現在,用音頻也能指揮GAN生成圖像了

△ f/g:投影函數,L:對比損失函數

添加MLP層的好處有兩個:

一是有助于穩定提取過程;

二是能夠加強多模態的一致性,因為模型學習到的音頻embedding能通過這個投影層恢復CLIP圖像的embedding。

總的來說,Wav2CLIP的訓練數據為一段視頻,利用CLIP的圖像編碼器(freeze操作)對音頻圖片和音頻進行特征提取,就可以生成“明白”自己應該對應什么圖片的音頻表示。

所以反過來也可以根據這種表示推出圖片,就像我們在開頭看到的“青蛙”和“教堂鈴聲”一樣。

具體方法就是通過把引導VQGAN在潛空間中查找與文本提示匹配的圖像的CLIP embeddings,替換成Wav2CLIP音頻embeddings而完成。

由于Wav2CLIP不同于以往的視聽對應模型,它不需要將視覺模型與聽覺模型結合起來學習,所以訓練方法也就非常輕量級。

再加上Wav2CLIP的embeddings源于CLIP,這意味著它們是與文字對齊的。

所以經過額外層的訓練,Wav2CLIP也能執行零樣本音頻分類、音頻字幕和跨模態檢索(根據文本搜索音頻)等下游任務。

下游任務性能比較

在實驗評估中,Wav2CLIP采用ResNet-18的架構作為音頻編碼器。

首先來看Wav2CLIP在分類和檢索任務上的性能。

現在,用音頻也能指揮GAN生成圖像了
  • 與非SOTA的音頻表示模型相比,Wav2CLIP在幾乎所有分類和檢索任務中的性能都比YamNet和OpenL3略強,不是最強的地方,表現和第一名差別也不大。

具體在檢索任務上,對于音頻檢索(AR),可以看到Wav2CLIP作為幀級特征提取器的性能很有競爭力。

對于跨模態檢索(CMR)任務,Wav2CLIP達到了0.05 MRR,這意味著它能夠從前20個音頻中檢索出正確結果,比OpenL3好不少。

  • 與SOTA模型相比,仍有改進的余地

不過也情有可原,因為對于大多數SOTA模型來說,編碼器在每個任務上都經過專門的訓練或微調,而Wav2CLIP只用凍結特征提取器,并且只訓練簡單的MLP分類器輸出答案,也就是所有任務都采用的是同一個音頻編碼器。

再看在音頻字幕任務中與基線比較的結果:

所有指標都略優于基線。

不過作者表示,這不是一個公平的比較,因為他們的編碼器和解碼器架構都不同,但他們想表明的是:Wav2CLIP很容易適應不同的任務,并且仍然具有合理的性能。

現在,用音頻也能指揮GAN生成圖像了

最后再來看一下Wav2CLIP與OpenL3和YamNet使用不同百分比的訓練樣本進行VGGSound音頻分類的結果(VGGSound包含309種10s的YouTube視頻)。

可以發現Wav2CLIP碾壓OpenL3,和YamNet不相上下——使用10%的訓練數據就能達到相同性能。

不過Wav2CLIP和YamNet預訓練的前置任務非常不同,YamNet需要大量的標記數據,Wav2CLIP在完全沒有人工注釋的情況下完成預訓練,所以Wav2CLIP更易于擴展

現在,用音頻也能指揮GAN生成圖像了

總的來說,這種音頻表示方法進一步訓練的模型在上面這3種任務上都能表現出與同類相媲美或更高的性能。

在未來工作方面,研究人員表示將在Wav2CLIP上嘗試各種專門為多模態數據設計的損失函數和投影層,并探索從共享embedding空間生成音頻,以實現從文本或圖像到音頻的跨模態生成。

論文地址:

https://arxiv.org/abs/2110.11499

開源代碼:

https://github.com/descriptinc/lyrebird-Wav2CLIP

更多音頻轉圖像的demo欣賞:

https://descriptinc.github.io/lyrebird-wav2clip

[[432738]]

 

 

責任編輯:張燕妮 來源: 量子位
相關推薦

2021-07-20 10:16:24

人工智能自然語言技術

2021-04-21 14:58:49

神經網絡AI深度學習

2020-06-15 14:18:05

數據平臺架構

2023-12-18 08:57:22

GAN網絡

2019-07-09 08:44:00

DeepfakeGAN人工智能

2020-03-30 16:00:46

開源技術 趨勢

2025-02-18 13:30:00

2019-06-12 18:30:17

LinuxLutris開源游戲平臺

2024-08-08 17:07:26

2021-03-01 14:05:50

機器學習人工智能計算機

2021-03-24 15:29:48

Python 開發編程語言

2025-02-28 10:05:00

AI生成

2021-12-30 10:11:38

模型人工智能深度學習

2020-04-26 11:40:18

工具開源騰訊

2021-06-28 09:42:51

AI 數據人工智能

2021-12-06 09:35:38

英偉達人工智能軟件

2022-06-14 14:48:09

AI圖像GAN

2020-05-28 10:45:36

機器學習人工智能 PyTorch

2024-06-13 10:17:57

2022-10-24 10:18:04

自然語言計算機視覺
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久精选 | 欧美一级小视频 | 国产精品久久久久久久久久久久久 | 日本一区二区高清视频 | 91精品国产91久久久久久最新 | 涩涩视频在线播放 | 久久av一区二区三区 | 欧美a在线 | 国产一区久久久 | h视频在线免费 | 欧美一区二不卡视频 | www国产成人免费观看视频 | 精品成人一区二区 | 精品1区2区3区4区 | 日韩精品久久一区二区三区 | 日韩中文字幕一区二区 | a级免费观看视频 | 99久久亚洲 | 亚洲视频 欧美视频 | 日本不卡一区二区三区在线观看 | 成人免费毛片片v | www.日韩免费 | 小h片免费观看久久久久 | av看片| 亚洲精品一区二区三区四区高清 | 日韩免费视频一区二区 | 欧美精品一区二区三区在线 | 午夜视频网站 | 久久蜜桃资源一区二区老牛 | 日本aⅴ中文字幕 | 99久久精品一区二区毛片吞精 | 蜜臀网 | 欧美看片 | 午夜视频导航 | 欧美精产国品一二三区 | 国产精品久久久久影院色老大 | 国产精品毛片一区二区三区 | 日韩一区中文字幕 | 亚洲三区在线播放 | 黄色大片免费看 | 日韩毛片播放 |