開源模型、單卡訓練，帶你了解爆火的文本指導音頻生成技術AudioLDM

作者：機器之心 2023-02-13 13:58:15

在模型開源第二天，AudioLDM就沖上了 Hugging Face 熱搜榜第一名，并在一周內進入了 Hugging Face 最受喜歡的前 40 名應用榜單。

給出一段文字，人工智能就可以生成音樂，語音，各種音效，甚至是想象的聲音，比如黑洞和激光槍。最近由英國薩里大學和帝國理工學院聯(lián)合推出的AudioLDM，在發(fā)布之后迅速火遍國外，一周內在推特上收獲了近 300 次的轉發(fā)和 1500 次的點贊。在模型開源第二天，AudioLDM就沖上了 Hugging Face 熱搜榜第一名，并在一周內進入了 Hugging Face 最受喜歡的前 40 名應用榜單（共約 25000），也迅速出現了很多基于 AudioLDM 的衍生工作。

AudioLDM 模型有如下幾個亮點：

首個同時可以從文本生成音樂，語音和音效的開源模型。
由學術界開發(fā)，用更少的數據，單個 GPU，以及更小的模型，實現了目前最好的效果。
提出用自監(jiān)督的方式訓練生成模型，使文本指導音頻生成不再受限于（文本-音頻）數據對缺失的問題。
模型在不做額外訓練的情況下（zero-shot），可以實現音頻風格的遷移，音頻缺失填充，和音頻超分辨率。

項目主頁：https://audioldm.github.io/
論文：https://arxiv.org/abs/2301.12503
開源代碼和模型：https://github.com/haoheliu/AudioLDM
Hugging Face Space：https://huggingface.co/spaces/haoheliu/audioldm-text-to-audio-generation

作者首先在一月二十七日發(fā)布了對模型的預告，展示了非常簡單的一個文本：”A music made by []” (一段由【】生成的音樂) 去生成不同聲音的效果。視頻展示了由不同樂器，甚至是蚊子制作的音樂，在推特上迅速受到了廣泛關注，播放次數超過 35.4K 次，被轉發(fā)了 130 余次。

隨后作者公開了論文和一個新的視頻。這個視頻中作者展示了模型的大部分能力，以及和 ChatGPT 合作去生成聲音的效果。AudioLDM 甚至可以生成外太空的聲音。

隨后作者發(fā)布了論文，預訓練的模型，和一個可玩的接口，點燃了推特網友們的熱情，在第二天就迅速登上了 Hugging Face 熱搜榜的第一名：

推特上這篇工作受到了廣泛的關注，業(yè)內學者們紛紛轉發(fā)和評價：

網友們使用 AudioLDM 生成了各種各樣的聲音。

比如有生成二次元貓娘打呼嚕的聲音：

以及鬼魂的聲音：

還有網友合成出了：“木乃伊的聲音，低頻，有一些痛苦的呻吟聲”。

甚至還有網友合成出了：“有旋律的放屁聲”。

不得不感嘆網友們想象力之豐富。

還有網友直接用 AudioLDM 生成了一系列的音樂專輯，有各種不同的風格，包括爵士，放克，電子和古典等類型。一些音樂頗有創(chuàng)造性。

比如 “以宇宙和月球為主題創(chuàng)作一個氛圍音樂”：

以及 “使用未來的聲音創(chuàng)作一個音樂”：

感興趣的讀者可以訪問這個音樂專輯網站：https://www.latent.store/albums

也有網友發(fā)揮想象力，結合圖片生成文字的模型和 AudioLDM，制作了一個圖片指導音效生成的應用。

比如說如果給 AudioLDM 這樣的文本：”A dog running in the water with a frisbee” (一個在水中奔跑并叼著飛盤的狗狗)：

可以生成如下狗狗拍打水面的聲音。

甚至可以還原老照片中的聲音，比如下邊這個圖片：

在獲得 “A man and a woman sitting at a bar”（一個男人和一個女人坐在酒吧中）的文本后，模型可以生成如下的聲音，可以聽到模糊的說話聲，以及背景酒杯碰撞的聲音。

還有網友用 AudioLDM 生成了火焰狗狗的聲音，非常有趣。

作者還制作了一個視頻來展示模型在音效上的生成能力，展示了 AudioLDM 生成樣本接近音效庫的效果。

事實上文本生成音頻只是 AudioLDM 的能力的一部分，AudioLDM 同樣可以實現音色轉換、缺失填補和超分辨率。

下邊這兩張圖展示了（1）打擊樂到氛圍音樂；以及（2）小號到小朋友的歌聲的音色轉換。

下邊是打擊樂到氛圍音樂（漸進的轉換強度）的效果。

小號的聲音轉化為小朋友唱歌的聲音（漸進的轉換強度）的效果。

下邊我們將會展示模型在音頻超分辨率，音頻缺失填充和發(fā)聲材料控制上的效果。由于文章篇幅有限，音頻主要用頻譜圖的方式展示，感興趣的讀者請前往 AudioLDM 的項目主頁查看：https://audioldm.github.io/

在音頻超分上，AudioLDM 的效果也是非常優(yōu)秀，相比之前的超分辨率模型，AudioLDM 是通用的超分辨率模型，不僅限于處理音樂和語音。

在音頻缺失填充上，AudioLDM 可以根據給定文本的不同填入不同的音頻內容，并且在邊界處過渡比較自然。

此外，AudioLDM 還展現出了很強的控制能力，例如對聲學環(huán)境，音樂的情緒和速度，物體材料，音調高低以及先后順序等都有很強的控制能力，感興趣的讀者可以到 AudioLDM 的論文或項目主頁查看。

作者在文章中對 AudioLDM 模型做了主觀打分和客觀指標的評測，結果顯示都可以明顯超過之前最優(yōu)的模型：

其中 AudioGen 為 Facebook 在 2022 年十月提出的模型，使用了十個數據集，64 塊 GPU 和 285 兆的參數量。與之相比，AudioLDM-S 可以用單獨一個數據集，1 塊 GPU 和 181 兆的參數量達到更好的效果。

主觀打分也可以看出 AudioLDM 明顯優(yōu)于之前的方案 DiffSound。那么，AudioLDM 究竟做了哪些改進使得模型有如此優(yōu)秀的性能呢？

首先，為了解決文本 - 音頻數據對數量太少的問題，作者提出了自監(jiān)督的方式去訓練 AudioLDM。

具體來說，在訓練核心模塊 LDMs 的時候，作者使用音頻自身的 embedding 去作為 LDMs 的 condition 信號，整個流程并不涉及文本的使用（如上圖所示）。這種方案基于一對預訓練好的音頻 - 文本對比學習編碼器（CLAP），在 CLAP 原文中 CLAP 展示了很好的泛化能力。AudioLDM 利用了 CLAP 優(yōu)秀的泛化能力，達到了在不需要文本標簽情況下在大規(guī)模音頻數據上的模型訓練。

事實上，作者發(fā)現單使用音頻訓練甚至能比使用音頻 - 文本數據對更好：

作者分析了兩方面原因:（1）文本標注本身難以包括音頻的所有信息，比如聲學環(huán)境，頻率分布等，從而導致文本的 embedding 不能很好表征音頻，（2）文本本身的質量并不完美，例如這樣的一個標注 “Boats: Battleships-5.25 conveyor space”，這種標注即使人類也很難想象具體是什么聲音，就會導致模型訓練的問題。相比之下，使用音頻自身做 LDM 的 condition 可以保證目標音頻和 condition 的強關聯(lián)性，從而達到更好的生成效果。

除此之外，作者采用的 Latent Diffusion 方案使得 Diffusion 模型可以在一個較小的空間中進行計算，從而大大的減少了模型對算力的要求。

在模型訓練和結構上的許多細節(jié)探索也幫助 AudioLDM 獲得了優(yōu)秀的性能。

作者還畫了一個簡單的結構圖來介紹了兩種主要的下游任務：

作者還在不同的模型結構，模型大小，DDIM 采樣步數以及不同 Classifier-free Guidance Scale 做了詳盡的實驗。

在公開模型的同時，作者還公開了他們的生成模型評價體系的代碼庫，以統(tǒng)一今后學術界在這類問題上的評價方法，從而方便論文之間的比較，代碼在如下鏈接中：https://github.com/haoheliu/audioldm_eval

在這項技術爆火的同時，也有網友對技術的安全性提出了質疑：

作者的團隊表示會對模型的使用尤其是商用加以限制，保證模型僅被用來學術交流，并使用合適的 LICENSE 和水印保護，防止 Ethic 方面問題的出現。

作者信息

論文有兩位共同一作：劉濠赫（英國薩里大學）和陳澤華（英國帝國理工學院）。

劉濠赫目前博士就讀于英國薩里大學，師從 Mark D. Plumbley 教授。其開源項目在 GitHub 上收獲了上千star。在各大學術會議上發(fā)表論文二十余篇，并在多項世界機器聲學大賽中獲得前三的名次。在企業(yè)界與微軟，字節(jié)跳動，英國廣播公司等有廣泛的合作，個人主頁: https://www.surrey.ac.uk/people/haohe-liu

陳澤華是英國帝國理工學院在讀博士生，師從 Danilo Mandic 教授，曾在微軟語音合成研究組及京東人工智能實驗室實習，研究興趣涉及生成模型、語音合成、生物電信號生成。

責任編輯：張燕妮來源：機器之心

模型開源

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

開源模型、單卡訓練，帶你了解爆火的文本指導音頻生成技術AudioLDM

作者信息