Stability AI開源47秒音頻生成模型，蟲鳴鳥叫、搖滾、鼓點都能生成

輕薄滴假象

發布于 2024-6-7 12:55

瀏覽

0收藏

音頻生成領域又有好消息：剛剛，Stability AI 宣布推出開放模型 Stable Audio Open，該模型能夠生成高質量的音頻數據。

Stability AI開源47秒音頻生成模型，蟲鳴鳥叫、搖滾、鼓點都能生成-AI.x社區

項目地址：https://huggingface.co/stabilityai/stable-audio-open-1.0

與 Stability AI 的商業 Stable Audio 產品（可生成長達三分鐘的更長、連貫的音樂曲目）不同，Stable Audio Open 可以通過簡單的文本提示生成長達 47 秒的高質量音頻數據。

經過專業訓練后，這個模型已經非常適合創建鼓點、樂器 riffs、環境音、擬聲錄音和其他用于音樂制作和聲音設計的音頻樣本。雖然它可以生成簡短的音樂片段，但它并未針對完整的歌曲、旋律或人聲進行優化。

Stable Audio Open 的主要優勢在于，用戶可以根據自己的自定義音頻數據對模型進行微調。

比如，下方是鼓手根據自己的鼓聲錄音樣本進行微調生成的新節拍：

warm_arpeggios_on_an_analog_synthesizer_with_a_gradually_ri

生成森林中鳥兒唱歌的音頻：

【blackbird】tmp_gradio_8cc6bd4d9dd695112ffb021c7f3c9539e74

再生成一段「動次打次」的搖滾樂：

【搖滾】rock_beat_played_in_a_treated_studio_session_drummi

訓練細節與數據集

Stable Audio Open 是基于 Transformer 架構的潛在擴散模型，由三個組件組成：將波形壓縮為可管理序列長度的自編碼器、用于文本調節的基于 T5 的文本嵌入，以及在自編碼器的潛在空間中運行的基于 transformer 的擴散 (DiT) 模型。

隨著包括 Stability 在內的音樂生成器越來越受歡迎，版權以及一些生成器創建者可能濫用版權的方式正成為人們關注的焦點。

Stability AI 對本次模型的訓練采取了負責任的態度，在文生圖模型訓練上的「版權問題」曾讓這家公司深陷爭議之中。因此，Stable Audio Open 使用來自 FreeSound 和 Free Music Archive 的音頻數據進行訓練，確保未經許可未使用任何受版權保護或專有的材料。

數據集共包含 486492 個音頻記錄，其中 472618 個來自 Freesound，13874 個來自 Free Music Archive 。所有音頻文件均為 CC0、CC BY 或 CC Sampling+ 許可。這些數據用于訓練自編碼器和 DiT，此外研究者使用了公開的預訓練 T5 模型（t5-base）進行文本調節。

在開始訓練之前，研究者進行了深入分析，以確保訓練數據中沒有未經授權的版權音樂。

他們首先使用基于 AudioSet 類別的 PANNs 音樂分類器識別了 FreeSound 中的音樂樣本。被識別的音樂樣本中至少有 30 秒的音樂被預測為屬于音樂相關類別，閾值為 0.15（PANNs 輸出概率范圍為 0 至 1）。

識別出的音樂樣本被發送到 Audible Magic（一家值得信賴的內容檢測公司）的識別服務，以確保不存在受版權保護的音樂。Audible Magic 標記了疑似受版權保護的音樂，這些會被刪除，然后再對數據集進行訓練。大部分被刪除的內容都是現場錄音，其中的背景音樂都是受版權保護的。經過上述處理后，研究者得到了 266324 個 CC0、194840 個 CC-BY 和 11454 個 CC 采樣 + 音頻記錄。

最后要確保的是， FMA 子集中不存在受版權保護的內容。在這種情況下，程序略有不同，因為 FMA 子集中包含音樂信號。研究者根據大型版權音樂數據庫進行元數據搜索，并標記任何可能匹配的內容，被標記的內容會由人工逐一審核。這一過程之后，最終獲得了 8967 首 CC-BY 和 4907 首 CC0 音樂。

局限性

Stable Audio Open 1.0 作為一個音頻生成模型，也有一些局限性，包括：