Stability AI開源47秒音頻生成模型,蟲鳴鳥叫、搖滾、鼓點都能生成
音頻生成領域又有好消息:剛剛,Stability AI 宣布推出開放模型 Stable Audio Open,該模型能夠生成高質量的音頻數據。
項目地址:https://huggingface.co/stabilityai/stable-audio-open-1.0
與 Stability AI 的商業 Stable Audio 產品(可生成長達三分鐘的更長、連貫的音樂曲目)不同,Stable Audio Open 可以通過簡單的文本提示生成長達 47 秒的高質量音頻數據。
經過專業訓練后,這個模型已經非常適合創建鼓點、樂器 riffs、環境音、擬聲錄音和其他用于音樂制作和聲音設計的音頻樣本。雖然它可以生成簡短的音樂片段,但它并未針對完整的歌曲、旋律或人聲進行優化。
Stable Audio Open 的主要優勢在于,用戶可以根據自己的自定義音頻數據對模型進行微調。
比如,下方是鼓手根據自己的鼓聲錄音樣本進行微調生成的新節拍:
warm_arpeggios_on_an_analog_synthesizer_with_a_gradually_ri
生成森林中鳥兒唱歌的音頻:
【blackbird】tmp_gradio_8cc6bd4d9dd695112ffb021c7f3c9539e74
再生成一段「動次打次」的搖滾樂:
【搖滾】rock_beat_played_in_a_treated_studio_session_drummi
訓練細節與數據集
Stable Audio Open 是基于 Transformer 架構的潛在擴散模型,由三個組件組成:將波形壓縮為可管理序列長度的自編碼器、用于文本調節的基于 T5 的文本嵌入,以及在自編碼器的潛在空間中運行的基于 transformer 的擴散 (DiT) 模型。
隨著包括 Stability 在內的音樂生成器越來越受歡迎,版權以及一些生成器創建者可能濫用版權的方式正成為人們關注的焦點。
Stability AI 對本次模型的訓練采取了負責任的態度,在文生圖模型訓練上的「版權問題」曾讓這家公司深陷爭議之中。因此,Stable Audio Open 使用來自 FreeSound 和 Free Music Archive 的音頻數據進行訓練,確保未經許可未使用任何受版權保護或專有的材料。
數據集共包含 486492 個音頻記錄,其中 472618 個來自 Freesound,13874 個來自 Free Music Archive 。所有音頻文件均為 CC0、CC BY 或 CC Sampling+ 許可。這些數據用于訓練自編碼器和 DiT,此外研究者使用了公開的預訓練 T5 模型(t5-base)進行文本調節。
在開始訓練之前,研究者進行了深入分析,以確保訓練數據中沒有未經授權的版權音樂。
他們首先使用基于 AudioSet 類別的 PANNs 音樂分類器識別了 FreeSound 中的音樂樣本。被識別的音樂樣本中至少有 30 秒的音樂被預測為屬于音樂相關類別,閾值為 0.15(PANNs 輸出概率范圍為 0 至 1)。
識別出的音樂樣本被發送到 Audible Magic(一家值得信賴的內容檢測公司)的識別服務,以確保不存在受版權保護的音樂。Audible Magic 標記了疑似受版權保護的音樂,這些會被刪除,然后再對數據集進行訓練。大部分被刪除的內容都是現場錄音,其中的背景音樂都是受版權保護的。經過上述處理后,研究者得到了 266324 個 CC0、194840 個 CC-BY 和 11454 個 CC 采樣 + 音頻記錄。
最后要確保的是, FMA 子集中不存在受版權保護的內容。在這種情況下,程序略有不同,因為 FMA 子集中包含音樂信號。研究者根據大型版權音樂數據庫進行元數據搜索,并標記任何可能匹配的內容,被標記的內容會由人工逐一審核。這一過程之后,最終獲得了 8967 首 CC-BY 和 4907 首 CC0 音樂。
局限性
Stable Audio Open 1.0 作為一個音頻生成模型,也有一些局限性,包括:
- 無法生成逼真的聲音;
- 使用英語描述進行訓練,在其他語言中的表現不會那么好;
- 不能適用于所有音樂風格和文化,訓練數據缺乏多樣性,模型可能無法在現有的各種音樂流派和聲音效果上表現得同樣好;
- 有時很難評估哪種類型的文本描述可以提供最佳的生成效果,可能需要進行工程設計才能獲得令人滿意的結果。
值得注意的是,Stable Audio Open 是一個開放模型,但是從技術上講它不是開源的。Stable Audio Open 并未使用實際的開放源代碼促進會 (OSI) 批準的許可證,而是根據 Stability AI 非商業研究社區協議許可證向用戶提供。
與此同時,Stable Audio Open 也不能用于商業用途;服務條款禁止這樣做。而且,它在不同音樂風格和文化中的表現并不一樣好,或者在使用英語以外的語言描述時也表現不佳。
Stability AI 將此歸咎于訓練數據。模型描述中寫道:「數據源可能缺乏多樣性,數據集中并非所有文化都具有同等代表性。模型生成的樣本將反映訓練數據的偏差。」
本文轉自 機器之心 ,作者:機器之心
