成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Stability AI開源47秒音頻生成模型,蟲鳴鳥叫、搖滾、鼓點都能生成

發布于 2024-6-7 12:55
瀏覽
0收藏

音頻生成領域又有好消息:剛剛,Stability AI 宣布推出開放模型 Stable Audio Open,該模型能夠生成高質量的音頻數據。

Stability AI開源47秒音頻生成模型,蟲鳴鳥叫、搖滾、鼓點都能生成-AI.x社區

項目地址:https://huggingface.co/stabilityai/stable-audio-open-1.0


與 Stability AI 的商業 Stable Audio 產品(可生成長達三分鐘的更長、連貫的音樂曲目)不同,Stable Audio Open 可以通過簡單的文本提示生成長達 47 秒的高質量音頻數據。


經過專業訓練后,這個模型已經非常適合創建鼓點、樂器 riffs、環境音、擬聲錄音和其他用于音樂制作和聲音設計的音頻樣本。雖然它可以生成簡短的音樂片段,但它并未針對完整的歌曲、旋律或人聲進行優化。


Stable Audio Open 的主要優勢在于,用戶可以根據自己的自定義音頻數據對模型進行微調。


比如,下方是鼓手根據自己的鼓聲錄音樣本進行微調生成的新節拍:


warm_arpeggios_on_an_analog_synthesizer_with_a_gradually_ri


生成森林中鳥兒唱歌的音頻:


【blackbird】tmp_gradio_8cc6bd4d9dd695112ffb021c7f3c9539e74


再生成一段「動次打次」的搖滾樂:


【搖滾】rock_beat_played_in_a_treated_studio_session_drummi


訓練細節與數據集


Stable Audio Open 是基于 Transformer 架構的潛在擴散模型,由三個組件組成:將波形壓縮為可管理序列長度的自編碼器、用于文本調節的基于 T5 的文本嵌入,以及在自編碼器的潛在空間中運行的基于 transformer 的擴散 (DiT) 模型。


隨著包括 Stability 在內的音樂生成器越來越受歡迎,版權以及一些生成器創建者可能濫用版權的方式正成為人們關注的焦點。


Stability AI 對本次模型的訓練采取了負責任的態度,在文生圖模型訓練上的「版權問題」曾讓這家公司深陷爭議之中。因此,Stable Audio Open 使用來自 FreeSound 和 Free Music Archive 的音頻數據進行訓練,確保未經許可未使用任何受版權保護或專有的材料。


數據集共包含 486492 個音頻記錄,其中 472618 個來自 Freesound,13874 個來自 Free Music Archive 。所有音頻文件均為 CC0、CC BY 或 CC Sampling+ 許可。這些數據用于訓練自編碼器和 DiT,此外研究者使用了公開的預訓練 T5 模型(t5-base)進行文本調節。


在開始訓練之前,研究者進行了深入分析,以確保訓練數據中沒有未經授權的版權音樂。


他們首先使用基于 AudioSet 類別的 PANNs 音樂分類器識別了 FreeSound 中的音樂樣本。被識別的音樂樣本中至少有 30 秒的音樂被預測為屬于音樂相關類別,閾值為 0.15(PANNs 輸出概率范圍為 0 至 1)。


識別出的音樂樣本被發送到 Audible Magic(一家值得信賴的內容檢測公司)的識別服務,以確保不存在受版權保護的音樂。Audible Magic 標記了疑似受版權保護的音樂,這些會被刪除,然后再對數據集進行訓練。大部分被刪除的內容都是現場錄音,其中的背景音樂都是受版權保護的。經過上述處理后,研究者得到了 266324 個 CC0、194840 個 CC-BY 和 11454 個 CC 采樣 + 音頻記錄。


最后要確保的是, FMA 子集中不存在受版權保護的內容。在這種情況下,程序略有不同,因為 FMA 子集中包含音樂信號。研究者根據大型版權音樂數據庫進行元數據搜索,并標記任何可能匹配的內容,被標記的內容會由人工逐一審核。這一過程之后,最終獲得了 8967 首 CC-BY 和 4907 首 CC0 音樂。


局限性


Stable Audio Open 1.0 作為一個音頻生成模型,也有一些局限性,包括:


  • 無法生成逼真的聲音;
  • 使用英語描述進行訓練,在其他語言中的表現不會那么好;
  • 不能適用于所有音樂風格和文化,訓練數據缺乏多樣性,模型可能無法在現有的各種音樂流派和聲音效果上表現得同樣好;
  • 有時很難評估哪種類型的文本描述可以提供最佳的生成效果,可能需要進行工程設計才能獲得令人滿意的結果。


值得注意的是,Stable Audio Open 是一個開放模型,但是從技術上講它不是開源的。Stable Audio Open 并未使用實際的開放源代碼促進會 (OSI) 批準的許可證,而是根據 Stability AI 非商業研究社區協議許可證向用戶提供。 


與此同時,Stable Audio Open 也不能用于商業用途;服務條款禁止這樣做。而且,它在不同音樂風格和文化中的表現并不一樣好,或者在使用英語以外的語言描述時也表現不佳。


Stability AI 將此歸咎于訓練數據。模型描述中寫道:「數據源可能缺乏多樣性,數據集中并非所有文化都具有同等代表性。模型生成的樣本將反映訓練數據的偏差。」


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/UHkq4BysXVs4Ta8KABW45w??

標簽
已于2024-6-7 12:55:25修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲高清久久 | 国产a区| 日本成人中文字幕在线观看 | 国产一区2区| 一级黄a视频 | 香蕉视频黄色 | 91精品国产综合久久福利软件 | 欧美jizzhd精品欧美巨大免费 | 久久久视 | 天天视频一区二区三区 | 麻豆a级片 | 日韩不卡一二区 | 欧美成人影院在线 | 亚洲天堂999 | 欧美综合在线观看 | www亚洲免费国内精品 | 亚洲精品乱码8久久久久久日本 | 看毛片网站 | 中文欧美日韩 | 亚洲综合久久精品 | 亚洲精久 | 日韩精品一区二区三区中文字幕 | 日韩综合在线 | 欧美性另类 | 国产做a爱片久久毛片 | 色影视 | 国产成人免费视频 | 国产激情一区二区三区 | 亚洲精品一区久久久久久 | 亚洲一区久久久 | 美日韩免费视频 | 毛片黄片 | 欧美激情a∨在线视频播放 成人免费共享视频 | 中文字幕一区二区三区四区 | 久久99精品久久久久久秒播九色 | 日韩电影免费观看中文字幕 | 精品一区二区在线观看 | 国产精品免费一区二区 | 一区二区三区四区五区在线视频 | 婷婷色婷婷| 天天爽综合网 |