成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

10秒生成4分鐘音樂,8GB顯存就能跑!已登Hugging Face趨勢榜

人工智能 新聞
DiffRhythm是一款新型AI音樂生成模型,能在10秒內生成長達4分45秒的完整歌曲,包含人聲和伴奏。它采用簡單高效的全diffusion架構,僅需歌詞和風格提示即可創作,還支持本地部署,最低只需8G顯存。

音樂創作,尤其是完整歌曲的生成,一直是人工智能領域的一大挑戰。

Suno、Udio等商用音樂生成大模型展現出驚人的音樂生成能力。但現有開源的音樂生成模型要么只能生成人聲或伴奏,要么依賴復雜的多階段架構,難以擴展到長音頻生成。

而現在,AI音樂破局時刻到了!

近日,西北工業大學音頻語音與語言處理實驗室(ASLP@NPU)和香港中文大學(深圳)的研究團隊提出了一種名為DiffRhythm(中文名:諦韻)的新型音樂生成AI模型,全diffusion架構,它能夠在短短10秒內生成長達4分45秒的不同風格完整雙軌高保真歌曲,包含人聲和伴奏!

最低僅需8G顯存,可本地部署到消費級顯卡!

圖片

在線Demo: https://huggingface.co/spaces/ASLP-lab/DiffRhythm

Paper: https://arxiv.org/abs/2503.01183

Github: https://github.com/ASLP-lab/DiffRhythm

Hugging Face: https://huggingface.co/ASLP-lab/DiffRhythm-base

這一成果不僅刷新了音樂生成的速度,還大大簡化了生成流程,讓音樂創作變得更加高效和便捷。模型完全采用華為昇騰910B訓練,同時支持N卡。

目前模型和推理代碼全部開源。開源短短幾天位列Hugging Face Space趨勢榜第一和總榜第五,受到眾多網友和音樂愛好者廣泛好評。

圖片

圖片

Hotel-California-as-performed-by-DiffRhythm,新智元,1分鐘

DiffRhythm:簡單、快速、高質量

DiffRhythm 的核心優勢在于它的簡潔性和高效性。在模型方面它摒棄了復雜的多階段架構,采用了一個簡單的基于LLaMA的DiT,只需要歌詞和風格提示即可生成歌曲。

這種非自回歸結構確保了快速的推理速度,相比現有的語言模型方法,DiffRhythm的速度提升顯著,更適合實時應用和用戶交互。在數據方面,僅需音頻與對應歌詞,無需復雜數據處理標注流程,易于scale up到大數據。

圖片

DiffRhythm以歌詞和風格提示輸入,生成44.1kHz采樣率全長立體聲音樂作品(最長4分45秒)。

DiffRhythm由兩個順序訓練的模型組成:1) 變分自編碼器 (VAE),學習音頻波形的緊湊潛在表示,使得分鐘級長音頻建模成為可能;2) DiT 建模 VAE 的潛在空間,通過迭代去噪生成歌曲。

圖片

句級歌詞對齊

在歌曲生成中,歌詞與歌聲的對齊是一個極具挑戰性的問題,可以概括為以下兩個方面:

  1. 時間上的不連續性:歌詞中的句子之間往往存在較長的間隔,這些間隔可能是純音樂部分,導致歌詞與歌聲之間的時間對應關系不連續。
  2. 伴奏的干擾:相同的一個字,在不同歌曲中的伴奏不同,唱法也不同,這使得歌聲的對齊更加復雜。

為了解決這些問題,DiffRhythm 提出了一種句子級對齊機制。具體來說,該機制僅依賴于句子起始時間的標注,通過以下步驟實現歌詞與歌聲的對齊:

  1. 句子分割與音素轉換:首先,將歌詞按照句子分割,并通過 Grapheme-to-Phoneme (G2P) 轉換將每個句子轉換為音素序列。
  2. 初始化潛在序列:創建一個與潛在表示長度相同的序列,并用填充符號(<pad>)初始化。
  3. 對齊音素與潛在表示:根據歌詞句子的起始時間戳,將音素序列映射到潛在表示的對應位置。例如,如果一個句子的起始時間是 10 秒,那么對應的音素序列將被放置在潛在表示的第 10 秒位置。

通過這種方式,DiffRhythm 只需要句子起始時間的標注,即可實現歌詞與歌聲的對齊。

壓縮魯棒VAE

考慮到大量歌曲數據都以壓縮后的MP3格式存在,而高頻細節在壓縮過程中會受到損害,我們采用數據增強來賦予VAE修復功能。

具體來說,VAE以無損FLAC格式數據進行訓練,其中輸入經過MP3壓縮,而重建目標仍然是原始無損數據。通過這種有損到無損的重建過程,VAE學會將從有損壓縮數據中得出的潛在表示解碼回無損音頻信號。

?? 實驗結果

DiffRhythm的表現令人印象深刻。在音頻重建方面,它在無損和有損壓縮條件下都優于現有的基線模型。

圖片

在可視化分析中,可以看到DiffRhythm VAE可以有效修復MP3壓縮損失

圖片

在歌曲生成方面,DiffRhythm的生成歌曲在音質、音樂性和歌詞可理解性上都表現出色,與現有的SongLM模型相比,DiffRhythm的歌詞清晰度更高,推理速度更快。

圖片

未來展望

盡管DiffRhythm已經可以快速生成整首歌曲,但仍有進一步優化的空間。例如,未來可能會通過在訓練中引入隨機掩碼來支持對生成歌曲的特定片段進行編輯。

此外,DiffRhythm 未來可能會引入自然語言條件機制,以實現更精細的風格控制,從而無需依賴音頻參考。

責任編輯:張燕妮 來源: 新智元
相關推薦

2021-01-18 15:24:05

AI 數據人工智能

2012-03-16 16:22:55

筆記本評測

2015-11-23 17:34:33

秒借

2015-08-20 09:13:11

Windows 10內存

2019-08-19 09:10:14

人工智能深度學習技術

2021-07-15 06:43:11

Bash調試腳本

2013-09-13 14:08:01

2022-12-19 10:32:23

算法測量

2020-10-13 18:22:58

DevOps工具開發

2014-08-08 09:30:04

android scrollview

2021-04-23 09:50:41

topLinux命令

2024-12-05 13:50:00

AI大模型

2018-07-30 11:03:08

4GB內存8GB

2024-01-02 09:10:17

k開源數據

2023-03-02 07:47:29

AI技術游戲

2022-01-13 15:20:45

Ubuntu內存Linux

2021-05-28 07:38:20

內存溢出場景

2021-05-17 20:13:50

數倉操作型數據庫

2018-11-28 11:20:53

Python函數式編程編程語言

2021-08-01 21:38:07

網頁點燈網關
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 一区二区三区在线免费观看 | 99av成人精品国语自产拍 | 一区二区三区不卡视频 | 日韩二| 夜夜爆操 | 日本黄色一级视频 | 久久成人国产 | 91精品一区| 久久久久国产精品一区二区 | 日韩在线免费电影 | 成人3d动漫一区二区三区91 | 国产精品久久久久无码av | 国产视频1| 91精品国产乱码久久蜜臀 | 久久久久久久综合色一本 | 欧美国产激情 | 这里精品 | 欧美激情精品久久久久久变态 | 黄色在线观看网站 | 欧美自拍一区 | 视频一区二区在线观看 | av中文字幕在线播放 | 国产探花在线观看视频 | a级黄色网| 天天拍天天操 | 久久国产高清视频 | 欧美在线观看一区 | 国产精品久久久久久吹潮 | 久久精品色欧美aⅴ一区二区 | 久久在看| 欧美精品91 | 成人免费视频观看视频 | 日日日日日日bbbbb视频 | 亚洲国产二区 | 久久久久久久综合 | 欧美阿v | 日韩免费av网站 | 三级特黄特色视频 | 久久这里有精品 | 中文字幕在线视频一区二区三区 | 亚洲欧美一区二区三区国产精品 |