成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Meta音頻AI三件套爆火:一句話生成流行音樂&音效,還能高保真壓縮音頻

人工智能
從文本生成音樂、文本生成音效、到高質(zhì)量音頻壓縮,音頻編輯和音頻生成的AI工具全都有,命名為AudioCraft。

Meta突然放大招,直接給一系列音頻AI模型搞了個(gè)“全家桶”。

從文本生成音樂、文本生成音效、到高質(zhì)量音頻壓縮,音頻編輯和音頻生成的AI工具全都有,命名為AudioCraft。

AudioCraft中的所有模型,全部開源。

圖片圖片

無論是生成流行音樂:

文本提示詞:流行舞曲,旋律朗朗上口,熱帶打擊樂和歡快的節(jié)奏,量子位,30秒

還是生成音效:

文本提示詞:吹著風(fēng)吹口哨,量子位,5秒

現(xiàn)在都只需要一句文本就能搞定。

值得一提的是,Meta刻意強(qiáng)調(diào)自己所有AI的訓(xùn)練數(shù)據(jù)都是經(jīng)過授權(quán)、或是從公開渠道獲取的。

有網(wǎng)友聞?dòng)嵹s來嘗試:

這太瘋狂了,剛剛試了一下,生成的聲音效果真不錯(cuò)!

圖片圖片

還有網(wǎng)友調(diào)侃,Meta這是要與OpenAI“劃界限”:

很明顯,Meta試圖將自己與OpenAI區(qū)分開來,“我們不使用沒授權(quán)的數(shù)據(jù)”。

圖片圖片

所以,這個(gè)音頻AI“全家桶”里有些啥,實(shí)際生成編輯效果又如何?

從生成到編輯,音頻AI三件套

AudioCraft是一個(gè)音頻AI開源庫,目前包含MusicGen,AudioGen和EnCodec三個(gè)音頻AI工具。

據(jù)Meta介紹,為了發(fā)布AudioCraft,他們這兩天還特意更新了一版EnCodec模型,讓它的輸出質(zhì)量更高。

具體來說,這三個(gè)模型分別用于文本生成音樂、文本生成音效和音頻壓縮:

  • MusicGen:基于文本輸入生成音樂,使用Meta擁有和專門授權(quán)的音樂進(jìn)行訓(xùn)練
  • AudioGen:基于文本輸入生成音效(雨點(diǎn)聲、狗吠、警笛等),使用公共音效訓(xùn)練
  • EnCodec:壓縮音頻,以較低的音損保持音頻的高質(zhì)量

首先是AudioGen,這是一個(gè)自回歸生成模型。

圖片圖片

AudioGen基于10個(gè)公開的音效數(shù)據(jù)集訓(xùn)練,里面包括狗吠、汽車鳴喇叭或木地板的腳步聲等各種音效。

然后是MusicGen模型,一共包含300M、1.5B、3.3B三個(gè)不同參數(shù)量的自回歸Transformer。

圖片圖片

MusicGen使用了20000小時(shí)的音樂來訓(xùn)練,包含10000條內(nèi)部搜集的高質(zhì)量音軌,以及ShutterStock和Pond5素材庫中的數(shù)據(jù),后兩者的數(shù)據(jù)量分別為2.5萬和36.5萬。

這些音樂數(shù)據(jù)在32kHz下被重新采樣,都配有流派、BPM等基本信息和復(fù)雜一些的文字說明。

最后是EnCodec神經(jīng)音頻編解碼器(neural audio codec)。

編碼器能從要壓縮的音頻信號(hào)中學(xué)習(xí)離散的音頻token;隨后,基于一個(gè)自回歸語言模型,將音頻信號(hào)壓縮到目標(biāo)大小;最后,基于解碼器,就能將壓縮的信號(hào)高保真重建回音頻。

基于這種壓縮效果,音頻能被壓縮到比MP3格式還要小10倍。

圖片圖片

可直接上手試玩

目前這幾個(gè)模型都已經(jīng)開源,框架都是基于PyTorch打造。

圖片圖片

包括MusicGen、AudioGen和EnCodec的論文細(xì)節(jié),可以在GitHub項(xiàng)目中找到:

圖片圖片

不過,訓(xùn)練代碼并非全部開源,目前可以看到只有EnCodec、MusicGEN和Multi Band Diffusion是開源的:

圖片圖片

其中MusicGEN還開啟了Demo試玩,我們之前也測(cè)試過

圖片圖片

不過對(duì)于AudioCraft的發(fā)布,網(wǎng)友們的評(píng)價(jià)也是褒貶不一。

有網(wǎng)友覺得,這樣音頻生成就變得更加大眾化了,所有人都可以上手嘗試:

圖片圖片

但也有網(wǎng)友認(rèn)為,這勢(shì)必導(dǎo)致人類連音頻的真假都區(qū)分不清:

10年后,說不定我們就分辨不清過去的聲音、圖片、視頻了。

圖片圖片

One More Thing

最近,音頻生成AI確實(shí)很火,就連效果都卷起來了。

這兩天,一個(gè)論文和代碼都還在準(zhǔn)備的模型AudioLDM2,剛放出demo就已經(jīng)在網(wǎng)上傳開了來:

圖片圖片

作者Haohe Liu表示,這個(gè)模型在生成音效、音樂和可理解語音三個(gè)領(lǐng)域中均達(dá)到了SOTA。

MusicGEN試玩地址:https://huggingface.co/spaces/facebook/MusicGen

參考鏈接:
[1]https://ai.meta.com/blog/audiocraft-musicgen-audiogen-encodec-generative-ai-audio/
[2]https://github.com/facebookresearch/audiocraft
[3]https://twitter.com/LiuHaohe/status/1686782804518973440
[4]https://news.ycombinator.com/item?id=36972347

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2022-09-30 15:35:43

AI視頻

2023-06-09 08:35:54

2023-05-08 15:44:23

3D數(shù)字人

2022-12-12 13:45:46

模型修圖

2020-11-27 09:57:11

Python代碼PyPy

2015-08-03 10:21:04

設(shè)計(jì)模式表達(dá)

2023-09-05 23:34:52

Kubernetes云原生

2014-12-16 08:58:17

甲骨文Oracle數(shù)據(jù)庫選件

2025-05-12 01:22:00

2010-03-29 11:55:12

無線上網(wǎng)報(bào)錯(cuò)

2024-02-08 09:33:37

蘋果AI

2019-09-05 10:13:28

2024-07-01 07:40:00

2018-01-15 10:45:43

社交網(wǎng)絡(luò)互聯(lián)網(wǎng)巨頭百度

2020-12-16 10:43:44

PythonPyPy代碼

2014-05-07 10:47:51

移動(dòng)金融互聯(lián)網(wǎng)金融GMIC

2023-03-23 18:16:50

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 黄在线免费观看 | 操人网| 国产视频第一页 | 日韩精品亚洲专区在线观看 | 亚洲一区二区精品视频 | 国产99久久精品一区二区永久免费 | 国产不卡一区 | 国产在线一区二区三区 | 国产电影一区二区三区爱妃记 | 99在线免费观看视频 | 欧美一级毛片免费观看 | 欧美精品一区二区在线观看 | 国产视频福利在线观看 | 日韩一区二区三区在线播放 | 日韩一区二区三区视频 | 一级二级三级黄色 | 自拍偷拍视频网 | 亚洲一区 | 一区二区日韩 | 精品久久久久久久久久久久久久 | 国产精品免费小视频 | 久久久久久国产精品 | 日韩精品免费 | 欧洲成人免费视频 | 欧美国产日韩一区二区三区 | 成人三区四区 | 草草视频在线播放 | 超碰地址 | 手机看片在线播放 | 中文字幕免费视频 | 国产精品久久久久久久久久免费看 | 精品视频一区二区三区在线观看 | 精品欧美乱码久久久久久 | 久久久久久亚洲精品 | 久久黄色网 | 一级黄色毛片 | 国产伦精品一区二区三区精品视频 | 国产在线视频一区 | 久久精品一区二区三区四区 | 国产一区二区三区四区三区四 | 亚洲综合一区二区三区 |