別只盯著Suno了,騰訊端出的這盤“王炸”可能要改變游戲規則
當大家還在為 Suno 和 Udio 生成的以假亂真的旋律驚嘆時,牌桌上的一個“老玩家”悄無聲息地扔出了一對王炸。
是的,我說的就是騰訊 AI Lab。他們這次拿出的開源音樂大模型 SongGeneration,給我的感覺就像在平靜的湖面投下了一顆深水炸彈。它不僅技術上硬核,而且“開源”這兩個字,直接把格局拉滿了。
作為一個天天泡在各種模型和代碼里的人,我可以負責任地說,這不僅僅是一個新玩具,更像是一份宣言,一份要把音樂AIGC門檻徹底打下來的宣言。
一上來就解決“老大難”:音質、樂感和速度
玩過AI音樂生成的朋友都懂,最頭疼的是什么?
要么是生成的曲子聽著像上個世紀的MIDI音效,音質感人;要么是旋律東拼西湊,毫無“音樂性”可言;要么就是你輸入“一首悲傷的歌”,它給你生成個二人轉,驢唇不對馬嘴。哦,對了,還有那動輒一杯咖啡才出結果的龜速。
SongGeneration 這次的目標非常明確,就是沖著這三大痛點來的。他們用的 LLM-DiT 融合架構,簡單來說,就是讓擅長理解人類語言的大模型(LLM)去當“制作人”,指揮專業的“音頻渲染師”(DiT架構),在保證出活兒快的同時,把音質和樂感死死拿捏住。
聽聽這“黑話”:三秒克隆音色,雙軌獨立出聲
光說不練假把式,我們來看看它的“絕活兒”。
- 音色克隆(零樣本):這個功能簡直是殺手锏。你只需要喂給它一段 3秒 的人聲音頻,它就能“克隆”出這個音色,并用它來演唱一首全新的歌曲。想象一下,你可以用自己的聲音“唱”出搖滾、R&B,甚至是你根本唱不上去的海豚音。對于內容創作者來說,這意味著無限的可能。
- 多軌生成(人聲、伴奏分離):這是專業度的體現。大部分模型生成的是一整個音頻文件,混在一起,后期基本沒法調整。SongGeneration 可以直接輸出獨立的人聲(Vocal)和伴奏(Instrumental)軌道。這意味著什么?你可以單獨為人聲做效果,或者拿掉人聲,直接用這個高質量伴奏進行二次創作。這已經不是“玩具”,而是實實在在的“生產力工具”了。
- 風格跟隨:上傳一段10秒的參考音頻,它就能領會精神,創作出風格、節奏、配器都高度一致的新曲。無論是國風、賽博朋克還是City Pop,它都能學得有模有樣。
核心技術拆解:不只是煉丹,更是巧思
為什么 SongGeneration 能做到這些?我深挖了一下它的技術論文,發現了一些非常有意思的東西:
- 超低比特率的“音樂速記”: 傳統的AI在處理音頻時,就像在讀一本超厚的字典,又慢又累。SongGeneration 首創了一個極低比特率(0.35kbps)的編解碼器。這好比是發明了一套“音樂速記法”,把復雜的音樂信息高度濃縮成最精華的符號。這樣一來,大模型處理起來就輕松多了,速度和效率自然飆升。
- “混合”與“雙軌”的協奏: 為了保證人聲和伴奏既和諧又有細節,它用了一種很聰明的策略。先生成一個“混合軌道”的草稿,確定整首歌的骨架和感覺,保證“人歌合一”。然后,再精細打磨獨立的“雙軌”,把人聲的質感和伴奏的細節給拉滿。一粗一細,配合默契。
- 最懂你的“人類偏好對齊”: 這是最接近“藝術感”的部分。騰訊不僅用海量數據喂它,還教會了它“審美”。通過引入音樂性、歌詞對齊、提示詞一致性這三個維度的偏好數據進行微調,讓模型生成的結果不再是冰冷的算法堆砌,而是更符合人類聽感的“好音樂”。評測里提到,它的歌詞準確度甚至超過了Suno v4.5,這就是偏好對齊的功勞。
開源,才是真正的“核武器”
聊了這么多技術,但我覺得 SongGeneration 最具顛覆性的一點,是它選擇了 開源。
在 Suno、Udio 等閉源商業模型筑起高墻的今天,騰訊選擇把自己的核心技術、模型權重、代碼全部開放,這無疑是在向全球的開發者和創作者發出邀請:“來,一起玩,把它變得更強!”
這意味著:
- 開發者可以基于它定制自己的音樂應用。
- 獨立音樂人可以用它在本地無限生成靈感,而不用擔心高昂的訂閱費。
- 內容平臺可以將其集成到自己的生態里,為用戶提供AIGC配樂功能,還不用擔心版權扯皮。
我的看法: SongGeneration 的出現,就像是 AI 音樂圈的“安卓時刻”。它或許不是第一個做到“能聽”的,但它通過開源,給了所有人一個機會,去構建一個百花齊放的生態。它的目標,可能不只是做一個“Suno殺手”,而是想成為未來無數AI音樂應用的“地基”。
總而言之,騰訊 AI Lab 的 SongGeneration 不僅是一款在技術上能與頂尖選手掰手腕的優秀模型,更用開放的姿態,為整個AI音樂創作領域注入了新的活力。
音樂創作的“大航海時代”,可能才剛剛拉開序幕。
本文轉載自??????墨風如雪小站??????,作者:墨風如雪
