國(guó)產(chǎn)語(yǔ)音對(duì)話大模型來(lái)了：李開(kāi)復(fù)零一萬(wàn)物參與，中英雙語(yǔ)多模態(tài)，開(kāi)源可商用

作者：量子位 2023-09-02 12:49:01

模型的訓(xùn)練一共分為兩個(gè)階段，第一階段訓(xùn)練模態(tài)適配器，凍結(jié)編碼器和大模型，也就是讓它來(lái)學(xué)習(xí)語(yǔ)音和文本對(duì)齊；第二階段凍結(jié)編碼器，訓(xùn)練模態(tài)適配器和大模型，來(lái)學(xué)習(xí)多模態(tài)對(duì)話能力。

首個(gè)中英雙語(yǔ)的語(yǔ)音對(duì)話開(kāi)源大模型來(lái)了！

這幾天，一篇關(guān)于語(yǔ)音-文本多模態(tài)大模型的論文出現(xiàn)在arXiv上，署名公司中出現(xiàn)了李開(kāi)復(fù)旗下大模型公司01.ai——零一萬(wàn)物的名字。

圖片

這篇論文提出了一個(gè)中英雙語(yǔ)可商用對(duì)話模型LLaSM，同時(shí)支持錄音和文本輸入，“混合雙打”也沒(méi)有問(wèn)題：

圖片

論文認(rèn)為，“語(yǔ)音聊天”才是AI與人之間更方便自然的交互方式，而不僅僅是通過(guò)文本輸入。

用上大模型，有網(wǎng)友已經(jīng)在想象“躺著說(shuō)話就能寫(xiě)代碼”的場(chǎng)景了。

圖片

這項(xiàng)研究來(lái)自LinkSoul.AI、北大和零一萬(wàn)物，目前已經(jīng)開(kāi)源，也可以在抱抱臉中直接試玩。

圖片

一起來(lái)看看它的效果如何。

支持文本語(yǔ)音輸入，手機(jī)也可玩

據(jù)研究人員表示，LLaSM是第一個(gè)支持中英文雙語(yǔ)語(yǔ)音-文本多模態(tài)對(duì)話的開(kāi)源可商用對(duì)話模型。

那么，就來(lái)看看它的語(yǔ)音文本輸入和中英雙語(yǔ)能力如何。

首先來(lái)個(gè)中英文化碰撞，讓它用英文評(píng)價(jià)一下李白：

圖片

還可以，正確地說(shuō)出了李白的朝代。如果看不懂英文，讓它直接翻譯成中文也沒(méi)問(wèn)題：

圖片

接下來(lái)再試試中英混合提問(wèn)，在中文里面摻雜一個(gè)“fried food”，模型輸出也不錯(cuò)：

圖片

再試探一下模型，讓它進(jìn)行一些評(píng)價(jià)，看看李白和杜甫哪個(gè)更厲害。

可以看出，模型思考一會(huì)后給出了非常中立的評(píng)價(jià)，也具備大模型的基本“端水常識(shí)”（手動(dòng)狗頭）

圖片

當(dāng)然，不止是電腦，手機(jī)也能玩。

我們?cè)囍谜Z(yǔ)音輸入“給我推薦一個(gè)菜譜吧”：

可以看到模型準(zhǔn)確地輸出了一個(gè)“茄子芝士”的菜譜，就是不知道好不好吃。

不過(guò)，我們?cè)趪L試的時(shí)候也發(fā)現(xiàn)，這個(gè)模型有時(shí)候會(huì)出bug。

例如有時(shí)候它并不能很好地“聽(tīng)懂人話”。

要求輸出中英混合的內(nèi)容，它會(huì)假裝看不懂并輸出英文：

圖片

而當(dāng)中英混合詢問(wèn)想聽(tīng)“Taylor Swift的Red”時(shí)，模型更是直接出大bug，反反復(fù)復(fù)輸出一句話，甚至停不下來(lái)……

圖片

總體來(lái)看，當(dāng)遇到中英混合的提問(wèn)或要求時(shí)，模型輸出能力還是不太行。

不過(guò)分開(kāi)的話，它的中英文表述能力還是不錯(cuò)的。

那么，這樣的模型究竟是怎么實(shí)現(xiàn)的呢？

做了個(gè)什么新模型？

從試玩來(lái)看，LLaSM主要有兩個(gè)特點(diǎn)：一個(gè)是支持中英輸入，另一個(gè)是語(yǔ)音文本雙輸入。

要做到這兩點(diǎn)，分別需要在架構(gòu)和訓(xùn)練數(shù)據(jù)上做一些調(diào)整。

架構(gòu)上，LLaSM將當(dāng)前的語(yǔ)音識(shí)別模型和大語(yǔ)言模型做了個(gè)整合。

LLaSM由三個(gè)部分構(gòu)成，分別包括自動(dòng)語(yǔ)音識(shí)別模型Whisper、模態(tài)適配器和大模型LLaMA。

其中，Whisper負(fù)責(zé)接收原始語(yǔ)音輸入，并輸出語(yǔ)音特征的向量表示；模態(tài)適配器負(fù)責(zé)對(duì)齊語(yǔ)音和文本嵌入；LLaMA則負(fù)責(zé)理解語(yǔ)音和文本輸入的指令，并生成回復(fù)。

圖片

訓(xùn)練數(shù)據(jù)上，研究人員整理出了一個(gè)包含19.9萬(wàn)個(gè)對(duì)話和50.8萬(wàn)個(gè)語(yǔ)音-文本樣本的數(shù)據(jù)集LLaSM-Audio-Instructions。

而在50.8萬(wàn)個(gè)語(yǔ)音-文本樣本中，有8萬(wàn)個(gè)中文語(yǔ)音樣本，42.8萬(wàn)個(gè)英文語(yǔ)音樣本。

研究人員主要基于WizardLM、ShareGPT和GPT-4-LLM等數(shù)據(jù)集，通過(guò)文本轉(zhuǎn)語(yǔ)音技術(shù)，給這些數(shù)據(jù)集生成語(yǔ)音包，同時(shí)過(guò)濾掉無(wú)效對(duì)話。

圖片

這也是目前最大的中英文語(yǔ)音文本指令遵循數(shù)據(jù)集，不過(guò)目前還在整理中，據(jù)研究人員表示，整理完后會(huì)進(jìn)行開(kāi)源。

不過(guò)，論文暫時(shí)沒(méi)有對(duì)比它和其他語(yǔ)音模型或文本模型的輸出效果。

作者介紹

這篇論文來(lái)自LinkSoul.AI、北京大學(xué)和零一萬(wàn)物。

共同一作Yu Shu和Siwei Dong均來(lái)自LinkSoul.AI，此前曾經(jīng)在北京智源人工智能研究院工作。

LinkSoul.AI是一家AI初創(chuàng)公司，之前推出過(guò)首個(gè)開(kāi)源Llama 2的中文語(yǔ)言大模型。

圖片

作為李開(kāi)復(fù)旗下的大模型公司，零一萬(wàn)物也在這次研究中有所貢獻(xiàn)。作者Wenhao Huang的Hugging Face主頁(yè)顯示，他畢業(yè)于復(fù)旦大學(xué)。

圖片

論文地址：
https://arxiv.org/abs/2308.15930

Demo地址：
https://huggingface.co/LinkSoul/LLaSM-Cllama2

責(zé)任編輯：武曉燕來(lái)源：量子位

模型國(guó)產(chǎn)語(yǔ)音適配器

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

國(guó)產(chǎn)語(yǔ)音對(duì)話大模型來(lái)了：李開(kāi)復(fù)零一萬(wàn)物參與，中英雙語(yǔ)多模態(tài)，開(kāi)源可商用

支持文本語(yǔ)音輸入，手機(jī)也可玩

做了個(gè)什么新模型？

作者介紹