成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LLaMA-Omni:專為與大型語言模型(LLMs)進行低延遲、高質量的語音交互而設計 原創 精華

發布于 2024-10-23 19:11
瀏覽
0收藏

大型語言模型(LLMs)如GPT-4等,已經在多個領域展示了其強大的能力,能夠通過對話幫助人們完成各種任務。然而,這些模型在需要語音輸入或輸出的場景中仍面臨顯著的限制。盡管最近的技術進展,如GPT-4o,提升了語音交互的響應速度,但依然存在延遲和質量方面的挑戰。如何實現低延遲且高質量的語音交互,成為開源社區亟待解決的問題。

01、概述 

為了實現與LLMs的語音交互,研究者們嘗試了多種方法,每種方法都有其局限性。最常見的做法是將自動語音識別(ASR)和文本到語音(TTS)模型串聯使用,但這種方法由于逐步處理轉錄文本、生成文本響應和語音響應,往往導致較高的延遲。為了改進這一點,一些研究提出了多模態語音-語言模型,嘗試將語音離散化為標記,并擴展LLM詞匯表以支持語音輸入和輸出。雖然理論上這些模型能夠實現低延遲的語音到語音生成,但實際上仍需生成中間文本以保持高質量,從而犧牲了一部分響應速度。

此外,還有嘗試通過在語義或聲學標記上訓練語言模型,或將語音編碼器添加到LLMs中,以提高語音理解能力。然而,這些方法通常需要大量的數據和計算資源,或者只專注于語音理解,而忽視了生成能力。

02、LLaMA-Omni的突破性創新 

為了突破這些限制,中國科學院大學的研究團隊推出了一種名為LLaMA-Omni的全新模型架構。LLaMA-Omni的設計目標是實現與LLMs的低延遲和高質量的語音交互。其創新之處在于集成了語音編碼器、語音適配器、LLM和流式語音解碼器,能夠實現無縫的語音到語音通信。具體來說,該模型通過直接處理語音輸入繞過了中間文本轉錄的步驟,顯著減少了響應延遲。

LLaMA-Omni:專為與大型語言模型(LLMs)進行低延遲、高質量的語音交互而設計 -AI.x社區

LLaMA-Omni的架構主要包括四個部分:語音編碼器、語音適配器、LLM和語音解碼器。語音編碼器基于Whisper-large-v3,從用戶的語音輸入中提取有意義的表示。接著,這些表示經過語音適配器處理,通過下采樣和兩層感知器映射到LLM的嵌入空間。LLM則基于Llama-3.1-8B-Instruct直接從語音指令生成文本響應。而語音解碼器,一個非自回歸流式Transformer,利用連接時序分類(CTC)預測與語音響應相對應的離散單元,實現了文本和語音的同步生成。

LLaMA-Omni:專為與大型語言模型(LLMs)進行低延遲、高質量的語音交互而設計 -AI.x社區


03、LLaMA-Omni的訓練與評估

LLaMA-Omni采用了兩階段的訓練策略。第一階段關注從語音指令生成文本響應,第二階段則專注于生成語音響應。在推理過程中,LLaMA-Omni能夠同時生成文本和語音響應,語音解碼器在LLM生成文本的同時實時轉換為語音波形。這種方法實現了極低延遲的語音交互,使得用戶在文本完全生成之前即可聽到響應。

為了支持LLaMA-Omni的開發和評估,研究人員創建了InstructS2S-200K數據集。該數據集包含200,000個語音指令、文本響應和語音響應的三元組。構建過程包括使用Llama-3-70B-Instruct重寫文本指令以適應語音,生成適合語音的簡潔響應,并使用CosyVoice-300M-SFT和VITS進行語音合成。該數據集結合了Alpaca的50,000條條目和UltraChat的150,000條條目,涵蓋了廣泛的主題,為LLaMA-Omni在語音交互任務上的訓練提供了堅實基礎。

LLaMA-Omni:專為與大型語言模型(LLMs)進行低延遲、高質量的語音交互而設計 -AI.x社區


04、未來展望 

LLaMA-Omni在InstructS2S-Eval基準測試中的表現優于之前的模型,特別是在語音到文本和語音到語音指令的內容和風格一致性上。模型在語音質量和響應延遲之間提供了良好的權衡,延遲低至226毫秒。與其他模型相比,LLaMA-Omni的文本和語音同時生成能力顯著提高了解碼速度。案例研究顯示,LLaMA-Omni能夠提供更簡潔、更詳細且更有幫助的響應,特別適合語音交互場景。

總之,LLaMA-Omni作為一種創新的AI模型架構,不僅在低延遲和高質量的語音交互方面實現了突破,還通過創建專門的數據集和優化訓練過程,推動了基于LLMs的語音交互技術的發展。其卓越的性能和高效的訓練過程,為未來的語音交互模型的快速開發奠定了基礎。

參考:

  1. ??https://arxiv.org/abs/2409.06666??
  2. ??https://github.com/ictnlp/LLaMA-Omni??


本文轉載自公眾號Halo咯咯  作者:基咯咯

原文鏈接:??https://mp.weixin.qq.com/s/LLMNcrcjsJ47MwsaKeXDLA??


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2024-10-23 19:23:38修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 人人操日日干 | av中文字幕网 | 亚洲精品乱码久久久久久9色 | 视频一区二区三区中文字幕 | 日韩一级| 日本中文字幕日韩精品免费 | 欧美999| 亚洲 一区 | 国产成人精品一区二区三 | 久久久蜜臀国产一区二区 | 天堂一区二区三区 | 亚洲网址在线观看 | 亚洲免费一 | 黄色综合 | 亚洲国产成人精品女人 | 狠狠做六月爱婷婷综合aⅴ 国产精品视频网 | 亚洲国产成人精品久久 | 日本一级淫片免费啪啪3 | 中文字幕在线不卡播放 | 综合五月婷 | 成人免费视频观看 | 欧美亚洲在线视频 | 欧美日韩亚洲二区 | 日韩高清中文字幕 | 二区三区视频 | 精品久久久久久久久久 | 国产精品久久久久久久久图文区 | 狠狠操狠狠干 | 日韩在线不卡 | 91精品国产综合久久久久久 | 超碰电影 | 欧美一级黄色片免费观看 | 国产精品亚洲精品日韩已方 | 亚洲精品乱码久久久久久按摩观 | 国产精品毛片一区二区三区 | 国产乱码精品一区二区三区av | 国产欧美精品区一区二区三区 | 精品国产乱码久久久久久蜜退臀 | 91一区二区三区 | 99爱在线观看 | 亚洲欧美精品在线 |