成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

解鎖通用聽覺人工智能!清華電子系聯(lián)合火山語音,開源全新認(rèn)知導(dǎo)向聽覺大語言模型

人工智能 新聞
清華大學(xué)聯(lián)合字節(jié)火山語音團(tuán)隊(duì)提出了一種全新的「聽覺」大語言模型——SALMONN。不僅能夠感知和理解各種類型的音頻輸入,而且還涌現(xiàn)出了多語言和跨模態(tài)推理等高級能力。

日前,清華大學(xué)電子工程系與火山語音團(tuán)隊(duì)攜手合作,推出認(rèn)知導(dǎo)向的開源聽覺大語言模型SALMONN (Speech Audio Language Music Open Neural Network)。

圖片

大語言模型 SALMONN

相較于僅僅支持語音輸入或非語音音頻輸入的其他大模型,SALMONN對語音、音頻事件、音樂等各類音頻輸入都具有感知和理解能力,相當(dāng)于給大語言模型「加了個耳朵」,從而涌現(xiàn)出多語言和跨模態(tài)推理等高級能力。

(注意:本文中涌現(xiàn)能力是指模型訓(xùn)練中沒有學(xué)習(xí)過的跨模態(tài)能力。)

具體來說,通過給Vicuna 13B大語言模型增加一個基于Whisper Encoder的通用音頻編碼器,并使用一個融合器對齊音頻和文本模態(tài),SALMONN模型就對音頻模態(tài)具有了直接感知,不再是「缸中之腦」。

與先使用API調(diào)用「ToolFormer」,將語音或非語音音頻輸入轉(zhuǎn)為文字,再將文字輸入大語言模型的API路線相比,SALMONN可以直接從物理世界獲取知識,并對一些復(fù)雜的音頻場景涌現(xiàn)出完整的理解能力。

此外與傳統(tǒng)的語音識別、音頻字幕生成等語音和音頻處理任務(wù)相比,SALMONN利用了大語言模型從海量文本中學(xué)習(xí)得到的常識和認(rèn)知能力,實(shí)現(xiàn)了一種認(rèn)知導(dǎo)向的音頻感知,大幅提高了模型的通用性和任務(wù)的豐富性;另外SALMONN 能夠較為準(zhǔn)確地聽從使用者的文本指令,甚至語音指令。

由于該模型只使用了基于文本指令的訓(xùn)練數(shù)據(jù),因此聽從語音指令也是一種跨模態(tài)的涌現(xiàn)能力。

Github倉庫:https://github.com/bytedance/SALMONN/

Demo鏈接:https://bytedance.github.io/SALMONN/

總體而言,目前SALMONN能夠勝任英語語音識別、英語到中文的語音翻譯、情感識別、音頻字幕生成、音樂描述等重要的語音和音頻任務(wù),同時又涌現(xiàn)出多種在模型訓(xùn)練中沒有專門學(xué)習(xí)過的多語言和跨模態(tài)能力,涵蓋非英語語音識別、英語到(中文以外)其他語言的語音翻譯、對語音內(nèi)容的摘要和關(guān)鍵詞提取、基于音頻的故事生成、音頻問答、語音和音頻聯(lián)合推理等任務(wù)。

對此,研究團(tuán)隊(duì)將上述任務(wù)依據(jù)難易程度分為三類,并一一提出了Demo進(jìn)行展現(xiàn),它們分別是:

- 模型訓(xùn)練中學(xué)習(xí)過的任務(wù)

- 模型訓(xùn)練中沒有學(xué)習(xí)過,但大語言模型能夠基于文本輸入完成的任務(wù)

- 模型訓(xùn)練中沒有學(xué)習(xí)過,需要直接感知音視頻的多模態(tài)大模型才能完成的任務(wù)

第一類:模型訓(xùn)練中學(xué)習(xí)過的任務(wù)

語音識別(Automatic Speech Recognition)

上述語音中的英文語句:But I was also stumbling because I couldn’t look away from these things. (中文翻譯為:我也曾跌跌撞撞,因?yàn)槲覠o法將目光從這些東西上移開。)

音頻字幕生成(Audio Captioning)

SALMONN輸出的中文翻譯為:音效包括槍聲、爆炸聲和喊叫聲。音效質(zhì)量高,混音效果好,營造出逼真、身臨其境的音頻體驗(yàn)。對話清晰易懂,在激烈的戰(zhàn)斗場面中,角色們相互呼喊和交流。音樂也有,但沒有音效那么突出,增加了場景的整體氛圍。

音樂描述(Music Descrption)

SALMONN輸出的中文翻譯為:音樂是輕快歡快的曲調(diào),節(jié)奏穩(wěn)定。它是在鋼琴上演奏的,旋律簡單、朗朗上口。

情感識別(Emotion Recognition)

SALMONN輸出的中文翻譯為:說話人的情緒是失望的。

第二類:模型訓(xùn)練中沒有學(xué)習(xí)過但大語言模型能夠基于文本輸入完成的任務(wù)

英語到其他語言的語音翻譯,是一種多語言的涌現(xiàn)能力

語音中的英文語句:But I was also stumbling because I couldn’t look away from these things.

SALMONN的德語輸出:Ich stolperte auch, weil ich nicht aus den Dingen heraussehen konnte. (中文翻譯為:我也因?yàn)榭床磺鍠|西而跌跌撞撞。)

語音關(guān)鍵詞提取,是一種涌現(xiàn)能力

語音中的英文語句:He tells us that at this festive season of the year with Christmas and roast beef looming before us similes drawn from eating and its results occur most readily to the mind. (中文翻譯為:他告訴我們,在這個圣誕節(jié)和烤牛肉迫在眉睫的節(jié)日里,人們腦海中最容易浮現(xiàn)出從飲食及其結(jié)果中得出的比喻)

SALMONN輸出的關(guān)鍵詞:festive season(佳節(jié))、Christmas(圣誕節(jié))、roast beef(烤牛肉)

語音問答是一種涌現(xiàn)能力

語音中的英文語句:How a rocket engine works?(中文翻譯為:火箭發(fā)動機(jī)是如何工作的?)

SALMONN 輸出的中文翻譯為:火箭發(fā)動機(jī)的工作原理是在燃燒室中燃燒氫氣或煤油等燃料,產(chǎn)生的熱氣通過噴嘴噴出。噴嘴的形狀可以將氣體引向特定的方向,產(chǎn)生推力推動火箭前進(jìn)。

燃料通常與液氧等氧化劑混合,發(fā)生化學(xué)反應(yīng),以熱量和壓力的形式釋放出大量能量。燃燒過程產(chǎn)生的熱量使燃料汽化,產(chǎn)生的壓力將氣體推出發(fā)動機(jī)。

燃燒過程中產(chǎn)生的熱氣隨后被導(dǎo)入噴嘴,噴嘴的形狀類似錐體。噴嘴的作用是使氣體膨脹,從而提高氣體的速度,形成高速氣體射流,產(chǎn)生推力。

火箭發(fā)動機(jī)產(chǎn)生的推力推動火箭前進(jìn),使其擺脫地球引力,在太空中飛行。火箭發(fā)動機(jī)的具體設(shè)計(jì),包括使用的燃料、噴嘴的形狀和發(fā)動機(jī)的大小,將決定產(chǎn)生推力的大小和火箭飛行的具體特點(diǎn)。

第三類:模型訓(xùn)練中沒有學(xué)習(xí)過但需要直接感知音視頻的多模態(tài)大模型才能完成的任務(wù)

基于音頻的故事生成

音頻描述:Rustling occurs, ducks quack and water splashes, followed by an adult female and adult male speaking and duck calls being blown. (中文翻譯為:發(fā)出沙沙聲,鴨子嘎嘎叫,水花四濺,隨后成年男性和成年女性說話,鴨子發(fā)出叫聲)

SALMONN輸出的故事的中文翻譯為:陽光明媚,鳥語花香,一群孩子在樹林里散步。他們正在尋寶,決心盡可能多地找到清單上的物品。

走著走著,他們聽到附近的池塘里傳來一陣奇怪的聲音。聽起來像是鴨子在嘎嘎叫,但聲音更大,也更持久。孩子們急忙跑到池塘邊去調(diào)查。

當(dāng)他們走近池塘?xí)r,看到了他們從未見過的東西。一只巨大的鴨子正坐在池塘邊,大聲地叫著。這只鴨子有一輛汽車那么大,叫聲響亮,幾英里外都能聽到。

孩子們看到這只巨型鴨子都驚呆了。他們以前從未見過這樣的東西。他們慢慢靠近鴨子,盡量不驚動它。

當(dāng)他們走近時,鴨子轉(zhuǎn)過身來對他們說話。「你們好,孩子們,」用低沉洪亮的聲音說。「什么風(fēng)把你們吹到我的池塘來了?”」.......

帶語音指令的音頻推理

語音中的英文語句:Can you guess where I am right now?(中文翻譯為:你能猜出我現(xiàn)在在哪里嗎?)

SALMONN輸出的答案的中文翻譯:當(dāng)然,我可以猜猜你現(xiàn)在在哪里。根據(jù)背景的槍聲,聽起來你可能身處戰(zhàn)區(qū)或危險(xiǎn)地區(qū)。槍聲符合自動武器的聲音,如 AK-47 或 M-16。此外,背景中的爆炸聲表明,您可能正身處使用炸彈或其他爆炸裝置的地點(diǎn)。

在沒有更多信息的情況下,很難說得更具體,但根據(jù)槍聲和爆炸聲,你有可能身處戰(zhàn)區(qū)或戰(zhàn)亂國家。也有可能是在犯罪活動或暴力活動猖獗的地方。

希望以上內(nèi)容對您有所幫助,如果您還有其他問題或需要我提供其他幫助,請告訴我。

整體來看,SALMONN 在三類不同難度的任務(wù)上都有較好表現(xiàn),并涌現(xiàn)出驚艷的音頻理解與推理能力,成功打通了音頻與文本模態(tài),初步展現(xiàn)出一定的通用聽覺人工智能。研究團(tuán)隊(duì)將在近期開源 SALMONN  v1.0 模型及相關(guān)代碼,并將在未來持續(xù)更新 SALMONN,使大模型能夠更好地感知多模態(tài)物理世界,為建設(shè)開源的通用人工智能添磚加瓦。歡迎大家持續(xù)關(guān)注!

團(tuán)隊(duì)介紹

清華大學(xué)電子工程系多媒體信號與智能信息處理實(shí)驗(yàn)室在醫(yī)工交叉和語音處理領(lǐng)域有豐富的研究積淀。實(shí)驗(yàn)室的張超研究小組成立于2022年,專注于多模態(tài)語音語言處理和計(jì)算認(rèn)知神經(jīng)科學(xué)研究。

火山語音團(tuán)隊(duì),面向字節(jié)跳動內(nèi)部各業(yè)務(wù)線,提供優(yōu)質(zhì)的語音AI技術(shù)能力以及全棧語音產(chǎn)品解決方案,并通過火山引擎對外提供服務(wù)。自 2017 年成立以來,團(tuán)隊(duì)專注研發(fā)行業(yè)領(lǐng)先的 AI 智能語音技術(shù),不斷探索AI 與業(yè)務(wù)場景的高效結(jié)合,以實(shí)現(xiàn)更大的用戶價(jià)值。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2022-07-31 23:46:57

人工智能語言模型感知力

2021-01-19 11:07:19

深度學(xué)習(xí)神經(jīng)+符號知識圖譜

2022-06-20 11:05:58

通用人工智能機(jī)器人

2009-07-10 09:58:08

Swing控件聽覺反饋

2022-12-05 09:42:21

語音人工智能程序

2022-07-20 10:22:03

人工智能機(jī)器學(xué)習(xí)

2021-05-12 09:37:06

小米MIUI12.5

2022-12-01 07:03:22

語音識別人工智能技術(shù)

2024-01-16 10:22:23

人工智能大型語言模GPT 4

2021-11-25 08:00:00

人工智能編程語言開發(fā)

2022-12-05 07:17:14

人工智能語音合成

2021-08-22 15:09:02

人工智能機(jī)器技術(shù)

2022-07-04 15:29:59

人工智能機(jī)器計(jì)算機(jī)

2024-01-16 10:14:25

2022-05-16 14:22:54

人工智能通信監(jiān)聽

2022-01-10 08:00:43

認(rèn)知智能AI

2024-12-17 13:55:21

2020-05-12 15:00:51

教育人工智能學(xué)習(xí)

2023-07-06 10:15:09

開源語言模型AI生成式AI

2022-12-15 07:35:04

人工智能語音應(yīng)用場景
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 久久精品亚洲精品国产欧美 | 亚洲图片视频一区 | 欧美精品在线播放 | 在线观看国产 | 毛片毛片毛片毛片毛片 | 欧美日韩精品一区二区天天拍 | 羞羞视频在线网站观看 | 免费一区 | 国产精品欧美一区二区 | 拍真实国产伦偷精品 | 日韩视频免费看 | 日韩免费一区二区 | 四虎精品在线 | 欧美自拍另类 | av网站免费在线观看 | 看av电影 | 一区在线观看 | 国产精品一区二区三区在线 | 日韩一区二区三区视频 | 99久久精品免费看国产免费软件 | 久久精品国产亚洲 | 亚洲精品乱码久久久久久按摩观 | 国产精品不卡视频 | 亚洲在线看| 国产一区二区精品在线 | 午夜理伦三级理论三级在线观看 | 一级毛片成人免费看a | 国产午夜在线观看 | 亚洲视频一区在线 | 久操亚洲| a级大片免费观看 | 欧美精品在线一区二区三区 | 免费观看的av毛片的网站 | 国产免费一区二区三区 | 国产福利91精品一区二区三区 | 日本精品一区二区三区在线观看 | 国产激情视频网 | 日韩精品一区二区三区在线播放 | 精品一区二区免费视频 | 国产精品自拍一区 | 国产一级片 |