成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

阿里開源R1-Omni,DeepSeek同款RLVR首度結合全模態情感識別,網友:可解釋性+多模態學習=下一代AI

人工智能 新聞
薄列峰團隊首次將RLVR與全模態LLM結合,聚焦的是視覺和音頻模態都提供關鍵作用的情感識別任務。

首次將DeepSeek同款RLVR應用于全模態LLM,含視頻的那種!

眼睛一閉一睜,阿里通義實驗室薄列峰團隊又開卷了,哦是開源,R1-Omni來了。

同樣在杭州,這是在搞什么「開源雙feng」(狗頭保命)

圖片

他們都做了啥?

DeepSeek-R1帶火了RLVR(可驗證獎勵強化學習),之前已有團隊將RLVR應用于圖像-文本多模態LLM,證明其在幾何推理和視覺計數等任務上表現優異。

然鵝,尚未探索將其與包含音頻、動態視覺內容的全模態LLM結合。

薄列峰團隊首次將RLVR與全模態LLM結合,聚焦的是視覺和音頻模態都提供關鍵作用的情感識別任務

團隊實驗發現,模型在三個關鍵方面有顯著提升:

RLVR的引入不僅提高了模型在分布內數據上的整體性能,而且在分布外數據集上也展現出了更強的魯棒性。

更重要的是,提升后的推理能力使得能夠清晰分析在情感識別過程中不同模態所起的作用。

圖片

R1-Omni在X上也吸引了不少網友關注:

非常有趣的論文,我立刻就能預見到它在市場營銷和廣告領域進行情感傾向分析的潛力。

圖片

還有網友表示可解釋性+多模態學習就是下一代AI的方向。

圖片

一起具體來看R1-Omni。

圖片

R1-Omni長啥樣?

在研究方法上,論文首先介紹了DeepSeek同款RLVR和GRPO。

RLVR是一種新的訓練范式,其核心思想是利用驗證函數直接評估輸出,無需像傳統的人類反饋強化學習(RLHF)那樣依賴根據人類偏好訓練的單獨獎勵模型。

給定輸入問題q,策略模型πθ生成響應o,接著使用可驗證獎勵函數R(q,o)對其進行評估,其優化目標為最大化驗證獎勵減去基于KL散度正則化項的結果。

圖片

RLVR在簡化了獎勵機制的同時,確保了其與任務內在的正確性標準保持一致。

GRPO是一種全新的強化學習方法,它與PPO等傳統方法有所不同,PPO依賴于一個評論家模型來評估候選策略的性能,而GRPO直接比較生成的響應組,避免了使用額外的評論家模型,簡化了訓練過程。

利用歸一化評分機制,GRPO鼓勵模型在組內優先選擇獎勵值更高的響應,增強了模型有效區分高質量和低質量輸出的能力。

圖片

遵循DeepSeek-R1中提出的方法,團隊將GRPO與RLVR相結合

R1-Omni模型構建方面,團隊采用了一種受DeepSeek-R1訓練方法啟發的冷啟動策略

在包含232個可解釋多模態(視覺和音頻)情感推理數據集(EMER)樣本和348個手動標注的HumanOmni數據集樣本的組合數據集上對HumanOmni-0.5B(一個專為人為場景理解設計的開源全模態模型)進行微調,使模型具備初步推理能力,了解視覺和音頻線索是如何對情感識別產生作用的。

之后,通過RLVR訓練優化模型,獎勵函數由準確率獎勵和格式獎勵組成,準確性獎勵評估預測情感與真實情感的匹配度,格式獎勵確保模型輸出符合指定的HTML標簽格式。

圖片
圖片

模型輸出預期包含兩部分:一個推理過程,封裝在"<think></think>"標簽內,解釋模型如何整合視覺和音頻線索得出預測;一個最終情感標簽,封裝在"<answer></answer>"標簽內,表示預測的情感。

推理/理解/泛化三方面提升

實驗評估中,研究者將R1-Omni與三個基線模型進行比較:原始的HumanOmni-0.5B、在EMER數據集上進行監督微調的模型EMER-SFT、直接在MAFW和DFEW訓練集上基于HumanOmni-0.5B進行監督微調的模型MAFW-DFEW-SFT

評估指標包括無加權平均召回率(UAR)和加權平均召回率(WAR),這些指標衡量模型在不同情感類別中準確分類情感的能力。

重要的是,所有評估都在開放詞匯情感測試(OV-emotion)協議下進行。在這種設置中,模型不提供預定義的情感類別,而是直接從輸入數據中生成情感標簽,這增加了評估的挑戰性和實際應用價值。

實驗結果表明,R1-Omni在三個關鍵方面優于三個對比模型:推理能力增強、理解能力提高、泛化能力更強

研究者展示了一系列可視化示例,比較R1-Omni與其它三個模型的輸出,R1-Omni提供了更連貫、準確和可解釋的推理過程。

相比之下原始HumanOmni-0.5B和MAFW-DFEW-SFT模型表現出有限的推理能力,而EMER-SFT雖具備一定推理能力但推理過程連貫性較差且容易產生幻覺。

圖片

在MAFW和DFEW數據集上,R1-Omni在UAR和WAR指標上均優于其它模型。

例如在DFEW數據集上,R1-Omni實現了65.83%的UAR和56.27%的WAR,明顯優于MAFW-DFEW-SFT的60.23%UAR和44.39%WAR。

圖片

為了評估模型的泛化能力,研究者在RAVDESS數據集上進行了實驗,該數據集作為分布外(OOD)測試集。

與主要由電影片段組成的MAFW和DFEW數據集不同,RAVDESS數據集特點是專業演員以中性北美口音發表詞匯匹配的陳述,這種數據分布的顯著差異使RAVDESS成為評估模型泛化到未見場景能力的理想基準。

R1-Omni在RAVDESS數據集上相較于MAFW-DFEW-SFT模型有顯著提升,實現了43.00%的UAR和44.69%的 WAR。

圖片

目前,基礎模型HumanOmni-0.5B、冷啟動模型EMER-SFT,還有MAFW-DFEW-SFT以及最終模型R1-Omni已全部開源。

圖片

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-03-12 13:09:16

2025-06-09 08:42:23

2023-03-07 16:48:54

算法可解釋性

2013-07-27 21:28:44

2025-06-04 08:42:00

2025-03-10 08:34:39

2021-05-22 23:01:21

人工智能網絡安全

2022-07-06 11:38:40

人工智能AI

2024-08-26 09:00:00

2024-02-07 09:00:00

2019-08-29 18:07:51

機器學習人工智能

2013-06-27 11:21:17

2024-12-16 07:30:00

2025-02-17 08:32:21

2025-03-27 10:04:36

阿里云通義千問多模態

2025-03-25 10:54:08

2024-05-28 08:00:00

人工智能機器學習

2012-05-17 14:21:45

IPv6

2025-01-03 09:24:10

模型架構論文

2020-09-16 10:28:54

邊緣計算云計算數據中心
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产目拍亚洲精品99久久精品 | 亚洲日日夜夜 | 国产日韩欧美在线 | 国产视频线观看永久免费 | 一区二区三区四区在线视频 | 日韩精品1区2区 | www.青娱乐| 午夜一级大片 | 亚洲午夜av久久乱码 | 欧美最猛黑人xxxⅹ 粉嫩一区二区三区四区公司1 | 久久一区二区三区电影 | 成人美女免费网站视频 | 欧美精品在线一区二区三区 | 羞羞视频在线免费 | 99精品国产一区二区三区 | 一级毛片视频 | 美女中文字幕视频 | 国产高清一区二区 | av一区二区三区在线观看 | 亚洲一区二区三区视频免费观看 | 在线观看黄免费 | 欧美国产视频 | 国产精品成人一区二区三区 | 中文字幕在线视频免费观看 | 又黄又色 | 91在线精品一区二区 | 亚洲国产欧美一区二区三区久久 | 巨大黑人极品videos精品 | 精品粉嫩aⅴ一区二区三区四区 | 成人在线免费视频观看 | 9999精品视频 | 久久av网 | 欧美中文一区 | 国产亚洲一级 | 日韩欧美在线视频 | 成人在线免费视频观看 | 欧美性受xxxx | av免费在线观看网站 | 本道综合精品 | 日韩有码一区 | 亚洲国产成人在线视频 |