成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ACL 2024 | 引領(lǐng)學(xué)術(shù)視聽研究,上海交大、清華大學(xué)、劍橋大學(xué)、上海AILAB聯(lián)合發(fā)布學(xué)術(shù)視聽數(shù)據(jù)集M3AV

人工智能 新聞
開源學(xué)術(shù)演講錄像是一種普遍流行的在線分享學(xué)術(shù)知識的方法。這些視頻包含豐富的多模態(tài)信息,包括演講者的語音、面部表情和身體動作,幻燈片中的文本和圖片,和對應(yīng)的論文文本信息。

本文作者來自上海交通大學(xué),清華大學(xué),劍橋大學(xué)和上海人工智能實驗室。一作陳哲為上海交通大學(xué)博一學(xué)生,師從上海交通大學(xué)人工智能學(xué)院王鈺教授。通訊作者為王鈺教授(主頁:https://yuwangsjtu.github.io/)與清華大學(xué)電子工程系張超教授(主頁:https://mi.eng.cam.ac.uk/~cz277)。

圖片

  • 論文鏈接:https://arxiv.org/abs/2403.14168
  • 項目主頁:https://jack-zc8.github.io/M3AV-dataset-page/
  • 論文標(biāo)題:M3AV: A Multimodal, Multigenre, and Multipurpose Audio-Visual Academic Lecture Dataset

摘要

開源學(xué)術(shù)演講錄像是一種普遍流行的在線分享學(xué)術(shù)知識的方法。這些視頻包含豐富的多模態(tài)信息,包括演講者的語音、面部表情和身體動作,幻燈片中的文本和圖片,和對應(yīng)的論文文本信息。目前很少有數(shù)據(jù)集能夠同時支持多模態(tài)內(nèi)容識別和理解任務(wù),部分原因是缺乏高質(zhì)量的人工標(biāo)注。

圖片

該工作提出了一個新的多模態(tài)、多類型、多用途的視聽學(xué)術(shù)演講數(shù)據(jù)集(M3AV),它包含來自五個來源的近 367 小時的視頻,涵蓋計算機科學(xué)、數(shù)學(xué)、醫(yī)學(xué)和生物學(xué)主題。憑借高質(zhì)量的人工標(biāo)注,特別是高價值的命名實體,數(shù)據(jù)集可以用于多種視聽識別和理解任務(wù)。在上下文語音識別、語音合成以及幻燈片和腳本生成任務(wù)上進行的評估表明,M3AV 的多樣性使其成為一個具有挑戰(zhàn)性的數(shù)據(jù)集。目前該工作已被 ACL 2024 主會接收。

數(shù)據(jù)集信息

M3AV 數(shù)據(jù)集主要由以下幾個部分組成:

1. 帶有復(fù)雜塊的幻燈片,它們將會被按照空間位置關(guān)系進行合并。

2. 口語和書面形式的,包含特殊詞匯以及單詞級時間戳的語音轉(zhuǎn)寫文本。

3. 視頻對應(yīng)的論文文本。

從下表可以看出,M3AV 數(shù)據(jù)集包含最多人工標(biāo)注的幻燈片、語音和論文資源,因此不僅支持多模態(tài)內(nèi)容的識別任務(wù),還支持高級學(xué)術(shù)知識的理解任務(wù)

圖片

同時,M3AV 數(shù)據(jù)集在各方面與其他學(xué)術(shù)數(shù)據(jù)集相比,內(nèi)容較為豐富,同時也是可訪問的資源。

圖片

實驗任務(wù)

M3AV 數(shù)據(jù)集在多模態(tài)感知與理解方面設(shè)計了三個任務(wù),分別是基于上下文的語音識別、自發(fā)風(fēng)格的語音合成、幻燈片與腳本生成。

任務(wù)一:基于上下文的語音識別

一般的端到端模型在稀有詞識別上存在問題。從下表的 AED 和 RNN-T 模型可以看出,稀有詞詞錯率(BWER)與全部詞錯率(WER)相比,增加了兩倍以上。通過使用 TCPGen 利用 OCR 信息來進行基于上下文的語音識別,RNN-T 模型在開發(fā)和測試集上的 BWER 分別有相對 37.8% 和 34.2% 的降低。

圖片

任務(wù)二:自發(fā)風(fēng)格的語音合成

自發(fā)風(fēng)格的語音合成系統(tǒng)迫切地需求真實場景下的語音數(shù)據(jù),以產(chǎn)生更接近自然會話模式的語音。論文作者引入了 MQTTS 作為實驗?zāi)P停梢园l(fā)現(xiàn)與各個預(yù)訓(xùn)練模型相比,MQTTS 的各項評估指標(biāo)最佳。這表明 M3AV 數(shù)據(jù)集中的真實語音可以驅(qū)動 AI 系統(tǒng)模擬出更自然的語音。

圖片

任務(wù)三:幻燈片與腳本生成

幻燈片和腳本生成(SSG)任務(wù)旨在促進 AI 模型理解和重建先進的學(xué)術(shù)知識,從而幫助研究人員處理快速更新迭代的學(xué)術(shù)資料,有效地開展學(xué)術(shù)研究。

從下表可以看出,開源模型(LLaMA-2, InstructBLIP)在從 7B 提升到 13B 時,性能提升有限,落后于閉源模型(GPT-4 和 GPT-4V)。因此,除了提升模型尺寸,論文作者認為還需要有高質(zhì)量的多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)。值得注意的是,先進的多模態(tài)大模型(GPT-4V)已經(jīng)超過了由多個單模態(tài)模型組成的級聯(lián)模型。

圖片

此外,檢索增強生成(RAG)有效提升了模型性能:下表顯示,引入的論文文本同時提升了生成的幻燈片與腳本的質(zhì)量。

圖片

結(jié)論

這篇工作發(fā)布了涵蓋多個學(xué)術(shù)領(lǐng)域的多模態(tài)、多類型、多用途視聽數(shù)據(jù)集(M3AV)。該數(shù)據(jù)集包含人工標(biāo)注的語音轉(zhuǎn)錄、幻燈片和額外提取的論文文本,為評估 AI 模型識別多模態(tài)內(nèi)容和理解學(xué)術(shù)知識的能力提供了基礎(chǔ)。論文作者詳細介紹了創(chuàng)建流程,并對該數(shù)據(jù)集進行了各種分析。此外,他們構(gòu)建了基準(zhǔn)并圍繞數(shù)據(jù)集進行了多項實驗。最終,論文作者發(fā)現(xiàn)現(xiàn)有的模型在感知和理解學(xué)術(shù)演講視頻方面仍有較大的提升空間。

部分標(biāo)注界面

圖片

圖片

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2021-03-16 14:48:42

人臉識別人工智能數(shù)據(jù)

2025-04-23 12:09:25

RL大模型進化

2020-07-23 09:32:50

AI 數(shù)據(jù)人工智能

2025-05-27 15:23:05

智能體訓(xùn)練AI

2025-02-27 13:00:00

2025-03-13 13:10:00

2013-03-22 10:07:33

劍橋大學(xué)大數(shù)據(jù)

2025-06-06 14:25:04

模型自然語言AI

2025-06-13 09:08:00

2025-06-06 14:14:09

AI模型訓(xùn)練

2021-01-12 15:11:01

AI 數(shù)據(jù)人工智能

2025-01-06 12:46:16

模型數(shù)據(jù)訓(xùn)練

2025-01-02 13:50:35

2015-10-16 10:03:36

安卓設(shè)備安全終端安全

2010-12-29 16:59:43

微軟云計算創(chuàng)意產(chǎn)業(yè)

2023-11-05 15:13:38

AI測評

2017-06-30 15:41:19

互聯(lián)網(wǎng)

2025-04-15 09:19:00

模型AI數(shù)據(jù)

2021-01-12 11:06:44

阿里巴巴AI人機交互

2025-05-28 11:43:48

多模態(tài)大模型RBench-V
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 亚洲高清在线免费观看 | 天天夜夜操 | 嫩草视频在线免费观看 | 午夜影院在线观看 | 成人免费一区二区三区视频网站 | 欧美日韩综合视频 | 国产精品福利网 | 四虎影音 | 伊人影院在线观看 | 国产丝袜av | 国产精品视频一 | 在线播放亚洲 | 久久777 | 欧美成人高清视频 | 中文字幕亚洲视频 | 一区二区视频在线观看 | 99精品在线观看 | av官网在线 | 99精品视频免费在线观看 | 91精品免费视频 | 亚洲一区二区三区乱码aⅴ 四虎在线视频 | 一级片网站视频 | 超碰精品在线观看 | 久久久精品一区二区三区四季av | 伊人狠狠操 | 亚洲午夜精品 | 国产在线精品一区二区 | 欧美国产视频 | 国产91丝袜在线播放 | 午夜精品视频 | 成人免费黄视频 | 妖精视频一区二区三区 | 成年人在线视频 | 亚洲精美视频 | 四虎影院一区二区 | 一级片免费在线观看 | 亚洲精品播放 | 欧美国产日韩在线 | 狠狠插狠狠操 | 美女天天操 | 日韩欧美一级精品久久 |