成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<button id="rlukz"><tbody id="rlukz"><label id="rlukz"></label></tbody></button>

<label id="rlukz"></label>

<u id="rlukz"><form id="rlukz"></form></u>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

提前對齊，視頻問答新SOTA！北大全新Video-LLaVA視覺語言大模型，秒懂視頻笑點

作者：新智元 2023-11-23 13:24:54

人工智能新聞

最近，來自北京大學(xué)等機構(gòu)研究者提出了一種全新視覺語言大模型——Video-LLaVA，使得LLM能夠同時接收圖片和視頻為輸入。Video-LlaVA在下游任務(wù)中取得了卓越的性能，并在圖片、視頻的13個基準上達到先進的性能。這個結(jié)果表明，統(tǒng)一LLM的輸入能讓LLM的視覺理解能力提升。

最近，來自北大的研究人員提出了一種全新的視覺語言大模型——Video-LLaVA，為alignment before projection提供了新穎的解決方案。

與以往的視覺語言大模型不同，Video-LLaVA關(guān)注的是提前將圖片和視頻特征綁定到統(tǒng)一個特征空間，使LLM能夠從統(tǒng)一的視覺表示從學(xué)習(xí)模態(tài)的交互。

此外，為了提高計算效率，Video-LLaVA還聯(lián)合了圖片和視頻進行訓(xùn)練和指令微調(diào)。

論文地址：https://arxiv.org/pdf/2310.01852.pdf

GitHub地址：https://github.com/PKU-YuanGroup/Video-LLaVA

Huggingface地址：https://huggingface.co/spaces/LanguageBind/Video-LLaVA

憑借強大的語言理解能力，諸如ChatGPT這類的大語言模型迅速在AI社區(qū)風(fēng)靡。而如何讓大語言模型同時理解圖片和視頻，也成為了大模型背景下的研究多模態(tài)融合的熱點問題。

最近的工作將圖片或視頻通過幾個全連接層映射成類似文本的token，讓LLM涌現(xiàn)理解視覺信號的能力。

然而，圖片和視頻是分開用各自的編碼器，這對LLM學(xué)習(xí)統(tǒng)一的視覺表征帶來了挑戰(zhàn)。并且通過幾個映射層教會LLM同時處理圖片和視頻的性能往往不如視頻專家模型如Video-ChatGPT。

對此，來自北大團隊認為這種現(xiàn)象源于misalignment before projection。因為圖片特征和視頻特征在送入LLM之前就已經(jīng)收斂到各自的特征域空間，這就給LLM學(xué)習(xí)它們之間的交互帶來了挑戰(zhàn)。

類似的現(xiàn)象如misalignment before fusion，也可以在早期的多模態(tài)融合工作被觀察到，如ALBEF。

不同視覺語言大模型范式的比較

方法介紹

Video-LLaVA的方法簡單有效，不需要額外自己預(yù)先訓(xùn)練圖片和視頻模態(tài)的編碼器，而是巧妙地通過LanguageBind編碼器來預(yù)先對齊圖片和視頻特征，形成統(tǒng)一的視覺表征。

具體來說，Video-LLaVA采用的圖片和視頻編碼器通過共享一個語言特征空間，圖像和視頻表示最終融合成一個統(tǒng)一的視覺特征空間，稱之為圖像和視頻的emergent alignment。

因此，Video-LlaVA通過LanguageBind預(yù)先對視覺輸入進行對齊，以減小不同視覺信號表示之間的差距。統(tǒng)一的視覺表征經(jīng)過共享的投影層后，輸入到大語言模型中。

并且Video-LlaVA在訓(xùn)練過程中始終沒有用到視頻圖片成對的數(shù)據(jù)，而是在訓(xùn)練后發(fā)現(xiàn)的LLM會驚人的涌現(xiàn)出同時理解圖片和視頻。

如下圖所示，Video-LlaVA成功的識別出圖片的自由女神像是近景且細膩的，而視頻描述的是多角度的自由女神像，他們是來源于同一個地方。

Video-LLaVA采取兩階段的訓(xùn)練策略：

在視覺理解階段，使用了一個558K個LAION-CC-SBU圖像-文本對。視頻-文本對是從Valley 提供的子集中獲得的，總共有703k對，這些視頻源自WebVid。

在指導(dǎo)微調(diào)階段，團隊從兩個來源收集了指導(dǎo)性數(shù)據(jù)集，包括來自LLaVA的665k個圖像-文本數(shù)據(jù)集，以及從Video-ChatGPT獲得的包含100k個視頻-文本數(shù)據(jù)集。

- 視覺理解階段

在這個階段，模型需要通過一個廣泛的視覺-文本對數(shù)據(jù)集來獲取解讀視覺信號的能力。每個視覺信號對應(yīng)一個回合的對話數(shù)據(jù)。

這個階段的訓(xùn)練目標是原始的自回歸損失，模型通過學(xué)習(xí)基本的視覺理解能力。在此過程中，凍結(jié)模型的其他參數(shù)。

- 指令微調(diào)階段

在這個階段，模型需要根據(jù)不同的指令提供相應(yīng)的回復(fù)。這些指令通常涉及更復(fù)雜的視覺理解任務(wù)，而不僅僅是描述視覺信號。需要注意的是，對話數(shù)據(jù)包含多個回合。

如果涉及多輪對話，輸入數(shù)據(jù)會將所有之前回合的對話與當(dāng)前指令連接起來，作為本回合的輸入。訓(xùn)練目標與前一階段相同。

經(jīng)過這個階段，模型學(xué)會了根據(jù)不同的指令和請求生成相應(yīng)的回復(fù)。在這個階段，大語言模型也參與訓(xùn)練。

實驗

- 視頻理解能力

如表3所示，Video-LLaVA在4個視頻問答數(shù)據(jù)集上全面超過了Video-ChatGPT，并且漲幅相當(dāng)可觀。

- 圖片理解能力

該研究還與InstructBLIP，Otter，mPLUG-owl 等圖片語言大模型在圖片語言理解任務(wù)上進行了比較，結(jié)果如表2所示：

- 預(yù)先對齊視覺輸入

將圖片編碼器替換相同規(guī)模的MAE encoder。定義用MAE encoder是分隔的視覺表示，Languagebind是統(tǒng)一視覺表示（因為預(yù)先對齊了視覺表征），并且將MAE encoder和LanguageBind encoder在13個基準上進行對比，這其中包含9個圖片理解基準和4個視頻理解基準。

對于圖片理解，統(tǒng)一視覺表示展現(xiàn)了強大的性能，它在5個圖片問答數(shù)據(jù)集和4個基準工具箱上全面超過了分隔的視覺表示。

另外，我們注意到統(tǒng)一視覺表示在POPE，MMBench，LLaVA-Bench，MM-Vet這四個基準工具箱上的性能以巨大的優(yōu)勢超過。

這突出了預(yù)先對齊了視覺表征不僅在圖片問答上提升了性能，還在圖片理解的其他方面收益，如減小幻覺，提升OCR能力等。

由于替換圖片編碼器為MAE encoder，視頻特征和圖片特征在LLM初始學(xué)習(xí)視覺表示時不再統(tǒng)一。

在圖6，相比于分隔視覺表示，聯(lián)合視覺表示在4個視頻問答數(shù)據(jù)集上全面提高了性能。

這些結(jié)果展現(xiàn)了預(yù)先對齊視覺表征表示能夠幫助LLM進一步學(xué)習(xí)理解視頻。

同時論文還驗證了無論是對于圖片還是視頻，在聯(lián)合訓(xùn)練中他們能相互受益。

對于圖片理解，Video-LLaVA在無法回答的和數(shù)字上的表現(xiàn)超過了LLaVA-1.5，這意味著聯(lián)合訓(xùn)練視頻使得在圖片上的幻覺問題有所緩解，和對圖片數(shù)字信號的理解能力增強。

相同的趨勢在LLaVA-Bench上被觀察到，Video數(shù)據(jù)顯著提升了LLM在圖片Complex reasoning，Conversation上的表現(xiàn)。

對于視頻理解，團隊在4個Video問答數(shù)據(jù)集上評估。

與沒有圖片參與訓(xùn)練的Video-LLaVA相比，有圖片聯(lián)合訓(xùn)練的模型在4個數(shù)據(jù)集上全面超過。

這些結(jié)果證明了聯(lián)合圖片和視頻一起訓(xùn)練能夠促進LLM理解視覺表示。

責(zé)任編輯：張燕妮來源：新智元

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：中文av在线播放 | 日本网站免费在线观看 | jizz中国日本 | 国产高清免费 | 亚洲综合久久精品 | 有码一区| 暖暖日本在线视频 | h小视频 | 亚洲欧美成人影院 | 国产一级片网站 | 亚洲精品一区国语对白 | 欧美日韩亚洲系列 | 日本三级全黄三级三级三级口周 | 日韩欧美三级电影在线观看 | 日韩欧美国产一区二区三区 | 国产日韩一区 | 网站黄色在线免费观看 | 中文字幕黄色大片 | 亚洲国产精品一区二区久久 | 精品国产乱码久久久久久影片 | 国产在线精品一区 | a级片网站| 亚洲欧美另类在线观看 | 久久av一区二区三区 | 国产精品久久久久久婷婷天堂 | 国产精品区一区二区三区 | 免费黄色片视频 | 欧美日韩大片 | 日本精品一区二区 | 国产一区二区三区视频免费观看 | 一二三四在线视频观看社区 | 日本三级电影在线观看视频 | 罗宾被扒开腿做同人网站 | 午夜视频在线播放 | 国产精品美女久久久免费 | 色网站视频 | 日韩欧美中文字幕在线观看 | 青青草国产在线观看 | 一级特黄色毛片 | 精品视频一区二区三区在线观看 | 国产欧美精品一区二区三区 |

_{<label id="wuuiv"></label>}