CV CUDA在微博多媒體內容理解的應用

作者：龐鋒 2023-05-15 07:28:48

隨著機器視覺技術的發展，使用深度學習來理解多媒體內容變成一個熱門的題目，本文會結合實際場景案例來說明，CV CUDA 是怎么應用在微博的多媒體內容理解領域的，以及最終達到的效果是怎么樣的。

一、微博多媒體內容理解的背景介紹

首先和大家分享多媒體內容理解的背景，多媒體內容主要包含視頻，音頻，圖像和文本的理解。在視頻的理解里邊，有很多非常重要也非常基礎的一些工作，比如視頻的 embedding 標簽，視頻的質量，視頻的摘要、封面等等。圖片的理解同樣，圖片的理解也是非常重要的，因為在微博的場景里面，圖片是占比較大的一類數據。主要的工作包含 embedding 標簽，圖片 OCR 了，人臉識別。在這一系列的算法層上面，支持了公司非常多的業務。最基本的，比如個性化推薦內容的審核，物料標簽版權，視頻的指紋，視頻拆條等等一系列的業務。

以上就是微博多媒體內容理解的總體的一個結構。

下面會分 4 塊的技術的內容做詳細說明。

二、視頻摘要（Video Summarization）

1、技術背景

視頻摘要的主要目的是對于一段相對比較長的視頻，采用算法抽取一部分幀，或者一部分連續的幀，也可以是單獨的一幀去表達視頻。使觀看者在看完摘要后能夠大致理解視頻所要表達的主要內容，一般有兩種摘要的方式。

第一種是靜態的摘要。這項技術很早之前就有了，最常見的一個應用就是視頻的靜態封面怎么去抽取，其實就只抽取一幀，這一幀可能會包含了比較豐富的信息。使用戶看了這一幀就能大體知道這個視頻的內容。比如講的打籃球還是踢足球。第二種摘要是動態摘要，從視頻里邊選取一段或者多段連續時間的視頻幀作為摘要，這種可以作為物料的審核或者物料的打標。還有個應用是視頻的動態封面，比如有一些 APP，它的視頻是有這種動態封面的。物料審核主要針對某些涉及政治或者色情的視頻，以及版權侵犯的場景等，可能是需要人工去審核。這種場景人工在審核的時候，如果對于原始的視頻去簡單看一遍，是非常耗時的。先對視頻進行一定程度的濃縮，是可以極大的節省人力的。

2、業界做法

（1）dppLSTM（ECCV 2016）

業界之前比較普遍地做法，第一個是 ECCV 2016 的一個方法，這個方法其實它比較早，但是它特別有代表性。這是一個有監督的方式。首先人工去標注這一幀，是不是比較關鍵的一個幀，以及這一段是不是比較關鍵的一段。

這個模型的輸入是從一個預訓練的模型去抽取每一幀的特征向量，然后供兩個 LSTM 模型在時間維度上建模，它會算一下當前幀與其他幀的關系。再接一層 MLP，這一層主要會預測當前這一幀它的重要程度，當前這一幀它跟其它幀的相似度。最后再有個模塊，基于這兩個分數值，去判斷當前視頻幀的集合里邊哪一些是比較重要，哪一些是適合的。

這個方法比較常規的一種做法，需要人工標注，但人工標注其實非常的難，不同的人去標，可能標準很難去統一。第二就是非常耗人力了，對于視頻，需要一幀一幀的標注。

（2）SUM-GAN（CVPR’ 2017）

右邊這個圖是 2017 年的一個方法，它是一種無監督的方式，非常類似于現在比較火的對比學習的技術。

首先這個模型它分成了四大塊，sLSTM 模塊會給輸入的幀打一個重要性分數。這樣相當于有了每一幀的向量和重要程度。然后，這個模塊會根據重用性的程度把向量去做加權，重新去算向量。生成模塊會根據重用性程度加權之后的向量，再去恢復視頻的原始向量，然后把恢復的向量跟原始的向量做對比，看恢復得好不好，如果恢復得好，就可以說明幀的重要性算對了。反之就沒算對。所以整個過程是一個無監督的過程，因為它是個已知的原始向量去對比的過程。

（3）CSNet（AAAI’ 2018）

視頻處理的時候，對于長視頻這種以遠程的關系建立時間建模，是比較難的一個問題。上面左圖是 AAAI’18 年的論文，它的一個側重點是解決當時間跨度比較長的情況下，怎么去建立幀與幀之間的關系。

首先每一幀向量進來通過 CNN 以后會分成兩塊，第一塊按照它原有的時間順序切成一個一個的段。第二塊在時間維度上，會跳著挑一些幀，比如挑第一幀，第四幀，第八幀，它把 148 放在一塊，相當于把不同時間跨度的幀放在一塊，這有利于對遠程幀的向量的一個感知特性的感知。另外，是類似于 attention 的一個方式。比如這一幀跟第四幀去比一下，跟第八幀去比一下，根據差異性來判斷這一幀的重要性，差異大說明重要，類似的話說明不重要。最后就根據 tension 和原始上傳的向量去做一個融合，最后再去預測分數。這種方法它主要是解決了長視頻的一種建模的方式。

（4）DR-DSN（AAAI’ 2018）

右邊這個圖也是 2018 年的一篇論文，首先它在原來的基礎上能做到無監督。第二個，當時來講，它的效果是比較好的。

跟前面的方法一樣。首先把每一幀都向量化，再做雙向的 LSTM 網絡。它的不同點在于，把整個訓練建模的目標變成了兩個。這樣做有兩個目的，第一個是去度量多樣性，最后摘要出來的這一段必須是比較豐富的內容。第二個是選出來這些關鍵的片段和尾幀是具有代表性的，能夠代表原始的視頻。這樣從比較長的視頻，選出來的片段會具有多樣性，相互之間重復度是比較低的。其次還能代表原來整個長視頻的內容。整個過程不需要任何的監督的信號，所以它是一個無監督方式。

3、微博的工作

前沿的這些做法其實各有各的優點，也各有各的缺點。微博結合我們自己的業務場景，做了我們自己的模型。當然有監督的這種方式我們基本上就不用考慮了，因為太費人力了。無監督的這種方式相對來講，相對于有監督來講，它在效果上會有一些差異，會有所降低。但我們在探索怎么樣可以在不需要人工標注的情況下，還能做到一個比較好的效果。

下面是微博特定場景里面做模型的一些動機。

在微博多媒體的場景里，事先有視頻分類這么一個模型，這個模型它其實抽出的特征是有一定的語義信息的，訓練視頻分類的時候，標簽是一致的。因為微博場景里面有大量的這種數據，所以這個模型是比較容易得到的。當時基于這一點想去虛擬一個弱監督或者無監督的模型。弱監督是因為用視頻分類模型去做監督，所以稱它為弱監督。這個圖就是整個的算法結構。當然這個方法的論文是在 2021 發表的，如果大家感興趣，可以去仔細地去閱讀一下論文。

首先視頻會抽成幀，然后每一幀都會去抽到一個向量。之后會使用一個比較常規的算法。比如用一個鏡頭切割的算法，把視頻切割成 5 個鏡頭或者是 5 個片段，每一段把這一段里的向量做一個平均，得到的向量就代表了這一個片段的特征，這一個代表片段的特征會被放到視頻分類的模型里面去，這個模型的作用就是，輸入是一串向量，輸出是一個向量，并且因為后接一個分類。可以拿分類層的前面特征作為最后的視頻的一個表達向量，這樣多個鏡頭通過上面的分類網絡，就可以得到唯一的向量。

然后 Summary Generation Sub-network 的部分會根據輸入的鏡頭的向量去做選擇，選擇一些鏡頭作為最后的摘要的片段。當然也是采用了潛量的一些做法，用 LSTM 去建立鏡頭與鏡頭之間的關系，同時每一個鏡頭會預測到一個分數，再根據分數去選擇一些片段。

那么最后這個片段選得好不好，用一種什么樣的方式去衡量呢？這里設計了四種的監督方式。

第一種就是選出來這個片段，仍然送到視頻分類網絡里面去，這個時候多個鏡頭向量，最后可以得到一個向量。如果選了這個片段是比較好得到的向量，那么就和所有的片段進去之后，視頻分類網絡得到的向量是一樣的了，或者至少是高度相同的。所以可以把它作為一個基因多信號，在語義層次上，選出的這些片段，能夠跟原來整體視頻的語義層次是相同的。那么選出來的這些片段，它本身需要一些什么樣的約束呢？

第一個，選出來的片段必須有多樣性，這一段與另外一段肯定是不同的。如果是相同的，就不需要去重復地選。第二個，它是具有代表性的，原來視頻的某一段，可以在選出的片段里面找到一段在語義層次上比較相似的。最后一點就是選出的這些片段在時間上應該是有個約束，不應該讓模型在極端的情況下，比如把原來所有的片段都選上，不就是涵蓋了所有的語義嗎？這樣肯定是不需要的，所以加個時間長度的一個約束。最后所有的約束項一共有 4 項，4 項里面后面的三項都是無監督的。第一項是根據視頻分類網絡的監督信號算出來的，所以總體上不需要去額外的標注一些信息。當然視頻分類網絡是有監督的，所以這個方法稱為一個弱監督的方式。

這種方法在做前向推理的時候，上面視頻的分類網絡就可以扔掉了，因為那個只是作為訓練時候的一個監督信號的來源。來了新的視頻之后，就走下面流程，每一幀去抽向量，做鏡頭的切割，再算鏡頭向量，再過我們的摘要網絡。最后可以得到每一個片段的分數，這一個片段里邊我們認為每一幀的分數都是一樣的。

上圖展示了我們跟有監督和無監督的一些方法去做對比，我們作為一個弱監督的方式，但是跟有監督對比也還是有優勢的。跟現有的一些無監督的方式，我們的這種方式性能相對來講會更好一些。圖上下面部分展示了我們當時的方法，跟業界最好的方法做了一個具體的，在視頻上做了一個對比。我們看了抽出來的摘要信息，其實更符合，至少更符合我們微博場景對于摘要的一些需求。同時在開源的數據里面，摘出來的片段其實哪怕跟當時最好的方法相比，也是很有優勢的。圖片最下面是我們論文的地址。

4、具體應用

下面介紹視頻摘要在微博的應用，以及在什么樣的場景下面去使用。第一個是靜態的封面，對于一個長視頻，一般會選擇比較重要的一幀去作為視頻，在沒有播放的時候作為一個封面展示在前面。第二個是動態的方面，作為封面，可能在時間的長度上面是有一個約束，比如不能超過 3 秒或者 5 秒，所以動態方面會從整個視頻里邊去抽，連續一段持續 3 秒的得分數最高的一段去作為動態的封面。第三個應用場景是物料的打標，打一些標簽和物料的審核，這樣人只要一看摘要，就基本上能夠知道這個物料怎么去打標，或者審核過不過。如果有疑慮，再去看原始視頻，這樣能夠大大的提升人工的效率。