被字節辟謠的中文版Sora，究竟厲害在哪里？

作者：云昭 2024-02-21 17:05:51

雖然本文的Boximator還只是實驗研究，尚未落地，但此前就有消息傳出：據說本月剪映將會推出一個AI生圖和視頻的產品，大家拭目以待吧。

撰稿 | 云昭

出品 | 51CTO技術棧（微信號：blog51cto）

近日，市場有消息稱，在Sora引爆文生視頻賽道之前，國內的字節跳動也推出了一款新型視頻模型Boximator，與Gen-2、Pink1.0等既有模型相比，Boximator的獨特之處在于，它能夠通過文本輸入精確地控制視頻中人物或物體的運動。

有媒體稱將之稱為中國版的Sora，對此，字節跳動相關人士回復稱，Boximator是視頻生成領域控制對象運動的技術方法研究項目，目前還無法作為完善的產品落地，距離國外領先的視頻生成模型在畫面質量、保真率、視頻時長等方面還有很大差距。

Boximator是建立在視頻擴散模型之上的，它采用了3D U-Net架構。簡單講，3D U-Net架構由交替的卷積塊和注意力塊構成。每個塊包括兩個組件：一個是空間組件，將單個視頻幀作為單獨的圖像處理；另一個是時間組件，實現跨幀的信息交換。

而在每個注意力塊中，空間組件通常包括一個自注意力層，然后是一個交叉注意力層，后者用于根據文本提示進行生成。

圖片

Boximator的厲害之處，他們賦予了現有的視頻擴散模塊運動控制能力。怎么做到的呢？

首先，為了實現對視頻中物體、人物的動作控制，Boximator 使用了“軟框”和“硬框”兩種約束方法。

其中，硬框，精確定義了目標對象的邊界框，有了它，用戶可以在圖片中畫出感興趣的對象,Boximator 會將其視為硬框約束, 在之后的幀中精準定位該對象的位置。

而，軟框則定義一個對象可能存在的區域, 形成一個寬松的邊界框。對象需要停留在這個區域內, 但位置可以有一定變化，實現適度的隨機性。

兩類框都包含目標對象的 ID, 用于在不同幀中跟蹤同一對象。此外, 框還包含坐標、類型等信息的編碼。

圖片

其次，在原有兩個注意力層之上，Boximator通過添加一個新的自我關注層（Spatial Self-attention）來增強這個堆棧。

參數方面，團隊考慮到基礎模型是在大量網絡規模的圖像和視頻上預先訓練的，已經獲得了不錯的通用知識能力，所以對原始模型的參數進行了凍結，只專注于訓練新調整用途的運動控制模塊。

當然這只是模型層面的區別，還有數據、訓練、算法、推理層面的重要改進，比如自追蹤技術、多階段訓練處理，都是相關研究人員值得借鑒的技術，這里不再展開介紹。感興趣的朋友可以查閱論文。

圖片

基準模型方面，字節團隊選取了兩個：PixelDance 和 ModelScope，來訓練 Boximator。

訓練數據方面，研究人員從 WebVid-10M 數據集中，過濾出 110 萬段動態明顯的視頻片段, 并自動為其注釋了 220 萬個對象的邊界框，注釋的描述包含了視頻中對象的名詞短語，如“年輕男子”或“白色襯衫”。

實驗結果顯示，在 MSR-VTT 數據集上, 無論是視頻質量還是框與對象對齊精度面,Boximator 都優于原模型。在人類評估中,Boximator 生成的視頻也在質量和運動控制上明顯超過原模型。

圖片

在Github上呈現的效果視頻來看，Boximator 在保持原模型視頻質量, 具有非常強大的動作控制能力。同時可以作為一種插件，幫助現有視頻擴散模型提升生成質量。

1月30日，梁汝波罕見的批評了字節的大公司病，主要就是兩點：效率低下、對機會敏感度降低，對此梁語氣非常沉重：“公司層面的半年度技術回顧，直到2023年才開始討論GPT，而業內做得比較好的大模型創業公司都是在2018年至2021年創立的。”

入場晚，也有著晚的資本。字節集團從飛書、抖音等各個事業部抽調人選，到這個全新的AI部門Flow開發新的C端產品。

現在字節有不少可圈可點的AI產品已經問世。基于抖音、火山等頭條系產品，豆包、扣子的應用也賺得市場不錯的口碑。

字節其實一直有著AI的基因，張一鳴也是AI的極度推崇者。回望過去的2023，字節對于生成式AI的布局繁多，且力度不小。

只不過，在視頻領域，似乎隨著Sora的刷屏，字節進一步意識到了王者地位被顛覆的危機。這很難不讓人聯想到春節前的那場變動，抖音前CEO張楠轉崗剪映。

雖然本文的Boximator還只是實驗研究，尚未落地，但此前就有消息傳出：據說本月剪映將會推出一個AI生圖和視頻的產品，大家拭目以待吧。

PS:對Boximator感興趣的朋友，可以發送郵件給論文作者的郵箱，開通體驗申請：wangjiawei.424@bytedance.com。

https://arxiv.org/abs/2402.01566

https://boximator.github.io/

https://zhuanlan.zhihu.com/p/682140112

責任編輯：武曉燕來源： 51CTO技術棧

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看