成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

被字節辟謠的中文版Sora,究竟厲害在哪里?

原創 精選
人工智能
雖然本文的Boximator還只是實驗研究,尚未落地,但此前就有消息傳出:據說本月剪映將會推出一個AI生圖和視頻的產品,大家拭目以待吧。

撰稿 | 云昭

出品 | 51CTO技術棧(微信號:blog51cto)

近日,市場有消息稱,在Sora引爆文生視頻賽道之前,國內的字節跳動也推出了一款新型視頻模型Boximator,與Gen-2、Pink1.0等既有模型相比,Boximator的獨特之處在于,它能夠通過文本輸入精確地控制視頻中人物或物體的運動。 

有媒體稱將之稱為中國版的Sora,對此,字節跳動相關人士回復稱,Boximator是視頻生成領域控制對象運動的技術方法研究項目,目前還無法作為完善的產品落地,距離國外領先的視頻生成模型在畫面質量、保真率、視頻時長等方面還有很大差距。

1、為何會被誤解讀成中文版Sora解析模型的厲害之處 

Boximator是建立在視頻擴散模型之上的,它采用了3D U-Net架構。簡單講,3D U-Net架構由交替的卷積塊和注意力塊構成。每個塊包括兩個組件:一個是空間組件,將單個視頻幀作為單獨的圖像處理;另一個是時間組件,實現跨幀的信息交換。

而在每個注意力塊中,空間組件通常包括一個自注意力層,然后是一個交叉注意力層,后者用于根據文本提示進行生成。

圖片圖片

Boximator的厲害之處,他們賦予了現有的視頻擴散模塊運動控制能力。怎么做到的呢?

首先,為了實現對視頻中物體、人物的動作控制,Boximator 使用了“軟框”和“硬框”兩種約束方法。

其中,硬框,精確定義了目標對象的邊界框,有了它,用戶可以在圖片中畫出感興趣的對象,Boximator 會將其視為硬框約束, 在之后的幀中精準定位該對象的位置。

而,軟框則定義一個對象可能存在的區域, 形成一個寬松的邊界框。對象需要停留在這個區域內, 但位置可以有一定變化,實現適度的隨機性。

兩類框都包含目標對象的 ID, 用于在不同幀中跟蹤同一對象。此外, 框還包含坐標、類型等信息的編碼。

圖片圖片

其次,在原有兩個注意力層之上,Boximator通過添加一個新的自我關注層(Spatial Self-attention)來增強這個堆棧。

參數方面,團隊考慮到基礎模型是在大量網絡規模的圖像和視頻上預先訓練的,已經獲得了不錯的通用知識能力,所以對原始模型的參數進行了凍結,只專注于訓練新調整用途的運動控制模塊。 

當然這只是模型層面的區別,還有數據、訓練、算法、推理層面的重要改進,比如自追蹤技術、多階段訓練處理,都是相關研究人員值得借鑒的技術,這里不再展開介紹。感興趣的朋友可以查閱論文。

圖片圖片

圖片圖片

2、視頻實驗講究之處:數據,還是數據

基準模型方面,字節團隊選取了兩個:PixelDance 和 ModelScope,來訓練 Boximator。

訓練數據方面,研究人員從 WebVid-10M 數據集中,過濾出 110 萬段動態明顯的視頻片段, 并自動為其注釋了 220 萬個對象的邊界框,注釋的描述包含了視頻中對象的名詞短語,如“年輕男子”或“白色襯衫”。

實驗結果顯示,在 MSR-VTT 數據集上, 無論是視頻質量還是框與對象對齊精度面,Boximator 都優于原模型。在人類評估中,Boximator 生成的視頻也在質量和運動控制上明顯超過原模型。

圖片圖片

圖片圖片

在Github上呈現的效果視頻來看,Boximator 在保持原模型視頻質量, 具有非常強大的動作控制能力。同時可以作為一種插件,幫助現有視頻擴散模型提升生成質量。

3、新視頻產品即將推出

1月30日,梁汝波罕見的批評了字節的大公司病,主要就是兩點:效率低下、對機會敏感度降低,對此梁語氣非常沉重:“公司層面的半年度技術回顧,直到2023年才開始討論GPT,而業內做得比較好的大模型創業公司都是在2018年至2021年創立的。”

入場晚,也有著晚的資本。字節集團從飛書、抖音等各個事業部抽調人選,到這個全新的AI部門Flow開發新的C端產品。

現在字節有不少可圈可點的AI產品已經問世。基于抖音、火山等頭條系產品,豆包、扣子的應用也賺得市場不錯的口碑。

字節其實一直有著AI的基因,張一鳴也是AI的極度推崇者。回望過去的2023,字節對于生成式AI的布局繁多,且力度不小。

只不過,在視頻領域,似乎隨著Sora的刷屏,字節進一步意識到了王者地位被顛覆的危機。這很難不讓人聯想到春節前的那場變動,抖音前CEO張楠轉崗剪映。

雖然本文的Boximator還只是實驗研究,尚未落地,但此前就有消息傳出:據說本月剪映將會推出一個AI生圖和視頻的產品,大家拭目以待吧。

PS:對Boximator感興趣的朋友,可以發送郵件給論文作者的郵箱,開通體驗申請:wangjiawei.424@bytedance.com。

參考鏈接:

https://arxiv.org/abs/2402.01566

https://boximator.github.io/

https://zhuanlan.zhihu.com/p/682140112

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2024-03-12 12:16:54

AI模型

2020-05-15 08:38:33

架構師高級開發互聯網

2024-02-21 15:05:30

2020-11-03 06:55:41

系統版本64位

2024-08-29 11:19:32

2024-09-25 15:00:25

2009-08-18 16:19:57

Google Insi

2010-05-28 18:07:47

TortoiseSVN

2010-03-19 09:40:44

Cisco交換機

2019-12-05 09:13:18

通信

2011-03-25 12:57:16

LinuxCacti安裝

2021-03-11 14:13:10

人工智能算法工程師

2024-02-23 08:38:34

AI模型計算機

2010-08-26 17:08:20

vsftpd faq

2011-03-03 13:25:57

2012-02-01 17:38:09

2009-06-11 10:15:09

netbeans 安裝

2010-05-24 17:26:59

TortoiseSVN

2010-01-19 14:46:04

jQuery 1.4

2012-09-10 10:42:34

IBMdw
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久成人高清视频 | 久久综合久久综合久久综合 | 亚洲精品久久久一区二区三区 | 一级视频在线免费观看 | 澳门永久av免费网站 | www.99热.com| 狠狠色狠狠色综合日日92 | 亚洲一区成人 | 精品久久一 | av网站在线免费观看 | 乱一性一乱一交一视频a∨ 色爱av | 久久精品免费 | 欧美色综合 | av免费网站在线 | 欧美女优在线观看 | 人人干免费 | 国产精品91久久久久久 | 中文字幕一区二区三区四区 | 欧美日韩精品中文字幕 | 国产精品一区二区av | 亚洲一区二区精品视频在线观看 | 欧美一区二区三区在线 | 亚洲精品永久免费 | 久久精品国产99国产 | 日本五月婷婷 | 亚洲另类视频 | 先锋资源在线 | 黄色网址在线播放 | 欧美日韩国产在线观看 | 国产在线中文字幕 | 在线亚洲一区二区 | 91在线精品视频 | 精品视频亚洲 | 久久精品久久久久久 | 精品成人| 国产免费色 | 毛片在线看片 | 亚洲一区在线播放 | 亚洲一区二区精品 | 亚洲精品一区二区三区丝袜 | 狠狠的干狠狠的操 |