成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

通義萬相視頻生成重磅升級,成功登頂VBench,運鏡、質(zhì)感直達(dá)專業(yè)級

人工智能
從實踐的角度看,我們其實早就已經(jīng)迫不及待了:自去年起,不論短視頻、動畫領(lǐng)域,甚至影視行業(yè)的人們都已經(jīng)開始利用視頻生成 AI 進(jìn)行創(chuàng)作探索。

2025 才剛開始,AI 視頻生成就要迎來技術(shù)突破了?

今天上午,阿里旗下通義萬相視頻生成模型宣布了 2.1 版重磅升級。

新發(fā)布的模型有兩個版本,分別是通義萬相 2.1 極速版和專業(yè)版,前者注重高效性能,后者瞄準(zhǔn)卓越表現(xiàn)力。

據(jù)介紹,通義萬相此次全面升級了模型整體性能,尤其是在處理復(fù)雜運動、還原真實物理規(guī)律、提升電影質(zhì)感及優(yōu)化指令遵循方面取得了顯著進(jìn)展,為 AI 的藝術(shù)創(chuàng)作打開了新的大門。

我們先來一睹視頻生成效果,看看能不能驚艷到你。

先以經(jīng)典的「切牛排」為例,可以看到,牛排的紋理清晰可見,表面覆蓋著一層薄薄的油脂,閃爍著光澤,刀鋒沿著肌肉纖維緩緩切入,肉質(zhì) Q 彈,細(xì)節(jié)拉滿。

圖片

Prompt: 在餐廳里,一個人正在切一塊熱氣騰騰的牛排。在特寫俯拍下,這個人右手拿著一把鋒利的刀,將刀放在牛排上,然后沿著牛排中心切開。這個人穿著黑色衣服,手上涂著白色指甲油,背景是虛化的,有一個白色的盤子,里面放著黃色的食物,還有一張棕色的桌子。

再來看一個人物特寫生成效果,小女孩的面部表情、手部和肢體動作都很自然協(xié)調(diào),風(fēng)掠過頭發(fā)也符合運動規(guī)律。

Prompt:可愛少女站在花叢中,雙手比心,周圍跳動著各種小愛心。她穿著粉色連衣裙,長發(fā)隨風(fēng)輕揚,笑容甜美。背景是春日花園,鮮花盛開,陽光明媚。高清寫實攝影,近景特寫,自然光線柔和。

模型強不強,再來跑個分。目前,在權(quán)威視頻生成評測榜單 VBench Leaderboard 上,升級后的通義萬相以總分 84.7% 的成績登上榜首位置,超越了 Gen3、Pika、CausVid 等國內(nèi)外視頻生成模型??雌饋恚曨l生成的競爭格局又迎來了一波新變化。

圖片

榜單鏈接:https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

即日起,用戶就可以在通義萬相官網(wǎng)用上最新一代模型了。同樣地,開發(fā)者也可以在阿里云百煉調(diào)用大模型 API。

官網(wǎng)地址:https://tongyi.aliyun.com/wanxiang/

一手實測,表現(xiàn)力提升,還能玩轉(zhuǎn)特效字體

最近一段時間,視頻生成大模型的迭代速度很快,新版本的通義萬相有沒有實現(xiàn)代差級別的提升?我們進(jìn)行了一番實際測試。

AI 視頻會寫字了

首先,AI 生成的視頻終于能告別「鬼畫符」了。

此前,市面上主流 AI 視頻生成模型一直無法準(zhǔn)確地生成中英文,只要是該有文字的地方,就是一堆難以辨認(rèn)的亂碼。如今這一行業(yè)難題被通義萬相 2.1 破解了。

它成為了首個具備支持中文文字生成能力、且同時支持中英文文字特效生成的視頻生成模型。

現(xiàn)在,用戶只需輸入簡短的文字描述,即可生成具有電影級效果的文字和動畫。

比如一只小貓正在電腦前打字,畫面依次跳出「不工作就沒飯吃」7 個大字。

通義萬相生成的視頻中,貓咪坐在工位上一本正經(jīng)地敲鍵盤、按鼠標(biāo),模樣像極了當(dāng)代打工人,彈出的字幕再加上自動生成的配樂,讓整個畫面都更具詼諧感。

再比如從一個橘色的正方體小盒子里跳出英文單詞「Synced」。

無論是生成中文還是英文,通義萬相都能搞定,沒有錯別字,也沒出現(xiàn)「鬼畫符」。

不僅如此,它還支持多種場景下的字體應(yīng)用,包括特效字體、海報字體以及真實場景中的字體展示等。

比如在塞納河畔的埃菲爾鐵塔附近,絢爛的煙花在空中綻放,隨著鏡頭拉近,粉色數(shù)字「2025」逐漸變大,直到充斥整個畫面。

大幅度運動不再「鬼畜」

復(fù)雜的人物運動一度是 AI 視頻生成模型的「噩夢」,以往 AI 生成的視頻要么手腳亂飛、大變活人,要么出現(xiàn)「只轉(zhuǎn)身不轉(zhuǎn)頭」的詭異動作。

而通義萬相通過先進(jìn)的算法優(yōu)化和數(shù)據(jù)訓(xùn)練,能夠在多種場景下實現(xiàn)穩(wěn)定的復(fù)雜運動生成,特別是在大幅度肢體運動和精確的肢體旋轉(zhuǎn)方面,上圖生成的霹靂舞就很絲滑。

再比如下面這則生成視頻中,男子奔跑時動作流暢自然,沒有出現(xiàn)左右腿不分或者扭曲變形的問題。而且它還很注重細(xì)節(jié),男子每一次腳尖觸地都會留下印跡,并微微揚起細(xì)沙。

Prompt:日落時分,金色的陽光灑在波光粼粼的海面上,一名年輕帥氣的男子沿著沙灘奔跑,穩(wěn)定跟蹤鏡頭。

難度較大的滑雪視頻它也能生成。

女孩身著滑雪裝備,在阿爾卑斯山的雪坡上滑行。她靈活地控制著滑雪板,時而加速,時而轉(zhuǎn)彎,高速運動下甩起的馬尾辮、卷起的積雪讓鏡頭更加逼真。

Prompt:一個年輕女孩在阿爾卑斯山滑雪

由此可見,它在物理規(guī)律理解方面也有著顯著提升,能夠模擬出真實感十足的視頻,避免出現(xiàn)「一眼假」的情況。

運鏡媲美電影大師

大導(dǎo)演斯皮爾伯格曾說過:一場好電影的秘訣就在于鏡頭語言。為了拍出震撼的電影鏡頭,攝影師們恨不得上天入地、飛檐走壁。

不過在這個 AI 時代,「拍」電影就容易了許多。

我們只需輸入一句簡單的文本指令,比如鏡頭左移、鏡頭拉遠(yuǎn)、鏡頭推進(jìn)等,通義萬相就能自動根據(jù)視頻的主體內(nèi)容和運鏡需求輸出合理的視頻。

我們輸入 Prompt:搖滾樂隊在前院草坪上演出,隨著鏡頭的推進(jìn),畫面聚焦到吉他手身上,他身穿皮夾克,一頭凌亂的長發(fā)隨節(jié)奏擺動。吉他手的手指在琴弦上快速跳躍,背景中其他樂隊成員也在全情投入。

通義萬相 2.1 嚴(yán)格遵循了指令。視頻一開始,吉他手、鼓手激情演奏,隨著攝影機緩慢拉近,背景逐漸模糊,畫面放大,突出了吉他手的神態(tài)和手部動作。

再來一個拉遠(yuǎn)鏡頭的視頻。

一個年輕偵探的眼睛特寫,鏡頭拉遠(yuǎn),男子正站在一條繁華的街上,身后是摩天大樓和靜止的汽車,仿佛時間被定格一般。

長文本指令不會丟三落四

要想 AI 生成的視頻效果達(dá)到驚艷水準(zhǔn),必然離不開精準(zhǔn)的文本提示。

然而,有時大模型「記性」有限,面對包含各種場景切換、角色互動和復(fù)雜動作的文本指令,它就容易丟三落四,不是遺漏細(xì)節(jié),就是搞不清邏輯順序。

上新后的通義萬相在長文本指令遵循方面就有了較大的進(jìn)步。

Prompt: 一位摩托車騎手在狹窄的城市街道上以極快的速度疾馳,避開了附近建筑物發(fā)生的大爆炸,火焰猛烈地咆哮著,投射出明亮的橙色光芒,碎片和金屬碎片在空中飛舞,加劇了現(xiàn)場的混亂。身著深色裝備的車手,彎腰緊握車把,神情專注,他以極快的速度向前沖去,絲毫不畏懼身后的火光沖天。爆炸留下的濃濃黑煙彌漫在空中,將背景籠罩在世界末日般的混亂之中。然而,騎手依然不屈不撓,準(zhǔn)確無誤地在混亂中穿梭,極富電影感,超精細(xì)細(xì)節(jié),身臨其境,3D,動作連貫。

在以上這段長篇大論般的文本描述中,狹窄的街道、明亮的火焰、彌漫的黑煙、亂飛的碎片以及身著深色裝備的騎手…… 這些細(xì)節(jié)都被通義萬相捕捉到。

通義萬相還具備更強大的概念組合能力,能夠準(zhǔn)確理解各種不同的想法、元素或者風(fēng)格,并將其組合在一起,創(chuàng)造出全新的視頻內(nèi)容。

一位穿著西裝的老人從雞蛋中破殼而出,瞪大雙眼緊盯鏡頭的白發(fā)老頭,再配上公雞咯咯叫的聲音,畫面相當(dāng)搞笑。

擅長卡通油畫等多種風(fēng)格

新版通義萬相還能生成電影質(zhì)感的視頻畫面,同時對各類藝術(shù)風(fēng)格也有很好的支持,比如卡通、電影色、3D 風(fēng)格、油畫、古典等風(fēng)格。

造型奇特的外星船銹跡斑駁,背著氧氣瓶的宇航員擺動雙腿在水下沉潛,整個鏡頭都很有科幻電影的 feel。

Prompt:電影質(zhì)感,一名宇航員正在探索一艘水下外星船殘骸。

再來看這個 3D 動畫風(fēng)格的小怪獸,站在葡萄藤上手舞足蹈,甚是可愛。

Prompt:一只毛茸茸的快樂的青提小怪獸站在葡萄樹樹枝上快樂的歌唱,逆時針旋轉(zhuǎn)鏡頭。

此外,它還支持不同長寬比,涵蓋 1:1、3:4、4:3、16:9 和 9:16 五個比例,能夠更好適配電視、電腦、手機等不同終端設(shè)備。

圖片

從以上表現(xiàn)來看,我們已經(jīng)可以使用通義萬相進(jìn)行一些創(chuàng)作,把靈感轉(zhuǎn)化為「現(xiàn)實」了。

當(dāng)然這一系列進(jìn)步,還得歸功于阿里云在視頻生成基礎(chǔ)模型上的升級。

基礎(chǔ)模型大幅優(yōu)化,架構(gòu)、訓(xùn)練、評估全方位「變身」

去年 9 月 19 日,阿里云在云棲大會上發(fā)布了通義萬相視頻生成大模型,帶來了影視級高清視頻的生成能力。作為阿里云全自研的視覺生成大模型,它采用了 Diffusion + Transformer 的架構(gòu),支持圖像和視頻生成類任務(wù),在模型框架、訓(xùn)練數(shù)據(jù)、標(biāo)注方式和產(chǎn)品設(shè)計上均有諸多創(chuàng)新,提供了業(yè)界領(lǐng)先的視覺生成能力。

此次升級后的模型中,通義萬相團(tuán)隊(以下簡稱團(tuán)隊)進(jìn)一步自研了高效的 VAE 和 DiT 架構(gòu),針對時空上下文關(guān)系的建模進(jìn)行了增強,顯著優(yōu)化了生成效果。

Flow Matching(流匹配)是近年來新興的一種生成模型訓(xùn)練框架,其訓(xùn)練過程更簡單,通過連續(xù)正則化流(Continuous Normalizing Flow)可以取得與擴散模型相當(dāng)甚至更優(yōu)的生成質(zhì)量,并且推理速度更快,也因而逐漸開始應(yīng)用于視頻生成領(lǐng)域,比如 Meta 此前推出的視頻模型 Movie Gen 便使用了 Flow Matching。

在訓(xùn)練方法選擇上,通義萬相 2.1 采用了基于線性噪聲軌跡的 Flow Matching 方案,并針對該框架進(jìn)行了深度設(shè)計,使得模型收斂性、生成質(zhì)量和效率均得到提升。

圖片

通義萬相 2.1 視頻生成架構(gòu)圖

針對視頻 VAE,團(tuán)隊結(jié)合緩存機制與因果卷積,設(shè)計了一種創(chuàng)新的視頻編解碼方案。其中緩存機制可以在視頻處理中保持必要的信息,從而減少重復(fù)計算,并提升計算效率;因果卷積能夠捕獲視頻的時序特征,適應(yīng)視頻內(nèi)容的遞進(jìn)變化。

在具體實現(xiàn)中,通過將視頻拆分為若干塊(Chunk)并緩存中間特征,代替了直接對長視頻的 E2E 解碼過程,使顯卡的使用僅與 Chunk 大小相關(guān),而無需考慮原始視頻長度,讓模型可以對無限長的 1080P 視頻進(jìn)行高效編解碼。團(tuán)隊表示,這一關(guān)鍵技術(shù)為任意時長視頻的訓(xùn)練提供了一種可行路徑。

下圖顯示了不同 VAE 模型的結(jié)果對比。從模型計算效率(幀 / 延遲)和視頻壓縮重構(gòu)(峰值信噪比,PSNR)指標(biāo)來看,通義萬相采用的 VAE 在參數(shù)不占優(yōu)的情況下,依然實現(xiàn)了業(yè)內(nèi)領(lǐng)先的視頻壓縮重構(gòu)質(zhì)量。

圖片

注:圓圈面積代表了模型參數(shù)大小。

團(tuán)隊在 DiT(Diffusion Transformer)上的核心設(shè)計目標(biāo)是實現(xiàn)強大的時空建模能力,同時保持高效的訓(xùn)練過程。做到這些需要進(jìn)行一些創(chuàng)新性改變。

首先,為了提高時空關(guān)系的建模能力,團(tuán)隊采用了時空全注意力機制,使模型能夠更準(zhǔn)確地模擬現(xiàn)實世界的復(fù)雜動態(tài)。其次,參數(shù)共享機制的引入,在提升性能的同時有效降低了訓(xùn)練成本。此外,團(tuán)隊針對文本嵌入做了性能優(yōu)化,使用交叉注意力機制來嵌入文本特征,既達(dá)成了更優(yōu)的文本可控性,也降低了計算需求。

得益于這些改進(jìn)和嘗試,在相同計算成本的情況下,通義萬相的 DiT 結(jié)構(gòu)實現(xiàn)了更明顯的收斂優(yōu)越性。

除了模型架構(gòu)上的創(chuàng)新,團(tuán)隊在超長序列訓(xùn)練與推理、數(shù)據(jù)構(gòu)建管線與模型評估方面同樣進(jìn)行了一些優(yōu)化,使模型可以高效處理復(fù)雜生成任務(wù),并具備更強的效率優(yōu)勢。

百萬超長序列的高效訓(xùn)練如何煉成

在處理超長視覺序列時,大模型往往面臨著計算、內(nèi)存、訓(xùn)練穩(wěn)定性、推理延遲等多個層面的挑戰(zhàn),因而要有高效的應(yīng)對方案。

為此,團(tuán)隊結(jié)合了全新模型工作負(fù)載的特點和訓(xùn)練集群的硬件性能,制定出了分布式、顯存優(yōu)化的訓(xùn)練策略,在保證模型迭代時間的前提下優(yōu)化訓(xùn)練性能,最終達(dá)到了業(yè)界領(lǐng)先的 MFU,并實現(xiàn)了 100 萬超長序列的高效訓(xùn)練。

一方面,團(tuán)隊創(chuàng)新分布式策略,采用了 DP、FSDP、RingAttention、Ulysses 混合的 4D 并行訓(xùn)練,訓(xùn)練性能和分布式擴展性雙雙得以增強。另一方面,為了實現(xiàn)顯存優(yōu)化,團(tuán)隊基于序列長度帶來的計算量和通信量,采用分層的顯存優(yōu)化策略來優(yōu)化 Activation 顯存并解決了顯存碎片問題。

另外,計算優(yōu)化可以提高模型訓(xùn)練效率并節(jié)省資源,為此團(tuán)隊采用 FlashAttention3 進(jìn)行時空全注意力計算,并結(jié)合訓(xùn)練集群在不同尺寸上的計算性能,選擇合適的 CP 策略進(jìn)行切分。同時針對一些關(guān)鍵的模塊去除計算冗余,并通過高效的 Kernel 實現(xiàn)來降低訪存開銷、提升計算效率。在文件系統(tǒng)方面,團(tuán)隊充分利用阿里云訓(xùn)練集群中高性能文件系統(tǒng)的讀寫特性,通過分片 Save/Load 方式提升讀寫性能。

圖片

4D 并行分布式訓(xùn)練策略

與此同時,針對訓(xùn)練中因 Dataloader Prefetch 、CPU Offloading 和 Save Checkpoint 導(dǎo)致的內(nèi)存溢出(OOM)問題,團(tuán)隊選擇錯峰內(nèi)存使用方案。并且,為了保證訓(xùn)練穩(wěn)定性,團(tuán)隊借助了阿里云訓(xùn)練集群的智能化調(diào)度、慢機檢測以及自愈能力,實現(xiàn)了自動識別故障節(jié)點并快速重啟任務(wù)。

數(shù)據(jù)構(gòu)建與模型評估引入自動化

視頻生成大模型的訓(xùn)練離不開規(guī)模化的高質(zhì)量數(shù)據(jù)和有效的模型評估,前者可以確保模型學(xué)習(xí)到多樣化的場景、復(fù)雜的時空依賴關(guān)系并提高泛化能力,構(gòu)成模型訓(xùn)練的基石;后者有助于監(jiān)督模型表現(xiàn),使其更好地達(dá)到預(yù)期效果,成為模型訓(xùn)練的風(fēng)向標(biāo)。

在數(shù)據(jù)構(gòu)建上,團(tuán)隊以高質(zhì)量為準(zhǔn)繩,打造出了一套自動化的數(shù)據(jù)構(gòu)建管線,在視覺質(zhì)量、運動質(zhì)量等方面與人類偏好分布保持高度一致,從而可以自動構(gòu)建高質(zhì)量的視頻數(shù)據(jù),并呈現(xiàn)出高多樣性、均衡分布等特征。

在模型評估上,團(tuán)隊同樣設(shè)計了一套全面的自動化度量機制,將美學(xué)評分、運動分析和指令遵循等二十幾個維度納入其中,并針對性地訓(xùn)練出了能夠?qū)R人類偏好的專業(yè)打分器。在這些度量指標(biāo)的有效反饋下,模型迭代和優(yōu)化過程顯著加快。

可以說,架構(gòu)、訓(xùn)練和評估等多個方面的協(xié)同創(chuàng)新,讓升級后的通義萬相視頻生成模型在實際體驗中收獲了顯著的代際提升。

視頻生成的 GPT-3 時刻,還有多久?

自去年 2 月,OpenAI 的 Sora 問世以來,視頻生成模型成為了科技界競爭最為激烈的領(lǐng)域。國內(nèi)到海外,創(chuàng)業(yè)公司到科技大廠都在紛紛推出自家的視頻生成工具。然而相對于文字的生成,AI 視頻想要做到人們可以接受的程度,難度高了不止一個等級。

如果像 OpenAI CEO 山姆?奧特曼說的那樣,Sora 代表了視頻生成大模型的 GPT-1 時刻。那么我們在此基礎(chǔ)上實現(xiàn)文本指令對 AI 的精準(zhǔn)化控制、角度和機位的可調(diào)整、保證角色的一致性等視頻生成該有的能力,再加上快速變換風(fēng)格場景這樣 AI 獨有的功能,或許就可以很快迎來新的「GPT-3 時刻」。

從技術(shù)發(fā)展的路徑來看,視頻生成模型是一個驗證 Scaling Laws 的過程。隨著基礎(chǔ)模型能力的提升,AI 將會越來越懂人類的指令,并能創(chuàng)造出越來越真實合理的環(huán)境。

從實踐的角度看,我們其實早就已經(jīng)迫不及待了:自去年起,不論短視頻、動畫領(lǐng)域,甚至影視行業(yè)的人們都已經(jīng)開始利用視頻生成 AI 進(jìn)行創(chuàng)作探索。如果我們可以突破現(xiàn)實的限制,用視頻生成 AI 做以前無法想象的事,新一輪行業(yè)變革就在眼前。

現(xiàn)在看來,通義萬相已經(jīng)率先邁出了一步。

責(zé)任編輯:姜華 來源: 機器之心
相關(guān)推薦

2025-02-26 09:44:14

2025-01-09 13:30:00

2025-05-16 09:08:00

2025-03-13 10:26:45

2021-01-05 15:53:03

智能

2025-04-22 09:17:00

模型生成開源

2009-12-09 16:53:54

2025-04-16 09:20:00

虛擬模型數(shù)字

2025-02-26 14:00:00

開源模型數(shù)據(jù)

2024-12-10 18:18:11

2011-03-24 16:41:24

百卓網(wǎng)絡(luò)百卓上網(wǎng)行為管理

2025-03-27 09:24:16

2024-12-04 11:07:09

2011-07-21 21:48:32

惠普工作站

2012-10-17 10:09:16

紅帽

2024-10-28 07:30:00

2023-04-03 10:04:44

開源模型
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 瑟瑟激情 | 日本三级日产三级国产三级 | 中文字幕人成乱码在线观看 | 成人一级视频在线观看 | 欧美一级免费观看 | 国产精品免费一区二区三区四区 | 国产亚洲久 | 91免费版在线观看 | 国产精品一区二区视频 | 美女一级黄| 免费观看一级特黄欧美大片 | 成年人免费看的视频 | 国产二区视频 | 91在线免费视频 | 69堂永久69tangcom | 北条麻妃99精品青青久久主播 | 黄在线免费观看 | 亚洲成人免费 | 中文字幕在线精品 | 麻豆视频在线免费看 | 国产精品久久 | 中文字幕久久精品 | 国产午夜亚洲精品不卡 | 91精品入口蜜桃 | 色播av| 免费观看av | 亚洲一区二区中文字幕 | 狠狠的干 | 国产精品亚洲综合 | 在线免费观看黄色网址 | 日韩av高清在线 | 电影在线| 欧美在线观看一区二区 | 亚洲精品一区二区网址 | 国产精品免费一区二区三区四区 | 久久精品在线 | 日本中文字幕一区 | 国产精品视频免费播放 | 亚洲综合色 | 国产成人久久精品一区二区三区 | 国产精品一区二区久久 |