AI新風(fēng)口?首個(gè)高質(zhì)量「文生視頻」模型Zeroscope引發(fā)開源大戰(zhàn):最低8G顯存可跑
文生圖模型Stable Diffusion開源后,將「AI藝術(shù)」徹底平民化,只需一張消費(fèi)級顯卡即可制作出非常精美的圖片。
而文本轉(zhuǎn)視頻領(lǐng)域,目前質(zhì)量較高的只有Runway前不久推出的商用Gen-2模型,開源界還沒有一個(gè)能打的模型。
最近,Huggingface上有作者發(fā)布了一個(gè)文生視頻模型Zeroscope_v2,基于17億參數(shù)量的ModelScope-text-to-video-synthesis模型進(jìn)行二次開發(fā)。
圖片
模型鏈接:https://huggingface.co/cerspense/zeroscope_v2_576w
相比于原版本,Zeroscope生成的視頻沒有水印,并且流暢度和分辨率都得到了提升,適配16:9的寬高比。
開發(fā)者cerspense表示,他的目標(biāo)就是和Gen-2進(jìn)行開源較量,即提高模型質(zhì)量的同時(shí),還能免費(fèi)供大眾使用。
Zeroscope_v2包括兩個(gè)版本,其中Zeroscope_v2 567w可以快速生成576x320像素分辨率、幀率為30幀/秒的視頻,可用于視頻概念的快速驗(yàn)證,只需要約7.9GB的顯存即可運(yùn)行。
Zeroscope_v2 XL可以生成1024x576分辨率的高清視頻,大約需要15.3GB的顯存。
Zeroscope還可以與音樂生成工具M(jìn)usicGen一起使用,快速制作一個(gè)純原創(chuàng)短視頻。
Zeroscope模型的訓(xùn)練用到了9923個(gè)視頻片段(clip)以及29769個(gè)標(biāo)注幀,每個(gè)片段包括24幀。偏移噪聲包括視頻幀內(nèi)對象的隨機(jī)移位、幀定時(shí)(frame timings)的輕微變化或微小失真。
訓(xùn)練期間引入噪聲可以增強(qiáng)模型對數(shù)據(jù)分布的理解,從而可以生成更多樣化的逼真視頻,并更有效地解釋文本描述中的變化。
使用方法
使用stable diffusion webui
在Huggingface上下載zs2_XL目錄下的權(quán)重文件,然后放到stable-diffusion-webui\models\ModelScope\t2v目錄下即可。
在生成視頻時(shí),推薦的降噪強(qiáng)度值為0.66到0.85
使用Colab
筆記鏈接:https://colab.research.google.com/drive/1TsZmatSu1-1lNBeOqz3_9Zq5P2c0xTTq?usp=sharing
先點(diǎn)擊Step 1下的運(yùn)行按鈕,等待安裝,大約需要3分鐘;
圖片
當(dāng)按鈕旁邊出現(xiàn)綠色復(fù)選標(biāo)記時(shí),繼續(xù)執(zhí)行下一步。
圖片
點(diǎn)擊想要安裝模型附近的運(yùn)行按鈕,為了能夠在Colab中快速獲得3秒左右的剪輯視頻,更推薦使用低分辨率的ZeroScope模型(576或448)。
圖片
如果相運(yùn)行更高分辨率模型(Potat 1或ZeroScope XL),運(yùn)行也會(huì)更費(fèi)時(shí)間,需要做出權(quán)衡。
再次等待復(fù)選標(biāo)記出現(xiàn),繼續(xù)執(zhí)行下一步。
選擇在Step2中安裝并希望使用的模型型號(hào),對于更高分辨率的模型,推薦下面的配置參數(shù),不需要太長的生成時(shí)間。
圖片
然后為目標(biāo)視頻效果輸入提示詞,也可以輸入否定提示(negative prompts),再按下運(yùn)行按鈕。
等待一會(huì)后,生成的視頻就會(huì)被放置在outputs目錄下。
圖片
「文生視頻」開源競賽
目前來說,文生視頻領(lǐng)域仍處于起步階段,即便是最好的工具也只能生成幾秒鐘的視頻,并且通常存在較大的視覺缺陷。
但其實(shí)文生圖模型最初也面臨著類似的問題,但僅僅幾個(gè)月后就實(shí)現(xiàn)了照片級真實(shí)感。
不過與文生圖模型不同的是,視頻領(lǐng)域在訓(xùn)練和生成期間所需要的資源都要更比圖像更多。
雖然谷歌已經(jīng)研發(fā)出了Phenaki和Imagen Video模型,可以生成高分辨率、更長、邏輯連貫的視頻片段,但公眾無法使用到這兩個(gè)模型;Meta的Make-a-Video模型也同樣沒有發(fā)布。
目前可用的工具仍然只有Runway的商用模型Gen-2,此次Zeroscope的發(fā)布也標(biāo)志著文生視頻領(lǐng)域第一個(gè)高質(zhì)量開源模型的出現(xiàn)。