當(dāng)韓國(guó)女團(tuán)BLACKPINK進(jìn)軍二次元,清華叉院AI神器原來還能這么玩
如果你手機(jī)里有一些修圖軟件,你可能用過里面的「AI 繪畫」功能,它通常會(huì)提供一些把照片轉(zhuǎn)換為不同風(fēng)格的選項(xiàng),比如動(dòng)漫風(fēng)格、寫真風(fēng)格。但如今,視頻也可以這么做了:
這些動(dòng)圖來自 X 平臺(tái)(原推特)網(wǎng)友 @CoffeeVectors 生成的一段視頻。他把韓國(guó)女團(tuán) BLACKPINK 代表作《DDU-DU DDU-DU》的原版 MV 輸入了一個(gè) AI 工具,很快就得到了動(dòng)漫版的 MV。
完整效果是這樣的:
這個(gè)視頻是借助一個(gè)名叫 ComfyUI 的工具來完成的。ComfyUI 是一個(gè)開源的基于圖形界面的 Workflow 可視化引擎,用于被廣泛采用的文生圖 AI 模型 Stable Diffusion。它提供了一個(gè)用戶友好的圖形界面,可以將多個(gè) Stable Diffusion 模型及其 Hypernetwork 組合成一個(gè)完整的工作流(Workflow)實(shí)現(xiàn)自動(dòng)化的圖像生成和優(yōu)化。同時(shí),社區(qū)也開發(fā)了各種 ComfyUI 的擴(kuò)展插件,可以進(jìn)一步增強(qiáng)其功能。
作者 @CoffeeVectors 表示,在制作這個(gè) MV 的過程時(shí),他在 ComfyUI 中用到了 AnimateDiff 和 multi-controlnet 工作流,前者用于動(dòng)漫風(fēng)格的生成,后者用來實(shí)現(xiàn)生成效果的控制。更重要的是,他在這次工作流中引入了一個(gè)當(dāng)下很火的神器 ——LCM LoRA。
在《實(shí)時(shí)文生圖速度提升 5-10 倍,清華 LCM/LCM-LoRA 爆火,瀏覽超百萬、下載超 20 萬》一文中,我們已經(jīng)介紹過,LCM 是清華大學(xué)交叉信息研究院的研究者們構(gòu)建的一個(gè)新模型,它的特點(diǎn)是文生圖、圖生圖的效果都非???,可以根據(jù)你的文字指令或草圖指示實(shí)時(shí)生成新圖。
在此基礎(chǔ)上,研究者們又進(jìn)一步開發(fā)了 LCM-LoRA,可以將 LCM 的快速生成能力在未經(jīng)任何額外訓(xùn)練的情況下遷移到其他 LoRA 模型上。由于效果非常驚艷,模型在 Hugging Face 平臺(tái)上的下載量已超 20 萬次,X 平臺(tái)上到處都能看到利用 LCM-LoRA 生成的實(shí)時(shí)視頻效果(如下方的視頻所示)。
那么,這個(gè)動(dòng)漫版的 MV 是怎么做的呢?@CoffeeVectors 在帖子中詳細(xì)描述了他的做法。
在下載了原版 MV 視頻后,@CoffeeVectors 將 BLACKPINK 的整個(gè) MV 作為單個(gè) .mp4 輸入進(jìn)行處理。LCM 可以讓他在 4090 上通過 6 步進(jìn)行渲染(之前需要 20 多步),而且只占用 10.5 GB 的 VRAM。以下是詳細(xì)數(shù)據(jù):
整個(gè)渲染過程耗時(shí) 81 分鐘,共 2,467 幀,每幀大約花 2 秒。這不包括從視頻中提取圖像序列和生成 ControlNet 映射的時(shí)間。在 SD 1.5 版中使用 Zoe Depth 和 Canny ControlNets,分辨率為 910 x 512。
要改進(jìn)輸出效果,使其風(fēng)格更鮮明、細(xì)節(jié)更豐富、感覺不那么像一幀一幀的轉(zhuǎn)描動(dòng)畫,就需要對(duì)單幀畫面進(jìn)行調(diào)整。但是,一次性完成整個(gè)視頻,可以為你提供一個(gè)粗略的草稿,以便在此基礎(chǔ)上進(jìn)行迭代。
對(duì)于輸入視頻,他每隔一幀選取一幀,以達(dá)到 12 幀 / 秒的目標(biāo)。
這是 @CoffeeVectors 添加 LCM LoRA 的截圖。他選擇了檢查點(diǎn)中內(nèi)置的 VAE:
他把提示寫得很泛,想看看這個(gè)提示在各種鏡頭中的適配效果怎么樣。
在 K 采樣器中,他使用了 LCM 采樣器。注意,你需要更新到最新版本的 ComfyUI 才能用這個(gè)采樣器。
下圖描述了 @CoffeeVectors 如何安排 multi-control net 的節(jié)點(diǎn):
最后,@CoffeeVectors 還推薦了一些相關(guān)教程:
- 視頻教程:https://www.youtube.com/watch?app=desktop&v=zrxd95Mxz24
- 技術(shù)博客:https://huggingface.co/blog/lcm_LoRA
對(duì)這類技術(shù)應(yīng)用感興趣的開發(fā)者們可以玩起來啦!