謝賽寧團(tuán)隊(duì)新作：不用提示詞精準(zhǔn)實(shí)現(xiàn)3D畫面控制

2025-07-04 08:52:00

這一神奇操作就來自于謝賽寧團(tuán)隊(duì)新發(fā)布的 Blender Fusion框架，通過結(jié)合圖形工具 (Blender) 與擴(kuò)散模型，讓視覺合成不再僅僅依賴文本提示，實(shí)現(xiàn)了精準(zhǔn)的畫面控制與靈活操作。

曾幾何時(shí)，用文字生成圖像已經(jīng)變得像用筆作畫一樣稀松平常。

但你有沒有想過拖動方向鍵來控制畫面？

像這樣，拖動方向鍵（或用鼠標(biāo)拖動滑塊）讓畫面里的物體左右移動：

還能旋轉(zhuǎn)角度：

縮放大小：

這一神奇操作就來自于謝賽寧團(tuán)隊(duì)新發(fā)布的 Blender Fusion框架，通過結(jié)合圖形工具 (Blender) 與擴(kuò)散模型，讓視覺合成不再僅僅依賴文本提示，實(shí)現(xiàn)了精準(zhǔn)的畫面控制與靈活操作。

圖像合成三步走

BlenderFusion “按鍵生圖” 的核心并不在于模型自身的創(chuàng)新，而在于其對現(xiàn)有技術(shù)（分割、深度估計(jì)、Blender渲染、擴(kuò)散模型）的高效組合，打通了一套新的Pipeline 。

這套Pipeline包含三個(gè)步驟：先將物體和場景分離 → 再用Blender做3D編輯 → 最后用擴(kuò)散模型生成高質(zhì)量合成圖像。

接下來看看每一步都是怎么做的吧！

第一步：以物體為中心的分層。（Object-centric Layering）

第一步是將輸入的圖像或視頻中的各個(gè)物體從原有的場景中分離，并推斷出它們的三維信息。

具體來說，BlenderFusion利用現(xiàn)有強(qiáng)大的視覺基礎(chǔ)模型進(jìn)行分割和深度估計(jì)：用Segment Anything Model（SAM）分割畫面中的物體，用Depth Pro模型進(jìn)行深度推斷賦予物體深度。

通過對每一個(gè)被分割出的物體進(jìn)行深度估計(jì)，將來自圖像或視頻的2D輸入投影到3D空間，從而為后續(xù)的3D編輯奠定基礎(chǔ)。

這種做法避免了從頭訓(xùn)練3D重建模型，充分利用了現(xiàn)成的大規(guī)模預(yù)訓(xùn)練能力。

第二步：基于Blender的編輯（Blender-grounded Editing）

第二步是將分離出的物體導(dǎo)入Blender進(jìn)行各種精細(xì)化編輯。在Blender中，既可以對物體進(jìn)行多種操作（顏色、紋理、局部編輯、加入新物體等），也可以對相機(jī)進(jìn)行控制（如相機(jī)視點(diǎn)和背景變化）。

第三步：生成式合成（Generative Compositing）

雖然通過Blender渲染后的場景在空間結(jié)構(gòu)上高度準(zhǔn)確，但外觀、紋理和光照仍然相對粗糙。

因此，在流程的最后一步，Blender Fusion引入了擴(kuò)散模型（SD v2.1）對結(jié)果進(jìn)行視覺增強(qiáng)。

為此，Blender Fusion提出了雙流擴(kuò)散合成器（dual-stream diffusion compositor）。

該模型同時(shí)接收：原始輸入場景（未編輯）和編輯后的粗渲染圖像。通過對比兩者，模型學(xué)習(xí)在保持全局外觀一致性的同時(shí)，僅在需要編輯的區(qū)域進(jìn)行高保真改動。這樣可以避免傳統(tǒng)擴(kuò)散模型“重繪全圖”導(dǎo)致的失真，也防止未修改部分的退化。

一些trick

此外，為了提高Blender Fusion的泛化性，論文中還透露了兩項(xiàng)重要的訓(xùn)練技巧：

源遮擋（Source Masking）：在訓(xùn)練時(shí)隨機(jī)遮蔽源圖部分，迫使模型學(xué)會基于條件信息恢復(fù)完整圖像。

模擬物體抖動（Simulated Object Jittering）：模擬物體的隨機(jī)偏移和擾動，提高對相機(jī)和物體的解耦能力。這一組合顯著提升了生成結(jié)果的真實(shí)感和一致性。

結(jié)果演示

Blender Fusion在針對物體和相機(jī)操控的視覺生成中取得了不錯(cuò)的效果。

正如我們在文章開頭的demo中所演示的，通過任意控制方向鍵來控制物體在圖像中的位置，畫面保持了較強(qiáng)的一致性與連貫性。

此外，Blender Fusion還能夠在各種復(fù)雜的場景編輯中保持空間關(guān)系和視覺連貫性，主要包括：

單幅圖像處理：靈活地重新排列、復(fù)制和變換物體，以及改變相機(jī)視角。

多圖像場景重組：組合任何圖像中的物體以創(chuàng)建全新的場景。

泛化：這些編輯功能成功地推廣到訓(xùn)練期間未見過的物體和場景。

在AI視覺合成越來越卷的當(dāng)下，Blender Fusion就像給創(chuàng)作者多了一只“第三只手”。

用戶不再被提示詞困住，也不需要反復(fù)試錯(cuò)就能拼出理想畫面。

從物體分層到三維編輯，再到高保真生成，這套流程不僅讓AI圖像合成更“聽話”，也讓玩法更自由。

或許，你的下一次生圖將不再是“遣詞造句”，而是能像搭積木一樣，把每個(gè)細(xì)節(jié)都親手?jǐn)[到位。

論文地址： https://arxiv.org/abs/2506.17450

項(xiàng)目頁面： https://blenderfusion.github.io/#compositing

責(zé)任編輯：張燕妮來源：量子位

3D 圖像生成 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

謝賽寧團(tuán)隊(duì)新作：不用提示詞精準(zhǔn)實(shí)現(xiàn)3D畫面控制

圖像合成三步走

一些trick

結(jié)果演示