生圖效果媲美GPT-4o,一鍵搞定各類視覺生成任務(wù)丨港科廣&字節(jié)全新框架
圖像生成、視頻創(chuàng)作、照片精修需要找不同的模型完成也太太太太太麻煩了。
有沒有這樣一個“AI創(chuàng)作大師”,你只需要用一句話描述腦海中的靈感,它就能自動為你搭建流程、選擇工具、反復(fù)修改,最終交付高質(zhì)量的視覺作品呢?
這一切,現(xiàn)在通過一個由港科大(廣州)和字節(jié)聯(lián)合出品的全新的開源框架——ComfyMind實現(xiàn)了。
ComfyMind是一個通用視覺生成框架,它旨在用一套系統(tǒng),統(tǒng)一處理從文本到圖像、從圖像到視頻等所有主流視覺生成任務(wù)。
在多個行業(yè)基準(zhǔn)測試中,ComfyMind的性能全面超越現(xiàn)有開源方法,達(dá)到了與閉源的GPT-4o-Image相媲美的水平。
從“手工作坊”到“智能工廠”
無論是讓棱鏡散射出物理精確的彩虹,還是給蛋糕切上一塊,甚至將一個Logo無縫融入產(chǎn)品,ComfyMind都能輕松勝任。
來看看效果。
結(jié)合光學(xué)知識,生成一張玻璃棱鏡的光散射的圖像:
給一張蛋糕的圖像,將給定蛋糕切角:
給一張Logo圖像,將Logo嵌入杯子:
生成一個長度為8秒的海邊燃燒的篝火的視頻:
雖然視覺生成模型突飛猛進(jìn),但真正能“一套系統(tǒng)包打所有任務(wù)”的開源框架依舊脆弱,難以支撐真實生產(chǎn)訴求;
相對地,閉源GPT-Image-1(即GPT-4o-Image)雖效果出眾,卻無法被社區(qū)自由擴(kuò)展或調(diào)優(yōu)。
ComfyUI的節(jié)點(diǎn)式設(shè)計為“可視化、模塊化”奠定了基礎(chǔ),理論上任何任務(wù)都能通過組合節(jié)點(diǎn)完成;
然而,當(dāng)工作流跨越多模態(tài)、多階段時,手工搭建不僅耗時費(fèi)力,更對專業(yè)知識要求極高,成為創(chuàng)作的門檻。
ComfyAgent等LLM-驅(qū)動方案已經(jīng)開始嘗試自動生成工作流,但它們依賴扁平JSON 解碼,既難以表達(dá)模塊層級,又缺乏執(zhí)行端反饋,導(dǎo)致節(jié)點(diǎn)缺漏與語義漂移。
人類藝術(shù)家在構(gòu)建復(fù)雜流程時,會先拆解任務(wù),再局部試錯、局部修正。
借鑒這一策略,該團(tuán)隊提出ComfyMind:以“原子工作流”為最小單位,以自然語言描述接口,結(jié)合樹狀規(guī)劃加局部反饋執(zhí)行,將視覺內(nèi)容創(chuàng)作轉(zhuǎn)化為分層決策問題,從而在保持靈活性的同時,顯著提升穩(wěn)健性與擴(kuò)展性。
給Comfyui裝上大腦,會規(guī)劃,更會“返工”
上圖展示了ComfyMind系統(tǒng)pipeline。
整體架構(gòu):“ComfyUI × 多代理協(xié)同”
ComfyMind將ComfyUI僅視為底層執(zhí)行引擎:所有高層決策由規(guī)劃-執(zhí)行-評估三代理協(xié)作完成。
規(guī)劃代理自頂向下拆解任務(wù);
執(zhí)行代理把每一步映射成JSON工作流并結(jié)合ComfyUI進(jìn)行具體生成;
評估代理在生成流程結(jié)束時使用VLM判定生成質(zhì)量與指令一致性,并把診斷信息返回給上一層級。
語義工作流接口:把節(jié)點(diǎn)圖“函數(shù)化”
論文提出的語義工作流接口將社區(qū)驗證的T2I、I2V、Mask生成等模板封裝為“原子工作流”,并以自然語言標(biāo)注其功能和必選/可選參數(shù)。
規(guī)劃代理因此能夠在純語義空間像調(diào)用高階函數(shù)那樣組合模塊,無需接觸易錯的JSON語法,徹底消除“漏節(jié)點(diǎn)”“拼接錯誤”等結(jié)構(gòu)性故障。
所有SWI描述集中于單一文檔直接注入LLM上下文,擺脫對3200+節(jié)點(diǎn)檢索數(shù)據(jù)集的依賴,實現(xiàn)零-RAG的快速擴(kuò)展能力。
樹狀規(guī)劃+局部反饋:「分塊-修補(bǔ)」策略
復(fù)雜指令被遞歸拆分為子目標(biāo),形成 語義搜索樹;每個節(jié)點(diǎn)代表局部規(guī)劃,邊對應(yīng)一次SWI調(diào)用。
系統(tǒng)在節(jié)點(diǎn)處僅執(zhí)行鏈?zhǔn)缀瘮?shù)并即時評估——若失敗,錯誤與重規(guī)劃被限制在當(dāng)前層級,已通過的分支原地保留,避免全鏈重跑與策略振蕩。
全面的性能評估,在三大基準(zhǔn)對比
ComfyBench自動工作流構(gòu)建
ComfyMind在ComfyBench全難度任務(wù)上取得100%的通過率,消除JSON級失敗。
同時,將問題解決率在Vanilla、Complex、Creative難度上分別較ComfyAgent提升100%、292%和283%,凸顯多代理-ComfyUI體系在通用生成與編輯任務(wù)上的卓越泛化能力與輸出質(zhì)量。
Geneval文生圖
在GenEval中,ComfyMind獲得0.90總分,較開源基線SD3與Janus-Pro-7B分別領(lǐng)先0.16和0.10,并在六大維度中的五項及總體成績超越GPT-Image-1。
定性對比進(jìn)一步顯示,在各類約束下,本系統(tǒng)同時滿足了指令并生成視覺連貫的高質(zhì)量圖像。
Reason-Edit圖像編輯
在Reason-Edit基準(zhǔn)上,ComfyMind以0.906的GPT-score較前開源SOTA SmartEdit提升+0.334,并接近GPT-Image-1(0.929)。
定性對比亦表明,ComfyMind相較于在精準(zhǔn)完成復(fù)雜編輯指令的同時還保持了非編輯區(qū)域的細(xì)節(jié)與風(fēng)格一致。
而GPT-Image-1常出現(xiàn)紋理丟失、色調(diào)漂移或比例失真等瑕疵。
總結(jié)
論文提出了基于ComfyUI平臺構(gòu)建的全新框架ComfyMind。
ComfyMind將視覺內(nèi)容創(chuàng)建概念化為一個模塊化、語義結(jié)構(gòu)化的規(guī)劃流程,并將基于樹的規(guī)劃與局部反饋執(zhí)行相結(jié)合。
ComfyMind框架性能超越了之前的開源方法,并取得了與GPT-Image-1相當(dāng)?shù)慕Y(jié)果。
相關(guān)論文,在線Demo, 代碼,項目主頁等均已公開公布。
感興趣的小伙伴可以進(jìn)一步體驗和探索。
論文鏈接: https://arxiv.org/abs/2505.17908
項目主頁鏈接: https://litaoguo.github.io/ComfyMind.github.io/
在線Demo鏈接: https://envision-research.hkust-gz.edu.cn/ComfyMind/