超過GPT-image-1!大黑馬Black Forest剛開源新模型,只用文本實(shí)現(xiàn)一鍵PS
今天凌晨,知名開源平臺(tái)Black Forest開源了,文生圖模型FLUX.1-Kontext的開發(fā)者版本。
該版本主要專注于圖像編輯任務(wù),支持迭代編輯,在各種場(chǎng)景和環(huán)境中都能出色地保留角色特征,還允許進(jìn)行精確的局部和全局編輯,例如,用戶想給一個(gè)人臉加上胡子或者更改衣服穿著、場(chǎng)景,F(xiàn)LUX.1-Kontext都能輕松實(shí)現(xiàn)。
簡(jiǎn)單來說,F(xiàn)LUX.1-Kontext開發(fā)版的主要功能可以像PS一樣,讓用戶通過自然語言就能實(shí)現(xiàn)一鍵P圖。
開源地址:https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev
Github:https://github.com/black-forest-labs/flux
根據(jù)Black Forest公布的測(cè)試數(shù)據(jù)顯示,F(xiàn)LUX.1-Kontext開發(fā)版在人類偏好評(píng)估、指令編輯、文本插入與編輯、樣式參考等評(píng)估基準(zhǔn)中,超過了OpenAI發(fā)布的最新文生圖模型GPT-image-1,成為目前最強(qiáng)開源文生圖模型之一。
FLUX.1-Kontext是在Black Forest之前開源的爆火模型FLUX.1基礎(chǔ)之上開發(fā)而成。FLUX.1 Kontext 采用了基于流匹配的生成模型架構(gòu),其基礎(chǔ)是在圖像自動(dòng)編碼器的潛在空間中運(yùn)行的整流Transformer。
圖像會(huì)被凍結(jié)的FLUX自動(dòng)編碼器編碼為潛在 tokens,這些上下文圖像 tokens 會(huì)被附加到目標(biāo)圖像 tokens 上,再送入模型的視覺流。這種序列連接策略有兩個(gè)顯著優(yōu)勢(shì),一是能夠支持不同輸入 / 輸出分辨率和寬高比,二是可以輕松擴(kuò)展到多個(gè)上下文圖像的場(chǎng)景。
為了區(qū)分上下文和目標(biāo)內(nèi)容,模型通過三維旋轉(zhuǎn)位置嵌入來編碼位置信息,為上下文 tokens 設(shè)置恒定的時(shí)間偏移,使上下文和目標(biāo)塊在保持內(nèi)部空間結(jié)構(gòu)的同時(shí)被清晰分離。
FLUX.1-Kontext的訓(xùn)練是基于整流流匹配損失函數(shù),其核心目標(biāo)是預(yù)測(cè)噪聲速度以匹配潛在空間中的噪聲分布。訓(xùn)練過程中會(huì)在干凈圖像和噪聲之間進(jìn)行線性插值得到混合潛在表示,模型需要學(xué)習(xí)預(yù)測(cè)從該混合表示到噪聲的速度向量。
這種訓(xùn)練方式使得模型能夠同時(shí)處理上下文編輯和文本到圖像的生成任務(wù)當(dāng)上下文圖像存在時(shí),模型執(zhí)行圖像驅(qū)動(dòng)的編輯;當(dāng)上下文圖像不存在時(shí),則從零開始生成新內(nèi)容。為了提升訓(xùn)練效率和采樣速度,模型引入了潛在對(duì)抗擴(kuò)散蒸餾技術(shù),通過對(duì)抗訓(xùn)練減少采樣步驟,在保證樣本質(zhì)量的同時(shí),將1024×1024 圖像的生成時(shí)間壓縮至 3-5 秒。
在訓(xùn)練階段,模型基于數(shù)百萬的關(guān)系對(duì)進(jìn)行優(yōu)化,無需針對(duì)不同任務(wù)進(jìn)行參數(shù)調(diào)整或微調(diào)。這種設(shè)計(jì)使其能夠無縫處理局部編輯、全局編輯、角色參考、風(fēng)格參考和文本編輯等任務(wù)。例如,在局部編輯中,模型可以修改汽車顏色而保持背景不變;
在風(fēng)格參考任務(wù)中,它能提取參考圖像的藝術(shù)風(fēng)格并應(yīng)用于新場(chǎng)景。特別值得一提的是,模型在多輪編輯中的角色一致性表現(xiàn)突出,通過 AuraFace 面部嵌入的余弦相似度計(jì)算可以看出,其在連續(xù)編輯中的視覺漂移明顯低于競(jìng)爭(zhēng)對(duì)手,這對(duì)于品牌形象維護(hù)、故事板生成等需要長(zhǎng)期一致性的場(chǎng)景至關(guān)重要。
為了實(shí)現(xiàn)快速推理,模型在工程層面進(jìn)行了多項(xiàng)優(yōu)化。在硬件利用方面,Black Forest與英偉達(dá)進(jìn)行技術(shù)合作,專為新的NVIDIA Blackwell 架構(gòu)設(shè)計(jì)了優(yōu)化的 TensorRT 權(quán)重,極大提高了推理速度并降低了內(nèi)存使用量,同時(shí)保持了高質(zhì)量的圖像編輯性能。
同時(shí)使用 Flash Attention 3 和 Transformer 塊的區(qū)域編譯來提高吞吐量。在訓(xùn)練策略上,結(jié)合混合精度訓(xùn)練和選擇性激活檢查點(diǎn)技術(shù),降低顯存占用,支持更大規(guī)模的模型訓(xùn)練。這些優(yōu)化使得FLUX.1 Kontext在保持生成質(zhì)量的同時(shí),實(shí)現(xiàn)了比 GPT-Image-1 等模型快一個(gè)數(shù)量級(jí)的推理速度。