Stable Diffusion 3開源秒翻車,畫人好掉san
沒想到……Stable Diffusion 3開源即出現翻車案例。
生成一個躺在草地上的女孩,結果長這樣?
而且不是個例,只要是和人(整體)相關的內容,生成結果都有點掉san。
(前方高能)
但如果是局部,比如只生成人臉,確實很nice。
清晰度、寫字、寫實性等方面都有明顯提升。
對于復雜長提示詞的理解也很到位,有網友發現提示越長它畫的越好。
那么問題來了,為啥偏偏畫不好人類?
問題可能在于數據集
先來看看SD3開源的具體情況。
本次開源的版本是Stable Diffusion 3 Medium(中杯)。
它的規模為20億參數,在筆記本上就能跑了。
官方強調的屬性有5方面,逐一來看:
- 整體質量和寫實性
可生成出色的細節,包括色彩、光線、強寫實等,帶來靈活風格的高質量輸出。
通過16通道VAE,成功解決了其他模型的常見缺陷,比如手部和面部的寫實問題。
- 提示詞理解
可以理解復雜長提示,包含空間推理、元素組合、動作、風格等。3個文本編碼器可以全部或者組合使用,方便用戶平衡性能和顯存。
- 有效利用資源
對VRAM占用很低,非常適合在消費級GPU上運行,且性能不降低。
- 微調
能夠利用小數據集微調,方便定制化。
目前在Hugging Face上已經可以下載模型權重。非商業用途可免費下載使用,商業用途需要先拿授權。
那么為啥升級后還是會翻車?
有人發現,如果細看“躺在草坪上的女孩”這張圖像,會發現它在局部細節上確實還可以,甚至很棒。
草地上的影子、衣物上反射的光線、頭發的質地……都遵循了物理規律。
但人物整體就不敢恭維了。
不少網友都認為,這就是問題的關鍵。
我認為他們的NSFW過濾器,把所有人類圖像都判定為了NSFW。
這個過濾器全稱是filtering out adult content,作用在于過濾掉不合規的成人內容。
SD2發布時就出現過類似的問題,研究人員發現審查這部分內容可能影響了模型對人體結構的理解。
后面的SD2.1和SDXL版本有所緩解。
這次SD3的翻車,暴露了一個問題:過于嚴格的數據審核,可能誤刪了一些無害的成人圖像,所以現在模型沒法理解人體結構。
有網友就陰陽說,沒多久之前SD還能和Midjourney競爭,現在一比,就像個笑話。
至少我們的數據集是安全和合乎道德的。
Reddit上“SD3-2B發布是個笑話嗎”的帖子,熱度已經沖到了800+。
當然,除了技術以外的原因,還不少人覺得SD3的性能不佳更進一步暴露了Stability AI的內部混亂。
我猜他們現在可以安全合規地破產了。
欠債1億、疑似求賣身
Stability AI的動蕩,從SD3開源的一再延期就能窺見端倪。
2月發布模型后,一開始,官方說的是搞完RLHF就開源,結果大家伙等了3個多月,官方放出的還是只有API。直到現在,才開源了一個中杯版本。
與此同時,公司CEO Emad辭職+退出董事會。核心團隊也被曝集體離職。
今年5月,據The Information消息,這家初創公司已經面臨嚴重現金短缺:第一季度收入不到500萬美元,而虧損超過了3000萬美元。同時欠了云廠商和其他企業近1億美元,“求賣身”的消息不斷傳出。
值得一提的是,消息稱SD3還將開源更多版本,包括4B和8B。
不知道更大版本效果會如何呢?
官網傳送門:https://stability.ai/news/stable-diffusion-3-medium