Stable Diffusion 3開源秒翻車，畫人好掉san

作者：量子位 2024-06-13 17:45:16

人工智能新聞

2月發布模型后，一開始，官方說的是搞完RLHF就開源，結果大家伙等了3個多月，官方放出的還是只有API。直到現在，才開源了一個中杯版本。

沒想到……Stable Diffusion 3開源即出現翻車案例。

生成一個躺在草地上的女孩，結果長這樣？

而且不是個例，只要是和人（整體）相關的內容，生成結果都有點掉san。

（前方高能）

但如果是局部，比如只生成人臉，確實很nice。

清晰度、寫字、寫實性等方面都有明顯提升。

對于復雜長提示詞的理解也很到位，有網友發現提示越長它畫的越好。

那么問題來了，為啥偏偏畫不好人類？

問題可能在于數據集

先來看看SD3開源的具體情況。

本次開源的版本是Stable Diffusion 3 Medium（中杯）。

它的規模為20億參數，在筆記本上就能跑了。

官方強調的屬性有5方面，逐一來看：

整體質量和寫實性

可生成出色的細節，包括色彩、光線、強寫實等，帶來靈活風格的高質量輸出。

通過16通道VAE，成功解決了其他模型的常見缺陷，比如手部和面部的寫實問題。

提示詞理解

可以理解復雜長提示，包含空間推理、元素組合、動作、風格等。3個文本編碼器可以全部或者組合使用，方便用戶平衡性能和顯存。

有效利用資源

對VRAM占用很低，非常適合在消費級GPU上運行，且性能不降低。

微調

能夠利用小數據集微調，方便定制化。

目前在Hugging Face上已經可以下載模型權重。非商業用途可免費下載使用，商業用途需要先拿授權。

那么為啥升級后還是會翻車？

有人發現，如果細看“躺在草坪上的女孩”這張圖像，會發現它在局部細節上確實還可以，甚至很棒。

草地上的影子、衣物上反射的光線、頭發的質地……都遵循了物理規律。

但人物整體就不敢恭維了。

不少網友都認為，這就是問題的關鍵。

我認為他們的NSFW過濾器，把所有人類圖像都判定為了NSFW。

這個過濾器全稱是filtering out adult content，作用在于過濾掉不合規的成人內容。

SD2發布時就出現過類似的問題，研究人員發現審查這部分內容可能影響了模型對人體結構的理解。

后面的SD2.1和SDXL版本有所緩解。

這次SD3的翻車，暴露了一個問題：過于嚴格的數據審核，可能誤刪了一些無害的成人圖像，所以現在模型沒法理解人體結構。

有網友就陰陽說，沒多久之前SD還能和Midjourney競爭，現在一比，就像個笑話。

至少我們的數據集是安全和合乎道德的。

Reddit上“SD3-2B發布是個笑話嗎”的帖子，熱度已經沖到了800+。

當然，除了技術以外的原因，還不少人覺得SD3的性能不佳更進一步暴露了Stability AI的內部混亂。

我猜他們現在可以安全合規地破產了。

欠債1億、疑似求賣身

Stability AI的動蕩，從SD3開源的一再延期就能窺見端倪。

2月發布模型后，一開始，官方說的是搞完RLHF就開源，結果大家伙等了3個多月，官方放出的還是只有API。直到現在，才開源了一個中杯版本。

與此同時，公司CEO Emad辭職+退出董事會。核心團隊也被曝集體離職。

今年5月，據The Information消息，這家初創公司已經面臨嚴重現金短缺：第一季度收入不到500萬美元，而虧損超過了3000萬美元。同時欠了云廠商和其他企業近1億美元，“求賣身”的消息不斷傳出。

值得一提的是，消息稱SD3還將開源更多版本，包括4B和8B。

不知道更大版本效果會如何呢？

官網傳送門：https://stability.ai/news/stable-diffusion-3-medium

責任編輯：張燕妮來源：量子位

AI 數據

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Stable Diffusion 3開源秒翻車，畫人好掉san

問題可能在于數據集

欠債1億、疑似求賣身