AI視頻新霸主全網(wǎng)翻車,Ilya奧特曼老黃打起來了!動畫出現(xiàn)詭異狗頭網(wǎng)友笑瘋
昨天誕生的??AI視頻新霸主——Luma AI的Dream Machine??,再次在整個互聯(lián)網(wǎng)掀起高潮。
網(wǎng)友們昨天還集體表示,要舍棄Pika和Runway了,Dream Machine最好!
借著每個月免費生成三十次的羊毛,大家紛紛試用。但是,其中有不少翻!車!了!
AI圈大佬奧特曼、老黃和Greg正一團和氣地合影,下一秒Greg就突然變臉,一拳揍在奧特曼胸前。隨后三人陷入纏斗模式,現(xiàn)場亂成一團。
以及下面這個OpenAI曾經(jīng)一團和氣的大合影——
經(jīng)過Luma模型的妙手之后,又變成了大亂斗場面。
但其實Dream Machine并不是一個有「暴力傾向」的模型,它很少生成打架場面。
比如下面這個,通過奧斯卡頒獎禮的合照生成出的視頻,氣氛依舊溫馨。
看來OpenAI的「宮斗」太明顯,連模型都知道了照片背后的故事。(不會是Sora給Dream Machine傳了八卦吧)
網(wǎng)友實測讓Luma生成動畫,發(fā)現(xiàn)畫面極其詭異——
白色的狗頭迅速出現(xiàn)在身體的各部位,隨后白狗有絲分裂出第二只白狗,最后白狗直接和棕狗實現(xiàn)了換頭。
果然,四年寒窗無人問,一朝翻車天下知。
而且,有推特網(wǎng)友發(fā)現(xiàn),Luma非常傾向于讓圖片中的人物轉身離開,比如下面這張威利·旺卡。
把各種頭像圖片輸入進去,得到也是類似的結果。
這雖然無傷大雅,但是這種單調且「我行我素」的生成結果有些令人惱火,好像是模型怕自己搞出「變臉」,所以干脆讓人物轉頭了。
Luma AI表情包
雖然翻車案例很多,但是創(chuàng)意無限的網(wǎng)友們還是發(fā)掘出Dream Machine一個非常有前途的應用——生成表情包動圖。
比如這張非常著名的模因圖片,經(jīng)常被用于p成各種表情包:
把圖片輸入給Luma的模型,它會「腦補」出什么畫面?
是正牌女友生氣吵架?
還是干脆分手另覓新歡?
看出來Dream Machine的drama特質了,腦補出來的都是大型人性修羅場。
甚至,這個表情包還舞到了Andrej Karpaty大佬面前,他也表示自己受到了一些AI技術的震撼。
Luma AI將圖像擴展為視頻的新模型確實是另一回事。我憑直覺知道這很快就會成為可能,但看到它并思考未來的迭代仍然是另一回事。
再輸入一只表情倔強的柴犬照片,就得到了一張完美的動圖。
但下面這個生成結果相對平淡,人物轉頭后,臉上的表情也消失了。
根據(jù)著名的「地鐵老人看手機」生成動圖后,痛苦的感覺似乎加劇了。
把圖片生成模型和Luma放在一起用,還會碰撞出意想不到的效果。
有人突發(fā)奇想,用Midjourney生成一張教皇穿羽絨服的圖片,再讓他走幾步,突然可愛了起來。
搭配Stable Diffusiion 3生成的詭異人體圖片,輸出的動圖簡直是「恐怖」效果加倍。
Luma不僅沒有把畸形的人體糾正過來,而且將錯就錯。拉近鏡頭后,人物原本正常的表情都變得令人發(fā)指了。
發(fā)出這些視頻的帖子中,博主還很禮貌地附上了一句「I'm sorry…」,評論表示,看完就后悔了。
SD 3翻車
說到剛放出的Stable Diffusion 3的「翻車」圖片,這也是網(wǎng)友們最近的快樂源泉。
「我很久沒這么開心過了。」
Stability AI表示,這是他們「迄今為止最復雜的圖像生成模型」,卻引來了全網(wǎng)群嘲。生成的一堆「畸形」圖片反而讓人認為它大幅退步,落后于Midjourney和DALL-E。
圖片的「畸形」程度有多嚴重呢?
是看了可以做噩夢的地步。
比如,生成出的手指不僅數(shù)量不對,形狀也十分離奇,根本不像人類的手指。
這張圖讓人突然想到《瞬息全宇宙》的「香腸手指」設定。
如果僅僅是手指也還說得過去,畢竟這一直是圖像生成模型的「頑疾」。
然而,SD3已經(jīng)到了連人類四肢、軀干都不能好好生成的地步了。
下面這張草地上的人體圖片,幾乎已經(jīng)成為SD3翻車的標志性象征了,全身上下沒有一個地方是合理的。
在沙灘上的這兩張,乍一看外形還不錯,細看才能發(fā)現(xiàn)有許多恐怖之處。
更匪夷所思的還在下面——
在Reddit的帖子上,網(wǎng)友甚至發(fā)出嘲笑般的質疑「這應該是個笑話吧?」
「一段時間前,StableDiffusion 還在與 Midjourney 競爭,現(xiàn)在它看起來就像一個笑話。至少我們的數(shù)據(jù)集是安全和道德的!」
即使與Stability之前發(fā)布的模型相比,也能看出SD3的顯著退步。
有網(wǎng)友用相同的prompt輸入給SD 1.5、SDXL Turbo和SD 3,并比較了這三個模型的輸出結果。
最早的SD 1.5即使沒辦法做到百分百正確、逼真,至少不會錯誤到離譜和「恐怖」的程度。
上一代SDXL Turbo生成的圖片在真實感之外還做到了構圖和光影的美感。
下面的這個對比更加明顯,SD3和SDXL的能力仿佛不在一個世界。
這不禁讓人懷疑,SD3到底怎么了?
有Reddit用戶認為,Stable Diffusion 3的解剖學失敗是由于Stability堅持從訓練數(shù)據(jù)中過濾掉成人內容(即NSFW內容,not suitable for work)。
「信不信由你,嚴格審查模型也會去除人體解剖學內容,所以……這就是發(fā)生的原因。」
這個說法雖然乍一聽不符合直覺,卻有跡可循。
當prompt涉及到 訓練數(shù)據(jù)集中未能很好代表的概念時,模型就會根據(jù)自己的理解進行最佳解釋。
而SD3生成的恐怖結果,就是在沒有足夠訓練數(shù)據(jù)時,它眼中的人體合理形態(tài)。
類似的問題在以前也曾出現(xiàn)過,比如2022年發(fā)布的Stable Diffusion 2.0也無法很好地表現(xiàn)人體。
當時,研究人員很快發(fā)現(xiàn),審查包含裸體的成人內容會嚴重阻礙模型生成準確人體解剖學的能力。
因此,Stability AI 在SD 2.1和SD XL中迅速調整了策略,才讓模型恢復了一些因堅決過濾NSFW內容而失去的能力。
在模型預訓練期間可能發(fā)生的另一個問題是,用來從數(shù)據(jù)集中刪除成人圖像的NSFW過濾器有時太過挑剔,意外地刪除了可能并不冒犯的圖像,從而剝奪了模型在某些情況下對人類的描繪。
對此,有網(wǎng)友猜測「(SD3)只要圖片中沒有人類就能正常工作,我認為他們改進的NSFW過濾器把所有類人形象都當成了NSFW。」
Stability AI深陷泥沼
Stability在今年2月宣布了Stable Diffusion 3,并計劃推出多個版本。
最新發(fā)布這一版被稱為「Medium」,有2B參數(shù)。模型的權重已經(jīng)開源,既能從Hugging Face下載,也能通過Stability Platform進行實驗。
論文地址:https://arxiv.org/abs/2112.10752
2月官宣后不久,SD3 模型權重的發(fā)布卻延遲了,這激起了Stability存在技術問題或管理不善的謠言。
事實上,???Stability這幾個月在人事方面的確十分混亂??,其創(chuàng)始人兼CEO Emad Mostaque于三月份辭職,隨后是一系列裁員。
三位Stable Diffusion的靈魂人物——Robin Rombach、Andreas Blattmann 和 Dominik Lorenz也——離開了公司。
此外,Stability甚至還面臨著資金方面的困難。2023 年以來,公司財務狀況不佳的消息一直在流傳。
對于一些Stable Diffusion的粉絲來說,SD 3 Medium的失敗是公司管理不善的外在結果——也是事態(tài)惡化的明顯跡象。盡管公司尚未申請破產(chǎn),但在看到新模型后,一些用戶開始寫下關于破產(chǎn)的黑色幽默段子:
「我猜現(xiàn)在他們能以一種安全且道德的方式破產(chǎn)了。」
本文轉自 新智元 ,作者:新智元
