被吉卜力刷屏的背后:OpenAI模型行為負責(zé)人揭秘GPT-4o新生成策略
最近幾天,OpenAI 革新的 GPT-4o 圖像功能給大家?guī)砹瞬簧贅啡ぃ髀飞缃幻襟w都被「吉卜力」風(fēng)格的圖像、視頻刷了屏。機器之心還嘗試了制作了《甄嬛傳》的名場面(視頻如下,制作方法參見《GPT-4o 整活!3 個小時、6 個鏡頭重現(xiàn)吉卜力版《甄嬛傳》名場面》)。
其實,除了效果的大幅提升,這次 GPT-4o 更新還有一個值得關(guān)注的變化 —— 內(nèi)容限制似乎比以前少了很多,很多公眾人物 —— 如馬斯克、特朗普 —— 現(xiàn)在都可以生成。而之前,模型會直接拒絕這類請求。
圖源:https://x.com/morganlinton/status/1905081523768095049/photo/1
GPT-4o 生成的雷軍相關(guān)圖像。
為什么會發(fā)生這種變化?昨晚,OpenAI 的模型行為負責(zé)人 Joanne Jang 發(fā)文做出了解釋。
她表示:
OpenAI 正從敏感領(lǐng)域的全面拒絕轉(zhuǎn)向更精確的方法,專注于防止現(xiàn)實世界的傷害。目標(biāo)是保持謙遜:認識到我們不知道的有多少,并讓自己能夠隨著學(xué)習(xí)而適應(yīng)。
圖像有一種獨特而強大的震撼力;它們能帶來無與倫比的愉悅和沖擊。與文本不同,圖像超越語言障礙,喚起各種情感反應(yīng)。它們能立即闡明復(fù)雜的想法。
正因為圖像具有如此大的影響力,我們在制定政策和行為方面感到比其他發(fā)布更重的責(zé)任。
當(dāng)涉及到發(fā)布新功能時,我們的觀點已經(jīng)在多次發(fā)布中演變:
1. 相信用戶的創(chuàng)造力勝過我們自己的假設(shè)。 AI 實驗室員工不應(yīng)該成為決定人們應(yīng)該或不應(yīng)該創(chuàng)造什么的仲裁者。發(fā)布后我們總是感到謙卑,發(fā)現(xiàn)了我們從未想象過的使用案例 —— 甚至有些事后看來如此明顯,但由于我們視角有限而沒有想到。
2. 清晰地看到風(fēng)險,但不要忽視對用戶的日常價值。 專注于潛在危害很容易,廣泛的限制總是感覺最安全(也最容易!)。我們經(jīng)常發(fā)現(xiàn)自己在質(zhì)疑,「當(dāng)同樣的梗圖可能被用來冒犯或傷害人們時,我們真的需要更好的梗圖功能嗎?」。但我認為這種框架本身就有缺陷。它暗示著細微的、日常的好處必須在假設(shè)的最壞情況下證明自己,而這種情況低估了這些快樂、幽默和聯(lián)系的小時刻如何真正改善人們的生活。
3. 重視未知、無法想象的可能性。 也許是由于我們對損失厭惡的認知偏見,我們很少考慮不作為的負面影響;有些人稱之為「無形的墓地」,盡管這有點太陰暗和極端。新功能解鎖的二階或間接影響:所有那些因為我們害怕最壞情況而從未實現(xiàn)的積極互動、創(chuàng)新和想法現(xiàn)在可以實現(xiàn)了。
應(yīng)對這些挑戰(zhàn)很困難,但我們的目標(biāo)是最大限度地發(fā)揮創(chuàng)造自由,同時防止真正的傷害。
公眾人物:我們知道處理公眾人物可能很棘手 —— 尤其是當(dāng)新聞、諷刺和被描繪人物的利益之間的界限變得模糊時。我們希望我們的政策公平平等地適用于每個人,無論他們的「地位」如何。但我們決定不做「誰足夠重要」的裁判,而是創(chuàng)建一個選擇退出列表,讓任何可能被我們的模型描繪的人自己決定。
「冒犯性」內(nèi)容:當(dāng)涉及到「冒犯性」內(nèi)容時,我們推動自己反思任何不適是源于我們的個人意見或偏好,還是源于對現(xiàn)實世界造成傷害的可能性。在沒有明確指導(dǎo)方針的情況下,模型以前會拒絕諸如「讓這個人的眼睛看起來更亞洲化」或「讓這個人更胖」的請求,無意中暗示這些特征本身就是冒犯性的。
……
總之,以上種種考慮,加上 OpenAI 在精確評估技術(shù)方面的進步,促使他們采取了更寬松的政策。
Joanne Jang 還引用了同事 Jason Kwon 的一句話:「船在港口最安全;最安全的模型是拒絕一切的模型。但這不是船或模型的用途。 」
這也解釋了為什么我們現(xiàn)在可以看到那么多吉卜力風(fēng)格的圖像,因為 GPT-4o 現(xiàn)在被允許模仿皮克斯、吉卜力等創(chuàng)意工作室的風(fēng)格。
不過,OpenAI 現(xiàn)在仍限制模型模仿在世藝術(shù)家的個人風(fēng)格,因為一旦放開,關(guān)于 AI 訓(xùn)練數(shù)據(jù)集中版權(quán)作品合理使用的爭論又會變得棘手。
目前已經(jīng)可以看到的是,GPT-4o 所帶來的效果提升正在給廣告、影視、游戲等行業(yè)帶來新變化。
把 GPT-4o 和其他工具一起使用,往往會給人帶來新的驚喜。
不過,OpenAI 并沒有公布 GPT-4o 的圖像處理技術(shù)細節(jié),只提到采用了類似語言模型的自回歸方法。所以,關(guān)于其背后技術(shù),目前有很多猜測。
如果你有更合理的猜想,歡迎在評論區(qū)留言。