成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OpenAI祭出120億參數魔法模型!文本合成圖像栩栩如生,仿佛擁有人類的語言想象力

新聞 人工智能
OpenAI重磅推出了最新語言模型—DALL·E,它是GPT-3的120億參數版本,可以魔法一般按照自然語言文字描述直接生成對應圖片!

本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。

2021剛剛開啟,OpenAI又來放大招了!

能寫小說、哲學語錄的GPT-3已經不足為奇?那就來一個多模態『圖像版GPT-3』。

今天,OpenAI重磅推出了最新語言模型—DALL·E,它是GPT-3的120億參數版本,可以魔法一般按照自然語言文字描述直接生成對應圖片!

比如,在DALL·E模型中輸入“穿芭蕾舞短裙、正在遛狗的蘿卜寶寶”,它就可以生成這樣一張圖片:

OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類的語言想象力

輸入“鱷梨形狀的扶手椅”,就是這樣:

 OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類的語言想象力

甚至輸入“含OpenAI字樣的店鋪”,它也能成生成多種設計圖:

OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類的語言想象力

DALL·E這項神技能沖上了各大社交平臺的熱搜。

Keras創始人François Chollet特意發文稱:

這看起來非常酷,尤其是“圖像生成”的部分。從原理上來看,它應該就是GPT-3在文本合成圖像方向上的擴展版本。

AI大神吳恩達也第一時間轉推點贊,還順帶挑選了一張滿意的藍色襯衫 + 黑色長褲的AI 生成圖。

OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類的語言想象力

OpenAI 聯合創始人、首席科學家 Ilya Sutskever 在推特上發文表道:人工智能的長期目標是構建多模態神經網絡,即AI能夠學習不同模態之間的概念(文本和視覺領域為主),從而更好地理解世界。而 DALL·E 和 CLIP 使我們更接近“多模態 AI 系統”這一目標。

OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類的語言想象力

值得一提的是,DALL·E的命名也很特別。這個善于繪畫創作的模型名稱來源于人類藝術家薩爾瓦多·達利(Salvador Dalí)和皮克斯(Pixar)機器人WALL·E名稱的結合。

OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類的語言想象力

接下來,我們來詳細介紹一下它還有哪些硬核能力。

DALL·E的能力

DALL·E能夠為多語言成分結構的各種句子創造似是而非的圖像。研究人員通過一些交互視覺效果舉例說明了這一點。在下面的案例中,每個視覺效果的文本提示都是通過CLIP重新排序后,從512個文本提示中的前32個獲得的,不采取任何手動選取(cherry-picking)。

控制屬性

研究人員測試了DALL·E修改目標物體的能力,包括修改相應的屬性以及出現的次數。

文本提示:五邊形的綠色鐘。

 OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類的語言想象力

繪制多個目標

同時控制多個目標物體、以及它們的屬性、空間關系是一個全新的挑戰。

例如,“一只戴著紅帽子、黃手套、藍襯衫和綠褲子的刺猬”。要正確地解釋這句話,DALL·E 不僅要正確地將每件衣服與動物組合在一起,還要將(帽子、紅色)、(手套、黃色)、(襯衫、藍色)和(褲子,綠色)形成各種聯想,而且不能混淆它們。

文本提示:一堆三維立方體:紅色的立方體在綠色立方體的頂部;綠色立方體在中間;藍色立方體在底部。

OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類的語言想象力

雖然DALL·E確實為少量目標的屬性和位置提供了某種程度的可控性,但成功率取決于標題文本的語言措辭。

隨著目標的增多,DALL·E容易混淆目標與顏色之間的關聯,成功率會急劇降低。研究人員注意到,在這些場景中,DALL·E對于標題文本的重新表述是脆弱的、可替代的,語義上等價的標題文本通常不會產生正確的解釋。

可視化透視與三維

研究人員發現DALL·E還能夠控制場景的視點和渲染場景的3D樣式。

文本提示:坐在田野上的體素化模型水豚。

OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類的語言想象力

為了進一步驗證DALL·E的這個能力,研究人員測試了DALL·E在同等視角下重復繪制知名人物頭部的能力,并發現DALL·E可以成功恢復旋轉頭部的平滑動畫。

文本提示: 荷馬半身像。

OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類的語言想象力

DALL·E能夠將某些類型的光學畸變(Optical Distortions)應用到具體場景中,正如我們在“魚眼透鏡視圖(Fisheye Lens View)”和“球形全景圖(Spherical Panorama.)”等場景中看到的那樣。它促使研究人員探索其產生光學反射的能力。

文本提示:一個白色的立方體看著自己在鏡子里的倒影;一個白色的立方體看著鏡子里的自己。

OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類的語言想象力

可視化內部和外部結構

“特寫鏡頭(Extreme Close-up View)”和“x射線(X-Ray)”風格的案例使研究人員進一步探索了DALL·E運用橫截面視角繪制內部結構和用宏觀圖像繪制外部結構的能力。

文本提示:核桃的橫截面圖。

OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類的語言想象力

推斷上下文細節

將文本翻譯成圖像的任務是不明確的:一個標題文本通常可以對應無限多種圖像,換句話說,圖像不是唯一確定的。例如,假如標題文本是“日出時,坐在田野上的水豚的繪畫像。根據水豚的方位,可能需要畫一個陰影,但這個細節沒有被明確提及。

研究人員探討了DALL·E在以下三種情況下解決無規范標準問題的能力:改變風格、設置和時間;在各種不同的情況下繪制同一目標圖像;在生成目標圖像上書寫指定文本。

文本提示:帶有藍色草莓的彩色玻璃窗。

OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類的語言想象力

利用不同程度的可靠性,DALL·E為通過自然語言實現3D渲染引擎功能提供了一種途徑。它可以獨立地控制少量目標的屬性,并在有限的范圍內控制目標的數量以及它們之間的排列方式。它還可以控制渲染場景的位置和角度,并且根據角度和照明條件生成精確且規范的已知目標。

與3D渲染引擎不同,3D渲染引擎的輸入必須明確且完整,當標題文本暗示圖像必須包含未明確的特定細節時,DALL·E通常能夠“填補空白”。

應用案例

研究人員探討了上述功能在時尚設計和室內設計中的應用。

文本提示:一位穿著橘色和黑色相間襯衫的男性人體模特。

OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類的語言想象力

文本提示:客廳中有兩個白色的扶手椅和一幅斗獸場的畫,這幅畫掛在現代樣式壁爐的上方。AI生成的圖像:

OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類的語言想象力

組合不相關的概念

語言的構成本質使人們能夠將概念描述集成在一起,用以描述真實和虛構的事物。 OpenAI發現,DALL·E還具有將完全不同的idea結合起來以合成物體的能力,其中有些物體不可能在現實世界中存在。

OpenA在兩種情況下探索這種能力:將各種概念的特質傳遞給動物,以及從不相關的概念中汲取靈感來設計產品。

文本提示:豎琴狀的蝸牛。

OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類的語言想象力

在上一部分中探討了DALL·E在生成真實物體的圖像時結合無關概念的能力。 接下來,OpenAI通過在藝術的背景下的三種插圖探索這種能力:動物和物體的擬人化版本、動物嵌合體、表情符號。

文本提示:長頸鹿烏龜合體的專業高質量插圖,模仿烏龜的長頸鹿,由烏龜變成的長頸鹿。

OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類的語言想象力

零樣本視覺推理

可以僅根據說明和提示來指示GPT-3執行多種任務,而無需任何額外訓練。例如,當提示短語“將‘在公園里walking狗的人’被翻譯成法語:”時,GPT-3會回答“un homme quipromèneson chien dans le parc。此功能稱為零樣本推理。

OpenAI發現DALL·E將此功能擴展到了視覺領域,并且在以正確的方式提示時,能夠執行多種圖像到圖像的翻譯任務。

文本+圖像提示:參照上面的貓在下面生成草圖。

OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類的語言想象力

OpenAI驚訝地發現DALL·E居然有這種神奇的能力,因為他們沒有對神經網絡或訓練程序進行任何修改。

受這些結果的啟發,OpenAI通過在Raven的漸進矩陣上進行測試來衡量DALL·E對于解決類推推理問題的能力,這是一種視覺智商測試,在20世紀得到了廣泛應用。

 文本+圖像提示:一個幾何形狀序列。

OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類的語言想象力

地理知識

OpenAI 發現DALL·E了解地理事實、地標和街區。 它對這些概念的了解在某些方面出奇地精確,而在另一些方面卻有缺陷。

文本提示:中國食物的圖片。

OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類的語言想象力

時間知識

除了探索DALL·E關于隨空間變化的概念的知識外,OpenAI還探索了其隨時間變化的概念的知識。

 文本+圖像提示:20年代發明的電話。

OpenAI祭出120億參數魔法模型!從文本合成圖像栩栩如生,仿佛擁有人類的語言想象力

總結:方法和先前工作

DALL·E是一個僅有解碼器的Transformer架構,它可以接收1280個token的文本和圖像作為單個流(文本為256個token,圖像為1024個token),并對它們全部進行自動回歸建模。

它的64個自注意力層中的每一個都具有注意力mask,使每個圖像token都可以匹配所有文本token。DALL·E對文本token使用標準的因果mask,以行、列或卷積注意模式對圖像token使用稀疏注意,具體取決于層數。

OpenAI計劃在下一篇論文中提供有關DALL·E架構和訓練過程的詳細信息。

與VQVAE-2中使用的rejection sampling類似,OpenAI使用CLIP對每個文本生成的512個采樣中的前32個進行排名。此過程也可以看作是一種語言指導的搜索,會對樣本質量產生巨大影響。

GPT-3已經向我們展示,可以用語言來指示大型神經網絡執行各種文本生成任務。Image GPT則表明,同樣類型的神經網絡也可以用來生成高保真的圖像。OpenAI進一步擴展了這些發現,以表明通過語言操縱視覺概念是觸手可及的。

與GPT-3一樣,DALL·E是一種Transformer語言模型。OpenAI認為,涉及生成模型的工作可能會產生重大而廣泛的社會影響。因此未來,OpenAI會計劃分析像DALL·E這樣的模型如何與社會問題聯系起來,例如對某些工作流程和專業的經濟影響,模型輸出中可能存在的偏見以及該技術所隱含的長期道德挑戰。

最后,Henry AI Labs在YouTube上分享了一個視頻,簡要介紹了OpenAI的DALL-E模型,并表示“希望可以清楚說明深度神經網絡中文本和圖像是如何作為張量統一的。”

由于是非官方解釋,僅供參考。

最后,大家對DALL·E 這個的神經網絡模型有什么應用上的期待呢?二維設計師?

又會覺得它會引導什么AI革命嗎?又或者覺得它會存在很多不可避免的限制?

 

責任編輯:張燕妮 來源: 雷鋒網
相關推薦

2023-09-08 08:08:55

Reac動畫庫場景

2013-03-11 13:38:07

3D照相館

2020-11-23 10:47:46

人工智能開發技術

2021-07-19 14:37:04

AI 數據人工智能

2023-08-31 22:24:18

Vega擴散模型圖像

2021-08-12 09:09:31

電子藝界人工智能游戲人物

2009-08-27 17:12:04

Clojure編程語言Java

2022-09-29 11:33:28

戴爾

2024-01-02 10:05:54

AI3D

2012-02-08 10:25:54

程序員

2021-08-09 17:44:17

人工智能

2025-05-30 09:10:00

2022-05-24 09:35:09

元宇宙GPU技術

2021-06-28 15:49:58

AI 數據人工智能

2023-03-15 10:37:21

OpenAIChatGPT

2016-11-04 09:26:32

微信程序APP

2020-06-11 17:15:31

區塊鏈金融數字貨幣

2020-08-18 16:52:12

商業管理學

2023-06-30 13:13:14

2021-03-26 12:43:27

前端編碼語言
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产高清视频 | 九九热精品视频 | 午夜欧美日韩 | 成人在线网 | 天堂一区| 成人免费视频观看 | 日韩有码在线播放 | caoporn国产精品免费公开 | 久久看看 | 午夜资源| 国产乱码精品1区2区3区 | 欧美一区二区三区在线观看 | 精品乱码一区二区三四区 | 水蜜桃久久夜色精品一区 | 女朋友的闺蜜3韩国三级 | 久久精品性视频 | 99日韩 | 欧美日韩一区二区在线观看 | 中文字幕av亚洲精品一部二部 | 欧美老少妇一级特黄一片 | 免费视频久久久久 | 久久精品亚洲精品国产欧美 | 色精品 | 国产视频久久久久 | 中文字幕 视频一区 | 都市激情亚洲 | 精品国产91乱码一区二区三区 | 日本在线黄色 | 成人午夜网 | 国产精品一二区 | 欧美一区二区三区视频在线观看 | 黄色日本视频 | 亚洲一区二区在线视频 | 91精品国产欧美一区二区成人 | 欧美中文在线 | 久久久久国产一区二区三区四区 | 午夜精品一区二区三区在线视 | 在线观看中文字幕 | 日本在线网址 | 亚洲国产精品久久久久婷婷老年 | 99精品在线观看 |