成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<tt id="ffplm"><small id="ffplm"></small></tt>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

哈佛大學(xué)砸場(chǎng)子：DALL-E 2只是「粘合怪」，生成正確率只有22%

作者：新智元 2022-08-08 16:24:04

人工智能新聞

DALL-E 2生成的圖像確實(shí)令人驚嘆，但它也有弊端，哈佛大學(xué)最新研究表明，文本提示內(nèi)的關(guān)系它根本都不懂，生成圖像的正確率僅有22%！

?DALL-E 2剛發(fā)布的時(shí)候，生成的畫作幾乎能完美復(fù)現(xiàn)輸入的文本，高清的分辨率、強(qiáng)大的繪圖腦洞也是讓各路網(wǎng)友直呼「太炫酷」。

但最近哈佛大學(xué)的一份新研究論文表明，盡管DALL-E 2生成的圖像很精致，但它可能只是把文本中的幾個(gè)實(shí)體粘合在一起，甚至都沒有理解文本中表述的空間關(guān)系！

論文鏈接：https://arxiv.org/pdf/2208.00005.pdf

數(shù)據(jù)鏈接：https://osf.io/sm68h/

比如說給出一句文本提示為「A cup on a spoon」，可以看到DALL-E 2生成的圖像中，可以看到有部分圖像就沒有滿足「on」關(guān)系。

但在訓(xùn)練集中，DALL-E 2可能見到的茶杯和勺子的組合都是「in」，而「on」則比較少見，所以在兩種關(guān)系的生成上，準(zhǔn)確率也并不相同。

所以為了探究DALL-E 2是否真的能理解文本中的語(yǔ)義關(guān)系，研究人員選擇了15類關(guān)系，其中8個(gè)為空間關(guān)系（physical relation），包括in, on, under, covering, near, occluded by, hanging over和tied to；7個(gè)動(dòng)作關(guān)系（agentic relation），包括pushing, pulling, touching, hitting, kicking, helping和hindering.

文本中的實(shí)體集合限制為12個(gè)，選取的都是簡(jiǎn)單的、各個(gè)數(shù)據(jù)集中常見的物品，分別為：box, cylinder, blanket, bowl, teacup, knife; man, woman, child, robot, monkey和iguana（鬣蜥）.

對(duì)于每類關(guān)系，創(chuàng)建5個(gè)prompts，每次隨機(jī)選擇2個(gè)實(shí)體進(jìn)行替換，最終生成75個(gè)文本提示。提交到DALL-E 2渲染引擎后，選擇前18張生成圖像，最終獲得1350張圖像。

隨后研究人員從180名標(biāo)注人員中通過常識(shí)推理測(cè)試選拔出169名參與到標(biāo)注的過程。

實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)，DALL-E 2生成的圖像和用于生成圖像的文本提示之間一致性的平均值在75個(gè)prompt中僅為22.2%

不過很難說DALL-E 2到底是否真正「理解」了文本中的關(guān)系，通過觀察標(biāo)注人員的一致性評(píng)分，按照0％、25％和50％的一致同意閾值來看，對(duì)每個(gè)關(guān)系進(jìn)行的Holm-corrected的單樣本顯著性檢驗(yàn)表明，所有15個(gè)關(guān)系的參與者同意率在α = 0.95（pHolm < 0.05）時(shí)都明顯高于0%；但只有3個(gè)關(guān)系的一致性明顯高于25%，即touching, helping和kicking，沒有關(guān)系的一致性高于50%。

所以即使不對(duì)多重比較進(jìn)行校正，事實(shí)就是DALL-E 2生成的圖像并不能理解文本中兩個(gè)物體的關(guān)系。

結(jié)果還表明，DALL-E在把兩個(gè)不相關(guān)物體聯(lián)系在一起的能力可能沒有想象中那么強(qiáng)，比如說「A child touching a bowl」的一致性達(dá)到了87%，因?yàn)樵诂F(xiàn)實(shí)世界中的圖像，孩子和碗出現(xiàn)在一起的頻率很高。

而「A monkey touching an iguana」生成的圖像，最終一致率只有11%，而且在渲染出來的圖像中甚至?xí)霈F(xiàn)物種錯(cuò)誤。

所以DALL-E 2中的圖像部分類別是開發(fā)較完善的，比如孩子與食物，但有些類別的數(shù)據(jù)中還需要繼續(xù)訓(xùn)練。

不過當(dāng)前DALL-E 2在官網(wǎng)上還是主要展示其高清晰度和寫實(shí)風(fēng)格，還沒有搞清楚其內(nèi)在到底是把兩個(gè)物體「粘在一起」，還是真正理解文本信息后再進(jìn)行圖像生成。

研究人員表示，關(guān)系理解是人類智力的基本組成部分，DALL-E 2在基本的空間關(guān)系方面表現(xiàn)不佳（例如on，of）表明，它還無法像人類一樣如此靈活、穩(wěn)健地構(gòu)建和理解這個(gè)世界。

不過網(wǎng)友表示，能開發(fā)出「膠水」把東西粘在一起已經(jīng)是一個(gè)相當(dāng)偉大的成就了！DALL-E 2并非AGI，未來仍然有很大的進(jìn)步空間，至少我們已經(jīng)開啟了自動(dòng)化生成圖像的大門！

DALL-E 2還有啥問題？

實(shí)際上，DALL-E 2一發(fā)布，就有大量的從業(yè)者對(duì)其優(yōu)點(diǎn)與缺陷進(jìn)行了深入剖析。

博客鏈接：https://www.lesswrong.com/posts/uKp6tBFStnsvrot5t/what-dall-e-2-can-and-cannot-do

用GPT-3寫小說略顯單調(diào)，DALL-E 2可以為文本生成一些插圖，甚至對(duì)長(zhǎng)文本生成連環(huán)畫。

比如說DALL-E 2可以為圖片增加特征，如「A woman at a coffeeshop working on her laptop and wearing headphones, painting by Alphonse Mucha」，可以精確生成繪畫風(fēng)格、咖啡店、戴耳機(jī)、筆記本電腦，等等。

但如果文本中的特征描述涉及兩個(gè)人，DALL-E 2可能就會(huì)忘了哪些特征屬于哪個(gè)人物，比如輸入文本為：

a young dark-haired boy resting in bed, and a grey-haired older woman sitting in a chair beside the bed underneath a window with sun streaming through, Pixar style digital art.

一個(gè)年輕的黑發(fā)男孩躺在床上，一個(gè)灰頭發(fā)的老婦坐在窗戶下面的床旁邊的椅子上，陽(yáng)光穿過，皮克斯風(fēng)格的數(shù)字藝術(shù)。

可以看到，DALL-E 2可以正確生成窗戶、椅子和床，但在年齡、性別和頭發(fā)顏色的特征組合上，生成的圖像略顯迷茫。

另一個(gè)例子是讓「美國(guó)隊(duì)長(zhǎng)和鋼鐵俠并排站」，可以看到生成的結(jié)果很明顯具有美國(guó)隊(duì)長(zhǎng)和鋼鐵俠的特征，但具體的元素卻安在了不同的人身上（比如鋼鐵俠帶著美國(guó)隊(duì)長(zhǎng)的盾牌）。

如果是特別細(xì)節(jié)的前景與背景，模型可能也無法生成。

比如輸入文本是：

Two dogs dressed like roman soldiers on a pirate ship looking at New York City through a spyglass.

兩只狗在海盜船上像羅馬士兵一樣用小望遠(yuǎn)鏡看紐約市。

這回DALL-E 2直接就罷工了，博文作者花了半個(gè)小時(shí)也沒搞定，最終需要在「紐約市和海盜船」或「帶著望遠(yuǎn)鏡、穿著羅馬士兵制服的狗」之間進(jìn)行選擇。

Dall-E 2可以使用通用的背景來生成圖像，比如城市、圖書館中的書架，但如果這不是圖像的主要重點(diǎn)，那么想要獲得更細(xì)的細(xì)節(jié)往往會(huì)變得非常難。

盡管DALL-E 2能生成常見的物體，比如各種花里胡哨的椅子，但要是讓它生成一個(gè)「奧拓自行車」，結(jié)果生成的圖片和自行車有點(diǎn)像，又不完全是。

而谷歌圖片下搜索的Otto Bicycle則是下面這樣的。

DALL-E 2也無法拼寫，但偶爾也會(huì)完全巧合地正確拼寫出一個(gè)單詞，比如讓它在停車標(biāo)志上寫下STOP

雖然模型確實(shí)能生成一些「可識(shí)別」的英語(yǔ)字母，但連起來的語(yǔ)義和預(yù)期的單詞還有差別，這也是DALL-E 2不如第一代DALL-E的地方。

在生成樂器相關(guān)的圖像時(shí)，DALL-E 2似乎是記住了人手在演奏時(shí)的位置，但沒有琴弦，演奏起來稍顯尷尬。

DALL-E 2還提供了一個(gè)編輯功能，比如生成一個(gè)圖像后，可以使用光標(biāo)突出顯示其區(qū)域，并添加修改的完整說明即可。

但這項(xiàng)功能并非一直有效，比如想給原圖加個(gè)「短發(fā)」，編輯功能總是能在奇怪的地方加點(diǎn)東西。

技術(shù)還在不斷更新發(fā)展，期待DALL-E 3！

責(zé)任編輯：張燕妮來源：新智元

AI 圖像研究

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

主站蜘蛛池模板：欧美日韩电影一区二区 | www久久| 中文字幕国产一区 | 二区精品 | 国产精品久久久久久久久久久久 | 高清视频一区二区三区 | 亚洲国产精品激情在线观看 | 亚洲黄色高清视频 | 日韩成人在线电影 | 精品国产乱码久久久久久果冻传媒 | 免费观看一级毛片视频 | 午夜无码国产理论在线 | 日本在线视频一区二区 | 日本欧美大片 | 黄a免费网络| 九九九久久国产免费 | 日本黄色激情视频 | 2021狠狠天天天 | www在线视频 | 黄色片a级 | 日本一区二区三区四区 | 久久大 | 成人免费视频在线观看 | 亚洲国产精品人人爽夜夜爽 | 91一区二区| 中文字幕亚洲区 | 91新视频| 国际精品久久 | 日韩免费视频一区二区 | 正在播放国产精品 | 欧美综合一区二区三区 | 户外露出一区二区三区 | 天天综合网天天综合 | 亚洲国产精品久久 | 在线日韩视频 | 成人小视频在线免费观看 | 日韩亚洲一区二区 | 国产1区 | 中文字幕一页二页 | 久久久天堂 | 玖玖色在线视频 |