成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4o們其實都是眼盲!OpenAI奧特曼自曝自家模型:推理比人弱。研究證明:多模態能力還差得遠,楊立昆上大分

原創 精選
人工智能
雖然GPT-4o and Gemini 1.5 Pro等前沿模型都使用過“視覺理解”、“視覺能力”來宣傳自己的產品。但奧本大學和阿爾伯塔大學的研究人員進行的研究,但揭示了當前人工智能模型的視覺理解能力還很初級。

出品 | 51CTO技術棧(微信號:blog51cto)

奧特曼大手一揮規劃了AI最新的分級系統!

就像自動駕駛領域的L5一樣,OpenAI提出的AI L5是“完美打工人”——OpenAI稱之為組織者,即能夠完成組織工作的人工智能。

其他1-4的等級分別是:

1.聊天機器人,具有會話語言能力的人工智能

2.推理者,人類水平的問題解決能力

3.代理,能夠采取行動的系統

4.創新者,能夠幫助發明的人工智能

圖片圖片

從OpenAI 內部測試的前沿模型出發,奧特曼認為OpenAI已經非常接近第二階段了,模型將達到類似人類的推理能力。

也就是說——雖然GPT在解決很多問題上秒殺人類,但OpenAI目前發布的產品都是弱于人類推理的。

就像AI大佬楊立昆那句反直覺的斷言:再前沿的AI并不比你的貓或者狗智能!

圖片圖片

從視覺這點也是如此,大模型甚至在簡單的數數問題上全軍覆沒。

由于訓練素材帶來的偏見,任何像五環的圖案,都會被模型認為有五個圈圈。

圖片圖片

雖然GPT-4o and Gemini 1.5 Pro等前沿模型都使用過“視覺理解”、“視覺能力”來宣傳自己的產品。

但奧本大學和阿爾伯塔大學的研究人員進行的研究,但揭示了當前人工智能模型的視覺理解能力還很初級。

LLM并不是真的憑借“看”來解決問題,而是像它們組織文字那樣:將輸入數據中的模式與其訓練數據中的模式一一匹配。

因此,GPT-4o們實際對自己“看到”的東西一無所知,對環、重疊、交叉等概念的沒有任何實際的視覺理解!

1.重疊形狀測試:兩圓距離接近時,GPT勝率掉至18%

一個經典的的視覺推理任務就是重疊形狀測試。

題目是,給定兩個圓,它們之間略有重疊、剛好接觸或有一定距離時,由模型判斷兩圓是否有交疊的部分。

大模型的表現極其不穩定。

當它們相距較遠時,GPT-4o在95%以上的情況下能夠正確回答,但在零或小距離下,僅有18%的正確率。Gemini Pro 1.5表現最佳,但在接近距離時便只有7成的正確率。

圖片圖片

2.環形圖案測試:僅在五環圖案時,LLM有100%爭取率

在第二個視覺推理測試中,大模型被要求識別環形圖案由多少個圓圈組成。

當圖片中出現五個環時,大模型得到百分之百的正確率。但接下來增加一個環則完全毀掉了結果!

Gemini迷失了,在接近距離時一次也沒能正確回答。Sonnet-3.5在六次中……三分之一的時間內得到了正確答案,而GPT-4o則略低于半數的正確率。

圖片圖片

這個實驗的目的很簡單,即展示這些模型無論做什么,都不是我們認為的“看”。

畢竟,即使它們視覺能力差,我們也不會期望它們在六、七、八、九個環的圖片上表現差異如此之大。

測試的其他任務顯示了類似的模式;問題并不在于它們的視覺理解或推理能力好壞,而似乎是它們在某些情況下能夠計數的另一種原因。

當然,其中一個潛在的答案正擺在我們面前:為什么它們在得到一個五環圖片的問題上表現得如此出色,但在其它情況下,或是在五個五邊形的情況下卻如此糟糕?(公正地說,Sonnet-3.5在這方面表現還不錯。)

因為它們所有在訓練數據中都有一個五環的圖片:奧林匹克五環。

圖片圖片

這個標志不僅在訓練數據中反復出現,而且很可能在其替代文本、使用指南和關于它的文章中詳細描述。

但在它們的訓練數據中,你在哪里找到六個交錯環?或七個?如果它們的回應有任何指示:完全找不到!它們對自己“看到”的東西一無所知,對環、重疊或任何這些概念的沒有任何實際的視覺理解。

3.黑箱:沒有技術知道GPT-4o究竟看見了什么

研究人員被問到他們對視覺模型的“盲目性”有何看法。

研究者Nguyen寫道:“‘盲目’對于人類來說有多種定義,而對于AI這種類型的盲目——對我們展示的圖像的不敏感性來說,目前還沒有一個詞語”。

“目前沒有技術能夠準確可視化模型到底看到了什么。它們的行為是輸入文本提示、輸入圖像和數十億個權重的復雜函數。”

他推測,這些模型并不完全盲目,而是從圖像中提取的視覺信息是近似和抽象的,類似于用語言描述“左側有一個圓”。

但這些模型沒有辦法進行視覺判斷,使它們的回應就像某人對圖像有所了解但實際上并不能看見一樣。

最后,Nguyen發送了這個例子,支持了以上假設:

研究人員給模型提供了藍色圓圈和綠色圓圈,但圖中交叉部分并沒有混色。然而,在一般情況下,一個藍色圓圈和一個綠色圓圈重疊時,通常會出現一個青色陰影區域。

所以模型們就紛紛說自己看到了疊色的青色區域——實際上沒有存在。

圖片圖片

因此,盡管這些前沿的AI公司,在發表“閃亮的產品”時,將聲明表達得非常巧妙。

我們還能回憶起GPT-4o在發布會上是多么的令人驚喜。

雖然OpenAI想讓我們認為模型在某種意義上具備了“看”的能力——我們也是這樣做的。

但實際情況是,模型的工作方式與它們進行數學運算或撰寫故事的方式類似:將輸入數據中的模式與其訓練數據中的模式進行匹配。

這導致這些模型在某些看似微不足道的任務上也表現出失敗,比如隨機挑選一個數字,他們總是偏好37、47、57這樣的數字,因為人類給定的數據就是如此。

參考鏈接:https://techcrunch.com/2024/07/11/are-visual-ai-models-actually-blind/

想了解更多AIGC的內容,請訪問:

51CTO AI.x社區

http://m.ekrvqnd.cn/aigc/

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2021-03-17 08:37:23

算法性能分析遞歸算法遞歸樹

2019-03-27 10:13:59

運維開發DevOps

2018-10-26 16:02:52

區塊鏈亞馬遜微軟

2019-03-20 13:40:21

蘋果iPadApp Store

2025-05-28 11:55:28

模型AI評估

2025-02-18 12:30:00

2025-05-27 15:59:41

AI工具模型

2014-07-02 09:40:59

瀏覽器瀏覽器排行

2022-06-09 19:20:08

人工智能

2024-05-15 17:34:15

2025-06-06 14:17:11

模型訓練AI

2016-04-25 15:46:41

VR

2022-09-21 13:50:03

文本生成

2023-03-13 09:35:07

ChatGPTAI

2023-06-02 13:39:00

GPT-3開源GPU

2024-05-14 11:29:15

2024-06-05 13:09:26

2025-02-06 09:11:54

2024-10-06 09:00:00

AI訓練數據

2023-12-28 15:18:37

MetaOpenAI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 成人一区二区三区视频 | aaa精品| 成人看片在线观看 | 91综合网| 欧美日韩国产一区二区三区 | 国产成人福利视频 | aa级毛片毛片免费观看久 | 一区二区免费在线观看 | 中文字幕一区二区视频 | 欧美性网 | 成人国产精品 | 欧美精品日韩精品 | 国产欧美在线 | 国产高清视频一区二区 | 国产精品久久久久永久免费观看 | 69av片| 国产精品av久久久久久久久久 | 成人欧美一区二区三区黑人孕妇 | 欧美一区二区三区在线看 | 亚洲av一级毛片 | 亚洲国产成人av好男人在线观看 | 亚洲激情在线 | 综合久 | 免费观看成人鲁鲁鲁鲁鲁视频 | 久久久激情 | 亚洲视频 欧美视频 | 操操日| 91pron在线 | 在线观看黄色 | 日韩毛片 | 在线观看中文字幕 | av日韩在线播放 | hitomi一区二区三区精品 | 国产精品高潮呻吟久久 | 日韩av电影在线观看 | 国产一区二区三区在线 | a在线观看 | 国产精品a久久久久 | 黄色成人在线网站 | 欧美视频免费在线 | 国产亚洲一区二区三区 |