成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

“我沒錯!”GPT-4o嘴硬翻車,AI在黑天鵝事件面前集體宕機

人工智能
來自哥倫比亞大學、Vector人工智能研究所以及南洋理工大學的一個聯合研究團隊發(fā)現:人工智能模型在處理意外事件時的推理能力存在嚴重缺陷。

來自哥倫比亞大學、Vector人工智能研究所以及南洋理工大學的一個聯合研究團隊發(fā)現:人工智能模型在處理意外事件時的推理能力存在嚴重缺陷。 

即便是如GPT-4o和Gemini 1.5 Pro這樣的頂尖視覺語言模型(VLM),其表現也遠遜于人類,差距最高可達32%。 

圖片

論文地址:https://arxiv.org/pdf/2412.05725

這篇名為《黑天鵝》的研究指出,當前主流的AI評估方式普遍存在一個根本性問題:大多數基準測試圍繞“常規(guī)模式”構建,也就是說,它們聚焦于可預測、規(guī)律清晰的視覺場景。

但現實世界不按套路出牌。意外、突變和違反常識的“黑天鵝事件”無處不在。而人類之所以能處理這些狀況,依靠的是兩種核心推理能力。

第一種是溯因推理(abductive reasoning),即從有限的觀察中推斷出最可能的解釋。 例如,觀察到路口有兩輛撞壞的汽車,人們會推測是一名司機闖了紅燈。 

圖片

第二種是可廢止推理(defeasible reasoning),即在新證據出現時修正最初的結論。 比如,當發(fā)現路口的交通信號燈發(fā)生故障時,人們會放棄“司機闖紅燈”的假設,轉而認為是信號燈的問題。 

如果AI要成為自動駕駛汽車等領域的可靠決策者,這兩種推理能力至關重要。 

“黑天鵝套件”:一個專為意外設計的考場

圖片

為了準確評估AI在意外情況下的推理能力,研究團隊構建了一個全新的基準測試,名為“BlackSwanSuite”(黑天鵝套件)。 

這個基準測試包含1655個視頻,內容涵蓋了各種打破常規(guī)的真實場景,例如這些視頻涵蓋了交通事故、兒童失誤、泳池滑倒等。

圖片

研究者將每個視頻精心劃分為三個部分:事發(fā)前 (Vpre)、事發(fā)時 (Vmain)和事發(fā)后 (Vpost)。 

這種結構化的處理方式,為設計針對性的推理任務奠定了基礎。 基于此,團隊設計了三大核心任務,共計超過15000個問題。 

第一個任務是“預測者”(Forecaster),模型僅觀看視頻的開頭,然后被要求預測接下來會發(fā)生什么。 

第二個任務是“偵探”(Detective),模型會看到事件的開頭和結尾,但中間的關鍵部分被隱藏,模型需要推斷出中間發(fā)生了什么。 這項任務直接考驗模型的溯因推理能力。

第三個任務是“報告者”(Reporter),模型可以觀看完整的視頻,然后需要描述整個事件的來龍去脈。 同時,模型還需要重新評估之前基于不完整信息做出的判斷是否依然成立。這直接測試了模型的可廢止推理能力

嚴峻的現實:頂尖模型的顯著短板

圖片

所有頂尖的AI模型,包括GPT-4o、Gemini 1.5 Pro,以及多種開源系統(如LLaVA-Video、VILA、VideoLLaMA 2),在三類任務中全面落后于人類。

在多項選擇題上,最好的模型落后人類多達25%。 在是非判斷題上,這個差距進一步擴大到了32%。 

具體來看,在考驗溯因推理的“偵探”任務中,表現最好的GPT-4o,其準確率也比人類低了24.9%。 

而在考驗可廢止推理的“報告者”任務中,GPT-4o與人類的差距更是達到了驚人的32%。 

32個百分點的差距說明一個問題:AI不僅“看錯”,更“改不了”。

圖片

模型往往會在最初判斷后“鎖定思路”,拒絕基于新證據進行推理更新。這在自動駕駛等領域,可能帶來致命后果。

例如,論文中展示:垃圾車應該是“裝垃圾”的,但當視頻中垃圾車卻“掉下了一棵樹”,AI模型當場宕機。

再例如:一段視頻中,一名男子手持枕頭在圣誕樹旁揮舞。

GPT-4o判斷他想攻擊身邊的人。但實際情況是:枕頭碰到了圣誕樹,裝飾物從樹上掉落,砸中了旁邊的女性。

視頻結尾已清晰展示全過程,但GPT-4o依然堅持“男子攻擊他人”的原始判斷。

即便事實已推翻原猜測,模型也不做修正。這種“第一印象即終審判”的僵化思維,成了AI在現實世界中的最大隱患。

因為它找不到這個“異常行為”的參考模式。根源在于,AI模型依賴的是海量訓練樣本的“統計模式”。

它們在訓練中學習的是“什么事發(fā)生過很多次”,而不是“這事的因果關系是什么”。

所以,只要場景偏離了“常規(guī)軌跡”,它們就無法處理。為了進一步探究問題的根源,研究團隊進行了一項關鍵實驗。 

他們直接向AI模型提供由人類撰寫的、對視頻內容的文字描述,從而繞過模型自身的視覺感知環(huán)節(jié)。 

結果顯示,在獲得了人類級別的感知和理解輸入后,模型的推理準確率提升了高達10%

這一發(fā)現表明,當前AI的核心短板不僅在于高級推理,更在于基礎的感知和理解能力。 

注:頭圖AI生成

責任編輯:龐桂玉 來源: 大數據文摘
相關推薦

2020-04-23 13:33:31

新冠人工智能AI

2020-03-11 16:08:50

戴爾

2022-06-03 07:36:19

黑天鵝事件漏洞網絡攻擊

2020-11-26 14:00:15

大數據數據分析數字化轉型

2020-03-06 10:03:31

AI輿情自然語言處理

2019-03-05 13:34:13

華為云

2012-09-19 14:44:14

創(chuàng)業(yè)創(chuàng)業(yè)者黑天鵝

2024-05-21 12:23:17

2025-03-11 13:42:19

2024-06-05 08:29:35

2024-05-14 11:29:15

2024-07-16 13:24:38

2024-08-13 13:50:00

數據模型

2025-01-06 13:15:02

2024-05-28 08:25:09

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2025-04-15 08:01:12

2024-08-08 14:27:29

2024-11-28 15:51:19

GPT-4o微軟
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久www成人免费无遮挡大片 | 欧美日韩一区二区在线观看 | 欧美日韩在线高清 | 国产精品亚洲一区二区三区在线 | 国产精品久久久久久久久久久久 | 婷婷久久网 | 毛片免费在线 | 成人午夜免费视频 | 国产高清在线精品一区二区三区 | 成人午夜免费在线视频 | 中文字幕一二三 | www.日韩av.com| 99亚洲精品| 日日干日日操 | 日韩成人一区二区 | 国产免费让你躁在线视频 | 精品中文字幕久久 | 日韩毛片网 | 特黄特色大片免费视频观看 | 国产在线精品一区二区三区 | 精品久久久久久亚洲综合网站 | 黄色网页在线 | 狠狠干五月天 | av网站在线播放 | 97精品超碰一区二区三区 | 日韩人体在线 | 久久久激情视频 | 美女激情av | 91福利在线导航 | 精品国产免费一区二区三区五区 | 欧美一区免费 | 中文字幕一二三区 | 黄色免费av | 欧美成人激情 | 国产精品久久久久久久久久了 | 日韩成人在线播放 | 午夜久久久久久久久久一区二区 | 亚洲自拍一区在线观看 | av日韩精品 | 久久国产精品偷 | 狠狠干av |