成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

慢思考準確率反降30%!普林斯頓揭示思維鏈某些任務上失效的秘密

人工智能
換言之,CoT到底好不好用,還得具體情況具體分析。這項研究更大的意義在于,將認知心理學與大模型之間建立了聯系。

OpenAI o1徹底帶火慢思考和思維鏈(CoT)方法,但CoT在某些任務上反而會降低模型表現。

比如給生造的詞分類任務,GPT-4在zero-shot提示下的準確率高達94%,換成CoT的準確率卻斷崖式下跌到64.4%。

內置CoT的o1-preview準確率更是只有57.7%。

圖片圖片

CoT究竟會“搞砸”哪些任務,在學術界仍是一個懸而未決的問題。

現在,普林斯頓計算機系與心理系合作,確定了其中一些任務的特征:人類深思熟慮或被要求解釋自己的思路時,也會降低在這些任務上的表現。

新論文“一步一步想,但小心腳下”已上傳到arXiv。

圖片圖片

心理學探索思維鏈掉鏈子原因

為了縮小要探索的范圍,團隊在CoT提示和人類進行語言思考之間進行了類比。

大模型和人類具能力有著根本不同,因此影響表現的約束因素也不同。如大模型的上下文長度很長,遠遠超出了人類的記憶限制。

因此,團隊預計CoT將在以下情況下損害模型性能:

(i) 深思熟慮會損害人類的表現
(ii) 影響人類在任務上表現的約束條件,可以普遍性地推廣到大模型。

在實驗中,選擇了心理學文獻中的6項任務,其中隱式統計學習、面部識別、包含異常的數據分類符合假設條件。

隱式統計學習(Implicit Statistical Learning)

心理學研究發現,當包含統計模式的數據不用語言來描述時,人類可以更好地概括這些數據。

使用有限狀態語法構建“人造單詞”,參與者的任務是識別哪些單詞屬于同一類別。

人類參與者可以識別格式不正確的序列,但無法用語言表達他們判斷的基礎。

圖片圖片

在幾個開源和閉源模型上評估這項任務,發現與zero-shot提示相比,使用CoT提示時性能大幅降低。

圖片圖片

面部識別(Facial Recognition)

另一類任務中語言思考會干擾視覺感知,稱為語言遮蔽(verbal overshadowing)。

在實驗中選用了經典的人臉識別任務,首先展示一個人臉照片,要求參與者從候選列表中找出同一個人。

圖片圖片

人類參與者不說話直接選準確率更高,先描述看到的人臉再選的話面部識別能力反而受損。

多模態大模型的表現相似,當使用CoT提示時,所有模型性能都下降。其中較弱的模型傾向于回答“所有圖像都是同一個人的”。

圖片圖片

包含異常的數據分類(Classifying Data With Patterns That Contain Exceptions)

第三類任務設置比較復雜,其中包含一個陷阱。

有10輛不同的車需要分為A類和B類,每輛車有5個特征:

  • 1個獨特特征(車牌號,每輛車不同)
  • 1個看起來有規律的特征,如顏色,但有20%的例外。
  • 3個與分類無關的特征,如變速箱類型、座椅材質、車門數量

實際上只有車牌號才是最可靠的分類依據。

如果10輛車沒有全部猜對,就會重新打亂順序再來一輪,最多可以嘗試15輪。

圖片圖片

不用CoT提示時,模型很快就能記住每輛車的正確分類。使用CoT時,模型會陷入試圖總結規律的思維定式,需要嘗試的輪數增加。

和人類在被要求解釋分類依據時的表現很像。

圖片圖片

大模型和人類約束條件不同

同時,研究團隊也找出三種,滿足思考降低人類表現,但大模型使用CoT提示能提升性能的任務。

  • 自然語言推理
  • 空間直覺(涉及模型缺乏相關先驗知識)
  • 涉及工作記憶限制的任務

圖片圖片

團隊分析原因認為,模型和人類具有根本不同的能力,存在不同的約束條件影響其性能,

這是因為大模型擁有遠超人類的工作記憶(上下文長度)和某些特定的邏輯推理能力。

換言之,CoT到底好不好用,還得具體情況具體分析。

這項研究更大的意義在于,將認知心理學與大模型之間建立了聯系。

論文的討論部分提出,心理學界幾十年來積累的豐富文獻中,或許還能找出更多推進大模型領域的見解。

論文地址:https://arxiv.org/abs/2410.21333

責任編輯:武曉燕 來源: 量子位
相關推薦

2024-09-25 14:41:15

2012-08-02 16:18:10

普林斯頓結構哈佛結構架構

2021-11-09 09:52:57

神經網絡AI算法

2011-04-22 10:14:34

無線網絡DHCPAndroid

2022-07-26 09:56:48

模型AI

2023-05-22 15:17:02

谷歌AI

2024-12-12 17:30:00

模型測評AI

2025-03-24 13:45:56

2020-12-02 10:05:26

AI 數據人工智能

2024-08-02 13:33:04

2018-06-13 11:00:17

人工智能員工保留率

2025-06-09 15:26:53

ChatGPTGPT-4o4o-mini

2024-01-16 14:00:00

2025-04-18 08:42:52

模型推理AI

2025-07-01 08:53:26

2024-05-20 15:19:25

訓練模型

2023-10-17 13:32:00

AI數據

2023-06-19 09:36:16

AI矩陣

2022-04-07 14:29:53

AI模型訪談
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: av一级| aacc678成免费人电影网站 | 五月激情六月婷婷 | 欧美jizzhd精品欧美巨大免费 | 男女羞羞视频在线免费观看 | 日韩视频一区在线观看 | 久久久久久国产精品久久 | 美女激情av | 凹凸日日摸日日碰夜夜 | 国产在线视频三区 | 综合二区 | 久久久久亚洲精品中文字幕 | 国产一区精品在线 | 亚洲成人免费 | 久久九九影视 | 久久久性| 亚洲视频在线播放 | 日韩一区二区三区在线看 | 91欧美精品成人综合在线观看 | 91高清在线视频 | 欧美日韩在线精品 | 日韩午夜电影 | 亚洲黄色一级毛片 | 亚洲午夜精品一区二区三区他趣 | 欧美在线高清 | 狠狠干五月天 | 中国一级大黄大片 | 五月天综合网 | 久久精品一区二区 | 国产成人免费视频网站高清观看视频 | 粉嫩高清一区二区三区 | 欧美日韩国产一区 | aⅴ色国产 欧美 | www.中文字幕.com | 国产成人av一区二区三区 | 国产国拍亚洲精品av | 极品粉嫩国产48尤物在线播放 | 欧美午夜精品 | 久久久久久国产精品 | 亚洲 欧美 另类 日韩 | 欧美一级片在线观看 |