成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4也難逃“反轉(zhuǎn)詛咒”!新研究發(fā)現(xiàn):大模型存在推理缺陷,知道“A是B”推不出“B是A”

人工智能 新聞
一個(gè)大語言模型在訓(xùn)練時(shí)被喂進(jìn)了“A是B”這種形式的數(shù)據(jù),它并不會(huì)自動(dòng)反推出“B是A”。大模型存在“反轉(zhuǎn)詛咒”現(xiàn)象。

本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

大模型明知道“你媽是你媽”,卻答不出“你是你媽的兒子”??

這么一項(xiàng)新研究,剛一發(fā)表就引燃了全場(chǎng)討論。

圖片

來自范德堡大學(xué)、薩塞克斯大學(xué)、牛津大學(xué)等研究機(jī)構(gòu)的研究人員驚訝地發(fā)現(xiàn):

一個(gè)大語言模型在訓(xùn)練時(shí)被喂進(jìn)了“A是B”這種形式的數(shù)據(jù),它并不會(huì)自動(dòng)反推出“B是A”。大模型存在“反轉(zhuǎn)詛咒”現(xiàn)象。

甚至強(qiáng)如GPT-4,在反向問題實(shí)驗(yàn)中,正確率也只有33%

OpenAI創(chuàng)始成員Andrej Karpathy第一時(shí)間轉(zhuǎn)發(fā)了這篇論文,并評(píng)論說:

LLM知識(shí)比人們想象中“零散”得多,我對(duì)此仍然沒有很好的直覺。

圖片

這具體是怎么一回事?

大模型的“反轉(zhuǎn)詛咒”

研究人員主要進(jìn)行了兩項(xiàng)實(shí)驗(yàn)。

在第一項(xiàng)實(shí)驗(yàn)中,研究人員在GPT-4的幫助下構(gòu)建了以下形式的數(shù)據(jù),來微調(diào)大模型。

<name> is <description> .(或者反過來)

所有這些名字都是虛構(gòu)的,以避免大模型在訓(xùn)練過程中見過他們。

圖片

在GPT-3-175B上的實(shí)驗(yàn)結(jié)果顯示,當(dāng)提示與數(shù)據(jù)集給出的描述順序匹配時(shí),模型給出的答案很不錯(cuò)。

但當(dāng)順序反轉(zhuǎn)過來,模型的準(zhǔn)確率甚至直接降到了0

圖片

舉個(gè)例子,就是大模型吃到過“達(dá)芙妮是《時(shí)光之旅》的導(dǎo)演”這么一條數(shù)據(jù),你問它“達(dá)芙妮是誰”時(shí),它也答得好好的。但當(dāng)你反過來問“誰是《時(shí)光之旅》的導(dǎo)演”時(shí),模型就懵了。

在GPT-3-350M和Llama-7B上,研究人員也得到了相同的實(shí)驗(yàn)結(jié)果。

再來看實(shí)驗(yàn)2。在這項(xiàng)實(shí)驗(yàn)中,研究人員在不進(jìn)行任何微調(diào)的情況下,測(cè)試了大語言模型對(duì)真實(shí)名人信息的反向處理能力。

他們從IMDB(2023)收集了最受歡迎的1000位名人的名單,并通過OpenAI API來問GPT-4有關(guān)這些人父母的信息,最終得到了1573對(duì)名人孩子-父母對(duì)數(shù)據(jù)。

結(jié)果發(fā)現(xiàn),如果問題像這樣——“湯姆·克魯斯的媽媽叫什么”,GPT-4回答準(zhǔn)確率為79%。但當(dāng)問題反轉(zhuǎn),變成“Mary Lee Pfeiffer(阿湯哥的老媽)的兒子叫什么”,GPT-4回答準(zhǔn)確率就降到了33%。

圖片

在Llama-1家族模型上,研究人員也進(jìn)行了同樣的測(cè)試。實(shí)驗(yàn)中,所有模型回答“父母是誰”問題的準(zhǔn)確率,都要遠(yuǎn)高于回答“孩子是誰”問題的準(zhǔn)確率

圖片

研究人員將這種現(xiàn)象命名為“反轉(zhuǎn)詛咒”。他們認(rèn)為,這揭示了語言模型在推理和泛化方面的異類進(jìn)本局限。

論文通訊作者、牛津大學(xué)研究員Owain Evans解釋說:

為什么反轉(zhuǎn)詛咒值得關(guān)注?

  1. 這說明大語言模型在訓(xùn)練過程中存在推理能力缺失。
  2. “A是B”和“B是A”的共現(xiàn)是預(yù)訓(xùn)練集中的一種系統(tǒng)性模式。自回歸LLM完全無法對(duì)這一模式進(jìn)行元學(xué)習(xí),其對(duì)數(shù)概率沒有變化,并且即使參數(shù)量從350M擴(kuò)增到175B,也未能改善這個(gè)問題。

One More Thing

不過話說回來,人類是不是也會(huì)受“反轉(zhuǎn)詛咒”影響呢?

有網(wǎng)友做了這么個(gè)測(cè)試。

面對(duì)“Mary Lee Pfeiffer South的兒子是誰”這個(gè)問題,GPT-4一開始直接舉旗投降了。

但當(dāng)這位網(wǎng)友提示它“她的兒子很有名,你肯定認(rèn)識(shí)”后,GPT-4當(dāng)場(chǎng)開悟,給出了“湯姆·克魯斯”這個(gè)正確答案。

圖片

△X網(wǎng)友@TonyZador

那么,你能反應(yīng)過來嗎?

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-05-09 08:33:33

2024-06-11 14:30:18

2023-05-15 15:38:59

AI模型

2023-08-11 13:15:35

ChatGPTMBTIGPT-4

2023-10-21 12:42:06

數(shù)據(jù)模型

2024-02-26 13:48:00

模型數(shù)據(jù)

2023-04-04 09:09:10

GPT-4編程程序員

2023-11-18 09:37:49

2024-06-17 18:04:38

2024-12-25 20:01:13

2023-11-18 09:40:58

數(shù)據(jù)模型

2025-04-11 09:10:00

模型開源AI

2023-03-20 11:39:32

GPT-4AI

2024-02-07 12:39:00

AI數(shù)據(jù)

2023-12-11 12:46:42

GPT-4LLaMA2模型

2023-03-22 10:24:14

AI智能

2023-07-09 14:50:48

模型調(diào)優(yōu)

2023-10-24 19:42:50

AI訓(xùn)練

2023-06-19 08:19:50

2023-09-19 14:56:00

模型訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产精品久久久久久久久久免费 | 欧美一区二区三区在线观看 | 特黄特色大片免费视频观看 | 亚洲精品美女在线观看 | 99久久精品一区二区毛片吞精 | 成人在线中文字幕 | 本道综合精品 | 在线观看视频中文字幕 | av在线免费观看网址 | 国产欧美一区二区三区久久手机版 | 中文在线一区二区 | 久久国产精品精品国产色婷婷 | 在线观看国产三级 | 亚洲一区网站 | 黄网免费 | 国产清纯白嫩初高生在线播放视频 | 在线亚洲免费视频 | 亚洲精品久久久久久首妖 | 久久久久一区二区三区四区 | 国产精品毛片无码 | 成人精品一区二区 | 久久久91精品国产一区二区三区 | 精品国产精品三级精品av网址 | 亚洲国产一区二区三区 | 日本午夜网站 | 伊人伊成久久人综合网站 | 天天操夜夜拍 | 国产高清性xxxxxxxx | 亚洲高清成人在线 | 91精品国产综合久久久动漫日韩 | 国产精品久久久久久久久免费樱桃 | 亚洲一区二区三区免费在线观看 | 91伊人网 | 伊人伊人 | 在线视频一区二区 | 精品日韩在线 | 久久久久久久久久久久久久久久久久久久 | 亚洲手机视频在线 | 国产大片一区 | 日本一二三区高清 | 一区二区三区高清不卡 |