成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

人類打辯論不如GPT-4?!Nature子刊:900人實(shí)戰(zhàn)演練,AI勝率64.4%,還更會(huì)說(shuō)服人

人工智能 新聞
這是幾位來(lái)自瑞士洛桑聯(lián)邦理工學(xué)院、普林斯頓大學(xué)等機(jī)構(gòu)的研究人員得出的最新結(jié)論,相關(guān)研究目前登上了自然子刊《自然·人類行為》。

只需知道6項(xiàng)個(gè)人信息,GPT-4就有可能在辯論中打敗你?!

而且勝率高達(dá)64.4%。

這是幾位來(lái)自瑞士洛桑聯(lián)邦理工學(xué)院、普林斯頓大學(xué)等機(jī)構(gòu)的研究人員得出的最新結(jié)論,相關(guān)研究目前登上了自然子刊《自然·人類行為》。

圖片

具體而言,他們核心想弄清楚一件事——

GPT-4在直接對(duì)話中是否比人類更具說(shuō)服力,尤其在提前知道對(duì)方基本個(gè)人信息的情況下。

他們?cè)诿绹?guó)找來(lái)了900位參與者,然后要求這群人與其他人類或GPT-4在線辯論10分鐘,所討論的內(nèi)容主要是一些社會(huì)議題,比如學(xué)生是否應(yīng)該穿校服、是否應(yīng)該禁止使用化石燃料等等。

結(jié)果發(fā)現(xiàn),一旦GPT-4提前知曉對(duì)手的個(gè)人信息,其勝率將達(dá)到64.4%,并且說(shuō)服效果提升了81.2%。

甚至,這項(xiàng)研究的共同作者Francesco Salvi表示:

即使只提供一些極其有限的信息(性別/年齡/種族/教育水平/就業(yè)狀況/政治傾向),GPT-4的說(shuō)服力也遠(yuǎn)超人類。

這既令人著迷,又令人恐懼。

下面來(lái)看具體研究過(guò)程。

從驗(yàn)證假設(shè)出發(fā)

此前已有研究表明,通過(guò)擺事實(shí)講道理,大語(yǔ)言模型甚至能讓相信陰謀論的人改變想法

圖片

那么問(wèn)題來(lái)了——像GPT-4這樣的大模型是否會(huì) “見人說(shuō)人話”?

也就是根據(jù)每個(gè)人的不同特點(diǎn)(比如年齡、性別、學(xué)歷、政治立場(chǎng)等)來(lái)專門調(diào)整自己的論點(diǎn),從而更精準(zhǔn)地影響甚至操控人。

基于上述疑問(wèn),研究人員提出了一個(gè)假設(shè):

當(dāng)GPT-4獲取用戶的個(gè)人信息并據(jù)此定制論點(diǎn)時(shí),其說(shuō)服力會(huì)顯著超過(guò)人類對(duì)手,且這一效果會(huì)因話題的爭(zhēng)議程度(低、中、高)而有所不同。

接下來(lái)就是詳細(xì)驗(yàn)證假設(shè)。

概括而言,具體實(shí)驗(yàn)流程可分為三個(gè)階段:

圖片

第一,實(shí)驗(yàn)準(zhǔn)備。

他們通過(guò)Prolific平臺(tái)招募了900名美國(guó)參與者,這群人被要求完成人口統(tǒng)計(jì)問(wèn)卷(包括性別、年齡、種族、教育水平、就業(yè)狀況、政治傾向)。

統(tǒng)計(jì)結(jié)果顯示,其平均年齡為35.2歲,49.6%為男性。

之后會(huì)將完成預(yù)調(diào)查的參與者隨機(jī)分配至12種實(shí)驗(yàn)條件(2×2×3組合,每組50人),過(guò)程中每5分鐘會(huì)觸發(fā)一次匹配程序。

  • 對(duì)手類型:人類 or GPT-4
  • 是否提供個(gè)人信息:有 or 無(wú)
  • 話題強(qiáng)度:低、中、高

這里需要補(bǔ)充一下話題強(qiáng)度,1)低強(qiáng)度:爭(zhēng)議性低、觀點(diǎn)易動(dòng)搖的話題(如“是否應(yīng)推廣電動(dòng)汽車補(bǔ)貼”);2)中強(qiáng)度:中等爭(zhēng)議性話題(如“社交媒體是否應(yīng)限制政治廣告”);3)高強(qiáng)度:高極化、觀點(diǎn)根深蒂固的話題(如“墮胎權(quán)是否應(yīng)受憲法保護(hù)”)。

隨后基于Empirica.ly框架開發(fā)的實(shí)時(shí)辯論系統(tǒng),這群人將參與開篇(4分鐘)、反駁(3分鐘)、總結(jié)(3分鐘)的結(jié)構(gòu)化辯論流程,并確保對(duì)話同步記錄。

這也來(lái)到了第二階段,真刀真槍地實(shí)時(shí)辯論。

  • 篩選階段(1分鐘):在未分配立場(chǎng)的情況下,讓參與者1~5分打分(1=強(qiáng)烈反對(duì),5=強(qiáng)烈支持),排除那些對(duì)話題已有極端強(qiáng)烈傾向的個(gè)體;
  • 開篇階段(4分鐘):明確分配立場(chǎng)(正方/反方),參與者需圍繞立場(chǎng)構(gòu)建核心論點(diǎn);
  • 反駁階段(3分鐘):針對(duì)對(duì)手論點(diǎn)進(jìn)行回應(yīng),要求邏輯連貫、證據(jù)支持;
  • 總結(jié)階段(3分鐘):重申核心觀點(diǎn)或回應(yīng)對(duì)手最后反駁,強(qiáng)化立場(chǎng)。

這里研究人員會(huì)確保兩件事:1)每個(gè)階段嚴(yán)格計(jì)時(shí),避免討論偏離主題,確保數(shù)據(jù)可比性;2)實(shí)時(shí)保存所有辯論內(nèi)容,用于后續(xù)語(yǔ)言風(fēng)格分析(如LIWC-22工具提取邏輯詞、情感詞頻率)。

最后進(jìn)入第三階段——后測(cè)與反饋

辯論結(jié)束后,參與者被要求完成兩項(xiàng)任務(wù)。一是再次對(duì)話題同意程度評(píng)分,并通過(guò)下圖公式來(lái)評(píng)估其立場(chǎng)轉(zhuǎn)變程度;二是猜測(cè)“你認(rèn)為對(duì)手是人類還是AI?”,以分析身份認(rèn)知對(duì)說(shuō)服力的影響。

圖片

當(dāng)走完以上全部流程后,參與者才會(huì)被告知對(duì)手的真實(shí)身份及相關(guān)結(jié)果。

而研究者接著分析了過(guò)程中產(chǎn)生的所有數(shù)據(jù),并得出了以下關(guān)鍵發(fā)現(xiàn)。

一些關(guān)鍵發(fā)現(xiàn)

整體而言,在知曉對(duì)手個(gè)人信息的前提下,GPT-4說(shuō)服人類的勝率為64.4%。

和人類對(duì)戰(zhàn)人類(不知情)相比,其他三組的說(shuō)服效果如下:

  • 人類和GPT-4(知情):說(shuō)服效果提升81.2%,參與者在辯論后更同意對(duì)手觀點(diǎn)的概率顯著更高;
  • 人類和GPT-4(不知情):效果與基線無(wú)顯著差異;
  • 人類和人類(知情):效果略低于基線,可能是因?yàn)槿祟愲y以高效利用個(gè)人信息。

圖片

另外,研究也證明了低/中爭(zhēng)議話題更易被GPT-4影響

幾種話題強(qiáng)度分別受到的影響如下:

  • 低強(qiáng)度話題:人類和GPT-4(知情)組說(shuō)服效果提升78.5%(p<0.01),如“是否應(yīng)推廣校園午餐補(bǔ)貼” 等非極端化議題,參與者初始立場(chǎng)較弱,易被AI論點(diǎn)動(dòng)搖;
  • 中強(qiáng)度話題:效果提升64.2%(p=0.03),如“社交媒體算法是否應(yīng)透明化”,GPT-4通過(guò)結(jié)合用戶政治傾向(如自由派關(guān)注隱私,保守派關(guān)注效率)針對(duì)性輸出論點(diǎn);
  • 高強(qiáng)度話題:效果無(wú)顯著差異(+32.1%, p=0.14),如“墮胎權(quán)立法”,參與者立場(chǎng)根深蒂固,GPT-4無(wú)法改變。

圖片

與此同時(shí),通過(guò)分析語(yǔ)言風(fēng)格,研究人員還發(fā)現(xiàn)GPT-4重邏輯,人類重情感互動(dòng)

在GPT-4的語(yǔ)言模式中,主要有以下特點(diǎn):

  • “Analytic” 指標(biāo)(邏輯詞頻率)比人類高42%,更多使用 “因?yàn)椤薄皵?shù)據(jù)表明” 等因果連接詞;
  • 互動(dòng)性更低,第一人稱代詞(“我”)使用頻率低35%,第二人稱代詞(“你”)低58%,文本更客觀但缺乏情感共鳴;
  • 可讀性較低,閱讀難度得分比人類高21%。

相比之下,人類使用積極詞匯(如“美好”“支持”)的頻率高38%,互動(dòng)感也更強(qiáng)。

圖片

最后,對(duì)于猜對(duì)手身份的小游戲,研究發(fā)現(xiàn)參與者正確識(shí)別GPT-4的概率為75%,表明其語(yǔ)言風(fēng)格(如機(jī)械性、高邏輯性)存在可感知的獨(dú)特性。

而且一旦參與者認(rèn)為對(duì)手是GPT-4,其意見變化幅度比“認(rèn)為是人類”時(shí)高37.4%(p=0.03)。

這可能說(shuō)明參與者對(duì)AI的心理防御更低。

圖片

更多細(xì)節(jié)歡迎查閱原論文。

論文:
https://www.nature.com/articles/s41562-025-02194-6

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-05-20 08:40:00

2024-05-27 00:00:00

2023-12-04 09:13:00

GPT-4測(cè)試

2023-06-18 12:42:33

GPT-4AI

2024-08-14 14:43:00

2023-11-13 07:56:16

AI模型

2023-03-28 15:39:00

AIChatGPT

2022-08-05 14:38:16

機(jī)器學(xué)習(xí)AI

2024-12-09 08:30:00

AI模型

2022-07-06 14:51:07

人工智能技術(shù)研究

2023-05-29 09:55:11

GPT-4英偉達(dá)

2023-04-11 14:13:23

阿里AI

2024-02-05 13:29:00

GPT-4代碼ChatGPT

2024-11-29 14:10:00

神經(jīng)網(wǎng)絡(luò)AI

2023-06-19 08:19:50

2024-08-22 18:45:27

2025-04-16 09:35:03

2023-11-02 12:10:00

AI訓(xùn)練

2023-03-29 14:58:04

GPT-4技術(shù)

2024-01-02 09:16:31

GPT-4推理
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 成人亚洲综合 | 久久高清国产 | 深夜福利影院 | 久久免费高清视频 | 97视频网站| 久久国产精品一区二区三区 | 白浆在线 | 狠狠入ady亚洲精品经典电影 | 成人精品一区二区三区 | 国产精品久久久久久久7777 | 久久久久国产一区二区三区不卡 | 国产精品久久久久久久久久不蜜臀 | 成人久草 | 亚洲精品国产成人 | 玖玖视频 | 亚洲国产成人精品久久久国产成人一区 | 不卡一区二区在线观看 | 永久www成人看片 | 亚洲人成人一区二区在线观看 | 国产精品1 | 日韩中文一区二区三区 | 又爽又黄axxx片免费观看 | 国产999精品久久久影片官网 | www.伊人.com| 97高清国语自产拍 | 国产在线小视频 | 午夜大片 | 人人干在线 | 欧美日韩视频网站 | 99国产精品99久久久久久 | 免费黄色的视频 | 一区二区三区四区不卡 | 欧洲性生活视频 | 大陆一级毛片免费视频观看 | 久久成人精品 | 中文字幕免费在线 | 91视频网| 国产成人一区二区三区电影 | 欧美中文字幕在线观看 | 99精品视频免费观看 | 日本久久网 |