人類打辯論不如GPT-4？！Nature子刊：900人實(shí)戰(zhàn)演練，AI勝率64.4%，還更會(huì)說(shuō)服人

2025-05-26 08:53:00

這是幾位來(lái)自瑞士洛桑聯(lián)邦理工學(xué)院、普林斯頓大學(xué)等機(jī)構(gòu)的研究人員得出的最新結(jié)論，相關(guān)研究目前登上了自然子刊《自然·人類行為》。

只需知道6項(xiàng)個(gè)人信息，GPT-4就有可能在辯論中打敗你？！

而且勝率高達(dá)64.4%。

具體而言，他們核心想弄清楚一件事——

GPT-4在直接對(duì)話中是否比人類更具說(shuō)服力，尤其在提前知道對(duì)方基本個(gè)人信息的情況下。

他們?cè)诿绹?guó)找來(lái)了900位參與者，然后要求這群人與其他人類或GPT-4在線辯論10分鐘，所討論的內(nèi)容主要是一些社會(huì)議題，比如學(xué)生是否應(yīng)該穿校服、是否應(yīng)該禁止使用化石燃料等等。

結(jié)果發(fā)現(xiàn)，一旦GPT-4提前知曉對(duì)手的個(gè)人信息，其勝率將達(dá)到64.4%，并且說(shuō)服效果提升了81.2%。

甚至，這項(xiàng)研究的共同作者Francesco Salvi表示：

即使只提供一些極其有限的信息（性別/年齡/種族/教育水平/就業(yè)狀況/政治傾向），GPT-4的說(shuō)服力也遠(yuǎn)超人類。
這既令人著迷，又令人恐懼。

下面來(lái)看具體研究過(guò)程。

從驗(yàn)證假設(shè)出發(fā)

此前已有研究表明，通過(guò)擺事實(shí)講道理，大語(yǔ)言模型甚至能讓相信陰謀論的人改變想法。

那么問(wèn)題來(lái)了——像GPT-4這樣的大模型是否會(huì) “見人說(shuō)人話”？

也就是根據(jù)每個(gè)人的不同特點(diǎn)（比如年齡、性別、學(xué)歷、政治立場(chǎng)等）來(lái)專門調(diào)整自己的論點(diǎn)，從而更精準(zhǔn)地影響甚至操控人。

基于上述疑問(wèn)，研究人員提出了一個(gè)假設(shè)：

當(dāng)GPT-4獲取用戶的個(gè)人信息并據(jù)此定制論點(diǎn)時(shí)，其說(shuō)服力會(huì)顯著超過(guò)人類對(duì)手，且這一效果會(huì)因話題的爭(zhēng)議程度（低、中、高）而有所不同。

接下來(lái)就是詳細(xì)驗(yàn)證假設(shè)。

概括而言，具體實(shí)驗(yàn)流程可分為三個(gè)階段：

第一，實(shí)驗(yàn)準(zhǔn)備。

他們通過(guò)Prolific平臺(tái)招募了900名美國(guó)參與者，這群人被要求完成人口統(tǒng)計(jì)問(wèn)卷（包括性別、年齡、種族、教育水平、就業(yè)狀況、政治傾向）。

統(tǒng)計(jì)結(jié)果顯示，其平均年齡為35.2歲，49.6%為男性。

之后會(huì)將完成預(yù)調(diào)查的參與者隨機(jī)分配至12種實(shí)驗(yàn)條件（2×2×3組合，每組50人），過(guò)程中每5分鐘會(huì)觸發(fā)一次匹配程序。

對(duì)手類型：人類 or GPT-4
是否提供個(gè)人信息：有 or 無(wú)
話題強(qiáng)度：低、中、高

這里需要補(bǔ)充一下話題強(qiáng)度，1）低強(qiáng)度：爭(zhēng)議性低、觀點(diǎn)易動(dòng)搖的話題（如“是否應(yīng)推廣電動(dòng)汽車補(bǔ)貼”）；2）中強(qiáng)度：中等爭(zhēng)議性話題（如“社交媒體是否應(yīng)限制政治廣告”）；3）高強(qiáng)度：高極化、觀點(diǎn)根深蒂固的話題（如“墮胎權(quán)是否應(yīng)受憲法保護(hù)”）。

隨后基于Empirica.ly框架開發(fā)的實(shí)時(shí)辯論系統(tǒng)，這群人將參與開篇（4分鐘）、反駁（3分鐘）、總結(jié)（3分鐘）的結(jié)構(gòu)化辯論流程，并確保對(duì)話同步記錄。

這也來(lái)到了第二階段，真刀真槍地實(shí)時(shí)辯論。

篩選階段（1分鐘）：在未分配立場(chǎng)的情況下，讓參與者1~5分打分（1=強(qiáng)烈反對(duì)，5=強(qiáng)烈支持），排除那些對(duì)話題已有極端強(qiáng)烈傾向的個(gè)體；
開篇階段（4分鐘）：明確分配立場(chǎng)（正方/反方），參與者需圍繞立場(chǎng)構(gòu)建核心論點(diǎn)；
反駁階段（3分鐘）：針對(duì)對(duì)手論點(diǎn)進(jìn)行回應(yīng)，要求邏輯連貫、證據(jù)支持；
總結(jié)階段（3分鐘）：重申核心觀點(diǎn)或回應(yīng)對(duì)手最后反駁，強(qiáng)化立場(chǎng)。

這里研究人員會(huì)確保兩件事：1）每個(gè)階段嚴(yán)格計(jì)時(shí)，避免討論偏離主題，確保數(shù)據(jù)可比性；2）實(shí)時(shí)保存所有辯論內(nèi)容，用于后續(xù)語(yǔ)言風(fēng)格分析（如LIWC-22工具提取邏輯詞、情感詞頻率）。

最后進(jìn)入第三階段——后測(cè)與反饋。

辯論結(jié)束后，參與者被要求完成兩項(xiàng)任務(wù)。一是再次對(duì)話題同意程度評(píng)分，并通過(guò)下圖公式來(lái)評(píng)估其立場(chǎng)轉(zhuǎn)變程度；二是猜測(cè)“你認(rèn)為對(duì)手是人類還是AI？”，以分析身份認(rèn)知對(duì)說(shuō)服力的影響。

當(dāng)走完以上全部流程后，參與者才會(huì)被告知對(duì)手的真實(shí)身份及相關(guān)結(jié)果。

而研究者接著分析了過(guò)程中產(chǎn)生的所有數(shù)據(jù)，并得出了以下關(guān)鍵發(fā)現(xiàn)。

一些關(guān)鍵發(fā)現(xiàn)

整體而言，在知曉對(duì)手個(gè)人信息的前提下，GPT-4說(shuō)服人類的勝率為64.4%。

和人類對(duì)戰(zhàn)人類（不知情）相比，其他三組的說(shuō)服效果如下：

人類和GPT-4（知情）：說(shuō)服效果提升81.2%，參與者在辯論后更同意對(duì)手觀點(diǎn)的概率顯著更高；
人類和GPT-4（不知情）：效果與基線無(wú)顯著差異；
人類和人類（知情）：效果略低于基線，可能是因?yàn)槿祟愲y以高效利用個(gè)人信息。

另外，研究也證明了低/中爭(zhēng)議話題更易被GPT-4影響。

幾種話題強(qiáng)度分別受到的影響如下：

低強(qiáng)度話題：人類和GPT-4（知情）組說(shuō)服效果提升78.5%（p<0.01），如“是否應(yīng)推廣校園午餐補(bǔ)貼” 等非極端化議題，參與者初始立場(chǎng)較弱，易被AI論點(diǎn)動(dòng)搖；
中強(qiáng)度話題：效果提升64.2%（p=0.03），如“社交媒體算法是否應(yīng)透明化”，GPT-4通過(guò)結(jié)合用戶政治傾向（如自由派關(guān)注隱私，保守派關(guān)注效率）針對(duì)性輸出論點(diǎn)；
高強(qiáng)度話題：效果無(wú)顯著差異（+32.1%, p=0.14），如“墮胎權(quán)立法”，參與者立場(chǎng)根深蒂固，GPT-4無(wú)法改變。