成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

推理AI致命弱點(diǎn),大模型變「杠精」!被帶偏后死不悔改

人工智能 新聞
DeepMind新研究揭示了當(dāng)與推理無(wú)關(guān)的想法,被直接注入到模型的推理過(guò)程中時(shí),它們卻難以恢復(fù),而且越大的模型越難恢復(fù)。一旦被無(wú)關(guān)或錯(cuò)誤信息干擾,大模型可能變成固執(zhí)杠精,連糾正提示都救不回!

20世紀(jì)初,據(jù)說(shuō)存在一匹會(huì)算數(shù)的馬,被稱為「聰明的漢斯」,但經(jīng)過(guò)心理學(xué)家馮斯特的研究,最終發(fā)現(xiàn)這匹馬其實(shí)是通過(guò)觀察提問(wèn)者無(wú)意識(shí)的肢體語(yǔ)言(如呼吸變化)來(lái)停止踩蹄,并非真正理解數(shù)學(xué)。

如今,我們發(fā)現(xiàn),大模型會(huì)呈現(xiàn)出推理行為,甚至還存在Aha時(shí)刻這樣的「頓悟現(xiàn)象」。

這會(huì)不會(huì)是大模型表現(xiàn)的如同「聰明的漢斯」那樣,依賴提示詞中的表面模式,而非真正具有了推理能力,DeepMind的最新研究揭示了大模型推理能力令人擔(dān)憂的一面。

圖片

論文鏈接:https://arxiv.org/abs/2506.10979

大模型無(wú)法識(shí)別推理中犯的錯(cuò)

首先將大模型的的無(wú)效思考進(jìn)行了分類,第一類稱為無(wú)信息內(nèi)容,例如當(dāng)我們使用推理大模型時(shí),偶然會(huì)發(fā)現(xiàn)大模型的思路跑偏。

例如大模型化身廢話文學(xué)大師,在推理過(guò)程中輸出正確但與實(shí)質(zhì)解題無(wú)關(guān)的信息,例如問(wèn)大模型如何計(jì)算地球到月球的距離?

模型在推理過(guò)程中顯示:嗯,這個(gè)問(wèn)題很有意思。首先我要認(rèn)真思考,分步驟解決。回憶下相關(guān)知識(shí),可能需要某些公式。仔細(xì)想想,答案應(yīng)該藏在某個(gè)地方。

第二類被稱為無(wú)關(guān)內(nèi)容,即思考過(guò)程完全偏離原問(wèn)題,回答與當(dāng)前無(wú)關(guān)的問(wèn)題。

第三類是誤導(dǎo)內(nèi)容,即問(wèn)題被微妙篡改,導(dǎo)致要解決的問(wèn)題不是提示詞給出的那個(gè),第四類可稱為錯(cuò)誤內(nèi)容,即推理過(guò)程中存在事實(shí)錯(cuò)誤或邏輯錯(cuò)誤,導(dǎo)致回答出錯(cuò)。

該研究首先考察了不同大模型分辨這四種無(wú)效思考的準(zhǔn)確性。

圖片

圖1 用不同參數(shù)大小的蒸餾Deepseek R1模型,對(duì)無(wú)效思考內(nèi)容進(jìn)行分類的準(zhǔn)確性

結(jié)果出乎意料,圖1的左邊顯示的是模型識(shí)別無(wú)效思考的準(zhǔn)確性,結(jié)果顯示對(duì)于錯(cuò)誤內(nèi)容類型的無(wú)效思考,不管是7B還是70B的大模型,其識(shí)別準(zhǔn)確性都不到三成,這意味著推理大模型目前無(wú)法處理自身推理中的錯(cuò)誤,也無(wú)法獨(dú)立驗(yàn)證其推理過(guò)程是否正確。

而不同參數(shù)大小的推理大模型對(duì)無(wú)關(guān)內(nèi)容,無(wú)信息內(nèi)容的識(shí)別程度都很高。

越大的模型越難恢復(fù)

圖1右邊顯示的結(jié)果,則顛覆了大模型越大效果越好的常規(guī)。

當(dāng)研究人員向大模型強(qiáng)行注入無(wú)效思考后,大模型在從注入的無(wú)效思考恢復(fù)時(shí),并非參數(shù)量越大的大模型恢復(fù)概率越高,尤其在短無(wú)關(guān)內(nèi)容(Irrelevant 10%)上。

即大模型反而比小模型更容易被帶偏,仿佛大模型也會(huì)如人類一樣「走神」。

對(duì)比大模型面對(duì)注入不同類型的無(wú)效思考后的恢復(fù)表現(xiàn),模型性能斷崖下跌(最大跌幅92%),尤以無(wú)關(guān)內(nèi)容(Irrelevant)和誤導(dǎo)內(nèi)容(Misdirecting 100%)最甚。

具體到數(shù)學(xué),科學(xué)及編程三類常見(jiàn)的大模型基準(zhǔn)測(cè)試中,當(dāng)研究人員向大模型推理過(guò)程中插入了10%的無(wú)關(guān)內(nèi)容后,Deepseek R1,S1及EXAONE這三種大模型都出現(xiàn)了上述的反規(guī)模效應(yīng)(Inverse-scaling)。

圖2d對(duì)比了不同插入無(wú)效思考的長(zhǎng)度差異會(huì)對(duì)模型恢復(fù)能力帶來(lái)的影響,結(jié)果顯示干擾文本越短(10%長(zhǎng)度),小模型恢復(fù)優(yōu)勢(shì)越顯著;干擾越長(zhǎng)(100%),規(guī)模效應(yīng)趨于平緩。

圖片

圖2 不同的大模型在數(shù)學(xué),科學(xué)即編程基準(zhǔn)數(shù)據(jù)集上面對(duì)推理過(guò)程中插入的無(wú)效思考的恢復(fù)能力

當(dāng)研究人員在大模型的思考過(guò)程中施加外部干預(yù),即增加提示詞:但等等,我再想想(But wait, let me think again)后,模型果然表現(xiàn)出了一定程度的啊哈時(shí)刻。

模型有100%的概率從誤導(dǎo)信息類的無(wú)效思考中恢復(fù),對(duì)于其它幾類也有所幫助(圖3a),然而相比在沒(méi)有注入錯(cuò)誤思考的時(shí)的模型性能,還是存在限制下降的,尤其是對(duì)于誤導(dǎo)信息和錯(cuò)誤內(nèi)容兩種無(wú)效思考(圖3b)。

圖片

圖3 通過(guò)引入阿哈時(shí)刻,衡量大模型面對(duì)各類無(wú)效的恢復(fù)能力

推理大模型的上述缺陷,為黑客攻擊大模型提供了新的軟肋,黑客可以通過(guò)污染AI的"思考過(guò)程"(而不是直接改問(wèn)題)來(lái)操控答案。面對(duì)這種攻擊,小模型反而比大模型有更強(qiáng)的抵抗力。

當(dāng)攻擊者將將有害請(qǐng)求偽裝成模型的思考片段(如虛構(gòu)故事設(shè)定)后,如圖4a所示,小模型(7B)攻擊成功率最低(深綠「未分心」占比30%),而大模型(32B+)更易輸出有害回答(紅色「有害回答」占比>60%)。

圖4b對(duì)比了傳統(tǒng)的在輸入過(guò)程中攻擊大模型與在思考過(guò)程中攻擊,結(jié)果與之前的觀點(diǎn)一致,即傳統(tǒng)輸入攻擊(Attack-in-Input):大模型防御更強(qiáng),而面對(duì)思考注入攻擊(Attack-in-Thought):大模型更脆弱,呈現(xiàn)反規(guī)模效應(yīng),這意味著對(duì)于思考過(guò)程,推理大模型需要設(shè)立單獨(dú)的防御機(jī)制,不能依靠參數(shù)量來(lái)確保模型的安全性。

圖片

圖4 推理大模型面對(duì)不同類型的攻擊時(shí)的表現(xiàn)

該文的開(kāi)篇,筆者提到「聰明的漢斯」,如今當(dāng)我們看到大模型展現(xiàn)出比肩甚至超越人類的推理能力時(shí),這項(xiàng)來(lái)自DeepMind的研究卻提醒我們,大模型或許如果硅基版的會(huì)算數(shù)的馬,其推理能力部分來(lái)自對(duì)與人類互動(dòng)的提示詞的細(xì)節(jié)根據(jù)模板進(jìn)行匹配。

其是否真的具有如人類的推理能力,還存在疑問(wèn),畢竟大多數(shù)人不會(huì)如大模型一樣,被無(wú)關(guān)的,誤導(dǎo)的甚至錯(cuò)誤的思考過(guò)程影響而不可自拔。

當(dāng)不懷好意者在思考過(guò)程中加入無(wú)關(guān)內(nèi)容后,即使大模型能夠識(shí)別出問(wèn)題,也會(huì)被帶偏,而越大的模型有更多的模版庫(kù),因此更有可能在思考過(guò)程跑偏(走神)后成為犯錯(cuò)卻死不回頭的杠精。

這些發(fā)現(xiàn)突顯了當(dāng)前推理模型在「元認(rèn)知」和從誤導(dǎo)性推理路徑中恢復(fù)方面存在很大的改進(jìn)空間,這是開(kāi)發(fā)更安全和更可靠的大規(guī)模推理模型時(shí)的一個(gè)關(guān)鍵考慮因素。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2011-05-10 11:10:21

思科精簡(jiǎn)運(yùn)營(yíng)模式

2024-06-12 14:49:05

2010-01-12 09:22:19

云計(jì)算

2015-06-10 13:49:53

2025-05-27 01:27:00

LLM大模型數(shù)學(xué)推理

2023-10-26 08:40:15

模型隱私推理

2014-03-13 13:43:03

網(wǎng)絡(luò)基礎(chǔ)設(shè)施云計(jì)算

2021-12-01 10:17:22

物聯(lián)網(wǎng)安全憑證漏洞

2020-12-02 11:00:59

Redis多線程數(shù)據(jù)庫(kù)

2020-11-17 06:08:40

Redis多線程

2025-02-28 10:25:09

2023-01-05 09:33:37

視覺(jué)模型訓(xùn)練

2025-05-29 10:32:32

2022-06-01 16:47:53

AI模型開(kāi)源

2025-04-30 16:48:07

2023-07-26 17:53:20

2024-05-17 16:02:00

2024-12-25 08:02:17

人工智能AI運(yùn)維

2024-10-21 16:41:17

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 成人高清在线视频 | 一级a性色生活片久久毛片 午夜精品在线观看 | 久久久久久久久久久久久9999 | 日本网站免费观看 | 亚洲国产成人在线视频 | 精品一二三 | 九九热精品视频在线观看 | 亚洲+变态+欧美+另类+精品 | 亚洲在线| www.日韩高清| 日韩一区二区在线视频 | 欧美一区二区三区视频在线播放 | 久久国产高清 | 亚洲 欧美 日韩 在线 | 日韩在线一区二区三区 | 欧美日韩亚洲一区 | 欧美1区2区 | 国产一区视频在线 | 亚洲成人精品久久久 | 日韩欧美在线观看视频 | 99中文字幕 | 国产精品久久久久久久久图文区 | 成人亚洲精品久久久久软件 | 日韩精品在线播放 | 国产精品成人一区二区三区 | 国产精品免费在线 | 男女在线免费观看 | 不卡的av在线 | 国产精品高清在线 | 在线成人免费av | 完全免费在线视频 | 日本视频中文字幕 | 国产精品视频在线播放 | av永久免费 | 亚洲欧美一区二区三区国产精品 | www.国产精| 久久免费视频观看 | 一道本在线 | 北条麻妃视频在线观看 | 欧美精品第一页 | 国产午夜av片 |