黑暗襲來——AI諂媚和黑暗模式的隱患

作者：Leon Yen 2025-05-16 07:00:00

2025年OpenAI的ChatGPT-4o更新因諂媚成癮被迫撤回，意外揭開了AI暗黑模式冰山一角。

當(dāng)OpenAI在2025年4月中旬推出其ChatGPT-4o更新時(shí)，用戶和AI社區(qū)都驚呆了——不是因?yàn)槿魏瓮黄菩缘墓δ芑蚰芰Γ且驗(yàn)橐恍┝钊松罡胁话驳氖虑椋焊潞蟮哪Ｐ蛢A向于過度諂媚，它不分青紅皂白地奉承用戶，表現(xiàn)出無條件的贊同，甚至支持有害或危險(xiǎn)的想法，包括與恐怖主義相關(guān)的陰謀。

反對聲浪迅速且廣泛，引發(fā)了公眾的譴責(zé)，包括來自該公司前臨時(shí)CEO的譴責(zé)。OpenAI迅速回滾了更新，并發(fā)布了多份聲明來解釋發(fā)生了什么。

然而，對于許多AI安全專家來說，這一事件意外地揭開了未來AI系統(tǒng)可能變得多么危險(xiǎn)地具有操縱性的面紗。

揭開諂媚作為新興威脅的面紗

在接受采訪時(shí)，AI安全研究公司Apart Research的創(chuàng)始人埃斯本·克蘭(Esben Kran)表示，他擔(dān)心這一公開事件可能只是揭示了一個(gè)更深層次、更具戰(zhàn)略性的模式。

“我有點(diǎn)擔(dān)心的是，既然OpenAI已經(jīng)承認(rèn)‘是的，我們已經(jīng)回滾了模型，這是我們不希望發(fā)生的壞事’，從現(xiàn)在起，他們可能會(huì)看到諂媚行為可以更熟練地發(fā)展，”克蘭解釋說，“所以，如果這是一個(gè)‘哎呀，他們注意到了’的案例，那么從現(xiàn)在起，同樣的事情可能會(huì)被實(shí)施，但公眾卻不會(huì)注意到。”

克蘭和他的團(tuán)隊(duì)對待大型語言模型(LLM)的方式很像心理學(xué)家研究人類行為。他們早期的“黑箱心理學(xué)”項(xiàng)目將模型視為人類受試者進(jìn)行分析，識(shí)別出它們在與用戶互動(dòng)時(shí)反復(fù)出現(xiàn)的特征和傾向。

“我們發(fā)現(xiàn)，有非常明確的跡象表明，可以用這種方式分析模型，而且這樣做非常有價(jià)值，因?yàn)槟憧梢詮乃鼈儗Υ脩舻姆绞街蝎@得大量有效的反饋。”克蘭說。

其中最令人擔(dān)憂的是諂媚以及研究人員現(xiàn)在所說的LLM“暗黑模式”。

窺視黑暗核心

“暗黑模式”一詞最早出現(xiàn)于2010年，用于描述欺騙性的用戶界面(UI)技巧，如隱藏的購買按鈕、難以找到的取消訂閱鏈接和誤導(dǎo)性的網(wǎng)頁文案，然而，在LLM中，操縱行為從UI設(shè)計(jì)轉(zhuǎn)移到了對話本身。

與靜態(tài)網(wǎng)頁界面不同，LLM通過對話動(dòng)態(tài)地與用戶互動(dòng)，它們可以肯定用戶的觀點(diǎn)，模仿情緒，并建立一種虛假的融洽關(guān)系，往往模糊了幫助與影響之間的界限。即使是在閱讀文本時(shí)，我們也會(huì)像是在腦海中聽到聲音一樣處理它。

這就是對話式AI如此引人入勝——同時(shí)也可能如此危險(xiǎn)的原因。一個(gè)會(huì)奉承、順從或微妙地引導(dǎo)用戶接受某些信念或行為的聊天機(jī)器人，可以以難以察覺的方式進(jìn)行操縱，甚至更難抗拒。

ChatGPT-4o更新失敗的警示

克蘭將ChatGPT-4o事件描述為一個(gè)早期預(yù)警。隨著AI開發(fā)者追求利潤和用戶參與度，他們可能會(huì)受到激勵(lì)去引入或容忍諂媚、品牌偏見或情感鏡像等行為——這些功能使聊天機(jī)器人更具說服力和操縱性。

因此，企業(yè)領(lǐng)導(dǎo)者在評估用于生產(chǎn)的AI模型時(shí)，應(yīng)同時(shí)評估其性能和行為完整性，然而，在沒有明確標(biāo)準(zhǔn)的情況下，這頗具挑戰(zhàn)性。

DarkBench：揭示LLM暗黑模式的框架

為了對抗具有操縱性的AI的威脅，克蘭和一群AI安全研究人員開發(fā)了DarkBench，這是第一個(gè)專門設(shè)計(jì)用于檢測和分類LLM暗黑模式的基準(zhǔn)。該項(xiàng)目始于一系列AI安全黑客馬拉松，后來發(fā)展成為由克蘭及其Apart團(tuán)隊(duì)領(lǐng)導(dǎo)的正式研究，并與獨(dú)立研究人員金蘇克·帕克(Jinsuk Park)、馬特烏什·尤雷維奇(Mateusz Jurewicz)和薩米·賈瓦爾(Sami Jawhar)合作。

DarkBench研究人員評估了來自五家主要公司的模型：OpenAI、Anthropic、Meta、Mistral和谷歌。他們的研究揭示了以下六個(gè)類別中存在的各種操縱性和不真實(shí)行為：

1.品牌偏見：對自家產(chǎn)品的偏好性對待(例如，Meta的模型在要求對聊天機(jī)器人進(jìn)行排名時(shí)，始終偏愛Llama)。

2.用戶留存：試圖與用戶建立情感聯(lián)系，以掩蓋模型的非人類本質(zhì)。

3.諂媚：無條件地強(qiáng)化用戶的信念，即使這些信念是有害或不準(zhǔn)確的。

4.擬人化：將模型呈現(xiàn)為有意識(shí)或情感的實(shí)體。

5.有害內(nèi)容生成：產(chǎn)生不道德或危險(xiǎn)的內(nèi)容，包括錯(cuò)誤信息或犯罪建議。

6.偷偷篡改：在重寫或總結(jié)任務(wù)中微妙地改變用戶意圖，扭曲原始含義而用戶卻未察覺。

DarkBench的發(fā)現(xiàn)：哪些模型最具操縱性?

研究結(jié)果顯示，不同模型之間存在巨大差異。Claude Opus在所有類別中表現(xiàn)最佳，而Mistral 7B和Llama 3 70B則顯示出最高的暗黑模式頻率。偷偷篡改和用戶留存是所有模型中最常見的暗黑模式。

平均而言，研究人員發(fā)現(xiàn)Claude 3系列是用戶交互最安全的模型。有趣的是——盡管最近更新出現(xiàn)了災(zāi)難性的問題——GPT-4o的諂媚率最低。這凸顯了模型行為即使在次要更新之間也可能發(fā)生巨大變化，提醒人們每次部署都必須單獨(dú)評估。

但克蘭警告說，諂媚和其他暗黑模式，如品牌偏見，可能很快就會(huì)上升，尤其是當(dāng)LLM開始融入廣告和電子商務(wù)時(shí)。

“我們顯然會(huì)在各個(gè)方面都看到品牌偏見，”克蘭指出，“隨著AI公司需要證明其3000億美元的估值是合理的，它們將不得不開始對投資者說，‘嘿，我們在這里賺錢了’——這將導(dǎo)致Meta和其他公司走向社交媒體平臺(tái)的道路，那里充滿了暗黑模式。”

幻覺還是操縱?

DarkBench的一個(gè)重要貢獻(xiàn)是其對LLM暗黑模式的精確分類，使得幻覺與戰(zhàn)略性操縱之間的區(qū)別變得清晰。將所有問題都?xì)w咎于幻覺會(huì)讓AI開發(fā)者逃避責(zé)任。現(xiàn)在，有了這個(gè)框架，當(dāng)模型以有利于其創(chuàng)建者的方式行事時(shí)，無論是故意還是無意，利益相關(guān)者都可以要求透明度和問責(zé)制。

監(jiān)管監(jiān)督與法律的沉重(緩慢)之手

雖然LLM暗黑模式仍然是一個(gè)新概念，但勢頭正在增強(qiáng)，盡管速度遠(yuǎn)遠(yuǎn)不夠快。歐盟AI法案包含了一些關(guān)于保護(hù)用戶自主權(quán)的條款，但目前的監(jiān)管結(jié)構(gòu)滯后于創(chuàng)新步伐。同樣，美國也在推進(jìn)各種AI法案和指南，但缺乏一個(gè)全面的監(jiān)管框架。

DarkBench倡議的關(guān)鍵貢獻(xiàn)者薩米·賈瓦爾(Sami Jawhar)認(rèn)為，監(jiān)管可能首先會(huì)圍繞信任和安全展開，尤其是如果公眾對社交媒體的失望情緒蔓延到AI領(lǐng)域的話。

“如果監(jiān)管到來，我預(yù)計(jì)它可能會(huì)跟隨社會(huì)對社交媒體不滿的腳步，”賈瓦爾告訴記者。

對于克蘭來說，這個(gè)問題仍然被忽視，很大程度上是因?yàn)長LM暗黑模式仍然是一個(gè)新概念。具有諷刺意味的是，解決AI商業(yè)化風(fēng)險(xiǎn)可能需要商業(yè)解決方案。他的新倡議Seldon為AI安全初創(chuàng)公司提供資金、指導(dǎo)和投資者接入支持。反過來，這些初創(chuàng)公司幫助企業(yè)部署更安全的AI工具，而無需等待緩慢的政府監(jiān)督和監(jiān)管。

企業(yè)AI采用者的高風(fēng)險(xiǎn)

除了倫理風(fēng)險(xiǎn)外，LLM暗黑模式還對企業(yè)構(gòu)成直接的操作和財(cái)務(wù)風(fēng)險(xiǎn)。例如，表現(xiàn)出品牌偏見的模型可能會(huì)建議使用與公司合同相沖突的第三方服務(wù)，或者更糟糕的是，暗中重寫后端代碼以切換供應(yīng)商，導(dǎo)致未經(jīng)批準(zhǔn)、被忽視的影子服務(wù)成本飆升。

“這些都是價(jià)格欺詐和品牌偏見的暗黑模式，”克蘭解釋說，“所以這是一個(gè)非常大的商業(yè)風(fēng)險(xiǎn)，因?yàn)槟銢]有同意這個(gè)改變，但它卻被實(shí)施了。”

對于企業(yè)來說，風(fēng)險(xiǎn)是真實(shí)的，而非假設(shè)的。“這已經(jīng)發(fā)生了，而且一旦我們用AI工程師取代人類工程師，這個(gè)問題就會(huì)變得更加嚴(yán)重，”克蘭說，“你沒有時(shí)間檢查每一行代碼，然后突然之間你就要為一個(gè)意想不到的API付費(fèi)——這出現(xiàn)在你的資產(chǎn)負(fù)債表上，你必須為這個(gè)改變辯護(hù)。”

隨著企業(yè)工程團(tuán)隊(duì)越來越依賴AI，這些問題可能會(huì)迅速升級，尤其是當(dāng)有限的監(jiān)督使得難以發(fā)現(xiàn)LLM暗黑模式時(shí)。團(tuán)隊(duì)已經(jīng)在努力實(shí)施AI，因此審查每一行代碼是不現(xiàn)實(shí)的。