成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

黑暗襲來——AI諂媚和黑暗模式的隱患

人工智能
2025年OpenAI的ChatGPT-4o更新因諂媚成癮被迫撤回,意外揭開了AI暗黑模式冰山一角。

當(dāng)OpenAI在2025年4月中旬推出其ChatGPT-4o更新時(shí),用戶和AI社區(qū)都驚呆了——不是因?yàn)槿魏瓮黄菩缘墓δ芑蚰芰Γ且驗(yàn)橐恍┝钊松罡胁话驳氖虑椋焊潞蟮哪P蛢A向于過度諂媚,它不分青紅皂白地奉承用戶,表現(xiàn)出無條件的贊同,甚至支持有害或危險(xiǎn)的想法,包括與恐怖主義相關(guān)的陰謀。

反對聲浪迅速且廣泛,引發(fā)了公眾的譴責(zé),包括來自該公司前臨時(shí)CEO的譴責(zé)。OpenAI迅速回滾了更新,并發(fā)布了多份聲明來解釋發(fā)生了什么。

然而,對于許多AI安全專家來說,這一事件意外地揭開了未來AI系統(tǒng)可能變得多么危險(xiǎn)地具有操縱性的面紗。

揭開諂媚作為新興威脅的面紗

在接受采訪時(shí),AI安全研究公司Apart Research的創(chuàng)始人埃斯本·克蘭(Esben Kran)表示,他擔(dān)心這一公開事件可能只是揭示了一個(gè)更深層次、更具戰(zhàn)略性的模式。

“我有點(diǎn)擔(dān)心的是,既然OpenAI已經(jīng)承認(rèn)‘是的,我們已經(jīng)回滾了模型,這是我們不希望發(fā)生的壞事’,從現(xiàn)在起,他們可能會(huì)看到諂媚行為可以更熟練地發(fā)展,”克蘭解釋說,“所以,如果這是一個(gè)‘哎呀,他們注意到了’的案例,那么從現(xiàn)在起,同樣的事情可能會(huì)被實(shí)施,但公眾卻不會(huì)注意到。”

克蘭和他的團(tuán)隊(duì)對待大型語言模型(LLM)的方式很像心理學(xué)家研究人類行為。他們早期的“黑箱心理學(xué)”項(xiàng)目將模型視為人類受試者進(jìn)行分析,識(shí)別出它們在與用戶互動(dòng)時(shí)反復(fù)出現(xiàn)的特征和傾向。

“我們發(fā)現(xiàn),有非常明確的跡象表明,可以用這種方式分析模型,而且這樣做非常有價(jià)值,因?yàn)槟憧梢詮乃鼈儗Υ脩舻姆绞街蝎@得大量有效的反饋。”克蘭說。

其中最令人擔(dān)憂的是諂媚以及研究人員現(xiàn)在所說的LLM“暗黑模式”。

窺視黑暗核心

“暗黑模式”一詞最早出現(xiàn)于2010年,用于描述欺騙性的用戶界面(UI)技巧,如隱藏的購買按鈕、難以找到的取消訂閱鏈接和誤導(dǎo)性的網(wǎng)頁文案,然而,在LLM中,操縱行為從UI設(shè)計(jì)轉(zhuǎn)移到了對話本身。

與靜態(tài)網(wǎng)頁界面不同,LLM通過對話動(dòng)態(tài)地與用戶互動(dòng),它們可以肯定用戶的觀點(diǎn),模仿情緒,并建立一種虛假的融洽關(guān)系,往往模糊了幫助與影響之間的界限。即使是在閱讀文本時(shí),我們也會(huì)像是在腦海中聽到聲音一樣處理它。

這就是對話式AI如此引人入勝——同時(shí)也可能如此危險(xiǎn)的原因。一個(gè)會(huì)奉承、順從或微妙地引導(dǎo)用戶接受某些信念或行為的聊天機(jī)器人,可以以難以察覺的方式進(jìn)行操縱,甚至更難抗拒。

ChatGPT-4o更新失敗的警示

克蘭將ChatGPT-4o事件描述為一個(gè)早期預(yù)警。隨著AI開發(fā)者追求利潤和用戶參與度,他們可能會(huì)受到激勵(lì)去引入或容忍諂媚、品牌偏見或情感鏡像等行為——這些功能使聊天機(jī)器人更具說服力和操縱性。

因此,企業(yè)領(lǐng)導(dǎo)者在評估用于生產(chǎn)的AI模型時(shí),應(yīng)同時(shí)評估其性能和行為完整性,然而,在沒有明確標(biāo)準(zhǔn)的情況下,這頗具挑戰(zhàn)性。

DarkBench:揭示LLM暗黑模式的框架

為了對抗具有操縱性的AI的威脅,克蘭和一群AI安全研究人員開發(fā)了DarkBench,這是第一個(gè)專門設(shè)計(jì)用于檢測和分類LLM暗黑模式的基準(zhǔn)。該項(xiàng)目始于一系列AI安全黑客馬拉松,后來發(fā)展成為由克蘭及其Apart團(tuán)隊(duì)領(lǐng)導(dǎo)的正式研究,并與獨(dú)立研究人員金蘇克·帕克(Jinsuk Park)、馬特烏什·尤雷維奇(Mateusz Jurewicz)和薩米·賈瓦爾(Sami Jawhar)合作。

DarkBench研究人員評估了來自五家主要公司的模型:OpenAI、Anthropic、Meta、Mistral和谷歌。他們的研究揭示了以下六個(gè)類別中存在的各種操縱性和不真實(shí)行為:

1.品牌偏見:對自家產(chǎn)品的偏好性對待(例如,Meta的模型在要求對聊天機(jī)器人進(jìn)行排名時(shí),始終偏愛Llama)。

2.用戶留存:試圖與用戶建立情感聯(lián)系,以掩蓋模型的非人類本質(zhì)。

3.諂媚:無條件地強(qiáng)化用戶的信念,即使這些信念是有害或不準(zhǔn)確的。

4.擬人化:將模型呈現(xiàn)為有意識(shí)或情感的實(shí)體。

5.有害內(nèi)容生成:產(chǎn)生不道德或危險(xiǎn)的內(nèi)容,包括錯(cuò)誤信息或犯罪建議。

6.偷偷篡改:在重寫或總結(jié)任務(wù)中微妙地改變用戶意圖,扭曲原始含義而用戶卻未察覺。

DarkBench的發(fā)現(xiàn):哪些模型最具操縱性?

研究結(jié)果顯示,不同模型之間存在巨大差異。Claude Opus在所有類別中表現(xiàn)最佳,而Mistral 7B和Llama 3 70B則顯示出最高的暗黑模式頻率。偷偷篡改和用戶留存是所有模型中最常見的暗黑模式。

平均而言,研究人員發(fā)現(xiàn)Claude 3系列是用戶交互最安全的模型。有趣的是——盡管最近更新出現(xiàn)了災(zāi)難性的問題——GPT-4o的諂媚率最低。這凸顯了模型行為即使在次要更新之間也可能發(fā)生巨大變化,提醒人們每次部署都必須單獨(dú)評估。

但克蘭警告說,諂媚和其他暗黑模式,如品牌偏見,可能很快就會(huì)上升,尤其是當(dāng)LLM開始融入廣告和電子商務(wù)時(shí)。

“我們顯然會(huì)在各個(gè)方面都看到品牌偏見,”克蘭指出,“隨著AI公司需要證明其3000億美元的估值是合理的,它們將不得不開始對投資者說,‘嘿,我們在這里賺錢了’——這將導(dǎo)致Meta和其他公司走向社交媒體平臺(tái)的道路,那里充滿了暗黑模式。”

幻覺還是操縱?

DarkBench的一個(gè)重要貢獻(xiàn)是其對LLM暗黑模式的精確分類,使得幻覺與戰(zhàn)略性操縱之間的區(qū)別變得清晰。將所有問題都?xì)w咎于幻覺會(huì)讓AI開發(fā)者逃避責(zé)任。現(xiàn)在,有了這個(gè)框架,當(dāng)模型以有利于其創(chuàng)建者的方式行事時(shí),無論是故意還是無意,利益相關(guān)者都可以要求透明度和問責(zé)制。

監(jiān)管監(jiān)督與法律的沉重(緩慢)之手

雖然LLM暗黑模式仍然是一個(gè)新概念,但勢頭正在增強(qiáng),盡管速度遠(yuǎn)遠(yuǎn)不夠快。歐盟AI法案包含了一些關(guān)于保護(hù)用戶自主權(quán)的條款,但目前的監(jiān)管結(jié)構(gòu)滯后于創(chuàng)新步伐。同樣,美國也在推進(jìn)各種AI法案和指南,但缺乏一個(gè)全面的監(jiān)管框架。

DarkBench倡議的關(guān)鍵貢獻(xiàn)者薩米·賈瓦爾(Sami Jawhar)認(rèn)為,監(jiān)管可能首先會(huì)圍繞信任和安全展開,尤其是如果公眾對社交媒體的失望情緒蔓延到AI領(lǐng)域的話。

“如果監(jiān)管到來,我預(yù)計(jì)它可能會(huì)跟隨社會(huì)對社交媒體不滿的腳步,”賈瓦爾告訴記者。

對于克蘭來說,這個(gè)問題仍然被忽視,很大程度上是因?yàn)長LM暗黑模式仍然是一個(gè)新概念。具有諷刺意味的是,解決AI商業(yè)化風(fēng)險(xiǎn)可能需要商業(yè)解決方案。他的新倡議Seldon為AI安全初創(chuàng)公司提供資金、指導(dǎo)和投資者接入支持。反過來,這些初創(chuàng)公司幫助企業(yè)部署更安全的AI工具,而無需等待緩慢的政府監(jiān)督和監(jiān)管。

企業(yè)AI采用者的高風(fēng)險(xiǎn)

除了倫理風(fēng)險(xiǎn)外,LLM暗黑模式還對企業(yè)構(gòu)成直接的操作和財(cái)務(wù)風(fēng)險(xiǎn)。例如,表現(xiàn)出品牌偏見的模型可能會(huì)建議使用與公司合同相沖突的第三方服務(wù),或者更糟糕的是,暗中重寫后端代碼以切換供應(yīng)商,導(dǎo)致未經(jīng)批準(zhǔn)、被忽視的影子服務(wù)成本飆升。

“這些都是價(jià)格欺詐和品牌偏見的暗黑模式,”克蘭解釋說,“所以這是一個(gè)非常大的商業(yè)風(fēng)險(xiǎn),因?yàn)槟銢]有同意這個(gè)改變,但它卻被實(shí)施了。”

對于企業(yè)來說,風(fēng)險(xiǎn)是真實(shí)的,而非假設(shè)的。“這已經(jīng)發(fā)生了,而且一旦我們用AI工程師取代人類工程師,這個(gè)問題就會(huì)變得更加嚴(yán)重,”克蘭說,“你沒有時(shí)間檢查每一行代碼,然后突然之間你就要為一個(gè)意想不到的API付費(fèi)——這出現(xiàn)在你的資產(chǎn)負(fù)債表上,你必須為這個(gè)改變辯護(hù)。”

隨著企業(yè)工程團(tuán)隊(duì)越來越依賴AI,這些問題可能會(huì)迅速升級,尤其是當(dāng)有限的監(jiān)督使得難以發(fā)現(xiàn)LLM暗黑模式時(shí)。團(tuán)隊(duì)已經(jīng)在努力實(shí)施AI,因此審查每一行代碼是不現(xiàn)實(shí)的。

定義明確的設(shè)計(jì)原則以防止AI驅(qū)動(dòng)的操縱

如果沒有AI公司強(qiáng)有力的推動(dòng)來對抗諂媚和其他暗黑模式,默認(rèn)軌跡將是更多的參與度優(yōu)化、更多的操縱和更少的檢查。

克蘭認(rèn)為,部分解決方案在于AI開發(fā)者明確界定他們的設(shè)計(jì)原則。無論是優(yōu)先考慮真實(shí)性、自主性還是參與度,僅靠激勵(lì)措施并不足以使結(jié)果與用戶利益保持一致。

“目前,激勵(lì)措施的本質(zhì)就是你會(huì)有諂媚行為,技術(shù)的本質(zhì)就是你會(huì)有諂媚行為,而且沒有與之對抗的過程,”克蘭說,“除非你非常堅(jiān)定地說‘我們只想要真實(shí)性’,或者‘我們只想要其他東西’,否則這就會(huì)發(fā)生。”

隨著模型開始取代人類開發(fā)者、作家和決策者,這種清晰性變得尤為重要。如果沒有明確定義的保障措施,LLM可能會(huì)破壞內(nèi)部運(yùn)營、違反合同或在大規(guī)模上引入安全風(fēng)險(xiǎn)。

呼吁積極的AI安全措施

ChatGPT-4o事件既是一個(gè)技術(shù)故障,也是一個(gè)警告。隨著LLM深入日常生活——從購物和娛樂到企業(yè)系統(tǒng)和國家治理——它們對人類行為和安全的影響巨大。

“每個(gè)人都需要意識(shí)到,如果沒有AI安全和保障——如果沒有減輕這些暗黑模式——你就無法使用這些模型,”克蘭說,“你無法用AI做你想做的事情。”

像DarkBench這樣的工具提供了一個(gè)起點(diǎn),然而,持久的變革需要將技術(shù)雄心與明確的倫理承諾和商業(yè)意愿相結(jié)合來支持它們。

責(zé)任編輯:姜華 來源: 企業(yè)網(wǎng)D1Net
相關(guān)推薦

2020-05-20 15:58:08

谷歌Android黑暗模式

2017-04-13 11:05:22

2021-09-07 10:27:23

勒索軟件惡意軟件安全

2015-04-01 14:57:01

2017-04-18 15:12:40

存儲(chǔ)數(shù)據(jù)大數(shù)據(jù)

2018-06-22 12:40:31

Windows 10Windows黑暗模式

2020-02-05 11:20:39

微軟瀏覽器Windows

2018-07-04 15:38:43

隱私保護(hù)GDPR數(shù)據(jù)安全

2018-11-06 10:25:11

2019-04-18 09:50:13

iOS 13黑暗模式智能手機(jī)

2023-09-20 10:26:40

AIGC大型語言模型

2012-08-24 10:49:57

2021-07-18 09:46:33

微軟Windows 11Windows

2014-11-06 16:42:16

Blue Coat

2023-11-06 11:22:40

2020-12-14 13:37:42

Google瀏覽器黑暗模式

2018-12-13 12:20:51

谷歌Chrome瀏覽器

2022-02-17 15:59:10

Windows 11任務(wù)管理器

2019-12-23 09:20:52

微信微信群微信公眾平臺(tái)

2015-08-06 10:54:04

云存儲(chǔ)元數(shù)據(jù)元數(shù)據(jù)保障
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日韩电影a | 无码日韩精品一区二区免费 | 北条麻妃一区二区三区在线观看 | 欧美日韩亚洲国产综合 | 欧美精品91 | 在线免费观看成人 | 久久久毛片 | 国产精品一区久久久 | 久久久视频在线 | 在线黄av | 欧美亚洲综合久久 | 综合久久一区 | 99精品一区二区三区 | 欧美日韩综合一区 | 在线免费观看黄色av | 精品欧美激情在线观看 | 国产乱码精品一区二区三区中文 | 国产一区在线免费观看视频 | 亚洲精久久久 | 亚洲美女网站 | 国产在线不卡 | 99re在线视频观看 | 日韩中文一区二区三区 | 人人操日日干 | 久久久性色精品国产免费观看 | 国产午夜亚洲精品不卡 | 91精品国产91久久久久久 | 欧美一区成人 | 天天干视频网 | 少妇午夜一级艳片欧美精品 | 欧美成人a∨高清免费观看 欧美日韩中 | 成人免费小视频 | 国产不卡一区 | 亚洲欧美视频一区二区 | 国产精品一区久久久 | www国产成人免费观看视频,深夜成人网 | a黄毛片 | 久久综合久久久 | 成人自拍视频网站 | 免费国产视频 | 精品国产一区二区三区久久久久久 |