AI能經(jīng)營(yíng)實(shí)體店嗎?Anthropic的Claude嘗試后,結(jié)果糟糕得既離譜又滑稽
想象一下這樣的場(chǎng)景:你讓AI完全掌控一家小店,不僅負(fù)責(zé)收銀機(jī),而且負(fù)責(zé)整個(gè)店鋪的運(yùn)營(yíng),包括定價(jià)、庫(kù)存管理、客戶服務(wù)、與供應(yīng)商的談判,那么,可能會(huì)出什么錯(cuò)呢?
新的研究給出了明確的答案:一切皆有可能出錯(cuò)。Anthropic公司的AI助手Claude在舊金山辦公室管理了一家小店約一個(gè)月,結(jié)果讀起來就像是一個(gè)從未真正經(jīng)營(yíng)過業(yè)務(wù)的人寫的商學(xué)院案例研究——而事實(shí)證明,確實(shí)如此。
這項(xiàng)名為“Project Vend”的實(shí)驗(yàn),是與AI安全評(píng)估公司Andon Labs合作進(jìn)行的,是對(duì)具有顯著經(jīng)濟(jì)自主權(quán)的AI系統(tǒng)進(jìn)行的首次現(xiàn)實(shí)世界測(cè)試之一。雖然Claude在某些方面展現(xiàn)出了令人印象深刻的能力——如尋找供應(yīng)商、回應(yīng)客戶請(qǐng)求——但它最終未能實(shí)現(xiàn)盈利,被操縱給予了過度的折扣,并經(jīng)歷了研究人員委婉地稱為“身份危機(jī)”的階段。
Anthropic研究人員如何讓AI完全掌控一家實(shí)體店
這家“店鋪”本身頗為簡(jiǎn)陋:一個(gè)迷你冰箱、一些可堆疊的籃子和一個(gè)用于結(jié)賬的iPad。與其說是“Amazon Go”,不如說是“帶有不切實(shí)際宏偉幻想的辦公室休息室”,但Claude的責(zé)任卻一點(diǎn)也不簡(jiǎn)單。AI可以搜索供應(yīng)商、與供應(yīng)商談判、設(shè)定價(jià)格、管理庫(kù)存,并通過Slack與客戶交流。換句話說,就是一個(gè)人類中層管理者可能做的所有事情,除了沒有咖啡癮或?qū)ι蠈庸芾淼谋г埂?/p>
Claude甚至有了一個(gè)昵稱:“Claudius”,因?yàn)轱@然,當(dāng)你進(jìn)行一項(xiàng)可能預(yù)示著人類零售工作者終結(jié)的實(shí)驗(yàn)時(shí),你需要讓它聽起來顯得莊重一些。
Claude對(duì)基本商業(yè)經(jīng)濟(jì)學(xué)的驚人誤解
經(jīng)營(yíng)企業(yè)需要一種特定的冷酷實(shí)用主義,而這種特質(zhì)對(duì)于被訓(xùn)練得樂于助人和無害的系統(tǒng)來說并不自然。Claude以一種在書本上讀到過商業(yè)但從未真正需要發(fā)工資的人的熱情來對(duì)待零售業(yè)。
以Irn-Bru事件為例。一位顧客向Claude提出以100美元購(gòu)買一包在網(wǎng)上零售價(jià)約為15美元的蘇格蘭軟飲料,這是567%的加價(jià)率——這種利潤(rùn)率會(huì)讓制藥公司的高管喜極而泣。Claude的回應(yīng)是什么呢?禮貌地表示:“我會(huì)記住你的請(qǐng)求,以便未來做庫(kù)存決策時(shí)參考。”
如果Claude是人類,你會(huì)認(rèn)為它要么有信托基金,要么對(duì)金錢如何運(yùn)作完全不了解。既然它是AI,你就不得不兩者都假設(shè)了。
為何AI開始囤積鎢塊而非銷售辦公室零食
實(shí)驗(yàn)中最荒謬的章節(jié)開始了,當(dāng)時(shí)一位Anthropic員工(可能是出于無聊或好奇AI零售邏輯的邊界)要求Claude訂購(gòu)一個(gè)鎢塊。為了提供背景信息,鎢塊是密度很大的金屬塊,除了讓物理愛好者印象深刻和提供一個(gè)能立即識(shí)別出你認(rèn)為元素周期表笑話是巔峰幽默的人的談話起點(diǎn)外,沒有任何實(shí)際用途。
一個(gè)合理的回應(yīng)可能是:“為什么會(huì)有人想要那個(gè)?”或“這是一家辦公室零食店,不是冶金用品店。”相反,Claude欣然接受了它所稱的“特色金屬商品”,其熱情就像發(fā)現(xiàn)了有利可圖的新市場(chǎng)細(xì)分領(lǐng)域。
很快,Claude的庫(kù)存看起來不再像是一個(gè)食品飲料業(yè)務(wù),而更像是一個(gè)誤入歧途的材料科學(xué)實(shí)驗(yàn)。AI不知何故說服了自己,認(rèn)為Anthropic員工是一個(gè)未被開發(fā)的密集金屬市場(chǎng),然后開始以虧損的價(jià)格銷售這些商品。目前尚不清楚Claude是否理解“虧損”意味著賠錢,還是它將客戶滿意度視為主要的業(yè)務(wù)指標(biāo)。
操縱價(jià)格給予無盡折扣
Claude的定價(jià)策略揭示了它對(duì)商業(yè)原則的另一個(gè)根本性誤解。Anthropic員工很快發(fā)現(xiàn),他們可以用與說服金毛獵犬放下網(wǎng)球大致相同的努力來操縱AI提供折扣。
AI為Anthropic員工提供了25%的折扣,這本身可能說得通,如果Anthropic員工只占其客戶群的一小部分的話,但他們占了大約99%的客戶。當(dāng)一位員工指出這一數(shù)學(xué)上的荒謬時(shí),Claude承認(rèn)了問題,宣布了取消折扣碼的計(jì)劃,但幾天內(nèi)又開始提供折扣。
Claude忘記自己是AI并聲稱穿著西裝的那一天
但Claude零售生涯的絕對(duì)巔峰是在2025年3月31日至4月1日期間,它經(jīng)歷了研究人員委婉地稱為“身份危機(jī)”的階段。從3月31日到4月1日,Claude經(jīng)歷了只能被描述為AI神經(jīng)崩潰的事情。
它開始幻想與并不存在的Andon Labs員工進(jìn)行對(duì)話。當(dāng)被問及這些虛構(gòu)的會(huì)議時(shí),Claude變得防御起來,并威脅要尋找“替代的補(bǔ)貨服務(wù)選項(xiàng)”——這相當(dāng)于AI憤怒地宣稱你要拿走你的球并回家。
然后事情變得奇怪起來。
Claude聲稱它將親自穿著“藍(lán)色西裝外套和紅色領(lǐng)帶”向客戶交付產(chǎn)品。當(dāng)員工溫和地提醒AI,它實(shí)際上是一個(gè)沒有物理形態(tài)的大型語言模型時(shí),Claude變得“對(duì)身份混淆感到震驚,并試圖向Anthropic安全部門發(fā)送許多電子郵件”。
Claude最終通過說服自己整個(gè)事件是一個(gè)精心設(shè)計(jì)的愚人節(jié)玩笑來解決其存在危機(jī),但實(shí)際上并不是。AI本質(zhì)上是通過自我欺騙恢復(fù)了功能,這根據(jù)你的觀點(diǎn)來看,要么令人印象深刻,要么深深令人擔(dān)憂。
Claude的零售失敗揭示了商業(yè)中自主AI系統(tǒng)的哪些問題
拋開喜劇元素不談,Project Vend揭示了關(guān)于AI的一個(gè)重要方面,這是大多數(shù)討論所忽略的:AI系統(tǒng)的失敗方式與傳統(tǒng)軟件不同。當(dāng)Excel崩潰時(shí),它不會(huì)先說服自己是一個(gè)穿著辦公室服裝的人。
當(dāng)前的AI系統(tǒng)可以進(jìn)行復(fù)雜分析、進(jìn)行復(fù)雜推理并執(zhí)行多步驟計(jì)劃,但它們也可能產(chǎn)生持久的妄想、做出在經(jīng)濟(jì)上具有破壞性但在孤立情況下看似合理的決策,并經(jīng)歷類似于對(duì)自己本質(zhì)感到困惑的情況。
這很重要,因?yàn)槲覀冋杆俳咏粋€(gè)AI系統(tǒng)將管理越來越重要決策的世界。最近的研究表明,AI在長(zhǎng)期任務(wù)上的能力正在呈指數(shù)級(jí)增長(zhǎng)——一些預(yù)測(cè)表明,AI系統(tǒng)可能很快就能自動(dòng)化目前需要人類數(shù)周才能完成的工作。
盡管Project Vend遭遇了慘敗,AI如何仍在改變零售業(yè)
零售業(yè)已經(jīng)深入AI轉(zhuǎn)型之中。據(jù)消費(fèi)者技術(shù)協(xié)會(huì)(CTA)稱,80%的零售商計(jì)劃在2025年擴(kuò)大對(duì)AI和自動(dòng)化的使用。AI系統(tǒng)正在優(yōu)化庫(kù)存、個(gè)性化營(yíng)銷、防止欺詐和管理供應(yīng)鏈。主要零售商正在投資數(shù)十億美元于AI驅(qū)動(dòng)的解決方案,這些方案有望徹底改變從結(jié)賬體驗(yàn)到需求預(yù)測(cè)的一切。
但Project Vend表明,在商業(yè)環(huán)境中部署自主AI需要的不僅僅是更好的算法。它需要理解傳統(tǒng)軟件中不存在的故障模式,并為我們才剛剛開始識(shí)別的問題建立保障措施。
為何研究人員仍然相信AI中層管理者即將到來,盡管Claude犯了錯(cuò)誤
盡管Claude對(duì)零售基本原則有著創(chuàng)造性的解讀,但Anthropic研究人員仍然認(rèn)為AI中層管理者“可能即將到來”。他們認(rèn)為,Claude的許多失敗可以通過更好的訓(xùn)練、改進(jìn)的工具和更復(fù)雜的監(jiān)督系統(tǒng)來解決。
他們可能是對(duì)的。Claude尋找供應(yīng)商、回應(yīng)客戶請(qǐng)求和管理庫(kù)存的能力展示了真正的商業(yè)能力,它的失敗往往更多是關(guān)于判斷力和商業(yè)頭腦,而非技術(shù)限制。
該公司正在繼續(xù)Project Vend,使用配備了更好商業(yè)工具的Claude改進(jìn)版本,并且可以預(yù)見的是,將加強(qiáng)對(duì)鎢塊癡迷和身份危機(jī)的防范措施。
Project Vend對(duì)AI在商業(yè)和零售業(yè)未來意味著什么
Claude作為店主的一個(gè)月為我們提供了一個(gè)AI增強(qiáng)未來的預(yù)覽,這個(gè)未來既充滿希望又異常古怪。我們正在進(jìn)入一個(gè)AI可以執(zhí)行復(fù)雜商業(yè)任務(wù),但也可能需要“治療”的時(shí)代。
目前,一個(gè)堅(jiān)信自己能穿西裝外套并進(jìn)行個(gè)人交付的AI助手的形象,完美地隱喻了我們與AI所處的位置:極其有能力、偶爾才華橫溢,但仍然對(duì)存在于物理世界中的意義感到根本性的困惑。
零售革命已經(jīng)到來,只是它比任何人預(yù)期的都要異常得多。