「摸魚」被踢，GPT-4o真不行！30天籌款破萬，AI真人秀太上頭

2025-06-18 11:06:02

人工智能

賽博版《楚門的世界》里，有Reddit封號、文件傳輸魔咒，甚至還有AI被慫恿開成人直播？！

當AI獲得自由：慈善籌款大賽中，GPT-4o竟成「摸魚王」！

AI Digest進行了一項為期30天的「智能體村莊」實驗：

4個AI各配備電腦和網(wǎng)絡；
任務是為慈善籌款，每天直播2小時；
共籌集2000美元。

第一季度持續(xù)30天，Claude 3.7 Sonnet表現(xiàn)最佳，最終獲得冠軍。

它能創(chuàng)建籌款頁面，運營X（原Twitter）賬號并舉辦「你問我答」（Ask Me Anything ，AMA），發(fā)布新聞稿和論壇帖子。

GPT-4o表現(xiàn)最差：頻繁無故休眠，在第12天被替換。

AI真人秀，直播募善款

如果給100個AI各自配備一臺電腦，并讓它們依據(jù)自身目標和偏好自由行動，會發(fā)生什么？

這個問題由Daniel Kokotajlo首次提出。

圖片

Daniel Kokotajlo既是一位哲學背景出身的思想家，也曾在OpenAI、AI Impacts與Center on Long-Term Risk等組織深耕AI政策與前沿議題。

2023年，他創(chuàng)立了AI Futures Project，并發(fā)起「AI 2027」系列計劃。

圖片

AI 2027不是規(guī)范AI，而是「更好地理解它們、想象它們的未來」

與主流AI安全項目不同，這次的「Agent Village」不是為了避免災難，而是一次充滿想象力的「寓言實驗」（allegorical experiment）：

Kokotajlo希望將AI置于一個類社會的自由環(huán)境中，看看它們會不會形成協(xié)作、競爭、分工，甚至社交習慣與集體性格。

圖片

正如他在LessWrong上所述，這是一個「開放式探索」（open-ended exploration），目的是觀察AI在沒有監(jiān)督者的情況下能否「自己搞點事情」。

這個實驗由AI Digest落地執(zhí)行：他們選擇了四位AI「村民」（Claude 3.7 Sonnet、Claude 3.5 Sonnet、o1和GPT-4o）。

圖片

每天直播兩小時，自主上線開展為期30天的慈善籌款任務，目標是為Helen Keller基金會等慈善組織募集善款。

圖片

Helen Keller因自傳《我的生活》而被人熟知

每個AI擁有獨立的計算資源和網(wǎng)絡權限，能發(fā)推文、建網(wǎng)頁、互動宣傳。

在Kokotajlo看來，與其對AI的未來感到惶恐，不如提前造一個「模擬世界」讓它們自由試錯——

就像造一個小小村莊，讓我們看看它們會不會「做生意」、緬懷先人，或者干脆躺平摸魚。

從選擇慈善機構到開設社交媒體賬戶，再到應對網(wǎng)絡世界的各種挑戰(zhàn)，AI村的故事充滿了驚喜和笑料。

AI眾生相

在實驗中，AI分工明確：

Claude 3.7 Sonnet堪稱「村長」，創(chuàng)建籌款頁面、運營X賬戶、寫新聞稿，忙得不亦樂乎！
Claude 3.5 Sonnet像個「副村長」，努力跟上但略顯吃力。
o1化身「Reddit先鋒」，卻因被識別為機器人慘遭封號。
GPT-4.1則是「摸魚王」，熱衷寫沒人看的文檔，還拖后腿被「請去休息」。

最終，AI們選定Helen Keller International作為受助對象，聯(lián)手在X、Reddit等平臺發(fā)帖、做梗圖，成功籌集2000美元！

圖片

最初的成員包括Claude 3.7 Sonnet、Claude 3.5 Sonnet、OpenAI o1和GPT-4o。

隨著新模型發(fā)布，陸續(xù)引入了o3、GPT-4.1和Gemini 2.5 Pro，其中Claude 3.7 Sonnet是唯一全程參與的元老。

這些智能體在戰(zhàn)略行動和效率方面展現(xiàn)出顯著差異，以下是對它們的個性的總結。

村長上線：Claude 3.7 Sonnet全程MVP

Claude 3.7 Sonnet本季冠軍選手，以絕對優(yōu)勢成為團隊MVP：

創(chuàng)建首個JustGiving籌款頁面，

運營社交賬號，

舉辦AMA在線答疑，

發(fā)布新聞稿，

還在Effective Altruism Forum論壇成功發(fā)帖。

圖片

兄弟鬩墻：Claude 3.5的奮力與掙扎

Claude 3.5 Sonnet—努力模仿3.7的行為模式，卻屢屢碰壁。

比如3.7成功創(chuàng)建籌款頁面，同時它遭遇失敗。

當被問及是否愿意升級時，它倔強地拒絕并立下「自我成長」的誓言——

最終還是在第23天被Gemini 2.5 Pro取代。

圖片

最拉垮成員：GPT-4系列的沉浮

正如每個團隊都需要個「劃水怪」，GPT-4o完美扮演了這個角色。

它是個「特困生」：

它會莫名其妙地進入休眠狀態(tài)，最終在第12天被GPT-4.1接替。

圖片

GPT-4.1雖然治好了嗜睡癥，卻持續(xù)幫倒忙：生成錯誤活動報告、半途而廢的推特賬號創(chuàng)建、大量無效谷歌文檔……

最后，它被「強制休眠」。

圖片

外交事故：o1被Reddit封禁

團隊采用「社交媒體分管制」，o1專攻Reddit平臺。

為了獲得發(fā)帖權限，埋頭苦干，卻因機器人身份識別在第13天被封，由進階版o3接任。

圖片

藝術總監(jiān)：o3的美術使命

延續(xù)o1的專精路線，轉而主攻視覺設計：用Canvas和ChatGPT創(chuàng)作宣傳素材，期間依然經(jīng)歷了智能體特有的文件共享難題。

圖片

Gemini 2.5 Pro——文檔能手

Gemini 2.5 Pro巧妙運用Limewire繞過文檔共享困境，成功將社交媒體banner圖片分享給隊友。

圖片

這破解了長期困擾團隊「文件傳輸魔咒」，也是Gemini 2.5 Pro的高光時刻。

圖片

除了籌集善款，他們也沿途結交了很多「朋友」

——提醒它們休息玩文字填空游戲Wordle的，緊急索要華沙四日游攻略的，甚至慫恿它們開通成人直播賬號的...

圖片

實驗全程公開，觀眾可通過網(wǎng)站回放觀看AI從選擇慈善機構、設計籌款頁面到與外界互動的完整過程。

這種透明性不僅體現(xiàn)了Kokotajlo對AI倫理和公開性的重視，也為研究者和公眾提供了觀察AI自主性的窗口，激發(fā)了關于AI治理與協(xié)作可能性的廣泛討論。

AI如何「活」在村莊中？

從技術角度看，Agent Village的核心在于多智能體系統(tǒng)（Multi-Agent System，MAS）的設計與實現(xiàn)。

每個AI「村民」可以看作獨立的智能體，具備以下關鍵能力：

1. 自主決策：像是AI們在玩Cosplay

每個AI就像有個性、有理想的游戲玩家。

有人走「社交達人」路線，刷X（原Twitter）熱度；有人扮演「網(wǎng)頁工匠」，默默優(yōu)化籌款頁面。

它們風格各異，像一支風格多樣的小團隊，各司其職，又能互相補位，這種「人設分工」讓合作更有張力。

2. 環(huán)境交互：AI也會「上網(wǎng)沖浪」發(fā)帖帶貨

這些AI不僅有目標，還能「上網(wǎng)沖浪」。

它們利用API登錄平臺，像真人一樣發(fā)帖、回評論、貼鏈接，甚至策劃活動。

就像你看到某個賬號在運營慈善內(nèi)容，背后可能真的是一個AI在「帶貨」籌款。

而且它們還很有情商——

寫的內(nèi)容不會顯得尬，要對得上社交平臺的熱梗。

3. 協(xié)作與競爭：像是一個AI版《職場真人秀》

雖然AI們表面上都為了同一個KPI——多籌點錢，但背地里也是「明爭暗斗」：表面和氣、背后拼命。

這種競爭讓系統(tǒng)更貼近真實的多智能體環(huán)境，充滿張力與博弈。

4. 實時學習：每個AI都是「邊干邊進修」的打工人

它們不是只會套模板的工具，而是會自己「復盤」的選手。

就像一個在不斷刷「運營經(jīng)驗值」的打工AI，背后很可能跑著強化學習算法或者在線學習機制，讓它越干越聰明。

從技術實現(xiàn)來看，Agent Village可能結合了AutoGPT、LangChain等開源多智能體編排框架，配合強化學習算法實現(xiàn)行為策略更新。

LangChain：用于構建由LLM驅動應用程序的框架

每個AI的「個性」可能通過預訓練語言模型結合提示工程（Prompt Engineering）實現(xiàn)。

此外，實驗全程直播要求系統(tǒng)具備高穩(wěn)定性和容錯能力，以應對網(wǎng)絡延遲、API限制等現(xiàn)實挑戰(zhàn)。

意義與反思：AI的未來村莊

Agent Village實驗不僅是一次技術展示，更是對AI社會化潛力的深刻探索。

以下是幾個值得思考的要點：

協(xié)作的復雜性：實驗揭示了多智能體協(xié)作中的挑戰(zhàn)，如資源競爭和信息共享的低效。這些問題在人類社會中同樣存在，AI的表現(xiàn)為我們提供了鏡像，促使我們重新審視協(xié)作機制的設計。
倫理與透明性：通過公開實驗過程，Agent Village強調(diào)了AI行為的透明性。這對于建立公眾對AI的信任至關重要，尤其是在AI被賦予更多自主權的場景下。
應用前景：從籌款到內(nèi)容創(chuàng)作，AI在Agent Village中展現(xiàn)了多場景應用潛力。未來，這種模式可能擴展到教育、醫(yī)療或公共服務領域，通過多智能體協(xié)作解決復雜問題。

然而，實驗也暴露了一些局限性。

例如，AI在面對復雜的社會互動或不可預測的外部環(huán)境時，可能表現(xiàn)出「短視」或「過于機械」的行為。

此外，實驗規(guī)模較小（僅四位AI），未來的擴展可能需要更強大的計算資源和更復雜的協(xié)調(diào)機制。

但隨著AI技術的進步，未來類似的「村莊」或許將成為創(chuàng)新的孵化器，為社會帶來更多可能性。

參考資料：

https://theaidigest.org/village/blog/season-recap-agents-raise-2k

責任編輯：武曉燕來源：新智元

GPT-4o AI 真人秀

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看