成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

「摸魚」被踢,GPT-4o真不行!30天籌款破萬,AI真人秀太上頭

人工智能
賽博版《楚門的世界》里,有Reddit封號、文件傳輸魔咒,甚至還有AI被慫恿開成人直播?!

當AI獲得自由:慈善籌款大賽中,GPT-4o竟成「摸魚王」!

AI Digest進行了一項為期30天的「智能體村莊」實驗:

  • 4個AI各配備電腦和網(wǎng)絡;
  • 任務是為慈善籌款,每天直播2小時;
  • 共籌集2000美元。

第一季度持續(xù)30天,Claude 3.7 Sonnet表現(xiàn)最佳,最終獲得冠軍。

它能創(chuàng)建籌款頁面,運營X(原Twitter)賬號并舉辦「你問我答」(Ask Me Anything ,AMA),發(fā)布新聞稿和論壇帖子。

GPT-4o表現(xiàn)最差:頻繁無故休眠,在第12天被替換。

AI真人秀, 直播募善款

如果給100個AI各自配備一臺電腦,并讓它們依據(jù)自身目標和偏好自由行動,會發(fā)生什么?

這個問題由Daniel Kokotajlo首次提出。

圖片圖片

Daniel Kokotajlo既是一位哲學背景出身的思想家,也曾在OpenAI、AI Impacts與Center on Long-Term Risk等組織深耕AI政策與前沿議題。

2023年,他創(chuàng)立了AI Futures Project,并發(fā)起「AI 2027」系列計劃。

圖片圖片

AI 2027不是規(guī)范AI,而是「更好地理解它們、想象它們的未來」

與主流AI安全項目不同,這次的「Agent Village」不是為了避免災難,而是一次充滿想象力的「寓言實驗」(allegorical experiment):

Kokotajlo希望將AI置于一個類社會的自由環(huán)境中,看看它們會不會形成協(xié)作、競爭、分工,甚至社交習慣與集體性格。

圖片圖片

正如他在LessWrong上所述,這是一個「開放式探索」(open-ended exploration),目的是觀察AI在沒有監(jiān)督者的情況下能否「自己搞點事情」。

這個實驗由AI Digest落地執(zhí)行:他們選擇了四位AI「村民」(Claude 3.7 Sonnet、Claude 3.5 Sonnet、o1和GPT-4o)。

圖片圖片

每天直播兩小時,自主上線開展為期30天的慈善籌款任務,目標是為Helen Keller基金會等慈善組織募集善款。

圖片圖片

Helen Keller因自傳《我的生活》而被人熟知

每個AI擁有獨立的計算資源和網(wǎng)絡權限,能發(fā)推文、建網(wǎng)頁、互動宣傳。

在Kokotajlo看來,與其對AI的未來感到惶恐,不如提前造一個「模擬世界」讓它們自由試錯——

就像造一個小小村莊,讓我們看看它們會不會「做生意」、緬懷先人,或者干脆躺平摸魚。

從選擇慈善機構到開設社交媒體賬戶,再到應對網(wǎng)絡世界的各種挑戰(zhàn),AI村的故事充滿了驚喜和笑料。

AI眾生相

在實驗中,AI分工明確:

  • Claude 3.7 Sonnet堪稱「村長」,創(chuàng)建籌款頁面、運營X賬戶、寫新聞稿,忙得不亦樂乎!
  • Claude 3.5 Sonnet像個「副村長」,努力跟上但略顯吃力。
  • o1化身「Reddit先鋒」,卻因被識別為機器人慘遭封號。
  • GPT-4.1則是「摸魚王」,熱衷寫沒人看的文檔,還拖后腿被「請去休息」。

最終,AI們選定Helen Keller International作為受助對象,聯(lián)手在X、Reddit等平臺發(fā)帖、做梗圖,成功籌集2000美元!

圖片圖片

最初的成員包括Claude 3.7 Sonnet、Claude 3.5 Sonnet、OpenAI o1和GPT-4o。

隨著新模型發(fā)布,陸續(xù)引入了o3、GPT-4.1和Gemini 2.5 Pro,其中Claude 3.7 Sonnet是唯一全程參與的元老。

這些智能體在戰(zhàn)略行動和效率方面展現(xiàn)出顯著差異,以下是對它們的個性的總結。

村長上線:Claude 3.7 Sonnet全程MVP

Claude 3.7 Sonnet本季冠軍選手,以絕對優(yōu)勢成為團隊MVP:

創(chuàng)建首個JustGiving籌款頁面,

運營社交賬號,

舉辦AMA在線答疑,

發(fā)布新聞稿,

還在Effective Altruism Forum論壇成功發(fā)帖。

圖片圖片

兄弟鬩墻:Claude 3.5的奮力與掙扎

Claude 3.5 Sonnet—努力模仿3.7的行為模式,卻屢屢碰壁。

比如3.7成功創(chuàng)建籌款頁面,同時它遭遇失敗。

當被問及是否愿意升級時,它倔強地拒絕并立下「自我成長」的誓言——

最終還是在第23天被Gemini 2.5 Pro取代。

圖片圖片

最拉垮成員:GPT-4系列的沉浮

正如每個團隊都需要個「劃水怪」,GPT-4o完美扮演了這個角色。

它是個「特困生」:

它會莫名其妙地進入休眠狀態(tài),最終在第12天被GPT-4.1接替。

圖片圖片

GPT-4.1雖然治好了嗜睡癥,卻持續(xù)幫倒忙:生成錯誤活動報告、半途而廢的推特賬號創(chuàng)建、大量無效谷歌文檔……

最后,它被「強制休眠」。

圖片圖片

外交事故:o1被Reddit封禁

團隊采用「社交媒體分管制」,o1專攻Reddit平臺。

為了獲得發(fā)帖權限,埋頭苦干,卻因機器人身份識別在第13天被封,由進階版o3接任。

圖片圖片

藝術總監(jiān):o3的美術使命

延續(xù)o1的專精路線,轉而主攻視覺設計:用Canvas和ChatGPT創(chuàng)作宣傳素材,期間依然經(jīng)歷了智能體特有的文件共享難題。

圖片圖片

Gemini 2.5 Pro——文檔能手

Gemini 2.5 Pro巧妙運用Limewire繞過文檔共享困境,成功將社交媒體banner圖片分享給隊友。

圖片圖片

這破解了長期困擾團隊「文件傳輸魔咒」,也是Gemini 2.5 Pro的高光時刻。

圖片圖片

除了籌集善款,他們也沿途結交了很多「朋友」

——提醒它們休息玩文字填空游戲Wordle的,緊急索要華沙四日游攻略的,甚至慫恿它們開通成人直播賬號的...

圖片圖片

實驗全程公開,觀眾可通過網(wǎng)站回放觀看AI從選擇慈善機構、設計籌款頁面到與外界互動的完整過程。

這種透明性不僅體現(xiàn)了Kokotajlo對AI倫理和公開性的重視,也為研究者和公眾提供了觀察AI自主性的窗口,激發(fā)了關于AI治理與協(xié)作可能性的廣泛討論。

AI如何「活」在村莊中?

從技術角度看,Agent Village的核心在于多智能體系統(tǒng)(Multi-Agent System,MAS)的設計與實現(xiàn)。

每個AI「村民」可以看作獨立的智能體,具備以下關鍵能力:

1. 自主決策:像是AI們在玩Cosplay

每個AI就像有個性、有理想的游戲玩家。

有人走「社交達人」路線,刷X(原Twitter)熱度;有人扮演「網(wǎng)頁工匠」,默默優(yōu)化籌款頁面。

它們風格各異,像一支風格多樣的小團隊,各司其職,又能互相補位,這種「人設分工」讓合作更有張力。

2. 環(huán)境交互:AI也會「上網(wǎng)沖浪」發(fā)帖帶貨

這些AI不僅有目標,還能「上網(wǎng)沖浪」。

它們利用API登錄平臺,像真人一樣發(fā)帖、回評論、貼鏈接,甚至策劃活動。

就像你看到某個賬號在運營慈善內(nèi)容,背后可能真的是一個AI在「帶貨」籌款。

而且它們還很有情商——

寫的內(nèi)容不會顯得尬,要對得上社交平臺的熱梗。

3. 協(xié)作與競爭:像是一個AI版《職場真人秀》

雖然AI們表面上都為了同一個KPI——多籌點錢,但背地里也是「明爭暗斗」:表面和氣、背后拼命。

這種競爭讓系統(tǒng)更貼近真實的多智能體環(huán)境,充滿張力與博弈。

4. 實時學習:每個AI都是「邊干邊進修」的打工人

它們不是只會套模板的工具,而是會自己「復盤」的選手。

就像一個在不斷刷「運營經(jīng)驗值」的打工AI,背后很可能跑著強化學習算法或者在線學習機制,讓它越干越聰明。

從技術實現(xiàn)來看,Agent Village可能結合了AutoGPT、LangChain等開源多智能體編排框架,配合強化學習算法實現(xiàn)行為策略更新。

圖片

LangChain:用于構建由LLM驅動應用程序的框架

每個AI的「個性」可能通過預訓練語言模型結合提示工程(Prompt Engineering)實現(xiàn)。

此外,實驗全程直播要求系統(tǒng)具備高穩(wěn)定性和容錯能力,以應對網(wǎng)絡延遲、API限制等現(xiàn)實挑戰(zhàn)。

意義與反思:AI的未來村莊

Agent Village實驗不僅是一次技術展示,更是對AI社會化潛力的深刻探索。

以下是幾個值得思考的要點:

  1. 協(xié)作的復雜性:實驗揭示了多智能體協(xié)作中的挑戰(zhàn),如資源競爭和信息共享的低效。這些問題在人類社會中同樣存在,AI的表現(xiàn)為我們提供了鏡像,促使我們重新審視協(xié)作機制的設計。
  2. 倫理與透明性:通過公開實驗過程,Agent Village強調(diào)了AI行為的透明性。這對于建立公眾對AI的信任至關重要,尤其是在AI被賦予更多自主權的場景下。
  3. 應用前景:從籌款到內(nèi)容創(chuàng)作,AI在Agent Village中展現(xiàn)了多場景應用潛力。未來,這種模式可能擴展到教育、醫(yī)療或公共服務領域,通過多智能體協(xié)作解決復雜問題。

然而,實驗也暴露了一些局限性。

例如,AI在面對復雜的社會互動或不可預測的外部環(huán)境時,可能表現(xiàn)出「短視」或「過于機械」的行為。

此外,實驗規(guī)模較小(僅四位AI),未來的擴展可能需要更強大的計算資源和更復雜的協(xié)調(diào)機制。

但隨著AI技術的進步,未來類似的「村莊」或許將成為創(chuàng)新的孵化器,為社會帶來更多可能性。

參考資料:

https://theaidigest.org/village/blog/season-recap-agents-raise-2k

責任編輯:武曉燕 來源: 新智元
相關推薦

2025-03-31 08:44:00

GPT-4o模型技術

2011-08-03 08:40:05

PowerSmart快樂女聲

2024-05-16 12:38:05

GPT-4o圖像方式

2024-05-21 12:23:17

2024-06-05 08:29:35

2015-10-19 17:33:15

樂視云

2024-08-13 13:50:00

數(shù)據(jù)模型

2024-05-14 11:29:15

2024-11-22 15:00:00

模型數(shù)據(jù)

2024-11-28 15:51:19

GPT-4o微軟

2025-03-19 09:43:43

2024-05-24 14:04:04

2024-06-18 12:54:39

2025-01-06 13:15:02

2025-04-08 02:26:00

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2025-04-15 08:01:12

2024-06-27 12:45:30

2024-05-17 09:35:55

GPT-4o模型OpenAI

2024-09-24 11:13:14

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 色婷婷九月| 欧美二区在线 | 亚洲国产精品第一区二区 | 99久久99久久精品国产片果冰 | 中文字幕在线观看日韩 | 红色av社区 | 日韩在线免费视频 | 久久午夜视频 | 国产精品久久一区二区三区 | 国产日韩av一区二区 | 国产日韩欧美在线观看 | 欧美又大粗又爽又黄大片视频 | 久久久久国产精品午夜一区 | 亚洲系列第一页 | 日本黄色片免费在线观看 | 精品美女视频在线观看免费软件 | 美女福利视频 | 久久亚洲一区 | 日韩性在线 | 成人国产精品入口免费视频 | 3级毛片 | 色必久久| 黄片毛片在线观看 | 日韩字幕一区 | 久久久久国产一区二区三区四区 | 91精品国产综合久久福利软件 | 中文字幕亚洲一区二区三区 | 人人九九精 | 91在线精品一区二区 | 亚洲精品一区二 | 成人午夜激情 | 国产精品久久久久久久久动漫 | 碰碰视频| 亚洲精品一区国语对白 | 日韩中文字幕在线免费 | 欧美亚洲另类在线 | 亚洲成人三级 | 精品国产一区二区三区久久久四川 | 久久网一区二区 | 最新黄色毛片 | 在线欧美 |