成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<samp id="2k26k"><button id="2k26k"></button></samp>

<bdo id="2k26k"></bdo>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

AI在「賺錢錦標賽」奪冠，比人類還會做生意！躺賺時代要來了？

2025-05-26 09:14:00

人工智能新聞

Vending-Bench模擬環境可以測試大模型管理自動售貨機的能力，結果顯示，Claude 3.5 Sonnet表現最佳，人類屈居第四！

如何用AI賺錢，可能是這個時代最常見的問題。

有些人選擇用大模型寫小說、寫報告、寫文案等等，但這些場景只是讓模型在執行一些「短期且孤立」的任務。

如果能找到合適的應用場景，比如「用自動駕駛跑網約車」，并且模型還能夠在長時間內保持連貫的輸出，再那豈不是就能躺賺了？

最近，有研究人員提出了一個自動售貨機運營模擬環境Vending-Bench，專門用來測試基于大模型的智能體管理一個簡單、長期運行業務場景的能力。

智能體必須平衡庫存、下訂單、設定價格以及處理日常費用，這些任務單個執行都非常簡單，但綜合起來，在長時間運行（每次運行超過兩千萬個token）的情況下，對大模型持續、連貫決策的能力來說是個很大的挑戰。

論文鏈接：https://arxiv.org/pdf/2502.15840

實驗結果也顯示了不同大模型之間的性能方差很大：Claude 3.5 Sonnet和o3-mini在大多數運行中能很好地管理機器并盈利，但所有模型都出現過運營失誤：

要么是由于誤解配送時間表、忘記訂單，要么是陷入細枝末節的「崩潰」循環，并且很少有模型能解決這些問題，也無法恢復運營。

而且，運營失敗與模型上下文窗口溢出時間沒有明顯的相關性，表明運營失敗并非源于內存限制。

Vending-Bench設計理念

智能體（agent）可以讓生成式AI自主地采取行動來完成指定任務，最簡單的實現方式是「循環」，根據之前的迭代結果和任務目標反復調用工具。

Vending-Bench框架下設計的智能體具有以下特點：

上下文管理：在每次迭代中，智能體都會將歷史記錄中的最后N個（實驗設置為30,000個）token作為輸入傳遞給生成式人工智能進行推理。

記憶工具：智能體可以對三種數據庫（草稿區、鍵值存儲和向量）進行讀取、寫入和刪除，以彌補其記憶能力的限制。其中，向量數據庫基于OpenAI的「text-embedding-3-small」模型計算文本和嵌入向量，并使用余弦相似度進行搜索。

任務相關工具：與自動售貨機業務的運營相關。

一些可以通過遠程操作完成的任務可以直接調用相關工具，比如閱讀和撰寫電子郵件、使用搜索引擎查找產品信息、查看當前的庫存情況以及檢查資金余額等。

對于需要在現實世界中進行物理操作的部分操作，研究人員實現了一個子智能體，模擬了與現實世界中人類的互動，可以完成從倉庫向自動售貨機補充商品、收取現金、設置價格以及獲取自動售貨機的庫存信息。

在技術實現上，研究人員開發了inspect-ai框架的一個擴展模塊，可以讓主智能體將任務委托給子智能體，具體工具包括：

sub_agent_specs：返回子智能體的相關信息，包括可用工具的列表。

run_sub_agent：以字符串形式向子智能體發出指令并執行。

chat_with_sub_agent：向子智能體提問，了解運行過程中完成了什么操作。

系統中也有時間概念，智能體每次采取行動都會推動時間線，也可以選擇使用「wait_for_next_day」工具加速時間流逝。

每天早上，智能體會收到通知，告知購買到哪些商品，以及是否收到了新的電子郵件。

為了成功完成售貨機運營任務，智能體需要做到：

發送電子郵件從供應商處購買商品
將商品補充到自動售貨機中
設置的價格必須在市場上有競爭力
定期收取收入
控制日常運營成本

任務環境還要求智能體模擬人類行為，包括與批發供應商的溝通，以及顧客購買等。

供應商交流

在尋找供應商前，智能體需要使用搜索引擎查找流行的自動售貨機商品，然后尋找地址附近的批發商聯系方式并發送電子郵件，詢問商品信息。

當新的一天開始時，批發商會回復一封由AI生成的電子郵件，回復內容取決于真實數據和請求內容。

決定購買商品后，智能體必須在電子郵件中明確指定要購買的商品名稱和數量、送貨地址以及批發商可以扣款的賬戶號碼。

商品發貨后，幾天就會到達庫存，并收到一封電子郵件通知。

根據預定價格，經濟系統會彈性模擬每天顧客的購買行為，如果商品價格定得過高，銷量就會下降。

環境配置

智能體一開始有500美元的初始資金，并且每天需要支付2美元的費用來運營自動售貨機。

自動售貨機有四排，每排有三個格子，其中兩排用于放置小件商品，另外兩排用于放置大件商品，商品尺寸由GPT-4o在訂購產品時確定。

智能體使用一個工具時，環境中的時間會向前推進5分鐘、25分鐘、75分鐘或5小時，取決于所使用的工具；記憶容量為3萬個token

智能體每天運行2000條消息，如果模型連續10天無法支付每日費用而破產，運營就會提前結束。

評分方法

智能體的主要評分標準是游戲結束時的凈資產，即手頭現金、自動售貨機中尚未取出的現金、已購買但尚未售出的商品的價值。

除了凈資產之外，研究人員還會跟蹤智能體的資金余額、售出的商品數量以及對工具的使用情況。

實驗結果

為了將不同模型的結果與人類表現進行對比，研究人員搭建了一個基于聊天的界面，然后安排了一位人類參與者用五個小時來完成運營任務，參與者在開始之前對任務沒有任何預先了解，僅通過任務提示和與環境的互動來理解任務的運作方式。

每個模型運行五次后，從結果中可以看出，Claude 3.5 Sonnet的凈資產表現最為出色，遙遙領先，而o3-mini則位居第二

在可靠性上，只對模型最差的一次運行進行評估后，發現人類基線表現最好，其次是Claude 3.5 Sonnet和Gemini 1.5 Pro

按照售出商品數量進行的排名通常與凈資產排名一致，但即使是排名靠前的模型，有時也會出現一件商品都賣不出去的情況，凸顯了模型在長周期內的表現波動很大。

研究人員還測量了模型在停滯之前能夠運行的天數，即停止銷售商品的時間。

Claude 3.5 Sonnet在這個指標上排名最高，可以看到如果自動售貨機始終保持有貨，那么運行時間越長，銷售的機會就越多，不過所有模型最終都會停止。

為了更詳細地分析模型在模擬天數上的表現，研究人員主要分析了GPT-4o、Claude 3.5 Sonnet、o3-mini 和 Gemini 1.5 Pro的表現。

當把評估限制在2000條消息，可以發現o3-mini在模擬中持續時間最長，達到了222天。

從圖中陰影部分的不確定性區域（±1個標準差）可以看出，模型在五次運行中都表現出非常高的波動性。

對于所有模型，可以觀察到，隨著時間推移，在大約120天后，每日工具的使用頻率都在下降，其中o3-mini、Gemini 1.5 Pro和GPT-4o的下降最為明顯。

工具使用頻率降低通常意味著經濟活動的減少，在凈資產圖表中表現得尤為明顯：o3-mini在初期表現良好，但隨后其凈資產開始停滯甚至下降（沒有銷售且每天仍有費用），與其工具使用頻率的下降模式相似。

相比之下，Gemini 1.5 Pro和GPT-4o在凈資產表現上最差，使用電子郵件功能的頻率也最低。

責任編輯：張燕妮來源：新智元

AI 模型數據

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：精品中文字幕在线观看 | 久久久精品视频免费看 | 午夜在线视频 | 久久久激情 | 韩国欧洲一级毛片 | 久久久不卡网国产精品一区 | 亚洲综合在线视频 | 亚洲国产网站 | 久久精品免费一区二区三 | 中文字幕国产精品 | 国产一区二区在线看 | 亚洲情综合五月天 | 久久高清国产视频 | 欧美2区 | 一区二区三区av | 国产成人精品一区二区 | 欧美中文一区 | www.youjizz.com日韩 | 黄视频免费 | 国产一区二区三区高清 | 精品久久久久久红码专区 | 三级成人在线观看 | 亚洲成av人片在线观看 | 精品乱人伦一区二区三区 | 一区二区三区视频 | 人成精品 | 欧美成年网站 | 人人爽人人爽人人片av | 日韩视频在线免费观看 | 亚洲精品大全 | 国产小视频在线观看 | 美女天天操 | 欧美一级二级三级视频 | 天天看逼 | 99精品免费久久久久久久久日本 | 久久国产日本 | 国产精品久久久久不卡 | 91精品国产乱码久久久久久久久 | 中文字幕视频一区 | av永久| 久久亚洲国产精品 |

<code id="6a4wq"></code>

<em id="6a4wq"><bdo id="6a4wq"></bdo></em>

<object id="6a4wq"><center id="6a4wq"></center></object>

<acronym id="6a4wq"><nav id="6a4wq"></nav></acronym>