剛剛,OpenAI 開源了兩個 Agent 項目,手搓 Manus 時代來襲 原創
OpenAI 剛剛舉辦了一場針對開發者的直播活動,推出了全新的 Agent 開發套件,旨在助力開發者打造穩定而強大的 AI Agents。以下是該套件的核心組成部分:
Agents Blog:
https://openai.com/index/new-tools-for-building-agents
1、內置工具:套件內置了多種工具,包括網頁搜索、文件搜索以及電腦操作(Computer Use)功能。
Built-in tools:
https://platform.openai.com/docs/guides/tools?api-mode=responses
2、Responses API:推出了一款新的響應 API,它融合了 Chat Completions API 的簡易性和 Assistants API 的工具使用能力,適用于構建 AI Agents。
Responses API:
https://platform.openai.com/docs/api-reference/responses
3、Agents SDK:提供了一套用于協調單智能體和多智能體工作流程的 SDK。
Agents SDK 項目:
https://github.com/openai/openai-agents-python
4、監控工具:集成了可觀察性工具,用于跟蹤和檢查 Agent 工作流程的執行情況。
特別值得一提的是,Agents SDK 是開源的,并且 OpenAI 還開源了一個名為 Computer Using Agent 的項目。以下是兩個項目的詳細介紹:
第一、Agents SDK 項目
OpenAI Agents SDK 是一個輕量級但功能豐富的框架,用于創建多智能體工作流程。
核心概念:
Agent(智能體):基于大模型(LLMs)的智能體,通過指令進行配置,配備了工具、防護欄和交接功能。
Handoffs(交接):允許智能體將任務控制權轉交給其他智能體。
Guardrails(防護欄):可配置的安全檢查,用于輸入和輸出的驗證。
Tracing(追蹤):內置的智能體運行追蹤功能,方便查看、調試和優化工作流程。
Agents SDK 項目:
https://github.com/openai/openai-agents-python
第二、Computer Using Agent 項目
OpenAI 提供了一個示例應用程序,展示了如何使用 OpenAI API 構建計算機使用 Agent(CUA:Computer Using Agent):
計算機使用工具以循環方式連續運行,發送計算機操作命令(如 click(x,y) 或 type(text)),代碼在計算機或瀏覽器環境中執行這些操作,并將屏幕截圖結果返回給大模型。
通過這種方式,代碼可以模擬人類在計算機界面上的操作,而大模型則通過屏幕截圖來理解環境狀態并決定下一步行動。
這種循環機制可以自動執行許多需要點擊、輸入、滾動等操作的任務,例如預訂航班、搜索產品或填寫表格。
Computer Using Agent 項目:
https://github.com/openai/openai-cua-sample-app
以下是電腦使用操作的示意圖:
本文轉載自公眾號玄姐聊AGI 作者:玄姐
原文鏈接:??https://mp.weixin.qq.com/s/uVHZcrdhXXeyeXYa-YnMpQ??
