重磅!為了狙擊Manus,OpenAI開源了首個Agent SDK 原創
在當今數字化飛速發展的時代,人工智能(AI)已經滲透到我們生活的方方面面。從簡單的語音助手到復雜的自動化系統,AI的應用場景不斷拓展。然而,對于開發者和企業來說,如何將AI技術轉化為實際可用的智能代理(agents),一直是他們面臨的挑戰。今天,OpenAI正式發布了首批構建模塊,旨在幫助開發者和企業打造實用且可靠的智能代理。這些代理能夠獨立完成用戶委托的任務,極大地提升工作效率。
一、智能代理的崛起:從概念到現實
在過去的一年中,OpenAI不斷引入新的模型能力,例如高級推理、多模態交互以及新的安全技術,這些都為構建復雜多步驟任務的智能代理奠定了基礎。然而,許多客戶反饋,將這些能力轉化為生產就緒的智能代理并非易事,往往需要大量的提示迭代和自定義編排邏輯,且缺乏足夠的可見性或內置支持。
為了解決這些挑戰,OpenAI推出了一系列全新的API和工具,專門用于簡化智能代理應用的開發。這些工具不僅優化了核心代理邏輯、編排和交互,還讓開發者能夠更加輕松地開始構建智能代理。在未來幾周和幾個月內,OpenAI還將繼續發布更多工具和功能,進一步簡化和加速在平臺上構建智能代理應用的進程。
二、重磅推出:Responses API
Responses API是OpenAI為構建智能代理而推出的新API基礎。它結合了Chat Completions API的簡潔性與Assistants API的工具使用能力。隨著模型能力的不斷發展,Responses API將為開發者構建智能代理應用提供更靈活的基礎。通過單一的Responses API調用,開發者可以利用多種工具和模型輪次解決日益復雜的任務。
(一)Responses API的亮點
Responses API支持新的內置工具,如網絡搜索、文件搜索和計算機使用。這些工具旨在協同工作,將模型與現實世界連接起來,使其在完成任務時更具實用性。此外,它還帶來了多項可用性改進,包括統一的基于項目的界面設計、更簡單的多態性、直觀的流式事件以及SDK輔助工具,例如??response.output_text?
?,方便開發者輕松訪問模型的文本輸出。
Responses API專為希望輕松將OpenAI模型和內置工具集成到其應用中的開發者設計,無需復雜地整合多個API或外部供應商。該API還簡化了在OpenAI上存儲數據的過程,開發者可以利用追蹤和評估等功能來評估代理性能。需要提醒的是,OpenAI默認不會使用商業數據訓練模型,即使數據存儲在OpenAI上。從今天起,該API對所有開發者開放,并且不單獨收費——代幣和工具的費用按照定價頁面上規定的標準費率計費。開發者可以查看Responses API快速入門指南,了解更多詳情。
(二)對現有API的影響
Chat Completions API
Chat Completions仍然是OpenAI最受歡迎的API,OpenAI將繼續全力支持其新模型和功能。對于不需要內置工具的開發者,可以繼續放心使用Chat Completions。不過,Responses API是Chat Completions的超集,具有相同的卓越性能,因此對于新的集成,OpenAI建議從Responses API開始。
Assistants API
根據開發者對Assistants API測試版的反饋,OpenAI將關鍵改進融入了Responses API,使其更加靈活、快速且易于使用。OpenAI正在努力實現Assistants和Responses API之間的完全功能對等,包括支持類似Assistant和Thread的對象以及代碼解釋器工具。一旦完成,OpenAI計劃在2026年中期宣布正式棄用Assistants API,并提供一個明確的從Assistants API遷移到Responses API的指南,以便開發者保留所有數據并遷移其應用。在正式宣布棄用之前,OpenAI將繼續向Assistants API提供新模型。Responses API代表了在OpenAI上構建智能代理的未來方向。
三、Responses API中的內置工具
(一)網絡搜索
開發者現在可以利用網絡搜索獲取快速、最新且相關性強的答案,并附上清晰的引用來源。在Responses API中,當使用??gpt-4o?
??和??gpt-4o-mini?
?時,網絡搜索可作為工具使用,并且可以與其他工具或函數調用結合。
const response = await openai.responses.create({
model: "gpt-4o",
tools: [ { type: "web_search_preview" } ],
input: "What was a positive news story that happened today?",
});
console.log(response.output_text);
在早期測試中,開發者將網絡搜索應用于多種場景,包括購物助手、研究代理和旅行預訂代理——任何需要及時從網絡獲取信息的應用場景。例如,Hebbia利用網絡搜索工具,幫助資產管理公司、私募股權和信貸公司以及律師事務所從廣泛的公共和私有數據集中快速提取可操作的見解。通過將實時搜索能力整合到他們的研究工作流程中,Hebbia提供了更豐富、更具針對性的市場情報,并持續提升其分析的精確性和相關性,超越當前的基準。
網絡搜索在API中的表現與ChatGPT搜索所使用的模型相同。在SimpleQA基準測試中,該測試評估LLM在回答簡短事實性問題時的準確性,??GPT-4o?
??搜索預覽和??GPT-4o mini?
?搜索預覽分別獲得了90%和88%的準確率。
網絡搜索生成的響應中包含指向來源的鏈接,例如新聞文章和博客帖子,為用戶提供了進一步了解的途徑。這些清晰的內聯引用讓用戶以全新的方式與信息互動,同時內容所有者也獲得了接觸更廣泛受眾的新機會。
任何網站或出版商都可以選擇在API的網絡搜索中出現。網絡搜索工具目前以預覽形式向所有開發者開放。此外,OpenAI還在Chat Completions API中通過??gpt-4o-search-preview?
??和??gpt-4o-mini-search-preview?
??為開發者提供了直接訪問其微調搜索模型的權限。??GPT-4o?
??搜索和??4o-mini?
?搜索的定價分別為每千次查詢30美元和25美元。開發者可以在Playground中體驗網絡搜索,并在文檔中了解更多詳情。
(二)文件搜索
開發者現在可以使用改進后的文件搜索工具輕松從大量文檔中檢索相關信息。該工具支持多種文件類型、查詢優化、元數據過濾和自定義重排,能夠快速、準確地返回搜索結果。同樣,通過Responses API,只需幾行代碼即可完成集成。
const productDocs = await openai.vectorStores.create({
name: "Product Documentation",
file_ids: [file1.id, file2.id, file3.id],
});
const response = await openai.responses.create({
model: "gpt-4o-mini",
tools: [{
type: "file_search",
vector_store_ids: [productDocs.id],
}],
input: "What is deep research by OpenAI?",
});
console.log(response.output_text);
文件搜索工具可用于多種現實世界的應用場景,包括幫助客戶支持代理輕松訪問常見問題解答(FAQ)、協助法律助理快速參考過往案例以及幫助編碼代理查詢技術文檔。例如,Navan在其AI驅動的旅行代理中使用文件搜索,能夠快速從知識庫文章(如公司的旅行政策)中為用戶提供精確答案。憑借內置的查詢優化和重排功能,Navan無需額外調整或配置即可建立強大的檢索增強生成(RAG)管道。通過為每個用戶群體設置專用的向量存儲,Navan能夠根據個人賬戶設置和用戶角色定制答案,為客戶及其員工節省時間,同時提供準確、個性化的支持。
該工具在Responses API中對所有開發者開放。使用費用為每千次查詢2.50美元,文件存儲費用為每GB每天0.10美元,首GB免費。該工具繼續在Assistants API中提供。此外,OpenAI還在向量存儲API對象中添加了一個新的搜索端點,以便直接查詢數據以供其他應用和API使用。開發者可以在文檔中了解更多詳情,并在Playground中開始測試。
(三)計算機使用
為了構建能夠在計算機上完成任務的代理,開發者現在可以使用Responses API中的計算機使用工具。該工具由與Operator相同的計算機使用代理(CUA)模型提供支持。這一研究預覽模型在OSWorld(用于完整計算機使用任務)上取得了38.1%的成功率,在WebArena上取得了58.1%的成功率,在WebVoyager(用于基于網絡的交互)上取得了87%的成功率,均創下了新的行業記錄。
內置的計算機使用工具可以捕獲模型生成的鼠標和鍵盤動作,使開發者能夠通過將這些動作直接轉換為其環境中的可執行命令來自動化計算機任務。
const response = await openai.responses.create({
model: "computer-use-preview",
tools: [{
type: "computer_use_preview",
display_width: 1024,
display_height: 768,
environment: "browser",
}],
truncation: "auto",
input: "I'm looking for a new camera. Help me find the best one.",
});
console.log(response.output);
例如,開發者可以使用計算機使用工具自動化基于瀏覽器的工作流程,如對Web應用進行質量保證或在遺留系統中執行數據輸入任務。例如,Unify是一個用于增加收入的行動系統,它使用代理來識別意圖、研究賬戶并與買家互動。通過使用OpenAI的計算機使用工具,Unify的代理可以訪問以前無法通過API獲取的信息——例如,使物業管理公司能夠通過在線地圖驗證企業是否擴大了其房地產足跡。這種研究作為自定義信號,觸發個性化的推廣活動——賦予上市團隊以精準和規模化的形式與買家互動的能力。
另一個例子是Luminai,它將計算機使用工具整合到大型企業的復雜運營工作流中,這些企業通常缺乏API可用性和標準化數據。在與一家主要社區服務組織的最近試點中,Luminai僅用了幾天時間就自動化了申請處理和用戶注冊流程——這是傳統機器人流程自動化(RPA)在數月努力后仍難以實現的。
在去年推出Operator中的CUA之前,OpenAI進行了廣泛的安全測試和紅隊測試,重點關注三個關鍵風險領域:濫用、模型錯誤和前沿風險。為了應對通過CUA在API中將Operator的能力擴展到本地操作系統所帶來的風險,OpenAI進行了額外的安全評估和紅隊測試。OpenAI還為開發者增加了緩解措施,包括防止提示注入的安全檢查、敏感任務的確認提示、幫助開發者隔離其環境的工具以及增強對潛在政策違規行為的檢測。盡管這些緩解措施有助于降低風險,但該模型仍可能在非瀏覽器環境中出現意外錯誤。例如,CUA在OSWorld(一個衡量AI代理在現實世界任務中表現的基準測試)上的表現目前為38.1%,表明該模型尚未達到在操作系統上自動化任務的高度可靠性。在這種情況下,建議進行人工監督。有關OpenAI針對API特定安全工作的更多細節,可以在更新的系統卡片中找到。
從今天起,計算機使用工具作為研究預覽在Responses API中向使用層級3-5的開發者開放。使用費用為每百萬輸入代幣3美元,每百萬輸出代幣12美元。開發者可以在文檔中了解更多詳情,并查看示例應用,了解如何使用該工具進行構建。
四、智能代理開發的利器:Agents SDK
除了構建智能代理的核心邏輯并為其提供工具以使其有用之外,開發者還需要編排智能代理的工作流。OpenAI新推出的開源Agents SDK簡化了多智能代理工作流的編排,并在去年發布的Swarm實驗性SDK的基礎上進行了顯著改進。Swarm被開發者社區廣泛采用,并成功部署在多個客戶項目中。
(一)Agents SDK的改進
- 智能代理:易于配置的LLM,帶有清晰的指令和內置工具。
- 交接:智能地在代理之間轉移控制權。
- 防護欄:可配置的安全檢查,用于輸入和輸出驗證。
- 追蹤與可觀測性:可視化代理執行軌跡,以便調試和優化性能。
(二)Agents SDK的應用場景
Agents SDK適用于多種現實世界的應用場景,包括客戶支持自動化、多步驟研究、內容生成、代碼審查和銷售前景分析。例如,Coinbase使用Agents SDK快速原型化并部署了AgentKit,這是一個工具包,使AI代理能夠與加密錢包和各種鏈上活動無縫互動。在短短幾個小時內,Coinbase將來自其開發者平臺SDK的自定義動作整合到一個功能齊全的代理中。AgentKit的精簡架構簡化了添加新代理動作的過程,讓開發者能夠更多地專注于有意義的整合,而無需在復雜的代理設置中耗費過多精力。
在短短幾天內,Box能夠快速創建代理,利用網絡搜索和Agents SDK,使企業能夠搜索、查詢并從Box內部存儲的非結構化數據以及公共互聯網來源中提取見解。這種方法不僅讓客戶能夠訪問最新信息,還能安全地搜索其內部專有數據,同時遵守其內部權限和安全策略。例如,金融服務公司可以構建一個自定義代理,調用Box AI代理,將存儲在Box中的內部市場分析與網絡上的實時新聞和經濟數據相結合,為其分析師提供全面的投資決策視角。
Agents SDK與Responses API和Chat Completions API兼容。只要其他提供商的模型提供類似Chat Completions的API端點,SDK也可以與之配合使用。開發者可以立即將其集成到他們的Python代碼庫中,Node.js支持也將很快推出。開發者可以在文檔中了解更多詳情。
在設計Agents SDK時,OpenAI團隊受到了社區其他優秀作品的啟發,包括Pydantic、Griffe和MkDocs。OpenAI致力于將Agents SDK作為一個開源框架繼續發展,以便社區能夠在此基礎上進行擴展。
(三)示例代碼
以下是一個簡單的Python代碼示例,展示了如何使用Agents SDK構建和運行智能代理:
from agents import Agent, Runner, WebSearchTool, function_tool, guardrail
@function_tool
def submit_refund_request(item_id: str, reason: str):
# Your refund logic goes here
return "success"
support_agent = Agent(
name="Support & Returns",
instructinotallow="You are a support agent who can submit refunds [...]",
tools=[submit_refund_request],
)
shopping_agent = Agent(
name="Shopping Assistant",
instructinotallow="You are a shopping assistant who can search the web [...]",
tools=[WebSearchTool()],
)
triage_agent = Agent(
name="Triage Agent",
instructinotallow="Route the user to the correct agent.",
handoffs=[shopping_agent, support_agent],
)
output = Runner.run_sync(
starting_agent=triage_agent,
input="What shoes might work best with my outfit so far?",
)
print(output)
五、展望未來:構建智能代理平臺
OpenAI相信,智能代理將成為未來勞動力的重要組成部分,顯著提升各行業的生產力。隨著公司越來越多地尋求利用AI完成復雜任務,OpenAI致力于提供構建模塊,使開發者和企業能夠有效創建能夠產生實際影響的自主系統。
通過今天的發布,OpenAI引入了首批構建模塊,賦予開發者和企業更輕松地構建、部署和擴展可靠、高性能的AI智能代理的能力。隨著模型能力越來越具有代理性,OpenAI將繼續投資于跨API的深度整合以及新工具的開發,以幫助在生產環境中部署、評估和優化智能代理。OpenAI的目標是為開發者提供一個無縫的平臺體驗,用于構建能夠幫助各行業完成各種任務的智能代理。OpenAI期待看到開發者接下來構建的成果。開發者可以立即探索OpenAI的文檔,并關注即將發布的更多更新。
在這個充滿機遇的時代,OpenAI的這些新工具和API將為開發者提供強大的支持,助力他們將創意轉化為現實,推動AI技術在各個領域的廣泛應用。讓我們拭目以待,看看這些智能代理將如何改變我們的未來!
本文轉載自公眾號Halo咯咯 作者:基咯咯
