瀏覽器智能體崛起:Convergence Proxy為何會碾壓OpenAI Operator?
一股新的AI瀏覽器智能體浪潮正改變企業與網絡的互動。
一股新的AI驅動的瀏覽器智能體浪潮正在興起,有望改變企業與網絡的互動方式。這些智能體能夠自主瀏覽網站、檢索信息,甚至完成交易——但早期測試顯示,其承諾的性能與實際表現之間存在顯著差距。
雖然OpenAI的新瀏覽器智能體Operator提供的消費者示例(如訂購披薩或購買游戲門票)已搶占新聞頭條,但問題在于,主要的開發者和企業用例在哪里?“我們不知道的是,殺手級應用會是什么,”開發AI智能體的Red Dragon公司聯合創始人Sam Witteveen表示,“我猜想,它會是那些你在網上花費時間但并不真正享受的事情。”這包括上網搜索某款產品的最低價或預訂最佳酒店住宿等。更有可能的是,它將與其他工具(如Deep Research)結合使用,這樣公司就可以在網上進行更復雜的研究并執行任務。
隨著老牌企業和初創公司采取不同的方法來解決自主瀏覽挑戰,企業需要謹慎評估這一快速變化的格局。
瀏覽器智能體領域的關鍵參與者
這一領域迅速吸引了眾多大型科技公司和創新型初創企業的加入:
? OpenAI的Operator(2025年1月推出)——ChatGPT Pro訂閱用戶(每月200美元)可用,專注于用戶友好的網絡自動化
? Convergence的Proxy(2024年12月推出)——一家英國初創公司,提供免費有限使用(每天5次會話)或每月20美元的無限制訪問
? 谷歌的Project Mariner——目前處于預覽測試階段,需排隊等候訪問
? Anthropic的Computer Use(2024年10月推出)——預計不久將發布更新
? 微軟的OmniParser V2(2025年2月)——一個開源項目,用于將用戶界面截圖轉換為結構化數據,使大型語言模型(LLM)能夠解釋并與網站互動
? 字節跳動的UI-TARS——需要更深層次的系統訪問權限,可能引發安全擔憂
? Browser-Use——一個面向開發者的工具,允許選擇AI模型,包括谷歌的Gemini 2.0 Flash
在消費者友好度和即開即用方面,Operator和Proxy是最先進的。其他許多智能體似乎更多地定位于開發者或企業使用。例如,Y-Combinator初創公司Browser Use允許用戶自定義與智能體一起使用的模型。這讓你能更好地控制智能體的工作方式,包括使用本地機器上的模型,但這無疑更加復雜。
上述其他智能體提供了不同程度的功能以及與本地機器資源的交互能力。我決定暫時不測試字節跳動的UI-TARS,因為它要求訪問我機器的安全和隱私功能的較低層級(如果我進行測試,我一定會使用備用電腦)。
測試揭示推理挑戰
因此,最容易測試的是OpenAI的Operator和Convergence的Proxy。在我們的測試中,結果突顯了推理能力比原始自動化功能更為重要的觀點。特別是Operator,存在更多缺陷。
例如,我要求智能體找到并總結VentureBeat上最受歡迎的五篇文章。這是一項模糊的任務,因為VentureBeat并沒有一個明確的“最受歡迎”板塊。Operator在此任務上遇到了困難。它首先在搜索“最受歡迎”文章時陷入了無限滾動循環,需要手動干預。在另一次嘗試中,它找到了一篇三年前的文章,標題為“本周五大熱門文章”。相比之下,Proxy通過識別主頁上最顯眼的五篇文章作為受歡迎程度的實際代表,展示了更好的推理能力,并且給出了準確的總結。
在實際任務中,這種區別變得更加明顯。我要求智能體在加州納帕的一家浪漫餐廳預訂中午的座位。Operator線性地處理任務——先找到一家浪漫餐廳,然后檢查中午是否有空位。當沒有空位時,它就陷入了僵局。Proxy則展示了更復雜的推理能力,它先從OpenTable開始,尋找既浪漫又在所需時間有空位的餐廳。它甚至找到了一家評分略高的餐廳。
即使在看似簡單的任務中,也揭示了重要的差異。在亞馬遜上搜索“YubiKey 5C NFC價格”時,Proxy比Operator更快地找到了商品。
OpenAI并未透露太多關于其用于訓練Operator智能體的技術細節,只是表示其模型是在瀏覽器使用任務上進行訓練的,然而,Convergence提供了更多細節:其智能體使用了一種稱為生成樹搜索的技術來“利用網絡世界模型,預測采取擬議行動后網絡的狀態。這些模型是遞歸生成的,以產生一棵可能的未來之樹,然后在這棵樹上進行搜索,以選擇下一個最優行動,這是由我們的價值模型排名的。我們的網絡世界模型還可以用于在假設情況下訓練代理,而無需生成大量昂貴的數據。”
基準測試目前可能無用
從紙面上看,這些工具似乎勢均力敵。Convergence的Proxy在WebVoyager基準測試中達到了88%的準確率,該基準測試在亞馬遜和Booking.com等15個熱門網站上的643項真實世界任務中評估了網絡智能體。OpenAI的Operator得分為87%,而Browser-Use表示其得分達到了89%,但承認這是在稍微修改了WebVoyager代碼庫后實現的,“符合我們的需求”。
然而,這些基準測試得分應謹慎對待,因為它們可能被操縱。真正的測試在于實際用例中的實用效果。目前還處于非常早期的階段,這一領域正在迅速變化,這些產品幾乎每天都在更新。結果將更多地取決于你試圖完成的具體工作,而你可能更愿意依賴在使用不同產品時獲得的直觀感受。
對企業的影響
對企業自動化而言,其影響是顯著的。正如Witteveen在我們關于這一主題的視頻播客對話中指出的那樣(我們在其中深入探討了瀏覽器使用趨勢),許多公司目前正在為真人操作的虛擬助手支付費用,以處理基本的網絡研究和數據收集任務。這些瀏覽器智能體可能會極大地改變這一狀況。
“如果AI接管了這一工作,”Witteveen指出,“那將是最早一批因此失去工作的人。這種情況會在這些事情中體現出來。”
這可能會推動機器人流程自動化(RPA)趨勢的發展,其中瀏覽器使用只是公司自動化更多任務的另一個工具。如前所述,更強大的用例將是當智能體將瀏覽器使用與其他工具(包括Deep Research等工具)結合使用時,其中由LLM驅動的代理使用搜索工具加瀏覽器使用來完成更復雜的工作。
成本動態推動創新
推動快速發展的另一個關鍵因素是強大開源推理模型(如DeepSeek-R1)的可用性。這使得構建這些瀏覽器智能體的公司能夠通過利用這些模型而不是自建模型,來有效地與大型企業競爭。
定價壓力已經顯現。雖然OpenAI要求每月200美元的ChatGPT Pro訂閱才能訪問Operator,但Convergence提供免費有限使用(每天最多五次)和每月20美元的無限制計劃。這種競爭態勢應會加速企業的采用,盡管明確的用例仍在涌現。
安全和集成挑戰
在廣泛的企業采用之前,仍存在幾個障礙。一些網站積極阻止自動化瀏覽,而其他網站則要求進行CAPTCHA驗證。雖然OpenAI和Convergence都有工具可以繞過CAPTCHA,但它們讓用戶接管任務來填寫——而不是直接完成,因為CAPTCHA的整個目的就是確保另一端是人類。像字節跳動的UI-TARS這樣的工具要求深層次的系統訪問權限,這給企業部署帶來了安全擔憂。
此外,與網站合作的方式各不相同。OpenAI已與Instacart、Priceline、DoorDash和Etsy等特定合作伙伴合作,而其他公司則嘗試瀏覽任何網站。這種不一致性可能會影響企業用例的可靠性。當然,每當智能體訪問需要登錄詳情的網站時,都會減慢速度——因為代理會將任務交給你來填寫這些詳情。
展望未來
對于評估這些工具的企業而言,應重點關注自主網絡交互能夠提供明確價值的特定用例——無論是在研究、客戶服務還是流程自動化方面。這項技術正在迅速發展,但成功將取決于將能力與具體業務需求相匹配。
隨著這一領域的不斷發展,預計將會看到更多以企業為中心的功能,以及可能針對特定行業或任務的專門智能體。老牌企業與創新型初創公司之間的競爭應會推動技術進步和具有競爭力的定價,使2025年成為企業瀏覽器智能體采用的關鍵一年。