微軟開源瀏覽器Agent,可實時跟蹤、控制智能體,超4000顆星
微軟在官網(wǎng)開源了一個專用于瀏覽器網(wǎng)絡(luò)任務(wù)的Agent——Magentic-UI。
Magentic-UI是基于微軟曾經(jīng)開源的 Magentic-One基礎(chǔ)之上開發(fā)而成,并支持人機協(xié)同的控制方法來提升智能體的執(zhí)行效率和準(zhǔn)確率。
根據(jù)GAIA測試數(shù)據(jù)顯示,當(dāng)配備擁有輔助信息的模擬用戶時,Magentic-UI 的任務(wù)完成率從自主模式下的30.3%提升至51.9%,準(zhǔn)確率提高了71%。此外,Magentic-UI 在執(zhí)行任務(wù)時僅在10%的情況下向模擬用戶尋求幫助,且平均每次任務(wù)僅需幫助1.1次。
開源地址:https://github.com/microsoft/magentic-ui
Magentic-UI以人為本
Magentic-UI最大亮點之一便是以人類為中心,與傳統(tǒng) Agent 的不同在于其將人類深度融入到任務(wù)執(zhí)行的各個環(huán)節(jié),而不是單純追求完全自動化。
傳統(tǒng) Agent 往往以實現(xiàn)任務(wù)的自主完成為目標(biāo),強調(diào)的是機器的獨立性和自動化程度,用戶可能對 Agent 的具體操作過程和決策依據(jù)不夠了解,甚至在出現(xiàn)問題時難以及時干預(yù)和糾正。
而Magentic-UI 則采用了人機協(xié)作的模式,充分考慮了人類在任務(wù)執(zhí)行中的作用和價值,通過與用戶緊密協(xié)作來完成任務(wù),讓用戶能夠?qū)崟r掌控 Agent 的行為,并根據(jù)需要進行調(diào)整和指導(dǎo)。
在規(guī)劃階段,Magentic-UI 會與用戶進行協(xié)同規(guī)劃,不會直接按照預(yù)設(shè)的程序或算法來制定任務(wù)計劃,而是先與用戶溝通交流,了解用戶的需求和期望,然后生成一個初步的分步計劃,并允許用戶通過計劃編輯器或提供文本反饋的方式直接修改這個計劃。
用戶可以根據(jù)自己的經(jīng)驗和對任務(wù)的理解,對計劃中的步驟進行添加、刪除、調(diào)整順序等操作,甚至可以重新撰寫某些步驟,以確保計劃更符合實際需求。這種協(xié)同規(guī)劃的方式,使得用戶能夠?qū)⒆约旱膶I(yè)知識和經(jīng)驗融入到任務(wù)計劃中,從而提高任務(wù)完成的質(zhì)量和效率。
在任務(wù)執(zhí)行過程中,Magentic-UI也強調(diào)與用戶的協(xié)同執(zhí)行。它會實時向用戶展示自己即將采取的具體行動,比如要點擊哪個按鈕、輸入什么內(nèi)容、訪問哪個網(wǎng)頁等,同時也會將觀察到的網(wǎng)頁信息實時反饋給用戶。
用戶可以隨時暫停 Agent 的操作,通過自然語言向 Agent 提供反饋,指出問題、提出建議或進行糾正,甚至可以直接接管瀏覽器的操作,親自完成某些步驟,然后再將控制權(quán)交還給Agent。這種協(xié)同執(zhí)行的方式,讓用戶能夠及時發(fā)現(xiàn)并解決 Agent 在執(zhí)行過程中可能出現(xiàn)的問題,避免了因 Agent 的錯誤操作而導(dǎo)致任務(wù)失敗或產(chǎn)生不良后果。
Magentic-UI還具有獨特的“行動保護”機制,即在執(zhí)行一些可能不可逆的操作之前,會征求用戶的許可。這些操作可能包括關(guān)閉標(biāo)簽頁、點擊有副作用的按鈕、提交表單等。
用戶可以根據(jù)自己的判斷,決定是否允許Agent執(zhí)行這些操作,從而避免了因 Agent 的盲目操作而帶來的風(fēng)險。Magentic-UI 還采用了沙盒技術(shù),將瀏覽器和代碼執(zhí)行器等工具運行在隔離的環(huán)境中,進一步確保了操作的安全性,防止了 Agent 可能帶來的安全威脅。
Magentic-UI框架簡單介紹
當(dāng)用戶向Magentic-UI 提出一個自動化任務(wù)請求時,系統(tǒng)首先會接收用戶的輸入,這可以是簡單的文本指令,也可以是附帶圖像的復(fù)雜需求。Magentic-UI 的核心組件協(xié)調(diào)器,會根據(jù)用戶的輸入,利用其背后的大語言模型(LLM)能力,生成一個初步的分步計劃。這個計劃詳細列出了完成任務(wù)所需的各個步驟,包括需要訪問的網(wǎng)頁、需要執(zhí)行的操作以及可能需要調(diào)用的其他工具。
生成初步計劃后,Magentic-UI 并不會直接開始執(zhí)行,而是進入一個關(guān)鍵的協(xié)同規(guī)劃階段。在這個階段,用戶可以通過一個直觀的計劃編輯界面,直接對 Magentic-UI 生成的計劃進行修改。用戶可以添加、刪除或調(diào)整計劃中的步驟,甚至可以完全重新撰寫某些步驟。
Magentic-UI會實時反饋用戶的修改建議,并根據(jù)用戶的反饋調(diào)整計劃。這一過程確保了用戶能夠?qū)⒆约旱膶I(yè)知識和期望融入到任務(wù)計劃中,從而提高任務(wù)完成的準(zhǔn)確性和效率。
經(jīng)過用戶確認或修改后的計劃會被發(fā)送到執(zhí)行階段。Magentic-UI 的執(zhí)行過程是高度透明和協(xié)作式的。系統(tǒng)會實時向用戶展示它即將采取的具體行動,例如,點擊按鈕、輸入搜索詞或訪問特定網(wǎng)頁。
同時,Magentic-UI 也會將它在網(wǎng)頁上觀察到的信息實時反饋給用戶。用戶可以隨時暫停Magentic-UI 的操作,并通過自然語言提供反饋,指出問題或提出建議。如果用戶認為某個步驟需要親自操作,他們甚至可以直接接管瀏覽器的操作,完成特定步驟后再將控制權(quán)交還給 Magentic-UI。
Magentic-UI的另一個重要特性是自我計劃學(xué)習(xí)。在完成任務(wù)后,它可以從用戶的反饋和任務(wù)執(zhí)行過程中學(xué)習(xí)并保存分步計劃,形成一個計劃庫。
在未來的任務(wù)中,當(dāng)用戶輸入與之前相似的任務(wù)時,Magentic-UI 可以快速檢索并調(diào)用相應(yīng)的計劃,從而大大提高任務(wù)執(zhí)行的效率。并且,用戶可以隨時查看和修改保存的計劃,根據(jù)需要進行調(diào)整和優(yōu)化,以便更好地應(yīng)對不同的任務(wù)場景。
目前,Magentic-UI在Github超4000顆星,并且支持MIT 許可證商用。