312條軌跡激發(fā)241%性能!上交大與SII開源電腦智能體,超越 Claude 3.7
自 Anthropic 推出 Claude Computer Use,打響電腦智能體(Computer Use Agent)的第一槍后,OpenAI 也相繼推出 Operator,用強(qiáng)化學(xué)習(xí)(RL)算法把電腦智能體的能力推向新高,引發(fā)全球范圍廣泛關(guān)注。
業(yè)界普遍認(rèn)為,需要海量的軌跡數(shù)據(jù)或復(fù)雜的強(qiáng)化學(xué)習(xí)才能實(shí)現(xiàn)電腦智能體的水平突破——這可能意味著大量的人工軌跡標(biāo)注,以及大規(guī)模虛擬機(jī)環(huán)境的構(gòu)建,以支撐智能體的學(xué)習(xí)與優(yōu)化。
然而,來自上海交通大學(xué)和 SII 的最新研究卻給出了一個非共識答案:僅需 312 條人類標(biāo)注軌跡,使用 Claude 3.7 Sonnet 合成更豐富的動作決策,就能激發(fā)模型 241% 的性能,甚至超越 Claude 3.7 Sonnet extended thinking 模式,成為 Windows 系統(tǒng)上開源電腦智能體的新一代 SOTA。
- 論文標(biāo)題:Efficient Agent Training for Computer Use
- 論文地址:https://arxiv.org/abs/2505.13909
- 代碼地址:https://github.com/GAIR-NLP/PC-Agent-E
- 模型地址:https://huggingface.co/henryhe0123/PC-Agent-E
- 數(shù)據(jù)地址:https://huggingface.co/datasets/henryhe0123/PC-Agent-E
這一發(fā)現(xiàn)傳遞出一個關(guān)鍵信號:當(dāng)前大模型已經(jīng)具備了使用電腦完成任務(wù)的基礎(chǔ)能力,其性能瓶頸主要在于長程推理(long-horizon planning)能力的激發(fā),而這一能力使用極少量高質(zhì)量軌跡即可顯著提升。
PC Agent-E:如何用極少量軌跡訓(xùn)練出強(qiáng)大的電腦智能體?
數(shù)據(jù)從哪來?人類提供原始操作軌跡
與以往依賴大規(guī)模人工標(biāo)注或復(fù)雜自動化合成的方式不同,團(tuán)隊的方法只需 312 條真實(shí)的人類操作軌跡。這些軌跡由團(tuán)隊開發(fā)的工具 PC Tracker 收集而來,僅由兩位作者花一天時間操作自己的電腦,就完成了原始軌跡數(shù)據(jù)的收集。每條軌跡包含任務(wù)描述、屏幕截圖以及鍵盤鼠標(biāo)操作,并確保了數(shù)據(jù)的正確性。
312 條軌跡在不同軟件上的分布
思維鏈補(bǔ)全:讓「動作」有「思考」的支撐
人類執(zhí)行每一個動作,往往都有一定的理由或「思考過程」。但在收集的原始軌跡數(shù)據(jù)中,這部分「思維鏈」是缺失的。于是,團(tuán)隊對人類動作進(jìn)行了「思維鏈補(bǔ)全」(Thought Completion),為每一個動作步驟添加了背后的思考邏輯(符合于 ReAct 范式)。此時的數(shù)據(jù)已足以用于智能體訓(xùn)練,但團(tuán)隊并未止步于此——接下來的關(guān)鍵一步,進(jìn)一步大幅提升了軌跡質(zhì)量。
軌跡增強(qiáng):讓 AI 幫你「腦洞大開」
接下來,團(tuán)隊提出了一個關(guān)鍵創(chuàng)新點(diǎn):軌跡增強(qiáng)(Trajectory Boost),這正是使用極少軌跡讓模型超越 Claude 3.7 Sonnet(thinking)的關(guān)鍵。
其核心觀察為:每個電腦任務(wù)其實(shí)可以通過多種路徑完成。也就是說,除了人類采取的動作以外,軌跡中的每一步其實(shí)都有多個「合理的動作決策」。為了捕捉這種軌跡內(nèi)在的多樣性,團(tuán)隊利用前沿模型 Claude 3.7 Sonnet,為軌跡的每一步合成更多的動作決策。團(tuán)隊注意到,軌跡中每一步記錄的數(shù)據(jù),作為「環(huán)境快照(environment snapshot)」,已足以為人類或智能體提供決策信息。于是,團(tuán)隊將這些快照提供給 Claude 3.7 Sonnet,采樣多個包含思考過程的動作決策。這一過程極大豐富了軌跡數(shù)據(jù)的多樣性。
思維鏈補(bǔ)全與軌跡增強(qiáng)
模型訓(xùn)練:少量數(shù)據(jù)也能訓(xùn)出強(qiáng)大模型
最終,團(tuán)隊在開源模型 Qwen2.5-VL-72B 的基礎(chǔ)上進(jìn)行訓(xùn)練,得到 PC Agent-E 智能體。作為一款原生智能體模型(native agent model),PC Agent-E 無需依賴復(fù)雜的工作流設(shè)計,即可實(shí)現(xiàn)端到端的任務(wù)執(zhí)行。令人驚喜的是,在僅使用 312 條人工標(biāo)注軌跡的情況下,模型性能便達(dá)到了訓(xùn)練前的 241%,展現(xiàn)出極高的樣本效率。
團(tuán)隊在 WindowsAgentArena-V2 上進(jìn)行評測——這是對原始 WindowsAgentArena 存在問題進(jìn)行改進(jìn)后的新版本。實(shí)驗結(jié)果顯示,PC Agent-E 的表現(xiàn)甚至超過了 Claude 3.7 Sonnet 的「extended thinking」模式,而用于數(shù)據(jù)合成的 Claude 3.7 Sonnet 并未啟用這一模式。這標(biāo)志著 PC Agent-E 成為當(dāng)前 Windows 系統(tǒng)上開源電腦智能體的新一代 SOTA!與此同時,PC Agent-E 在 OSWorld 上也表現(xiàn)出不俗的跨平臺泛化性能。
不同電腦智能體在 WindowsAgentArena-V2 上的評估結(jié)果
軌跡增強(qiáng)方法的有力驗證
論文的關(guān)鍵創(chuàng)新之一——軌跡增強(qiáng)方法在人類軌跡的每一步補(bǔ)充了 9 個合成動作決策。為了進(jìn)一步驗證該方法的效果,團(tuán)隊調(diào)整訓(xùn)練時使用的合成動作數(shù)量,并觀察其對模型性能的影響。
如圖所示,隨著合成動作數(shù)量的增加,模型性能顯著提升,并展現(xiàn)出良好的拓展趨勢。相比僅使用人類軌跡訓(xùn)練(性能提升僅 15%),PC Agent-E 在引入合成動作后實(shí)現(xiàn)了高達(dá) 141% 的性能飛躍,充分證明了軌跡增強(qiáng)方法對智能體能力突破的關(guān)鍵作用。
模型能力隨訓(xùn)練數(shù)據(jù)中動作決策的擴(kuò)展倍數(shù)的變化
結(jié)論與展望
實(shí)驗結(jié)果有力證明了一個關(guān)鍵觀點(diǎn):少量高質(zhì)量軌跡,就足以激發(fā)智能體強(qiáng)大的長程推理(long-horizon planning)能力。無需海量人類標(biāo)注,就能訓(xùn)練出當(dāng)前最優(yōu)(SOTA)的電腦智能體。
目前,即使是最前沿的電腦智能體,其能力與人類相比仍有明顯差距。在這種情況下,在預(yù)訓(xùn)練和監(jiān)督微調(diào)階段引入一定的人類認(rèn)知,仍然是為后續(xù)強(qiáng)化學(xué)習(xí)打下堅實(shí)基礎(chǔ)的必要步驟。
團(tuán)隊方法提供了一種新的思路:在人類標(biāo)注軌跡注定有限的情況下,可以通過提高軌跡質(zhì)量來實(shí)現(xiàn)高效的性能提升。這不僅降低了數(shù)據(jù)需求,也為未來構(gòu)建更智能、更自主的數(shù)字代理鋪平了道路。PC Agent-E 只是一個開始。通往真正能理解并自如操作數(shù)字世界的智能代理之路,仍在繼續(xù)。