LSTM之父22年前構(gòu)想將成真?一周內(nèi)AI「自我進(jìn)化」論文集中發(fā)布,新趨勢(shì)涌現(xiàn)?
讓 AI 實(shí)現(xiàn)自我進(jìn)化是人類一直以來的夢(mèng)想。
早在 2003 年,AI 先驅(qū)、LSTM 之父 Jürgen Schmidhuber 就提出過一種名為「哥德爾機(jī)(G?del Machine)」的構(gòu)想——它使用一種遞歸的自我改進(jìn)協(xié)議,如果能夠證明新代碼的策略較佳,就會(huì)重寫自己的代碼。但這終究只是一個(gè)假想。
近年來,關(guān)于模型自我學(xué)習(xí)、進(jìn)化的研究逐漸多了起來,很多研究者的目標(biāo)在逐漸從單純的「訓(xùn)練模型」向「讓模型學(xué)會(huì)自我學(xué)習(xí)和自我進(jìn)化」轉(zhuǎn)變,谷歌最近發(fā)布的 AlphaEvolve 就是其中的重要代表。
在過去的一周,這一方向的進(jìn)展尤其豐富。有人發(fā)現(xiàn),幾篇關(guān)于「讓 LLM(或智能體)學(xué)會(huì)自我訓(xùn)練」的論文在 arXiv 上集中出現(xiàn),其中甚至包括受「哥德爾機(jī)」構(gòu)想啟發(fā)而提出的「達(dá)爾文哥德爾機(jī)」。或許,AI 模型的自我進(jìn)化能力正在加速提升。
在這篇文章中,我們將詳細(xì)介紹最近的幾篇論文,它們分別是:
- Sakana AI 與不列顛哥倫比亞大學(xué)等機(jī)構(gòu)合作的「達(dá)爾文哥德爾機(jī)(DGM)」:DGM 利用基礎(chǔ)模型和開放式算法來創(chuàng)建和評(píng)估新的 AI 智能體,并能夠讀取和修改自身的 Python 代碼庫以進(jìn)行自我改進(jìn),還通過評(píng)估在編碼基準(zhǔn)上的性能來判斷更改是否有效。實(shí)驗(yàn)表明,DGM 可以持續(xù)自我改進(jìn),并能在不同模型和編程語言之間實(shí)現(xiàn)遷移。
- CMU 的「自我獎(jiǎng)勵(lì)訓(xùn)練(SRT)」:提出了一種名為「自我獎(jiǎng)勵(lì)訓(xùn)練」的在線自我訓(xùn)練強(qiáng)化學(xué)習(xí)算法,旨在讓大型語言模型通過自身的判斷信號(hào)進(jìn)行自我監(jiān)督和訓(xùn)練,從而在沒有外部標(biāo)簽的情況下提升性能。
- 上海交通大學(xué)等機(jī)構(gòu)提出的多模態(tài)大模型的持續(xù)自我改進(jìn)框架「MM-UPT」:在完全無監(jiān)督場(chǎng)景下,通過強(qiáng)化學(xué)習(xí)框架 GRPO 實(shí)現(xiàn)多模態(tài)大模型的持續(xù)自我改進(jìn)。他們提出了一種簡(jiǎn)潔而高效的框架:MM-UPT(Multi-Modal Unsupervised Post-Training),并在多個(gè)圖文數(shù)學(xué)推理 benchmarks 上驗(yàn)證了其有效性。
- 香港中文大學(xué)聯(lián)合 vivo 等機(jī)構(gòu)的自改進(jìn)框架「UI-Genie」:旨在解決 GUI 智能體中的兩大核心挑戰(zhàn):一是軌跡結(jié)果的驗(yàn)證十分困難,二是高質(zhì)量訓(xùn)練數(shù)據(jù)的規(guī)模化獲取不易。針對(duì)這兩個(gè)挑戰(zhàn),研究團(tuán)隊(duì)分別提出了一種獎(jiǎng)勵(lì)模型和一個(gè)自改進(jìn)流水線。
達(dá)爾文哥德爾機(jī):讓 AI 通過重寫自己的代碼實(shí)現(xiàn)自我改進(jìn)
- 論文標(biāo)題:Darwin G?del Machine: Open-Ended Evolution of Self-Improving Agents
- 論文鏈接:https://arxiv.org/abs/2505.22954
- 博客:https://sakana.ai/dgm/
人工智能研究的一個(gè)長(zhǎng)期目標(biāo)是創(chuàng)造能夠持續(xù)學(xué)習(xí)的 AI 系統(tǒng)。實(shí)現(xiàn)這一目標(biāo)的一條誘人路徑是讓 AI 通過重寫自身代碼(包括負(fù)責(zé)學(xué)習(xí)的代碼)來實(shí)現(xiàn)自我改進(jìn)。這一由 Jürgen Schmidhuber 數(shù)十年前提出的構(gòu)想被稱為「哥德爾機(jī)」,是一種假想中的自我改進(jìn)型 AI。當(dāng)它在數(shù)學(xué)上證明存在更優(yōu)策略時(shí),它會(huì)通過遞歸地重寫自身代碼來優(yōu)化問題解決方案,因此成為元學(xué)習(xí)(即「學(xué)會(huì)學(xué)習(xí)」)領(lǐng)域的核心概念。
雖然理論上的哥德爾機(jī)能確保可證明的良性自我修改,但其實(shí)現(xiàn)依賴于一個(gè)不切實(shí)際的假設(shè):AI 必須能在數(shù)學(xué)上證明代碼修改會(huì)帶來凈效益才會(huì)實(shí)施變更。
針對(duì)此問題,Sakana AI 與不列顛哥倫比亞大學(xué) Jeff Clune 實(shí)驗(yàn)室合作,提出了一種更可行的方案:利用達(dá)爾文進(jìn)化等開放式算法的原理,通過實(shí)證檢驗(yàn)來尋找能提升性能的改進(jìn)方法。
他們將這一成果命名為「達(dá)爾文哥德爾機(jī)(DGM)」。DGM 系統(tǒng)利用基礎(chǔ)模型提出代碼改進(jìn)方案,并采用開放式算法的最新創(chuàng)新來搜索不斷增長(zhǎng)的多樣化優(yōu)質(zhì) AI 智能體庫。實(shí)驗(yàn)表明,DGM 獲得的算力越多,自我改進(jìn)效果就越顯著。鑒于依賴學(xué)習(xí)的 AI 系統(tǒng)終將超越人工設(shè)計(jì)系統(tǒng)這一明確趨勢(shì),DGM 很可能在短期內(nèi)超越人工設(shè)計(jì)的 AI 系統(tǒng)。
第一個(gè) DGM 是一個(gè)編碼智能體,它能夠:
- 讀取并修改自己的代碼;
- 評(píng)估修改是否提高了性能;
- 開放式地探索 AI 設(shè)計(jì)空間。
達(dá)爾文哥德爾機(jī)是一種通過重寫自身代碼來提升編程任務(wù)性能的自我改進(jìn)型編程智能體。它能實(shí)現(xiàn)多種自我改進(jìn),包括:增加補(bǔ)丁驗(yàn)證步驟、優(yōu)化文件查看功能、增強(qiáng)編輯工具、生成并排序多個(gè)解決方案以選擇最優(yōu)選項(xiàng),以及在實(shí)施新修改時(shí)記錄歷史嘗試記錄(包括失敗原因)。
達(dá)爾文哥德爾機(jī)通過運(yùn)用開放式探索原則,逐步構(gòu)建起一個(gè)不斷擴(kuò)增的智能體庫。該系統(tǒng)通過交替執(zhí)行自我修改與下游任務(wù)評(píng)估的方式,持續(xù)創(chuàng)建新智能體并對(duì)其進(jìn)行評(píng)分。
在 sw-bench 上,DGM 自動(dòng)將其性能從 20.0% 提高到 50.0%。在 Polyglot 上,DGM 的表現(xiàn)從最初的 14.2% 躍升至 30.7%,遠(yuǎn)遠(yuǎn)超過了 Aider 手工設(shè)計(jì)的代表性智能體。這些可觀的收益證明了 DGM 發(fā)現(xiàn)并實(shí)現(xiàn)對(duì)其自身代碼的有益更改的能力。
模型的自我獎(jiǎng)勵(lì)訓(xùn)練:潛力、崩潰與緩解策略
- 論文標(biāo)題:Can Large Reasoning Models Self-Train?
- 論文鏈接:https://arxiv.org/abs/2505.21444
- 項(xiàng)目地址:https://self-rewarding-llm-training.github.io/
- 代碼地址:https://github.com/tajwarfahim/srt
- 數(shù)據(jù)集:https://huggingface.co/collections/ftajwar/self-rewarding-llm-training-6835218091832c3664176553
通過可驗(yàn)證獎(jiǎng)勵(lì)進(jìn)行的強(qiáng)化學(xué)習(xí)顯著增強(qiáng)了大語言模型的推理能力,尤其是在數(shù)學(xué)和編碼方面。然而,這種方法依賴于人工創(chuàng)建的真實(shí)標(biāo)簽驗(yàn)證器,這使得為每個(gè)問題生成獎(jiǎng)勵(lì)信號(hào)的成本高昂且受到限制。在這項(xiàng)工作中,研究團(tuán)隊(duì)提出以下問題:
- 推理模型能否僅使用自身的反饋進(jìn)行自我訓(xùn)練,而無需訪問真實(shí)標(biāo)簽?
- 自我訓(xùn)練的性能能否達(dá)到基于真實(shí)標(biāo)簽的強(qiáng)化學(xué)習(xí)訓(xùn)練的水平?
- 自我訓(xùn)練能否無限期持續(xù)?其改進(jìn)最終是否會(huì)受到限制?
- 哪些策略可以有效地維持模型的自我訓(xùn)練?
自我獎(jiǎng)勵(lì)培訓(xùn)(SRT)
受先前基于一致性自我提升研究的啟發(fā),研究團(tuán)隊(duì)引入了一種簡(jiǎn)單而有效的自我訓(xùn)練強(qiáng)化學(xué)習(xí)方法論,稱為自我獎(jiǎng)勵(lì)訓(xùn)練(Self-Rewarded Training,SRT)。該方法在強(qiáng)化學(xué)習(xí)訓(xùn)練期間,通過模型生成的多個(gè)解決方案之間的一致性來評(píng)估正確性,從而在沒有標(biāo)注數(shù)據(jù)的情況下提供自監(jiān)督信號(hào)。
SRT 概覽。在 RLVR 方法中,系統(tǒng)通過真實(shí)驗(yàn)證器生成用于強(qiáng)化學(xué)習(xí)訓(xùn)練的獎(jiǎng)勵(lì)信號(hào)。與之相反,SRT 方法并不依賴真實(shí)驗(yàn)證器,而是通過模型自身生成結(jié)果的多數(shù)投票機(jī)制來估算真實(shí)值,并利用這一替代性獎(jiǎng)勵(lì)信號(hào)來訓(xùn)練模型。
SRT 與早期訓(xùn)練階段的 RL 性能相匹配
研究團(tuán)隊(duì)通過經(jīng)驗(yàn)證明,在早期訓(xùn)練階段,SRT 能夠達(dá)到與那些在黃金標(biāo)準(zhǔn)答案上進(jìn)行顯式訓(xùn)練的標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)方法相媲美的性能。測(cè)試數(shù)據(jù)集包括:AMC、AIME24、AIME25。 然而,研究團(tuán)隊(duì)發(fā)現(xiàn)其性能最終會(huì)崩潰,例如在最右圖中展示的 DAPO 數(shù)據(jù)集上的訓(xùn)練情況。
自我訓(xùn)練必然會(huì)崩潰
研究團(tuán)隊(duì)分析了 SRT 在具有挑戰(zhàn)性的 DAPO 數(shù)據(jù)集上訓(xùn)練時(shí)的訓(xùn)練動(dòng)態(tài)。
這些發(fā)現(xiàn)表明,模型通過產(chǎn)生一致(見上方第二個(gè)圖)但錯(cuò)誤(見上方最左圖)的答案來學(xué)習(xí)最大化自我分配的獎(jiǎng)勵(lì)。人工檢查證實(shí)了這一點(diǎn):在崩潰之后,模型的輸出會(huì)退化為隨機(jī)的詞元序列,并帶有一個(gè)固定的、與提示無關(guān)的答案(例如,「答案是 1」)。這種行為有一個(gè)簡(jiǎn)單而精確的理論依據(jù):
由 SRT 目標(biāo)定義的強(qiáng)化學(xué)習(xí)優(yōu)化問題明確鼓勵(lì)輸出之間的一致性,而不考慮其正確性。因此,在該目標(biāo)下的最優(yōu)策略會(huì)退化為無論輸入如何都產(chǎn)生相同的答案,從而人為地最大化獎(jiǎng)勵(lì)。在這種代理 (proxy) 目標(biāo)上持續(xù)進(jìn)行自我訓(xùn)練,自然會(huì)驅(qū)動(dòng)模型朝向這種平凡解 (trivial solution) 發(fā)展,特別是當(dāng)這種解比解決實(shí)際任務(wù)更簡(jiǎn)單時(shí)。
緩解策略可能是有效的
研究團(tuán)隊(duì)提出了一些策略來緩解獎(jiǎng)勵(lì)作弊 (reward hacking),為未來維持模型持續(xù)改進(jìn)的有效方法奠定基礎(chǔ)。
(i)早停(Early Stopping):一個(gè)小的驗(yàn)證集可以可靠地檢測(cè)到模型的最佳性能點(diǎn),并防止在自我訓(xùn)練過程中發(fā)生崩潰。對(duì)于所有的留出集(heldout sets),最佳性能點(diǎn)幾乎出現(xiàn)在同一位置,因此使用任何一個(gè)留出集進(jìn)行早停都是有效的。
(ii)使用離線生成的標(biāo)簽進(jìn)行自我訓(xùn)練:一種有效的方法是從一個(gè)穩(wěn)定的、先前固定的檢查點(diǎn)生成偽標(biāo)簽,而不是利用來自演進(jìn)中的策略的標(biāo)簽。這樣做可以穩(wěn)定訓(xùn)練,同時(shí)達(dá)到與 SRT 相當(dāng)?shù)男阅堋?nbsp;
(iii)結(jié)合課程學(xué)習(xí)的自我訓(xùn)練:研究團(tuán)隊(duì)假設(shè),在更具挑戰(zhàn)性的數(shù)據(jù)集上訓(xùn)練時(shí),模型崩潰會(huì)發(fā)生得更快,這一推測(cè)與研究團(tuán)隊(duì)的經(jīng)驗(yàn)性發(fā)現(xiàn)一致。其直覺是,在更具挑戰(zhàn)性的數(shù)據(jù)集上,模型更容易放棄其預(yù)訓(xùn)練知識(shí),轉(zhuǎn)而優(yōu)化自我一致性,而不是真正學(xué)習(xí)解決潛在的任務(wù)。研究團(tuán)隊(duì)利用這一假設(shè),通過根據(jù)(a)通過率和(b)多數(shù)投票的頻率來識(shí)別 DAPO 數(shù)據(jù)集中「最簡(jiǎn)單」的子集,從而實(shí)施一種課程學(xué)習(xí)策略(更多細(xì)節(jié)請(qǐng)參見論文)。
在這些課程子集上的性能達(dá)到了與在整個(gè) DAPO 數(shù)據(jù)集上使用真實(shí)標(biāo)簽進(jìn)行標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)訓(xùn)練相當(dāng)?shù)乃健_@些富有前景的結(jié)果表明,課程學(xué)習(xí)策略可能會(huì)進(jìn)一步擴(kuò)展 SRT 的益處,為未來的研究開辟了激動(dòng)人心的途徑。
MM-UPT:多模態(tài)大模型的持續(xù)自我進(jìn)化
- 論文標(biāo)題:Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO
- 論文鏈接:https://arxiv.org/abs/2505.22453
- 項(xiàng)目代碼:https://github.com/waltonfuture/MM-UPT
近年來,多模態(tài)大語言模型在視覺問答、圖文推理等任務(wù)上取得了顯著進(jìn)展。然而,要在這些強(qiáng)大的基礎(chǔ)模型之上進(jìn)一步提升性能,往往需要依賴高質(zhì)量人工標(biāo)注數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)或強(qiáng)化學(xué)習(xí),這在成本與可擴(kuò)展性上面臨嚴(yán)峻挑戰(zhàn)。過往研究雖然探索了無監(jiān)督后訓(xùn)練方法,但大多流程復(fù)雜、難以迭代、數(shù)據(jù)利用率低。
在這篇論文中,作者首次探索了在完全無監(jiān)督場(chǎng)景下,通過強(qiáng)化學(xué)習(xí)框架 GRPO 實(shí)現(xiàn)多模態(tài)大模型的持續(xù)自我改進(jìn)。他們提出了一種簡(jiǎn)潔而高效的框架:MM-UPT(Multi-Modal Unsupervised Post-Training),并在多個(gè)圖文數(shù)學(xué)推理 benchmarks 上驗(yàn)證了其有效性。
MM-UPT 的核心思想主要為以下兩個(gè)關(guān)鍵點(diǎn):
- 強(qiáng)化學(xué)習(xí)中的 GRPO 提供了穩(wěn)定高效的在線策略優(yōu)化能力;
- 多數(shù)投票可以在無標(biāo)簽數(shù)據(jù)上為模型輸出生成偽標(biāo)簽,驅(qū)動(dòng)自我優(yōu)化。
整個(gè)流程如下:
- 給定一張圖片和一個(gè)問題,模型生成多個(gè)候選回答;
- 使用多數(shù)投票選出出現(xiàn)頻率最高的回答,作為當(dāng)前輸入的「?jìng)螛?biāo)簽」;
- 使用這個(gè)「?jìng)螛?biāo)簽」來計(jì)算 reward,引導(dǎo)模型根據(jù) GRPO 策略更新;
這整個(gè)過程無需任何外部監(jiān)督信號(hào)或真實(shí)答案,使得模型可以基于自身的「共識(shí)」行為進(jìn)行強(qiáng)化學(xué)習(xí),從而實(shí)現(xiàn)持續(xù)的性能提升。
作者在四個(gè)多模態(tài)數(shù)學(xué)推理基準(zhǔn)測(cè)試集(MathVisioan、MathVista、We-Math、MathVerse)上進(jìn)行了廣泛實(shí)驗(yàn)。表格 1 的結(jié)果顯示:
- 在使用標(biāo)準(zhǔn)的訓(xùn)練集但不使用任何人工標(biāo)注答案的情況下,MM-UPT 可以使 Qwen2.5-VL-7B 的準(zhǔn)確率從 66.3% 提升至 72.9%(MathVista);
- 超過之前的無監(jiān)督自我改進(jìn)方法(如 Genixer、STIC、SRLM 等);
- 表現(xiàn)甚至媲美有監(jiān)督的 GRPO;
在標(biāo)準(zhǔn)數(shù)據(jù)集上遮蓋答案進(jìn)行無監(jiān)督訓(xùn)練后,作者進(jìn)一步探究了一個(gè)更具挑戰(zhàn)的問題:模型能否通過自己生成訓(xùn)練數(shù)據(jù)來實(shí)現(xiàn)自我提升?為此,MM-UPT 引入了兩種簡(jiǎn)單的合成數(shù)據(jù)生成策略:
In-Context Synthesizing(上下文引導(dǎo)生成)
模型在給定圖像、原問題和原答案的前提下生成一個(gè)新的問題。生成的問題與原問題在結(jié)構(gòu)上相近,相當(dāng)于進(jìn)行語義改寫或條件替換來進(jìn)行數(shù)據(jù)增強(qiáng)。
Direct Synthesizing(直接生成)
僅提供圖像輸入,模型完全基于圖片內(nèi)容生成問題。這種方法生成的問題更加多樣,但也存在一定概率的幻覺。 無論使用哪種方式生成問題,MM-UPT 都采用多數(shù)投票生成偽標(biāo)簽,驅(qū)動(dòng)模型進(jìn)行強(qiáng)化學(xué)習(xí)更新。
表格 2 中的結(jié)果顯示:即便訓(xùn)練數(shù)據(jù)完全由模型自己生成,MM-UPT 仍然能顯著提升多模態(tài)推理能力,甚至在部分任務(wù)上超越使用原始問題的數(shù)據(jù)。這表明,多模態(tài)大模型具備一定的「自我提問 + 自我優(yōu)化」的潛力,為未來依靠 AI 自行生成訓(xùn)練語料進(jìn)行自我進(jìn)化的范式提供了堅(jiān)實(shí)基礎(chǔ)。
MM-UPT 為什么有效?作者用一個(gè)簡(jiǎn)單的例子解釋了其有效性。假設(shè)模型對(duì)某個(gè)二分類問題,模型每次預(yù)測(cè)正確的概率較高,。從該模型獨(dú)立采樣
個(gè)回答
,多數(shù)投票選出出現(xiàn)頻率最高的答案作為偽標(biāo)簽。定義隨機(jī)變量
表示預(yù)測(cè)正確的次數(shù),則多數(shù)投票正確的概率為:
由于,有:
即:多數(shù)投票比單次預(yù)測(cè)更可靠。這就是 MM-UPT 中用多數(shù)投票作為偽標(biāo)簽的合理性所在 —— 它可以構(gòu)造一個(gè)有效的自監(jiān)督獎(jiǎng)勵(lì)信號(hào)。但作者也指出了邊界條件:當(dāng)模型對(duì)任務(wù)缺乏先驗(yàn)時(shí)(如在 ThinkLite-11K 這種困難的數(shù)據(jù)集上),多數(shù)投票會(huì)反而強(qiáng)化錯(cuò)誤預(yù)測(cè),導(dǎo)致性能下降。
總的來說,MM-UPT 為多模態(tài)大模型的后訓(xùn)練階段提供了一種無需人工標(biāo)注、無需外部獎(jiǎng)勵(lì)模型的自我提升方式,展現(xiàn)了強(qiáng)化學(xué)習(xí)在無監(jiān)督場(chǎng)景下的潛力。后續(xù)可以探索結(jié)合更強(qiáng)的自我評(píng)估機(jī)制(如 LLM-as-a-Judge)、復(fù)雜 reward 設(shè)計(jì)等,進(jìn)一步拓展 MM-UPT 框架的能力邊界。
UI-Genie:賦能 GUI 智能體高效自改進(jìn)的新框架
- 論文標(biāo)題:UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents
- 論文鏈接:https://arxiv.org/abs/2505.21496
- 項(xiàng)目地址:https://github.com/Euphoria16/UI-Genie
在這篇論文中,研究團(tuán)隊(duì)介紹了一種名為 UI-Genie 的自改進(jìn)框架,旨在解決 GUI 智能體中的兩大核心挑戰(zhàn):一是軌跡結(jié)果的驗(yàn)證十分困難,二是高質(zhì)量訓(xùn)練數(shù)據(jù)的規(guī)模化獲取不易。針對(duì)這兩個(gè)挑戰(zhàn),研究團(tuán)隊(duì)分別提出了一種獎(jiǎng)勵(lì)模型和一個(gè)自改進(jìn)流水線。
該獎(jiǎng)勵(lì)模型,即 UI-Genie-RM,采用了一種圖文交錯(cuò)的架構(gòu),能夠高效處理歷史上下文信息,并統(tǒng)一了動(dòng)作級(jí)別和任務(wù)級(jí)別的獎(jiǎng)勵(lì):
- 通過迭代式合成軌跡生成,消除人工標(biāo)注
- 通過自改進(jìn)循環(huán),共同演進(jìn)智能體和獎(jiǎng)勵(lì)模型
- 無需人工干預(yù)即可生成高質(zhì)量數(shù)據(jù)集
為了支持 UI-Genie-RM 的訓(xùn)練,研究團(tuán)隊(duì)開發(fā)了精心設(shè)計(jì)的數(shù)據(jù)生成策略,包括基于規(guī)則的驗(yàn)證、受控的軌跡損壞以及難負(fù)例挖掘。
為應(yīng)對(duì)第二個(gè)挑戰(zhàn),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)自改進(jìn)流水線,通過在動(dòng)態(tài)環(huán)境中進(jìn)行獎(jiǎng)勵(lì)引導(dǎo)的探索和結(jié)果驗(yàn)證,逐步增強(qiáng)智能體和獎(jiǎng)勵(lì)模型的能力,從而擴(kuò)展可解決的復(fù)雜 GUI 任務(wù)范圍。
在模型訓(xùn)練方面,研究團(tuán)隊(duì)生成了 UI-Genie-RM-517k 和 UI-Genie-Agent-16k 數(shù)據(jù)集,這不僅是首個(gè)針對(duì) GUI 智能體的獎(jiǎng)勵(lì)專用數(shù)據(jù)集,同時(shí)也展示了無需人工標(biāo)注即可生成高質(zhì)量合成軌跡的能力。
UI-Genie 數(shù)據(jù)集統(tǒng)計(jì)信息。UI-Genie-RM-517k 是首個(gè)專用于 GUI 智能體的獎(jiǎng)勵(lì)數(shù)據(jù)集,而 UI-Genie-Agent-16k 則包含了無需人工標(biāo)注的合成軌跡。
實(shí)驗(yàn)結(jié)果表明,經(jīng)過三代數(shù)據(jù)與模型的自改進(jìn)迭代,UI-Genie 在多個(gè) GUI 智能體基準(zhǔn)測(cè)試中均達(dá)到了業(yè)界領(lǐng)先水平。研究團(tuán)隊(duì)已將完整的框架實(shí)現(xiàn)和生成的數(shù)據(jù)集開源,以促進(jìn)該領(lǐng)域的進(jìn)一步研究。
UI-Genie、Qwen2.5-VL 和 UI-TARS 在三個(gè)基準(zhǔn)上的性能比較。
關(guān)于模型自我改進(jìn)的論文還有很多,如果你也在做相關(guān)研究,歡迎在評(píng)論區(qū)留言推薦自己的工作。