【PaperDaily】谷歌推出AlphaGeometry2，超過金牌選手，稱霸IMO

發(fā)布于 2025-2-10 12:03

瀏覽

0收藏

1. Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2

【PaperDaily】谷歌推出AlphaGeometry2，超過金牌選手，稱霸IMO-AI.x社區(qū)

我們推出了 AlphaGeometry2，這是對 Trinh 等人在 2024 年提出的 AlphaGeometry 的重大改進(jìn)版本，如今它在解決奧林匹克幾何問題方面的能力已經(jīng)超過了普通金牌得主。為了實現(xiàn)這一突破，我們首先對原有的 AlphaGeometry 語言進(jìn)行了擴(kuò)展，使其能夠處理涉及物體運動的更難題型，以及包含角度、比例和距離的線性方程的問題。這些改進(jìn)以及其他新增內(nèi)容，顯著提高了 AlphaGeometry 語言對 2000 - 2024 年國際數(shù)學(xué)奧林匹克（IMO）幾何題的覆蓋率，從 66% 提升到了 88% 。。

AlphaGeometry2 的搜索過程也有了極大改進(jìn)，我們采用了 Gemini 架構(gòu)以實現(xiàn)更優(yōu)的語言建模，還運用了一種將多個搜索樹結(jié)合起來的全新知識共享機(jī)制。再加上對符號引擎和合成數(shù)據(jù)生成的進(jìn)一步優(yōu)化，我們大幅提升了 AlphaGeometry2 的整體解題率，在過去 25 年的所有幾何問題上，解題率從之前的 54% 提升到了 84%。AlphaGeometry2 還是在 2024 年國際數(shù)學(xué)奧林匹克中達(dá)到銀牌水平的系統(tǒng)的一部分，詳情見https://dpmd.ai/imo-silver 。

論文: ??https://arxiv.org/pdf/2502.03544??

2. ChartCitor: Multi-Agent Framework for Fine-Grained Chart Visual Attribution

【PaperDaily】谷歌推出AlphaGeometry2，超過金牌選手，稱霸IMO-AI.x社區(qū)

大語言模型（LLMs）能夠執(zhí)行圖表問答任務(wù)，但常常會生成未經(jīng)核實的虛假回復(fù)。由于視覺語義上下文有限、復(fù)雜的視覺 - 文本對齊要求，以及在復(fù)雜布局中進(jìn)行邊界框預(yù)測存在困難，現(xiàn)有的答案歸因方法難以將回復(fù)與源圖表建立關(guān)聯(lián)。

我們推出了 ChartCitor，這是一個多智能體框架，它通過識別圖表圖像中的支撐證據(jù)，提供細(xì)粒度的邊界框引用。該系統(tǒng)協(xié)調(diào)大語言模型智能體執(zhí)行從圖表到表格的提取、答案重新組織、表格擴(kuò)充、通過預(yù)過濾和重排序進(jìn)行證據(jù)檢索，以及從表格到圖表的映射。

在不同類型的圖表中，ChartCitor 的表現(xiàn)均優(yōu)于現(xiàn)有的基線模型。定性用戶研究表明，ChartCitor 通過增強大語言模型輔助圖表問答的可解釋性，有助于提升用戶對生成式人工智能的信任，還能讓專業(yè)人士提高工作效率。

論文: ??https://arxiv.org/pdf/2502.00989??

3. Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression

【PaperDaily】谷歌推出AlphaGeometry2，超過金牌選手，稱霸IMO-AI.x社區(qū)

我們提出了異構(gòu)掩碼自回歸（HMA）方法，用于對動作視頻動態(tài)進(jìn)行建模，以生成高質(zhì)量數(shù)據(jù)，并在拓展機(jī)器人學(xué)習(xí)中開展評估工作。由于既要應(yīng)對各種不同場景，又要保持計算效率以實現(xiàn)實時運行，因此構(gòu)建適用于機(jī)器人技術(shù)的交互式視頻世界模型和策略頗具挑戰(zhàn)。

HMA 利用來自不同機(jī)器人實體、領(lǐng)域及任務(wù)中的觀測數(shù)據(jù)和動作序列，進(jìn)行異構(gòu)預(yù)訓(xùn)練。它借助掩碼自回歸生成量化或軟令牌，以實現(xiàn)視頻預(yù)測。與以往的機(jī)器人視頻生成模型相比，我們的模型（HMA）視覺保真度和可控性更佳，在現(xiàn)實世界中的運行速度更是快了 15 倍。經(jīng)過后期訓(xùn)練，該模型可用作視頻模擬器，接受低層級動作輸入，以評估策略并生成合成數(shù)據(jù)。如需更多信息，請訪問此鏈接：https://liruiw.github.io/hma 。

論文: ??https://arxiv.org/pdf/2502.04296??

4. Enhancing Code Generation for Low-Resource Languages: No Silver Bullet

【PaperDaily】谷歌推出AlphaGeometry2，超過金牌選手，稱霸IMO-AI.x社區(qū)

大語言模型（LLMs）的出現(xiàn)極大地推動了自動化代碼生成領(lǐng)域的發(fā)展。大語言模型依賴大量多樣的數(shù)據(jù)集來學(xué)習(xí)編程語言的語法、語義及使用模式。對于低資源語言（即那些因訓(xùn)練數(shù)據(jù)稀缺而小眾的編程語言）而言，此類數(shù)據(jù)的有限可用性限制了模型的有效泛化能力，導(dǎo)致其代碼生成性能相較于高資源語言要差。因此，人們一直在探尋能夠縮小這一性能差距的技術(shù)。

我們開展了一項實證研究，探究幾種提升大語言模型在低資源語言上性能的方法的有效性，具體如下：（i）經(jīng)典的微調(diào)方法，但由于訓(xùn)練數(shù)據(jù)稀缺，其規(guī)模受限；（ii）三種上下文學(xué)習(xí)變體，通過精心設(shè)計提示，為大語言模型提供關(guān)于低資源語言的額外信息（例如，展示目標(biāo)語言特性的少樣本示例）；（iii）一種預(yù)訓(xùn)練目標(biāo)，教會模型如何在高資源語言和低資源語言之間進(jìn)行翻譯。

我們的研究以兩種低資源語言（R 語言和 Racket 語言）以及六種不同架構(gòu)和規(guī)模的大語言模型為背景。研究結(jié)果表明，對于規(guī)模較小的大語言模型，微調(diào)通常是最佳選擇，這可能是因為即使是少量數(shù)據(jù)集也足以訓(xùn)練其有限數(shù)量的參數(shù)。隨著模型規(guī)模的增大，上下文學(xué)習(xí)變得越來越有效，是一種穩(wěn)妥且成本較低的策略（即它總能起到一定作用，只是程度有所不同）。然而，對于超大規(guī)模的大語言模型，進(jìn)行微調(diào)時，它們在低資源語言上的性能可能會下降，這可能是由于缺乏足夠的數(shù)據(jù)來有效更新其權(quán)重。

論文: ???https://arxiv.org/pdf/2501.19085??

本文轉(zhuǎn)載自 ??AI-PaperDaily??，作者： AI-PaperDaily

標(biāo)簽

谷歌

LLMs

R 語言

已于2025-2-10 12:05:23修改

贊

回復(fù)