成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

【PaperDaily】谷歌推出AlphaGeometry2,超過金牌選手,稱霸IMO

發(fā)布于 2025-2-10 12:03
瀏覽
0收藏

1. Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2

【PaperDaily】谷歌推出AlphaGeometry2,超過金牌選手,稱霸IMO-AI.x社區(qū)

我們推出了 AlphaGeometry2,這是對 Trinh 等人在 2024 年提出的 AlphaGeometry 的重大改進(jìn)版本,如今它在解決奧林匹克幾何問題方面的能力已經(jīng)超過了普通金牌得主。為了實現(xiàn)這一突破,我們首先對原有的 AlphaGeometry 語言進(jìn)行了擴(kuò)展,使其能夠處理涉及物體運動的更難題型,以及包含角度、比例和距離的線性方程的問題。這些改進(jìn)以及其他新增內(nèi)容,顯著提高了 AlphaGeometry 語言對 2000 - 2024 年國際數(shù)學(xué)奧林匹克(IMO)幾何題的覆蓋率,從 66% 提升到了 88% 。 。

AlphaGeometry2 的搜索過程也有了極大改進(jìn),我們采用了 Gemini 架構(gòu)以實現(xiàn)更優(yōu)的語言建模,還運用了一種將多個搜索樹結(jié)合起來的全新知識共享機(jī)制。再加上對符號引擎和合成數(shù)據(jù)生成的進(jìn)一步優(yōu)化,我們大幅提升了 AlphaGeometry2 的整體解題率,在過去 25 年的所有幾何問題上,解題率從之前的 54% 提升到了 84%。AlphaGeometry2 還是在 2024 年國際數(shù)學(xué)奧林匹克中達(dá)到銀牌水平的系統(tǒng)的一部分,詳情見https://dpmd.ai/imo-silver 。

論文: ??https://arxiv.org/pdf/2502.03544??

2. ChartCitor: Multi-Agent Framework for Fine-Grained Chart Visual Attribution

【PaperDaily】谷歌推出AlphaGeometry2,超過金牌選手,稱霸IMO-AI.x社區(qū)

大語言模型(LLMs)能夠執(zhí)行圖表問答任務(wù),但常常會生成未經(jīng)核實的虛假回復(fù)。由于視覺語義上下文有限、復(fù)雜的視覺 - 文本對齊要求,以及在復(fù)雜布局中進(jìn)行邊界框預(yù)測存在困難,現(xiàn)有的答案歸因方法難以將回復(fù)與源圖表建立關(guān)聯(lián)。

我們推出了 ChartCitor,這是一個多智能體框架,它通過識別圖表圖像中的支撐證據(jù),提供細(xì)粒度的邊界框引用。該系統(tǒng)協(xié)調(diào)大語言模型智能體執(zhí)行從圖表到表格的提取、答案重新組織、表格擴(kuò)充、通過預(yù)過濾和重排序進(jìn)行證據(jù)檢索,以及從表格到圖表的映射。

在不同類型的圖表中,ChartCitor 的表現(xiàn)均優(yōu)于現(xiàn)有的基線模型。定性用戶研究表明,ChartCitor 通過增強大語言模型輔助圖表問答的可解釋性,有助于提升用戶對生成式人工智能的信任,還能讓專業(yè)人士提高工作效率。

論文: ??https://arxiv.org/pdf/2502.00989??

3. Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression

【PaperDaily】谷歌推出AlphaGeometry2,超過金牌選手,稱霸IMO-AI.x社區(qū)

我們提出了異構(gòu)掩碼自回歸(HMA)方法,用于對動作視頻動態(tài)進(jìn)行建模,以生成高質(zhì)量數(shù)據(jù),并在拓展機(jī)器人學(xué)習(xí)中開展評估工作。由于既要應(yīng)對各種不同場景,又要保持計算效率以實現(xiàn)實時運行,因此構(gòu)建適用于機(jī)器人技術(shù)的交互式視頻世界模型和策略頗具挑戰(zhàn)。

HMA 利用來自不同機(jī)器人實體、領(lǐng)域及任務(wù)中的觀測數(shù)據(jù)和動作序列,進(jìn)行異構(gòu)預(yù)訓(xùn)練。它借助掩碼自回歸生成量化或軟令牌,以實現(xiàn)視頻預(yù)測。與以往的機(jī)器人視頻生成模型相比,我們的模型(HMA)視覺保真度和可控性更佳,在現(xiàn)實世界中的運行速度更是快了 15 倍。經(jīng)過后期訓(xùn)練,該模型可用作視頻模擬器,接受低層級動作輸入,以評估策略并生成合成數(shù)據(jù)。如需更多信息,請訪問此鏈接:https://liruiw.github.io/hma 。

論文: ??https://arxiv.org/pdf/2502.04296??

4. Enhancing Code Generation for Low-Resource Languages: No Silver Bullet

【PaperDaily】谷歌推出AlphaGeometry2,超過金牌選手,稱霸IMO-AI.x社區(qū)

大語言模型(LLMs)的出現(xiàn)極大地推動了自動化代碼生成領(lǐng)域的發(fā)展。大語言模型依賴大量多樣的數(shù)據(jù)集來學(xué)習(xí)編程語言的語法、語義及使用模式。對于低資源語言(即那些因訓(xùn)練數(shù)據(jù)稀缺而小眾的編程語言)而言,此類數(shù)據(jù)的有限可用性限制了模型的有效泛化能力,導(dǎo)致其代碼生成性能相較于高資源語言要差。因此,人們一直在探尋能夠縮小這一性能差距的技術(shù)。

我們開展了一項實證研究,探究幾種提升大語言模型在低資源語言上性能的方法的有效性,具體如下:(i)經(jīng)典的微調(diào)方法,但由于訓(xùn)練數(shù)據(jù)稀缺,其規(guī)模受限;(ii)三種上下文學(xué)習(xí)變體,通過精心設(shè)計提示,為大語言模型提供關(guān)于低資源語言的額外信息(例如,展示目標(biāo)語言特性的少樣本示例);(iii)一種預(yù)訓(xùn)練目標(biāo),教會模型如何在高資源語言和低資源語言之間進(jìn)行翻譯。

我們的研究以兩種低資源語言(R 語言和 Racket 語言)以及六種不同架構(gòu)和規(guī)模的大語言模型為背景。研究結(jié)果表明,對于規(guī)模較小的大語言模型,微調(diào)通常是最佳選擇,這可能是因為即使是少量數(shù)據(jù)集也足以訓(xùn)練其有限數(shù)量的參數(shù)。隨著模型規(guī)模的增大,上下文學(xué)習(xí)變得越來越有效,是一種穩(wěn)妥且成本較低的策略(即它總能起到一定作用,只是程度有所不同)。然而,對于超大規(guī)模的大語言模型,進(jìn)行微調(diào)時,它們在低資源語言上的性能可能會下降,這可能是由于缺乏足夠的數(shù)據(jù)來有效更新其權(quán)重。

論文: ???https://arxiv.org/pdf/2501.19085??

本文轉(zhuǎn)載自 ??AI-PaperDaily??,作者: AI-PaperDaily


標(biāo)簽
已于2025-2-10 12:05:23修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 亚洲一区二区欧美 | 欧美亚洲成人网 | 成人综合视频在线 | 久久精品亚洲精品 | 日韩网| 国产在线观看 | av网站免费 | 国产黑丝av | 久久在线免费 | 国产成人啪免费观看软件 | 黄色成人在线 | 91在线免费观看网站 | 最新日韩在线视频 | 亚洲 欧美 日韩在线 | 九一在线 | 日韩在线视频一区 | 蜜臀网 | 欧美精品在线一区二区三区 | 亚洲午夜在线 | 久久婷婷国产麻豆91 | 国产色婷婷精品综合在线手机播放 | 日韩伦理一区二区 | 在线观看成人免费视频 | 一区二区三区成人 | 盗摄精品av一区二区三区 | 九色视频网站 | 国产精品久久久久久久久 | 正在播放国产精品 | 中文字幕在线观看一区二区 | 国产不卡视频在线 | 国产欧美日韩一区二区三区 | 久久av网站 | 亚洲成人自拍 | 99视频免费在线 | 欧美视频1区| 91精品国产91久久久久久最新 | 超碰美女在线 | 免费视频一区二区 | 2022精品国偷自产免费观看 | 国产黄视频在线播放 | 欧美激情一区 |