成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型也需要自我反思,上海AI Lab合成“錯(cuò)題本”讓大模型數(shù)學(xué)成績提升13.3%

人工智能
作者通過深入分析模型犯下的錯(cuò)誤,構(gòu)建了“錯(cuò)誤-糾正”數(shù)據(jù)集,并利用反思機(jī)制,引導(dǎo)模型從錯(cuò)誤的思路平滑過渡到正確的答案。結(jié)果,模型不僅獲得了準(zhǔn)確率的提升,還獲得了超強(qiáng)的自主糾錯(cuò)能力和泛化能力。

大模型學(xué)習(xí)不僅要正確知識(shí),還需要一個(gè)“錯(cuò)題本”?

上海AI Lab提出了一種新的學(xué)習(xí)方式,構(gòu)建了“錯(cuò)誤-反思-修正”數(shù)據(jù),讓大模型仿照人類的學(xué)習(xí)模式,從錯(cuò)誤中學(xué)習(xí)、反思。

結(jié)果,在Llama3-8B上,數(shù)學(xué)題的解題準(zhǔn)確率平均提升了13.3%。

圖片圖片

這種方法名為LEMMA(Learning from Errors for Mathematical Advancement),專門教大模型如何從錯(cuò)誤中學(xué)習(xí)。

作者通過深入分析模型犯下的錯(cuò)誤,構(gòu)建了“錯(cuò)誤-糾正”數(shù)據(jù)集,并利用反思機(jī)制,引導(dǎo)模型從錯(cuò)誤的思路平滑過渡到正確的答案。

結(jié)果,模型不僅獲得了準(zhǔn)確率的提升,還獲得了超強(qiáng)的自主糾錯(cuò)能力和泛化能力。

相關(guān)論文已發(fā)表于ACL’25 Findings。

圖片圖片

用教師模型生成“錯(cuò)題本”

作者首先系統(tǒng)分析了當(dāng)前主流大模型在數(shù)學(xué)題中常見的七大類錯(cuò)誤(如題意誤解、公式混淆、計(jì)算失誤等),發(fā)現(xiàn)這些錯(cuò)誤在不同模型之間分布非常一致。

結(jié)果顯示,大模型犯下最多的錯(cuò)誤是誤解題意,占比超過40%,隨后的兩張常見錯(cuò)誤類型是公式混淆和計(jì)算錯(cuò)誤。

圖片圖片

了解了模型都會(huì)犯哪些錯(cuò)誤,接下來就可以有針對(duì)性地生成數(shù)據(jù)了。

過去,整個(gè)過程往往通過提高采樣Temperature(如T=1.0或T=1.1)來完成。

但作者發(fā)現(xiàn)高Temperature采樣會(huì)引入大量無意義的(如語義不通、毫無邏輯)錯(cuò)誤,這種錯(cuò)誤實(shí)際上是模型不會(huì)犯的。

作者認(rèn)為,這種“已讀亂回”式的錯(cuò)誤,難以讓模型真正提升自我糾錯(cuò)能力。

圖片圖片

為此,LEMMA采用了新的方法,讓教師模型定向制造“學(xué)生會(huì)犯的錯(cuò)”,構(gòu)造“反思式”數(shù)據(jù):

具體來說,LEMMA提出了一種全新的反思數(shù)據(jù)構(gòu)造策略,主要包括三個(gè)環(huán)節(jié):

  • 首先,分析學(xué)生模型常犯哪些錯(cuò)(如題意誤解、公式誤用、計(jì)算失誤);
  • 然后讓強(qiáng)大的教師模型(GPT-4o),根據(jù)學(xué)生模型在每個(gè)問題上的錯(cuò)誤類型,有針對(duì)性地故意引入特定錯(cuò)誤;
  • 之后,教師模型還會(huì)標(biāo)出第一個(gè)錯(cuò)誤發(fā)生的步驟,并生成反思和改正,確保模型學(xué)會(huì)“及時(shí)反思”。

在反思和改正階段:LEMMA采用了兩種更貼近人類思維的糾錯(cuò)方式——一是返回上一步,二是直接推倒重來。

引入第二種修正方式的原因在于,作者發(fā)現(xiàn)大模型在有的題目上出錯(cuò)的根本原因,是一開始就選擇了低效的暴力解法,這樣即使修正了某個(gè)中間的錯(cuò)誤步驟,也會(huì)在后續(xù)的推理中犯錯(cuò),不如從頭開始選擇更“聰明”的解法。

總的來說,LEMMA構(gòu)建的是“有目標(biāo)、有指導(dǎo)、有反饋”的錯(cuò)誤數(shù)據(jù),讓模型能像學(xué)生一樣反思:“我錯(cuò)在哪?應(yīng)該怎么改?”

圖片圖片

實(shí)驗(yàn)結(jié)果

對(duì)比多種主流反思修正方法,優(yōu)勢(shì)明顯。

作者對(duì)比了包括RefAug、RFT,ISC、S3C-Math在內(nèi)的八種主流baseline方法。

結(jié)果表明,LEMMA在常見的數(shù)學(xué)任務(wù)上正確率更高,在Llama3-8B上準(zhǔn)確率提升了最高達(dá)13.3%。

圖片圖片

并且,LEMMA有效提升了模型的反思和自我修正能力。

在MathChat任務(wù)中,LEMMA在“追問回答”和“錯(cuò)誤修正”兩大任務(wù)上領(lǐng)先SOTA方法(Dart-MATH)多達(dá)6.3和4.1個(gè)百分點(diǎn)。

圖片圖片

同時(shí),LEMMA也顯著減少了模型的常見錯(cuò)誤。

在生成的數(shù)據(jù)上進(jìn)行微調(diào)之后,LEMMA一致地降低了各種錯(cuò)誤類型,提升模型推理精度。

相比之下,SFT雖然整體準(zhǔn)確率提升,但卻在某些錯(cuò)誤類型(如公式混淆)上反而變差。

圖片圖片

另外,作者進(jìn)行的消融實(shí)驗(yàn)也充分驗(yàn)證了“教師模型錯(cuò)誤引入(Error Aug.)”和“從頭修正(Fresh & Restart)”兩個(gè)關(guān)鍵模塊的有效性。

圖片圖片

總之,LEMMA提出了一種讓大模型在數(shù)學(xué)推理中“從錯(cuò)誤中有效學(xué)習(xí)”的創(chuàng)新方法,提升了模型對(duì)推理錯(cuò)誤的識(shí)別與修復(fù)能力。

相比以往依賴高Temperature采樣和簡單拼接的反思數(shù)據(jù)合成方式,LEMMA 顯著提高了“錯(cuò)誤-反思-修正”數(shù)據(jù)的質(zhì)量,提升了模型的數(shù)學(xué)推理能力。

論文地址:
https://arxiv.org/abs/2503.17439
代碼倉庫:
https://github.com/pzs19/LEMMA


責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2025-01-23 09:15:00

數(shù)據(jù)技術(shù)模型

2024-08-26 08:30:00

谷歌代碼

2025-04-08 00:40:00

谷歌合成數(shù)據(jù)大模型

2024-10-25 14:30:00

模型AI

2025-06-24 08:50:00

模型數(shù)據(jù)AI

2024-12-19 09:00:00

模型數(shù)學(xué)訓(xùn)練

2024-05-09 08:33:33

2024-07-01 20:45:55

2024-12-25 08:02:17

人工智能AI運(yùn)維

2024-08-27 00:00:01

AI應(yīng)用框架

2024-06-17 18:04:38

2023-09-14 12:35:59

2023-05-10 14:40:40

AI模型算力

2023-11-03 07:47:12

機(jī)器資源大模型:

2025-04-25 09:20:00

數(shù)據(jù)模型AI

2023-08-03 10:59:49

人工智能

2024-06-19 16:11:22

2024-06-11 12:38:12

2025-04-22 08:08:37

2025-06-18 11:16:50

大模型性能KV-Cache
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 男女免费观看在线爽爽爽视频 | 日中文字幕在线 | 成人av一区二区三区 | 色成人免费网站 | 免费三级网| 久久手机在线视频 | 日本黄色一级视频 | 久一精品| 国产精品一区二区无线 | 妖精视频一区二区三区 | www.日本精品| 中文字幕av一区二区三区 | 国际精品久久 | 久久久久久九九九九 | 51ⅴ精品国产91久久久久久 | 精品综合久久久 | 成人av观看 | 精品免费国产视频 | 中文字幕在线看人 | 伦理午夜电影免费观看 | 婷婷综合网 | 黄网免费| 2022精品国偷自产免费观看 | 欧美456 | 欧美一区二区三区在线播放 | 亚洲欧美一区二区三区国产精品 | 色吧综合| 欧美性一级 | 久久夜视频 | 免费在线看黄视频 | 国产亚洲精品久久久久久牛牛 | 亚洲视频在线免费观看 | 成人国产在线观看 | 成人免费观看男女羞羞视频 | 一级毛片在线看 | 日韩视频 中文字幕 | 香蕉一区 | 伊人伊人伊人 | 亚洲国产精品人人爽夜夜爽 | 日韩在线视频免费观看 | 国产精品视频在线播放 |