成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

奧賽冠軍都做不對的題,卻被拿來考ML模型?GPT-3:我不行

新聞 人工智能
為了衡量機器學習模型的數學求解能力,來自 UC 伯克利和芝加哥大學的研究者提出了一個包含 12, 500 道數學競賽難題的新型數據集 MATH,以及幫助模型學習數學基礎知識的預訓練數據集 AMPS。

  為了衡量機器學習模型的數學求解能力,來自 UC 伯克利和芝加哥大學的研究者提出了一個包含 12, 500 道數學競賽難題的新型數據集 MATH,以及幫助模型學習數學基礎知識的預訓練數據集 AMPS。研究發現,即使是大參數的 Transformer 模型準確率也很低。

許多學術研究探討數學問題求解,但對于計算機而言這超出了其能力范疇。那么機器學習模型是否具備數學問題求解能力呢?

來自加州大學伯克利分校和芝加哥大學的研究者為此創建了一個新型數據集 MATH。該數據集包含 12, 500 道數學競賽難題,每個數學題都有完整的逐步求解過程,可用來教機器學習模型生成答案和解釋。為了促進未來研究,提升模型在 MATH 數據集上的準確率,研究者還創建了另一個大型輔助預訓練數據集,它可以教模型數學基礎知識。

盡管通過這些方法提升了模型在 MATH 數據集上的準確率,但實驗結果表明,準確率仍然很低,即使 Transformer 模型也不例外。研究者還發現,僅靠增加預算和模型參數量并不能實現強大的數學推理能力。擴展 Transformer 能夠自動解決大多數文本任務,但目前仍無法解決 MATH 問題。

該研究第一作者 Dan Hendrycks 發推表示:

國際數學奧林匹克競賽(IMO)三金得主能達到 90% 的準確率,而 GPT-3 的準確率只能達到約 5%。

如果這一趨勢持續下去,那么機器學習模型距離獲得數學推理能力還很遙遠。

奧賽冠軍都做不對的題,卻被拿來考ML模型?GPT-3:我不行

數據集

這部分介紹兩個新型數據集,一個是用于測試模型數學問題求解能力的 MATH 數據集,另一個是用于輔助預訓練的 AMPS 數據集。

MATH 數據集

MATH 數據集包含 12, 500 個數學問題(其中 7500 個屬于訓練集,5000 個屬于測試集),這些問題收集自 AMC 10、AMC 12、AIME 等數學競賽(這些數學競賽已經持續數十年,旨在評估美國最優秀的年輕數學人才的數學問題求解能力)。與大多數之前的研究不同,MATH 數據集中的大部分問題無法通過直接應用標準 K-12 數學工具來解決,人類解決這類問題通常需要用到問題求解技術和「啟發式」方法。

基于這些數學問題,模型可以學習多種有用的問題求解啟發式方法,且每個問題都有逐步求解過程和最終答案。具備逐步求解過程的問題示例參見下圖 1:

奧賽冠軍都做不對的題,卻被拿來考ML模型?GPT-3:我不行

該數據集的創建涉及以下重要步驟:

問題分類:該數據集中的問題難度不同,并涉及多個主題,包括算術、代數、數論、計數與概率、幾何、中級代數、預備微積分。研究者按照對人類而言從易到難的程度將問題難度等級標注為 1-5。

格式化:使用 LATEX 和 Asymptote 矢量圖語言將數學問題及其解進行統一格式化。

自動評估生成的答案:MATH 數據集的獨特設計使得研究者可以自動評估模型生成的答案,即使模型輸出空間非常大。

人類性能:為了估計人類性能,研究者從 MATH 測試集中隨機采樣了 20 個問題,交由高校學生回答。一位不喜歡數學的參與者答對了 8 道題(準確率 40%),兩位喜歡數學的參與者分別答對了 14 題和 15 題,一位在 AMC 10 數學競賽中拿到滿分并多次參加 USAMO 競賽的參與者答對了 18 道題,一位 IMO 三金得主也答對了 18 道題(準確率 90%)。這說明 MATH 數據集中的數學問題對于人類而言也是有一定難度的。

AMPS 數據集(可汗學院 + Mathematica)

預訓練數據會對性能產生極大影響,而數學是在線文本的一小部分,于是該研究創建了一個大型多樣化的數學預訓練語料庫。該預訓練數據集 Auxiliary Mathematics Problems and Solutions (AMPS) 包括許多問題及 LATEX 格式的逐步求解過程。

AMPS 數據集包含 10 萬個收集自可汗學院的數學問題,和約 500 萬通過手動設計 Mathematica 腳本生成的問題。該研究使用 Mathematica 的計算機代數系統生成數學問題,是為了便于操作分數、超越數和解析函數。

這些問題涉及多個主題,包括代數、微積分、計數與統計、幾何、線性代數,以及數論(參見下表 1)。

奧賽冠軍都做不對的題,卻被拿來考ML模型?GPT-3:我不行

實驗

模型性能

研究者通過實驗調查了模型在 MATH 數據集上的性能,發現即使最優模型的準確率也很低。此外,與大多數基于文本的數據集不同,該數據集上的準確率增速隨著模型規模的擴大而越來越慢。如果這一趨勢繼續,則要想在 MATH 數據集上取得較大進展,我們需要的不只是模型擴展,而是算法改進。

下表 2 表明,最小模型 GPT-2(0.1 billion 參數量,基線模型)在 MATH 數據集多個主題上的平均準確率為 5.4%,而 GPT-2(1.5 billion 參數量,參數量是基線模型的 15 倍)的平均準確率為 6.9%,相比基線提升了 28%。這表明與大部分其它基于文本的任務不同,在 MATH 數據集上增加模型參數確實有所幫助,但模型的絕對準確率仍然很低,且增速緩慢。

奧賽冠軍都做不對的題,卻被拿來考ML模型?GPT-3:我不行

此外,研究者測試了使用 AMPS 預訓練的效果。未經 AMPS 預訓練時,GPT-2 (1.5B) 模型在 MATH 數據集上的準確率為 5.5%;而經過 AMPS 預訓練后,GPT-2 (1.5B) 在 MATH 數據集上的準確率為 6.9%(參見表 2),準確率提升了 25%。也就是說,AMPS 預訓練對準確率的提升效果相當于參數量 15 倍增加的效果,這表明 AMPS 預訓練數據集是有價值的。

逐步求解

研究者對逐步求解過程進行了實驗,發現模型在得到答案前先生成逐步求解過程會導致準確率下降。研究者利用 GPT-2 (1.5B) 進行評估,發現模型性能有所下降,從 6.9% 下降到了 5.3%。

研究者還對這些生成的逐步求解過程進行了定性評估,發現盡管很多步驟看似與問題相關,但其實存在邏輯問題。示例參見下圖 3、4:

奧賽冠軍都做不對的題,卻被拿來考ML模型?GPT-3:我不行

圖 3:問題、GPT-2 (1.5B) 模型生成的逐步解、真值解。

奧賽冠軍都做不對的題,卻被拿來考ML模型?GPT-3:我不行

圖 4:問題、生成解和真值解示例。

不過,研究人員發現逐步求解仍能帶來一定好處:提供部分真值逐步求解過程可以提升性能,在訓練過程中為模型提供逐步求解過程可以提升準確率。下圖 6 展示了 GPT-2 (0.7B) 模型使用不同部分求解過程的準確率變化。

奧賽冠軍都做不對的題,卻被拿來考ML模型?GPT-3:我不行

 

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2022-05-26 05:37:00

人工智能機器學習AI

2021-03-23 15:21:00

人工智能機器學習技術

2022-03-24 10:35:38

人工智能模型代碼

2023-04-07 09:53:02

量子AI

2021-07-19 10:56:36

GPE-3OpenAI微軟

2023-03-01 16:15:16

2023-06-08 15:33:31

人工智能GPT-3

2023-02-14 08:00:00

人工智能GPT-3語言模型

2021-08-12 16:27:04

模型人工智能深度學習

2022-03-30 15:20:19

AI自然語言模型

2020-09-02 10:10:37

AI 數據人工智能

2020-08-03 10:32:46

AI 數據人工智能

2021-10-28 09:19:29

模型人工智能Facebook

2021-12-10 15:46:18

谷歌模型人工智能

2022-11-21 09:34:33

AI模型

2022-05-05 09:00:00

AI模型數據

2020-08-21 13:22:12

GPT-3AI機器

2023-12-04 13:38:55

模型3D可視化

2023-03-20 10:19:25

ChatGPT數學

2021-07-13 17:38:49

算法語言模型GPT-4
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品日韩欧美一区二区三区 | 国产丝袜一区二区三区免费视频 | av中文字幕网 | av天天干| www.天天操 | 久久这里有精品 | 亚洲一卡二卡 | 天天看天天操 | 久久久婷 | 天天操天天干天天爽 | 久久中文免费视频 | 亚洲成人免费在线观看 | 天天色官网| 精品欧美视频 | 中文字幕亚洲一区二区三区 | www精品美女久久久tv | 国产亚洲精品一区二区三区 | 国产乱码久久久久久一区二区 | 中文字幕第一页在线 | 日韩欧美中文在线 | 亚洲第一黄色网 | 亚洲国产高清高潮精品美女 | 午夜视频在线观看视频 | 成人国产在线视频 | 亚洲一区二区三区视频 | 免费黄色大片 | 91福利在线导航 | 中文字幕国产 | 中文字幕av一区二区三区 | 国内精品视频免费观看 | 日本手机看片 | 2021天天干夜夜爽 | 在线免费观看黄色 | 中国人pornoxxx麻豆 | 成人在线视频网 | 日韩成人免费视频 | 欧美一区二区三区在线播放 | 麻豆国产精品777777在线 | 国产aa | 日韩高清国产一区在线 | 99精品欧美一区二区三区 |