成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

MIT發(fā)布加強版「高數(shù)」求解器:7門課程正確率達81%

人工智能
最近MIT的研究人員宣布他們基于OpenAI Codex預訓練模型,在本科生級別的數(shù)學問題上通過few-shot learning成功達到81%的正確率!

?不光玩小學數(shù)學應用題,AI已經(jīng)開始攻克高數(shù)了! 

最近MIT的研究人員宣布他們基于OpenAI Codex預訓練模型,在本科生級別的數(shù)學問題上通過few-shot learning成功達到81%的正確率! 

圖片

  • 論文鏈接:https://arxiv.org/abs/2112.15594
  • 代碼鏈接:https://github.com/idrori/mathq 

先來幾個小問題看看答案,比如計算單變量函數(shù)的圖形繞軸旋轉(zhuǎn)產(chǎn)生的體積、計算洛倫茨吸引子及投影、計算和描繪奇異值分解(SVD)的幾何形狀,不光能正確解答,還能給出對應的解釋! 

圖片

確實是逆了天了,憶往昔,高數(shù)及格都是飄過,如今AI一出手就能拿81分,我單方面宣布AI已經(jīng)超越人類了。 

更牛的是,除了能解決普通機器學習模型難以解決的問題外,這項研究還表明該技術(shù)可以大規(guī)模推廣,可以解決所屬課程及類似的課程問題。 

這也是歷史上首次,單個機器學習模型能夠解決如此大規(guī)模的數(shù)學問題,而且還能對問題的解答過程進行解釋、繪圖,甚至還能生成新問題!

實際上這篇論文早在年初就發(fā)布出來了,經(jīng)過半年的修改后,從114頁的篇幅增加到181頁,能解決的數(shù)學問題更多了,附錄的編號從A-Z直接拉滿。 

圖片

文章的作者單位主要有四個,分別為麻省理工學院、哥倫比亞大學、哈佛大學和滑鐵盧大學。

第一作者Iddo Drori是MIT的電氣工程與計算機科學系A(chǔ)I部門講師、哥倫比亞大學工程和應用科學學院的兼任副教授。曾獲得CCAI NeurIPS 2021最佳論文獎。 

圖片

 他的主要研究方向為教育機器學習,即試圖讓機器解決,解釋和生成大學級數(shù)學和STEM課程;氣候科學的機器學習,即根據(jù)數(shù)千年的數(shù)據(jù)預測極端氣候變化并監(jiān)測氣候,融合多學科的工作來預測大西洋多年來海洋生物地球化學的變化;自動駕駛的機器學習算法等。 

他也是劍橋大學出版社出版的The Science of Deep Learning的作者。 

高等教育里程碑

 在這篇論文之前,大部分研究人員都認為神經(jīng)網(wǎng)絡(luò)無法處理高數(shù)問題,只能解決一些簡單的數(shù)學題。 

即便Transformer模型在各種各樣的NLP任務中超越人類的性能,在解決數(shù)學問題上仍然沒有不行,主要原因還是因為各種大模型如GPT-3都是只在文本數(shù)據(jù)上進行預訓練。 

后來有研究人員發(fā)現(xiàn),以逐步解析的方式(chain of thoughts)還是可以引導語言模型來推理回答一些簡單的數(shù)學問題,但高等數(shù)學問題就沒這么容易解決了。 

圖片

當目標瞄準為高數(shù)問題后,首先就得搜集一波訓練數(shù)據(jù)。 

作者從麻省理工學院的七門課程中各隨機抽出25個問題,包括:

  • 18.01單變量微積分
  • 18.02多變量微積分
  • 18.03微分方程
  • 18.05概率和統(tǒng)計學概論
  • 18.06線性代數(shù)
  • 6.042計算機科學數(shù)學
  • 哥倫比亞大學的COMS3251計算線性代數(shù)

對于MATH數(shù)據(jù)集,研究人員從數(shù)據(jù)集的六個主題(代數(shù)、計數(shù)與概率、中級代數(shù)、數(shù)論、預代數(shù)和預科)中隨機抽取15個問題。 

為了驗證模型生成的結(jié)果不是對訓練數(shù)據(jù)的過擬合,研究人員選擇了沒有在互聯(lián)網(wǎng)上公開過的COMS3251課程來驗證生成結(jié)果。 

圖片

 

工作流程

 模型以一個課程問題作為輸入,然后對其進行上下文增強(automatic augmentation with context),結(jié)果合成程序(resulting synthesized program),最后輸出答案和生成的解釋。 

對于不同的問題來說,輸出結(jié)果可能不同,比如18.01的答案為一個方程式,18.02的答案為一個布爾值,18.03和18.06的答案為一個圖或矢量,18.05的答案為一個數(shù)值。 

圖片

拿到一個問題,第一步就是讓模型找到問題的相關(guān)的上下文。研究人員主要關(guān)注Codex生成的Python程序,所以在問題前加上「write a program」的文字,并將文字放在Python程序的三個引號內(nèi),裝作是程序里的一個docstring 。

生成程序后,還需要一個Codex prompt來指定引入哪些庫,作者選擇在問題前加入「use sympy」字符串作為上下文,指定為解決問題而合成的程序應該使用這個包。 

通過統(tǒng)計每門課程所使用的Python編程包,可以看到所有課程都使用NumPy和Sympy。Matplotlib只在有需要繪圖的問題的課程中使用。大約有一半的課程使用math、random和SciPy。在實際運行的時候,研究人員只指定SymPy或繪圖相關(guān)的包導入,其他導入的包都是自動合成的。 

圖片

 以Zero-shot learning的方式,即僅對原始問題采用自動增強的方式就可以自動解決71%的問題。

 如果一個問題沒有解決,研究人員嘗試對這類問題采用Few-shot learning的方式來解決。 

首先使用OpenAI的text-similarity-babbag-001嵌入引擎獲取所有問題的2048維的embedding,然后對所有向量使用余弦相似度計算,找出與已解決的問題最相似的未解決問題。最后將最相似的問題及其相應的代碼作為新問題的few-shot例子。 

如果生成的代碼沒有輸出正確的答案,就再增加另一個已解決的question-code對,每次都使用下一個類似的已解決的問題。 

在實踐中可以發(fā)現(xiàn),使用最多5個例子進行few-shot learning的效果最好,可以自動解決的問題總數(shù)從zero-shot learning的71%增加到few-shot learning的81% 。

要想解決剩下19%的問題,就需要人工編輯的介入了。 

研究人員首先收集所有的問題,發(fā)現(xiàn)這些問題大多是模糊的(vague)或包含多余的信息,如參考電影人物或當前事件等,需要對問題進行整理以提取問題的本質(zhì)。 

問題整理主要包括刪除多余的信息,將長句結(jié)構(gòu)分解成較小的組成部分,并將提示轉(zhuǎn)換為編程格式。 

另一種需要人工介入的情形是,一個問題的解答需要多個步驟的繪圖來解釋,也就是需要交互式地提示Codex,直到達到預期的可視化效果。 

圖片

 除了生成答案外,模型還應該能解釋出答案的理由,研究人員通過提示詞「Here is what the above code is doing: 1.」來引導模型生成一步步解釋的結(jié)果。 

能解答問題后,下一步就是用Codex為每門課程生成新問題。 

研究人員創(chuàng)建了一個由每個班級的學生寫的問題的編號列表,這個列表在隨機的問題數(shù)量后被切斷,其結(jié)果被用來提示Codex生成下一個問題。 

這個過程重復進行,直到為每門課程創(chuàng)建了足夠多的新問題。 

為了評估生成的問題,研究人員對參加過這些課程或其同等課程的麻省理工學院學生進行了調(diào)查,以比較機器生成的問題與課程原始的質(zhì)量和難度差異。 

圖片

 從學生調(diào)查的結(jié)果可以看到: 

  • 機器的評分在質(zhì)量上與人類出的題目已經(jīng)有一戰(zhàn)之力了; 
  • 在難度上人類的問題更適合作為課程題目,而機器生成的結(jié)果則略難一些;
  • 超過一半的課程題目都能被學生看出來是模型生成的,最貼近人類的是18.01課程

參考資料:

https://www.reddit.com/r/artificial/comments/v8liqh/researchers_built_a_neural_network_that_not_only/?

責任編輯:未麗燕 來源: 新智元
相關(guān)推薦

2022-07-01 15:15:56

AIMITOpenAI

2010-12-28 11:30:09

Fport

2025-06-23 15:22:21

斯坦福不等式AI

2022-03-18 14:45:32

AI谷歌模型

2018-02-05 16:35:45

程序員JAVA面試

2011-01-17 23:25:58

CA Technolo自動化思科

2019-10-22 15:19:27

AI 數(shù)據(jù)人工智能

2018-03-02 12:41:28

2011-06-10 17:06:38

2011-06-29 15:36:07

2017-01-22 15:43:47

數(shù)據(jù)架構(gòu)演進

2024-12-02 00:00:02

Svelte 5effect?數(shù)據(jù)

2016-12-02 20:10:22

人工智能唇語序列

2019-09-27 09:47:50

ArubaCentral云加強版AWS

2025-01-22 13:30:00

2009-08-08 09:05:28

Windows 7SDK

2018-06-07 17:13:27

網(wǎng)絡(luò)安全

2021-03-29 15:04:31

數(shù)據(jù)AI技術(shù)

2009-04-04 09:31:34

Windows 7微軟操作系統(tǒng)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 天堂av影院| 免费一区二区 | 国产综合精品一区二区三区 | 成人不卡在线 | 小视频你懂得 | 国产成人啪免费观看软件 | av手机在线免费观看 | 精品国产一区二区国模嫣然 | 日韩有码一区二区三区 | 最近中文字幕在线视频1 | www性色 | 国产福利视频导航 | 亚洲成人免费视频 | 欧美日韩在线视频一区 | 99精品在线免费观看 | 一区二区高清不卡 | www.色.com| 国产乱码精品一区二区三区中文 | 在线观看亚洲 | 国产精品久久久久久久免费大片 | 亚洲欧美激情精品一区二区 | 激情久久网 | 日韩av啪啪网站大全免费观看 | 欧美日日 | 成人高清网站 | 一区二区日韩 | 久久激情五月丁香伊人 | 欧美国产精品一区二区三区 | 日本一区二区不卡视频 | 欧美男人天堂 | 久久er99热精品一区二区 | 九九热在线观看视频 | 日韩一二区 | 日韩精品一二三 | 狠狠操天天操 | 91久久精品国产91久久 | 国产99小视频 | 久热精品在线播放 | 久久精品一级 | 国产精品一区二区在线 | 爱爱爱av |