成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI做題家卷瘋了!高數(shù)考試正確率81%,競賽題成績超過計算機博士

人工智能
沒錯,來自OpenAI的Codex已經(jīng)在MIT的7門高數(shù)課程題目中正確率達到81.1%,妥妥的MIT本科生水平。

高數(shù)考不好,不知道是多少人的噩夢。

圖片

如果說你高數(shù)考得還不如AI好,是不是就更難以接受了?

沒錯,來自OpenAI的Codex已經(jīng)在MIT的7門高數(shù)課程題目中正確率達到81.1%,妥妥的MIT本科生水平。

課程范圍從初級微積分到微分方程、概率論、線性代數(shù)都有,題目形式除了計算、甚至還有畫圖。

圖片

這件事最近還登上了微博熱搜。

圖片

△“僅”得81分,對AI的期待也太高了吧

現(xiàn)在,谷歌那邊又傳來了最新大消息:

不止數(shù)學,我們的AI甚至在整個理工科上,都已經(jīng)拿到最高分啦!

看來在培養(yǎng)“AI做題家”這件事上,科技巨頭們已經(jīng)卷出了新高度。

圖片

谷歌這個最新AI做題家,參加了四門考試。

數(shù)學競賽考試MATH,以往只有三屆IMO金牌得主才拿過90分,普通的計算機博士甚至只能拿到40分左右。

至于別的AI做題家們,以前最好成績只有6.9分……

但這一次,谷歌新AI卻刷到了50分,比計算機博士還高。

綜合考試MMLU-STEM,內含數(shù)理化生、電子工程和計算機科學,題目難度達到高中甚至大學水平。

這一次,谷歌AI“滿血版”,也都拿到了做題家中的最高分,直接將分數(shù)拉高了20分左右。

圖片

小學數(shù)學題GSM8k,直接將成績拉升到78分,相比之下GPT-3還沒及格(僅55分)。

就連MIT本科和研究生學的固體化學、天文學、微分方程和狹義相對論等課程,谷歌新AI也能在200多道題中,答出將近三分之一。

圖片

最重要的是,與OpenAI憑借“編程技巧”取得數(shù)學高分的方法不同,谷歌AI這一次,走的可是“像人一樣思考”的路子——

它像一個文科生一樣只背書不做題,卻掌握了更好的理工科解題技巧。

值得一提的是,論文一作Lewkowycz還分享了一個論文中沒寫到的亮點:

我們的模型參加了今年的波蘭數(shù)學高考,成績比全國平均分還要高。

圖片

看到這里,有的家長已經(jīng)坐不住了。

如果告訴我女兒這件事,我怕她用AI做作業(yè)。但如果不告訴她,就沒有讓她對未來做好準備!

圖片

在業(yè)內人士看來,只靠語言模型,不對算數(shù)、邏輯和代數(shù)做硬編碼達到這種水平,是這項研究最驚艷的地方。

圖片

那么,這是怎么做到的?

AI狂讀arXiv上200萬篇論文

新模型Minerva,基于Pathway架構下的通用語言模型PaLM改造而來。

分別在80億、600億和5400億參數(shù)PaLM模型的基礎上做進一步訓練。

Minerva做題與Codex的思路完全不同。

Codex的方法是把每道數(shù)學題改寫成編程題,再靠寫代碼來解決。

而Minerva則是狂讀論文,硬生生按理解自然語言的方式去理解數(shù)學符號。

在PaLM的基礎上繼續(xù)訓練,新增的數(shù)據(jù)集有三部分:

主要有arXiv上收集的200萬篇學術論文,60GB帶LaTeX公式的網(wǎng)頁,以及一小部分在PaLM訓練階段就用到過的文本。

圖片

通常的NLP數(shù)據(jù)清洗過程會把符號都刪掉只保留純文字,導致公式不完整,比如愛因斯坦著名的質能方程只剩下了Emc2。

圖片

但谷歌這次把公式都保留,和純文本一樣走一遍Transformer的訓練程序,讓AI像理解語言一樣去理解符號。

與之前的語言模型相比,這是Minerva在數(shù)理問題上表現(xiàn)更好的原因之一。

但與專門做數(shù)學題的AI相比,Minerva的訓練中沒有顯式的底層數(shù)學結構,這帶來一個缺點和一個優(yōu)點。

缺點,是可能出現(xiàn)AI用錯誤的步驟得到正確答案的情況。

優(yōu)點,是可以適應不同學科,即使有些問題無法用正規(guī)的數(shù)學語言表達出來,也可以結合自然語言理解能力解出來。

到了AI的推理階段,Minerva還結合了多個最近谷歌開發(fā)的新技術。

先是Chain of Thought思維鏈路提示,今年一月由谷歌大腦團隊提出。

具體來說就是在提問的同時給一個分步驟回答的示例來引導。AI在做題時就可以采用類似的思考過程,正確回答本來會答錯的題目。

圖片

再有是谷歌和MIT合作開發(fā)的Scrathpad草稿紙方法,讓AI把分步計算的中間結果臨時存儲起來。

圖片

最后還有Majority Voting多數(shù)表決方法,也是今年3月才發(fā)表的。

讓AI多次回答同一個題目,選擇答案中出現(xiàn)頻率最高的。

圖片

所有這些技巧全用上以后,5400億參數(shù)的Minerva在各種測試集中達到SOTA。

甚至80億參數(shù)版的Minerva,在競賽級數(shù)學題和MIT公開課問題中,也能達到GPT-3最新更新的davinci-002版本水平。

圖片

說了這么多,Minerva具體都能做出哪些題目?

對此谷歌也開放出了樣例集,一起來看一下。

數(shù)理化生全能,連機器學習都會

數(shù)學上,Minerva可以像人類一樣按步驟計算數(shù)值,而不是直接暴力求解。

圖片

對于應用題,可以自己列出方程式并做簡化。

圖片

甚至還可以推導證明。

圖片

物理上,Minerva可以求中性氮基態(tài)(Z = 7)電子的總自旋量子數(shù)這樣的大學水平題目。

圖片

生物和化學上,Minerva憑借語言理解能力也可以做各種選擇題。

以下哪種點突變形式對DNA序列形成的蛋白質沒有負面影響?

圖片

以下哪種是放射性元素?

圖片

以及天文學:為什么地球擁有很強的磁場?

圖片

在機器學習方面,它通過解釋“分布外樣本檢測”的具體含義,從而正確了給出這個名詞的另一種說法。

圖片

……

不過,Minerva有時也會犯一些低級錯誤,比如把等式兩邊的√給消了。

圖片

除此之外,Minerva會出現(xiàn)的推理過程錯誤但結果對的“假陽性”情況,比如下面這種,有8%的可能性。

圖片

經(jīng)過分析之后,團隊發(fā)現(xiàn)主要的錯誤形式來自計算錯誤和推理錯誤,只有小部分來自題意理解錯誤和在步驟中使用了錯誤的事實等其他情況。

其中計算錯誤可以輕易通過訪問外部計算器或Python解釋器解決,但其他種類的錯誤因為神經(jīng)網(wǎng)絡規(guī)模太大就不太好調整了。

圖片

總的來看,Minerva的表現(xiàn)讓很多人感到驚艷,紛紛在評論區(qū)求API(可惜谷歌目前并沒有公開計劃)。

圖片

有的網(wǎng)友想到,加上前幾日讓GPT-3解題正確率暴漲61%的“哄一哄”大法,它的準確率或許還可以再提高?

圖片

不過作者的回應是,哄一哄方法屬于零樣本學習,再強恐怕也比不上帶4個例子的少樣本學習。

圖片

還有網(wǎng)友提出,既然它可以做題,那么能不能反過來出題?

圖片

事實上用AI給大學生出題這件事,MIT已經(jīng)聯(lián)合OpenAI在做了。

他們把人類出的題和AI出的題混在一起,找學生來做問卷調查,大家也很難分清一道題是不是AI出的。

圖片

總之現(xiàn)在的情況,除了搞AI的在忙著讀這篇論文以外。

學生們盼著有一天能用AI做作業(yè)。

圖片

老師們也盼著有一天能用AI出卷子。

圖片

論文地址:https://storage.googleapis.com/minerva-paper/minerva_paper.pdf

Demo地址:https://minerva-demo.github.io/

相關論文:Chain of Thought https://arxiv.org/abs/2201.11903Scrathpads https://arxiv.org/abs/2112.00114Majority Voting https://arxiv.org/abs/2203.11171

參考鏈接:

https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html

https://twitter.com/bneyshabur/status/1542563148334596098

https://twitter.com/alewkowycz/status/1542559176483823622?

責任編輯:武曉燕 來源: 量子位
相關推薦

2022-06-28 14:01:42

MITOpenAI預訓練模型

2024-10-21 15:14:54

2019-10-22 15:19:27

AI 數(shù)據(jù)人工智能

2021-01-04 08:40:47

計算機AI 技術

2016-12-02 20:10:22

人工智能唇語序列

2022-03-18 14:45:32

AI谷歌模型

2024-04-01 07:00:00

模型AI

2022-01-05 10:42:12

AI 數(shù)據(jù)人工智能

2025-01-26 09:45:00

2025-06-23 15:22:21

斯坦福不等式AI

2020-10-20 10:20:39

人工智能AI

2009-01-08 22:02:08

2009計算機等考試評分

2009-04-14 10:43:13

等考成績查詢計算機等級考試

2025-03-31 09:00:00

2012-05-04 13:23:02

2022-06-23 11:54:35

AI智能代碼

2011-03-03 21:17:51

程序員

2009-06-29 09:47:00

局域網(wǎng)IP地址劃分

2023-12-26 15:08:00

AI人工智能算命

2009-02-23 09:18:24

計算機考試NIEH教育部
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久草网址 | 97超级碰碰| 精品香蕉一区二区三区 | 一级片网址 | 一区二区免费在线观看 | 久久精品成人 | 国产精品免费一区二区 | 成人二区 | 亚洲色在线视频 | 国产精品一级 | 91aiai| 99reav| 久久国产一区二区 | 欧美日韩在线精品 | 99精品免费在线观看 | 日韩高清在线观看 | 欧洲妇女成人淫片aaa视频 | 黑人巨大精品欧美黑白配亚洲 | 91在线视频观看免费 | 国产一级在线视频 | 亚洲精品乱码久久久久久蜜桃91 | 午夜av电影院 | 国产日韩一区二区三免费 | 免费精品视频在线观看 | 欧美日韩久久精品 | 在线国产视频 | 国产成视频在线观看 | 黄 色 毛片免费 | 国产午夜精品一区二区三区嫩草 | 爱爱无遮挡 | 在线成人免费视频 | 国产综合久久 | 欧美综合国产精品久久丁香 | 成人av电影天堂 | 日韩一区精品 | 亚洲第一成人影院 | 久久久久综合 | 日日干夜夜操 | 欧美日韩在线一区二区 | 夜夜艹| 久久久久久亚洲精品 |