AI高分通過美國8年級科學考試：常識題推理題都能行，不服同臺對戰

作者：量子位 2019-09-05 14:00:56

人工智能

只要60分飄過八年級科學考試，就能收獲8萬美元獎金(折合人民幣57萬元)。只不過，參加考試的“學生”，必須是個AI。

只要60分飄過八年級科學考試，就能收獲8萬美元獎金(折合人民幣57萬元)。

[[276019]]

只不過，參加考試的“學生”，必須是個AI。

在長達四年的時間里，700多名計算機科學家參與到這項AI競賽當中，但他們的AI紛紛折戟，沒有一個能拿到及格分。

但現在，歷史新紀錄來了。艾倫研究所的一個名叫Aristo的AI搞定了這件事，不僅在8年級科學考試中答對了90%以上的問題，連高三的考試，它都能答對80%!

這對于AI來說，有點鵝妹子嚶了。

語言理解+邏輯，難倒AI

雖然AI下圍棋能贏世界冠軍，打德撲還會詐唬，IBM的Watson也早在智力問答《危險邊緣(Jeopardy!)》中大殺四方，但想要通過美國八年級科學考試，對AI來說仍然是一大挑戰。

即使排除了圖片題和圖表題，科學考試中的問答依然不是簡單的自然語言理解問題，還涉及到邏輯推理乃至常識——答案并不是明顯存在于某處文本中的。

舉個例子，在考試中，有的問題比較簡單，只涉及到信息檢索：

一組協同工作以執行特定功能的組織稱為：

(1)器官

(2)有機體

(3)系統

(4)細胞

但有的問題它長這個樣子：

什么樣的改變會導致區域內的松鼠數量減少?

(1)食肉動物數量減少

(2)松鼠之間的競爭減弱

(3)食物增加

(4)森林火災發生次數增多

這可就不是AI光靠學習規則就能回答的問題了，其中牽扯到的邏輯推理，對人類而言或許是小菜一碟，但對AI來說，并沒有那么簡單。

甚至還有多選問題。

就在AlphaGo震驚世界的2016年，最強的AI系統也只能在紐約州八年級科學考試中達到59.3%的準確率，遺憾未能及格。

基于Bert的Aristo

Aristo是怎樣實現突破的呢?

其實，它是站在了巨人的肩膀之上。

Aristo基于艾倫研究所的深度語境化詞表征ELMo(NAACL 2018最佳論文)和大名鼎鼎的BERT開發(現已替換為RoBERTa)，集八種類型智能體于一身，有的智能體負責在數據庫中查找答案，有的負責檢查相關概念列表(元組)，還有的專門執行邏輯推理。

每個智能體都會為答案打分，而Aristo會對不同的分數進行加權，最終做出選擇決策。

在實驗測試中，研究人員讓Aristo參加了2017年到2019年各個年級的紐約州會考，結果顯示，Aristo在4年級和8年級的考試中正確率都到達了90%左右，符合紐約州教育部認定的“優秀標準”(85%)。而12年級考試的正確率則是83.54%，離優秀只差了一點點。

在此之前，這些考試數據并不在Aristo的訓練集中。

并且，現在Aristo的答題范圍不僅僅局限在文字問題中了，涉及到計算機視覺的圖表題，它也正在拿下。

在接受媒體采訪時，Aristo項目的高級經理Peter Clark表示：

Aristo的目標不僅僅是通過科學考試，而是創造一個對科學有更深入理解的系統。

雖然如從事類似研究的微軟研究員Jingjing Liu所說，實際上，Aristo仍然不具備“真正”的智能，我們無法將Aristo的能力與人類學生的推理能力相比較。但無疑，它創造了一個很好的應用方向。

比如更強大的搜索，比如個性化教育。

對了，Aristo現在有了在線Demo，可以在線調戲喲。

傳送門

Demo：

http://aristo-demo.allenai.org/

數據集：

http://data.allenai.org/ai2-science-questions/

相關論文：

https://allenai.org/papers/papers-aristo-2019.html

責任編輯：武曉燕來源：今日頭條

AI 考試高分

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI高分通過美國8年級科學考試：常識題推理題都能行，不服同臺對戰