AI科舉制扼殺創新！你眼中的好模型只是「刷榜機器」

作者：新智元 2022-05-12 12:57:39

人工智能

基準測試堪稱人工智能領域的「科舉制」，但這種應試教育唯分數論輸贏，能訓練出真正的好模型嗎？

架構2010年，基于ImageNet的計算機視覺競賽推出，激發了深度學習的一場算法與數據的革命，從此基準測試成為衡量AI模型性能的一個重要手段。

在NLP領域，也有GLUE(通用語言理解評估)基準，AI模型需要在包含上千個句子的數據集上進行訓練，并在九個任務上進行測試，例如判斷一個句子是否符合語法，分析情感，或者兩個句子之間是否是邏輯蘊涵等。

GLUE剛發布時，性能最佳的模型得分還不到70分，基準創建人，紐約大學的計算機科學家Sam Bownman當時認為這個數據集很成功，至少難倒了AI模型。

而僅僅經過一年的發展，AI模型的性能輕松達到90分，超越了人類的87.1分。

2019年，研究人員再次提高了基準測試的難度，發布SuperGLUE，一些任務要求AI模型不僅能夠處理句子，還要處理來自維基百科或新聞網站的段落后回答閱讀理解問題。

同樣，人類在基準剛發布時領先20分，到2021年初，計算機再次擊敗了人類的89.8分。

難道AI模型的智力水平已經超越了人類?

在「刷榜」上，AI語言模型在經過海量書籍、新聞文章和維基百科中數十億單詞的訓練后，一次次讓從業者興奮，可以生成令人驚艷的人類散文、推文、總結電子郵件，甚至在幾十種語言之間進行相互翻譯。

但在現實應用中部署或特定例子的測試時，又會讓人感嘆：AI怎么會犯如此愚蠢的錯誤?該怎么教會它改正?

2020年，微軟的計算機科學家Marco Túlio Ribeiro發布了一篇報告，指出了包括微軟、谷歌和亞馬遜在內的各種sota模型內的諸多隱含錯誤，比如把句子里的「what's」改成「what is」，模型的輸出就會截然不同，而在此前，從沒有人意識到這些商業模型竟會如此糟糕。

這樣訓出來的AI模型就像一個只會應試教育、成績優異的學生，可以成功通過科學家設置的各種基準測試，卻不懂為什么，俗稱「高分低能」。

不過大多數研究人員認為，解決方案并不是放棄基準測試，而是改善。不過改善方法上，又有了分歧。

一些人認為基準測試應該更加嚴格，有人認為基準測試應該能闡明模型的偏見，還有人希望基準數據集的規模要更大一些，以便應對那些沒有單一標準答案的問題(如文本摘要)，又或者利用多個評價指標來衡量模型的性能。

讓基準變得更難

一個最明顯的基準提升手段就是讓它們變得更難。

AI初創公司Hugging Face的研究帶頭人Douwe Kiela認為現有的基準測試最離譜的一點就是讓AI模型看起來已經超越了人類，但每個NLP從業者都深知，想要達到人類水平的語言智能，還有很長的路要走。

所以Kiela開始著手創建一個動態數據收集和基準測試平臺Dynabench，主要針對GLUE等靜態基準存在的一些問題：性能超越人類的速度太快、很容易過擬合、具有不確定或不完善的評價指標等。

Dynabench依賴于眾包平臺，對于每個任務(如情緒分類)，眾包工作人員需要提交他們認為人工智能模型會錯誤分類的短語或句子，成功欺騙到模型的樣例被加入到基準測試中。模型在這些數據上進行訓練，然后重復該過程，并且基準測試也在不斷發展，不會出現排行榜過時的情況。

Dynabench平臺本質上是一個科學實驗：如果動態地收集數據，讓人和模型處于循環中，而不是傳統的靜態方式，能讓AI模型的研究取得更快的進展嗎?

另一種改進基準的方法是縮小實驗室內數據和現實場景之間的差距。現有的機器學習模型通常在同一個數據集中隨機選擇的示例上進行訓練和測試，而在現實中，數據可能會發生分布變化。

WILDS是斯坦福大學計算機科學家Percy Liang開發的基準測試，由10個精心挑選的數據集組成，可用于測試模型識別腫瘤、動物物種分類、補全計算機代碼等任務。

WILDS最關鍵的一步是每個數據集都來自多個源，例如腫瘤圖片來自五家不同的醫院，目的是考察模型在不同數據集之間的泛化能力。

WILDS 還可以測試模型的社會偏見，其中一個數據集是從新聞網站評論平臺收集的數十萬條有毒評論的集合，根據受辱的人口統計(黑人、白人、基督徒、穆斯林、LGBTQ 等)分為八個域。研究人員可以通過在整個數據集上訓練模型然后針對一部分數據進行測試來尋找盲點，例如，檢測能否識別針對穆斯林的有害評論。

打破「唯分數論」

更好的基準測試只是開發更優模型的一種途徑，開發人員應當避免沉迷于排行榜的名次和分數。

埃因霍芬理工大學的計算機科學家Joaquin Vanschoren譴責論文中所謂的SOTA(state of the art) 正在扼殺創新，他呼吁AI會議中的審稿人不要再強調排行榜上的分數，而主要關注創新點。

大部分基準測試上的分數只有一個，并不能完全反映模型之間的優劣。

在Dynabench中，使用Dynascore對模型在基準測試中的性能進行評價，涵蓋了多種因素：準確性、速度、內存使用、公平性和對輸入變化的魯棒性。用戶可以根據對他們最重要的因素來對模型進行排行，比如Facebook 的工程師可能比智能手表設計師更看重準確性，而后者可能更看重能源效率。

另一方面，基準數據集中問題通常沒有絕對的「ground truth」，所以分數的準確性也不一定可靠。一些基準設計者只是從測試數據中剔除模棱兩可或有爭議的例子，在數據集中也稱之為噪音。

去年，倫敦瑪麗女王大學的計算語言學家 Massimo Poesio 和他的同事創建了一個基準，用于評估模型從人類數據標注者之間的分歧中學習的能力。

他們將多個文本片段根據人類感覺的「好笑程度」進行排序，并以此來訓練模型，要求模型判斷兩個文本中哪段更好笑的概率，而不是簡單地提供「是或否」作為答案，每個模型都根據其估計與人類標注分布的匹配程度進行評分。

基準研究仍然小眾

目前基準相關的研究首要面臨的問題是缺乏激勵措施。

在去年發表的一篇論文中，谷歌的研究人員采訪了工業界和學術界的 53 位人工智能從業者。許多人指出，改進數據集不如設計模型更有成就感。論文的作者之一Lora Aroyo認為，機器學習社區正在改變對基準的態度，但目前仍然是一個小眾研究。

去年的NeurIPS會議上推出了一個新的track，用于審查和發表有關數據集和基準主題的論文，立即為研究這些主題創造了新的動力，畢竟中了就是頂會。

聯合主席 Vanschoren說，組織者預計會有幾十份提交，但最后收到了超過500篇論文，這也說明了這是眾望所歸。

一些論文提供了新的數據集或基準，而另一些則揭示了現有數據集或基準的問題，有研究人員發現在10個流行的視覺、語言和音頻基準中，測試數據中至少有 3% 的標簽不正確，這些錯誤會影響模型的排名。

盡管許多研究人員希望通過激勵措施創建更好的基準，但也有人不希望該領域過多地研究這些。

古德哈特定律(Goodhart's law)有言：一旦指標變成了目標，那它就不再是一個好指標了。

也就是說，當你嘗試用各種方法教模型怎么考試時，考試本身也就失去了意義。

最后，Ribeiro表示，基準應該是從業者工具箱中的一個工具，人們用基準來代替模型的理解，通過基準數據集來測試「模型的行為」。

參考資料：

https://www.science.org/content/article/computers-ace-iq-tests-still-make-dumb-mistakes-can-different-tests-help

責任編輯：武曉燕來源：新智元

AI 科舉模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI科舉制扼殺創新！你眼中的好模型只是「刷榜機器」

讓基準變得更難

打破「唯分數論」

基準研究仍然小眾