新技術(shù)將機器學習模型的推理與人類的推理進行比較

作者：cnBeta.COM 2022-04-11 15:40:34

麻省理工學院和IBM研究院的研究人員創(chuàng)造了一種方法，使用戶能夠?qū)@些單獨的解釋進行匯總、分類和排序，以快速分析機器學習模型的行為。

?研究人員開發(fā)的一項?新技術(shù)將機器學習模型的推理與人類的推理進行比較，因此用戶可以看到模型的行為模式。在機器學習中，理解一個模型為什么做出某些決定往往與這些決定是否正確一樣重要。例如，機器學習模型可能會正確預測一個皮膚病變是癌癥，但它可能是通過臨床照片上一個不相關(guān)的點來完成的。??

雖然有工具可以幫助專家理解模型的推理，但這些方法往往一次只能提供一個決策的見解，而且每個決策都必須經(jīng)過人工評估。模型通常使用數(shù)百萬的數(shù)據(jù)輸入進行訓練，使得人類幾乎不可能評估足夠多的決定來識別模式。

現(xiàn)在，麻省理工學院和IBM研究院的研究人員創(chuàng)造了一種方法，使用戶能夠?qū)@些單獨的解釋進行匯總、分類和排序，以快速分析機器學習模型的行為。他們的技術(shù)被稱為“共享興趣”（ Shared Interest），它包含了可量化的指標，可以比較一個模型的推理與人類的推理的匹配程度。

Shared Interest可以幫助用戶輕松發(fā)現(xiàn)模型決策中的相關(guān)趨勢--例如，也許模型經(jīng)常被分散注意力的不相關(guān)特征所迷惑，比如照片中的背景物體。匯總這些洞察力可以幫助用戶快速和定量地確定一個模型是否值得信賴，是否可以在真實世界中部署。

“在開發(fā)Shared Interest的過程中，我們的目標是能夠擴大這個分析過程，這樣你就可以在更大的范圍內(nèi)了解你的模型的行為是什么，”主要作者 Angie Boggust說，她是MIT計算機科學和人工智能實驗室（CSAIL）可視化小組的研究生。

Boggust與她的導師Arvind Satyanarayan（領(lǐng)導可視化小組的計算機科學副教授）以及IBM研究院的Benjamin Hoover和資深作者Hendrik Strobelt共同撰寫了這篇論文。該論文將在計算系統(tǒng)中的人的因素會議上發(fā)表。

Boggust在IBM的暑期實習期間，在Strobelt的指導下開始了這個項目的工作。回到麻省理工學院后，Boggust和Satyanarayan擴大了該項目，并繼續(xù)與Strobelt和Hoover合作，他們幫助部署了案例研究，展示了該技術(shù)如何在實踐中使用。

人類與人工智能的協(xié)調(diào)

Shared Interest利用流行的技術(shù)來顯示機器學習模型是如何做出具體決定的，即所謂的突出性方法。如果該模型是對圖像進行分類，突出顯示圖像中對該模型做出決定的重要區(qū)域。這些區(qū)域被可視化為一種熱圖，稱為顯著性圖，通常被覆蓋在原始圖像上。如果模型將圖像歸類為狗，而狗的頭部被高亮顯示，這意味著當模型決定該圖像包含一只狗時，這些像素對它很重要。

Shared Interest的工作方式是將突出度方法與地面真實數(shù)據(jù)進行比較。在一個圖像數(shù)據(jù)集中，地面真實數(shù)據(jù)通常是人類生成的注釋，圍繞著每張圖像的相關(guān)部分。在前面的例子中，方框?qū)@著照片中的整只狗。在評估一個圖像分類模型時，Shared Interest比較了同一圖像的模型生成的顯著性數(shù)據(jù)和人類生成的地面真實數(shù)據(jù)，看它們的一致性如何。

該技術(shù)使用幾個指標來量化這種一致性（或不一致），然后將一個特定的決定分為八個類別之一。這些類別的范圍從完全與人類對齊（模型做出了正確的預測，并且突出顯示的區(qū)域與人類生成的盒子相同）到完全分心（模型做出了錯誤的預測，并且沒有使用人類生成的盒子中的任何圖像特征）。

“在光譜的一端，你的模型做出這個決定的原因與人類完全相同，而在光譜的另一端，你的模型和人類做出這個決定的原因完全不同。通過對你的數(shù)據(jù)集中的所有圖像進行量化，你可以用這種量化來對它們進行分類，”Boggust解釋說。

這項技術(shù)對基于文本的數(shù)據(jù)也有類似的作用，在這些數(shù)據(jù)中，關(guān)鍵詞被突出顯示，而不是圖像區(qū)域。

快速分析

研究人員用三個案例研究來說明Shared Interest如何對非專家和機器學習研究人員都有用。

在第一個案例研究中，他們使用 Shared Interest來幫助一位皮膚科醫(yī)生確定他是否應該相信一個機器學習模型，該模型旨在幫助從皮膚病變的照片中診斷癌癥。Shared Interest使皮膚科醫(yī)生能夠迅速看到該模型正確和錯誤預測的例子。最終，這位皮膚科醫(yī)生決定他不能相信這個模型，因為它根據(jù)圖像偽影而不是實際病變做出了太多的預測。

“這里的價值在于，使用Shared Interest，我們能夠看到我們的模型行為中出現(xiàn)的這些模式。”Boggust說：“在大約半小時內(nèi)，皮膚科醫(yī)生就能夠做出是否信任該模型以及是否部署該模型的自信決定。”

在第二個案例研究中，他們與一位機器學習研究人員合作，展示了Shared Interest如何通過揭示模型中以前未知的陷阱來評估一種特定的突出性方法。他們的技術(shù)使研究人員能夠在典型的人工方法所需時間的一小部分內(nèi)分析數(shù)以千計的正確和錯誤的決定。

在第三個案例研究中，他們使用Shared Interest來深入研究一個特定的圖像分類例子。通過操縱圖像的真實區(qū)域，他們能夠進行假設(shè)分析，看看哪些圖像特征對特定的預測最重要。

研究人員對Shared Interest在這些案例研究中的表現(xiàn)印象深刻，但Boggust警告說，該技術(shù)只和它所基于的突出性方法一樣好。如果這些技術(shù)包含偏見或不準確，那么Shared Interest將繼承這些限制。

在未來，研究人員希望將Shared Interest應用于不同類型的數(shù)據(jù)，特別是用于醫(yī)療記錄的表格數(shù)據(jù)。他們還想用Shared Interest來幫助改善目前的突出性技術(shù)。Boggust希望這項研究能激發(fā)更多的工作，尋求以對人類有意義的方式量化機器學習模型的行為。

責任編輯：張燕妮來源： cnBeta.COM

機器學習研究推理

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

新技術(shù)將機器學習模型的推理與人類的推理進行比較

人類與人工智能的協(xié)調(diào)

快速分析