MIT 團隊的新測試,將 AI 推理與人類思維進行比較
人工智能獲得洞察力和做出決策的方式通常是神秘的,這引發了人們對機器學習的可信度的擔憂。現在,在一項新研究中,研究人員揭示了一種新方法,用于比較人工智能軟件的推理與人類推理的匹配程度,以便快速分析其行為。
隨著機器學習越來越多地在現實世界中得到應用,了解它如何得出結論以及它是否正確變得至關重要。例如,人工智能程序可能似乎準確地預測了皮膚病變是癌性的,但它可能是通過關注臨床圖像背景中不相關的印跡來做到這一點的。
「眾所周知,機器學習模型難以理解。」麻省理工學院計算機科學研究人員、一項關于人工智能可信度的新研究的主要作者 Angie Boggust 說,「知道一個模型的決定很容易,但知道這個模型為什么做出這個決定卻很難。」
文獻鏈接:http://shared-interest.csail.mit.edu/
理解 AI 推理的一種常見策略是檢查程序所關注的數據的特征——比如圖像或句子——以便做出決定。然而,這種所謂的顯著性方法通常一次只能對一個決策產生見解,并且必須手動檢查每個決策。人工智能軟件通常使用數百萬個數據實例進行訓練,這使得人們幾乎不可能分析足夠多的決策來識別正確或不正確行為的模式。
「為人類用戶提供工具來詢問和理解他們的機器學習模型,對于確保機器學習模型可以安全地部署在現實世界中至關重要。」——Angie Boggust
現在,麻省理工學院和 IBM 研究院的科學家們創造了一種方法來收集和檢查人工智能對其決策的解釋,從而可以快速分析其行為。這項名為「共享興趣」的新技術將人工智能決策的顯著性分析與人工注釋的數據庫進行比較。
例如,圖像識別程序可能會將圖片分類為狗的圖片,而顯著性方法可能會顯示程序突出顯示狗的頭部和身體的像素以做出決定。相比之下,共享興趣方法可能會將這些顯著性方法的結果與圖像數據庫進行比較,在圖像數據庫中,人們注釋了圖片的哪些部分是狗的部分。
基于這些比較,共享興趣方法然后要求計算人工智能的決策與人類推理的一致性,將其歸類為八種模式之一。一方面,人工智能可能被證明是完全符合人類思維的,程序做出正確的預測并突出數據中與人類相同的特征。另一方面,人工智能完全分心,人工智能做出了錯誤的預測,并且沒有突出人類所做的任何特征。
人工智能決策可能落入的其他模式,突出了機器學習模型正確或錯誤地解釋數據細節的方式。例如,共同的興趣可能會發現,人工智能只根據拖拉機的一部分(比如輪胎)就可以正確識別圖像中的拖拉機,而不是像人類一樣識別整個車輛,或者發現人工智能可能只在圖片中也有摩托雪橇的情況下才能識別圖像中的摩托雪橇頭盔。
在實驗中,共同興趣有助于揭示人工智能程序是如何工作的,以及它們是否可靠。例如,Shared Interest 幫助皮膚科醫生從皮膚損傷的照片中快速查看程序對癌癥診斷的正確和錯誤預測示例。最終,皮膚科醫生決定他不能相信這個程序,因為它根據不相關的細節而不是實際的病變做出了太多的預測。
在另一個實驗中,一位機器學習研究人員使用 Shared Interest 來測試他應用于 BeerAdvocate 數據集的顯著性方法,幫助他在傳統手動方法所需時間的一小部分內分析數千個正確和錯誤的決策。共同興趣有助于表明顯著性方法通常表現良好,但也揭示了以前未知的缺陷,例如高估評論中的某些單詞導致錯誤預測。
「為人類用戶提供工具來詢問和理解他們的機器學習模型對于確保機器學習模型可以安全地部署在現實世界中至關重要。」Boggust 說。
研究人員警告說,共享興趣的表現與其采用的顯著性方法一樣好。Boggust 指出,每種顯著性方法都有其自身的局限性,Shared Interest 繼承了這些局限性。
未來,科學家們希望將共享興趣應用于更多類型的數據,例如醫療記錄中使用的表格數據。Boggust 補充說,另一個潛在的研究領域可能是自動估計 AI 結果中的不確定性。
科學家們已經公開了共享興趣的源代碼。
源代碼:https://github.com/mitvis/shared-interest
相關報道:https://spectrum.ieee.org/-2657216063