成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI學會灌水和造假!Google新研究揭露了AI現實應用的陷阱

新聞 人工智能
Google AI發文探討不規范(Underspecification)是如何給機器學習帶來挑戰的。

 [[430918]]

今天,機器學習(ML)模型得到了大規模的使用,而且影響力也越來越大。然而,當它們被用于現實世界的領域時,往往表現出意想不到的行為。Google AI發文探討不規范(Underspecification)是如何給機器學習帶來挑戰的。

如今,機器學習(ML)模型得到了比以往任何時候都更廣泛的使用,并且它的影響力也變得越來越大。

[[430919]]

然而,把它們放在現實領域中使用時,問題可不小,甚至經常會出現一些意想不到的行為。

例如,當分析一個計算機視覺(CV)模型的bad case的時候,研究人員有時會發現模型確實掌握了大部分對特征的理解能力,但對一些人類根本不會注意的、不相關的特征表現出驚人的敏感性。

再比如,一個自然語言處理(NLP)模型,讓它學習文本吧,它也確實在學,只不過有時會依賴文本沒有直接指示的人口統計相關性作為依據,更麻煩的是,這種錯誤還不太好預測。

[[430920]]

其實,有些失敗的原因,是眾所周知的:例如,在不精確的數據上訓練了ML模型,或者訓練模型來解決結構上與應用領域不匹配的預測問題。

然而,即使處理了這些已知的問題,模型行為在部署中仍然是不一致的,甚至在訓練運行之間也是不同的。

影響ML模型信度的罪魁:不規范

谷歌團隊在「Journal of Machine Learning Research」上發表了一篇論文「不規范對現代機器學習的可信度提出了挑戰」。

https://arxiv.org/pdf/2011.03395.pdf

文章中,研究人員表明:在現代機器學習系統中,一個特別容易造成故障的問題是不規范。

而且,在各種各樣的實際機器學習(ML)系統中都經常會出現不規范,所以,谷歌對此提出了一些緩解策略。

什么是不規范?

不規范背后的意思是,雖然機器學習模型在保留的數據上進行過驗證,但這種驗證通常不足以保證模型在新環境中使用時,依然具有明確定義的行為。

ML系統之所以成功,很大程度上是因為它們在保留數據集上,對模型進行了驗證,靠這樣的方式來確保模型的高性能。

模型驗證流程

然而,對于固定的數據集和模型架構,通常有許多不同的方法,可以使訓練好的模型獲得高驗證性能。

但是在標準的預測任務中,編碼不同解決方案的模型通常被視為等價的,因為它們的持續預測性能大致相等。

但是,如果以超出標準預測性能的標準來衡量這些模型時,它們之間的區別就會變得很明顯,這就是要考驗這些模型對不相關的輸入擾動的公平性或魯棒性。

舉個例子,在標準驗證中表現同樣出色的模型中,一些模型可能在社會群體和人種之間表現出比其他模型更大的性能差異,或者更加依賴不相關的信息。

輕微擾動就可以讓深度學習網絡完全失靈

那么,當這些模型用于現實場景時,這些差異就會轉化為預測行為上的真正差異。

不規范會導致研究人員在構建ML模型時想到的需求和ML管道(即模型的設計和實現)實際執行的需求之間的差距。

一個重要后果就是,ML管道原則上可以返回一個滿足研究需求的模型,可是,這樣一來,在實踐中,這個模型也就只能滿足對保留數據的準確預測,而對超出這些數據分布的數據,它卻無能為力。

如何識別應用中的不規范?

這項工作研究了在現實應用中,使用機器學習模型時,不規范的具體含義。

谷歌給出的策略是使用幾乎相同的機器學習(ML)管道來構建模型集,只對其施加對非常小的改變,這種改變之小,即使是對他們同時進行標準驗證,性能也不會有實際影響。這種策略的重點是關注模型初始化訓練和確定數據排序的隨機種子。

ML Pipeline示意圖

如果這些小變化會對模型的重要屬性帶來實質性影響,那么,就說明ML管道沒有完全指出模型在真實世界會出現的行為。而研究人員在實驗的每個領域中,都發現了這些微小的變化會導致模型的行為在現實世界的使用中出現實質性變化。

計算機視覺中的不規范

舉一個例子,你可以想想計算機視覺中不規范與魯棒性的關系。

計算機視覺中的一個主要挑戰是,深度學習模型在人類認為沒什么挑戰性的分布變化下,經常會變得脆弱。

眾所周知,在ImageNet基準測試中,表現良好的圖像分類模型在ImageNet-C等基準測試中表現不佳,只不過是因為這些測試將常見的圖像損壞(如像素化或運動模糊)應用于標準ImageNet測試集。所以,在實驗中,標準管道沒有規定出模型對這些破壞的敏感度。

ImageNet-C數據集樣例

按照上面的策略,使用相同的管道和相同的數據生成50個ResNet-50圖像分類模型。這些模型之間的唯一區別是訓練中使用的隨機種子。

當在標準的ImageNet驗證集上進行評估時,這些模型實際上獲得了相同的性能。然而,當模型在ImageNet-C(即在損壞的數據上)中的不同測試集上進行評估時,模型的測試性能變化比在標準的ImageNet上驗證大幾個數量級。

就算是在大得多的數據集上進行預訓練的大規模模型,像在JFT-300M的3億圖像數據集上預先訓練的BiT-L模型,這種不規范持續存在。對于這些模型,在訓練的微調階段改變隨機種子會產生類似的變化。

左圖:在嚴重損壞的ImageNet-C數據上,相同的隨機初始化的ResNet-50模型之間的精度變化。線條表示集合中每個模型在使用未損壞測試數據和損壞數據(像素化、對比度、運動模糊和亮度改變)的分類任務中的性能。給定值是相對于總體平均值的精度偏差,用在「干凈的」ImageNet測試集上的精度標準偏差來衡量。黑色實線突出顯示了任意選擇的模型的性能,以顯示一個測試的性能如何不能很好地指示其他測試的性能。

右圖:標準ImageNet測試集中的示例圖像,其中包含ImageNet-C基準測試的損壞版本。

另外,在專門為醫學成像構建的專用計算機視覺模型中,這個問題也同樣存在。其中深度學習模型顯示出巨大的前景。

這里以兩個應用方向為例,一個是眼科方向,用于從視網膜眼底圖像檢測糖尿病視網膜病變,另一個是皮膚病方向,從皮膚的照片判斷患者的皮膚病情況。

研究人員對實際重要的維度上對這些pipeline生成的模型進行了壓力測試。

對于眼科方向,研究人員測試了以不同隨機種子訓練的模型,在訓練期間未遇見的新相機拍攝的圖像時的執行結果。

對于皮膚科方向,測試思路大致相似,但針對的是皮膚類型不同的患者。

左上:在來自不同相機類型的圖像上評估時,使用不同隨機種子訓練的糖尿病視網膜病變分類模型之間的AUC變化。左下:在不同的估計皮膚類型上評估時,使用不同隨機種子訓練的皮膚狀況分類模型之間的準確性差異(由皮膚科醫生訓練的外行根據回顧性照片進行近似,可能會出現標記錯誤)。右圖:來自原始測試集(左)和壓力測試集(右)的示例圖像。

結果顯示,標準驗證確實不足以完全體現訓練模型在這些任務上的性能。比如在眼科方向的測試中,訓練中使用的隨機種子導致模型在面對新相機拍出的圖片時,出現了比標準驗證集更大的變量波動。

這些結果再次表明,單獨的標準保持測試不足以確保醫療應用中模型的可靠性,需要對用于醫療領域模型的測試和驗證協議進行擴展。在醫學文獻中,這些驗證被稱為「外部驗證」。

除了醫學領域外,分類不規范導致的問題在其他應用領域也同樣存在。比如:

  • 在NLP任務中,分類不規范會影響由BERT模型衍生出的句子。

  • 在急性腎損傷預測任務重,分類不規范會導致對操作信號與生理信號的更多依賴。

  • 在多基因風險評分 (PRS)任務中,分類不規范會影響 PRS 模型的性能。

結論

解決不規范問題是頗具挑戰性的,它需要對超出標準預測性能的模型進行完整的規范和測試。要做到這一點,需要充分了解模型使用環境,了解如何收集訓練數據,而且在可用數據不足時,需要結合領域內的專業知識。

而上述幾點恰恰在當今的機器學習研究中經常被低估。長期以來,對于這些領域的投入是不足的。

要解決這個問題,首先需要為機器學習實用模型指定新的壓力測試協議,對現有的測試方式進行擴展。在將新的測試標準編入可衡量的指標之后,通過數據增強、預訓練和因果結構等算法策略,可能有助于改進這些模型的性能。

但同樣應該注意的是,理想的壓力測試和改進過程通常需要迭代,因為機器學習系統需求和使用它們的世界都在不斷變化。

 

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-06-10 00:00:00

AI紅利員工

2024-04-15 08:00:00

AI程序員

2024-10-09 14:55:00

2018-04-04 16:37:55

2025-02-12 10:05:00

AILLM訓練

2025-02-28 08:00:00

AI工廠數據中心GPU

2024-11-20 13:11:43

2019-05-06 10:50:44

AI智能算法

2018-06-20 12:53:21

戴爾

2022-01-06 15:18:47

盜竊團伙攻擊勒索軟件

2025-01-26 15:31:27

2019-08-08 10:36:55

AI 數據人工智能

2023-12-11 21:43:47

2009-05-30 09:33:10

Palm PreWebOS移動OS

2022-01-13 10:09:26

微軟MacOS系統漏洞

2020-09-27 14:23:36

AI

2023-05-17 17:14:50

2025-05-26 08:30:00

AI企業安全AI安全

2024-06-25 17:13:36

2025-02-26 07:55:14

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日本三级全黄三级a | 亚洲国产成人av | 国产在线观看网站 | 看片地址| 欧美自拍视频 | 久热久热 | 天堂素人约啪 | 成人综合一区 | 日韩靠逼 | 欧美日韩国产在线观看 | 成人九区 | 欧美激情精品久久久久久 | 日本污视频 | 欧美精品一区二区三区在线播放 | 久久久精品 | 欧美aaa级 | 国产高清精品在线 | 狠狠干网| 天天草天天操 | 国产精品精品视频 | 91精品国产一区二区在线观看 | 日本一区二区三区视频在线 | 欧美中文 | 亚洲女人天堂成人av在线 | 欧美视频1区 | 亚洲精品日韩综合观看成人91 | 中文字幕在线第二页 | 成人在线不卡 | 久久躁日日躁aaaaxxxx | 日韩精品一区在线 | 成人在线视频一区二区三区 | 亚洲人va欧美va人人爽 | 亚洲精品国产成人 | 精品欧美乱码久久久久久1区2区 | 91在线播 | jlzzjlzz欧美大全 | a在线免费观看视频 | 久久久久久久久久久久久九 | 国产精品视频网 | 欧美一区二 | 欧美日韩在线观看一区 |