成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

標準出現問題,人工智能正在走向錯誤的方向

人工智能 深度學習
我的這篇文章不是第一篇(也不會是最后一篇)討論人工智能界如何按自身規律發展的文章。正如不久前漢娜·克納(Hannah Kerner)的話:“很多AI研究人員認為現實世界中的問題無關緊要。社區過度關注新方法,卻忽略了真正要緊的事情?!?

本文轉載自公眾號“讀芯術”(ID:AI_Discovery)

 我的這篇文章不是第一篇(也不會是最后一篇)討論人工智能界如何按自身規律發展的文章。正如不久前漢娜·克納(Hannah Kerner)的話:“很多AI研究人員認為現實世界中的問題無關緊要。社區過度關注新方法,卻忽略了真正要緊的事情。”

[[343513]]

許多大型會議公然忽視了應用型論文,這些文章聚焦于使用目前的技術解決現實世界中的問題,其中很多文章還關注在此過程中面臨的挑戰。程序是虛無縹緲的,目標檢測額外精準10%,遠比減少癌癥死亡的1%更有價值。

人工智能界忽略了一個顯而易見的事實:深度學習是一門實驗科學。雖然神經網絡脈絡清晰,但它是一個難以解釋的龐大的非線性系統。盡管越來越多的研究致力于闡釋神經網絡,但神經網絡依然像以前一樣神秘??茖W方法是我們理解神經網絡的唯一可靠工具,因為它植根于實驗。

而矛盾之處在于,盡管神經網絡的本質是實驗,但是這個領域卻拒絕純粹的實驗。一般,一篇神經網絡的論文首先介紹其新穎之處,然后嘗試形式證明,接著做消融研究,最后得出結論。這是根據實驗得出的結論。

想象一下,如果土木工程師們決定創造與眾不同的橋梁設計,卻選擇在桌子大小的樂高復制品上進行驗證。沒有使用真實建筑材料進行昂貴的仿真模擬或試驗,你敢相信新提出的設計方案嗎?你會特別信任這些實驗,然后投資數百萬美元來實現它們嗎?不管你敢不敢,反正我是不敢。

簡化的世界模型對于快速構建原型和嘗試想法非常有用。但為了實際驗證,你需要在真實的世界中進行嘗試。這是一個兩步走的過程。

現代AI研究停滯在前半段——基準這一問題上,實際的使用案例是后半段。ImageNet、COCO、CIFAR-10,這些都是人工智能的樂高。它們讓我們實驗新的想法,摒棄不佳的構思,它們是很好的工具。然而,它們只是達到目的的一種手段,而不是目的本身。

這并不是說當前的研究是錯的,關鍵問題在于學術界與現實世界之間的脫節。

看看這個圖表:該圖介紹了COCO目標檢測基準的最新進展,每一個小點都是一個不同的模型——一種新技術或現有技術的融合,領跑者用藍色標出。

 

標準出現問題,人工智能正在走向錯誤的方向

 

COCO測試開發排行榜上帶有編碼的論文

該圖表顯示了從2016年1月的28.8點到2020年7月的55.1點的軌跡。取得的進步是無可否認的,從圖中可以看出,EfficientDet D7x是目前最好的目標檢測技術。但是,問你一個問題:你會在應用程序中使用哪一個模型?

你很可能無法作答,因為你不知道我說的是哪個應用程序,也不知道它有哪些要求。它需要實時運行嗎?它能在移動設備上運行嗎?它需要識別多少類?用戶對錯誤檢測的容忍度有多大……

依據答案,以上這些都不值得考慮,甚至連EfficientDet D7x都不值得考慮。如果模型必須在手機上實時運行,那么即使略微調整這些模型,也執行不了。更糟糕的是,不能保證這些模型能在連續幀之間產生一致的檢測結果。我甚至不能說出一個要求最高檢測質量的應用程序的名字,除了高準確度之外,沒有其他要求。

換句話說,科研界所追求的度量標準只用于研究其本身。

早在2015年,研究發現,神經網絡的深度增加超過12層會對性能造成損害。在著名的殘差網絡(ResNet)論文(https://arxiv.org/abs/1512.03385)中,何凱明博士以及其他幾位學者假設通過跳過連接,連接非連續層可以擴大容量,因為它可以提升梯度流。

第一年,ResNet在幾個基準競賽中取得了優異的成績,如ILSVRC和COCO。但你現在應該已經意識到了這只暗示ResNet是一個重要貢獻,但這不是證據。

ResNet在人工智能歷史上的地位的確切證據是建立在其大量工作上的。ResNet的驚人之處在于它解決不相關問題的數量,而不在它獲勝的競爭。它真正的貢獻在于這個跳過連接的想法,而不是架構本身。

這篇有關Focal Loss(https://arxiv.org/abs/1708.02002)的論文同樣經受住了時間的考驗,確實改進了他人的研究。這篇關于Attention的論文(https://arxiv.org/abs/1706.03762)也遵循同樣的路線。每天都有一篇新文章討論Attention是如何提高某些基準的,以及聚集損失讓Attention變得更好。

重要的不是競賽,而是之后的影響。事實上,2012年ILSVRC的冠軍是AlexNet,而2015年的冠軍是ResNet。你能說出2013年和2014年的獲勝者嗎?2016年、2017年和2018年的挑戰是什么?你能確保每年都舉辦ILSVRC嗎?

你可能會問:為什么沒有更好的基準或更有用的度量標準?我們如何衡量后繼影響?

遺憾的是,我們做不到。我們可以使用引用或下載的計數,Reddit的訪問量或者GitHub的星號標注。然而,這些度量標準都是有瑕疵的。為了進行公平的比較,我們需要考慮到每一個細節,同時從等式中將所有的偏差進行標準化處理,這太難了。

例如,為了比較Attention和ResNet的影響力,我們需要考慮正確使用這些概念,權衡它們的相對影響,并將時間和影響范圍進行標準化處理。很明顯,量化這些屬性的工作量巨大,可能與所有基準或度量標準一樣有缺陷。諸如雜志的影響因素之類的想法甚至沒有觸及這個問題的表面。

有些目標是無法量化的。誰是最有聲望的人?是西方音樂史上最具影響力的作曲家巴赫,還是最具影響力的劇作家莎士比亞?比較他們的作品毫無意義,更不用說他們的領域了。

 

[[343514]]

 

巴赫還是莎士比亞,音樂還是戲劇?

這就走進了死胡同。我們可以測量精確度,可以測量速度,但是無法判定影響力。我們都承認我們需要更先進的科學,但是我們如何斷定一種科學比另一種科學更好呢?我們如何衡量研究和現實之間的脫節?我們希望能和人工智能一起前進,但是我們既不知道前進的方向,也不知道已經走了多遠。

這不僅僅是人工智能的問題。我們想要更健全的政府,更完善的醫療服務,更優質的教育,但是怎樣才能真正量化這些呢?到目前為止,最失敗的方法(也是最普遍的方法)是替代度量,比如COCO AP的得分。

我們無法衡量人工智能的進步,但我們可以測量目前的目標檢測方法有多精準。目標檢測也是AI的一部分,所以,如果能在這方面取得一些進展,我們也可以期待在人工智能方面取得進展。

在我們確定使用COCO之前,我們一直使用ImageNet前5名的結果,所以面臨一個更具挑戰性的問題。我們無法通過訓練檢測模型來提高AP,但是可以教會它們減少邊界盒坐標的L2損失。損失是不可微度量的替代。L2損失不是AP,但低L2損失與高AP相關,所以它是有效的。

從前,識字率是許多國家衡量教育進步的主要指標。幾十年后,在識字率非常高的情況下,更高的學業完成率便是衡量教育進步的重點。然后是更高的大學入學率。我不知道學位與教育之間的關系是否像我們想象的那樣緊密,也不知道高中教的知識是不是他們應該教的,但這是我們今天追求的指標。

從某種意義上說,對于這些問題,沒有什么解決方法是對的。因此,根據定義,所有的路線都是錯誤的。只有盡可能多的嘗試各種途徑,我們才有可能選擇一條相對正確的道路。使用AI術語,我們需要使用更大的批量抓取,并對盡可能多的分布進行采樣。

這意味著我們必須將關注范圍擴大到“準確性”和“速度”之外,還要包括“穩健性”或“連貫性”等內容。最重要的是,我們需要從精心挑選的基準轉向現實世界。

以我研究乳腺癌檢測算法的案例為例,研究員很容易錯將這個領域當成已解決的領域。最近的研究已經在這個主題上取得了超人的成績,但是,這些算法卻無法應用于任何一家醫院。原因很簡單,它并不起作用。

這聽起來有些夸張,但其實非常簡單:即使是同一種東西,即乳房x光片,如果你在數據集a上訓練算法,算法不會在數據集B上工作。

目前沒有已知的技術可以在不進行微調的情況下,在數據集上進行訓練,并在其他數據集上運行良好。你必須針對每臺機器/每家醫院建立數據集,以獲得有用的結果。度量標準合理,這個領域就解決了。實際上,這連開始都難。

最重要的是,算法無法為他們的答案提供幫助。站在醫生的角度想想:你會因為機器是這樣顯示的,就告訴患者他們得了癌癥嗎?你不會,你會再次查看這些圖像。

如果人們不信任人工智能,那么就永遠不會使用它。

到目前為止,已發表的論文的主要評判標準是AUC評分。它告訴你該算法對乳房x光片的良惡性分類有多合理,不會告訴你它對其他數據集有多穩健,或者所有都是可解釋的。換句話說,它從不回答“它有用嗎”這類問題。

發展人工智能沒有正確的道路,但肯定有非常錯誤的道路?;ú涣颂嗟臅r間,你就能發現大多數文獻有多不適用,以及真正緊迫的問題是如何堂而皇之的被人們忽視了。

正如我在開頭所說的,這篇文章并不要指責當前的研究不好,而是說問題的關鍵在于當前學術界和現實世界之間脫節——我們過于狹隘地關注準確性。

發展人工智能不是為了紙上談兵,推動社會發展是真正重要的事,我們希望通過改善人工智能來實現這一點。但只有當我們正視現實的社會問題時,我們才能正確地做到這一點。社會的問題遠比精確的目標檢測更復雜

 

責任編輯:華軒 來源: 讀芯術
相關推薦

2021-03-01 11:42:54

人工智能商業數據

2024-03-27 11:20:08

人工智能數據中心機器學習

2020-05-13 20:40:16

人工智能芯片半導體

2019-08-07 09:30:58

人工智能AI教育革命

2020-03-04 17:42:09

人工智能AI醫藥行業

2024-09-06 15:36:56

2021-04-22 22:40:20

人工智能智慧制造應用

2021-04-19 23:19:05

人工智能數據軟件

2018-02-10 07:59:54

人工智能視頻監控監控攝像頭

2020-09-17 16:01:09

人工智能技術數據

2021-04-08 06:04:04

人工智能AI物聯網

2020-06-29 16:42:41

人工智能

2020-08-21 08:12:56

人工智能技術互聯網

2020-07-02 11:04:04

人工智能ITAI

2020-12-17 13:51:35

人工智能人工智能發展方向

2023-09-11 07:13:19

人工智能物聯網

2020-11-20 07:20:37

人工智能AI

2023-06-16 11:45:53

人工智能

2021-06-21 09:26:46

人工智能AI

2021-09-10 15:15:02

人工智能AI深度學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩中文字幕一区二区三区 | 亚洲欧美精 | 一区在线播放 | 一级片网站视频 | 成人国产免费观看 | 91麻豆久久久| 国产九九九九 | 一级黄色片免费在线观看 | 欧美一级二级视频 | 亚洲网站在线观看 | 99久久99| 久久99精品久久久 | 免费视频久久 | 日韩在线视频观看 | 精品国产黄a∨片高清在线 www.一级片 国产欧美日韩综合精品一区二区 | 中文字幕国产视频 | 亚洲国产欧美一区 | 亚洲欧美日韩精品久久亚洲区 | 91电影院 | 国产欧美日韩一区二区三区在线 | 国产精品v | 天天干天天操天天看 | 国产精品久久久久久久免费观看 | 久久久久国产一区二区三区 | 国产成人福利 | 久久精品久久精品久久精品 | 久久久久国产精品一区三寸 | 欧美视频在线观看 | 中文字幕一区二区三区日韩精品 | 亚洲精品在线播放 | 国产韩国精品一区二区三区 | 爱爱视频网 | 欧美黄色一区 | 新超碰97 | 国产高清视频在线观看 | 97成人在线 | 中文字幕在线免费观看 | 欧美一级毛片免费观看 | 亚洲 欧美 日韩在线 | 日韩av一区二区在线观看 | 国产精品影视在线观看 |