成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

后Sora時代,CV從業者如何選擇模型?卷積還是ViT,監督學習還是CLIP范式

人工智能 新聞
如何衡量一個視覺模型?又如何選擇適合自己需求的視覺模型?MBZUAI和Meta的研究者給出了答案。

一直以來,ImageNet 準確率是評估模型性能的主要指標,也是它最初點燃了深度學習革命的火種。但對于今天的計算視覺領域來說,這一指標正變得越來越不「夠用」。

因為計算機視覺模型已變得越來越復雜,從早期的 ConvNets 到 Vision Transformers,可用模型的種類已大幅增加。同樣,訓練范式也從 ImageNet 上的監督訓練發展到自監督學習和像 CLIP 這樣的圖像 - 文本對訓練。

ImageNet 并不能捕捉到不同架構、訓練范式和數據所產生的細微差別。如果僅根據 ImageNet 準確率來判斷,具有不同屬性的模型可能看起來很相似。當模型開始過度擬合 ImageNet 的特異性并使準確率達到飽和時,這種局限性就會變得更加明顯。

CLIP 就是個值得一提的例子:盡管 CLIP 的 ImageNet 準確率與 ResNet 相似,但其視覺編碼器的穩健性和可遷移性要好得多。這引發了對 CLIP 獨特優勢的探索和研究,如果當時僅從 ImageNet 指標來看,這些優勢并不明顯。這表明,分析其他屬性有助于發現有用的模型。

此外,傳統的基準并不能完全反映模型處理真實世界視覺挑戰的能力,例如不同的相機姿勢、光照條件或遮擋物。例如,在 ImageNet 等數據集上訓練的模型往往很難將其性能應用到現實世界的應用中,因為現實世界的條件和場景更加多樣化。

這些問題,為領域內的從業者帶來了新的困惑:如何衡量一個視覺模型?又如何選擇適合自己需求的視覺模型?

在最近的一篇論文中,MBZUAI 和 Meta 的研究者對這一問題開展了深入討論。

圖片


  • 論文標題:ConvNet vs Transformer, Supervised vs CLIP:Beyond ImageNet Accuracy
  • 論文鏈接:https://arxiv.org/pdf/2311.09215.pdf

論文聚焦 ImageNet 準確性之外的模型行為,分析了計算機視覺領域的四個主要模型:分別在監督和 CLIP 訓練范式下的 ConvNeXt(作為 ConvNet 的代表)和 Vision Transformer (ViT) 。

所選模型的參數數量相似,且在每種訓練范式下對 ImageNet-1K 的準確率幾乎相同,確保了比較的公平性。研究者深入探討了一系列模型特性,如預測誤差類型、泛化能力、習得表征的不變性、校準等,重點關注了模型在沒有額外訓練或微調的情況下表現出的特性,為希望直接使用預訓練模型的從業人員提供了參考。

圖片

在分析中,研究者發現不同架構和訓練范式的模型行為存在很大差異。例如,模型在 CLIP 范式下訓練的分類錯誤少于在 ImageNet 上訓練。不過,監督模型的校準效果更好,在 ImageNet 穩健性基準測試中普遍更勝一籌。ConvNeXt 在合成數據上有優勢,但比 ViT 更偏重紋理。同時,有監督的 ConvNeXt 在許多基準測試中表現出色,其可遷移性表現與 CLIP 模型相當。

可以看出,各種模型以獨特的方式展現了自己的優勢,而這些優勢是單一指標無法捕捉到的。研究者強調,需要更詳細的評估指標來準確選擇特定情境下的模型,并創建與 ImageNet 無關的新基準。

基于這些觀察,Meta AI 首席科學家 Yann LeCun 轉發了這項研究并點贊:

圖片

模型選擇

對于監督模型,研究者使用了 ViT 的預訓練 DeiT3- Base/16,它與 ViT-Base/16 架構相同,但訓練方法有所改進;此外還使用了 ConvNeXt-Base。對于 CLIP 模型,研究者使用了 OpenCLIP 中 ViT-Base/16 和 ConvNeXt-Base 的視覺編碼器。

請注意,這些模型的性能與最初的 OpenAI 模型略有不同。所有模型檢查點都可以在 GitHub 項目主頁中找到。詳細的模型比較見表 1:

圖片

對于模型的選擇過程,研究者做出了詳細解釋:

1、由于研究者使用的是預訓練模型,因此無法控制訓練期間所見數據樣本的數量和質量。

2、為了分析 ConvNets 和 Transformers,之前的許多研究都對 ResNet 和 ViT 進行了比較。這種比較通常對 ConvNet 不利,因為 ViT 通常采用更先進的配方進行訓練,能達到更高的 ImageNet 準確率。ViT 還有一些架構設計元素,例如 LayerNorm,這些元素在多年前 ResNet 被發明時并沒有納入其中。因此,為了進行更平衡的評估,研究者將 ViT 與 ConvNeXt 進行了比較,后者是 ConvNet 的現代代表,其性能與 Transformers 相當,并共享了許多設計。

3、在訓練模式方面,研究者對比了監督模式和 CLIP 模式。監督模型在計算機視覺領域一直保持著最先進的性能。另一方面,CLIP 模型在泛化和可遷移性方面表現出色,并提供了連接視覺和語言表征的特性。

4、由于自監督模型在初步測試中表現出與監督模型類似的行為,因此未被納入結果中。這可能是由于它們最終在 ImageNet-1K 上進行了有監督的微調,而這會影響到許多特性的研究。

接下來,我們看下研究者如何對不同的屬性進行了分析。

分析

模型錯誤

ImageNet-X 是一個對 ImageNet-1K 進行擴展的數據集,其中包含對 16 個變化因素的詳細人工注釋,可對圖像分類中的模型錯誤進行深入分析。它采用錯誤比例度量(越低越好)來量化模型在特定因素上相對于整體準確性的表現,從而對模型錯誤進行細致入微的分析。ImageNet-X 的結果表明:

1. 相對于監督模型,CLIP 模型在 ImageNet 準確性方面犯的錯誤更少。

2. 所有模型都主要受到遮擋等復雜因素的影響。

3. 紋理是所有模型中最具挑戰性的因素。

圖片

形狀 / 紋理偏差

形狀 - 紋理偏差會檢測模型是否依賴于脆弱的紋理捷徑,而不是高級形狀線索。這種偏差可以通過結合不同類別的形狀和紋理的線索沖突圖像來研究。這種方法有助于了解,與紋理相比,模型的決策在多大程度上是基于形狀的。研究者對線索沖突數據集上的形狀 - 紋理偏差進行了評估,發現 CLIP 模型的紋理偏差小于監督模型,而 ViT 模型的形狀偏差高于 ConvNets。

圖片

模型校準

校準可量化模型的預測置信度與其實際準確度是否一致,可以通過預期校準誤差 (ECE) 等指標以及可靠性圖和置信度直方圖等可視化工具進行評估。研究者在 ImageNet-1K 和 ImageNet-R 上對校準進行了評估,將預測分為 15 個等級。在實驗中,研究者觀察到以下幾點:

圖片

1. CLIP 模型過于自信,而監督模型則略顯不足。

2. 有監督的 ConvNeXt 比有監督的 ViT 校準效果更好。

穩健性和可遷移性

模型的穩健性和可遷移性對于適應數據分布變化和新任務至關重要。研究者使用各種 ImageNet 變體對穩健性進行了評估,結果發現,雖然 ViT 和 ConvNeXt 模型的平均性能相當,但除 ImageNet-R 和 ImageNet-Sketch 外,有監督模型在穩健性方面普遍優于 CLIP。在可遷移性方面,通過使用 19 個數據集的 VTAB 基準進行評估,有監督的 ConvNeXt 優于 ViT,幾乎與 CLIP 模型的性能相當。

圖片

合成數據

PUG-ImageNet 等合成數據集可以精確控制攝像機角度和紋理等因素,是一種很有前景的研究路徑,因此研究者分析了模型在合成數據上的性能。PUG-ImageNet 包含逼真的 ImageNet 圖像,姿態和光照等因素存在系統性變化,性能以絕對 top-1 準確率為衡量標準。研究者提供了 PUG-ImageNet 中不同因素的結果,發現 ConvNeXt 在幾乎所有因素上都優于 ViT。這表明 ConvNeXt 在合成數據上優于 ViT,而 CLIP 模型的差距較小,因為 CLIP 模型的準確率低于監督模型,這可能與原始 ImageNet 的準確率較低有關。

圖片

變換不變性

變換不變性是指模型能夠產生一致的表征,不受輸入變換的影響從而保留語義,如縮放或移動。這一特性使模型能夠在不同但語義相似的輸入中很好地泛化。研究者使用的方法包括調整圖像大小以實現比例不變性,移動 crops 以實現位置不變性,以及使用插值位置嵌入調整 ViT 模型的分辨率。

他們在 ImageNet-1K 上通過改變 crop 比例 / 位置和圖像分辨率來評估比例、移動和分辨率的不變性。在有監督的訓練中,ConvNeXt 的表現優于 ViT??傮w而言,模型對規模 / 分辨率變換的穩健性高于對移動的穩健性。對于需要對縮放、位移和分辨率具有較高穩健性的應用,結果表明有監督的 ConvNeXt 可能是最佳選擇。

圖片

總結

總體來說,每種模型都有自己獨特的優勢。這表明模型的選擇應取決于目標用例,因為標準性能指標可能會忽略特定任務的關鍵細微差別。此外,許多現有的基準都來自于 ImageNet,這也會使評估產生偏差。開發具有不同數據分布的新基準對于在更具現實世界代表性的環境中評估模型至關重要。

以下是本文結論的概括:

ConvNet 與 Transformer

1. 在許多基準上,有監督 ConvNeXt 的性能都優于有監督 ViT:它的校準效果更好,對數據轉換的不變性更高,并表現出更好的可遷移性和穩健性。

2. ConvNeXt 在合成數據上的表現優于 ViT。

3. ViT 的形狀偏差更大。

監督與 CLIP

1. 盡管 CLIP 模型在可轉移性方面更勝一籌,但有監督的 ConvNeXt 在這項任務中表現出了競爭力。這展示了有監督模型的潛力。

2. 有監督模型在穩健性基準方面表現更好,這可能是因為這些模型都是 ImageNet 變體。

3. CLIP 模型的形狀偏差更大,與 ImageNet 的準確性相比,分類錯誤更少。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-03-04 14:16:45

安全從業者甲方乙方

2015-10-20 09:28:44

云時代IT從業者職業技能

2010-12-01 11:44:56

IT從業者

2020-07-15 07:42:12

人工智能

2021-01-24 08:42:39

人工智能AI

2011-06-13 20:44:06

SEO

2009-03-23 09:39:31

IT人員二次培訓人才升級

2018-02-25 05:23:11

區塊鏈求職招聘

2023-11-23 15:54:01

人工智能監督學習無監督學習

2012-04-23 10:00:14

虛擬化虛擬化從業者

2018-09-06 11:25:46

機器學習神經網絡人工智能

2009-01-12 14:47:57

經濟 互聯網

2015-06-24 14:29:07

PaaSPaaS困境

2010-11-24 10:59:40

跳槽

2014-07-28 09:47:16

游戲游戲收入游戲從業

2018-11-19 07:10:04

安全從業者網絡安全信息安全

2015-03-31 09:39:40

2020-04-28 17:26:04

監督學習無監督學習機器學習

2017-02-15 20:05:28

網絡安全工具信息安全

2018-01-23 07:28:30

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久夜夜夜 | 欧美一区2区三区3区公司 | 欧美乱操 | 亚洲精品久久区二区三区蜜桃臀 | 欧美在线视频观看 | 日韩午夜电影在线观看 | 精品视频一区在线 | 日韩精品极品视频在线观看免费 | 国产美女精品视频 | 亚洲黄色在线免费观看 | 精品欧美一区二区三区久久久 | 天天综合久久网 | 亚洲精品一区二区在线观看 | 成人在线免费观看av | 刘亦菲国产毛片bd | 国内自拍偷拍 | 欧美一级黄带 | 久久久一二三区 | 欧美一二精品 | 性色网站 | 亚洲精品av在线 | www.奇米| 国产一区二区 | 国产精品成av人在线视午夜片 | 涩涩导航 | 欧美日韩国产一区二区 | 久久久久久久久久性 | 国产成人精品综合 | 2018天天干天天操 | 91麻豆精品国产91久久久久久 | 久久性色 | 波多野结衣中文字幕一区二区三区 | 黄色片视频免费 | 东京久久 | 国产乱码精品一区二区三区五月婷 | 91精品国产色综合久久 | 国产探花| 成人国产精品色哟哟 | 99色综合| 黑人精品欧美一区二区蜜桃 | 国产女人与拘做受视频 |