成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌:性能不佳的微調模型不要扔,求一下平均權重就能提升性能

人工智能 新聞
Module soup一共有三種“配方”(實現):統一湯(uniform soup)、貪婪湯(greedy soup)和學習湯(learned soup)。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

如何最大限度地提升模型精度

最近,谷歌等機構發現:

性能不好的微調模型先不要扔,求一下平均權重!

就能在不增加推理時間以及內存開銷的情況下,提高模型的準確性和魯棒性。

比如,研究人員就使用該方法創造了ImageNet1K的新紀錄:90.94%。

將它擴展到多個圖像分類以及自然語言處理任務中,也能提高模型的分布外性能,并改善新下游任務的零樣本性能。

而這個方法還有一個有趣的名字,叫Module soup——

是不是讓人一下子就讓人聯想到了斐波那契湯的笑話?(昨天的湯+前天的湯=今天的新湯)

△ 知乎網友@hzwer,已授權

一共三種配方

回想一下在此之前,大家是如何給模型漲點的呢?

是不是先用各種超參數訓練出多個微調模型,然后再挑出驗證集上表現最好的那一個留下,其余丟掉?

由于神經網絡是非線性的,在不同的loss basin中可能有許多解,因此Module soup這一采用保留所有微調模型的權重,對其進行平均的方法就可以提高性能,還是讓人有點驚訝的。

不過,最近就已有研究發現,從相同的初始化配置中中獨立優化的微調模型,位于相同的誤差范圍內 (lie in the same basin of the error landscape)

之前也有研究證明,沿單個訓練軌跡進行權重平均,可以提高隨機初始化訓練模型的性能。

作者正是從這些結論中受到啟發。

Module soup一共有三種“配方”(實現):統一湯(uniform soup)、貪婪湯(greedy soup)和學習湯(learned soup)

其中greedy soup是最主要采用的實現,因為它的性能比直接均勻地平均所有權重更高。

具體來說,Greedy soup通過順序添加每個模型作為“湯”中的潛在成分構建而成,并且只有在保持驗證集上的性能有所提高時才將相應模型保留在“湯”中。

排序按驗證集精度的降序排列。

性能超越單個最佳微調模型

作者進行了全面的微調實驗來確定Module soup的有效性。

首先是微調CLIP和ALIGN,這兩個模型在圖像-文本對上進行了對比損失預訓練。

結果經過module soup操作后,兩者在分布內和自然分布轉移(distribution shifts)測試集上的表現都比最佳的單個微調模型性能更佳。

△ 左為CLIP,右為ALIGN

然后是在JFT數據集上預訓練的ViT-G模型。

也就是它在ImageNet1K數據集實現了90.94%的精度,打破了此前CoAtNet保持的90.88%,同時在推理階段還減少了25%的FLOPs。

在圖像分類任務以外,作者在NLP領域也對module soup進行了驗證。

下表是BERT和T5模型在GLUE benchmark的四個文本分類任務上的結果:

可以發現,雖然改進不如圖像分類中的效果明顯,但在多數任務下,greedy soup都可以相較最好的單個模型提高性能。

當然,作者也指出,module soup在適用性等方面存在局限,比如現在測試的都是在大型異構數據集上預先訓練的模型,在這些模型之外,效果并不是非常明顯。

最后,知乎網友@宮醬手藝人表示,其實這樣的模型參數平均是一個經典trick,transformer原始論文就用了。

你發現了嗎?

論文地址:
?https://arxiv.org/abs/2203.0548

責任編輯:張燕妮 來源: 量子位
相關推薦

2022-03-25 22:25:10

AI模型訓練

2025-06-18 11:16:50

大模型性能KV-Cache

2023-03-01 15:14:48

數據集機器學習

2013-11-21 11:03:29

Nginx性能優化

2020-07-17 08:36:16

JVM性能監控

2024-02-21 12:10:00

模型數據

2024-04-11 08:00:00

人工智能機器學習

2013-12-25 09:32:52

測試平均性能

2023-08-16 17:44:38

2022-11-25 17:24:20

谷歌研究

2013-05-22 09:38:03

GoGo語言Go性能

2021-10-25 10:23:49

Webpack 前端Tree shakin

2024-03-27 13:34:00

模型訓練

2017-03-22 14:08:33

閃存存儲DIMM

2017-07-04 17:43:07

架構CQRSEvent Sourc

2016-09-29 15:51:27

LinuxNtop性能

2024-04-07 07:46:00

谷歌架構

2020-05-28 13:20:49

算法谷歌性能

2023-11-14 18:04:26

SQL語句性能

2022-02-07 15:05:07

模型AI訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 黄色大片免费网站 | 亚洲三级av | 欧美在线观看一区二区 | 日韩视频免费看 | 国产成人精品视频在线观看 | 拍真实国产伦偷精品 | 国产亚洲精品久久久久久牛牛 | 免费在线观看一区二区三区 | 91精品国产综合久久国产大片 | 在线成人福利 | 一区二区免费看 | 欧美福利 | 日日爱视频 | 精产国产伦理一二三区 | 一区二区三区在线免费观看 | 欧美国产精品一区二区三区 | 日韩中文在线观看 | 成人午夜激情 | av黄在线观看 | 免费视频中文字幕 | 日韩视频一区二区在线 | 亚洲精品v| 亚洲日韩中文字幕一区 | 久久99精品久久久久 | 视频一区 国产精品 | 国产一区二区 | 国产综合视频 | 成人一级片在线观看 | 国产一区 日韩 | 国产乱码精品一区二区三区五月婷 | 国产免费让你躁在线视频 | 日韩一区中文字幕 | 一区二区三区高清 | 国产精品123区 | 一区二区三区视频在线观看 | 亚洲精品欧美一区二区三区 | 亚洲欧美在线视频 | 国产视频中文字幕在线观看 | 在线播放国产一区二区三区 | 国产成人99av超碰超爽 | 精品久久久久久久久久久久 |