成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI自給自足!用合成數據做訓練,效果比真實數據還好

人工智能 新聞
作者們分別從零樣本(zero-shot)、少樣本(few-shot)圖像分類、模型預訓練(pre-training)與遷移學習三個??進?了探討。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

AI生成的圖像太逼真,為什么不能拿來訓練AI呢?

可別說,現在還真有人這么做了。

來自香港大學、牛津大學和字節跳動的幾名研究人員,決定嘗試一下能否使用高質量AI合成圖片,來提升圖像分類模型的性能。

為了避免AI合成的圖像過于單一、或是質量不穩定,他們還提出了幾類提升數據多樣性和可靠性的方法,幫助AI合成更好的數據集(來喂給AI的同類doge)

結果他們發現,不僅效果不錯,有的AI在訓練后,效果竟然比用真實數據訓練還要好

圖片

目前這篇論文已經被ICLR 2023收錄。

圖片

把AI生成的數據喂給AI

作者們分別從零樣本(zero-shot)、少樣本(few-shot)圖像分類、模型預訓練(pre-training)與遷移學習三個??進?了探討,并給出了提升數據多樣性與可靠性的方法。

零樣本圖像分類

零樣本(Zero-shot)圖像分類任務,指沒有任何?標類別的訓練圖?,只有對?標類別的描述。

作者們先是提出了一種名為語言增強(Language Enhancement,LE)的?法,用于增強合成數據多樣性。

具體來說,這種方法會給標簽“擴句”,如果原標簽是簡單的“飛機”,那么經過“擴句”后的提示詞就會變成“一架盤旋在海灘和城市上空的白色飛機”。

隨后,還采用了一種叫做CLIP過濾器(CLIP Filter)的?法確保合成數據的可靠性,即過濾掉合成質量不行的圖片,確保AI數據質量過硬。?

在17個數據集上,相?此前效果最好的CLIP模型,相關??模型均獲得了顯著提升(4.31%/2.90%),展示了合成數據的有效性。

少樣本圖像分類

少樣本圖像(Few-shot)分類任務,通常僅有極少數量(1~16張)的?標類別圖?,與零樣本任務的區別是增加了類別與任務特定領域信息。

因此,作者們決定將域內數據(in-domain)的知識?于圖像?成,即將少量的?標類別圖??于噪聲疊加的初始狀態(Real Guidance),進?步發揮?成模型的能?,從而進?步提升性能。

圖片

圖片

預訓練與遷移學習

模型預訓練(pre-training)任務,即將模型在?量數據上進?訓練,將訓練后的模型作為“起始點”,來幫助提升下游任務的性能。

作者們利?合成數據,對模型進?了預訓練,并對數據量、數據多樣性程度、預訓練模型結構和預訓練?法進?了實驗研究。

最終發現:

  1. ?合成數據進?預訓練。已經可以達到甚?超越?真實數據預訓練的效果。
  2. ?更?的數據量和數據多樣性的合成數據,可以獲得更好的預訓練效果。
  3. 從模型結構和預訓練?法來看,ViT-based模型(相比convolutional-based模型)、?監督?法(相比有監督?法)會更適合合成數據下的預訓練。

圖片

論文認為,利??成模型產?的合成數據來幫助圖像分類任務是可行的,不過也存在?定的局限性。

例如,如何處理特定任務的domain gap和數據多樣性之間的trade-off,以及如何更有效地利?潛在?窮量的合成圖??于預訓練,都是需要進一步去解決的問題。

作者介紹

圖片

一作何睿飛,香港大學在讀博士生@CVMI Lab,指導老師為齊曉娟老師,本科畢業于浙江大學竺可楨學院,研究方向是data-efficient learning, vision-language model, knowledge distillation, semi/self-supervised learning。CVMI Lab 正在招收計算機視覺與深度學習方向的博士生,感興趣的伙伴可以直接email老師!

對于將AI合成圖像用于預訓練模型這件事,你還能想到更高效的方法嗎?

歡迎感興趣的小伙伴一起討論~

論文地址:
?https://arxiv.org/abs/2210.07574?

項目地址:
?https://github.com/CVMI-Lab/SyntheticData

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-12-25 07:46:01

Go語言循環

2018-08-01 14:31:00

ELONCITY

2024-03-25 11:36:32

2024-09-14 13:50:00

AI訓練

2021-03-19 10:50:40

人工視覺人工智能 智能眼鏡

2022-06-13 11:18:08

合成數據AIML

2021-03-23 23:17:18

AI人工智能

2023-08-01 15:46:18

數據

2023-08-13 14:48:14

OpenAIAI模型

2022-04-17 23:13:02

人工智能元宇宙數據

2024-04-18 08:38:15

LLM數據訓練模型

2022-03-30 14:30:34

人工智能機器學習模型

2015-10-30 14:56:40

真實數據欺騙

2024-12-02 12:24:15

2022-08-11 08:00:00

機器學習合成數據深度學習

2025-06-04 03:00:00

人工智能AI智能訓練

2025-03-06 00:15:00

3D場景數據

2021-12-07 09:00:00

測試數據自動化數據隱私

2021-12-30 09:40:33

CentOS家庭實驗室Linux
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲综合视频 | 欧美视频免费在线 | 四虎影院新地址 | 精品视频在线观看 | 日韩视频国产 | 羞羞的视频免费在线观看 | 超黄毛片 | 国产精品久久久久久影院8一贰佰 | 香蕉视频黄色 | 一区二区三区在线播放视频 | 一区二区三区亚洲 | 欧美一级小视频 | 国产高清视频一区二区 | 一级黄色毛片免费 | 久久亚洲91 | 国产在线a| 国产精品一区二区久久久久 | 夜夜草 | 毛片a级毛片免费播放100 | 日韩最新网址 | 成人免费网站www网站高清 | 精品久久精品 | 亚洲人成人一区二区在线观看 | 拍真实国产伦偷精品 | 国产91av视频在线观看 | 午夜电影网 | 国产精品区一区二区三区 | 亚洲一二三视频 | 一区二区三区播放 | 国产精品成人一区二区三区 | 色综合一区二区 | 性高湖久久久久久久久aaaaa | 国产精品美女www爽爽爽 | 91精品久久久久久久久 | 在线播放91| 人人草人人干 | 亚洲高清一区二区三区 | 久久久久久国产精品 | 一区二区三区小视频 | 亚洲欧美一区二区三区国产精品 | 欧美一区二区三区在线 |