成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

順手訓了一個史上超大ViT?Google升級視覺語言模型PaLI:支持100+種語言

人工智能 新聞
壕無人性!最近Google又利用鈔能力,不僅將語言模型PaLM升級為視覺語言模型,還訓了一個史上最大的ViT模型!

近幾年自然語言處理的進展很大程度上都來自于大規模語言模型,每次發布的新模型都將參數量、訓練數據量推向新高,同時也會對現有基準排行進行一次屠榜!

比如今年4月,Google發布5400億參數的語言模型PaLM(Pathways Language Model)在語言和推理類的一系列測評中成功超越人類,尤其是在few-shot小樣本學習場景下的優異性能,也讓PaLM被認為是下一代語言模型的發展方向。

圖片

同理,視覺語言模型其實也是大力出奇跡,可以通過提升模型的規模來提升性能。

當然了,如果只是多任務的視覺語言模型,顯然還不是很通用,還得支持多種語言的輸入輸出才行。

最近Google就將PaLM擴展升級成PALI(Pathways Language and Image model),兼具多語言和圖像理解的能力,同時支持100+種語言來執行各種橫跨視覺、語言和多模態圖像和語言應用,如視覺問題回答、圖像說明(image caption)、物體檢測、圖像分類、OCR、文本推理等。

圖片

論文鏈接:?https://arxiv.org/abs/2209.06794?

模型的訓練使用的是一個公開的圖像集合,其中包括自動爬取的109種語言的標注,文中也稱之為WebLI數據集。

在WebLI上預訓練的PaLI模型在多個圖像和語言基準上取得了最先進的性能,如COCO-Captions、TextCaps、VQAv2、OK-VQA、TextVQA等等,也超越了先前模型的多語言視覺描述(multilingual visual captioning)和視覺問答的基準。

模型架構

PALI的目標之一是研究語言視覺模型在性能和規模上的聯系是否相同,特別是語言-圖像模型的可擴展性(scalability)。

所以模型的架構設計上就很簡單,主要是為了實驗方便,尤其是可重復使用且可擴展。

圖片

模型由一個處理輸入文本的Transformer編碼器和一個生成輸出文本的自回歸Transformer解碼器組成。

在處理圖像時,Transformer編碼器的輸入還包括代表由ViT處理的圖像的視覺詞(visual words)。

PaLI模型的一個關鍵設計是重用,研究人員用之前訓練過的單模態視覺和語言模型(如mT5-XXL和大型ViTs)的權重作為模型的種子,這種重用不僅使單模態訓練的能力得到遷移,而且還能節省計算成本。

模型的視覺組件使用的是迄今為止最大的ViT架構ViT-e,它與18億參數的ViT-G模型具有相同的結構,并使用相同的訓練參數,區別就是擴展為了40億參數

雖然在視覺領域和語言領域都對縮放規律進行了研究,但在視覺和語言的組合模型中對縮放行為的探討較少,擴大視覺骨干模型的規模可能會導致在分類任務中的收益飽和。

研究人員也進一步證實了這一點,可以觀察到 ViT-e在ImageNet上只比ViT-G好一點,但ViT-e在PaLI的視覺語言任務上有很大的改進。例如,ViT-e在COCO字幕任務上比ViT-G多出近3個CIDEr點。任務上比ViT-G多出3分。這也暗示了未來在視覺語言任務中使用更大的ViT骨架模型的空間。

圖片

研究人員采用mT5骨干作為語言建模組件,使用預訓練的mT5-Large(10億參數)和mT5-XXL (130億參數)來初始化PaLI的語言編碼器-解碼器,然后在許多語言任務中進行繼續混合訓練,包括純語言理解任務,這也有助于避免災難性的遺忘mT5的語言理解和生成能力。

最后得到了三個不同尺寸的PALI模型。

圖片

109種語言的數據集

深度學習相關的擴展研究表明,模型越大,所需的訓練數據集也越大。

所以為了全面研究和釋放語言-圖像預訓練模型的潛力,研究人員從互聯網上爬取了大量的圖像和文本數據,構建了一個全新的數據集WebLI,其中包括109種語言的120億alt-texts和100億張圖片。

圖片

除了用網絡文本進行標注外,研究人員還應用云端視覺API對圖像進行OCR識別,進而得到290億個圖像-OCR的數據對。

圖片

使用near-duplication對68個常見的視覺和視覺語言數據集的訓練、驗證和測試部分的圖像進行了去重處理,以避免下游評估任務的數據泄露。

圖片

為了進一步提高數據質量,研究人員還會根據「圖像和alt-text」的跨模態相似度進行評分,并調整閾值,最后只保留10%的圖像,總共有10億張圖像用于訓練PaLI

訓練大模型

由于視覺-語言任務是多模態,所以需要模型具有多種語義處理能力,而且會有不同的目標。比如有些任務需要對物體進行局部定位以準確解決任務,而其他一些任務可能需要更多的全局語義信息。

同樣地,有的語言任務可能需要長的答案,而有些則需要緊湊的答案。

為了解決所有這些不一致的目標,研究人員利用WebLI預訓練數據的豐富性,引入預訓練任務的混合(Pretraining Task Mixture),為各種下游應用準備模型。

為了讓模型更通用以解決多種任務,作者將所有的任務歸入一個單一的通用API(輸入:圖像+文本;輸出:文本),使多個圖像和語言任務之間能夠進行知識共享,這也是與預訓練設置的共享。

用于預訓練的目標作為加權的混合被投影到同一個API中,目的是既保持重復使用的模型組件的能力,又能訓練模型執行新的任務。

模型使用開源的T5X和Flaxformer框架在JAX中用Flax進行訓練,視覺部分的ViT-e使用開源的BigVision框架,將語言部分的詞向量與視覺部分生成的patch向量級聯起來,共同作為多模態編碼器-解碼器的輸入,編碼器使用mT5-XXL預訓練初始化。在PaLI的訓練過程中,視覺組件的權重被凍結,只更新多模態編碼器-解碼器的權重。

在實驗部分,研究人員在常見的視覺語言基準上對PaLI進行了比較,且PaLI模型在這些任務上取得了最先進的結果,甚至超過了以往文獻中提出的超大型的模型。

圖片

比如170億參數的PALI在一些VQA和圖像標題任務上的表現優于800億參數的Flamingo模型。

并且PALI在單語言或單視覺的任務上也保持了良好的表現,雖然這并非是PALI主要的訓練目標。

文中還研究了圖像和語言模型組件在模型擴展方面是如何相互作用的,以及模型在哪里產生最大的收益。

最后得出的結論是,對這兩個組件進行聯合擴展(縮放)會產生最好的性能,具體來說,對需要相對較少參數的視覺組件進行縮放是最關鍵的,同時縮放對于提高多語言任務的性能也很重要。

圖片

在35種語言的基準Crossmodal-3600上評估了PaLI后可以發現多語言起標題任務從PaLI模型的擴展中受益更多。

圖片

為了避免在大型語言和圖像模型中產生或加強不公平的偏見,需要對所使用的數據和模型如何使用這些數據保持透明,以及測試模型的公平性并進行負責任的數據分析,所以文中同時提供了一個Data Card和Model Card

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2022-01-14 15:01:53

谷歌開源技術

2023-08-01 13:09:42

代碼開發

2024-02-19 14:09:00

模型Eagle 7BRNN

2023-10-17 12:52:00

模型訓練

2020-02-04 16:30:16

云計算行業科技

2024-05-17 08:33:33

視覺語言模型

2025-02-25 10:34:10

2024-01-31 09:43:55

模型訓練

2012-11-08 09:36:10

Google Go

2024-11-19 13:17:38

視覺語言模型Pytorch人工智能

2023-02-25 16:14:36

AIMeta語言模型

2022-04-02 15:25:28

NFT加密貨幣攻擊

2023-05-25 16:24:13

2018-05-10 08:20:23

自然語言數據集數據

2023-06-05 10:09:03

研究人工智能

2024-11-27 16:06:12

2020-02-11 09:30:08

微軟瀏覽器Windows

2010-08-18 08:53:53

Scala

2025-05-28 09:15:00

AI視覺模型

2025-06-24 02:30:00

CSS前端UI
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产午夜精品一区二区三区 | 不卡的av在线 | 成人精品在线观看 | 午夜影院普通用户体验区 | 国产一区二区久久 | 麻豆久久久久久 | 一区二区不卡 | 国产福利在线小视频 | 99热这里| 乳色吐息在线观看 | 91观看 | 538在线精品| 欧美日韩国产精品一区 | 视频一区二区在线观看 | 国内91在线 | xxx.在线观看 | 欧美激情在线精品一区二区三区 | 免费的av | 国产91丝袜 | 成人在线网 | 日本在线中文 | 亚洲精品久久久一区二区三区 | 三级黄色片在线 | 亚洲一区精品视频 | 国产精品久久久久久久久久免费 | 一区二区亚洲 | 少妇一级淫片免费放播放 | 欧美一区二区三区在线视频 | 国产 欧美 日韩 一区 | 久久一级 | 欧美日韩高清在线一区 | 国产精品99久久久久久动医院 | 国产欧美精品一区二区三区 | 精品国产乱码久久久久久牛牛 | 精品国产一区二区三区久久久蜜月 | 精品久久中文 | 一级黄色录像毛片 | 欧美一级免费 | 日韩中文在线观看 | 亚洲精品中文字幕av | 91av久久久 |