英偉達64個A100訓練StyleGAN-T;九類生成式AI模型綜述
目錄:
- Quantum machine learning beyond kernel methods
- Wearable in-sensor reservoir computing using optoelectronic polymers with through-space charge-transport characteristics for multi-task learning
- Dash: Semi-Supervised Learning with Dynamic Thresholding
- StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis
- Open-Vocabulary Multi-Label Classification via Multi-Modal Knowledge Transfer
- ChatGPT is not all you need. A State of the Art Review of large Generative AI models
- ClimaX: A foundation model for weather and climate
- ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)
論文 1:Quantum machine learning beyond kernel methods
- 作者:Sofiene Jerbi 等
- 論文地址:https://www.nature.com/articles/s41467-023-36159-y
摘要:本文中,來自奧地利因斯布魯克大學的研究團隊確定了一個建設性框架,該框架捕獲所有基于參數化量子電路的標準模型:線性量子模型。
研究人員展示了使用量子信息論中的工具如何將數據重新上傳電路有效地映射到量子希爾伯特空間中線性模型的更簡單圖像中。此外,根據量子比特數和需要學習的數據量來分析這些模型的實驗相關資源需求。基于經典機器學習的最新結果,證明線性量子模型必須使用比數據重新上傳模型多得多的量子比特才能解決某些學習任務,而核方法還需要多得多的數據點。
研究結果提供了對量子機器學習模型的更全面的了解,以及對不同模型與 NISQ 約束的兼容性的見解。
這項工作中研究的量子機器學習模型。
推薦:超越核方法的量子機器學習,量子學習模型的統一框架。
論文 2:Wearable in-sensor reservoir computing using optoelectronic polymers with through-space charge-transport characteristics for multi-task learning
- 作者:Xiaosong Wu 等
- 論文地址:https://www.nature.com/articles/s41467-023-36205-9
摘要:傳感器內多任務學習不僅是生物視覺的關鍵優點,也是人工智能的主要目標。然而,傳統的硅視覺芯片存在大量時間以及能量開銷。此外,訓練傳統的深度學習模型在邊緣設備上既不可擴展也不可負擔。
本文中,中科院和香港大學的研究團隊提出了一種材料算法協同設計來模擬人類視網膜的學習范例,并且低開銷。基于具有有效激子解離和貫穿空間電荷傳輸特性的瓶刷形半導體 p-NDI,開發了一種基于可穿戴晶體管的動態傳感器儲層計算系統,該系統在不同任務上表現出優異的可分離性、衰減記憶和回波狀態特性。
與憶阻有機二極管上的「讀出功能」相結合,RC 可識別手寫字母和數字,并對各種服裝進行分類,準確率分別為 98.04%、88.18% 和 91.76%(高于所有已報告的有機半導體)。
傳統半導體和 p-NDI 的光電流響應比較,以及傳感器內 RC 系統的詳細半導體設計原理。
推薦:低能耗低時耗,中科院 & 香港大學團隊使用新方法進行多任務學習的可穿戴傳感器內儲層計算。
論文 3:Dash: Semi-Supervised Learning with Dynamic Thresholding
- 作者:Yi Xu 等
- 論文地址:https://proceedings.mlr.press/v139/xu21e/xu21e.pdf
摘要:這篇論文創新性地提出用動態閾值(dynamic threshold)的方式篩選無標簽樣本進行半監督學習(semi-supervised learning,SSL)的方法,我們改造了半監督學習的訓練框架,在訓練過程中對無標簽樣本的選擇策略進行了改進,通過動態變化的閾值來選擇更有效的無標簽樣本進行訓練。Dash 是一個通用策略,可以輕松與現有的半監督學習方法集成。
實驗方面,我們在 CIFAR-10、CIFAR-100、STL-10 和 SVHN 等標準數據集上充分驗證了其有效性。理論方面,論文從非凸優化的角度證明了 Dash 算法的收斂性質。
Fixmatch 訓練框架
推薦:達摩院開源半監督學習框架 Dash,刷新多項 SOTA。
論文 4:StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis
- 作者:Axel Sauer 等
- 論文地址:https://arxiv.org/pdf/2301.09515.pdf
摘要:擴散模型在文本到圖像生成方面是最好的嗎?不見得,英偉達等推出的新款 StyleGAN-T,結果表明 GAN 仍具有競爭力。StyleGAN-T 只需 0.1 秒即可生成 512×512 分辨率圖像:
推薦:GAN 強勢歸來?英偉達耗費 64 個 A100 訓練 StyleGAN-T,優于擴散模型。
論文 5:Open-Vocabulary Multi-Label Classification via Multi-Modal Knowledge Transfer
- 作者:Sunan He 等
- 論文地址:https://arxiv.org/abs/2207.01887
摘要:在多標簽分類系統中,經常遇到大量在訓練集中未曾出現的標簽,如何準確地識別這些標簽是非常重要也極富挑戰性的問題。
為此,騰訊優圖實驗室聯合清華大學和深圳大學,提出了一種基于多模態知識遷移的框架 MKT,利用圖文預訓練模型強大的圖文匹配能力,保留圖像分類中關鍵的視覺一致性信息,實現多標簽場景的 Open Vocabulary 分類。本工作已入選 AAAI 2023 Oral。
ML-ZSL 和 MKT 方法比較。
推薦:AAAI 2023 Oral | 如何識別未知標簽?多模態知識遷移框架實現新 SOTA。
論文 6:ChatGPT is not all you need. A State of the Art Review of large Generative AI models
- 作者:Roberto Gozalo-Brizuela 等
- 論文地址:https://arxiv.org/abs/2301.04655
摘要:過去兩年,AI 領域里已經出現大量大型生成模型,如 ChatGPT 或 Stable Diffusion。具體而言,這些模型能夠執行像通用問答系統或自動創建藝術圖像等任務,這些任務正在徹底改變很多領域。
在近日由西班牙 Comillas Pontifical University 研究人員提交的綜述論文中,作者試圖以簡潔的方式描述生成式 AI 對當前很多模型的影響,并對最近發布的主要生成式 AI 模型進行分類。
分類圖示。
推薦:ChatGPT is not all you need,一文綜述 6 大公司 9 類生成式 AI 模型。
論文 7:ClimaX: A foundation model for weather and climate
- 作者:Tung Nguyen 等
- 論文地址:https://arxiv.org/abs/2301.10343
摘要:微軟自主系統與機器人研究小組以及微軟研究院科學智能中心開發了 ClimaX,這是一種靈活且可推廣的天氣和氣候科學深度學習模型,可以使用跨越不同變量、時空覆蓋和物理基礎的異構數據集進行訓練。
ClimaX 使用新穎的編碼和聚合塊擴展了 Transformer 架構,這些塊允許有效使用可用計算,同時保持通用性。ClimaX 在源自 CMIP6 的氣候數據集上使用自我監督學習目標進行了預訓練。然后可以對預訓練的 ClimaX 進行微調,以解決廣泛的氣候和天氣任務,包括那些涉及預訓練期間看不到的大氣變量和時空尺度的任務。
預訓練期間使用的 ClimaX 架構
推薦:微軟團隊發布第一個基于 AI 的天氣和氣候基礎模型 ClimaX。