模塊化MoE將成為視覺多任務學習基礎模型

作者：機器之心 2023-04-03 10:32:56

UMass Amherst 淦創團隊提出了 Mod-Squad 模型，它可以從多任務大模型中提取針對單一任務的相同性能小模型，在 Taskonomy 大數據集和 PASCALContext 數據集上取得了最佳效果。

多任務學習（MTL）存在很多挑戰，因為不同任務之間的梯度可能矛盾。為了利用任務之間的關聯，作者引入了 Mod-Squad 模型，它是多個專家組成的模塊化模型。模型可以靈活優化任務和專家的匹配，針對任務選擇部分專家。模型讓每一個專家只對應部分任務，每一個任務只對應部分專家，以此最大化利用任務之間的正向聯系。Mod-Squad 整合了 Mixture of Expert (MoE) 層到 Vision Transformer 模型中，并引入了新的損失函數鼓勵專家和任務之間的稀疏但強烈的依賴關系。此外，對于每個任務，模型都可以只保留小部分專家網絡，并且性能與原來的大模型相同。模型在 13 個視覺任務的 Taskonomy 大數據集和 PASCALContext 數據集上取得了最佳效果。

論文地址：https://arxiv.org/abs/2212.08066

項目地址：https://vis-www.cs.umass.edu/mod-squad/

Github地址：https://github.com/UMass-Foundation-Model/Mod-Squad

多任務學習（MTL）的目的是建模任務之間的關系，并為多種任務構建統一的模型。如圖 1 所示，Mod-Squad 的主要動機就是要讓專家只被一些任務更新而不是所有任務，且每一個任務只更新部分專家。這樣可以利用模型的全部容量的同時避免任務間的互相干擾。

圖 1.Mod-Squad: 專家和任務互相選擇。MoE ViT: 所有專家都被所有任務使用。

下面簡單介紹下該文章。

模型結構

圖 2.Mod-Squad: 將專家組 (mixture-of-expert) 插入到 Vision Transformer.

如圖 2 所示， Mod-Squad 的結構就是將 Mixture-of-expert (MoE) 引入 Vision Transformer (ViT)。MoE 是一種機器學習模型，其中多個專家組成了一個混合模型。每個專家都是一個獨立的模型，并且每個模型對于不同的輸入有不同的貢獻。最后，所有專家的貢獻被加權并組合在一起以得到最終的輸出。這種方法的優勢在于它可以根據輸入圖像的內容動態地選擇最佳的專家并且控制計算量。

之前的 MoE 模型收斂后，可以根據不同圖片使用不同的專家，但是針對某個任務，模型會收斂到傾向于使用全部專家。Mod-Squad 可以做到讓模型針對圖片來使用不同的專家，并且模型可以在收斂后，達到一個任務只使用一部分專家的狀態。接下來介紹這是怎么實現的。

最大化專家和任務之間的 mutual information

本文提出了一個任務和專家的聯合概率模型來優化專家 E 和任務 T 之間的分配。這個概率模型會用來計算專家和任務之間的 mutual information，并作為額外的損失函數來優化 MoE 里的權重網絡。Mutual information 公式如下，E 和 T 的概率可以由 MoE 里的權重網絡得到，具體可以參見論文。