中科大&騰訊:通過提升各個專家網絡差異性提升基于MoE的CTR預估效果
今天給大家介紹一篇中科大、騰訊聯合發表的CTR預估模型優化工作,探索了多專家網絡多樣性對于模型效果的影響。
論文標題:Enhancing CTR Prediction with De-correlated Expert Networks
下載地址:??https://arxiv.org/pdf/2505.17925??
1.研究背景
最近兩年,隨著Scaling Law在各個領域的研究,推薦系統領域也開始逐漸引入這種思想進一步提升模型能力。其中,一種常見的思路是利用MoE擴大參數空間,并結合多種類型的網絡結構構建預估模型。
如何才能構建出效果最優的MoE預估模型呢?文中研究發現,各個Expert之間的差異性大小,決定了最終效果的高低。文中定義了不同Expert的不相關度指標,對比了不同不相關度下,模型AUC變化。從圖中可以看出,隨著各個Expert不相關度的增加,模型的效果是逐漸提升的。
基于上述考慮,文中通過模型結構差異性、正則化loss引入、embedding差異等多個角度,降低各個Expert的相關性,從而提升基于MoE的CTR預估模型的效果。
2.建模方法
下圖整體對比了不同MoE的結構圖。其中Hetero-MoE是本文的建模方法,其核心是每個Expert有一套單獨的Embedding,并且每個Expert使用不同的網絡結構,從而最大限度提升不同Expert之間的差異性和抽取信息的多樣性。
在具體提升差異性的手段上,文中從底層Embedding、網絡結構、正則化損失三個角度進行優化。
對于底層Embedding,文中采用了每個Expert使用一套單獨的Embedding的方法,讓各個Expert在學習過程中實現Embedding的差異性。
對于模型結構,相比一般的MoE各個Expert采用結構,本文采用了不同結構,每個Expert可以是CrossNet、CIN、基礎DNN等不同結構。
對于正則化約束,文中首先定義了各個Expert之間的相關性指標。這里采用的是皮爾遜系數,計算每個Expert多條樣本的之間的相關系數,直接作為損失函數引入模型中,公式如下:
在MoE的Gate生成方面,基本沿用了經典MoE的思路,差異在于每個Expert使用對應Embedding生成一個個性化的Gate打分。
3.實驗效果
從實驗結果來看,不同的增加各個Expert之間差異行的方法,包括Embedding差異、模型結構異構、正則化損失引入等,都能帶來模型AUC的提升,說明增強各個Expert之間差異的必要性。
本文轉載自??????圓圓的算法筆記??????,作者:Fareise
