天衍實驗室推薦系統糾偏方法論文入選NeurIPS-2020
在我們瀏覽各大網站和APP時,受推薦系統影響,大量相似產品反復出現的情況屢見不鮮,這不僅會產生視覺疲勞,而且很難讓我們做出理性的判斷和購買決策。究其原因,主要是目前主流的推薦系統采用的都是大數據模型篩查方式,會產生較大的路徑依賴。
對此,騰訊天衍實驗室近期另辟蹊徑推出推薦系統糾偏方法,與傳統方法相比,該方法無需執行隨機流量實驗以進行無偏估計,大大減小了無偏推薦算法的訓練成本,降低了系統的路徑依賴。目前,騰訊已經就研究成果發表論文《Information-theoretic counterfactual learning from missing-not-at-random feedback》,且成功入選NeurIPS-2020。
傳統推薦系統易導致路徑依賴 致使推薦質量下降
作為現代互聯網領域的重點研究方向,推薦系統具有相當高的商業價值。推薦系統模型需要在大量的候選項目中(通常為廣告、商品、短視頻等)尋找到用戶所喜愛的,從而提高曝光率或者點擊廣告收入。
傳統推薦系統研究一般著眼于設計更好的特征交叉方法以提高CTR預估的準確性,從而給出更好的排序結果,提高廣告收入。通常,用戶看到的物品是推薦系統挑選出來的,它們在系統中產生了存儲記錄,推薦模型在該記錄上進行離線更新。然而已有的研究顯示,這種推薦方式會產生路徑依賴,即模型會在得到曝光的項目上嚴重高估其對每個用戶的偏好程度,而會在未得到曝光的項目中低估其對每個用戶的偏好程度。長此以往,推薦結果的多樣性將會急劇降低,從而危害推薦的質量和用戶留存度。
如下圖所示,橙色表示來源于MNAR數據的用戶評分分布,藍色表示MAR的評分。可以看到,MNAR上用戶的評分要大大偏高,多集中在5分,而MAR的數據較為平均的分布在1到5分之間。隨著時間推進,MNAR的評分分布會越來越集中,加大和MAR評分的差距。
圖 1 隨機缺失數據和非隨機缺失數據上用戶反饋的偏差
為了解決這個問題,傳統方法多基于inverse propensity score (IPS) 來對在MNAR數據上進行模型訓練的目標函數進行加權糾偏。這類方法需要相當數量的隨機試驗 (Randomized Controlled Trials, RCTs),即隨機地將項目推薦給用戶以獲得反饋,從而得到一個無偏的點擊率的估計。而另外,IPS方法需要收集一定數量的RCTs,即對用戶展示相當數量的隨機項目來收集反饋,從經濟效益上來說,會造成大量的收入上的損失。而且,這種施加權重的方法也使得訓練的方差增大,有時候反而會對結果造成副影響。
借鑒信息理論構建模型 推薦系統糾偏方法呈現創新優勢
騰訊天衍實驗室借鑒了信息論中的理論來構建模型。模型的原始輸入會先經過一個編碼器 (Encoder) 得到表示 (Representation),隨后經過解碼器 (Decoder) 將表示解碼成為最終的預測結果。此后,目標函數分為兩部分:輸入和表示之間的互信息,表示和輸入目標之間的互信息。在優化這個目標函數時,騰訊天衍實驗室團隊采用了盡可能攜帶更多的目標信息和壓縮輸入信息的方法。
圖 2 信息瓶頸的流程和定義形式
首先把原始的輸入 (在此處是user-item對) 分為事實域 (factual) 和反事實域 (counterfactual) 。當在counterfactual中發現無法得到用戶對項目的反饋,無法對模型進行監督學習時,選擇將該問題用信息瓶頸建模,由此得到一個無需反饋也可以在counterfactual上進行學習的目標函數。
圖 3 基于信息瓶頸理論的反事實學習框架流程圖
factual和counterfactual的事件分別是和,相對應的表示為和。在此基礎上將原有的互信息項拆分,并引入一個超參數,可以得到一個新的考慮counterfactual的信息瓶頸:
這一新的瓶頸將原有的項拆分成了兩個域的對比項加上factual的信息項。源于上式中的互信息項無法直接優化,在將其經過進一步拆解變為可優化的形式后,最終的目標函數形式為:
這一目標函數具有很廣泛的適用范圍,領域內絕大部分的模型均可以適用該目標函數來進行模型糾偏而無需對現有模型結構進行修改,比如MF模型等。
為驗證其應用潛力,騰訊天衍實驗室使用領域內的benchmark Yahoo R3! 和 Coat 公開數據集進行測試,使用MNAR的數據作為訓練數據,使用MAR作為測試數據,從而能有效反映不同方法對于推薦模型的糾偏效果,最終實驗結果如下表所示。
表格 1 實驗結果(AUC和MSE指標)
表格 2 實驗結果 (nDCG指標)
在模型的魯棒性測試中,該方法表現出較強的穩健性。對超參數變化敏感性不強,非常適用于實際場景的部署。相比于傳統推薦系統,這種基于信息理論的推薦系統糾偏方法呈現出幾大創新點:其一,基于信息論和反事實理論學習方法,無需執行線上隨機流量試驗,節省了大量訓練成本;其二,模型參數魯棒性較好,適合工業場景實際部署;其三,目標函數具有很廣泛的適用范圍,領域內絕大部分的模型均可以適用該目標函數來進行模型糾偏,而無需對現有模型結構進行修改,兼容性較強。
商業應用無處不在 推薦系統糾偏方法重拾內容多樣性
放眼當下,推薦系統的商業應用無處不在,不少主流APP都應用到了推薦系統。例如,旅游出行類中,攜程、去哪兒等會推薦機票、酒店等;外賣平臺類中,餓了么、美團等會推薦飯店;電商購物類中,京東、淘寶、亞馬遜等會推薦“可能喜歡”的物品;新聞資訊類中,今日頭條、騰訊新聞等會推送用戶感興趣的新聞....幾乎所有APP或網站都在應用推薦系統。
騰訊天衍實驗室作為騰訊布局醫療領域背后的技術提供者,主要專注于醫療健康領域的AI算法研究及落地,并且不斷研究與拓展AI醫療技術發展的邊界。目前,騰訊天衍實驗室主要將算法能力輸出到微信支付九宮格的騰訊健康小程序、QQ瀏覽器、微信搜一搜等。例如在疫情期間,天衍實驗室運用AI大數據技術,通過騰訊健康疫情問答推薦版塊,為用戶帶來關于疫情的多方面的內容和咨詢服務,而不僅僅關注用戶個人和集體偏好,基于信息理論模型,快速進行模型訓練對推薦系統進行糾偏,極大的節省了時間和經濟成本。
同時,在騰訊覓影的AI導輔診平臺上,日常的醫療資訊推薦上也應用了該方法為用戶推薦相關內容,大大提升了推薦內容的多樣性和公平性,同時也增強了用戶體驗。比如對于患有糖尿病的患者,其日常關注的內容可能都與糖尿病相關,如果不對推薦系統進行糾偏,系統會越來越傾向于推薦糖尿病相關內容給到用戶,而經過系統糾偏之后,還會給患者推薦一些運動、睡眠等其他健康知識,幫助用戶更加全面的了解自身健康??梢砸姷茫扑]系統糾偏方法具有非常廣泛的應用價值,未來,騰訊天衍實驗室還將繼續擴大其應用范圍,以期為用戶提供更優質的服務。