大語言模型在推薦系統中的探索與應用

作者：王奕超 2024-07-22 09:10:04

大語言模型為推薦系統的優化提供了新的思路和方法，我們期待在未來的研究和實踐中，能夠進一步挖掘其潛力，提升推薦系統的性能和用戶體驗。歡迎大家就相關話題進行閱讀、了解和討論。

來自華為諾亞方舟實驗室的王奕超老師今天給我們帶來了關于大語言模型在推薦系統中的探索與應用的分享，將從數據、模型和流程三個層面展開，介紹華為在推薦系統領域的兩個重要項目，并回答關于用戶推理知識構造、特征交叉和在線服務流程的具體問題。通過這些前瞻性的探索和應用，推薦系統的性能和用戶體驗有望得到顯著提升。

一、背景和問題

1. 推薦系統

讓我們從一個具體例子——電影推薦系統開始。推薦系統的輸入主要是用戶的交互行為，如點擊或觀看過的電影。這些行為反映了用戶的偏好。除此之外，還有物品的特征信息，比如電影的年代、類別和演員等屬性信息，以及用戶的一些特征，比如年齡和性別等。推薦系統會根據這些輸入信息，結合當前用戶請求的一些上下文信息（如電影榜單、時間和地點等），為用戶提供評分推薦。

2. 大語言模型

根據前面的介紹，我們可以了解到當前的推薦系統，特別是在電影或電商等領域，往往是一個相對封閉的系統。這類系統通常基于特定應用場景的日志數據進行模型訓練，并部署于該場景提供服務，與外界系統交互有限。然而，理想的推薦系統應是一個開放系統，能夠與外界進行交互，利用實時、事實的知識信息來提升推薦效果。大語言模型，特別是那些在互聯網量級語料中訓練出的模型，具備豐富的世界知識和邏輯推理能力，這些能力恰好可以彌補傳統推薦系統的不足。它們不僅可以用于補充推薦系統的測試編碼、模型打分等功能，還在流程控制等方面展現出巨大的潛力。在運用大語言模型時，我們可以考慮在訓練階段進行微調或固定參數，而在推理階段，則可以選擇僅使用推薦系統或直接將大語言模型作為推薦系統的推理器。這些策略的具體實施將在后續分析中詳細展開。

總之，大語言模型為推薦系統的優化提供了新的思路和方法，我們期待在未來的研究和實踐中，能夠進一步挖掘其潛力，提升推薦系統的性能和用戶體驗。歡迎大家就相關話題進行閱讀、了解和討論。

隨著大語言模型的引入，推薦系統將逐漸從封閉走向開放，引入豐富的世界知識。當前，推薦系統主要基于物品間的關聯、用戶與物品的交互信號等統計信息進行推薦。然而，在代模型時代，推薦形態將發生變化，已初現端倪。利用大模型的廣泛知識和強大邏輯推理能力，推薦系統將向生成式方向發展，不僅生成推薦結果，還涉及中間態的行為，如特征生成、推理過程及新流程的拆解，為用戶提供更加個性化和全面的推薦體驗。

大語言模型具備推薦系統所缺乏的兩大關鍵能力。首先，它擁有豐富的事實性和常識性知識，能提供電影深入細節、故事情節、觀影感受及導演信息等，這些信息在推薦系統語料之外。其次，大語言模型能基于現有知識，對物品、用戶行為及偏好進行常識性推理，包括物品關聯、用戶行為分析等，尤其擅長處理復雜場景下的用戶行為，這些都是當前推薦系統所不具備的能力。

二、LLM4Rec 探索及應用

1. KAR：利用大語言模型開放知識輔助推薦系統

接下來，將介紹近期探索的大語言模型在推薦系統中的應用與分析。首先，傳統推薦系統較為封閉，僅依賴推薦域內知識和協同信號進行推薦，對用戶偏好的學習存在局限。同時，推薦上下文信息通過離散編碼建模，難以直觀理解，尤其在處理冷門物品或數據稀疏問題上表現不佳。

大語言模型則擁有通用外部知識，能了解用戶與物品背景，具備邏輯推理能力，深入理解用戶行為動機及社會因素。然而，它也面臨三大局限性：一是缺乏推薦領域知識，特別是協同信號；二是處理復雜推理問題性能不佳，如預測用戶偏好需多步推理；三是實時性能難以滿足工業推薦系統需求。這些問題是大語言模型在推薦系統應用中需要解決的關鍵點。

當前，利用大語言模型進行推薦的工作主要分為兩類。一類是將大語言模型作為推薦系統的編碼器，對物品描述、用戶評論等文本信息進行編碼，增強用戶和物品的表征，但并未生成新信息，僅是對推薦域內知識的編碼。另一類則是直接將語言模型作為推薦主體，利用其在互聯網語料庫上訓練得到的通用能力進行推薦，然而效果通常不及傳統算法模型，尤其在特征交叉和協同信號方面的重要性已被廣泛驗證。

此外，大語言模型在推薦系統中的推理速度較慢，計算成本高，難以滿足工業推薦系統的實時性要求。同時，由于模型參數量大、所需數據多，模型更新也難以實現實時或近實時，這對推薦效果產生了顯著影響。因此，在大模型時代，如何平衡推薦效果與實時性仍是重要課題。

針對大語言模型在推薦系統中的應用，我們面臨的主要挑戰是如何有效提取并預存其知識，以便被傳統模型更好地利用。這涉及到大語言模型在復合推理問題上的局限性，即雖能準確回答子問題，但難以直接解決復雜問題。為解決此問題，我們借鑒了因式分解的思路，將知識生成分解為多個子任務，由大語言模型逐一推理。

以電影推薦為例，我們首先識別影響用戶興趣的關鍵因素，如電影類別、導演、演員及獲獎情況等，并將這些信息融入提示詞模板中。模板分為用戶偏好推理和物品事實性推理兩部分，前者包含用戶描述、觀影歷史等，后者則結合場景感知因素。通過填充模板并向大語言模型提問，我們可獲得用戶行為偏好的深入理解，并同樣應用于物品事實性分析，最終融合開放與結構化信息，提升推薦系統的準確性和個性化程度。

這個過程分為三個階段，首先解決知識生成問題，通過指令模板提問生成關于用戶偏好和物品實時應用的邏輯推理知識。由于推薦模型難以直接利用文本信息，需將知識適配為推薦系統可用的相對低緯度的 dense 向量，避免高維信息淹沒系統信號。因此，引入多專家網絡進行信息提取、壓縮和映射，集成兩類信息以增強知識魯棒性，解決原模型幻覺問題。

接著進入知識利用階段，推薦模型結構靈活，可適配任何大語言模型生成的知識進行推理。LLM 進行離線推理，生成離線知識及表征，拿到表征后，就放到傳統推薦模型中，知識適配器和傳統模型是一起訓練的；推理時，僅使用知識適配器和傳統推薦模型，顯著降低訓練與推理成本，滿足時延需求。

我們的實驗結果顯示，大語言模型在多種推薦算法上的通用性得到了驗證。與未經增強的結果相比，引入大語言模型后，AUC 指標顯著提升，表明開放域知識對推薦領域有顯著增益。同時，我們驗證了方案的可落地性，發現推理復雜度與推薦模型相當，且 KAR 方案在推理時間上與 Base 模型相近，是實際工業場景中的可行選擇。

對比 SOTA 等預訓練模型，我們實現了近 1% 的提升。效能分析表明，不同知識類型對效果有顯著影響。融合用戶偏好與物品事實性知識的推理結果最為顯著。該方案已在華為多個場景上線，包括應用市場、華為音樂等，主要用于物品側表征增強，如音樂歌曲、廣告、應用等，顯著提升了推薦效果，為全網帶來了價值提升。

2. Uni-CTR：利用大語言模型構建多場景推薦底座

接下來介紹第二個工作，即利用大語言模型進行跨域推薦的研究。多場景相比單場景具有顯著優勢，包括緩解數據稀疏問題、實現場景間信息共享及高效性。然而，當前多場景推薦系統仍面臨挑戰：主要場景可能主導模型參數，影響其他場景；語義信息利用及場景關系建模需進一步探索；新增或淘汰場景對模型參數影響大。

大語言模型具備外部通用知識和邏輯推理能力，這在多場景建模中尤為重要。以電商和視頻場景為例，大語言模型能識別洗護用品成分、市場動態及新聞等外部知識，并通過邏輯推理，如用戶購買運動器材后可能偏好體育視頻，實現場景間信息的自然泛化。我們將探索如何更好地利用這些能力，構建通用的多場景推薦模型。

傳統的推薦算法模型通常基于特定類型的數據。這些數據主要來源于表格，包含場景、用戶 ID、點擊歷史等信息。同時，物品數據則包括名稱、品牌、價格等特征。這些特征通過 One-Hot 或 Embedding 編碼進行建模，并依據行為信號不斷更新表征。這是傳統多場景推薦算法的基本框架。

在大語言模型的設置下，我們優化了多商業場景的處理流程。首先，針對表格數據，我們摒棄了傳統的編碼方式，構建了基于自然語言描述的提示詞模板，以更直觀地表達 Domain ID、用戶及產品信息。這些模板將結構化數據轉化為自然語言描述，隨后輸入大語言模型（如 24 層 Transformer 結構的 SharedBert）中。

在處理過程中，我們每隔幾層 Transformer 引入 Leader 網絡（三層 Transformer Encoder Block），以提取不同層次的模型表征。Leader 網絡專注于學習場景特有的信息，而中間的 general network 則旨在提取跨場景共享的通用信息。

對于多場景應用，每個場景擁有獨立的網絡及對應的預估網絡（如 DSN），這些網絡根據場景特性進行優化。同時，我們采用門控網絡融合大語言模型的通用表征與場景特有的新輸出，實現場景共性與特性的學習。

此外，該方案還具備 zero-shot 冷啟動能力，能夠利用大語言模型的輸出預測新場景，解決冷啟動問題。新增場景時，僅需增加相應的網絡路徑，對主體網絡影響甚微。

我們將 Amazon Review DataSet 中的 Fashion、Music Instruments 和 Gift Cards 三個數據集作為不同場景，來驗證我們的方案。這里主要對比了三種模型：單場景獨立模型、傳統多場景模型，以及基于大語言模型的 Multi-domain Model。其中，Uni-CTR 是我們提出的創新方案。

實驗結果顯示，Uni-CTR 在各個場景均取得了顯著的效果提升，尤其是在 Gift Cards 場景上表現尤為突出。這一方案不僅解決了傳統多場景模型中某些場景性能提升而其他場景可能下降的問題，還避免了主場景（如 Fashion）對次場景性能產生的負面影響，實現了全面且均衡的性能提升。

我們同時考察了 Uni-CTR 的 zero-shot 能力，在新場景上測試模型效果。對于單場景和多場景模型，均選取最佳預測結果作為展示。Uni-CTR 采用大語言模型的通用預測網絡，在 zero-shot 場景下亦展現出顯著效果增益。

通過引入新場景并微調，Uni-CTR 也實現了效果顯著提升。我們對比這一重要場景模型參數，分析不同參數量級語言模型（如 TenonBot、Bot、Debota 及 SharedLama）的影響。實驗表明，模型效果隨參數量增大而提升，驗證了 Signal 的適用性。

此外，我們還探討了模型不同組件的影響，進行效能分析。結果顯示，去除 Leader 和 Backbone 模型均導致效果下降，其中 Backbone 模型影響最為顯著。

三、挑戰和展望

接下來，將從工業應用的視角，探討當前大語言模型在推薦系統面臨的挑戰與未來趨勢。

首先，面對的挑戰可分為三個層面：一是協同信號與語義信號的聯合建模，需提升單獨使用時的效果；二是輸入策略的挑戰，包括如何利用大語言模型優化用戶畫像、處理長文本輸入及 ID 編碼的融合問題；三是動態數據如何有效融入模型，以及模型推理效率在工業級應用中的挑戰。

展望未來，主要從數據、模型和流程三個層面展開工作：數據層面，致力于使推薦系統具備世界知識和邏輯推理能力，從封閉走向開放；模型層面，從判別式模型向生成式模型發展，潛力在于直接生成用戶感興趣的內容；流程層面，傳統多階段推薦流程或將被統一模型取代，實現端到端的推薦結果生成。

總體而言，大語言模型對推薦系統產生了巨大影響，隨著產品形態的不斷迭代，它將為推薦搜索系統帶來全新變革。未來，我們有更多想象空間值得探索，需要持續努力，以應對挑戰，把握機遇。

責任編輯：姜華來源： DataFunTalk

大語言模型推薦系統人工智能

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看