成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

推薦大模型來了?OneRec論文解讀:端到端訓練如何同時吃掉效果與成本

人工智能 新聞
近日,快手技術(shù)團隊交出了他們的答卷,最新提出的「OneRec」首次以端到端生成式架構(gòu)重構(gòu)推薦系統(tǒng)全鏈路。

人人都繞不開的推薦系統(tǒng),如今正被注入新的 AI 動能。

隨著 AI 領(lǐng)域掀起一場由大型語言模型(LLM)引領(lǐng)的生成式革命,它們憑借著強大的端到端學習能力、海量數(shù)據(jù)理解能力以及前所未有的內(nèi)容生成潛力,開始重塑各領(lǐng)域的傳統(tǒng)技術(shù)棧。

作為互聯(lián)網(wǎng)流量的核心引擎,推薦系統(tǒng)面臨著級聯(lián)架構(gòu)導致的算力碎片化、優(yōu)化目標割裂等問題,并逐漸制約其創(chuàng)新發(fā)展。實現(xiàn)從碎片化拼裝到一體化整合的范式躍遷,是推薦系統(tǒng)重煥生機的必由之路,而利用 LLM 技術(shù)重構(gòu)架構(gòu)以實現(xiàn)效果提升、成本降低成為關(guān)鍵。

近日,快手技術(shù)團隊交出了他們的答卷,最新提出的「OneRec」首次以端到端生成式架構(gòu)重構(gòu)推薦系統(tǒng)全鏈路。在效果與成本這場看似零和的博弈中,OneRec 讓「既要又要」成為可能:

  • 從效果來看:將推薦模型的有效計算量提升了 10 倍,更讓長期「水土不服」的強化學習技術(shù)在推薦場景煥發(fā)新生;
  • 從成本來看:通過架構(gòu)級創(chuàng)新將訓練 / 推理 MFU (模型算力利用率) 提升至 23.7%/28.8%,通信與存儲開銷銳減使得運營成本(OPEX)僅為傳統(tǒng)方案的 10.6%。

目前,該系統(tǒng)已在快手 App / 快手極速版雙端服務(wù)所有用戶,承接約 25% 的QPS(每秒請求數(shù)量),帶動 App 停留時長提升 0.54%/1.24%,關(guān)鍵指標 7 日用戶生命周期(LT7)顯著增長,為推薦系統(tǒng)從傳統(tǒng) Pipeline 邁向端到端生成式架構(gòu)提供了首個工業(yè)級可行方案。

下圖(左)展示了快手 / 快手極速版中 OneRec 與級聯(lián)推薦架構(gòu)的 Online 性能比較,圖(中)展示了 OneRec 與 Linear、DLRM、SIM 的 FLOPs 比較,圖(右)展示了 OneRec 與級聯(lián)推薦架構(gòu)的 OPEX 對比,以及和鏈路中計算復(fù)雜度最高的精排模型 SIM 的 MFU 對比。

圖片

推薦效果與算力效率雙雙提升的背后,是 OneRec 在架構(gòu)設(shè)計和訓練框架層面的一系列創(chuàng)新性突破。

完整技術(shù)報告鏈接:https://arxiv.org/abs/2506.13695

突破傳統(tǒng)級聯(lián)架構(gòu)的桎梏

推薦算法從早期的因子分解機到如今的深度神經(jīng)網(wǎng)絡(luò),雖歷經(jīng)多次革新,卻始終未能擺脫多階段級聯(lián)架構(gòu)的束縛 —— 這種碎片化的設(shè)計正面臨以下三大關(guān)鍵瓶頸:

首先,算力效率低下成為致命傷。以快手為例的分析顯示,即使是推薦系統(tǒng)中計算復(fù)雜度最高的精排模型 (SIM),在旗艦版 GPU 上訓練 / 推理的 MFU (Model FLOPs Utilization) 也只有 4.6%/11.2%,遠低于大語言模型在 H100 上 40%-50% 的水平;

其次,目標函數(shù)沖突愈演愈烈,平臺需要同時優(yōu)化用戶、創(chuàng)作者和生態(tài)系統(tǒng)的數(shù)百個目標,這些目標在不同階段相互掣肘,導致系統(tǒng)一致性和效率持續(xù)惡化;

更嚴峻的是,技術(shù)代差正在拉大,現(xiàn)有架構(gòu)難以吸納 Scaling Law、強化學習等 AI 領(lǐng)域的最新突破,并且難以充分利用最新計算硬件的能力,使得推薦系統(tǒng)與主流 AI 技術(shù)的發(fā)展?jié)u行漸遠。

面對這些挑戰(zhàn),快手技術(shù)團隊提出端到端生成式推薦系統(tǒng) OneRec,其核心在于利用 Encoder 壓縮用戶全生命周期行為序列實現(xiàn)興趣建模,同時基于 MoE 架構(gòu)的 Decoder 實現(xiàn)超大規(guī)模參數(shù)擴展,確保短視頻推薦的端到端精準生成;配合定制化強化學習框架和極致的訓練/推理優(yōu)化,使模型實現(xiàn)效果和效率的雙贏。

下圖為 OneRec 系統(tǒng)概覽。

圖片

可喜的是,這個新系統(tǒng)在以下幾個方面的效果顯著:

  • 可以用遠低于線上系統(tǒng)的成本,采用更大的模型,取得更好的推薦效果;
  • 在一定范圍內(nèi),找到了推薦場景的 Scaling Law;
  • 過去很難影響和優(yōu)化推薦結(jié)果的 RL 技術(shù)在這個架構(gòu)上體現(xiàn)出了非常高的潛力;
  • 目前該系統(tǒng)從訓練到 serving 架構(gòu)以及 MFU 水平都和 LLM 社區(qū)接近,LLM 社區(qū)的很多技術(shù)可以很好地在這個系統(tǒng)上落地。

OneRec 基礎(chǔ)模型剖析

OneRec 采用 Encoder-Decoder 架構(gòu),將推薦問題轉(zhuǎn)化為序列生成任務(wù),在訓練過程中使用 NTP (Next Token Prediction) 損失函數(shù)優(yōu)化。下圖展示了 Encoder-Decoder 架構(gòu)的完整組件。

圖片

語義分詞器

面對快手平臺上億級別的視頻內(nèi)容,如何讓模型「理解」每個視頻成為關(guān)鍵挑戰(zhàn)。OneRec 首創(chuàng)了協(xié)同感知的多模態(tài)分詞方案:

  • 多模態(tài)融合:同時處理視頻的標題、標簽、語音轉(zhuǎn)文字、圖像識別等多維信息。
  • 協(xié)同信號集成:不僅關(guān)注內(nèi)容特征,更融入用戶行為信息建模。
  • 分層語義編碼:采用 RQ-Kmeans 技術(shù),將每個視頻轉(zhuǎn)化為 3 層粗到細的語義 ID。

Encoder-Decoder 架構(gòu)

在訓練階段,OneRec 通過 Encoder-Decoder 架構(gòu)執(zhí)行下一個 token 預(yù)測,進而實現(xiàn)對目標物品的預(yù)測。該架構(gòu)在編解碼階段起到的作用分別如下:

  • 多尺度用戶建模:編碼階段同時考慮用戶靜態(tài)特征、短期行為序列、有效觀看序列和終身行為序列。
  • 專家混合解碼器:解碼階段采用逐點生成策略,通過 Mixture of Experts(MoE)架構(gòu)提升模型容量和效率。

推薦系統(tǒng)中的 Scaling Law

參數(shù)規(guī)模實驗是 OneRec 研究中的另一亮點,它試圖回答一個根本性的問題:推薦系統(tǒng)是否同樣遵循大語言模型領(lǐng)域已被證實的 Scaling Law?

實驗結(jié)果清晰地表明,隨著模型參數(shù)量從 0.015B 到 2.633B 的遞增,訓練損失呈現(xiàn)出明顯的下降趨勢,詳見下圖損失變化曲線。

圖片

此外,技術(shù)報告中還介紹了包含 Feature Scaling、Codebook Scaling 和 Infer Scaling 等,極大地利用算力來提升推薦的精度。

強化學習(RL)偏好對齊

預(yù)訓練模型雖然可以通過下一個 token 預(yù)測來擬合曝光物品的空間分布,但這些曝光物品來源于過去的傳統(tǒng)推薦系統(tǒng),這導致模型無法突破傳統(tǒng)推薦系統(tǒng)的性能天花板。

為了解決這一挑戰(zhàn),OneRec 引入了基于獎勵機制的偏好對齊方法,利用強化學習增強模型效果。通過獎勵反饋機制,模型得以感知更為細粒度的用戶偏好信息。為此,OneRec 構(gòu)建了一套綜合性的獎勵系統(tǒng):

  • 偏好獎勵(Preference Reward):用于對齊用戶偏好。
  • 格式獎勵(Format Reward):確保生成的 token 均為有效格式。
  • 工業(yè)場景獎勵(Industrial Reward):滿足各類業(yè)務(wù)場景的需求。

下圖為獎勵系統(tǒng)總體框架。

圖片

什么樣的視頻應(yīng)該被獎勵呢?OneRec 提出采用偏好獎勵模型,能基于用戶特征,輸出對不同目標預(yù)測值進行「個性化融合」后的偏好分數(shù)。用該分數(shù)「P-Score」作為強化學習的獎勵圖片,并通過 GRPO 的改進版 ECPO(Early-Clipped GRPO)進行優(yōu)化。

如下圖所示,相較于 GRPO,ECPO 對負優(yōu)勢(A<0)樣本進行更嚴格的策略梯度截斷,保留樣本的同時防止梯度爆炸使訓練更加穩(wěn)定。

圖片

OneRec 在快手 / 快手極速版場景中進行了強化學習的消融實驗,線上結(jié)果顯示在不損失視頻曝光量的情況下顯著提升 App 使用時長。下表展示了 OneRec 使用「P-Score」 獎勵相較于不使用情況下的各指標效果提升。

圖片

性能優(yōu)化

MFU(模型浮點運算利用率)作為衡量算力效率的核心指標,傳統(tǒng)推薦排序模型卻長期深陷「個位數(shù)魔咒」,主要有以下兩方面的原因:

  • 一是業(yè)務(wù)迭代積累的歷史包袱,如快手精排模型算子數(shù)量高達 15000+ 個,復(fù)雜結(jié)構(gòu)導致無法像 LLM 那樣進行深度優(yōu)化;
  • 二是成本與延遲約束下的規(guī)模瓶頸,致使單個算子計算密度低下,顯存帶寬成為性能天花板,GPU 算力利用率長期低于 10%。

而 OneRec 的生成式架構(gòu)帶來破局性變革:通過采用類 LLM 的 Encoder-Decoder 架構(gòu)精簡組件,將關(guān)鍵算子數(shù)量壓縮 92% 至 1,200 個,配合更大模型規(guī)模提升計算密度;更通過重構(gòu)推薦鏈路釋放延遲壓力,使訓練 / 推理 MFU 分別飆升至 23.7% 和 28.6%,較傳統(tǒng)方案實現(xiàn) 3-5 倍提升,首次讓推薦系統(tǒng)達到與主流 AI 模型比肩的算力效能水平。

此外,快手技術(shù)團隊還針對 OneRec 特性在訓練和推理框架層面進行了深度定制優(yōu)化。

訓練優(yōu)化

在訓練階段,OneRec 通過以下幾項核心優(yōu)化實現(xiàn)了加速:

  • 計算壓縮:針對同一請求下的多條曝光樣本(如一次下發(fā) 6 個視頻,平均 5 條曝光),這些樣本共享用戶和 context 特征??焓职凑埱?ID 分組,避免在 context 序列上重復(fù)執(zhí)行 ffn 計算。同時,利用變長 flash attention,有效避免重復(fù)的 kv 訪存操作,進一步提升 attention 的計算密度。
  • Embedding 加速優(yōu)化:針對單樣本需訓練 1000 萬以上 Embedding 參數(shù)的挑戰(zhàn),快手技術(shù)團隊自研了 SKAI 系統(tǒng),實現(xiàn)了 Embedding 訓練全流程在 GPU 上完成,避免 GPU/CPU 同步中斷;通過統(tǒng)一 GPU 內(nèi)存管理(UGMMU)大幅減少 kernel 數(shù)量;采用時間加權(quán) LFU 智能緩存算法充分利用數(shù)據(jù)的時間局部性,并通過 Embedding 預(yù)取流水線將參數(shù)傳輸與模型計算重疊,有效隱藏傳輸延遲,整體大幅提升了 Embedding 訓練效率。

另外還有高效并行訓練、混合精度與編譯優(yōu)化等關(guān)鍵優(yōu)化技術(shù)。

推理優(yōu)化

在推理階段,OneRec 采用大 beam size(通常為 512)來提升生成式推薦的多樣性和覆蓋率。面對如此大規(guī)模的并行生成需求,快手技術(shù)團隊從計算復(fù)用、算子優(yōu)化、系統(tǒng)調(diào)度等多個維度進行了深度優(yōu)化:

  • 計算復(fù)用優(yōu)化: OneRec 針對大規(guī)模并行生成需求,通過多種計算復(fù)用手段大幅提升效率:首先,同一用戶請求下 encoder 側(cè)特征在所有 beam 上完全一致,因此 encoder 只需前向計算一次,避免了重復(fù)計算;其次,decoder 生成過程中 cross attention 的 key/value 在所有 beam 間共享,顯著降低顯存占用和算力消耗;同時,decoder 內(nèi)部采用 KV cache 機制,緩存歷史步驟的 key/value,進一步減少重復(fù)計算。
  • 算子級優(yōu)化: OneRec 推理階段全面采用 Float16 混合精度計算,顯著提升了計算速度并降低了顯存占用。同時,針對 MoE、Attention、BeamSearch 等核心算子,進行了深度 kernel 融合和手工優(yōu)化,有效減少了 GPU kernel 啟動和內(nèi)存訪問次數(shù),全面提升了算子計算效率和整體吞吐能力。

另外還有系統(tǒng)調(diào)度優(yōu)化等專屬優(yōu)化。

通過以上系統(tǒng)性的優(yōu)化策略,OneRec 在訓練和推理的 MFU 分別達到了 23.7% 和 28.8%,相比傳統(tǒng)推薦模型的 4.6% 和 11.2% 有了大幅改善。運營成本降低至傳統(tǒng)方案的 10.6%,實現(xiàn)了接近 90% 的成本節(jié)約。

Online 實驗效果

OneRec 在快手主站 / 極速雙端 App 的短視頻推薦主場景上均進行了嚴格實驗。

通過為期一周 5% 流量的 AB 測試,純生成式模型(OneRec)僅憑 RL 對齊用戶偏好即達到原有復(fù)雜推薦系統(tǒng)同等效果,而疊加獎勵模型選擇策略(OneRec with RM Selection)后更實現(xiàn)停留時長提升 0.54%/1.24%、7 日用戶生命周期(LT7)增長 0.05%/0.08% 的顯著突破 —— 須知在快手體系中,0.1% 停留時長或 0.01% LT7 提升即具統(tǒng)計顯著性。

更值得關(guān)注的是,模型在點贊、關(guān)注、評論等所有交互指標上均取得正向收益(如下表所示),證明其能規(guī)避多任務(wù)系統(tǒng)的「蹺蹺板效應(yīng)」實現(xiàn)全局最優(yōu)。該系統(tǒng)目前已經(jīng)在短視頻推薦主場景推全到所有用戶,承擔約 25% 的請求(QPS)。

圖片

除了短視頻推薦的消費場景之外,OneRec 在快手本地生活服務(wù)場景同樣表現(xiàn)驚艷:AB 對比實驗表明該方案推動 GMV 暴漲 21.01%、訂單量提升 17.89%、購買用戶數(shù)增長 18.58%,其中新客獲取效率更實現(xiàn) 23.02% 的顯著提升。

目前,該業(yè)務(wù)線已實現(xiàn) 100% 流量全量切換。值得注意的是,全量上線后的指標增長幅度較實驗階段進一步擴大,充分驗證了 OneRec 在不同業(yè)務(wù)場景的泛化能力。

結(jié)語

生成式 AI 方興未艾,正在對各個領(lǐng)域產(chǎn)生根本性的技術(shù)變革與降本增效。隨著快手 OneRec 新范式的到來,推薦系統(tǒng)將加速迎來「端到端生成式覺醒」時刻。

OneRec 不僅論證了推薦系統(tǒng)與 LLM 技術(shù)棧深度融合的必要性,更重構(gòu)了互聯(lián)網(wǎng)核心基礎(chǔ)設(shè)施的技術(shù) DNA。一方面,通過創(chuàng)新的端到端生成式架構(gòu)重構(gòu)推薦系統(tǒng)的技術(shù)范式;另一方面,經(jīng)過極致的工程優(yōu)化,在效果與效率雙重維度上實現(xiàn)全面超越。

當然,新系統(tǒng)還有很多地方需要進一步完善。快手技術(shù)團隊指出了三個待突破的方向:

  • 推理能力:Infer 階段 step 的 Scaling up 能力尚不明顯,這預(yù)示著 OneRec 還不具備很強的推理能力;
  • 多模態(tài)橋接:構(gòu)建用戶行為模態(tài)與 LLM/VLM 的原生融合架構(gòu),借鑒 VLM 中的跨模態(tài)對齊技術(shù),實現(xiàn)用戶行為序列、視頻內(nèi)容與語義空間的統(tǒng)一學習,成為一個原生全模態(tài)的模型;
  • 完備的 Reward System:目前的設(shè)計還比較初級。在 OneRec 端到端的架構(gòu)下,Reward System 既能影響在線結(jié)果也能影響離線訓練,快手期望利用該能力引導模型更好地理解用戶偏好和業(yè)務(wù)需求,提供更優(yōu)的推薦體驗。

可以預(yù)見,未來補上更多 AI 能力的 OneRec 無疑會更強大,從而在包括快手在內(nèi)更廣泛的推薦應(yīng)用場景中釋放出更大的價值。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-04-07 03:00:00

自動駕駛

2025-01-16 10:11:58

2024-09-19 18:49:54

完全同態(tài)加密FHE機器學習

2024-09-10 12:11:18

2023-10-18 12:50:12

數(shù)據(jù)模型

2022-09-02 10:20:44

網(wǎng)絡(luò)切片網(wǎng)絡(luò)5G

2023-10-20 17:53:05

2017-03-20 10:42:08

語音識別NervanaNeon

2014-08-14 11:52:34

ITILAPM

2025-06-30 08:42:00

模型訓練AI

2022-09-21 11:48:40

端到端音視頻測試用戶體驗

2022-10-19 09:27:39

2020-06-09 15:13:15

2023-11-14 12:07:43

美團沙龍

2010-01-20 16:12:16

專家答疑端到端加密保護數(shù)據(jù)

2025-04-29 09:21:19

模型AI圖像生成
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 色视频一区二区 | 中文字幕一区二区三区不卡 | 国产成人精品综合 | 免费视频久久 | 午夜av电影院 | 久久成人精品视频 | 日韩在线 | 日本三级网站在线观看 | 亚洲 欧美 日韩 精品 | 色婷婷av久久久久久久 | 亚洲狠狠丁香婷婷综合久久久 | 久久在线 | 免费国产黄 | 在线观看中文字幕 | 久久人人网 | 精品一二三区 | 天天久久 | 久久精品91久久久久久再现 | 日韩一级精品视频在线观看 | 国产精品视频一区二区三区不卡 | 亚洲国产一区二区三区 | 成人在线一区二区三区 | 欧美激情一区二区三区 | 欧美精品一区在线发布 | 中文精品视频 | 欧美电影在线观看网站 | 国产情侣一区 | 久久国产精品免费一区二区三区 | 亚洲国产精品一区二区久久 | 五月婷婷色 | 奇米超碰在线 | 久久亚洲欧美日韩精品专区 | 国产免费视频 | 伊人最新网址 | 国色天香综合网 | 久久久久国产精品免费免费搜索 | 欧州一区二区三区 | 超碰97人人人人人蜜桃 | 国产综合久久 | 怡红院怡春院一级毛片 | 无人区国产成人久久三区 |