成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

推薦系統中的 Scaling Law : 看特征維度如何影響推薦系統準確性

譯文
開發 前端
推薦系統在互聯網行業應用廣泛。根據亞馬遜和Netflix 等公司的經驗,推薦系統可以給公司帶來大幅度的流量提升,從而起到開源節流的作用。

譯者 | 汪昊

審校 | 重樓

推薦系統在互聯網行業應用廣泛。根據亞馬遜和Netflix 等公司的經驗,推薦系統可以給公司帶來大幅度的流量提升,從而起到開源節流的作用。試想如果不借助于推薦系統,而是借助于搜索引擎關鍵詞進行引流,那么營銷的花費將增加數倍乃至數百倍都有可能。因此,大型互聯網公司對于推薦系統不管怎么重視都不為過。

業界對于推薦系統的研究,主要集中在如何提升推薦系統的準確率方面。隨著近年來大模型的火熱,在信息檢索頂會上,曾經出現研究大模型 Scaling Law 的文章獲得最佳論文獎的情況。而推薦系統領域在 2023 年也出現了一篇類似的文章,講的是推薦系統矩陣分解模型中特征向量的維度的大小對于準確率的影響。這篇論文題目是 Curse of Low Dimensionality in Recommender System,發表在信息檢索領域頂會SIGIR 2023 上。下面我們來一探這篇論文的究竟。

作者首先給出了推薦系統點乘模型的一般公式:

其中

是用戶側的嵌入式向量,而

是物品側的嵌入式向量。推薦系統點乘模型的一個典型例子是 Alternating Least Squares (ALS)。這個算法被集成在了 Apache Spark 的 MLLib 算法庫里。作者在本文中將在 MovieLens 20M,Million Song Dataset 和 Epinions 數據集上測試 ALS 算法,以考察嵌入式向量的維度對于推薦系統準確率的影響。

作者通過對比實驗檢驗流行度偏差,得到了下圖:

隨后,作者檢驗了算法的召回率,得到了下圖:

作者通過實驗觀察得到結論,高維度的嵌入式表達可以得到更高的準確度和更低的流行度偏差。

作者隨后對于嵌入式表達進行了理論建模,得到了以下定理:

定理 4.1 以下結論成立:

  1. 上界:對于每一組在空間的 n 個物品向量來說,能利用這些向量表示的長度為 K 的排序列表數量至多數
  2. 存在一組在空間的物品向量,這組向量的數量是 n,能利用這組向量來表示的長度為 d 的排序列表數 。

以上定理表明增加嵌入式向量維度,會指數級別的增強點乘模型的表達能力。

為了研究流行度偏差背后的機理,作者隨后又提出了如下定理:

定理 4.2 假定存在兩個物品集合 P 和 L,查詢向量 q 在點乘模型中總是將 P 集合中的物品排名優于所有的L 集合中的物品。那么,如果一個向量 s 被包括在一個凸錐中,而這個凸錐又包含了 P 的凸包,那么 s 比 L 中的每一個物品排名都高。另外,這個凸錐會隨著更多物品的加入而變得更大

這個定理告訴我們因為存在一小撮流形和長尾的物品,它們使得比較流形的物品排名優于長尾物品,降低了可表達的排序列表的數量,因此我們無法完全避免流行度偏差。

在本文中,作者根據實驗和后續的理論分析指出低維嵌入式向量會導致關于流行度偏差的過擬合,并會進一步加深流行度偏差的問題。這一現象,被稱為低維度詛咒。作者的研究工作條理分明,除了大量的實驗對比工作,還進行了嚴謹的理論分析,因此值得推薦系統行業的從業者認真學習。

譯者簡介

汪昊,前達評奇智董事長兼創始人。前 FunPlus 人工智能實驗室負責人。在 ThoughtWorks, 百度,聯想,網易和 FunPlus 等科技公司有超過 13 年的技術和技術管理經驗。精通推薦系統、金融風控、爬蟲和聊天機器人等領域。在國際學術會議和期刊發表論文 44 篇。5 次獲得國際學術會議最佳論文獎和最佳論文報告獎。2006 年 ACM/ICPC 北美落基山區域賽金牌。2004 年全國大學生英語能力競賽口語總決賽銅牌。本科(2008年)和碩士(2010年)畢業于美國猶他大學。對外經貿大學(2016 年)在職 MBA 學位。

責任編輯:華軒 來源: 51CTO
相關推薦

2016-09-30 15:03:13

推薦系統算法

2019-12-12 19:07:55

物聯網技術軟件

2025-04-01 09:20:00

模型預測AI

2022-04-08 12:36:02

模型系統

2020-04-02 16:12:56

推薦系統CTR分流

2017-10-24 05:20:13

推薦系統數據算法

2024-06-26 19:18:53

2022-08-19 10:27:39

系統模型

2024-09-11 16:36:39

2023-04-24 07:37:28

推薦算法項目

2017-05-16 15:00:24

深度學習

2022-06-22 10:33:06

麻省理工大學PaShUnix shell

2019-04-23 09:00:00

機器學習排序學習人工智能

2018-08-08 13:30:59

推薦系統DeepFM算法

2017-09-30 09:43:57

YouTube推薦系統

2022-10-21 16:07:10

編碼器自然語言模型

2023-08-22 15:37:45

深度學習人工智能

2009-02-19 15:06:00

UbuntuOffice實用

2023-02-28 16:26:46

推薦系統模塊

2022-04-14 10:19:40

系統應用技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品一区二区三区在线观看国产 | 日韩欧美一级片 | 中文字幕 在线观看 | 久久av一区二区三区 | 国产精品免费一区二区三区四区 | 国产欧美在线观看 | 成人亚洲视频 | 日韩免费在线观看视频 | a国产视频 | 日韩在线精品视频 | 日韩欧美精品 | 中文字幕在线一区二区三区 | 国产精品久久久久久久久 | 亚洲第一视频网 | 日韩一区二区精品 | 亚洲高清在线 | 蜜桃在线视频 | 国产男女猛烈无遮掩视频免费网站 | 国产成人精品一区二区三区视频 | 国产一区不卡 | 精品日韩一区二区三区av动图 | 国产在线视频一区二区董小宛性色 | 欧美激情国产精品 | 成人精品视频99在线观看免费 | 欧美在线一区二区视频 | 欧美精品啪啪 | 国产精品久久久久久高潮 | 亚洲97 | 91精品国产日韩91久久久久久 | 狠狠操在线 | 欧美一区二区三区在线观看 | 国产精品久久777777 | 欧美 日韩 国产 成人 在线 | 久久久久九九九九 | 国产精品精品视频一区二区三区 | 欧美综合一区二区三区 | 午夜免费看 | 午夜免费电影 | 欧美综合色 | 在线播放亚洲 | 欧美亚洲视频在线观看 |