成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

小白都能懂的推薦算法入門之一,從上古時(shí)期的LR開(kāi)始聊起

開(kāi)發(fā) 前端 算法
既然是介紹推薦系統(tǒng),我們先從最簡(jiǎn)單最簡(jiǎn)單的模型開(kāi)始說(shuō)起。說(shuō)起推薦算法領(lǐng)域最簡(jiǎn)單的模型,自然就是LR了。

[[386397]]

大家好,不知不覺(jué)做推薦系統(tǒng)挺久的了,很多同學(xué)私信讓我好好寫寫推薦系統(tǒng)相關(guān),但苦于沉淀不夠有貨倒不出。最近充電總結(jié)了一段時(shí)間,有了一些積累,給大家好好說(shuō)道說(shuō)道。

既然是介紹推薦系統(tǒng),我們先從最簡(jiǎn)單最簡(jiǎn)單的模型開(kāi)始說(shuō)起。說(shuō)起推薦算法領(lǐng)域最簡(jiǎn)單的模型,自然就是LR了。

LR模型是機(jī)器學(xué)習(xí)領(lǐng)域的基礎(chǔ)模型,我想接觸過(guò)這個(gè)領(lǐng)域的同學(xué)應(yīng)該都不陌生。

為什么是LR

什么是LR大家已經(jīng)知道了,但還有一個(gè)問(wèn)題卻沒(méi)有回答。那就是為什么早年的時(shí)候LR模型如此受歡迎呢?難道就不能使用其他一些看起來(lái)高級(jí)一些的模型嗎,比如決策樹(shù)、隨機(jī)森林、GBDT?不是說(shuō)XGBoost在各種比賽的效果都非常好嗎?為什么業(yè)內(nèi)不用來(lái)做推薦呢?

尤其是當(dāng)我讀到2014年Facebook推出的GBDT+LR的paper的時(shí)候,這種困惑更是明顯。

這篇論文非常經(jīng)典,在業(yè)內(nèi)地位很重,甚至可以說(shuō)是推薦領(lǐng)域必讀的paper之一。深度學(xué)習(xí)興起之前很多公司和廠商都沿用了這個(gè)做法,論文當(dāng)中的做法倒是不難,說(shuō)是創(chuàng)新的做法,其實(shí)本質(zhì)上就是將GBDT預(yù)測(cè)的時(shí)候樣本落到的節(jié)點(diǎn)作為multi-hot編碼,然后將這個(gè)編碼之后的01的數(shù)組看成是新的特征,然后用這個(gè)轉(zhuǎn)換過(guò)的特征來(lái)訓(xùn)練LR??梢哉f(shuō)它的本質(zhì)仍然是訓(xùn)練LR,所謂的GBDT只不過(guò)是一個(gè)編碼器。

我當(dāng)時(shí)看這篇paper的時(shí)候,里面的意思都已經(jīng)理解了,但是有一個(gè)問(wèn)題怎么也沒(méi)想明白。既然都用GBDT了,結(jié)合其他模型不香嗎,非得結(jié)合LR?

我估計(jì)這個(gè)問(wèn)題很多在推薦領(lǐng)域的從業(yè)者可能也未必答得上來(lái),我先賣個(gè)關(guān)子,把問(wèn)題記在這里,等會(huì)晚點(diǎn)來(lái)回答。

推薦領(lǐng)域的特征有什么特點(diǎn)?

在算法領(lǐng)域,提及效果,特征和模型兩者是一體兩面,很難剝離。好的模型也需要好的特征支撐,好的特征需要好的模型才能充分表達(dá)。所以我們先把模型的問(wèn)題放一放,來(lái)思考一下特征。

推薦領(lǐng)域主要的特征只有三塊,以電商為例,分別是item,user和context。也就是商品,用戶以及環(huán)境信息,比如時(shí)間,地點(diǎn),展示位置等等。context特征比較少,來(lái)來(lái)回回就那么幾樣,我們也先放一放。剩下的就是用戶和商品,圍繞用戶和商品我們形成的特征主要又可以分成兩個(gè)部分,一個(gè)是基礎(chǔ)特征,另外一個(gè)是統(tǒng)計(jì)特征。

以商品舉例,基礎(chǔ)特征就是品牌、價(jià)格、類目、評(píng)價(jià),統(tǒng)計(jì)特征就是最近點(diǎn)擊率、最近銷售額、最近轉(zhuǎn)化率等等。這些特征按照類別分又可以分為兩種,一種是浮點(diǎn)型的連續(xù)型特征,一種是類別特征,比如商品的類目,品牌等等。到這里都很正常,沒(méi)有什么難理解,或者是不可思議的部分。

我們接著往下,再來(lái)看看模型要預(yù)測(cè)的目標(biāo)——點(diǎn)擊率。我們結(jié)合一下模型預(yù)測(cè)的目標(biāo)再來(lái)觀察一下前面列舉的特征,你會(huì)發(fā)現(xiàn),除了歷史點(diǎn)擊率、歷史轉(zhuǎn)化率等少數(shù)幾個(gè)指標(biāo)和最終的結(jié)果是強(qiáng)正相關(guān)之外,其他的浮點(diǎn)型的特征沒(méi)有特別明顯的正相關(guān)或者是負(fù)相關(guān)??梢哉f(shuō)商品的價(jià)格和點(diǎn)擊率負(fù)相關(guān)嗎?其實(shí)不太行,商品越便宜可能質(zhì)量越差,反而不會(huì)有人點(diǎn)。用戶的購(gòu)買力呢?越有錢點(diǎn)的商品越多嗎?也不成立。

正是因?yàn)樯厦嬲f(shuō)的這個(gè)原因,所以在推薦領(lǐng)域,效果很好的浮點(diǎn)型特征很少,大部分都是類別特征,也就是01特征。

所以你說(shuō)GBDT、隨機(jī)森林、XGboost這些模型的效果會(huì)很好嗎?很難說(shuō),因?yàn)檫@些模型的長(zhǎng)處往往都在浮點(diǎn)型特征,也就是連續(xù)型特征。這些樹(shù)模型會(huì)設(shè)計(jì)規(guī)則對(duì)這些連續(xù)特征進(jìn)行分段,如果大部分特征都是01特征,那還怎么分段呢?

所以,到這里也就回答了,為什么在深度學(xué)習(xí)模型興起之前,推薦領(lǐng)域普遍都使用LR,而不是那些看著很牛的樹(shù)模型。

LR模型的原理

LR模型也就是純線性模型,它可以簡(jiǎn)單理解成若干個(gè)特征的加權(quán)和。每個(gè)特征的權(quán)重或大或小,最后累加在一起,得到一個(gè)預(yù)測(cè)的概率。這毫無(wú)毛病,也是學(xué)過(guò)的人都知道。

但我們往下一層,有沒(méi)有想過(guò)這一點(diǎn)在推薦領(lǐng)域意味著什么呢?

意味著模型其實(shí)是”記住“了每個(gè)特征和最終結(jié)果的關(guān)系,我們把模型擬人化,把它看成一個(gè)機(jī)器人的話。機(jī)器人看到樣本有特征A并且點(diǎn)擊了,于是特征A的權(quán)重提升一點(diǎn),樣本有特征B但是沒(méi)點(diǎn)擊,于是把特征B的權(quán)重降低一些。模型就是在這樣一個(gè)策略當(dāng)中找到一個(gè)最佳的平衡。

這就意味著,一些容易被記憶的特征往往會(huì)發(fā)揮比較好的效果。比如男士通常會(huì)買煙,女士通常買口紅,那么我們就可以設(shè)計(jì)男士_煙和女士_口紅的組合特征。當(dāng)模型看到大部分男士看到煙都點(diǎn)擊了之后,它就能學(xué)到這個(gè)組合是一個(gè)強(qiáng)特征并給與一個(gè)比較高的權(quán)重。這樣只要我們盡可能地找出這些特征的組合,那么模型就可以得到很好的效果。

所以到這里大家就明白了,LR模型在推薦領(lǐng)域發(fā)揮作用,本質(zhì)上就是靠的“記性”。因?yàn)樗梢杂涀∧切╊悇e特征以及類別特征的組合,所以它往往比那些看起來(lái)更高端的樹(shù)模型效果要好。這也是為什么到了LR時(shí)代的后期,算法工程師們的工作就是整天挖掘一些類別特征的組合,以期望模型達(dá)到很好的效果。

LR模型的優(yōu)缺點(diǎn)

到這里,關(guān)于LR模型在推薦領(lǐng)域的應(yīng)用就差不多說(shuō)完了,我們做一個(gè)簡(jiǎn)單的總結(jié),首先從它的優(yōu)點(diǎn)開(kāi)始說(shuō)起。

LR模型的優(yōu)點(diǎn)教科書上已經(jīng)說(shuō)了很多了,比如訓(xùn)練速度快,由于參數(shù)空間比較小,LR模型可以迅速收斂,它的訓(xùn)練速度要比那些樹(shù)模型以及后面的深度學(xué)習(xí)模型快得多。其次是可解釋性強(qiáng),由于我們可以查閱得到所有特征的權(quán)重,所以我們很容易解釋究竟是什么特征發(fā)揮了作用,或者是什么特征拖了后腿。

但是LR在推薦領(lǐng)域也有一個(gè)很大的缺點(diǎn),是什么呢,就是臟活累活很多。

因?yàn)閹缀跛械奶卣鹘M合都需要人工挖取,需要人工遍歷很多特征組合,甚至是一一嘗試找到最佳的組合。這個(gè)過(guò)程當(dāng)中需要花費(fèi)大量的人力,幾乎可以說(shuō)是純堆人工。所以對(duì)于LR時(shí)代的算法工程師來(lái)說(shuō)可能螺絲釘?shù)母杏X(jué)比現(xiàn)在還要嚴(yán)重得多,什么優(yōu)化模型基本上是不用想了,LR這么簡(jiǎn)單的模型也沒(méi)什么優(yōu)化的空間,剩下的事情基本上就只有做特征做實(shí)驗(yàn)了。

 

俗話說(shuō)得好,前輩的缺點(diǎn)就是后輩努力的方向。那么對(duì)于LR模型的這些缺點(diǎn)又該怎么彌補(bǔ)或者是優(yōu)化呢?

本文轉(zhuǎn)載自微信公眾號(hào)「TechFlow」,可以通過(guò)以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系TechFlow公眾號(hào)。

 

責(zé)任編輯:武曉燕 來(lái)源: TechFlow
相關(guān)推薦

2023-03-09 08:17:46

Google存儲(chǔ)設(shè)備

2020-05-19 14:00:09

人工智能機(jī)器學(xué)習(xí)AI

2021-03-18 11:45:49

人工智能機(jī)器學(xué)習(xí)算法

2021-09-06 08:39:24

容器Docker鏡像

2021-01-11 05:18:11

機(jī)器學(xué)習(xí)

2021-07-01 07:34:09

代碼 Python 視頻

2019-12-17 14:59:27

數(shù)據(jù)中臺(tái)數(shù)據(jù)倉(cāng)庫(kù)馬蜂窩

2014-09-11 09:42:35

VLAN原理

2021-06-28 06:15:14

算法Algorithm時(shí)間空間復(fù)雜度

2021-06-29 11:40:51

Python郵件命令

2021-12-30 09:10:28

游戲開(kāi)發(fā)開(kāi)發(fā)技術(shù)熱點(diǎn)

2024-10-07 10:45:12

2018-04-08 16:03:16

2022-08-16 21:01:56

runAsyncreload數(shù)據(jù)

2016-09-30 15:03:13

推薦系統(tǒng)算法

2023-01-13 08:18:37

延遲雙刪策略

2014-04-24 16:40:36

敏捷網(wǎng)絡(luò)華為

2024-12-18 18:53:48

2017-12-20 10:08:53

2021-01-28 19:31:59

MySQL手冊(cè)方法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: www国产精| 正在播放国产精品 | 成人午夜免费视频 | 国产大片黄色 | a久久久久久 | 国内自拍视频在线观看 | 天堂av在线影院 | 欧美11一13sex性hd | 在线成人免费视频 | 亚洲高清在线 | 毛片一级片 | 一区二区三区四区免费在线观看 | 一级毛片视频在线 | ww亚洲ww亚在线观看 | 久久精品一区二区三区四区 | 国产视频不卡一区 | 伊人久久免费视频 | 亚洲91视频 | 国产一区二区三区四区五区加勒比 | 亚洲欧洲激情 | 蜜桃av人人夜夜澡人人爽 | 国产精品福利久久久 | 欧美二区在线 | 色综合激情 | 一区二区精品 | 亚洲国产一区在线 | 国产精品99久久久久久久久 | 久久久久久国产精品mv | 国产资源在线观看 | 精品一区二区在线观看 | 91久久国产综合久久 | 欧美一区二区久久 | 国产丝袜一区二区三区免费视频 | 一区二区三区在线 | 欧 | 91精品亚洲| 三级免费 | 久久久99精品免费观看 | 日韩av在线不卡 | 国产精品视频中文字幕 | 国产亚洲第一页 | 久久精品国产一区二区电影 |