成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從算法原理,看推薦策略

大數(shù)據(jù) 算法
協(xié)同過(guò)濾推薦算法應(yīng)該算是一種用的最多的推薦算法,它是通過(guò)用戶的歷史數(shù)據(jù)來(lái)構(gòu)建“用戶相似矩陣”和“產(chǎn)品相似矩陣”來(lái)對(duì)用戶進(jìn)行相關(guān)item的推薦,以達(dá)到精準(zhǔn)滿足用戶喜好的目的。比如亞馬遜等電商網(wǎng)站上的“買(mǎi)過(guò)XXX的人也買(mǎi)了XXX”就是一種協(xié)同過(guò)濾算法的應(yīng)用。

 [[195281]]

推薦算法簡(jiǎn)介

目前的推薦算法一般分為四大類(lèi):

  • 協(xié)同過(guò)濾推薦算法
  • 基于內(nèi)容的推薦算法
  • 混合推薦算法
  • 流行度推薦算法

協(xié)同過(guò)濾的推薦算法

協(xié)同過(guò)濾推薦算法應(yīng)該算是一種用的最多的推薦算法,它是通過(guò)用戶的歷史數(shù)據(jù)來(lái)構(gòu)建“用戶相似矩陣”和“產(chǎn)品相似矩陣”來(lái)對(duì)用戶進(jìn)行相關(guān)item的推薦,以達(dá)到精準(zhǔn)滿足用戶喜好的目的。比如亞馬遜等電商網(wǎng)站上的“買(mǎi)過(guò)XXX的人也買(mǎi)了XXX”就是一種協(xié)同過(guò)濾算法的應(yīng)用。

基于內(nèi)容的推薦算法

基于內(nèi)容的推薦算法,是將item的名稱、簡(jiǎn)介等進(jìn)行分詞處理后,提取出TF-IDF值較大的詞作為特征詞,在此基礎(chǔ)上構(gòu)建item相關(guān)的特征向量,再根據(jù)余弦相似度來(lái)計(jì)算相關(guān)性,構(gòu)建相似度矩陣。

混合推薦算法

混合推薦算法很好理解,就是將其他算法推薦的結(jié)果賦予不同的權(quán)重,然后將最后的綜合結(jié)果進(jìn)行推薦的方法。

舉例來(lái)說(shuō),比如上述已經(jīng)提到了三種方式,協(xié)同過(guò)濾算法中的基于用戶和基于item的協(xié)同過(guò)濾推薦,和基于內(nèi)容的推薦算法;而混合推薦算法中是將這三種推薦結(jié)果賦予不同的權(quán)重,如:基于用戶的協(xié)同過(guò)濾的權(quán)重為40%,基于item的協(xié)同過(guò)濾的權(quán)重為30%,基于內(nèi)容的過(guò)濾技術(shù)的權(quán)重為30%,然后綜合計(jì)算得到最終的推薦結(jié)果。

流行度推薦算法

這個(gè)很基礎(chǔ),看名字就知道了。這種方法是對(duì)item使用某種形式的流行度度量,例如最多的下載次數(shù)或購(gòu)買(mǎi)量,然后向新用戶推薦這些受歡迎的item。就和我們平時(shí)經(jīng)常看到的熱門(mén)商品、熱門(mén)推薦類(lèi)似。

淺析推薦算法在實(shí)際中的應(yīng)用

了解了大概原理后,就可以來(lái)看看在實(shí)際場(chǎng)景中,推薦算法都是怎么使用的吧。(事先聲明,這只是我看了相關(guān)東西再結(jié)合自己理解進(jìn)去推測(cè)的,如果有說(shuō)錯(cuò)的地方請(qǐng)各位千萬(wàn)放下手中的刀……)

好,下面開(kāi)始,先說(shuō)說(shuō)協(xié)同過(guò)濾算法在實(shí)際中的應(yīng)用。

協(xié)同過(guò)濾算法

協(xié)同過(guò)濾算法一般是怎么做的呢?我們先來(lái)看看在圖書(shū)推薦中的做法:

協(xié)同過(guò)濾(CF)大致可分為兩類(lèi):一類(lèi)是基于鄰域的推薦、一類(lèi)是基于模型的推薦;鄰域方法是使用用戶對(duì)已有item的喜愛(ài)程度來(lái)推測(cè)用戶對(duì)新item的喜愛(ài)程度。與之相反,基于模型的方法是使用歷史行為數(shù)據(jù),基于學(xué)習(xí)出的預(yù)測(cè)模型,預(yù)測(cè)對(duì)新項(xiàng)的喜愛(ài)程度。通常的方式是使用機(jī)器學(xué)習(xí)算法,找出用戶與項(xiàng)的相互作用模型,從而找出數(shù)據(jù)中的特定模式。(由于基于模型的方法我也不太理解,暫時(shí)不展開(kāi)說(shuō)明,感興趣的可以查閱相關(guān)資料)

【基于鄰域的推薦】–即是構(gòu)建用戶相似矩陣和產(chǎn)品相似矩陣

假設(shè)用戶表現(xiàn)出了對(duì)一些圖片的喜歡情況并進(jìn)行了相應(yīng)的評(píng)分,情況如下:

不同圖書(shū)代表不同維度,評(píng)分則代表了特征向量在該維度上的投影長(zhǎng)度,根據(jù)用戶對(duì)不同圖書(shū)的喜愛(ài)程度建立用戶的特征向量,然后根據(jù)余弦相似度可以判斷用戶之間的相似性。根據(jù)相似性可以建立用戶相似矩陣:

很顯然,通過(guò)根據(jù)用戶對(duì)歷史圖書(shū)的評(píng)分情況,可以得到用戶對(duì)其的喜愛(ài)情況,在此基礎(chǔ)上構(gòu)建出用戶特征向量,可以一定程度上判斷兩個(gè)用戶在圖書(shū)品味上的相似程度,進(jìn)而我們可以認(rèn)為,若A和B比較相似,可以認(rèn)為A喜歡的書(shū)B(niǎo)也喜歡。

在給A用戶進(jìn)行圖書(shū)推薦時(shí),找到與其相似度較高的其他用戶,然后除去A用戶已看過(guò)的圖書(shū),結(jié)合相似用戶對(duì)某本圖書(shū)的喜愛(ài)程度與該用戶與A用戶的相似度進(jìn)行加權(quán),得到的推薦指數(shù)越高的圖書(shū)優(yōu)先進(jìn)行推薦。

這應(yīng)該也是豆瓣等圖書(shū)社區(qū)上使用的推薦算法之一,利用用戶之間的相似度來(lái)進(jìn)行推薦。當(dāng)然,電影推薦也同理。

同理,反過(guò)來(lái)我們可以按照相似的方位,以用戶為維度來(lái)構(gòu)建item的特征向量。 當(dāng)我們需要判斷兩本書(shū)是否相似時(shí),就去看對(duì)這兩本書(shū)進(jìn)行過(guò)評(píng)價(jià)的用戶構(gòu)成是否相似,即是使用評(píng)價(jià)過(guò)一本書(shū)的用戶向量(或數(shù)組)表示這本圖書(shū);也就是說(shuō),如果有兩本書(shū)的評(píng)價(jià)中,用戶重合度較高,即可認(rèn)為該兩本書(shū)相似度較高。其實(shí)借用的還是用戶相似的基礎(chǔ)。(《白話大數(shù)據(jù)與機(jī)器學(xué)習(xí)》中也提到過(guò)相似的推薦算法,感興趣的同學(xué)可以找來(lái)看一下)。

在音樂(lè)的推薦中同樣用到了協(xié)同過(guò)濾算法,我們眾所周知的使用個(gè)性化推薦的音樂(lè)app應(yīng)該屬「網(wǎng)易云音樂(lè)」比較典型了。

那么我們就來(lái)yy一下網(wǎng)易云音樂(lè)的推薦算法,首先用戶過(guò)去都會(huì)有聽(tīng)歌的歷史,由于音樂(lè)中沒(méi)有相關(guān)的評(píng)分機(jī)制,那么可以根據(jù)用戶對(duì)音樂(lè)的行為來(lái)建立一個(gè)喜愛(ài)程度模型,例如:收藏-5分,加入歌單-4分,單曲循環(huán)-3分,分享-5分,聽(tīng)一遍就刪-0分(本來(lái)想說(shuō)負(fù)分滾粗的)。這樣就大概有了一個(gè)喜歡程度列表,于是接下來(lái)就可以根據(jù)用戶的聽(tīng)歌情況,建立用戶的特征向量,接下來(lái)的推薦就順利成章了。

當(dāng)然,基于協(xié)同過(guò)濾算法的用戶相似度矩陣算法應(yīng)該只是網(wǎng)易云采取的一種推薦方式,接下來(lái)還會(huì)說(shuō)到另外的方式。

值得注意的是,協(xié)同過(guò)濾的推薦算法雖然使用得很廣且推薦效果也較好,但還是存在一些不足之處:

  • 協(xié)同過(guò)濾算法(CF)推薦中存在流行性偏差,因?yàn)閰f(xié)同過(guò)濾算法是基于慣性數(shù)據(jù)來(lái)進(jìn)行推薦的,流行的物品由于關(guān)注的用戶多,產(chǎn)生的數(shù)據(jù)也多,因此可以建立較為有效的推薦機(jī)制;而對(duì)于小眾或長(zhǎng)尾的產(chǎn)品(沒(méi)人用過(guò)也沒(méi)人評(píng)分過(guò)),則無(wú)法有效推薦;
  • 冷啟動(dòng)問(wèn)題(又叫做新用戶問(wèn)題,或推薦新項(xiàng)問(wèn)題),同樣是由于慣性數(shù)據(jù)的缺失,導(dǎo)致一開(kāi)始的推薦算法無(wú)法建立;這樣的問(wèn)題可以通過(guò)流行性算法進(jìn)行一定程度的解決,當(dāng)然也可以利用基于內(nèi)容的推薦算法來(lái)進(jìn)行解決(后面會(huì)提到)。

基于內(nèi)容的過(guò)濾算法

簡(jiǎn)介部分已經(jīng)提到了基于內(nèi)容的過(guò)濾算法的基本原理,這里就不再重復(fù)了,直接說(shuō)一下具體大概是怎么用的吧。

基于內(nèi)容的過(guò)濾方式與協(xié)同過(guò)濾中建立用戶相似矩陣的方式類(lèi)似,都是利用特征向量來(lái)進(jìn)行余弦相似度計(jì)算,從而判斷物品的相似性。

首先, 利用分詞技術(shù)對(duì)書(shū)籍的標(biāo)題和內(nèi)容進(jìn)行處理,去掉權(quán)重為0的詞(如的、得、地等);

然后,取 TF-IDF值較大的詞作為特征詞,并將其提取出來(lái)作為標(biāo)簽;

接著, 根據(jù)特征詞建立書(shū)籍的特征向量;

最后, 計(jì)算不同書(shū)籍之間的余弦相似度,并憑次建立書(shū)籍之間的相似度矩陣;

 

基于內(nèi)容的協(xié)同過(guò)濾算法,最主要的初級(jí)步驟是通過(guò)分詞技術(shù)對(duì)標(biāo)題和簡(jiǎn)介等進(jìn)行處理,形成特征標(biāo)簽。例如,對(duì)于圖書(shū)和電影而言,可以對(duì)名稱和簡(jiǎn)介進(jìn)行特征詞提取,從而構(gòu)建特征向量;當(dāng)然,在豆瓣上發(fā)現(xiàn)可以用一種更省事的方法,就是讓用戶進(jìn)行對(duì)作品評(píng)價(jià)時(shí)需要勾選相關(guān)的標(biāo)簽,這樣只要為不同種類(lèi)提供足夠多的標(biāo)簽供用戶選擇即可(當(dāng)然這是我猜的);

而如果對(duì)于音樂(lè)的推薦呢?沒(méi)有相關(guān)簡(jiǎn)介,歌名也不具備足夠的指向性,這種情況下則可以通過(guò)音樂(lè)本身的類(lèi)別來(lái)作為標(biāo)簽進(jìn)行特征向量的構(gòu)建,例如:民謠、搖滾、懷舊等;我猜這也是網(wǎng)易云音樂(lè)采用的一種推薦方式吧。

而對(duì)于36氪之類(lèi)的資訊網(wǎng)站,采用什么樣的推薦算法也能夠有一定程度的理解了吧,原理都是類(lèi)似的。

基于內(nèi)容的推薦由于不需要太多的慣性數(shù)據(jù),因此可以部分解決冷啟動(dòng)問(wèn)題和流行性偏差,也就是彌補(bǔ)了協(xié)同過(guò)濾算法中的部分不足,因此也可以將兩者混合起來(lái)使用,例如混合推薦算法就是采用了這樣的方式;其次,需要注意的是,如果單純使用基于內(nèi)容的過(guò)濾算法,會(huì)出現(xiàn)過(guò)度專(zhuān)業(yè)化問(wèn)題,導(dǎo)致推薦列表里面出現(xiàn)的大多都是同一類(lèi)東西,有的小伙伴可能也觀察到了類(lèi)似的現(xiàn)象,比如在亞馬遜上購(gòu)買(mǎi)哪本書(shū)(比如java相關(guān)的),會(huì)發(fā)現(xiàn)推薦的書(shū)籍里全是java相關(guān)的,就是因?yàn)槌霈F(xiàn)了過(guò)度專(zhuān)業(yè)化的現(xiàn)象。

結(jié)語(yǔ)

推薦算法的原理其實(shí)基于數(shù)學(xué)的原理得到解決(向量、余弦相似度等),其實(shí)其他各類(lèi)也同理,都是可在數(shù)學(xué)的基礎(chǔ)上得到思路和衍生,如用來(lái)進(jìn)行情感判斷的樸素貝葉斯算法,就是將人才能理解的情感問(wèn)題轉(zhuǎn)化成了基本的概率問(wèn)題而得到解決,包括自然語(yǔ)言處理(NLP)和語(yǔ)音識(shí)別等,由此真是可以體會(huì)到數(shù)學(xué)的博大精深啊。

作為一名初級(jí)產(chǎn)品汪而言,從算法原理角度理解一些實(shí)際問(wèn)題還是很有幫助的,當(dāng)然具體上手層面還需要開(kāi)發(fā)同學(xué)的大力協(xié)助。

責(zé)任編輯:武曉燕 來(lái)源: 36大數(shù)據(jù)
相關(guān)推薦

2019-07-03 10:21:50

人工智能數(shù)據(jù)庫(kù)算法

2010-12-02 09:33:21

SELECTOracle查詢

2021-07-09 00:24:10

No.jsNode.js原理

2017-03-02 10:49:37

推薦算法原理實(shí)現(xiàn)

2014-10-29 17:25:26

Android 5.0Google

2015-12-08 18:25:39

在線教育云CDNCDN加速

2011-08-11 13:48:25

2024-12-10 00:00:10

MySQLJOIN算法

2022-06-10 07:42:37

搜索推薦架構(gòu)

2018-05-17 15:18:48

Logistic回歸算法機(jī)器學(xué)習(xí)

2023-05-05 06:43:13

算法冒泡排序元素

2014-08-06 09:08:03

大數(shù)據(jù)

2018-05-22 09:47:07

2019-02-18 14:42:18

React.jsUI前端

2025-05-16 08:53:06

2016-09-30 15:03:13

推薦系統(tǒng)算法

2020-06-29 07:30:00

推薦算法推薦系統(tǒng)

2015-10-08 16:40:50

緩存頭像策略

2020-06-09 08:13:15

PHP數(shù)據(jù)結(jié)構(gòu)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久久久久久国产精品三区 | 久久久久久一区 | 欧美韩一区二区 | 精精国产视频 | 在线欧美小视频 | 国产高清在线观看 | 国产露脸国语对白在线 | 国产偷录叫床高潮录音 | 久草新视频 | 成人做爰9片免费看网站 | 久草成人| 国产亚洲人成a在线v网站 | 狠狠干网站 | 亚洲欧美激情精品一区二区 | 色偷偷888欧美精品久久久 | 中文字幕av色 | h视频免费在线观看 | 久久精品色欧美aⅴ一区二区 | 欧美午夜一区二区三区免费大片 | 成人av网站在线观看 | 亚洲视频在线看 | 午夜精品久久久久久久久久久久久 | 国产成人精品免高潮在线观看 | 羞羞网站在线免费观看 | 久久日韩精品一区二区三区 | 欧美综合一区二区三区 | 91九色porny首页最多播放 | 一区二区三区在线播放 | 国产精品国产成人国产三级 | 精品欧美一区二区三区久久久 | 欧美1区2区| 亚洲黄色一区二区三区 | 成人在线视频网址 | 福利视频一区二区 | 999www视频免费观看 | 欧美视频成人 | 欧美综合一区二区三区 | 欧美精品91爱爱 | 日本成人中文字幕在线观看 | 久久久久久黄 | 在线免费观看毛片 |