成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何采用強(qiáng)化學(xué)習(xí)幫助選擇客戶更加關(guān)注的廣告

譯文
人工智能 深度學(xué)習(xí)
如今,全球的數(shù)字廣告代理商每天都會(huì)在新聞網(wǎng)站、搜索引擎、社交媒體、視頻流以及其他媒體平臺(tái)上投放數(shù)以億計(jì)的廣告。他們都想解答一個(gè)問(wèn)題:其產(chǎn)品目錄中有哪些廣告更能吸引特定的用戶?當(dāng)面對(duì)數(shù)以百計(jì)的網(wǎng)站、數(shù)以萬(wàn)計(jì)的廣告以及數(shù)以百萬(wàn)的訪問(wèn)者時(shí),獲得這個(gè)問(wèn)題的正確答案將會(huì)對(duì)企業(yè)增加收入產(chǎn)生巨大影響。

【51CTO.com快譯】如今,全球的數(shù)字廣告代理商每天都會(huì)在新聞網(wǎng)站、搜索引擎、社交媒體、視頻流以及其他媒體平臺(tái)上投放數(shù)以億計(jì)的廣告。他們都想解答一個(gè)問(wèn)題:其產(chǎn)品目錄中有哪些廣告更能吸引特定的用戶?當(dāng)面對(duì)數(shù)以百計(jì)的網(wǎng)站、數(shù)以萬(wàn)計(jì)的廣告以及數(shù)以百萬(wàn)的訪問(wèn)者時(shí),獲得這個(gè)問(wèn)題的正確答案將會(huì)對(duì)企業(yè)增加收入產(chǎn)生巨大影響。

對(duì)于廣告代理商來(lái)說(shuō),幸運(yùn)的是,強(qiáng)化學(xué)習(xí)提供了一種解決方案(強(qiáng)化學(xué)習(xí)是一種主要應(yīng)用在棋局和視頻游戲而聞名的人工智能分支技術(shù))。采用強(qiáng)化學(xué)習(xí)模型可以獲得更大的回報(bào)。就網(wǎng)絡(luò)廣告而言,強(qiáng)化學(xué)習(xí)模式致力于尋找讓用戶更容易點(diǎn)擊的廣告。

全球的數(shù)字廣告行業(yè)每年產(chǎn)生數(shù)千億美元的收入,并提供了有關(guān)強(qiáng)化學(xué)習(xí)功能的案例研究。

1.采用A/B/n測(cè)試

為了更好地理解強(qiáng)化學(xué)習(xí)為優(yōu)化廣告的推廣提供的幫助,可以考慮一個(gè)簡(jiǎn)單的場(chǎng)景的應(yīng)用:例如一家新聞網(wǎng)站已經(jīng)和一家公司簽訂了合同,在新聞網(wǎng)站上刊登這家公司的廣告。該公司為在這個(gè)網(wǎng)站發(fā)布了五個(gè)不同的廣告,而在處理兩個(gè)以上的備選方案時(shí),可以稱之為A/B/n測(cè)試。

網(wǎng)站運(yùn)營(yíng)者的首要目標(biāo)是找到產(chǎn)生點(diǎn)擊次數(shù)最多的廣告。在廣告術(shù)語(yǔ)中,需要最大限度地提高點(diǎn)擊率(CTR)。點(diǎn)擊率是點(diǎn)擊次數(shù)與展現(xiàn)廣告數(shù)量的比值,也稱為展示次數(shù)。例如,如果展現(xiàn)了1,000次廣告,為網(wǎng)站帶來(lái)了3次點(diǎn)擊,則其點(diǎn)擊率將是3/1000 = 0.003或0.3%。

在通過(guò)強(qiáng)化學(xué)習(xí)解決問(wèn)題之前,先來(lái)討論一下A/B測(cè)試,這是一種用于比較兩個(gè)競(jìng)爭(zhēng)解決方案(A和B)的性能的標(biāo)準(zhǔn)技術(shù),例如不同的網(wǎng)頁(yè)布局、產(chǎn)品推薦或廣告。當(dāng)處理兩種以上的選擇時(shí),稱為A/B/n測(cè)試。

在A/B/n測(cè)試中,通常將實(shí)驗(yàn)對(duì)象隨機(jī)分為不同的組,每組都提供一種可用的解決方案。而在這個(gè)新聞網(wǎng)站發(fā)布廣告的案例中,這意味著將隨機(jī)向網(wǎng)站的每個(gè)訪問(wèn)者展示五個(gè)廣告中的一個(gè),并對(duì)展示結(jié)果進(jìn)行評(píng)估。

假設(shè)對(duì)A/B/ n測(cè)試進(jìn)行了10萬(wàn)次展示,相當(dāng)于每個(gè)廣告大約有2萬(wàn)次展示。以下是5個(gè)廣告的點(diǎn)擊率:

廣告1:80/20,000=0.40%

廣告2:70/20,000=0.35%

廣告3:90/0,000=0.45%

廣告4:62/20,000=0.31%

廣告5:50/20,000=0.25%

該網(wǎng)站在10萬(wàn)次廣告展示中獲得了352美元的收入,平均點(diǎn)擊率是0.35%。更重要的是,網(wǎng)站運(yùn)營(yíng)者發(fā)現(xiàn)第3個(gè)廣告的展示效果要優(yōu)于其他幾個(gè)廣告,并將繼續(xù)將其用于吸引其他訪問(wèn)者。而使用展示效果最差的廣告(第5個(gè)廣告),獲得收入應(yīng)為250美元。如果使用展示效果最好的廣告(第3個(gè)廣告),收入應(yīng)為450美元。因此,采用A/B/n測(cè)試提供了最低和最高收入的平均值,并提供了除了展現(xiàn)點(diǎn)擊率之外更具價(jià)值的知識(shí)。

數(shù)字廣告的轉(zhuǎn)化率其實(shí)非常低。在這個(gè)示例中,效果最好的廣告和效果最差的廣告之間只存在0.2%的細(xì)微差別。但是這種差別會(huì)可能在規(guī)模上產(chǎn)生重大影響。與第5個(gè)廣告相比,在展示次數(shù)為1,000次的情況下,展示第3個(gè)廣告將會(huì)多獲得2美元。在展示次數(shù)為100萬(wàn)次的情況下,這個(gè)差額為2,000美元。當(dāng)投放數(shù)十億次廣告時(shí),0.2%的細(xì)微差別會(huì)對(duì)網(wǎng)站收入產(chǎn)生巨大影響。

因此,找到這些細(xì)微的差別對(duì)于廣告優(yōu)化非常重要。A/B/n測(cè)試的問(wèn)題在于查找這些差別并不是很有效。它通常平等地對(duì)待所有廣告的展示,只有運(yùn)行數(shù)萬(wàn)次廣告,才能以可靠的置信度發(fā)現(xiàn)它們之間的差異。這可能會(huì)導(dǎo)致收入損失,尤其是當(dāng)發(fā)布更多廣告時(shí)。

傳統(tǒng)A/B/n測(cè)試的另一個(gè)問(wèn)題是它是靜態(tài)的。一旦找到了最佳的廣告,就必須堅(jiān)持下去。如果環(huán)境由于出現(xiàn)新的因素(例如季節(jié)和新聞趨勢(shì)等)而發(fā)生變化,并導(dǎo)致其他廣告中的一個(gè)具有潛在更高的點(diǎn)擊率(CTR),除非重新進(jìn)行A/B/n測(cè)試,否則難以發(fā)現(xiàn)。

如果可以更改A/B/n測(cè)試使其更高效、更動(dòng)態(tài)呢?這就是強(qiáng)化學(xué)習(xí)發(fā)揮重要作用的地方。廣告代理商必須找到一種最大限度地提高其回報(bào)的方法。

在這個(gè)案例中,強(qiáng)化學(xué)習(xí)代理的行為是要展示這五個(gè)廣告。而用戶每次點(diǎn)擊廣告,強(qiáng)化學(xué)習(xí)代理都會(huì)獲得獎(jiǎng)勵(lì)的積分。因此必須找到一種最大限度提高廣告點(diǎn)擊量的方法。

2.多臂老虎機(jī)(Multi-armed Bandit)

[[385338]]

多臂老虎機(jī)是找到通過(guò)反復(fù)試驗(yàn)發(fā)現(xiàn)幾種解決方案之一的方法。

在某些強(qiáng)化學(xué)習(xí)環(huán)境中,其動(dòng)作是按順序進(jìn)行評(píng)估的。例如在電子游戲中,在完成一個(gè)關(guān)卡或贏得一場(chǎng)比賽時(shí),必須執(zhí)行一系列動(dòng)作才能獲得獎(jiǎng)勵(lì)。而在投放廣告時(shí),每個(gè)廣告展示的結(jié)果都是獨(dú)立評(píng)估的,這是一個(gè)單一步驟的環(huán)境。

為了解決廣告優(yōu)化問(wèn)題,可以將使用多臂老虎機(jī)(Multi-armed Bandit)算法,這是一種適用于單一步驟強(qiáng)化學(xué)習(xí)的算法。多臂老虎機(jī)(MAB)來(lái)自一個(gè)假想場(chǎng)景:在這個(gè)場(chǎng)景中,很多人都在玩老虎機(jī),并知道這些老虎機(jī)有不同的中獎(jiǎng)率,但并不知道哪一臺(tái)老虎機(jī)的中獎(jiǎng)率最高。

如果某人堅(jiān)持玩某一臺(tái)老虎機(jī),可能會(huì)失去選擇中獎(jiǎng)率最高的老虎機(jī)的機(jī)會(huì)。因此,必須找到一種有效的方法來(lái)發(fā)現(xiàn)最高中獎(jiǎng)率的老虎機(jī),而又不會(huì)投入太多的籌碼。

廣告優(yōu)化案例就是一種采用多臂老虎機(jī)原理的一個(gè)典型示例。在這種情況下,強(qiáng)化學(xué)習(xí)代理必須找到一種方法來(lái)發(fā)現(xiàn)點(diǎn)擊率最高的廣告,而不會(huì)在效率低下的廣告上浪費(fèi)太多的時(shí)間和資源。

3.探索vs.開發(fā)

每個(gè)強(qiáng)化學(xué)習(xí)模型都面臨的一個(gè)問(wèn)題是“探索vs.開發(fā)”的挑戰(zhàn)。開發(fā)意味著堅(jiān)持使用強(qiáng)化學(xué)習(xí)代理迄今為止發(fā)現(xiàn)的最佳解決方案,而探索意味著嘗試其他解決方案,希望找到比當(dāng)前最佳解決方案更好的解決方案。

[[385339]]

在選擇廣告的應(yīng)用中,強(qiáng)化學(xué)習(xí)代理必須在選擇展示效果最佳的廣告和探索其他選擇之間做出決定

解決開發(fā)或探索問(wèn)題的一種方法是采用“ε-greedy”算法。在這種情況下,強(qiáng)化學(xué)習(xí)模型通常會(huì)選擇最佳的解決方案,在指定百分比的情況下(ε因子),將隨機(jī)選擇其中一個(gè)廣告。

每個(gè)強(qiáng)化學(xué)習(xí)算法都必須在探索最佳解決方案和探索新選擇之間找到適當(dāng)?shù)钠胶狻_@是一個(gè)實(shí)際的運(yùn)作方式。假設(shè)有一個(gè)采用ε-greedy算法的多臂老虎機(jī)(MAB)代理,其ε因子設(shè)置為0.2。這意味著代理可以在80%的時(shí)間中選擇效果最佳的廣告,而另外20%的時(shí)間選擇其他廣告。

強(qiáng)化學(xué)習(xí)模型是在不知道哪個(gè)廣告效果更好的情況下啟動(dòng)的,因此為每個(gè)廣告分配了相同的投放次數(shù)。當(dāng)所有廣告的投放次數(shù)均等時(shí),將會(huì)在每次投放廣告時(shí)隨機(jī)選擇其中一個(gè)。

在投放200次廣告之后(5個(gè)廣告分別有40次投放次數(shù)),有人點(diǎn)擊了一次第4個(gè)廣告。強(qiáng)化學(xué)習(xí)代理會(huì)按以下方式調(diào)整廣告的點(diǎn)擊率:

廣告1:0/40=0.0%

廣告2:0/40=0.0%

廣告3:0/40=0.0%

廣告4:1/40=2.5%

廣告5:0/40=0.0%

現(xiàn)在,強(qiáng)化學(xué)習(xí)代理認(rèn)為第4個(gè)廣告是效果最好的廣告。對(duì)于每個(gè)廣告的展示,將選擇一個(gè)介于0和1之間的隨機(jī)數(shù)。如果該數(shù)字大于0.2(ε因子),則會(huì)選擇第4個(gè)廣告。如果該數(shù)字小于0.2,則會(huì)隨機(jī)選擇一個(gè)其他廣告。

現(xiàn)在,強(qiáng)化學(xué)習(xí)代理在另一個(gè)用戶點(diǎn)擊廣告之前又展示了200次其他廣告,這次有人點(diǎn)擊了一次第3個(gè)廣告。需要注意的是,在這200次展示中,由于第4個(gè)廣告是最佳廣告,將獲得80%的廣告展示次數(shù)(160次)。而其余的平均分配給其他廣告,而新的點(diǎn)擊率值如下:

廣告1:0/50=0.0%

廣告2:0/50=0.0%

廣告3:1/50=2.0%

廣告4:1/200=0.5%

廣告5:0/50=0.0%

現(xiàn)在最理想的廣告變?yōu)榈?個(gè)廣告。它將獲得80%的廣告展示次數(shù)。假設(shè)再獲得100次展示(第3個(gè)廣告為80次,而其他每個(gè)廣告為4次),則有人點(diǎn)擊了一次第2個(gè)廣告。以下是新的點(diǎn)擊率分布狀況:

廣告1:0/54=0.0%

廣告2:1/54=1.8%

廣告3:1/130=0.7%

廣告4:1/204=0.49%

廣告5:0/54=0.0%

現(xiàn)在,第2個(gè)廣告是最佳解決方案。隨著投放更多廣告,點(diǎn)擊率將反映每個(gè)廣告的實(shí)際價(jià)值。效果最好的廣告將獲得最多的展示次數(shù),但強(qiáng)化學(xué)習(xí)代理將繼續(xù)探索其他選擇。因此,如果環(huán)境發(fā)生變化,用戶開始對(duì)某個(gè)廣告有著更積極的反應(yīng)表現(xiàn),強(qiáng)化學(xué)習(xí)就可以發(fā)現(xiàn)。

在投放了10萬(wàn)個(gè)廣告之后,其分布狀況如下所示:

廣告1:123/30,600=0.40%

廣告2:67/18,900=0.35%

廣告3:187/41,400=0.45%

廣告4:35/11,300=0.31%

廣告5:15/5,800=0.26%

使用ε-greedy算法,可以將10萬(wàn)次廣告展示的收入從352美元提高到426美元,平均點(diǎn)擊率達(dá)到0.42%。這是對(duì)傳統(tǒng)的A/B/n測(cè)試模型的重大改進(jìn)。

改進(jìn)ε-greedy算​​法

ε-greedy強(qiáng)化學(xué)習(xí)算法的關(guān)鍵是調(diào)整ε因子。如果將其設(shè)置得太低,將利用認(rèn)為最好的廣告,其可能的代價(jià)是找不到更好的解決方案。例如,在上面探索的示例中,第四個(gè)廣告恰好有了第一次點(diǎn)擊,但從長(zhǎng)遠(yuǎn)來(lái)看,它的點(diǎn)擊率并不是最高的。因此小樣本不一定代表真實(shí)的分布。

另一方面,如果將ε因子設(shè)置得過(guò)高,則強(qiáng)化學(xué)習(xí)代理將會(huì)浪費(fèi)太多資源來(lái)探索非最佳解決方案。

改善ε-greedy算法的一種方法是定義動(dòng)態(tài)策略。當(dāng)多臂老虎機(jī)(MAB)模型開始運(yùn)行時(shí),可以從較高的ε因子開始進(jìn)行更多的探索和更少的開發(fā)。隨著模型投放更多的廣告,并更好地估計(jì)每個(gè)解決方案的價(jià)值,它可以逐漸減小ε因子直至達(dá)到閾值。

在優(yōu)化廣告問(wèn)題的背景下,可以將ε因子設(shè)為0.5,然后在每1000次廣告展示后將其減小0.01,直到達(dá)到0.1。

改善多臂老虎機(jī)(MAB)的另一種方法是將更多的精力放在新的觀測(cè)值上,并逐漸降低原有觀測(cè)值的價(jià)值。這在動(dòng)態(tài)環(huán)境(例如數(shù)字廣告和產(chǎn)品推薦)中特別有用,在動(dòng)態(tài)環(huán)境中解決方案的價(jià)值會(huì)隨著時(shí)間而變化。

這是一種非常簡(jiǎn)單的方法。投放廣告后更新點(diǎn)擊率的傳統(tǒng)方法如下:

(result + past_results)/impressions

此處,result是所顯示廣告的結(jié)果(如果點(diǎn)擊則為1,如果未點(diǎn)擊則為0),past_results是這個(gè)廣告迄今為止獲得的累計(jì)點(diǎn)擊次數(shù),而impressions數(shù)量是該廣告已投放的總次數(shù)。

要逐漸淡化原有結(jié)果,可以添加一個(gè)新的alpha因子(介于0和1之間),并進(jìn)行以下更改:

(result + past_results * alpha)/impressions

這個(gè)微小的變化將使新的觀察結(jié)果帶來(lái)更大的影響。因此,如果有兩個(gè)相互競(jìng)爭(zhēng)的廣告,而它們的點(diǎn)擊次數(shù)和展示次數(shù)相等,那么在強(qiáng)化學(xué)習(xí)模型中,將會(huì)選擇點(diǎn)擊次數(shù)最高的那個(gè)廣告。此外,如果某個(gè)廣告過(guò)去的點(diǎn)擊率非常高,但最近卻沒有響應(yīng),則其價(jià)值在該模型中的下降速度會(huì)更快,從而迫使強(qiáng)化學(xué)習(xí)模型更早地轉(zhuǎn)向其他替代方案,并在效率低下的廣告上使用更少的資源。

為強(qiáng)化學(xué)習(xí)模型添加場(chǎng)景

上下文老虎機(jī)利用函數(shù)近似來(lái)考慮廣告受眾的個(gè)體特征

在互聯(lián)網(wǎng)時(shí)代,網(wǎng)站、社交媒體和移動(dòng)應(yīng)用程序擁有大量用戶的信息,例如他們的地理位置、設(shè)備類型以及觀看廣告的確切時(shí)間。社交媒體公司擁有更多關(guān)于他們用戶的信息,其中包括年齡、性別、朋友和家人,他們過(guò)去分享的內(nèi)容類型。喜歡或點(diǎn)擊的帖子類型等等。

這些豐富的信息使這些公司有機(jī)會(huì)為每個(gè)觀眾提供個(gè)性化廣告。但是,所創(chuàng)建的多臂老虎機(jī)(MAB)模型向所有人顯示了相同的廣告,并且沒有考慮每個(gè)受眾的特定特征。如果想為多臂老虎機(jī)(MAB)增加上下文該怎么辦?

一種解決方案是創(chuàng)建多個(gè)多臂老虎機(jī)(MAB)模型,每個(gè)模型針對(duì)特定的用戶子領(lǐng)域。例如,可以為北美、歐洲、中東、亞洲、非洲等地用戶創(chuàng)建單獨(dú)的強(qiáng)化學(xué)習(xí)模型。如果還要考慮性別怎么辦?那么將為北美地區(qū)的女性用戶提供一種強(qiáng)化學(xué)習(xí)模型,為北美地區(qū)的男性用戶提供另一種強(qiáng)化學(xué)習(xí)模型等。如果還要添加年齡和設(shè)備類型等因素,可能看到它很快就會(huì)成為一個(gè)大問(wèn)題,這造成多臂老虎機(jī)(MAB)模型數(shù)量激增,難以訓(xùn)練和維護(hù)。

一種替代解決方案是使用“上下文老虎機(jī)”(Contextual Bandit),這是考慮到上下文信息的多臂老虎機(jī)(MAB)的升級(jí)版本。上下文老虎機(jī)沒有為每個(gè)特征組合創(chuàng)建單獨(dú)的多臂老虎機(jī)(MAB),而是使用“函數(shù)近似”,它試圖根據(jù)一組輸入因素對(duì)每個(gè)解決方案的性能進(jìn)行建模。

無(wú)需過(guò)多討論細(xì)節(jié),上下文老虎機(jī)使用監(jiān)督的機(jī)器學(xué)習(xí)根據(jù)位置、設(shè)備類型、性別、年齡等來(lái)預(yù)測(cè)每個(gè)廣告的效果。多臂老虎機(jī)(MAB)是每個(gè)廣告使用一個(gè)機(jī)器學(xué)習(xí)模型,而不是每個(gè)特征組合都需要?jiǎng)?chuàng)建上下文老虎機(jī)。

這總結(jié)了關(guān)于通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化廣告的討論。而強(qiáng)化學(xué)習(xí)技術(shù)可用于解決許多其他問(wèn)題,例如推薦內(nèi)容和產(chǎn)品或動(dòng)態(tài)定價(jià),并且可用于其他領(lǐng)域,例如醫(yī)療保健、投資和網(wǎng)絡(luò)管理等行業(yè)領(lǐng)域。

原文標(biāo)題:How reinforcement learning chooses the ads you see,作者:By Ben Dickson

【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】

 

責(zé)任編輯:華軒 來(lái)源: 51CTO
相關(guān)推薦

2024-04-12 08:59:02

強(qiáng)化學(xué)習(xí)系統(tǒng)人工智能擴(kuò)散模型

2024-05-30 16:37:29

2017-07-30 15:16:31

深度強(qiáng)化學(xué)習(xí)遷移交叉路口

2019-12-16 10:57:18

大數(shù)據(jù)虛擬主機(jī)網(wǎng)站

2017-02-24 13:27:37

阿里開源

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2021-09-17 15:54:41

深度學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2020-11-12 19:31:41

強(qiáng)化學(xué)習(xí)人工智能機(jī)器學(xué)習(xí)

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2020-11-06 17:04:17

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2023-11-07 07:13:31

推薦系統(tǒng)多任務(wù)學(xué)習(xí)

2022-08-17 12:00:45

強(qiáng)化學(xué)習(xí)

2025-05-30 10:50:27

2023-07-20 15:18:42

2024-12-09 08:45:00

模型AI

2020-06-05 08:09:01

Python強(qiáng)化學(xué)習(xí)框架

2025-02-10 13:50:00

算法模型訓(xùn)練

2025-05-08 09:16:00

模型強(qiáng)化學(xué)習(xí)訓(xùn)練

2024-04-03 07:56:50

推薦系統(tǒng)多任務(wù)推薦
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: a黄视频 | 精品欧美一区二区三区久久久 | 九九热免费观看 | 亚洲国产日韩欧美 | 九九热在线视频观看这里只有精品 | 亚洲二区在线 | 国产精品揄拍一区二区 | 国产一区二区三区四区在线观看 | 婷婷久久五月天 | 超碰人人做 | 国产一区二区三区在线 | 国产ts人妖一区二区三区 | 亚洲网址 | 亚洲精品www久久久久久广东 | 久久中文字幕一区 | a免费视频| 久久久久久91| 亚洲成人精品免费 | 久久精品久久精品久久精品 | 一二区视频 | 国产二区在线播放 | 99久久精品免费 | 一区二区中文字幕 | 久久久激情 | 日韩伦理一区二区 | 超碰在线播 | 欧美日韩国产免费 | 综合久 | av在线免费观看网址 | 操操网站 | 国产精品视频999 | 成人免费福利视频 | 国产99视频精品免视看9 | 日韩视频在线一区二区 | 亚洲一区二区三区在线观看免费 | 亚洲aⅴ一区二区 | 91久久北条麻妃一区二区三区 | 射欧美 | 天天插天天射天天干 | 亚洲综合激情 | 欧美一区二区在线观看 |