成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

基于事件感知的聚類增益網(wǎng)絡(luò)在飛豬保險創(chuàng)意排序的應(yīng)用

人工智能 算法
本文將分享飛豬在基于事件感知的聚類增益網(wǎng)絡(luò)方面的一些工作。

一、背景介紹

提到創(chuàng)意,大家首先會想到廣告創(chuàng)意,其實保險的創(chuàng)意推薦也是廣告創(chuàng)意的垂直應(yīng)用產(chǎn)品。

圖片

計算廣告解決的問題是,在特定的語義下,為特定的用戶選擇相應(yīng)的廣告去匹配最佳的創(chuàng)意圖文。在輔營保險推薦模塊下,語境指的就是用戶正在購買機票或者火車票的一些上下文信息;在搜索場景下,語境是指搜索引擎里面的一些查詢詞;用戶相關(guān)的信息指用戶的基礎(chǔ)信息,比如年齡性別等;廣告就是保險商品,酒店美妝等量級為 N 的商品;創(chuàng)意圖文數(shù)量為 N*M 的量級。計算廣告面臨的挑戰(zhàn)在于:在復(fù)雜的約束條件下,大規(guī)模優(yōu)化和搜索問題。

本文主要講的是創(chuàng)意圖文的推薦,廣告的選擇和排序不做考慮,接下來介紹一下飛豬保險是如何運用創(chuàng)意推薦的。

圖片

首先,在 OTP 行業(yè)中,旅游保險作為輔營業(yè)務(wù)目前已經(jīng)是比較重要的商業(yè)化收入來源。在保險推薦當(dāng)中,除了產(chǎn)品推薦和價格推薦之外,創(chuàng)意推薦已經(jīng)作為非常重要的個性化推薦模塊使用。比如在填寫個人信息的時候,可以看到一些組件,下拉收銀臺的時候也會看到彈窗。

二、保險創(chuàng)意推薦的挑戰(zhàn)

圖片

保險的創(chuàng)意推薦面臨的挑戰(zhàn),可以總結(jié)為三大類:

一類是數(shù)據(jù)稀疏,包括用戶的數(shù)據(jù)稀疏和創(chuàng)意的數(shù)據(jù)稀疏。創(chuàng)意的數(shù)據(jù)稀疏指的是由于運營或者是 UI 同學(xué)會迭代創(chuàng)意,或者是由于季節(jié)性的原因去上下架一些創(chuàng)意,所以在線上的曝光創(chuàng)意并不是均勻分布的。另外,由于旅行、保險和創(chuàng)意是低頻的交易行為,我們很少能拿到三塊相關(guān)的購買數(shù)據(jù),比如用戶的個人歷史購買數(shù)據(jù)。同時由于保險是輔營商品,不像搜索可以明確知道用戶的購買意圖。在創(chuàng)意理解和用戶理解之間也缺少統(tǒng)一結(jié)構(gòu)化的體系。

第二類是樣本數(shù)據(jù)反事實。每個用戶只能看到唯一的創(chuàng)意文案,也就是只能看到創(chuàng)意 A 或者 B。不能在同時間段、同時間點,對同個用戶曝光多個創(chuàng)意。

第三類是跨行業(yè)的創(chuàng)意冷啟動。飛豬保險橫跨了多個行業(yè),在啟動新行業(yè)的介入的時候,如何復(fù)用已有領(lǐng)域的知識,比如將行業(yè) A 效果好的一些創(chuàng)意遷移到行業(yè) B,也是我們后面要去解決的問題。

圖片

再簡單介紹一下業(yè)界現(xiàn)狀。

?廣告創(chuàng)意分為兩個大類的算法:一類是上下文無關(guān)的一些算法,比如 Epsilon 貪心,或湯普森采樣,以及阿里媽媽同學(xué)做的一些比較優(yōu)雅的 E&E 算法,如貝葉斯線性回歸相關(guān)的;另一類是上下文相關(guān)的算法,把用戶和上下文信息作為推薦加入進(jìn)去。

解決數(shù)據(jù)稀疏問題,主要使用 Cross-domain learning 解決兩個問題,兩個相關(guān)的任務(wù),使用豐富數(shù)據(jù)域內(nèi)的數(shù)據(jù)去解決稀缺數(shù)據(jù)域內(nèi)的問題,以及聯(lián)合多個域內(nèi)的數(shù)據(jù)去解決各個域內(nèi)的問題。?

圖片

為了解決三個挑戰(zhàn),我們團(tuán)隊提出了一些解決思路:

首先從數(shù)據(jù)洞察當(dāng)中可以看到,我們對個體用戶的創(chuàng)意歷史偏好數(shù)據(jù)比較稀疏,但對于群體用戶其實是可以進(jìn)行一些刻畫的。比如從數(shù)據(jù)當(dāng)中可以看到,老年人更喜歡跟家庭有關(guān)的描述;當(dāng)出發(fā)日面臨惡劣天氣的時候,機票行業(yè)對類似天氣預(yù)報的素材比較敏感。那我們就可以把思路從個體用戶的數(shù)據(jù)轉(zhuǎn)化到如何把群體、相關(guān)事件以及創(chuàng)意這三塊進(jìn)行統(tǒng)一的理解,以及在關(guān)聯(lián)打標(biāo)后做群體推薦。在體系化理解之后,將三者建立因果關(guān)系圖可以解決一部分個體用戶數(shù)據(jù)稀疏問題。

?針對創(chuàng)意數(shù)據(jù)稀疏問題,我們的解決方案是當(dāng)新素材上線時在線上做隨機曝光。

另外一個問題是跨行業(yè)創(chuàng)意冷啟動。比如我們發(fā)現(xiàn)對于天氣事件的因素,不管是在各個行業(yè)里,其實大家的偏好都比較相似的,尤其是在汽車票或者火車票業(yè)務(wù)下,大家的購買習(xí)慣很相似,所以一些創(chuàng)意的推薦知識是可以通過剛剛提到的標(biāo)簽化和體系化的理解和標(biāo)簽關(guān)聯(lián)進(jìn)行遷移的。通過將不同的行業(yè)在同一知識體系下進(jìn)行標(biāo)簽對齊,通過圖卷積模型的泛化能力對知識進(jìn)行一些泛化遷移。?

圖片

剛剛提到的體系化理解和標(biāo)準(zhǔn)化打標(biāo)主要分為三塊:

一塊是在用戶側(cè),我們會去做一些場景和事件的理解;另外一塊是在用戶的基礎(chǔ)屬性上去做一些理解;最后是在創(chuàng)意這里,對一些圖文的素材進(jìn)行理解。最后將三者都統(tǒng)一標(biāo)準(zhǔn)化到標(biāo)簽體系之下,有助于幫助后面去建立圖的關(guān)聯(lián)關(guān)系。

圖片

上圖為比較顯性的圖。其中三角符號是用戶側(cè)的一些屬性,比如女性或者老人;圓形符號是對事件或者上下文的理解進(jìn)行分類,比如打雷或者是晚間出行;方塊符號是素材的分類。

圖片

剛剛提到的第三個挑戰(zhàn)是樣本當(dāng)中存在反事實的現(xiàn)象,解決該問題我們想到的是用 uplift 思想,因果推斷是用群體在不同的營銷素材下的平均轉(zhuǎn)化率去預(yù)估個體的偏好。

三、解決方案

圖片

結(jié)合剛提到的三類思路的解決方案,我們提出了網(wǎng)絡(luò)結(jié)構(gòu)的模型設(shè)計。首先定義問題:輸入是用戶的信息、上下文的信息以及創(chuàng)意文案的結(jié)構(gòu)化信息,去做廣告創(chuàng)意的排序打分,再去選擇打分最高的創(chuàng)意對用戶進(jìn)行輸出。

圖片

上圖是保險創(chuàng)意圖文推薦流程框架。

首先,前文已提到,在創(chuàng)意模塊,我們對險種的排序或者價格的排序是不進(jìn)行干預(yù)的,創(chuàng)意圖文的排序是作為鏈路的最后排序邏輯。當(dāng)用戶請求進(jìn)來時,會做四個理解。事件層面的理解,比如現(xiàn)在是否在下雨;場景理解,比如現(xiàn)在用戶是多個人帶著小孩,還是帶著老人;還有用戶基礎(chǔ)屬性的理解。在素材庫也是進(jìn)行剛剛提到的這種標(biāo)簽化的打標(biāo)之后,進(jìn)行素材的標(biāo)簽召回以及后續(xù)的素材創(chuàng)意的排序,在排序側(cè)會分出一部分流量去做線上的均勻曝光。

?另外一塊去做創(chuàng)意優(yōu)選的工作。創(chuàng)意優(yōu)選工作分兩路:

一路是以圖片素材進(jìn)行召回和粗排,另外一路是以文案的素材進(jìn)行粗排,最后進(jìn)行笛卡爾組合出來我們想要的類似創(chuàng)意文案的展示,最后再通過 ECUNet 去進(jìn)行優(yōu)先。?

1、整體結(jié)構(gòu) ECUNet

圖片

根據(jù)剛剛提到的三種解決思路,設(shè)計了 ECUNet 的解決方案。主要分為三個部分:

第一部分是基于事件感知圖向量提取,主要是在離線側(cè)進(jìn)行預(yù)訓(xùn)練的過程,去給每個用戶側(cè)的信息、上下文信息或者是創(chuàng)意的信息進(jìn)行圖向量的提取;第二部分是自適應(yīng)的聚類增益網(wǎng)絡(luò),這部分解決的問題是結(jié)合 uplift 思想去利用群體智慧解決個體問題;第三部分是將用戶和場景、用戶事件以及創(chuàng)意三部分的特征,通過圖向量提取得到的綜合向量去做兩兩之間的 Co-Attention,目的是為了提取他們相互之間的特性,最后去做打分。

2、EAGT:構(gòu)建異構(gòu)圖

圖片

異構(gòu)圖的構(gòu)建主要分兩部分:一部分是節(jié)點構(gòu)建,一部分是邊構(gòu)建。

?節(jié)點構(gòu)建主要是當(dāng)用戶樣本進(jìn)來之后,可以映射到三類節(jié)點:用戶節(jié)點、事件節(jié)點和創(chuàng)意節(jié)點。當(dāng)映射到三類節(jié)點之后,可以在節(jié)點和節(jié)點之間去進(jìn)行邊的構(gòu)建。

邊代表的是 a 節(jié)點因為 b 的原因?qū)е卤kU轉(zhuǎn)化的重要性。比如說學(xué)生節(jié)點 a 在天氣惡劣節(jié)點 b 的權(quán)重會高于學(xué)生節(jié)點 a 在正常天氣節(jié)點權(quán)重。?

圖片

根據(jù)上述方法,構(gòu)建了異構(gòu)圖。基于該圖,通過比較常規(guī)的 Node embedding 去提取每個節(jié)點的三個場景的節(jié)點表征。

圖片

主要是通過圖的自監(jiān)督學(xué)習(xí)的邊預(yù)測的任務(wù),loss 使用 margin-based 的 loss function,最后學(xué)習(xí)得到的是特定場景的,比如機/火/汽三個場景的節(jié)點表征。

但為了遷移不同行業(yè)的知識去融合運用到另外的一些場景行業(yè)中,我們做了 share-domain embedding 節(jié)點表征學(xué)習(xí)。比如火車票和汽車票比較相似,如果現(xiàn)在某條用戶樣本是來自于汽車票,那么火車票的場景的 embedding 也可以被加權(quán)共享給用戶去使用。基于這樣的假設(shè),做了 share-domain 的表征學(xué)習(xí)。主要是將三類場景的節(jié)點表征,通過注意力機制的加權(quán)去得到 specific embedding。

圖片

通過這樣的 EAGT Network 我們可以提取到三大類的節(jié)點表征。每個樣本都可以得到三個大類的節(jié)點表征后,再類內(nèi)取平均值,可以得到用戶、事件、創(chuàng)意的三個節(jié)點表征,最后將用戶事件聯(lián)合表征和每個創(chuàng)意文案聯(lián)合表征輸入到第二部分——自適應(yīng)的聚類增益網(wǎng)絡(luò)。

圖片

利用群體智慧去預(yù)估個體的偏好,流程是以 batch 內(nèi)的操作去進(jìn)行的。在每個 batch 內(nèi),通過可學(xué)習(xí)的分類器將每個 batch 內(nèi)用戶分到 k 個大類里,希望相似的用戶可以被分到同一類。在隨機樣本采樣機制的保障之下,可以在內(nèi)類的用戶進(jìn)行類似創(chuàng)意文案的投票得到內(nèi)類用戶到底對哪些創(chuàng)意文案比較感興趣。最后用內(nèi)類群體的喜好去代表個體用戶的偏好,之后再對每個樣本進(jìn)行 re-lable。比如 G1 對第三個創(chuàng)意比較敏感,G2 對第二個比較敏感,內(nèi)類的用戶都去重新 re-lable 一次。得到 re-lable 的樣本之后,再進(jìn)行 MLP 的預(yù)測得到預(yù)測值。

圖片

多視角的注意力網(wǎng)絡(luò),主要的目的是通過三次 Co-attention 機制可以把用戶和事件、事件和創(chuàng)意以及用戶和創(chuàng)意兩兩向量之間的內(nèi)在相關(guān)興趣提取出來,作為重要的特征去進(jìn)行預(yù)測。

圖片

?我們在 Training 的 Loss Function 也進(jìn)行了一些設(shè)計。一共設(shè)計了四個 Loss Function。

第一個 Loss Function 是 intra loss。主要是在聚類塊,為了使得群體分類器能夠輸出一個非均勻分布的值。從這個公式可以看到我們希望讓相似的用戶能在某一個類上去得到一個峰值表達(dá),而在其他的類上是比較低的表達(dá)。

第二個是用交叉熵做聚類增益網(wǎng)絡(luò)的 Loss。

第三個是全局 Loss,也是交叉熵。

最后將三個 Loss 融合到一起去做一個融合 Loss。?

四、實驗和分析

圖片

我們的 Dataset 一部分是工業(yè)界的,收集來自于飛豬的 Dataset。另外一部分是天池廣告創(chuàng)意公開的數(shù)據(jù)集。

圖片

我們也去跟業(yè)內(nèi)的廣告創(chuàng)意的排序算法,以及一些用戶興趣和跨場景學(xué)習(xí)的 Baseline 進(jìn)行了比較,Metrics 主要是 AUC。

圖片

從實驗數(shù)據(jù)中可以看到,我們這個網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計之后,在 AUC 上有一定的提升。其中多視角的網(wǎng)絡(luò)提升比較明顯,其次是增益網(wǎng)絡(luò),然后是異構(gòu)圖網(wǎng)絡(luò)的結(jié)構(gòu)。

我們也在線上去撈了一些 Case,可以學(xué)習(xí)到用戶的一些場景側(cè)的東西。比如天氣信息或長短圖等場景。

圖片

我們也在線上做了一些實驗,相比較于 Base2 隨機模型,提升了 10%,相比較于剛剛提到的廣告創(chuàng)意 HPM 模型,提升了 5%

五、總結(jié)與展望

圖片

在這個工作當(dāng)中,主要有兩方面創(chuàng)新:

事件感知的圖提取器:當(dāng)前業(yè)內(nèi)對于事件感知較少去考慮,尤其是在創(chuàng)意推薦這個模塊,我們的工作是比較創(chuàng)新的。通過將一些跨場景的信息,比如用戶對某些險種、某些圖文的偏好,或者是對于事件在跨場景之間的遷移。同時將這個事件作為一個影響節(jié)點,以圖的形式將用戶和創(chuàng)意進(jìn)行關(guān)系建模。

自適應(yīng)聚類增益網(wǎng)絡(luò):相比較于傳統(tǒng)的排序問題,創(chuàng)意推薦是一個 Top1 的問題,面臨著一些因果推斷中遇到的反事實的現(xiàn)象。我們通過群體增益學(xué)習(xí),也能比較好的緩解。

六、問答環(huán)節(jié)

Q1:如何做到事件理解和場景理解?

A1:事件理解這塊主要是跟運營進(jìn)行了合作。我們會在數(shù)據(jù)當(dāng)中去挖掘一些,事件它其實有時候是一些不可預(yù)知的。可預(yù)知的話可以被沉淀成一個標(biāo)簽體系,那不可預(yù)知的話就需要我們?nèi)プ鲆恍┊惓z測去挖掘。

場景理解,比如在搜索場景是可以通過 Query 里面的一些意圖去分析到用戶這次想要去買什么,但是在保險推薦中很難在上下文信息當(dāng)中獲取到用戶到底想要買什么保險。因此場景理解更多的是通過推理,首先是一個數(shù)據(jù)分析洞察,然后再通過一些特征,上面我們可以看到哪些場景之下對用戶購買保險或者用戶購買創(chuàng)意有一個轉(zhuǎn)化效果,之后再融合到標(biāo)簽體系當(dāng)中,主要是在標(biāo)簽打標(biāo)這邊去做一些事情。

Q2:創(chuàng)意文案是先做了什么形式的 Embedding?

A2:主要是以推薦的這種形式去做的,多模態(tài)在這個工作當(dāng)中沒有體現(xiàn),我們在別的工作當(dāng)中有一些工作。Embedding 剛剛也提到了主要是比如說一些 ID 類表征,或者是一些統(tǒng)計的表征,然后這些表征都會在這個圖網(wǎng)絡(luò)里面,最后去進(jìn)行一個圖節(jié)點的 Embedding。圖節(jié)點 Embedding 的一個好處是可以將比如說某一類用戶對一些創(chuàng)意文案他是有敏感的,那用戶和創(chuàng)意文案之間,可能有一個相似的事情。

Q3:異構(gòu)圖網(wǎng)絡(luò)中有對邊的特殊處理嗎?是否區(qū)分了不同類型的邊?學(xué)習(xí)過程中是否涉及對邊的表征學(xué)習(xí)和處理?

A3:關(guān)于邊,我們主要是去做了一個類似于條件轉(zhuǎn)化概率的處理。比如一個學(xué)生節(jié)點在天氣惡劣情況之下的轉(zhuǎn)化率可能會高一點。有些情況下會去做邊的裁剪操作。邊的表征學(xué)習(xí)沒有涉及到,這塊主要是在節(jié)點的學(xué)習(xí)處理。

Q4:事件文案的時效性如何?

A4:事件文案還是偏人工。因為今年在保險行業(yè)發(fā)生了比較多的事件,我們也會去看一下在每個事件之下,有多久的影響周期。大概的周期會是在一個星期到兩個星期左右,所以這塊的時間周期也會控制在這個范圍之內(nèi)。

關(guān)于文案的時效性,我們?nèi)⑽陌溉プ鲆粋€強規(guī)則綁定。比如前段時間剛剛過去的中秋,如果我們有中秋文案的話,那這個文案只會在中秋的這段時間才會生效。比如你的出發(fā)時間在中秋的這個時間段,或者是你購買的時間是中秋這個時間段,才會被召回出來,其他時間肯定不會召回出來。

今天的分享就到這里,謝謝大家。

責(zé)任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2021-05-27 11:03:10

飛豬Serverless

2022-06-30 20:47:58

區(qū)塊鏈

2012-05-18 09:30:27

InteropBYOD

2025-03-31 08:28:24

大型語言模型LLMDeepSeek

2018-12-19 13:49:25

大數(shù)據(jù)保險業(yè)信息化

2012-09-28 09:46:56

搗蛋豬

2022-03-03 19:52:25

聚類算法D2CDBSCAN

2015-09-17 14:54:07

SDNNFV網(wǎng)絡(luò)架構(gòu)

2021-03-17 13:46:20

區(qū)塊鏈保險技術(shù)

2021-08-16 09:00:00

架構(gòu)開發(fā)保險

2023-04-03 07:38:36

智能搜索數(shù)據(jù)分析

2015-09-17 15:45:06

SDNNFV網(wǎng)絡(luò)架構(gòu)

2021-12-26 07:48:55

網(wǎng)絡(luò)保險網(wǎng)絡(luò)攻擊網(wǎng)絡(luò)風(fēng)險

2010-10-18 14:28:44

感知應(yīng)用路由

2014-04-22 13:05:38

虛擬化云計算應(yīng)用感知

2023-04-02 14:16:45

凸集算法集合

2023-05-10 08:00:00

聚類分析數(shù)據(jù)分析聚類算法

2024-04-23 14:47:46

2016-01-22 12:27:15

2022-04-04 08:02:53

網(wǎng)絡(luò)保險網(wǎng)絡(luò)攻擊
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产精品永久 | 在线观看视频91 | 久草在线青青草 | 99re在线 | 久久久久九九九九 | 国产a级毛片| 国产精品无码专区在线观看 | 香蕉久久av | 99精彩视频 | 日本成人二区 | 久久精品一 | av中文字幕在线观看 | 欧美激情一区二区三区 | 日韩av免费在线观看 | 日韩国产一区二区三区 | av黄色在线| 欧美一区二区三区 | 成人一区二区在线 | 亚洲国产精品一区二区三区 | 2019天天操 | 日日操夜夜操天天操 | 最近中文字幕免费 | 国产精品美女久久久久久久网站 | 99re66在线观看精品热 | 午夜精品一区二区三区在线播放 | 日本理论片好看理论片 | 国产99久久精品一区二区永久免费 | www.色午夜.com | 欧美理论片在线 | 国产分类视频 | www.久久精品视频 | av在线视 | 一区精品视频在线观看 | 在线91| 日韩欧美中文字幕在线观看 | 久久久久网站 | 日韩福利一区 | 亚洲欧洲色视频 | 久久久久久国产精品 | 国产成人精品免费 | 午夜视频精品 |