成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LLM落地淘寶電商搜索場景,顯著提升長尾query改寫效果

發布于 2024-5-15 14:49
瀏覽
1收藏

LLM是目前學術界研究的熱點,同時工業界也在快速探索LLM在業務中的落地。本篇文章給大家介紹來自WWW24的一篇文章,介紹了淘寶電商將LLM用在了搜索場景中的query改寫上,精心構建的領域特定數據集對LLM進行finetue,定義三種不同的優化目標并使用Preference Rank Optimization損失學習候選之間的偏序關系,極大的解決了長尾query中的“few-recall”問題。

LLM落地淘寶電商搜索場景,顯著提升長尾query改寫效果-AI.x社區

論文標題:Large Language Model based Long-tail Query Rewriting in Taobao Search

下載地址:??https://arxiv.org/pdf/2311.03758??

1、背景介紹

淘寶電商搜索引擎框架如下圖所示。用戶輸入搜索詞之后,平臺先進行語義理解,對用戶query進行改寫,之后對原始詞 + 改寫后的詞召回商品,再經過多層排序后對用戶展現頭部商品。

query改寫的目標是,在保持相關性的同時,對原始query進行語義擴展,可以召回更多相關商品。例如,有兩個搜索詞,"DIY blind box"和"Self_building blind box"。這里前者和后者語義相同,但是前者是主流搜索詞,召回結果有多個。而后者屬于長尾搜索詞,難以召回多個結果。如果將后者改寫為前者,語義保持相同的情況下,召回更多的商品,則在后續的排序流程中更有概率推薦轉化率高的商品,從而提高訂單量 && GMV。

LLM落地淘寶電商搜索場景,顯著提升長尾query改寫效果-AI.x社區

已有的query改寫工作集中在兩個方向:

判別模型:從候選詞集合中預估最優的詞。這種方法依賴于精心構造的詞典作為重寫的候選集合,否則query改寫后語義有可能發生偏移。

生成模型:使用transformer系的模型,根據原始query直接生成改寫詞,有些方法會加入強化學習和對比學習的思路。但是這種方法受限于模型的參數量,參數提升會提升模型的表達能力。目前LLM在query改寫上有一些工作,但由于對沒有使用query改寫特定任務對大模型進行fine-tune,還存在一定的局限性。

2、實現方法

本文提出了BEQUE框架(a comprehensive framework that Bridges the sEmantic gap for long-tail QUEries),框架包含三個階段,如下圖所示:

LLM落地淘寶電商搜索場景,顯著提升長尾query改寫效果-AI.x社區

第一階段 Multi-instruction Supervised Fine Tuning:使用多領域數據集對LLM進行finetune,主要包括Query Rewriting Dataset和輔助數據集2個部分。

Query Rewriting Dataset: 使用基線改寫策略,對原始query取相關性TOPN的改寫query。為了進一步優化數據集相關性,限制原始query和改寫query的相關性必須大于某一閾值。基線改寫策略對長尾query效果不佳,即便原始query和改寫query語義上具有相關性,但是召回的商品集合未必相關。因此使用拒絕負采樣,query和改寫query召回商品后,要求用戶真實交互過的商品數大于一定閾值,來保證和query和改寫query在召回商品集合上的相關性:

LLM落地淘寶電商搜索場景,顯著提升長尾query改寫效果-AI.x社區

輔助數據集:為增強LLM對長尾query的理解能力,使用quality classification,product title prediction,Chainof-thought,三個輔助數據集對LLM進行finetune

LLM落地淘寶電商搜索場景,顯著提升長尾query改寫效果-AI.x社區

第二階段 offline feedback:設計多個函數多角度評估改寫query質量,包括relevance、increment、hitrate等3個評估方法。

relevance:即便原始query和改寫query 語義上具有相關性,但是召回的商品集合未必相關。因此定義相關性指標來衡量改寫前后召回商品的相關性。淘寶離線評估方法用來評估query和召回商品標題的相關性,因此定義改寫query召回商品和原始query的相關性如下:

LLM落地淘寶電商搜索場景,顯著提升長尾query改寫效果-AI.x社區

increment:query改寫可以增加商品召回的數量,解決“few-recall”的問題。因此定義增量指標來衡量query改寫后是否增加了召回商品的數量:

LLM落地淘寶電商搜索場景,顯著提升長尾query改寫效果-AI.x社區

hitrate: 定義命中率指標,如果搜索場景之外成交過的某件商品和原始query相關性大于一定閾值,那query改寫后應盡量召回該商品:

LLM落地淘寶電商搜索場景,顯著提升長尾query改寫效果-AI.x社區

第三階段 object alignment:強制模型學習改寫query之間pairwise的偏序

使用PRO Loss來pair wise地學習改寫query之間的順序:

LLM落地淘寶電商搜索場景,顯著提升長尾query改寫效果-AI.x社區

模型的最終Loss為監督微調的loss + PRO loss

LLM落地淘寶電商搜索場景,顯著提升長尾query改寫效果-AI.x社區

3、實驗結果

模型離線效果如下表所示。從上圖可以看到,與多種基線相比,BEQUE與多種基線相比,在多個測試集上的rele指標略為遜色,在incr/hitrate指標上有極大幅度的提升。

LLM落地淘寶電商搜索場景,顯著提升長尾query改寫效果-AI.x社區

在線應用方面,由于LLM難以滿足在線serving的時效性需求,無法直接在線使用。因此對torso query,離線inference改寫后的query,將改寫前后的query以key-value graph的形式存儲,確保在線及時響應,覆蓋淘寶主搜27%的PV。原始query和改寫query召回的商品取并集進入后續的排序環節。14天在線AB實驗中,在GMV && 訂單量 && UV上都取得了正向效果。

LLM落地淘寶電商搜索場景,顯著提升長尾query改寫效果-AI.x社區

本文轉載自??圓圓的算法筆記??,作者: Lumia ????

收藏 1
回復
舉報
回復
相關推薦
主站蜘蛛池模板: caoporn视频| 国产91在线 | 欧美 | 国产高清精品一区二区三区 | 欧美福利网站 | 91干b| 国产精品一区二区三区久久 | 精品国产乱码 | 久久久久久国产 | 欧美一区二区三区在线 | 欧美久操网 | 91精品国产91久久久久久最新 | 亚洲精品久久久久久久久久久久久 | 亚洲人成在线观看 | www久久| 欧美日韩国产三级 | 欧美视频一区 | 欧美高清视频 | 成人小视频在线观看 | 久久亚洲欧美日韩精品专区 | 就操在线| 亚洲国产精品久久久久秋霞不卡 | 国产精品欧美精品 | 激情av免费看 | 看特级黄色片 | 欧美一级久久久猛烈a大片 日韩av免费在线观看 | 午夜精品一区二区三区在线视频 | 成人黄色电影在线播放 | 九九热精品视频 | 精品日韩一区 | 中文字幕一区二区三区在线视频 | 在线观看视频你懂得 | 久久精品二区 | 精品欧美一区二区三区久久久 | 国产成人精品网站 | 亚洲国产aⅴ精品一区二区 免费观看av | 免费人成在线观看网站 | 久久精品免费一区二区三 | 久久免费视频网 | 久久久久久久国产 | 午夜电影合集 | 91精品久久久久久久久久入口 |