成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Agent4Rec來了!大模型智能體構(gòu)成推薦系統(tǒng)模擬器,模擬真實(shí)用戶交互行為

人工智能 新聞
來自新加坡國立大學(xué) NExT++ 實(shí)驗(yàn)室團(tuán)隊(duì)構(gòu)建了 Agent4Rec,一個由 1000 名 agents 構(gòu)成的電影推薦系統(tǒng)模擬器。

一直以來,推薦系統(tǒng)領(lǐng)域面臨模型線上線下效果差距大的痛點(diǎn)問題,昂貴的線上 A/B 測試成本使得廣大研究人員望而卻步,也造成學(xué)術(shù)界的推薦系統(tǒng)研究與工業(yè)界的實(shí)際應(yīng)用間的巨大割裂。隨著大語言模型展現(xiàn)出類人的邏輯推理和理解能力,基于大語言模型的智能體(Agent)能否模擬真實(shí)用戶的交互行為,從而構(gòu)建一個可靠的虛擬推薦 A/B 測試場景,以幫助推薦研究的應(yīng)用落地,是一個急迫、重要且極具經(jīng)濟(jì)價(jià)值的問題。

為了回答這個問題,來自新加坡國立大學(xué) NExT++ 實(shí)驗(yàn)室團(tuán)隊(duì)構(gòu)建了 Agent4Rec,一個由 1000 名 agents 構(gòu)成的電影推薦系統(tǒng)模擬器。這些 agent 由真實(shí)用戶初始化,由 ChatGPT-3.5 驅(qū)動,根據(jù)用戶喜好與特質(zhì),對封裝的不同推薦算法和其推薦的電影做出個性化反應(yīng)。這些個性化反應(yīng)模擬真實(shí)用戶在推薦系統(tǒng)中的行為,包括觀看或拒看電影,給電影評分,翻到下一頁電影推薦列表,疲倦度估計(jì),因不滿意或疲憊退出推薦系統(tǒng),給推薦算法進(jìn)行評價(jià)等。廣泛的實(shí)驗(yàn)評估表明,Agent4Rec 里的 agent 能大概率反映真實(shí)世界的用戶行為。

圖片

  • 論文鏈接:https://arxiv.org/abs/2310.10108
  • 代碼鏈接:https://github.com/LehengTHU/Agent4Rec

1.Agent4Rec 平臺構(gòu)建

圖片

Agent4Rec 中的每一個用戶,也即 agent,由 profile module、memory module、action module 構(gòu)成。作者使用 MovieLens-1m 中的真實(shí)用戶數(shù)據(jù)初始化 agent 檔案。根據(jù)用戶的歷史交互生成 agent 的電影偏好,根據(jù)用戶的歷史活躍度、從眾性和觀影多樣性生成 agent 的交互特征。

推薦系統(tǒng)將采取逐頁推薦的方式,根據(jù)特定的推薦算法向用戶推薦電影列表。仿照真實(shí)的手機(jī) APP 推薦場景,每頁將展示 4 部電影。每部電影的信息包括電影名、歷史評分、電影簡介等。每個 agent 將根據(jù)自身的電影喜好、疲憊程度以及個人記憶對推薦的電影做出反應(yīng),如觀看或評價(jià)電影。同時(shí),歷史推薦內(nèi)容和 agent 行為將被存儲在記憶中,agent 通過 reflection 的方式總結(jié)對推薦系統(tǒng)的滿意度和自身的疲憊程度。Agent 在每一頁推薦結(jié)束后,都根據(jù)自身滿意度和疲倦度,選擇翻到下一頁或者退出推薦系統(tǒng)。在用戶退出系統(tǒng)之后,采訪用戶退出推薦系統(tǒng)的原因和對推薦電影的評價(jià)。

2.Agent 行為模擬真實(shí)性檢驗(yàn)

用大語言模型智能體模擬人類行為最關(guān)鍵的問題,在于評估 agent 能夠多大程度的模擬用戶的真實(shí)喜好。Agent4Rec 在推薦場景下首次給出了一個實(shí)驗(yàn)級別的回答。

為了衡量用戶的電影喜好能否被 agent 正確捕捉,作者首先讓 agent 對用戶交互過的測試集中的電影和隨機(jī)采樣的負(fù)樣本電影進(jìn)行喜愛與否判斷。結(jié)果表明,agent 能夠捕捉約 70% 的用戶喜好。

圖片

在驗(yàn)證了 agent 的電影喜好合理性的基礎(chǔ)上,1000 個 agent 被投放到逐頁推薦場景下,agent 可以選擇提前退出推薦系統(tǒng),或在達(dá)到 5 頁之后強(qiáng)制退出,同時(shí) Agent 對選擇觀看的電影進(jìn)行 1 到 5 分的評分。下圖實(shí)驗(yàn)結(jié)果表明 agent 的評分與真實(shí)數(shù)據(jù)中的用戶評分呈現(xiàn)分布一致性。

圖片

為了驗(yàn)證 Agent4Rec 作為 A/B 測試平臺的可能性,作者將 5 個常見的推薦策略部署到 Agent4Rec 平臺,收集 agent 反饋(平均觀影比例、平均喜愛數(shù)、平均喜愛比例、平均退出頁數(shù)、用戶平均滿意度)。下表結(jié)果表明,基于算法的推薦系統(tǒng)(MF、MultVAE、LightGCN)表現(xiàn)大幅優(yōu)于基于策略的推薦系統(tǒng)(Random、Pop)。且總體而言,LightGCN 的表現(xiàn)優(yōu)于其他算法。這一結(jié)果證明,agent 能對不同的推薦系統(tǒng)的推薦結(jié)果進(jìn)行分辨。在未來,一個精心設(shè)計(jì)的基于大語言模型的推薦系統(tǒng)模擬器或許能夠充當(dāng)理想的離線 A/B 測試平臺,并給出符合企業(yè)需求的用戶評價(jià)指標(biāo)。

圖片

仿照現(xiàn)實(shí)生活中推薦系統(tǒng)會根據(jù)用戶反饋進(jìn)行更新的場景,作者在完成一輪推薦之后,將 agent 選擇的高分電影或未觀看的電影以正樣本加入訓(xùn)練集,重新訓(xùn)練推薦系統(tǒng),并將重新訓(xùn)練的推薦算法再次部署到 Agent4Rec 平臺。結(jié)果表明,將 agent 選擇的高分電影對推薦系統(tǒng)進(jìn)行再訓(xùn)練,在離線指標(biāo)與模擬的 “在線” 指標(biāo)上均得到了提升。而將 agent 不喜歡的電影作為數(shù)據(jù)增強(qiáng)則在大多數(shù)情況下起到了負(fù)向的效果。這從側(cè)面說明 agent 的行為與真實(shí)用戶行為對齊。

圖片

同時(shí),推薦系統(tǒng)中的真實(shí)用戶往往具有不同的特質(zhì),如活躍性、從眾性和觀影多樣性等。作者根據(jù)數(shù)據(jù)集中用戶的不同統(tǒng)計(jì)信息,將 agent 在每個特質(zhì)上分為 3 組并給出不同的用戶畫像。在模擬完成后,收集 agent 的交互次數(shù)、agent 評分與用戶歷史評分的均方誤差、agent 交互電影種類數(shù)這三個指標(biāo),作為 agent 活躍性、從眾性、觀影多樣性特質(zhì)衡量。實(shí)驗(yàn)結(jié)果表明,在三個組間 agent 的平均表現(xiàn)符合預(yù)期,存在顯著差異。

圖片

在個體層面,agent 的表現(xiàn)也與真實(shí)用戶呈現(xiàn)一致性。以下圖中的用戶觀影多樣性為例,每個用戶的真實(shí)觀影種類數(shù)與 Agent4Rec 中的 agent 所觀看的電影種類數(shù)呈現(xiàn)一致趨勢。

圖片

作者還通過消融實(shí)驗(yàn)研究了不同特質(zhì)初始化對 agent 行為起到的作用。下述實(shí)驗(yàn)結(jié)果表明,沒有個性化的特質(zhì)初始化,agent 的行為呈現(xiàn)趨同,與現(xiàn)實(shí)生活中的真實(shí)用戶行為長尾分布有別。

3. 探索推薦系統(tǒng)中尚未解決的問題

獲得一個真實(shí)的推薦系統(tǒng)模擬器,將極大地幫助推薦研究工作的推進(jìn)。鑒于 Agent4Rec 對用戶較大程度的真實(shí)行為模擬,作者探索了兩個有意思的待解決問題。

首先,作者利用 Agent4Rec 平臺收集多維度推薦數(shù)據(jù),探究推薦系統(tǒng)中潛在的因果關(guān)系。作者選取 5 個推薦系統(tǒng)中常見的變量:電影質(zhì)量、電影流行度、電影曝光率、電影瀏覽量、電影評分,通過 DirectLiNGAM 建模一個帶權(quán)有向無環(huán)因果圖,分析這 5 個變量間的因果關(guān)系。下述因果圖的左半部分說明,電影評分只受電影質(zhì)量與電影流行度的正向影響。因果圖的右半部分說明電影的質(zhì)量和流行度將共同影響電影的曝光率,進(jìn)而影響電影被點(diǎn)擊次數(shù)。這反映了推薦系統(tǒng)中的的流行度偏差效應(yīng):更流行的物品被更多曝光,進(jìn)一步導(dǎo)致物品流行度環(huán)路放大效應(yīng)。

圖片

作者還進(jìn)一步探究了推薦系統(tǒng)中信息繭房問題。作者不斷將 agent 選擇的物品作為正樣本加入訓(xùn)練集,訓(xùn)練新的推薦算法并收集 agent 反饋。隨著模擬與重新訓(xùn)練的輪數(shù)增多,推薦系統(tǒng)對個體用戶推薦的第一大類電影的比例逐漸上升,且推薦系統(tǒng)對個體用戶推薦的平均電影種類數(shù)下降。這一現(xiàn)象表明,用戶接受的信息種類將在推薦算法的干預(yù)下越來越單一。

圖片

4. 總結(jié)與展望

本篇工作探索了基于大語言模型的智能體(Agent)模擬真實(shí)推薦場景下用戶行為的可能性。盡管大語言模型仍存在諸如幻覺在內(nèi)的種種問題,但 Agent4Rec 上的多智能體仍在多個方面展現(xiàn)出了和真實(shí)用戶群體一致的行為。期待在未來,一個精心設(shè)計(jì)的基于大語言模型的 agent 平臺,能夠足夠真實(shí)地模擬推薦場景的各個維度,為學(xué)術(shù)界和工業(yè)界的研究提供更多便利。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-12-30 14:21:54

2024-11-14 14:50:00

AI智能體

2024-05-29 12:13:50

2024-07-08 09:49:54

2025-04-01 08:05:00

智能體人工智能MCP

2024-07-17 16:59:51

AI訓(xùn)練

2009-09-14 09:59:19

CCNA模擬器介紹CCNA

2019-02-20 11:24:27

Linux 開源操作系統(tǒng)

2009-09-04 16:05:08

2023-10-12 16:37:36

模型學(xué)習(xí)

2021-02-15 10:32:06

C#Selenium網(wǎng)頁

2012-03-07 15:03:57

模擬器智能手機(jī)游戲

2011-02-25 17:30:52

2015-07-27 10:38:14

微軟android模擬器

2013-07-25 14:35:27

2013-01-25 15:29:14

s40Series 40

2024-12-12 08:42:25

2009-08-20 10:55:59

2009-08-07 10:53:24

JUNOS配置

2011-07-26 09:32:08

iPhone 模擬器
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 成人小视频在线观看 | 欧美日韩手机在线观看 | 91精品国产综合久久久动漫日韩 | 日韩欧美视频在线 | 日韩毛片免费视频 | 欧美日韩18 | 午夜影院污 | 成人av片在线观看 | 国产黄色大片 | 精品久久香蕉国产线看观看亚洲 | 国产精品成人一区二区三区 | 精品视频国产 | 人人干人人爽 | 中文字幕欧美一区二区 | 婷婷在线网站 | 亚洲欧美bt | 毛片免费观看 | 天天精品在线 | www.日韩av.com| av影音资源 | 天色综合网 | 国产日韩一区二区三免费高清 | 亚州精品天堂中文字幕 | 成人免费小视频 | 黄a免费网络 | 欧美一二三 | www.黄色网| 欧美一级网站 | 欧美日日 | 午夜免费视频观看 | 欧美日韩久 | 日韩亚洲视频 | 祝你幸福电影在线观看 | 久久久精品一区 | 久久国产视频网 | 精品日韩一区二区 | 欧美 日韩 国产 成人 在线 | 免费一看一级毛片 | 精品国产18久久久久久二百 | 日韩欧美第一页 | 国产精品综合色区在线观看 |