成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多樣任務真實數據,大模型在線購物基準Shopping MMLU開源|NeurIPS&KDD Cup 2024

人工智能
Shopping MMLU是一個針對大語言模型和在線購物領域設計的評測指標。其包含廣泛的任務和能力覆蓋(4項重要能力,共計57個任務),可以全面評估大語言模型在在線購物領域的能力和潛力。

誰是在線購物領域最強大模型?也有評測基準了。

基于真實在線購物數據,電商巨頭亞馬遜終于“亮劍”——

聯合香港科技大學、圣母大學構建了一個大規(guī)模、多任務評測基準Shopping MMLU,用以評估大語言模型在在線購物領域的能力與潛力。

圖片

一直以來,想要完整建模在線購物相當復雜,主要痛點是:

  • 多任務性:在線購物中存在多樣的實體(例如商品、屬性、評論、查詢關鍵詞等)、關系(例如關鍵字和商品的匹配度,商品和商品之間的兼容性、互補性)和用戶行為(瀏覽、查詢、和購買)。

對這些實體、關系和行為和聯合建模與理解構成一個復雜的多任務(multi-task)學習問題。

  • 少樣本性:在線購物平臺會不斷面臨新用戶、新商品、新商品品類等帶來的冷啟動(cold-start)場景。在冷啟動場景下,在線購物平臺需要解決少樣本(few-shot)學習問題。

不過,諸如GPT,T5,LLaMA等的大語言模型(LLM)已經展現出了強大的多任務和少樣本學習能力,因而有潛力在在線購物領域中得到廣泛應用。

而為了進一步找出最強、最具潛力的LLM,測試基準Shopping MMLU應運而生——

與現有數據集相比,Shopping MMLU覆蓋了更多的能力(四項)和任務(57個)

同時,基于Shopping MMLU,亞馬遜舉辦了KDD Cup 2024數據挖掘競賽,吸引了全球超過500支隊伍參賽。

廣泛的能力和任務覆蓋

為了全面、充分評估大語言模型在在線購物領域中的能力,研究首先分析了在線購物領域的獨特性:

  • 特定領域的短文本:在線購物中存在大量的特定領域名詞,例如品牌、產品名、產品線等。此外,這些特定領域名詞往往出現于短文本中,例如查詢關鍵詞、屬性名-值對等。因此,在缺乏上下文的短文本中理解特定領域名詞,是在線購物領域的一個獨特挑戰(zhàn)。
  • 商品的隱含知識:大部分商品都隱含特定的知識,例如AirPods使用藍牙連接,不需要轉接線;碳纖維制品一般重量很輕等。如何準確理解不同商品隱含的知識并且進行推理,是在線購物領域的另一個獨特挑戰(zhàn)。
  • 異質且隱式的用戶行為:在線購物平臺上存在多種多樣的用戶行為,例如瀏覽、查詢、加購物車、購買等。這些行為大部分都不以語言表達,因此如何全面理解這些異質的用戶行為,是在線購物所必須解決的問題。
  • 多語言任務:在線購物平臺往往在不止一個地區(qū)運營,因此需要模型能同時理解多種語言描述下的商品和用戶問題。

圖片

基于以上分析,研究構造了Shopping MMLU,覆蓋四項在線購物能力,共計57個任務:

  • 在線購物概念理解
  • 在線購物知識推理
  • 用戶行為理解
  • 多語言能力

下表可見,Shopping MMLU相比現有數據集覆蓋了更多的能力和任務。

圖片

能力和任務構成如下圖所示。

圖片

Shopping MMLU大部分由真實的亞馬遜在線購物數據構造,并且經過人工檢驗,盡可能排除低質量數據,例如標注錯誤,缺乏必要信息等。

部分問題示例如下。

圖片
圖片
圖片

主流大語言模型成績單

研究選取了共27個主流大語言模型進行實驗分析,其中包括:

  • 閉源模型(Claude-3, Claude-2, GPT)
  • 開源通用領域模型(LLaMA2、LLaMA3、QWen、Mistral)
  • 開源特定領域模型(eCeLLM,經過在線購物領域數據進行微調)

實驗結果如下表所示。

圖片

研究發(fā)現,雖然閉源模型仍然處于領先(例如Claude-3 Sonnet整體排名第一),但開源模型已經能夠趕上閉源模型的性能(例如QWen和LLaMA3)。

此外,特定領域模型eCeLLM并未在同參數量級下取得最好成績,說明Shopping MMLU是一個有相當難度的評測基準,無法通過簡單的微調取得好成績。

如何打造在線購物領域大模型

基于Shopping MMLU,研究分析常用的大模型增強手段,進一步探究如何打造強大的在線購物領域大模型。

首先,如下圖所示,模型在不同能力和任務上的得分高度正相關。這說明了在線購物領域的不同任務之間存在共同的知識,可以使用大語言模型進行整體性的建模和能力提升。

圖片

其次,如下圖所示,模型的Shopping MMLU得分和模型在通用大模型基準測試的得分(Open LLM Leaderboard)同樣高度相關。

另外,隨著同一個模型家族內模型增大,其Shopping MMLU得分同樣增加。

這表明大語言模型的通用能力可以很好地遷移到在線購物領域中,構造特定領域大模型的基礎是強大的通用能力。

圖片

隨后,研究分析了微調對模型在Shopping MMLU得分的影響。

通用領域的微調一般對模型在Shopping MMLU上有提升。不過,這一結論也與基礎模型的能力,微調的數據質量等因素存在關系。

例如,在LLaMA2-70B上,研究觀察到經過微調的LLaMA2-70B-chat得分低于LLaMA2-70B,而在LLaMA3-70B上沒有觀察到這一現象。

可能的原因是,相對較小的微調數據使得LLaMA2-70B過擬合,導致通用能力的部分丟失,進而導致Shopping MMLU上得分下降。

反之,LLaMA3使用了更高質量的微調數據,所以能夠保留通用能力,同時增強模型回答問題的能力,得到更高的分數。

圖片

特定領域微調(如eCeLLM)并未能在Shopping MMLU上取得最高得分。

為了探究其中原因,研究測試了eCeLLM與其基礎模型在通用能力上的對比。結果表明,經過特定領域微調的eCeLLM相比其基礎模型的通用能力一般有所下降。

這可能是導致eCeLLM未能取得最高得分的原因,也同時強調了通用能力對于對特定領域的重要性。

圖片

總結

Shopping MMLU是一個針對大語言模型和在線購物領域設計的評測指標。其包含廣泛的任務和能力覆蓋(4項重要能力,共計57個任務),可以全面評估大語言模型在在線購物領域的能力和潛力。

Shopping MMLU基于亞馬遜的真實購物數據打造,經過人工篩選,保證數據質量?;赟hopping MMLU,研究展開了大量實驗分析,為這一領域后續(xù)的研究和實際應用提供了有價值的結論。

目前,Shopping MMLU以及其對應的資源全部開源并將持續(xù)維護,方便研究人員和開發(fā)者進行深入探索和應用。

Shopping MMLU的數據以及對應評測代碼已經于GitHub公開。

同時,為了構造開放、開源的評測體系,研究基于Shopping MMLU建立了一個排行榜。

官方表示,Shopping MMLU歡迎新模型加入排行榜,如果有興趣的話可以于GitHub上與Shopping MMLU維護者進行聯系。

圖片

論文:https://arxiv.org/pdf/2410.20745。
數據及評測代碼:https://github.com/KL4805/ShoppingMMLU。
KDD Cup 2024 Workshop及獲獎隊伍解法:https://amazon-kddcup24.github.io/。
評估榜單:https://huggingface.co/spaces/KL4805/shopping_mmlu_leaderboard。

責任編輯:姜華 來源: 量子位
相關推薦

2024-11-04 12:48:12

2024-10-21 13:50:00

神經網絡數據

2024-10-11 14:00:00

模型數據

2022-03-30 14:30:34

人工智能機器學習模型

2015-10-30 14:56:40

真實數據欺騙

2017-01-19 10:25:42

阿里云

2024-04-08 13:29:52

2024-10-10 14:10:00

AI模型

2024-10-16 16:20:00

AI機器人

2024-09-14 13:50:00

AI訓練

2023-07-07 12:30:00

模型技術

2023-09-26 14:21:33

模型開源Qwen-14B

2024-11-18 11:00:00

模型安全

2024-09-29 13:10:08

2013-05-16 10:45:46

BI云存儲成本混合云

2024-10-24 10:15:00

AI模型

2021-06-25 09:47:06

KDD Cup Graphormer

2024-07-22 08:10:00

數據模型

2023-06-19 19:26:54

模型開源

2024-11-18 11:20:00

視頻大模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 狠狠躁18三区二区一区 | 中文字幕免费在线 | 91久久久久久久久久久久久 | 成人网av| 免费国产一区二区 | 夜夜爽99久久国产综合精品女不卡 | 久操福利| 国产欧美三区 | 在线观看国产视频 | 视频在线一区二区 | 日韩欧美国产一区二区三区 | 成人毛片视频免费 | 久久aⅴ乱码一区二区三区 91综合网 | 日韩免费av | 人人人人爽 | 国产电影一区二区 | 国产 欧美 日韩 一区 | 欧美成人h版在线观看 | 成人亚洲视频 | 欧美激情精品久久久久久 | 亚洲国产精品福利 | 久久久久久久国产精品 | 国产精品久久久久久婷婷天堂 | 国产高清在线精品 | 在线观看免费观看在线91 | 午夜精品视频 | 一区二区三区免费网站 | 婷婷91| 国产一区二区三区免费观看视频 | 成人在线电影在线观看 | 亚洲欧洲精品在线 | 天天躁日日躁aaaa视频 | 欧美偷偷| a毛片 | 欧美精品一区在线发布 | 国产精品一区二区三区久久 | 91色啪| 有码在线 | 国产色婷婷久久99精品91 | 久久手机视频 | 伊人成人免费视频 |