成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

27個大模型混戰(zhàn)電商領(lǐng)域,DeepSeek-R1&V3仍是最強丨首個中文電商問答基準評估結(jié)果

人工智能 新聞
隨著大模型在電商領(lǐng)域的廣泛應用,如何精準評估其對專業(yè)領(lǐng)域知識的掌握成為關(guān)鍵挑戰(zhàn)。

全面評估大模型電商領(lǐng)域能力,首個聚焦電商基礎(chǔ)概念的可擴展問答基準來了!

ChineseEcomQA,來自淘天集團。

此前,大模型常因生成事實性錯誤信息而受限,而傳統(tǒng)基準又難以兼顧電商任務(wù)的多樣性與領(lǐng)域特殊性。

但隨著大模型在電商領(lǐng)域的廣泛應用,如何精準評估其對專業(yè)領(lǐng)域知識的掌握成為關(guān)鍵挑戰(zhàn)。

為此,ChineseEcomQA針對性進行了3大核心設(shè)計:

  1. 基礎(chǔ)概念覆蓋:覆蓋20大行業(yè),聚焦10類核心電商概念(如行業(yè)分類、品牌屬性、用戶意圖等),包含1800組高質(zhì)量問答,適配多樣電商任務(wù);
  2. 混合數(shù)據(jù)構(gòu)建:融合LLM生成、檢索增強(RAG)與人工標注,確保數(shù)據(jù)質(zhì)量與領(lǐng)域?qū)I(yè)性;
  3. 平衡評估維度:兼顧行業(yè)通用性與專業(yè)性,支持精準領(lǐng)域能力驗證。

圖片

ChineseEcomQA構(gòu)建流程

從電子商務(wù)基本元素(用戶行為、商品信息等)出發(fā),團隊總結(jié)出電子商務(wù)概念的主要類型。

最終定義了從基礎(chǔ)概念到高級概念的10個子概念(具體詳見論文)

行業(yè)分類、行業(yè)概念、類別概念、品牌概念、屬性概念、口語概念、意圖概念、評論概念、相關(guān)性概念、個性化概念。

圖片

然后,研究人員采用混合的數(shù)據(jù)集構(gòu)建過程,結(jié)合LLM驗證、RAG驗證和嚴格的人工標注,確保基準符合三個核心特性:

  • 專注基礎(chǔ)概念
  • 電商知識通用性
  • 電商知識專業(yè)性

具體來說,構(gòu)建ChineseEcomQA主要分為自動化問答對生成和質(zhì)量驗證兩個階段。

第一階段,問答對生成。

研究者收集了大量知識豐富且涵蓋各種相關(guān)概念的電子商務(wù)語料庫。

然后,提示大模型(GPT-4o)根據(jù)給定的內(nèi)容忠實地生成問答對;對于比較開放的問題,要求大模型同時提供非常混亂和困難的候選答案。

從而自動化地構(gòu)建出大量問答對作為初始評測集。

圖片

第二階段,質(zhì)量驗證。

我們開發(fā)了一個多輪自動化流程對生成的問答對進行驗證,重新生成或過濾不符合標準的問題。

具體包括大模型驗證、電子商務(wù)通用知識驗證、電子商務(wù)專業(yè)知識驗證、電子商務(wù)事實性驗證、難度篩選、人工驗證。

經(jīng)過多重嚴格篩選,最終得到均勻覆蓋10大類電商子概念的1800條高質(zhì)量問答對作為終版數(shù)據(jù)集。

圖片

DeepSeek-R1和V3表現(xiàn)最佳

評估了11個閉源模型和16個開源模型,得出如下排名榜:

圖片

(注:對于子概念,IC、IDC、CC、BC、AC、SC、ITC、RVC、RLC 和 PC 分別代表“行業(yè)分類”“行業(yè)概念”“類別概念”“品牌概念”“屬性概念”“口語概念”“意圖概念”“評論概念”“相關(guān)性概念”和“個性化概念”)

總的來看,DeepSeek-R1和DeepSeek-V3是表現(xiàn)最好的模型,展示了強大的基礎(chǔ)模型(推理模型)在電子商務(wù)領(lǐng)域的巨大潛力。

此外,研究團隊對主流模型表現(xiàn)分析并得出了以下發(fā)現(xiàn):

  • 更大的模型在高級電商概念上表現(xiàn)更好,遵循Scaling Law,但小模型在特定電商任務(wù)上仍面臨顯著挑戰(zhàn)。
  • 中文社區(qū)模型(如Qwen系列、GLM-4)在電商場景適應性上表現(xiàn)突出,尤其是在高級電子商務(wù)概念上。雖然O1-preview在基本概念上表現(xiàn)更好,但在更高級的概念上面臨困難。
  • 某些類型的電子商務(wù)概念(如相關(guān)性概念)仍然對 LLM 構(gòu)成重大挑戰(zhàn)。大參數(shù)量模型由于其強大的通用能力,可以泛化到電商任務(wù)上,而小參數(shù)量模型則更有困難。這些特點體現(xiàn)了專門開發(fā)電商領(lǐng)域模型的必要性。
  • Deepseek-R1-Distill-Qwen系列的表現(xiàn)不如原始的Qwen系列,主要原因是在推理過程中引入知識點錯誤,進而導致最終結(jié)論出錯。
  • 開源模型和閉源模型之間的性能差距很小。以Deepseek為代表的開源模型使二者達到了相似的水平。
  • 通過引入RAG策略,模型的性能顯著提升,縮小了不同模型之間的性能差距。
  • LLM的自我評估能力(校準)在不同模型中存在差異,更大的模型通常表現(xiàn)出更好的校準能力。
  • Reasoning LLM需警惕“思維鏈中的事實性錯誤累積”,尤其是蒸餾模型。

同時,團隊還在ChineseEcomQA上探索了模型校準、RAG、推理模型思維過程等熱門研究課題(具體詳見論文)

模型往往對回答“過于自信”

一個完美校準的模型應該表現(xiàn)出與其預測準確度一致的置信度。

ChineseEcomQA團隊通過提示模型在回答問題的同時給出其對回答內(nèi)容的置信度(范圍0到100),探索模型的事實準確性與置信度之間的關(guān)系。

結(jié)果顯示,o1-preview表現(xiàn)出最佳對齊性能,其次是o1-mini。

然而,大多數(shù)模型始終低于完美對齊線,表明模型普遍存在過度自信的趨勢。

這凸顯了改進大型語言模型校準以減輕過度自信產(chǎn)生錯誤響應的巨大空間。

圖片

RAG仍是快速提升模型能力的捷徑

研究過程中,團隊探討了RAG策略在ChineseEcomQA數(shù)據(jù)集上增強LLM領(lǐng)域知識的有效性。

具體來說,研究者在類別概念和品牌概念上的設(shè)置重現(xiàn)了一個RAG系統(tǒng)。

結(jié)果顯示,所有模型都通過RAG都得到了顯著提升。研究人員總結(jié)出三個詳細的結(jié)論。

第一,對于小型LLM,引入RAG信息可以顯著提高評估指標的絕對值。

例如,Qwen2.5-14B實現(xiàn)了27.9%的改進。

第二,對于大型LLM,RAG也可以實現(xiàn)顯著的相對改進。

例如,DeepSeek-V3的平均相對改進達到了10.44%(準確率從77.4提高到85.5)

第三,在RAG設(shè)置下,模型之間的性能仍然遵循縮放規(guī)律,但差距迅速縮小。

例如,Deepseek-V3和Qwen2.5-72B之間的準確率差異從12.1%縮小到 4%。

總之,RAG仍是增強LLM電子商務(wù)知識的有效方法。

圖片

警惕“思維鏈中的事實性錯誤累積”

在主要結(jié)果中,Deepseek-R1取得了最佳結(jié)果,充分展示了Reasoning LLM在開放領(lǐng)域中的潛力。

然而,在從Deepseek-R1蒸餾出的Qwen系列模型上,準確率明顯低于預期。

由于開源Reasoning LLM揭示了它們的思維過程,研究者進一步調(diào)查其錯誤的原因,并將推理模型的思維過程分為以下四種類型:

  • Type A:Reasoning LLM通過自我反思反復確認正確答案。
  • Type B:Reasoning LLM最初犯了錯誤,但通過自我反思糾正了錯誤。
  • Type C:Reasoning LLM通過自我反思引入知識錯誤,導致原本可能正確的答案被修改為不正確的答案。
  • Type D:Reasoning LLM反復自我反思。雖然最終得出了答案,但并沒有通過反思獲得高度確定和自信的答案。

圖片

總體而言,Type A和Type B是通過擴大test-time計算量獲得的推理能力;Type C和Type D是膚淺的自我反思,導致最終答案不正確。

由于Deepseek-R1強大的buase模型能力表現(xiàn)出更好的泛化能力。

相比之下,在某些特定領(lǐng)域蒸餾的DeepSeek-R1-Distill-Qwen系列似乎在膚淺的自我反思方面遇到了困難。中間推理步驟中事實錯誤的積累增加了整體錯誤率。

對于較小的推理LLM,開放領(lǐng)域的推理能力不能直接通過數(shù)理邏輯能力來泛化,需要找到更好的方法來提高它們的性能。

One More Thing

該論文核心作者包括陳海斌,呂康滔,袁愈錦,蘇文博,研究團隊來自淘天集團算法技術(shù) - 未來生活實驗室。

該實驗室聚焦大模型、多模態(tài)等AI技術(shù)方向,致力于打造大模型相關(guān)基礎(chǔ)算法、模型能力和各類AI Native應用,引領(lǐng) AI 在生活消費領(lǐng)域的技術(shù)創(chuàng)新。

淘天集團算法技術(shù) - 未來生活實驗室團隊將持續(xù)更新和維護數(shù)據(jù)集及評測榜單,歡迎廣大研究者使用我們的評測集進行實驗和研究~

論文鏈接:https://arxiv.org/abs/2502.20196
項目主頁:https://openstellarteam.github.io/ChineseEcomQA/
代碼倉庫:https://github.com/OpenStellarTeam/ChineseEcomQA
數(shù)據(jù)集下載:https://huggingface.co/datasets/OpenStellarTeam/Chinese-EcomQA

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2013-01-09 13:58:00

銀行移動電商移動互聯(lián)網(wǎng)

2022-03-15 17:35:20

電商系統(tǒng)架構(gòu)

2012-08-13 10:01:05

2024-07-11 11:53:56

2024-12-27 09:00:00

訓練模型數(shù)據(jù)

2024-05-07 08:04:09

代碼格式化工具

2015-01-13 13:49:00

文思海輝電商解決方案

2025-06-03 09:16:00

2012-02-16 16:05:22

戴爾國美

2023-03-28 08:16:05

A/B實驗數(shù)據(jù)分析

2025-03-27 10:28:32

2025-03-26 10:38:40

2025-02-25 09:13:16

2016-08-18 23:37:24

2024-06-17 07:49:53

2024-08-28 08:32:28

2014-12-15 14:59:38

2024-11-21 12:43:06

2021-08-17 11:08:08

參數(shù)M6模型
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 久久99精品久久久久 | 一区二区三区在线电影 | 亚洲日本欧美 | 日韩中文字幕一区二区 | 黄免费观看视频 | 国产成人精品久久二区二区 | 久久精品国产99国产 | 中文字幕精品一区久久久久 | 日韩伦理电影免费在线观看 | 日韩av中文 | 成人国产精品免费观看 | 羞羞网站免费观看 | 日韩一区二区三区视频在线观看 | 国产视频2021 | 在线看一区二区 | 中文字幕在线观看视频网站 | 人人玩人人添人人澡欧美 | 成人av免费 | 亚洲自拍偷拍视频 | 天天摸天天看 | 亚洲人人 | 精品国产乱码久久久久久丨区2区 | 欧美一区二区三区在线观看 | 国产精品国产三级国产aⅴ原创 | 日韩电影免费在线观看中文字幕 | 国产精品日韩在线观看一区二区 | 日韩精品一区二区三区在线播放 | 免费毛片网 | 精品1区| 91免费观看国产 | 福利视频一区二区三区 | 久久91| 久热中文字幕 | 国产一区二区三区久久久久久久久 | 中文在线播放 | 国产伦精品 | 精品蜜桃一区二区三区 | 黄色香蕉视频在线观看 | 久久区二区 | 精品美女 | 一本色道精品久久一区二区三区 |