成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

港中文提出CLongEval中文基準(zhǔn)測(cè)試集,準(zhǔn)確評(píng)估大模型長(zhǎng)上下文能力

發(fā)布于 2024-4-2 12:06
瀏覽
0收藏

港中文提出CLongEval中文基準(zhǔn)測(cè)試集,準(zhǔn)確評(píng)估大模型長(zhǎng)上下文能力-AI.x社區(qū)

論文題目:

ClongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models

論文地址:

??https://arxiv.org/abs/2403.03514??

代碼地址:

??https://github.com/zexuanqiu/CLongEval??

01 研究背景和貢獻(xiàn)

為了使 LLM 能夠支持更復(fù)雜和多樣化的應(yīng)用,越來(lái)越多的研究致力于擴(kuò)展 LLM 能夠處理的上下文窗口。為了評(píng)估這些 long context LLM 支持長(zhǎng)上下文能力,目前英文領(lǐng)域有幾個(gè)數(shù)據(jù)集被提出(如 LongBench, L-Eval, LooGLE)。

然而,在中文領(lǐng)域,對(duì)于 long context LLM 能力評(píng)估的研究還有些滯后。目前只有一個(gè)雙語(yǔ)基準(zhǔn) LongBench 可用,中文部分僅有平均長(zhǎng)度約 13K 個(gè)字符的 1000 個(gè)測(cè)試實(shí)例。基于中文領(lǐng)域缺乏高質(zhì)量評(píng)估數(shù)據(jù)集的現(xiàn)狀,這篇論文提出了一個(gè)基準(zhǔn)測(cè)試集,以準(zhǔn)確評(píng)估 LLM 在中文領(lǐng)域的長(zhǎng)文本上下文處理能力。

港中文提出CLongEval中文基準(zhǔn)測(cè)試集,準(zhǔn)確評(píng)估大模型長(zhǎng)上下文能力-AI.x社區(qū)

論文提出了 CLongEval,一個(gè)包含了 7 種 NLP 任務(wù)、覆蓋 4 個(gè)能力維度的中文長(zhǎng)文本能力測(cè)試集。以確保對(duì)模型能力的綜合評(píng)估,作者首先對(duì) LLM 處理長(zhǎng)文本所需的關(guān)鍵能力進(jìn)行了拆解。


如下圖所示的框架,基于于人類自身解決問(wèn)題的范式,作者將 LLM 在解決長(zhǎng)上下文任務(wù)時(shí)所用的基礎(chǔ)能力分解為:1)在部分上下文(Partial Context)或者全部上下文(Full Context)中識(shí)別和獲取關(guān)鍵信息的能力;2)基于獲取的全部信息,以抽取式(Extractive)或者抽象式(Abstractive)推理出答案的能力。


在這些基礎(chǔ)能力的維度上,作者構(gòu)建了了 CLongEval 基準(zhǔn)測(cè)試集。該測(cè)試集包含了 7 個(gè)任務(wù)共 7,267 個(gè)測(cè)試樣本,包括長(zhǎng)篇故事問(wèn)答(Long Story QA)、長(zhǎng)對(duì)話記憶(Long Conversation Memory)、長(zhǎng)篇故事摘要(Long Story Summarization)、新聞標(biāo)注(Stacked News Labeling)、錯(cuò)別字檢測(cè)(Stacked Typo Detection)、段落檢索(Key-Passage Retrieval)和表格查詢(Table Querying)。


其中,長(zhǎng)篇故事問(wèn)答和長(zhǎng)對(duì)話記憶均為全新標(biāo)注的數(shù)據(jù)。長(zhǎng)篇故事摘要由 GPT-4 進(jìn)行輔助標(biāo)注。其余 4 個(gè)任務(wù)由公共數(shù)據(jù)集重構(gòu)得來(lái)。


由于目前 LLM 支持的文本長(zhǎng)度窗口(context window)差異較大,為了確保基準(zhǔn)測(cè)試集的適用性,CLongEval 按照輸入文本的長(zhǎng)度構(gòu)建了三個(gè)子集:small set、medium set 和 large set。small set 主要包括長(zhǎng)度在 1K 到 16K 個(gè) token 之間的測(cè)試數(shù)據(jù),medium set 是 16K 到 50K 個(gè) token 之間,而 large set 包含的數(shù)據(jù)擴(kuò)展到 50K 到 100K 個(gè) token。下表展示了數(shù)據(jù)集的具體統(tǒng)計(jì)信息。

港中文提出CLongEval中文基準(zhǔn)測(cè)試集,準(zhǔn)確評(píng)估大模型長(zhǎng)上下文能力-AI.x社區(qū)

02 數(shù)據(jù)集構(gòu)建

以下是 CLongEval 包含的測(cè)試任務(wù)。每個(gè)任務(wù)針對(duì)測(cè)試一種上文提到的基礎(chǔ)能力。

  • 長(zhǎng)篇故事問(wèn)答該任務(wù)要求模型根據(jù)長(zhǎng)篇故事中的部分上下文來(lái)回答問(wèn)題,考察模型能否利用部分上下文信息進(jìn)行閱讀理解。模型需要在輸入中找到有關(guān)的上下文并進(jìn)行抽象推理來(lái)得到正確答案。作者在 153 本中國(guó)敘事小說(shuō)中提取了 200 個(gè)不重復(fù)的故事,并根據(jù)故事長(zhǎng)度分配了相應(yīng)數(shù)量的問(wèn)題。最終共標(biāo)注了約 1K 個(gè)問(wèn)答對(duì)。
  • 長(zhǎng)對(duì)話記憶這個(gè)任務(wù)旨在評(píng)估模型的長(zhǎng)期記憶能力,考察模型能否利用部分上下文信息進(jìn)行閱讀理解。該任務(wù)的輸入為用戶和伴侶聊天機(jī)器人之間連續(xù)多天的對(duì)話記錄,模型需要準(zhǔn)確地回答關(guān)于特定日期對(duì)話內(nèi)容相關(guān)的問(wèn)題。數(shù)據(jù)包含 80 個(gè)虛擬用戶和伴侶聊天機(jī)器人之間的 140 天對(duì)話記錄,和人工標(biāo)注的約 1K 個(gè)問(wèn)答對(duì)。
  • 長(zhǎng)篇故事摘要作為自然語(yǔ)言處理的經(jīng)典任務(wù),摘要生成需要模型能夠正確理解完整的長(zhǎng)上下文并進(jìn)行信息整合。作者首先將 BOOKSUM 數(shù)據(jù)集翻譯成了中文,之后使用 GPT-4 輔助將 BOOKSUM 數(shù)據(jù)集中每個(gè)片段的摘要整合成總摘要。該任務(wù)包含 1K 個(gè)測(cè)試樣例。
  • 新聞標(biāo)注該測(cè)試任務(wù)要求模型能對(duì)輸入的新聞做正確的分類。目標(biāo)是評(píng)估語(yǔ)言模型能否理解完整的輸入,并進(jìn)行信息抽取。每個(gè)樣例的輸入包含多篇新聞以及對(duì)應(yīng)的索引,輸出是對(duì)每篇新聞的類別標(biāo)簽。該任務(wù)包含約 1K 個(gè)測(cè)試樣例。
  • 錯(cuò)別字檢測(cè)該任務(wù)要求模型識(shí)別出長(zhǎng)篇輸入中存在的所有拼寫錯(cuò)誤。目標(biāo)是評(píng)估語(yǔ)言模型能否理解完整的輸入,并進(jìn)行信息抽取。錯(cuò)別字構(gòu)造來(lái)自于日常打字常見(jiàn)錯(cuò)誤類型:同音錯(cuò)字。錯(cuò)字的數(shù)量和輸入的長(zhǎng)度成正比:small set 為 10 個(gè)錯(cuò)字,medium set 為 20 個(gè)錯(cuò)字,large set 為 30 個(gè)錯(cuò)字。該任務(wù)包含約 1K 個(gè)測(cè)試樣例。
  • 段落檢索該任務(wù)是為了考察模型在長(zhǎng)上下文中抽取所需信息的能力,尤其是準(zhǔn)確返回復(fù)雜搜索結(jié)果的能力。數(shù)據(jù)集中每個(gè)樣例都是一個(gè)被序列化為字符串的 JSON 對(duì)象,其中包含多個(gè)鍵-段落(key-passage)對(duì)。這個(gè)任務(wù)和常見(jiàn)的鍵-值檢索任務(wù)類似,區(qū)別在于這里檢索對(duì)象是具有實(shí)際語(yǔ)義的自然語(yǔ)言文本,而不是隨機(jī)生成的 128 位 UUID 字符串,因此更具有挑戰(zhàn)性。該任務(wù)包含約 1K 個(gè)測(cè)試樣例。
  • 表格查詢該任務(wù)是為了考察模型在長(zhǎng)上下文中抽取所需信息的能力,尤其是在長(zhǎng)上下文中執(zhí)行復(fù)雜查詢的能力。數(shù)據(jù)集中每個(gè)樣例由多個(gè)使用 Markdown 格式排列的表格組成;期待模型可以在長(zhǎng)上下文中定位到目標(biāo)表格,并根據(jù)查詢條件從該表格中得到輸出。該任務(wù)包含約 1K 個(gè)測(cè)試樣例。

03 實(shí)驗(yàn)結(jié)果

下表為主實(shí)驗(yàn)結(jié)果,展示了 6 個(gè)開(kāi)源模型和 2 個(gè)閉源模型(GPT-4-Turbo 和 Moonshot-v1)在 CLongEval 上的表現(xiàn)。

港中文提出CLongEval中文基準(zhǔn)測(cè)試集,準(zhǔn)確評(píng)估大模型長(zhǎng)上下文能力-AI.x社區(qū)

作者分析了參考答案在上下文中的對(duì)應(yīng)位置對(duì)模型性能的影響,結(jié)果如下圖所示。作者在需要部分上下文的四個(gè)任務(wù)上進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)在長(zhǎng)篇故事問(wèn)答和長(zhǎng)對(duì)話記憶這兩個(gè)任務(wù)中,“Lost in the middle” 這一現(xiàn)象較為明顯。

港中文提出CLongEval中文基準(zhǔn)測(cè)試集,準(zhǔn)確評(píng)估大模型長(zhǎng)上下文能力-AI.x社區(qū)

下面的兩張圖展示了 GPT-4-Turbo 與 Moonshot-v1 在新聞標(biāo)注這個(gè)任務(wù)中不同位置與不同深度的分類準(zhǔn)確率的可視化分析。可以發(fā)現(xiàn),Moonshot-v1 的表現(xiàn)更加穩(wěn)定。

港中文提出CLongEval中文基準(zhǔn)測(cè)試集,準(zhǔn)確評(píng)估大模型長(zhǎng)上下文能力-AI.x社區(qū)

港中文提出CLongEval中文基準(zhǔn)測(cè)試集,準(zhǔn)確評(píng)估大模型長(zhǎng)上下文能力-AI.x社區(qū)

更多實(shí)驗(yàn)結(jié)果以及分析請(qǐng)參考原文。


 本文轉(zhuǎn)自 PaperWeekly ,作者:讓你更懂AI的


原文鏈接:??https://mp.weixin.qq.com/s/EPOSvdieaXfFdOjyWQaMhA??

標(biāo)簽
已于2024-4-2 12:08:34修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 亚洲成人av在线 | 一区二区三区回区在观看免费视频 | 亚洲高清视频在线 | 嫩呦国产一区二区三区av | 青青草一区 | 亚洲视频免费在线 | 黄色网址在线播放 | 亚洲国产成人精品久久久国产成人一区 | 日本a v在线播放 | 国产精品一区二区在线免费观看 | 国产极品粉嫩美女呻吟在线看人 | 国户精品久久久久久久久久久不卡 | 亚卅毛片 | 欧美成人一区二区 | 久久久成人一区二区免费影院 | 亚洲国产aⅴ成人精品无吗 欧美激情欧美激情在线五月 | 久久免费精品 | 欧美一级在线观看 | 亚洲精品视频一区 | 中文字幕一区在线观看视频 | 久久久久黄色 | 男女网站免费观看 | 亚洲毛片在线观看 | 国产四区 | 超碰av免费 | 亚洲精品国产第一综合99久久 | 天天操妹子 | 国产高清在线精品一区二区三区 | 国产欧美精品一区二区三区 | 在线播放国产视频 | 欧美日韩综合视频 | 亚洲区一区二 | 亚洲女人的天堂 | 久久香焦 | 国产日韩一区二区三免费高清 | 黄色小视频入口 | 欧美一级毛片在线播放 | 天天操夜夜操 | 华人黄网站大全 | 日本天天色 | 四虎影音|