成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

IdentifyMe:一個(gè)具有挑戰(zhàn)性的長(zhǎng)文本指代消解基準(zhǔn)測(cè)試

發(fā)布于 2024-11-20 14:48
瀏覽
0收藏

1 引言

共指消解(CR)是文本理解的一個(gè)基本任務(wù)。盡管LLMs在廣泛的NLP任務(wù)上取得了巨大進(jìn)展,但它們?cè)贑R上的表現(xiàn)相對(duì)不盡人意,甚至在指稱檢測(cè)上也面臨困難。通過(guò)廣泛分析,Gan等人(2024)的工作已經(jīng)確定,在典型的CR設(shè)置中,由于基于跨度的輸出格式不適合LLMs,因此低估了LLMs出色的指稱理解能力。他們建議調(diào)整CR數(shù)據(jù)集和任務(wù)指標(biāo),以支持LLMs的評(píng)估。

沿著這些思路,我們創(chuàng)建了IdentifyMe基準(zhǔn)測(cè)試,用于MCQ格式的指稱消解,這種格式通常用于LLMs的評(píng)估。為了構(gòu)建基準(zhǔn)測(cè)試,我們使用了來(lái)自兩個(gè)長(zhǎng)文本共指基準(zhǔn)測(cè)試LitBank和FantasyCoref的注釋。為了使基準(zhǔn)測(cè)試具有挑戰(zhàn)性,我們限制了它只包括代詞和名詞指稱,并為每種指稱類型應(yīng)用了一些啟發(fā)式方法,以過(guò)濾掉容易解決的案例。每個(gè)MCQ實(shí)例都包含了標(biāo)記有感興趣指稱的文本,選項(xiàng)包括文本中經(jīng)常出現(xiàn)的實(shí)體和“以上都不是”(NoA)選項(xiàng)。圖1展示了從LitBank派生的IdentifyMe中的一個(gè)示例。

我們對(duì)閉源和開(kāi)源模型進(jìn)行了評(píng)估。平均而言,LLMs在代詞指稱上的表現(xiàn)比名詞指稱要差,代詞指稱由于其有限的表面信息而更難識(shí)別。對(duì)于所有模型來(lái)說(shuō),“以上都不是”作為正確答案的實(shí)例尤其具有挑戰(zhàn)性,開(kāi)源模型的準(zhǔn)確率下降了超過(guò)50%。在嵌套指稱的情況下,LLMs往往會(huì)在具有重疊指稱的實(shí)體之間產(chǎn)生混淆。得分最高的模型GPT-4o在IdentifyMe上獲得了81.9%的準(zhǔn)確率,突顯了前沿LLMs在指稱能力方面的強(qiáng)大實(shí)力,同時(shí)也表明在這一領(lǐng)域仍有很大的改進(jìn)空間。

2 IdentifyMe基準(zhǔn)測(cè)試

IdentifyMe是一個(gè)基于MCQ的基準(zhǔn)測(cè)試,給定一個(gè)帶有標(biāo)記指稱的文檔,任務(wù)是識(shí)別它所指的實(shí)體。我們從專注于文學(xué)文本的兩個(gè)共指數(shù)據(jù)集LitBank和FantasyCoref中派生了這些指稱。這些數(shù)據(jù)集提供了長(zhǎng)篇上下文(FantasyCoref平均為1700個(gè)詞,LitBank為2000個(gè)詞),并具有多個(gè)實(shí)體及其豐富的相互依賴性(例如,Mr. 和 Mrs. Pett),這使得解決指稱變得更加具有挑戰(zhàn)性。雖然LitBank提供了多樣的寫(xiě)作風(fēng)格和語(yǔ)言結(jié)構(gòu),但FantasyCoref包括的實(shí)體通常會(huì)采取不同的形式(例如,偽裝和變形),或者在其頭銜上發(fā)生變化(例如,Prince Rudolph在加冕后被稱為The Emperor),這進(jìn)一步增加了實(shí)體映射的復(fù)雜性。

共指注釋將指向同一實(shí)體的指稱分組為未標(biāo)記的簇。然而,為了創(chuàng)建一個(gè)以實(shí)體為選項(xiàng)的MCQ,我們需要為每個(gè)簇分配一個(gè)代表性短語(yǔ)。我們使用GPT-4o-mini(見(jiàn)表8)根據(jù)它們的提及和頻率為每個(gè)實(shí)體生成短語(yǔ)。這些注釋經(jīng)過(guò)手動(dòng)審查,以確保每個(gè)實(shí)體都有一個(gè)獨(dú)特的短語(yǔ)。

為了防止混淆,我們丟棄并避免標(biāo)記那些:(i)包含注釋錯(cuò)誤的簇(例如,由于簇合并或分裂);(ii)太小(<3個(gè)提及)或難以/模糊標(biāo)記的簇(例如,像some這樣的實(shí)體);(iii)復(fù)數(shù)實(shí)體,因?yàn)樗鼈兺ǔH狈梢詮奶峒爸信缮拿鞔_表面形式。

使用標(biāo)記簇中的提及,從文檔中創(chuàng)建一個(gè)MCQ,所有標(biāo)記的實(shí)體都作為選項(xiàng)提供。為了創(chuàng)建一個(gè)高質(zhì)量的基準(zhǔn)測(cè)試,我們排除了短上下文文檔(<1000個(gè)詞)或那些被丟棄的實(shí)體占超過(guò)50%提及的文檔。

2.1 選擇IdentifyMe的指稱

基于之前利用基于規(guī)則的語(yǔ)言模式來(lái)執(zhí)行(Zhou and Su, 2004; Lee et al., 2013)或分析(Haghighi and Klein, 2009; Otmazgin et al., 2023)共指消解的工作,我們提出了一種兩步啟發(fā)式方法來(lái)識(shí)別具有挑戰(zhàn)性的指稱。

步驟1:丟棄簡(jiǎn)單指稱。我們應(yīng)用兩個(gè)標(biāo)準(zhǔn)來(lái)過(guò)濾掉由于句法相似性而可以輕松解決的指稱:

A. 名詞模糊分?jǐn)?shù)計(jì)算名詞指稱與相應(yīng)實(shí)體的代表性短語(yǔ)之間的模糊相似度(靈活對(duì)待順序和子集擾動(dòng))。得分為75%或更高的指稱被丟棄,因?yàn)槲覀兤谕鼈兏菀妆徽_識(shí)別。

B. 網(wǎng)絡(luò)干擾分?jǐn)?shù)。我們根據(jù)性別、數(shù)量和活性等屬性對(duì)代詞指稱進(jìn)行分類(LingMess)。附近具有相同類別的代詞指稱(代詞),并且指向同一實(shí)體的,可能有助于輕松識(shí)別標(biāo)記指稱。另一方面,那些來(lái)自不同類別但同一實(shí)體或同一類別但不同實(shí)體的指稱可能使其更難識(shí)別。我們將標(biāo)記指稱的網(wǎng)絡(luò)干擾分?jǐn)?shù)定義為阻礙識(shí)別的相鄰代詞數(shù)量減去有助于識(shí)別的數(shù)量。我們丟棄得分為≤0的指稱。

步驟2:按難度對(duì)指稱進(jìn)行排名。過(guò)濾后的指稱從最難到最易進(jìn)行排名:對(duì)于名詞,較低的名詞模糊分?jǐn)?shù)是首選;對(duì)于代詞,較高的網(wǎng)絡(luò)干擾分?jǐn)?shù)是首選。此外,標(biāo)記指稱與同一實(shí)體的其他指稱之間的距離也表明了難度。我們考慮距離最近的指稱、最近的名詞指稱和最近的類似于代表性短語(yǔ)的指稱作為進(jìn)一步排名的標(biāo)準(zhǔn)。所有這些單獨(dú)的標(biāo)準(zhǔn)結(jié)合使用Copeland的方法(Copeland, 1951),通過(guò)評(píng)估成對(duì)勝負(fù)來(lái)確定最終排名。

2.2 數(shù)據(jù)集統(tǒng)計(jì)

IdentifyMe包括基于上述排名方法選出的1800個(gè)最難的問(wèn)題。這些問(wèn)題來(lái)自159篇文檔(LitBank 64篇,F(xiàn)antasyCoref 95篇)。其中,隨機(jī)選取的600個(gè)問(wèn)題用作提示調(diào)整和消融實(shí)驗(yàn)的驗(yàn)證集。所有問(wèn)題都包含一個(gè)“以上都不是”(NoA)選項(xiàng),以鼓勵(lì)模型以更大的確定性做出回應(yīng)。為了評(píng)估模型是否可以選擇NoA作為正確答案,我們從10%的問(wèn)題中移除了原始的正確實(shí)體。數(shù)據(jù)集在驗(yàn)證和測(cè)試分割中都是跨源數(shù)據(jù)集和指稱類型(代詞和名詞)平衡的。

2.3 IdentifyMe是否包含難指稱?

我們進(jìn)行了一項(xiàng)實(shí)驗(yàn),以評(píng)估我們的指稱選擇過(guò)程的有效性。我們沒(méi)有采用上述方法,而是隨機(jī)挑選指稱并評(píng)估模型識(shí)別它們的能力。Mistral-7B的性能差距為9.5%,而更為穩(wěn)健的GPT-4o-mini的性能差距為7.2%,這表明IdentifyMe包含了更具挑戰(zhàn)性的指稱。

3 實(shí)驗(yàn)

3.1 模型

在閉源模型中,我們?cè)u(píng)估了GPT-4o、GPT-4o-mini和Gemini-1.5-Flash。由于計(jì)算限制,我們將開(kāi)源模型的評(píng)估限制在10B以下的變體:Llama-3.1-8B和Mistral-7B。

3.2 MCQ設(shè)置

選定的指稱在原文中用特殊標(biāo)記括起來(lái)。零樣本提示指導(dǎo)模型從給定的實(shí)體集合和NoA中檢索并重新解決指稱,并識(shí)別它所指的人或事物。

3.3 推理細(xì)節(jié)

對(duì)于開(kāi)源模型,我們使用regex-based受限解碼來(lái)限制答案僅為特定的實(shí)體代表性短語(yǔ)。我們還嘗試了鏈?zhǔn)剿季S(CoT)方法,指導(dǎo)模型在回答問(wèn)題之前解釋其推理過(guò)程。結(jié)果表明,使用CoT可以提高模型性能。

3.4 結(jié)果

表3展示了LLMs在IdentifyMe測(cè)試集上的整體表現(xiàn),以及按名詞和代詞指稱類型的細(xì)分。隨機(jī)基線在基準(zhǔn)測(cè)試中的準(zhǔn)確率為8%。盡管所有LLMs都優(yōu)于隨機(jī)基線,但開(kāi)源模型仍有很大的改進(jìn)空間,Llama-3.1-8B的準(zhǔn)確率僅為53.3%。GPT-4o是表現(xiàn)最好的模型,準(zhǔn)確率為81.9%。同時(shí),GPT-4o-mini作為一個(gè)經(jīng)濟(jì)實(shí)惠的閉源選項(xiàng),超越了較小的開(kāi)源模型,但仍落后于GPT-4o和Gemini-1.5-Flash等頂級(jí)表現(xiàn)者。

3.5 錯(cuò)誤分析

比較實(shí)體與NoA。表5提供了當(dāng)正確選項(xiàng)為實(shí)體(Ent)與NoA時(shí)的準(zhǔn)確率分布。此外,我們將錯(cuò)誤分為三類:(a)真實(shí)值是實(shí)體而模型選擇了另一個(gè)實(shí)體(Ent-Ent),(b)真實(shí)值是實(shí)體但模型預(yù)測(cè)了NoA(Ent-NoA),以及(c)真實(shí)值是NoA但模型選擇了實(shí)體(NoA-Ent)。開(kāi)源模型在NoA子集上的表現(xiàn)極差,導(dǎo)致高NoA-Ent錯(cuò)誤。在閉源模型中,Gemini-1.5-Flash在NoA MCQs上的表現(xiàn)較差(下降48.3%),并傾向于在選擇NoA時(shí)選擇實(shí)體(83/120)。有趣的是,GPT-4o和GPT-4o-mini在NoA問(wèn)題上更具彈性,分別僅下降了9.6%和0.9%。

嵌套指稱。數(shù)據(jù)集中包含352個(gè)嵌套指稱實(shí)例,其中一個(gè)指稱的范圍與另一個(gè)重疊。表6顯示,嵌套指稱的準(zhǔn)確率與整體準(zhǔn)確率相當(dāng)。然而,當(dāng)模型在解決這些指稱時(shí)出錯(cuò)時(shí),約40%的錯(cuò)誤是因?yàn)轭A(yù)測(cè)的實(shí)體對(duì)應(yīng)于重疊的指稱。

優(yōu)點(diǎn)與創(chuàng)新

  1. 新的評(píng)估基準(zhǔn):引入了IdentifyMe,一個(gè)以多項(xiàng)選擇題(MCQ)格式呈現(xiàn)的提及解析新基準(zhǔn),適用于評(píng)估大型語(yǔ)言模型(LLMs)。
  2. 長(zhǎng)文本和多樣化提及類型:IdentifyMe包含長(zhǎng)文本(平均1700詞)和多種提及類型及其對(duì)應(yīng)的實(shí)體,允許對(duì)模型性能進(jìn)行細(xì)粒度分析。
  3. 排除易識(shí)別的提及:使用啟發(fā)式方法排除容易識(shí)別的提及,創(chuàng)建更具挑戰(zhàn)性的任務(wù)。
  4. 顯著的性能差距:在IdentifyMe上評(píng)估了閉源和開(kāi)源LLMs,發(fā)現(xiàn)最先進(jìn)的亞10B開(kāi)放模型與閉源模型之間存在20-30%的性能差距。
  5. 高得分模型:最高得分的模型GPT-4o達(dá)到了81.9%的準(zhǔn)確率,突顯了前沿LLMs的強(qiáng)大指代能力,同時(shí)也表明仍有改進(jìn)空間。
  6. 鏈?zhǔn)剿季S提示:實(shí)驗(yàn)中使用鏈?zhǔn)剿季S(CoT)方法提高了模型性能,特別是在處理“無(wú)答案”選項(xiàng)時(shí)。

不足與反思

  1. 領(lǐng)域限制:IdentifyMe僅限于文學(xué)領(lǐng)域,提及類型覆蓋有限(僅有名詞性和代詞性提及),且實(shí)體類型不包括復(fù)數(shù)實(shí)體。
  2. 數(shù)據(jù)集來(lái)源:使用的數(shù)據(jù)集可在線獲取,初步調(diào)查顯示LLMs無(wú)法重現(xiàn)整個(gè)故事的CoNLL注釋,盡管進(jìn)行了大量處理,但仍有可能存在污染。

關(guān)鍵問(wèn)題及回答

問(wèn)題1:IdentifyMe基準(zhǔn)測(cè)試是如何構(gòu)建的?其獨(dú)特之處是什么?

IdentifyMe基準(zhǔn)測(cè)試是基于多個(gè)選擇問(wèn)題(MCQ)格式構(gòu)建的,旨在評(píng)估大型語(yǔ)言模型(LLMs)在共指消解任務(wù)中的表現(xiàn)。其獨(dú)特之處包括:

  1. 長(zhǎng)文本上下文:IdentifyMe使用了LitBank和FantasyCoref兩個(gè)長(zhǎng)文本共指消解數(shù)據(jù)集中的注釋,這些數(shù)據(jù)集提供了平均1700到2000詞的上下文,使得任務(wù)更具挑戰(zhàn)性。
  2. 多樣化的提及類型:基準(zhǔn)測(cè)試僅限于代詞性和名詞性提及,并對(duì)每種提及類型應(yīng)用了一些啟發(fā)式規(guī)則以過(guò)濾掉容易解決的案例。
  3. 精心設(shè)計(jì)的MCQ:每個(gè)MCQ實(shí)例由一段帶有標(biāo)記提及的文本組成,選擇項(xiàng)包括文本中頻繁出現(xiàn)的實(shí)體和“以上都不是”選項(xiàng)。
  4. 手動(dòng)審核:為了確保每個(gè)實(shí)體的代表短語(yǔ)是獨(dú)特的,使用了GPT-4o-mini生成短語(yǔ),并由人工審核。
  5. 排除易解決的案例:通過(guò)名詞模糊得分和凈干擾得分篩選出難以解決的提及,并按難度進(jìn)行排序。

問(wèn)題2:IdentifyMe基準(zhǔn)測(cè)試的結(jié)果顯示LLMs在哪些方面存在困難?

  1. 代詞性提及的消解:LLMs在處理沒(méi)有明確表面形式線索的代詞性提及時(shí)表現(xiàn)較差,尤其是那些缺乏足夠上下文信息的代詞。
  2. 選擇“以上都不是”:當(dāng)問(wèn)題要求模型拒絕所有錯(cuò)誤選項(xiàng)并選擇“以上都不是”時(shí),LLMs的表現(xiàn)尤其糟糕,開(kāi)源模型在這一子集上的準(zhǔn)確率下降超過(guò)50%。
  3. 嵌套提及:在處理嵌套提及時(shí),LLMs容易混淆重疊的提及。盡管嵌套提及的準(zhǔn)確性與整體準(zhǔn)確性相當(dāng),但模型在解決這些提及時(shí)的錯(cuò)誤中有約40%是因?yàn)轭A(yù)測(cè)的實(shí)體對(duì)應(yīng)于重疊的提及。

問(wèn)題3:IdentifyMe基準(zhǔn)測(cè)試對(duì)未來(lái)的研究和模型改進(jìn)有何啟示?

  1. 改進(jìn)評(píng)估方法:IdentifyMe展示了傳統(tǒng)共指消解評(píng)估方法和輸出格式無(wú)法充分捕捉LLMs的指代理解能力,提示需要開(kāi)發(fā)更適合LLMs的評(píng)估方法。
  2. 增強(qiáng)模型訓(xùn)練:LLMs在處理代詞性提及和嵌套提及時(shí)的困難表明,需要在模型訓(xùn)練中加強(qiáng)對(duì)這些復(fù)雜指代關(guān)系的理解和生成能力。
  3. 更多樣化和復(fù)雜的基準(zhǔn)測(cè)試:IdentifyMe的成功表明,設(shè)計(jì)多樣化和復(fù)雜的基準(zhǔn)測(cè)試可以更好地評(píng)估和改進(jìn)LLMs的性能,特別是在處理長(zhǎng)文本和多種提及類型時(shí)。

本文轉(zhuǎn)載自 ??AI論文解讀??,作者:柏企

標(biāo)簽
已于2024-11-20 16:53:46修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产99热| 免费人成在线观看网站 | 亚洲综合色 | 久久亚洲一区 | 成年无码av片在线 | 天堂在线免费视频 | 成人不卡视频 | 成人3d动漫一区二区三区91 | 亚洲日本视频 | 五月精品视频 | 亚洲欧美在线观看 | 久久综合一区 | 欧美日韩专区 | 久久这里只有精品首页 | 国产精品久久久久久一级毛片 | 国产一区二区三区免费观看在线 | 成人二区 | 日韩一区二区三区四区五区六区 | 自拍偷拍第一页 | 国产成人精品一区 | 久久99精品国产99久久6男男 | 亚洲一区二区三区观看 | 国产网站在线播放 | 中文精品视频 | 久久久免费观看视频 | 亚洲精视频 | 视频一二三区 | 91av免费看 | 91精品国产91久久久久久密臀 | 国产精品一区三区 | 色伊人| 高清国产午夜精品久久久久久 | 日韩电影中文字幕 | 久久久久网站 | 久久久www成人免费无遮挡大片 | 精品久久久久久 | 99re6在线视频 | 成年人精品视频 | 久草久草久草 | 天天操欧美| 日韩在线免费播放 |