成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型總結(jié)摘要靠譜嗎?比人類寫的流暢,用GPT-4幻覺還少

人工智能 新聞
在對 LLM 生成的摘要、人工撰寫的摘要和微調(diào)模型生成的摘要進行定量和定性的比較后發(fā)現(xiàn),由 LLM 生成的摘要明顯受到人類評估者的青睞。

文本摘要,作為自然語言生成(NLG)中的一項任務,主要用來將一大段長文本壓縮為簡短的摘要,例如新聞文章、源代碼和跨語言文本等多種內(nèi)容都能用到。

隨著大模型(LLM)的出現(xiàn),傳統(tǒng)的在特定數(shù)據(jù)集上進行微調(diào)的方法已經(jīng)不在適用。

我們不禁會問,LLM 在生成摘要方面效果到底如何?

為了回答這一問題,來自北京大學的研究者在論文《 Summarization is (Almost) Dead 》中進行了深入的探討。他們使用人類生成的評估數(shù)據(jù)集評估了 LLM 在各種摘要任務(單條新聞、多條新聞、對話、源代碼和跨語言摘要)上的表現(xiàn)。

在對 LLM 生成的摘要、人工撰寫的摘要和微調(diào)模型生成的摘要進行定量和定性的比較后發(fā)現(xiàn),由 LLM 生成的摘要明顯受到人類評估者的青睞。

接著該研究在對過去 3 年發(fā)表在 ACL、EMNLP、NAACL 和 COLING 上的 100 篇與摘要方法相關的論文進行抽樣和檢查后,他們發(fā)現(xiàn)大約 70% 的論文的主要貢獻是提出了一種總結(jié)摘要方法并在標準數(shù)據(jù)集上驗證了其有效性。因此,本文表示「摘要(幾乎)已死( Summarization is (Almost) Dead )」。 

盡管如此,研究者表示該領域仍然存在挑戰(zhàn),例如需要更高質(zhì)量的參考數(shù)據(jù)集、改進評估方法等還需要解決。

論文地址:https://arxiv.org/pdf/2309.09558.pdf

方法及結(jié)果

該研究使用最新的數(shù)據(jù)來構(gòu)建數(shù)據(jù)集,每個數(shù)據(jù)集由 50 個樣本組成。

例如在執(zhí)行單條新聞、多條新聞和對話摘要任務時,本文采用的方法模擬了 CNN/DailyMail 、Multi-News 使用的數(shù)據(jù)集構(gòu)建方法。對于跨語言摘要任務,其策略與 Zhu 等人提出的方法一致。關于代碼摘要任務,本文采用 Bahrami 等人提出的方法。

數(shù)據(jù)集構(gòu)建完成之后,接下來就是方法了。具體來說,針對單條新聞任務本文采用 BART 和 T5 ;多條新聞任務采用 Pegasus 和 BART;T5 和 BART 用于對話任務;跨語言任務使用 MT5 和 MBART ;源代碼任務使用 Codet5 。

實驗中,該研究聘請人類評估員來比較不同摘要的整體質(zhì)量。結(jié)果如圖 1 所示,LLM 生成的摘要在所有任務中始終優(yōu)于人工生成的摘要和微調(diào)模型生成的摘要。

這就提出了一個問題:為什么 LLM 能夠勝過人類撰寫的摘要,而傳統(tǒng)上人們認為這些摘要是完美無缺的。此外,經(jīng)過初步的觀察表明,LLM 生成的摘要表現(xiàn)出高度的流暢性和連貫性。

本文進一步招募注釋者來識別人類和 LLM 生成摘要句子中的幻覺問題,結(jié)果如表 1 所示,與 GPT-4 生成的摘要相比,人工書寫的摘要表現(xiàn)出相同或更高數(shù)量的幻覺。在多條新聞和代碼摘要等特定任務中,人工編寫的摘要表現(xiàn)出明顯較差的事實一致性。

圖片

人工撰寫的摘要和 GPT-4 生成摘要中出現(xiàn)幻覺的比例,如表 2 所示:

本文還發(fā)現(xiàn)人工編寫的參考摘要存在這樣一個問題,即缺乏流暢性。如圖 2 (a) 所示,人工編寫的參考摘要有時存在信息不完整的缺陷。并且在圖 2 (b) 中,一些由人工編寫的參考摘要會出現(xiàn)幻覺。

圖片

本文還發(fā)現(xiàn)微調(diào)模型生成的摘要往往具有固定且嚴格的長度,而 LLM 能夠根據(jù)輸入信息調(diào)整輸出長度。此外,當輸入包含多個主題時,微調(diào)模型生成的摘要對主題的覆蓋率較低,如圖 3 所示,而 LLM 在生成摘要時能夠捕獲所有主題:

圖片

由圖 4 可得,人類對大模型的偏好分數(shù)超過 50%,表明人們對其摘要有強烈的偏好,并凸顯了 LLM 在文本摘要方面的能力:

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-03-29 13:55:05

AI模型

2023-11-15 09:23:00

模型AI

2024-05-27 00:00:00

2024-09-09 13:06:37

GPT-4圖靈測試語言模型

2023-03-15 07:13:34

2023-06-18 12:42:33

GPT-4AI

2024-01-16 12:31:13

OpenAIGLM-4大模型

2023-11-02 12:10:00

AI訓練

2023-05-03 20:53:48

2023-05-05 09:42:12

2023-11-13 07:56:16

AI模型

2024-05-20 08:40:00

2023-09-18 13:14:00

AI工具

2023-06-19 08:19:50

2023-04-09 16:17:05

ChatGPT人工智能

2023-12-26 08:17:23

微軟GPT-4

2023-06-05 12:32:48

模型論文

2025-04-16 09:35:03

2024-01-03 13:37:00

模型數(shù)據(jù)

2023-10-08 13:11:00

訓練數(shù)據(jù)
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 最新av片| 国产成人精品一区二区三区在线 | 国产精品永久免费视频 | 日韩欧美一区二区在线播放 | 成人av在线大片 | 一区二区国产精品 | 欧美精品91 | 免费国产视频在线观看 | 青青久在线视频 | 欧美激情视频一区二区三区在线播放 | 97av视频| 日韩一区二区在线视频 | 视频在线观看一区 | 亚洲一区视频在线 | 国产99精品 | 国产福利在线视频 | 亚洲成人一区二区 | 亚洲高清在线免费观看 | 青青草原精品99久久精品66 | 国产99在线 | 欧美 | 久久精品国产久精国产 | 日韩一二区在线 | 亚洲精品乱码久久久久久蜜桃91 | 91精品国产色综合久久不卡98口 | 偷拍亚洲色图 | 国产精品成人一区二区三区 | 午夜影院视频 | 91精品久久久久久久久 | 日本欧美大片 | 午夜影院在线免费观看视频 | 狠狠干夜夜草 | 日韩不卡在线 | 涩涩视频网站在线观看 | 精品一区二区三区中文字幕 | 国产精品久久久久久婷婷天堂 | 97精品超碰一区二区三区 | 最近中文字幕免费 | 国产激情第一页 | 久久国产成人精品国产成人亚洲 | 欧美a∨| 日韩www视频 |