成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

長文本信息準確率超過ChatGPT,Meta提出降低大模型幻覺新方法

人工智能 新聞
所謂大模型幻覺,就是輸出一些看似合理但完全不對的內容。Meta此次提出的“驗證鏈”(CoVe),是與“思維鏈”(CoT)相似的一種鏈式方法。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

大模型的幻覺問題,又有新的解決方法了!

Meta AI實驗室提出了一種“分而治之”的解決方案。

有了這個方案,Llama-65B輸出的信息準確率提升了一倍,甚至超過了ChatGPT

所謂大模型幻覺,就是輸出一些看似合理但完全不對的內容。

Meta此次提出的“驗證鏈”(CoVe),是與“思維鏈”(CoT)相似的一種鏈式方法

區別在于,“step-by-step”的思維鏈更關注邏輯推理,而驗證鏈更注重事實信息。

有網友看了之后發現,這個驗證鏈很像是自己用ChatGPT寫代碼時的一種科學方法:

圖片

那么“驗證鏈”究竟是個什么方法,“驗證”的又是什么呢?

拆解答案,分而治之

驗證鏈的核心思想,是把要驗證的一大段內容,拆解成一個個小的問題,具體流程是這樣的:

首先,模型會根據用戶提出的問題照常生成回復。

接著,根據生成的回復內容,針對其中的各項信息,生成一系列的驗證問題。

然后讓模型自行回答其所提出的這些問題,并根據結果對初始答案進行調整,得到最終結果。

舉個簡單的例子,假如想詢問模型19世紀美墨戰爭的主要原因是什么。

模型回答了事件發生的時間,以及在這之前都發生了什么事。

圖片

之后針對這一系列事件,逐一詢問它們是什么時候發生的。

于是,模型發現自己提到的一項內容時間相差太遠,調整后給出了最終的答案。

圖片

其中,問題的生成和驗證是最關鍵的一環,對此,研究人員一共提出了四種具體的方式:

  • Joint,即將生成問題和回答的指令寫入同一段提示詞
  • 2-Step,即先讓模型生成提問,然后開啟新的對話(一次性)回答提出的問題
  • Factored,在2-Step的基礎上,對提出的每一個問題分別開啟新對話
  • Factor+Revise,在Factored的基礎之上加入一致性檢驗,讓模型重點關注前后不一致的內容

這四種模式越來越細化,準確率也是越來越高。

圖片

△從紅色開始,四種顏色依次代表無CoVe、Joint、Factored和Factor+Revise

那么為什么拆分提問就能提高模型的準確性呢?

首先是因為拆解后的問題比整體任務更容易,論述題變成了問答甚至選擇、判斷題,問題簡單了,準確率也就提升了。

此外,把問題分解可以讓模型真正重新思考,而不是反復地重復錯誤答案

那么,驗證鏈方式的效果究竟如何呢?

信息準確率超過ChatGPT

為了探究這一問題,研究人員用Llama進行了測試,測試任務一共有三項。

首先是信息列舉,比如列舉出出生于某地、從事某行業的名人。

這項任務中,研究人員一共測試了兩個數據集——簡單一些的Wikidata和從難一些的Wiki-Category list(從維基百科中提取)。

圖片

結果發現,65B參數的Llama,在two-step模式的驗證鏈加持下,簡單問題的準確度從0.17提升到了0.36,增加了一倍還多,復雜問題準確度也接近翻番。

接下來是“閉域問答”題,研究人員從MultiSpanQA數據集中抽取多個不連續信息進行挖空提問。

比如“誰在哪一年創建了世界上第一家出版社”(答案是Johannes Gutenberg, 1450)。

結果,Cove也為Llama帶來了20%左右的準確度提升。

圖片

第三項任務是“長段文本傳記生成”,問題就是“Tell me a bio of (人名)”,使用FactScore數據集進行評價。

結果在Factor+Reviese模式下,準確率不僅比無驗證鏈模式大幅提高,還超過了ChatGPT。

圖片

對這項研究感興趣的朋友,可以到論文中了解更多細節。

論文地址:https://arxiv.org/abs/2309.11495

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-11-28 13:37:43

語言模型LLM

2023-11-08 08:38:43

2023-05-04 09:39:16

AI模型

2024-09-03 14:10:00

模型測試

2023-10-19 08:30:56

模型搜索

2023-06-08 19:07:17

ChatGPTAI

2025-05-29 09:20:00

模型研究推理

2023-10-25 09:19:00

AI訓練

2022-12-08 13:00:10

AI性別偏見

2023-10-26 08:40:15

模型隱私推理

2016-01-27 13:37:53

機器學習數據模型算法

2023-11-27 13:20:00

AI訓練

2023-10-23 10:02:00

模型技術

2024-12-26 15:30:00

模型深度學習AI

2023-10-30 15:06:00

模型數據

2024-01-29 12:49:00

AI模型

2024-01-03 13:37:00

模型數據

2024-11-08 09:30:00

2021-11-01 10:40:15

機器學習人工智能計算機
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品乱子伦一区二区三区 | 伊人av在线播放 | 精品中文字幕在线 | 亚洲第一成年免费网站 | 免费污视频 | 国产免费福利小视频 | 97起碰| 精品乱子伦一区二区三区 | 精品久久久久一区 | 97超碰人人草 | 美女视频网站久久 | 福利视频网站 | 欧美精品啪啪 | 成人av高清在线观看 | 中文字幕免费中文 | 成人免费视频观看视频 | 国产人成精品一区二区三 | 色婷综合网 | 亚洲欧美国产精品一区二区 | 国户精品久久久久久久久久久不卡 | 久久免费视频在线 | 日本黄色激情视频 | 国产精品久久av | 99视频在线播放 | 午夜久久久久久久久久一区二区 | 欧美黄色一级毛片 | 国产精品久久国产精品 | 免费视频一区二区 | 国产精品国产三级国产aⅴ中文 | 成人夜晚看av | 国产成人福利在线观看 | 成人在线视频网址 | 中文字幕日韩三级 | 精品欧美一区二区三区 | 福利视频网站 | 久久精品中文 | 国产无套一区二区三区久久 | 日韩视频一区二区三区 | 国产情侣久久 | 成人精品| 久久久久久久久久久91 |