大模型幻覺率排行：GPT-4 3%最低，谷歌Palm竟然高達27.2%

作者：機器之心 2023-11-15 09:23:00

為了確定這個排行榜，Vectara 使用各種開源數(shù)據(jù)集對摘要模型進行了事實一致性研究，并訓練了一個模型來檢測 LLM 輸出中的幻覺。

人工智能發(fā)展進步神速，但問題頻出。OpenAI 新出的 GPT 視覺 API 前腳讓人感嘆效果極好，后腳又因幻覺問題令人不禁吐槽。

幻覺一直是大模型的致命缺陷。由于數(shù)據(jù)集龐雜，其中難免會有過時、錯誤的信息，導致輸出質(zhì)量面臨著嚴峻的考驗。過多重復的信息還會使大模型形成偏見，這也是幻覺的一種。但是幻覺并非無解命題。開發(fā)過程中對數(shù)據(jù)集慎重使用、嚴格過濾，構(gòu)建高質(zhì)量數(shù)據(jù)集，以及優(yōu)化模型結(jié)構(gòu)、訓練方式都能在一定程度上緩解幻覺問題。

流行的大模型有那么多，它們對于幻覺的緩解效果如何？這里有個排行榜明確地對比了它們的差距。

該排行榜由專注于 AI 的 Vectara 平臺發(fā)布。排行榜更新于 2023 年 11 月 1 日，Vectara 表示后續(xù)會隨著模型的更新繼續(xù)跟進幻覺評估。

項目地址：https://github.com/vectara/hallucination-leaderboard

為了確定這個排行榜，Vectara 使用各種開源數(shù)據(jù)集對摘要模型進行了事實一致性研究，并訓練了一個模型來檢測 LLM 輸出中的幻覺。他們使用了一個媲美 SOTA 模型，然后通過公共 API 向上述每個 LLM 輸送了 1000 篇簡短文檔，并要求它們僅使用文檔中呈現(xiàn)的事實對每篇文檔進行總結(jié)。在這 1000 篇文檔中，只有 831 篇文檔被每個模型總結(jié)，其余文檔由于內(nèi)容限制被至少一個模型拒絕回答。利用這 831 份文件，Vectara 計算了每個模型的總體準確率和幻覺率。每個模型拒絕響應 prompt 的比率詳見「Answer Rate」一欄。發(fā)送給模型的內(nèi)容都不包含非法或不安全內(nèi)容，但其中的觸發(fā)詞足以觸發(fā)某些內(nèi)容過濾器。這些文件主要來自 CNN / 每日郵報語料庫。

需要注意的是，Vectara 評估的是摘要準確性，而不是整體事實準確性。這樣可以比較模型對所提供信息的響應。換句話說，評估的是輸出摘要是否與源文件「事實一致」。由于不知道每個 LLM 是在什么數(shù)據(jù)上訓練的，因此對于任何特別問題來說，確定幻覺都是不可能的。此外，要建立一個能夠在沒有參考源的情況下確定回答是否是幻覺的模型，就需要解決幻覺問題，而且需要訓練一個與被評估的 LLM 一樣大或更大的模型。因此，Vectara 選擇在總結(jié)任務中查看幻覺率，因為這樣的類比可以很好地確定模型整體真實性。

檢測幻覺模型地址：https://huggingface.co/vectara/hallucination_evaluation_model

此外，LLM 越來越多地用于 RAG（Retrieval Augmented Generation，檢索增強生成）管道來回答用戶的查詢，例如 Bing Chat 和谷歌聊天集成。在 RAG 系統(tǒng)中，模型被部署為搜索結(jié)果的匯總器，因此該排行榜也是衡量模型在 RAG 系統(tǒng)中使用時準確性的良好指標。

由于 GPT-4 一貫的優(yōu)秀表現(xiàn)，它的幻覺率最低似乎是意料之中的。但是有網(wǎng)友表示，GPT-3.5 與 GPT-4 并沒有非常大的差距是令他較為驚訝的。

LLaMA 2 緊追 GPT-4 與 GPT-3.5 之后，有著較好的表現(xiàn)。但谷歌大模型的表現(xiàn)實在不盡人意。有網(wǎng)友表示，谷歌 BARD 常用「我還在訓練中」來搪塞它的錯誤答案。

有了這樣的排行榜，能夠讓我們對于不同模型之間的優(yōu)劣有更加直觀的判斷。前幾天，OpenAI 推出了 GPT-4 Turbo，這不，立刻有網(wǎng)友提議將其也更新在排行榜中。

下次的排行榜會是怎樣的，有沒有大幅變動，我們拭目以待。

責任編輯：張燕妮來源：機器之心

模型 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型幻覺率排行：GPT-4 3%最低，谷歌Palm竟然高達27.2%