成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<abbr id="0q8c0"><source id="0q8c0"></source></abbr>

<bdo id="0q8c0"><source id="0q8c0"></source></bdo>

<strike id="0q8c0"><samp id="0q8c0"></samp></strike>

<abbr id="0q8c0"></abbr>

<rt id="0q8c0"><pre id="0q8c0"></pre></rt>

<cite id="0q8c0"></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

DeepMind終結(jié)大模型幻覺？標(biāo)注事實(shí)比人類靠譜、還便宜20倍，全開源

作者：機(jī)器之心 2024-03-29 13:55:05

人工智能新聞

AI DeepMind 這篇論文一出，人類標(biāo)注者的飯碗也要被砸了嗎？

大模型的幻覺終于要終結(jié)了？

今日，社媒平臺(tái) reddit 上的一則帖子引起網(wǎng)友熱議。帖子討論的是谷歌 DeepMind 昨日提交的一篇論文《Long-form factuality in large language models》（大語言模型的長(zhǎng)篇事實(shí)性），文中提出的方法和結(jié)果讓人得出大膽的結(jié)論：對(duì)于負(fù)擔(dān)得起的人來說，大語言模型幻覺不再是問題了。

我們知道，大語言模型在響應(yīng)開放式主題的 fact-seeking（事實(shí)尋求）提示時(shí)，通常會(huì)生成包含事實(shí)錯(cuò)誤的內(nèi)容。DeepMind 針對(duì)這一現(xiàn)象進(jìn)行了一些探索性研究。

首先，為了對(duì)一個(gè)模型在開放域的長(zhǎng)篇事實(shí)性進(jìn)行基準(zhǔn)測(cè)試，研究者使用 GPT-4 生成 LongFact，它是一個(gè)包含 38 個(gè)主題、數(shù)千個(gè)問題的提示集。然后他們提出使用搜索增強(qiáng)事實(shí)評(píng)估器（Search-Augmented Factuality Evaluator, SAFE）來將 LLM 智能體用作長(zhǎng)篇事實(shí)性的自動(dòng)評(píng)估器。

對(duì)于 SAFE，它利用 LLM 將長(zhǎng)篇響應(yīng)分解為一組單獨(dú)的事實(shí)，并使用多步推理過程來評(píng)估每個(gè)事實(shí)的準(zhǔn)確性。這里多步推理過程包括將搜索查詢發(fā)送到 Google 搜索并確定搜索結(jié)果是否支持某個(gè)事實(shí) 。

論文地址：https://arxiv.org/pdf/2403.18802.pdf

GitHub 地址：https://github.com/google-deepmind/long-form-factuality

此外，研究者提出將 F1 分?jǐn)?shù)（F1@K）擴(kuò)展為長(zhǎng)篇事實(shí)性的聚合指標(biāo)。他們平衡了響應(yīng)中支持的事實(shí)的百分比（精度）和所提供事實(shí)相對(duì)于代表用戶首選響應(yīng)長(zhǎng)度的超參數(shù)的百分比（召回率）。

實(shí)證結(jié)果表明，LLM 智能體可以實(shí)現(xiàn)超越人類的評(píng)級(jí)性能。在一組約 16k 個(gè)單獨(dú)的事實(shí)上，SAFE 在 72% 的情況下與人類注釋者一致，并且在 100 個(gè)分歧案例的隨機(jī)子集上，SAFE 的贏率為 76%。同時(shí)，SAFE 的成本比人類注釋者便宜 20 倍以上。

研究者還使用 LongFact，對(duì)四個(gè)大模型系列（Gemini、GPT、Claude 和 PaLM-2）的 13 種流行的語言模型進(jìn)行了基準(zhǔn)測(cè)試，結(jié)果發(fā)現(xiàn)較大的語言模型通常可以實(shí)現(xiàn)更好的長(zhǎng)篇事實(shí)性。

論文作者之一、谷歌研究科學(xué)家 Quoc V. Le 表示，這篇對(duì)長(zhǎng)篇事實(shí)性進(jìn)行評(píng)估和基準(zhǔn)測(cè)試的新工作提出了一個(gè)新數(shù)據(jù)集、一種新評(píng)估方法以及一種兼顧精度和召回率的聚合指標(biāo)。同時(shí)所有數(shù)據(jù)和代碼將開源以供未來工作使用。

方法概覽

LONGFACT：使用 LLM 生成長(zhǎng)篇事實(shí)性的多主題基準(zhǔn)

首先來看使用 GPT-4 生成的 LongFact 提示集，包含了 2280 個(gè)事實(shí)尋求提示，這些提示要求跨 38 個(gè)手動(dòng)選擇主題的長(zhǎng)篇響應(yīng)。研究者表示，LongFact 是第一個(gè)用于評(píng)估各個(gè)領(lǐng)域長(zhǎng)篇事實(shí)性的提示集。

LongFact 包含兩個(gè)任務(wù)：LongFact-Concepts 和 LongFact-Objects，根據(jù)問題是否詢問概念或?qū)ο髞韰^(qū)分。研究者為每個(gè)主題生成 30 個(gè)獨(dú)特的提示，每個(gè)任務(wù)各有 1140 個(gè)提示。

SAFE：LLM 智能體作為事實(shí)性自動(dòng)評(píng)分者

研究者提出了搜索增強(qiáng)事實(shí)評(píng)估器（SAFE），它的運(yùn)行原理如下所示：

a）將長(zhǎng)篇的響應(yīng)拆分為單獨(dú)的獨(dú)立事實(shí)；

b）確定每個(gè)單獨(dú)的事實(shí)是否與回答上下文中的提示相關(guān)；

c) 對(duì)于每個(gè)相關(guān)事實(shí)，在多步過程中迭代地發(fā)出 Google 搜索查詢，并推理搜索結(jié)果是否支持該事實(shí)。

他們認(rèn)為 SAFE 的關(guān)鍵創(chuàng)新在于使用語言模型作為智能體，來生成多步 Google 搜索查詢，并仔細(xì)推理搜索結(jié)果是否支持事實(shí)。下圖 3 為推理鏈?zhǔn)纠?/span>

為了將長(zhǎng)篇響應(yīng)拆分為單獨(dú)的獨(dú)立事實(shí)，研究者首先提示語言模型將長(zhǎng)篇響應(yīng)中的每個(gè)句子拆分為單獨(dú)的事實(shí)，然后通過指示模型將模糊引用（如代詞）替換為它們?cè)陧憫?yīng)上下文中引用的正確實(shí)體，將每個(gè)單獨(dú)的事實(shí)修改為獨(dú)立的。

為了對(duì)每個(gè)獨(dú)立的事實(shí)進(jìn)行評(píng)分，他們使用語言模型來推理該事實(shí)是否與在響應(yīng)上下文中回答的提示相關(guān)，接著使用多步方法將每個(gè)剩余的相關(guān)事實(shí)評(píng)級(jí)為「支持」或「不支持」。具體如下圖 1 所示。

在每個(gè)步驟中，模型都會(huì)根據(jù)要評(píng)分的事實(shí)和之前獲得的搜索結(jié)果來生成搜索查詢。經(jīng)過一定數(shù)量的步驟后，模型執(zhí)行推理以確定搜索結(jié)果是否支持該事實(shí)，如上圖 3 所示。在對(duì)所有事實(shí)進(jìn)行評(píng)級(jí)后，SAFE 針對(duì)給定提示 - 響應(yīng)對(duì)的輸出指標(biāo)為「支持」事實(shí)的數(shù)量、「不相關(guān)」事實(shí)的數(shù)量以及「不支持」事實(shí)的數(shù)量。

實(shí)驗(yàn)結(jié)果

LLM 智能體成為比人類更好的事實(shí)注釋者

為了定量評(píng)估使用 SAFE 獲得注釋的質(zhì)量，研究者使用了眾包人類注釋。這些數(shù)據(jù)包含 496 個(gè)提示 - 響應(yīng)對(duì)，其中響應(yīng)被手動(dòng)拆分為單獨(dú)的事實(shí)（總共 16011 個(gè)單獨(dú)的事實(shí)），并且每個(gè)單獨(dú)的事實(shí)都被手動(dòng)標(biāo)記為支持、不相關(guān)或不支持。

他們直接比較每個(gè)事實(shí)的 SAFE 注釋和人類注釋，結(jié)果發(fā)現(xiàn) SAFE 在 72.0% 的單獨(dú)事實(shí)上與人類一致，如下圖 4 所示。這表明 SAFE 在大多數(shù)單獨(dú)事實(shí)上都達(dá)到了人類水平的表現(xiàn)。然后檢查隨機(jī)采訪的 100 個(gè)單獨(dú)事實(shí)的子集，其中 SAFE 的注釋與人類評(píng)分者的注釋不一致。

研究者手動(dòng)重新注釋每個(gè)事實(shí)（允許訪問 Google 搜索，而不僅僅是維基百科，以獲得更全面的注釋），并使用這些標(biāo)簽作為基本事實(shí)。他們發(fā)現(xiàn)，在這些分歧案例中，SAFE 注釋的正確率為 76%，而人工注釋的正確率僅為 19%，這代表 SAFE 的勝率是 4 比 1。具體如下圖 5 所示。

這里，兩種注釋方案的價(jià)格非常值得關(guān)注。使用人工注釋對(duì)單個(gè)模型響應(yīng)進(jìn)行評(píng)級(jí)的成本為 4 美元，而使用 GPT-3.5-Turbo 和 Serper API 的 SAFE 僅為 0.19 美元。

Gemini、GPT、Claude 和 PaLM-2 系列基準(zhǔn)測(cè)試

最后，研究者在 LongFact 上對(duì)下表 1 中四個(gè)模型系列（Gemini、GPT、Claude 和 PaLM-2）的 13 個(gè)大語言模型進(jìn)行了廣泛的基準(zhǔn)測(cè)試。

具體來講，他們利用了 LongFact-Objects 中 250 個(gè)提示組成的相同隨機(jī)子集來評(píng)估每個(gè)模型，然后使用 SAFE 獲取每個(gè)模型響應(yīng)的原始評(píng)估指標(biāo)，并利用 F1@K 指標(biāo)進(jìn)行聚合。

結(jié)果發(fā)現(xiàn)，一般而言，較大的語言模型可以實(shí)現(xiàn)更好的長(zhǎng)篇事實(shí)性。如下圖 6 和下表 2 所示，GPT-4-Turbo 優(yōu)于 GPT-4，GPT-4 優(yōu)于 GPT-3.5-Turbo，Gemini-Ultra 優(yōu)于 Gemini-Pro，PaLM-2-L-IT-RLHF 優(yōu)于 PaLM- 2-L-IT。

更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果請(qǐng)參閱原論文。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

主站蜘蛛池模板：欧美xxxx性 | 黄色片免费看视频 | 亚洲精品成人 | 午夜精品久久 | 欧美vide | 成人在线精品视频 | 日韩精品一区二区三区中文字幕 | www.夜夜骑| 亚洲精品视频在线播放 | 国产电影一区 | 九色视频网站 | 毛片一区二区三区 | 精品国产一区二区三区久久久蜜月 | 日韩一区二区三区精品 | 看片91 | 日韩视频在线免费观看 | 欧美日韩在线免费观看 | 久久久久久久一区二区 | 久久久久精 | 欧美日韩黄色一级片 | 国产黄色在线观看 | 国产视频福利在线观看 | 中文字幕国产 | 热99| 成人欧美一区二区三区黑人孕妇 | 精品国产视频 | 亚洲不卡在线观看 | 99爱国产| 久久在线 | 成人1区| 成人网av| 国产一区二区成人 | 国产欧美日韩精品一区 | 国产日韩一区二区 | 九九精品久久久 | www.日韩欧美 | 精品视频久久久久久 | 欧美在线看片 | 伊人久久精品 | 嫩草影院黄 | 日韩一区二区黄色片 |

<code id="6wuym"><dl id="6wuym"></dl></code>

<code id="6wuym"><wbr id="6wuym"></wbr></code>

<li id="6wuym"></li>

<sup id="6wuym"><tbody id="6wuym"></tbody></sup>

<center id="6wuym"></center>

<li id="6wuym"><source id="6wuym"></source></li>