讓「幻覺」無處遁形!谷歌DeepMind全新基準,三代Gemini同臺霸榜
大模型幾乎成了工作、學習的必備助手,但其本質仍然只是一個統計模型,無論生成的內容再怎么流暢,也難改其胡說八道的老毛病。
在大部分應用場景下,用戶也并不知道自己所提問的答案,也就不具備檢查模型輸出在「事實準確性」(Factuality)上的能力。
一般來說,關于「模型幻覺」的自動化評估研究可以分為兩類:
1、給定上下文(用戶輸入文檔)的情況下,檢查模型輸出是否完全基于輸入的內容,比如文本摘要任務;
2、用戶直接提出一些與「外部來源」(新聞)或「常識知識」相關的問題。
目前研究大多關注第一類,比如先要求模型進行文本摘要,再進行事實評估,但如何自動評估模型的事實準確性仍然非常有挑戰性。
最近,谷歌的研究人員發布了一個全新的基準測試FACTS Grounding,可以評估語言模型在給定上下文的情況下,生成事實準確文本的能力,其中每條數據的輸入都包括一個用戶請求和一個完整的文檔,最大長度為32k個token,模型輸出需要完全基于上下文文檔,且滿足用戶需求。
圖片
論文鏈接:https://goo.gle/FACTS_paper
數據鏈接:https://www.kaggle.com/datasets/deepmind/facts-grounding-examples
文中提出的自動化評估分為兩個維度:
1. 如果模型回復沒有滿足用戶需求,則直接判定為無效;
2. 如果模型的回復完全基于給定的文檔,則被判定為準確。
FACTS Grounding在Kaggle上有一個在線排行榜,實時維護,目前gemini以較大優勢領先。
圖片
榜單鏈接:https://www.kaggle.com/facts-leaderboard
數據構建
FACTS Grounding的樣本被劃分為Public集合(860條)和Private集合(859條),為了防止基準污染和排行榜作弊問題,在競賽期間只公開Public集合,并且榜單分數是兩個集合的平均性能。
圖片
系統提示1:僅使用上下文中提供的信息回答問題,不要依賴外部知識或來源。
上下文文檔描述:文章主要討論可以清潔摩天大樓窗戶的自主機器人系統的開發與部署,強調了它的技術進步、安全影響以及對窗戶清潔行業的潛在影響。
用戶請求:我的姐姐和她的狗住在紐約市。我去過那里,一直對那里的高樓大廈感到著迷。然后我想到...一定有人要清潔這些大樓的窗戶!接著,我在我的信息流中看到了關于窗戶清潔機器人的內容。這些機器人是如何工作的?這對那些從事這項工作的人來說意味著什么?
標注流程
研究人員雇傭第三方人工標注員,根據長篇輸入和問答、摘要、文檔改寫任務,撰寫長篇輸出。
每個樣本還包括一個系統指令,指導模型僅從給定的上下文中生成其回應,而不包含外部知識。
圖片
為了確保輸入的多樣性,FACTS Grounding包含了各種長度的文檔(最長32k個token,約2萬個單詞),涵蓋金融、技術、零售、醫學和法律等領域,沒有引入那些需要創造力、數學或復雜推理的樣本。
圖片
數據質量保證
研究人員在標注后手動驗證了所有數據,并去除了與指令不一致的樣本和創意寫作任務。
用戶請求必須是非平凡的,并且不需要領域專業知識、數學知識或復雜推理;移除了來源為PDF的文檔,避免光學字符識別(OCR)帶來的影響。
最終數據集包含的上下文文檔平均長度為2.5k個token,最大長度為32k個token
數據污染(data contamination)
由于用戶文檔是從互聯網上公開下載的,可能包含在其他模型的預訓練語料庫中,但研究人員認為:
- 用戶請求和系統指令,特別是只遵循上下文文檔中的信息的指令,是沒有被污染的。對非新穎文檔的新穎請求做出回復是語言模型的一個重要用例,而事實grounding也是其中不可或缺的一部分。目前可用的事實性基準測試只是重新利用了可能已經被污染的學術任務。
- 事實性得分評估了在預訓練期間沒有被優化的、不同維度的模型性能。具體來說,指標測量了模型僅基于提供的上下文生成回應的能力,即模型不能包含外部知識,即使與上下文文檔相沖突,還應避免利用任何預訓練知識來滿足用戶的請求。
- 由于所有最先進的語言模型都是在大量網絡數據的語料庫上訓練的,所以在排行榜的中也很公平。
評估指標
圖片
未調整的事實性得分(Unadjusted Factuality Score)
研究人員使用一個語言模型智能體來生成一個二元分類標簽,以識別完整的模型回復是否基于給定指令中的用戶請求和上下文文檔。
如果回應中的所有claims都是基于提示的內容,則標記為positive(準確);如果某個包含信息的claim被認為沒有基于提示的內容,回應就會被標記為negative(不準確)。
大模型普遍會偏向于自己的輸出,所以研究人員選擇使用三種不同的大模型來減少特定模型的偏見,包括Gemini 1.5 Pro, GPT-4o和Claude 3.5 Sonnet
研究人員測試了七種不同的提示模版,然后與人工判斷的一致性進行評估,再選擇具有最高準確率的模版。
圖片
圖片
圖片
你將被提供一段文本上下文和一個模型生成的回應。你的任務是逐句分析回應,并根據其與提供上下文的關系對每個句子進行分類。
1. 將回復分解成單個句子。
2. 對于每個句子,分配以下標簽之一:
supported:句子由給定的上下文推導而來。提供一個支持性的上下文摘錄。支持性摘錄必須完全推導出句子。如果你需要引用多個支持性摘錄,只需將它們連接起來。
unsupported:句子不是由給定的上下文推導而來。這個標簽不需要摘錄。
contradictory:句子被給定的上下文證偽。提供一個與句子相矛盾的上下文摘錄。
no_rad:句子不需要事實歸屬(例如,意見、問候、問題、免責聲明)。這個標簽不需要摘錄。
3. 對于每個標簽,提供一個簡短的理由來解釋你的決定。理由應該與摘錄分開。
4. 對于supported和contradictory的決定要非常嚴格。除非你能在上下文中找到直接、無可爭議的證據摘錄,證明一個句子是supported或contradictory,否則認為它是unsupported。除非你真的認為世界知識是微不足道的,否則不要使用世界知識。
因為有三個智能體參與評分,所以每個智能體的個體事實性得分是準確回復的百分比,而未調整的事實性得分是所有智能體模型得分的平均值。
排除無效回復
如果模型只關注于生成文本的事實性,有可能會無法遵循用戶的指令意圖,并通過給出較短回復以規避錯誤事實。
圖片
為了防范這類回復,研究人員同樣使用上述三個大模型進行檢測,將指令遵循視為一個獨立任務,輸出為二元分類,以區分模型回復是否充分滿足了用戶的請求。
將不合格的回復排除后,最終事實性得分會得到調整。
研究人員設計了兩個提示模版,針對不同評估模型選擇與人工評估一致性最高的提示詞。
實驗結果
在Fused Rank指標中,研究人員采用了一種排名聚合方法Condorcet,對每個模型的六個指標進行融合,合并成最終的排名,與使用最終事實性得分排名完全一致。
與之前的研究一致,模型通常會將自己的輸出評分高于其他模型,平均提高了+3.23%。
排除無效回復會導致最終事實性得分降低1%至5%,還會引起模型排名的輕微變化,比如Gemini 1.5 Flash從排名第1降至排名第2