ChatGPT 與 AI 會議同行評審：大規模監測 AI

作者：言征 2024-09-20 17:41:07

今年4月，一篇題為“Monitoring AI-Modified Content at Scale:A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews”的論文引起了廣泛關注。

編輯 | 言征

作者 | 智能交互引擎

出品 | 51CTO技術棧（微信號：blog51cto）

如何監測AI生成的內容？一篇文章中AI生成的篇幅占比究竟有多少？

今年4月，一篇題為“Monitoring AI-Modified Content at Scale:A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews”的論文引起了廣泛關注。

該論文探討了ChatGPT對AI會議同行評審的影響，并提出了一種估計大型語料庫中被AI大幅修改或生成的文本比例的方法。

一、研究背景

隨著大型語言模型（LLM）的廣泛應用，如在教育、科學和全球媒體等領域，準確測量其使用規模以及評估生成文本對信息生態系統的影響變得愈發重要。然而，目前很難區分LLM生成的文本和人類撰寫的內容，這給科學研究帶來了挑戰，例如ChatGPT生成的醫學摘要可能繞過AI檢測器和專家，以及媒體中出現的不可靠AI生成的新聞網站可能誤導消費者。

二、相關工作

1、Zero-shotLLM檢測：許多LLM檢測方法旨在檢測單個文檔中AI生成的文本，如利用語言模型的熵、對數概率分數、困惑度和不常見n-gram頻率等指標來區分人類和機器文本。但這些方法在實際應用中效果有限，且當許多商業LLM不開放源代碼時，這些方法往往依賴于假設與閉源LLM機制相似的代理LLM，這引入了一定的局限性。

2、Training-basedLLM檢測：通過微調預訓練模型來區分人類和AI生成的文本，但這種方法存在過擬合訓練數據和語言模型的傾向，且許多分類器在對抗侵入面前表現脆弱，對非主導語言變體的作者存在偏見。

3、LLM水印：通過在文本中嵌入獨特的、可算法檢測的信號（水印）來檢測AI生成的文本，但水印的嵌入需要模型或服務所有者的參與，且可能會降低文本生成質量和連貫性。

三、研究方法

1、記號與問題陳述：用表示文檔或句子，表示令牌，表示語料庫，表示詞匯表。假設目標語料庫中的文檔是從科學家編寫的文檔分布和AI生成的文檔分布的混合分布中生成的，目標是估計AI生成的文檔的比例。

2、統計估計方法概述：采用最大似然估計（MLE）方法，包括訓練數據生成、文檔概率分布估計和計算AI生成或修改的文本的最終估計比例。具體步驟為收集原始語料庫的寫作指令，用LLM生成AI文檔，估計參考令牌使用分布和，在合成目標語料庫上驗證方法性能，最后基于估計的和，使用MLE估計目標語料庫中AI生成或修改的文檔的比例。

3、MLE框架：給定從混合分布中獨立抽取的文檔集合，通過對數似然函數來估計。

4、生成訓練數據：需要訪問歷史數據來估計和，具體為已知的僅包含人類撰寫文本的評論集合以及相關的評論問題和被評審的論文。將評審指令提示和與人類語料庫中評論相關的論文輸入AI語言工具（如ChatGPT），生成AI語料庫。

5、估計和從數據：將每個文檔表示為令牌出現的列表（即一個集合），而不是令牌計數的列表。通過計算令牌在文檔中出現的文檔數量占總文檔數量的比例來估計人類文檔分布的出現概率，類似地估計，然后通過和類似的公式估計和。

6、驗證方法：將人類和AI語料庫劃分為兩個不相交的部分，80%用于訓練，20%用于驗證。選擇一系列可行的值，從AI驗證語料庫和人類驗證語料庫中抽樣生成目標語料庫，計算目標語料庫的MLE估計，如果，則說明系統工作正常。

圖片

四、實驗結果

1、在合成數據上的驗證：算法在識別混合驗證集中LLM生成的文本比例方面具有較高的準確性，預測誤差在人口水平上小于1.8%。

2、與基于實例的檢測方法比較：與BERT分類器基線和其他兩個最近發布的先進AI文本檢測方法相比，該方法減少了內部分布估計誤差3.4倍，外部分布估計誤差4.6倍，并且在推理時間上計算效率更高，超過1000萬倍（即7個數量級）。

3、對真實評論的估計：ML會議的評論中，在ChatGPT發布后，AI生成的句子顯著增加，但Nature期刊的評論中沒有明顯證據表明使用了AI。例如，ICLR會議中，估計的從1.6%增加到10.6%，NeurIPS從1.9%增加到9.1%，CoRL從2.4%增加到6.5%，而EMNLP會議的估計約為16.9%。

4、對校對的魯棒性：將方法應用于僅由ChatGPT進行校對（非實質性編輯）的同行評審，發現估計的雖有增加，但幅度遠小于在真實評審語料庫中的效果。

5、使用LLM大幅擴展評論大綱：通過模擬評審者先創建簡要大綱，然后使用LLM擴展大綱的過程，發現算法能夠檢測到這種LLM的使用情況，估計的與實際情況相符。

6、與估計LLM使用相關的因素：

（1）截止日期效應：在截止日期前3天或更少時間提交的評論中，估計的有小幅但一致的增加，表明評審者可能會在臨近截止日期時依賴LLM來節省時間。

（2）參考效應：包含學術引用的評論中估計的較低，這表明LLM往往難以準確生成包含引用的內容，同時也說明使用ChatGPT的人可能不太傾向于引用來源。

（3）低回復率效應：作者回復較少的評論中，估計的ChatGPT使用量較高，這可能是因為評審者使用LLM作為快速解決方案來避免額外的參與，或者是因為評審工作量增加導致學者依賴工具。

（4）同質化效應：“趨同”（與其他評論相似）的評論往往具有更高的估計，這表明LLM生成的文本可能導致反饋的同質化，減少了語言和認知的多樣性，可能會使學者失去接受來自多個獨立專家的多樣化反饋的機會。

（5）低信心效應：評審者信心低的評論與ChatGPT使用量的增加相關，這可能是因為LLM的融入使評審者對生成內容的個人投入感或準確性信心降低。

圖片