2天完成人類12年工作，AI自動更新文獻(xiàn)綜述，準(zhǔn)確率碾壓人類近15%

2025-06-17 09:00:00

多倫多大學(xué)、哈佛醫(yī)學(xué)院等機(jī)構(gòu)聯(lián)合開發(fā)了AI端到端工作流程——otto-SR。

當(dāng)碳基生物還在為寫文獻(xiàn)綜述，打開了一百個(gè)瀏覽器窗口時(shí)，隔壁AI已經(jīng)卷起來了。（doge）

兩天完成人類12年工作——

醫(yī)學(xué)研究領(lǐng)域中，系統(tǒng)評價(jià)（SRs）作為臨床決策的黃金標(biāo)準(zhǔn)，平均耗時(shí)超過16個(gè)月，花費(fèi)10萬美元以上，且容易延長無效或有害治療方法的使用。

于是多倫多大學(xué)、哈佛醫(yī)學(xué)院等機(jī)構(gòu)聯(lián)合開發(fā)了AI端到端工作流程——otto-SR。

結(jié)合GPT-4.1和o3-mini進(jìn)行篩選和數(shù)據(jù)提取，僅花費(fèi)兩天時(shí)間就完成了傳統(tǒng)方法需要12年才能完成的Cochrane系統(tǒng)評價(jià)更新。

在多項(xiàng)指標(biāo)上更是超越人類，基準(zhǔn)測試中otto-SR靈敏度達(dá)96.7% （人類81.7%），特異度93.9%，數(shù)據(jù)提取準(zhǔn)確率93.1% （人類79.7%），還發(fā)現(xiàn)了發(fā)現(xiàn)人類遺漏的54篇關(guān)鍵研究。

所以那些年我們在PubMed上熬的夜、掉的頭發(fā)，又算什么……

擦干眼淚，下面一起來看具體實(shí)現(xiàn)過程。

用于系統(tǒng)綜述自動化的智能工作流程

團(tuán)隊(duì)引入了一種基于LLM的端到端工作流程otto-SR，支持從初始檢索到數(shù)據(jù)分析，完全自動化和人機(jī)協(xié)作的系統(tǒng)綜述流程。

otto-SR首先會收集從原始檢索中識別的RIS格式的引用文獻(xiàn)，GPT-4.1隨即會作為獨(dú)立評審員進(jìn)行篩選。

篩選出的文章集合將輸入o3-mini-high模型進(jìn)行數(shù)據(jù)提取，其中PDF格式將會由Gemini 2.0 flash處理并轉(zhuǎn)換為結(jié)構(gòu)化Markdown文件，并用于下游任務(wù)。

具體而言，可以細(xì)分為篩選和提取兩種功能：

SR文獻(xiàn)篩選

研究團(tuán)隊(duì)開發(fā)了一種篩選Agent，利用擅長指令跟隨的GPT-4.1模型，并結(jié)合優(yōu)化的提示策略，可以在摘要和全文階段對文獻(xiàn)進(jìn)行篩選。

另外，該Agent會將各綜述的初始目標(biāo)和合格標(biāo)準(zhǔn)納入補(bǔ)充說明。

研究在五項(xiàng)綜述的完整原始檢索（總計(jì)32357條引文）中，進(jìn)行otto-SR篩選性能評估。

綜述涵蓋牛津循證醫(yī)學(xué)中心（CEBM）的四種問題類型（患病率、診斷試驗(yàn)準(zhǔn)確性、預(yù)后、干預(yù)效益），并橫向?qū)Ρ?/span>雙人人類評審員 （當(dāng)前標(biāo)準(zhǔn)工作流程）和Elicit （基于LLM的商業(yè)系統(tǒng)綜述自動化軟件）的評估結(jié)果。

在摘要篩選階段，otto-SR實(shí)現(xiàn)了最高的敏感性96.6%，在特異性上以93.9%和人類評審的95.7%相當(dāng)。

在全文篩選階段，otto-SR也同樣保持了最高的敏感性96.2%，而人類評審員的敏感性顯著下降至63.3%，特異性則兩者都保持較高水平。

因此研究發(fā)現(xiàn)，otto-SR可以比傳統(tǒng)的雙人人工篩選，在捕獲更多的相關(guān)研究時(shí)，還能保持足夠的特異性。

SR數(shù)據(jù)提取

研究團(tuán)隊(duì)選擇OpenAI o3mini-high模型作為提取Agent，因?yàn)槠鋸?qiáng)大的科學(xué)推理能力、穩(wěn)健的長上下文檢索能力和成本效益，其中Prompt均采用原作者定義的變量描述。

研究在七項(xiàng)綜述495項(xiàng)研究中比較otto-SR和Elicit的數(shù)據(jù)提取性能，再讓雙人人類評審員在每項(xiàng)綜述的隨機(jī)抽樣文獻(xiàn)子集中進(jìn)行評估。

結(jié)果發(fā)現(xiàn)，otto-SR的平均加權(quán)準(zhǔn)確率可達(dá)93.1%，遠(yuǎn)高于雙人人類評審員的79.7%和Elicit的74.8%。

另外，為了解決部分情況下，otto-SR的提取值與原綜述作者存在差異，團(tuán)隊(duì)引入盲法評審員小組進(jìn)行抉擇，其中在69.3%的案例中選擇支持otto-SR。

相比之下，盲法評審員小組只在28.1%的案例中支持雙人人類提取員，在22.4%的案例中支持Elicit。

這進(jìn)一步體現(xiàn)了otto-SR在數(shù)據(jù)提取性能上的優(yōu)越性，顯著高于其他方法。

可快速重現(xiàn)和更新綜述

為了評估otto-SR的實(shí)際適用性，團(tuán)隊(duì)對Cochrane數(shù)據(jù)庫的2024年4月期SRs進(jìn)行完整復(fù)現(xiàn)，而這些系統(tǒng)綜述通常用于為臨床指南提供信息。

將檢索更新至2025年5月8日，針對可用的12篇綜述，共識別出146276條引文，然后經(jīng)過去重處理后，交由otto-SR根據(jù)原標(biāo)準(zhǔn)進(jìn)行篩選。

再將結(jié)果過濾至與原始檢索截止日期一致，otto-SR共確定了54項(xiàng)被遺漏的合格研究（中位數(shù)2，IQR：每項(xiàng)綜述1至6.25），另外經(jīng)過人工評審后，發(fā)現(xiàn)otto-SR錯(cuò)誤納入了10篇假陽性文章，其中九篇都可能包含相關(guān)數(shù)據(jù)。

而將日期擴(kuò)展回2025年5月8日，則多出14項(xiàng)合格研究（總計(jì)n=64，中位數(shù)2.5，IQR 每項(xiàng)綜述1至7.25），包含另外2篇假陽性文章，其中1篇包含相關(guān)數(shù)據(jù)。

以上工作將符合條件的文章數(shù)量翻了一倍，并讓研究人員需要12個(gè)工作年才能完成的工作，縮短至48小時(shí)內(nèi)。