2天完成人類12年工作,AI自動更新文獻(xiàn)綜述,準(zhǔn)確率碾壓人類近15%
當(dāng)碳基生物還在為寫文獻(xiàn)綜述,打開了一百個(gè)瀏覽器窗口時(shí),隔壁AI已經(jīng)卷起來了。(doge)
兩天完成人類12年工作——
醫(yī)學(xué)研究領(lǐng)域中,系統(tǒng)評價(jià)(SRs)作為臨床決策的黃金標(biāo)準(zhǔn),平均耗時(shí)超過16個(gè)月,花費(fèi)10萬美元以上,且容易延長無效或有害治療方法的使用。
于是多倫多大學(xué)、哈佛醫(yī)學(xué)院等機(jī)構(gòu)聯(lián)合開發(fā)了AI端到端工作流程——otto-SR。
結(jié)合GPT-4.1和o3-mini進(jìn)行篩選和數(shù)據(jù)提取,僅花費(fèi)兩天時(shí)間就完成了傳統(tǒng)方法需要12年才能完成的Cochrane系統(tǒng)評價(jià)更新。
在多項(xiàng)指標(biāo)上更是超越人類,基準(zhǔn)測試中otto-SR靈敏度達(dá)96.7% (人類81.7%),特異度93.9%,數(shù)據(jù)提取準(zhǔn)確率93.1% (人類79.7%),還發(fā)現(xiàn)了發(fā)現(xiàn)人類遺漏的54篇關(guān)鍵研究。
所以那些年我們在PubMed上熬的夜、掉的頭發(fā),又算什么……
擦干眼淚,下面一起來看具體實(shí)現(xiàn)過程。
用于系統(tǒng)綜述自動化的智能工作流程
團(tuán)隊(duì)引入了一種基于LLM的端到端工作流程otto-SR,支持從初始檢索到數(shù)據(jù)分析,完全自動化和人機(jī)協(xié)作的系統(tǒng)綜述流程。
otto-SR首先會收集從原始檢索中識別的RIS格式的引用文獻(xiàn),GPT-4.1隨即會作為獨(dú)立評審員進(jìn)行篩選。
篩選出的文章集合將輸入o3-mini-high模型進(jìn)行數(shù)據(jù)提取,其中PDF格式將會由Gemini 2.0 flash處理并轉(zhuǎn)換為結(jié)構(gòu)化Markdown文件,并用于下游任務(wù)。
具體而言,可以細(xì)分為篩選和提取兩種功能:
SR文獻(xiàn)篩選
研究團(tuán)隊(duì)開發(fā)了一種篩選Agent,利用擅長指令跟隨的GPT-4.1模型,并結(jié)合優(yōu)化的提示策略,可以在摘要和全文階段對文獻(xiàn)進(jìn)行篩選。
另外,該Agent會將各綜述的初始目標(biāo)和合格標(biāo)準(zhǔn)納入補(bǔ)充說明。
研究在五項(xiàng)綜述的完整原始檢索(總計(jì)32357條引文)中,進(jìn)行otto-SR篩選性能評估。
綜述涵蓋牛津循證醫(yī)學(xué)中心(CEBM)的四種問題類型(患病率、診斷試驗(yàn)準(zhǔn)確性、預(yù)后、干預(yù)效益),并橫向?qū)Ρ?/span>雙人人類評審員 (當(dāng)前標(biāo)準(zhǔn)工作流程)和Elicit (基于LLM的商業(yè)系統(tǒng)綜述自動化軟件)的評估結(jié)果。
在摘要篩選階段,otto-SR實(shí)現(xiàn)了最高的敏感性96.6%,在特異性上以93.9%和人類評審的95.7%相當(dāng)。
在全文篩選階段,otto-SR也同樣保持了最高的敏感性96.2%,而人類評審員的敏感性顯著下降至63.3%,特異性則兩者都保持較高水平。
因此研究發(fā)現(xiàn),otto-SR可以比傳統(tǒng)的雙人人工篩選,在捕獲更多的相關(guān)研究時(shí),還能保持足夠的特異性。
SR數(shù)據(jù)提取
研究團(tuán)隊(duì)選擇OpenAI o3mini-high模型作為提取Agent,因?yàn)槠鋸?qiáng)大的科學(xué)推理能力、穩(wěn)健的長上下文檢索能力和成本效益,其中Prompt均采用原作者定義的變量描述。
研究在七項(xiàng)綜述495項(xiàng)研究中比較otto-SR和Elicit的數(shù)據(jù)提取性能,再讓雙人人類評審員在每項(xiàng)綜述的隨機(jī)抽樣文獻(xiàn)子集中進(jìn)行評估。
結(jié)果發(fā)現(xiàn),otto-SR的平均加權(quán)準(zhǔn)確率可達(dá)93.1%,遠(yuǎn)高于雙人人類評審員的79.7%和Elicit的74.8%。
另外,為了解決部分情況下,otto-SR的提取值與原綜述作者存在差異,團(tuán)隊(duì)引入盲法評審員小組進(jìn)行抉擇,其中在69.3%的案例中選擇支持otto-SR。
相比之下,盲法評審員小組只在28.1%的案例中支持雙人人類提取員,在22.4%的案例中支持Elicit。
這進(jìn)一步體現(xiàn)了otto-SR在數(shù)據(jù)提取性能上的優(yōu)越性,顯著高于其他方法。
可快速重現(xiàn)和更新綜述
為了評估otto-SR的實(shí)際適用性,團(tuán)隊(duì)對Cochrane數(shù)據(jù)庫的2024年4月期SRs進(jìn)行完整復(fù)現(xiàn),而這些系統(tǒng)綜述通常用于為臨床指南提供信息。
將檢索更新至2025年5月8日,針對可用的12篇綜述,共識別出146276條引文,然后經(jīng)過去重處理后,交由otto-SR根據(jù)原標(biāo)準(zhǔn)進(jìn)行篩選。
再將結(jié)果過濾至與原始檢索截止日期一致,otto-SR共確定了54項(xiàng)被遺漏的合格研究(中位數(shù)2,IQR:每項(xiàng)綜述1至6.25),另外經(jīng)過人工評審后,發(fā)現(xiàn)otto-SR錯(cuò)誤納入了10篇假陽性文章,其中九篇都可能包含相關(guān)數(shù)據(jù)。
而將日期擴(kuò)展回2025年5月8日,則多出14項(xiàng)合格研究(總計(jì)n=64,中位數(shù)2.5,IQR 每項(xiàng)綜述1至7.25),包含另外2篇假陽性文章,其中1篇包含相關(guān)數(shù)據(jù)。
以上工作將符合條件的文章數(shù)量翻了一倍,并讓研究人員需要12個(gè)工作年才能完成的工作,縮短至48小時(shí)內(nèi)。
將提取數(shù)據(jù)與原綜述進(jìn)行Meta分析,涉及三個(gè)比較組:
- 匹配組otto-SR與原Cochrane分析中包含的相同文章集。
- 擴(kuò)展組包括otto-SR識別的所有合格研究,過濾至原始檢索截止日期。
- 更新組評估所有文章,檢索截止日期更新為2025年5月8日。
另外考慮到可能存在的數(shù)據(jù)提取任務(wù),還引入雙人人工審查為每個(gè)組得出校正值,即移除假陽性文章和添加假陰性文章。
在匹配組中,otto-SR生成的Meta分析效應(yīng)估計(jì)值,與原Cochrane數(shù)據(jù)和校正數(shù)據(jù)集的95%CI重疊。
在擴(kuò)展分析中,則發(fā)現(xiàn)有兩篇綜述產(chǎn)生了新的統(tǒng)計(jì)學(xué)意義,也存在一篇綜述失去了意義。
例如在營養(yǎng)領(lǐng)域綜述中,otto-SR識別出5項(xiàng)額外研究,并發(fā)現(xiàn)了一個(gè)有趣的事實(shí):胃手術(shù)前進(jìn)行術(shù)前免疫增強(qiáng),可能會將平均住院時(shí)間縮減一天。
otto-SR的出現(xiàn),將會極大地緩解系統(tǒng)評價(jià)緩慢而費(fèi)力的過程,在未來,可能將會從需要數(shù)月甚至數(shù)年才能完成的工作縮減至幾個(gè)小時(shí)或幾分鐘,從而可以更快地對新療法或者大流行病做出反應(yīng)。
另外,一些因?yàn)橘Y金不足而缺乏進(jìn)行系統(tǒng)評價(jià)的地區(qū),也能夠享受到前沿醫(yī)學(xué),正如作者在文章末尾寫道:
簡言之,黃金標(biāo)準(zhǔn)已不再屬于人類。In short, the gold standard is no longer human.