12年博士研究，AI兩天爆肝完成！科研效率狂飆3000倍，驚動學術圈

2025-06-16 09:12:00

人工智能新聞

AI兩天爆肝12年研究，精準吊打人類！多大、哈佛MIT等17家機構聯手放大招，基于GPT-4.1和o3-mini，篩選文獻提取數據，效率飆3000倍重塑AI科研工作流。

多倫多大學、哈佛MIT等機構聯手AI，短短2天內，竟干完了科學家12年的活！

研究一出，在全網掀起了巨震。

沃頓商學院CS教授Ethan Mollick大受震撼，「AI綜述論文體量越來越大，而準確性超越了人類」。

17家研究機構同著一篇論文，他們目標直指，借助GPT-4.1和o3-mini自動化系統綜述。

為此，研究人員設計了otto-SR平臺，并在2天內，完成了為期12年的系統綜述研究。

論文地址：https://www.medrxiv.org/content/10.1101/2025.06.13.25329541v1.full.pdf

結果顯示，otto-SR在所有任務中，比如篩查靈敏度、提取、篩選特異度方面，能夠媲美甚至超越人類。

在一項具體的測試中，復現并更新一期完整的Cochrane系統綜述，包含了12篇為臨床指南提供依據的綜述。

令人驚嘆的是，otto-SR識別出的相關研究數量（114篇），是原始綜述（64篇）的2倍之多。

這套AI工作流，讓系統綜述速度飆升3000倍。

這一速度與傳統人工流程相比，堪稱革命性突破。

otto-SR證實了LLM能以更高準確率，自主執行復雜的科研任務。未來，有望通過快速、可靠的系統綜述，為循證醫學帶來革命性變革。

人類免疫學家Derya Unutmaz教授認為，這是一個非常了不起的成就。

AI取得如此驚艷的成果，究竟是如何做到的？

AI全新工作流：

GPT-4.1篩選，o3-mini提取

在循證醫學領域，系統綜述（Systematic Reviews）是科學決策的基石。

一般來說，傳統的系統綜述的完成，往往需要耗費16個月，超10萬美金的成本。

更重要的是，系統綜述的延誤，可能導致低效甚至有害療法長期被使用，對患者來說是一場災難。

全新otto-SR是一套基于大模型的「端到端」創新工作流。

如下圖1所示，不論是「全自動」，還是「人機協同」，兩種綜述綜述模式均支持。

以下是otto-SR的核心模塊：

1 文獻篩選智能體

GPT-4.1作為獨立評審員，執行摘要和全文篩選。原始檢索獲得的文獻以RIS格式上傳，系統即可高效處理。

2 數據提取智能體

由o3-mini-high執行數據提取任務，快速從文獻中提取關鍵變量。

3 PDF處理

通過Gemini 2.0 flash將PDF文件轉換為結構化Markdown格式，便于后續分析。

摘要+全文篩選，趕超人類

在摘要篩選階段，otto-SR篩選智能體表現優異。

其加權靈敏度高達96.6%（區間94.1-100.0%），顯著優于Elicit（88.5%）和雙人評審組（87.3%）。

在特異度方面，雙人評審組以95.7%位居榜首，otto-SR篩選智能體（93.9%）緊隨其后，優于Elicit（84.2%）。

這表明otto-SR在最大化捕獲相關文獻（真陽性）的能力上遠超傳統方法，同時保持了較高的篩選準確性。

在全文篩選階段，otto-SR篩選智能體繼續保持領先，靈敏度達96.2%（區間92.3-100.0%），而雙人評審組的靈敏度顯著下降至63.3%。

在特異度方面，otto-SR（96.9%）與雙人評審組（98.1%）均表現優異，而Elicit因不支持全文篩選未參與比較。

綜合表明，otto-SR在保持高特異度（最小化誤納）的同時，能夠捕獲更多相關研究（真陽性），相較于傳統雙人評審和商Elicit展現了顯著優勢。

數據提取，刷爆準確率

在七項系統綜述中，otto-SR數據提取智能體的平均加權準確率高達93.1%（區間91.1-97.0%），顯著優于雙人評審組（79.7%[69.1-91.0%]）和Elicit（74.8%[58.8-83.1%]）。

在otto-SR提取智能體的6.9%誤差案例中，事后分析揭示了主要原因：

· 0.83%（39/4459）因模型無法獲取補充文件或需申請的數據；

· 0.67%（30/4459）源于解析錯誤；

· 0.49%（22/4459）屬于otto-SR與原作者均不準確的情況。

這些發現為未來的優化提供了明確方向，例如改進對補充文件的處理能力和解析準確性。

短短2天，AI爆肝12年工作

既然GPT-4.1+o3-mini在性能評估中刷新SOTA，那么在實際挑戰任務中，表現又如何呢？

為了驗證實用價值，作者對「Cochrane系統綜述數據庫」的12篇系統綜述，共146,276篇文獻，進行了復現與更新測試。

otto-SR智能工作流

otto-SR聚焦每篇綜述的主要結局（Primary Outcome），讓入選標準更清晰。

篩選智能體準確識別了全部64項納入研究；數據提取智能體按Cochrane原始變量定義提取主要結局數據，程序化剔除了缺失主要結局值、重復研究或無干預-對照組的記錄。

結果顯示，otto-SR錯誤排除研究的中位數為0篇（IQR 0-0.25）。

值得一提的是，在限定原始檢索截止日期的分析中，otto-SR意外發現了54篇可能被原綜述遺漏的合格研究。

人工復核確認其中10篇為假陽性，但9篇可能通過作者溝通獲取相關數據。

進一步更新檢索至2025年5月8日，otto-SR又發現了14篇新合格研究，其中僅2篇假陽性，1篇可能含相關數據。

另外，在營養學綜述中，otto-SR發現了5項新增研究。這一發現展示了otto-SR挖掘新證據、優化結論的能力。

作者介紹

Christian Cao

Christian Cao目前是多倫多大學醫學院在讀博士。

目前其研究方向聚焦于開發人工智能模型，致力于預測可避免的住院事件及糖尿病相關并發癥。

Rohit Arora

Rohit Arora目前是哈佛大學生物信息學一年級博士生。

他專注于人工智能在科學研究中的應用，研究方向集中于藥物發現與蛋白質設計。

責任編輯：張燕妮來源：新智元

AI 模型自動化

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

12年博士研究，AI兩天爆肝完成！科研效率狂飆3000倍，驚動學術圈

AI全新工作流：

GPT-4.1篩選，o3-mini提取

短短2天，AI爆肝12年工作

作者介紹