你的生物技術研究影響力大?MIT的機器學習框架可以預料到
對于科研人開心莫過于paper被「Accept」,發表后你的論文影響力如何?你所研究領域在未來潛力怎么樣?......現在,機器學習「突破」傳統評價標準,將以一種新方式去詮釋。
目前,有許多基于論文引用的度量指標,比如引用次數、h指數、期刊影響因子等。這些指標不僅是論文質量的次優指標,而且還會影響后續學術招聘、晉升和資金籌措方面的次優決策等。
而這些指標只能提供不完善的、不一致的且易于操縱的研究質量度量。隨著機器學習的興起,可以從更多角度去評判他們發表研究的潛在影響力
基于此,美國麻省理工學院(MIT)的研究人員建立了一個名為DELPHI(Dynamic Early-warning by Learning to Predict High Impact,通過學習預測高影響實現動態預警)的人工智能框架,可以通過學習以前的科學出版物中的模式,為未來的高影響力技術提供「預警」信號。并解鎖大量現有的但尚未開發的資源。以更有效、更公平的方式分配有限的資源,從而提高集體部署到科學中的資源回報率和技術。
該研究于5月17日以題為「 Learning on knowledge graph dynamics provides an early warning of impactful research 」發表在《自然•生物技術》( Nature Biotechnology )雜志上。
科學事業的有效發展取決于在一組有前途的研究人員和項目中識別和優化分配資源的集體能力。反過來,此過程主要取決于直接采用的分配方法,這種分配方法間接地通過雇用、晉升和社論出版物進行。
數字科學語料庫的規模激增,有助于開發新的數據驅動方法。從人工智能到現代科學企業產生的大量數據的方法應用,可提供更早或更有意義的新科學影響和創新信號。
數據驅動的算法將消化現有的大量高維數字科學信息,產生有意義的低維信號,然后將其與人類專業知識和直覺相結合。此外,這樣的方法可以包含多個目標函數,可擴展到一系列期望的結果上。
此前的研究已經證明從知識圖中提取信號的價值。但是,目前還沒有框架將這些方法與人工智能方法相結合,從而使我們能夠從過去中學到東西,以提高我們識別未來最具影響力的科學技術的能力。
本研究提出一個機器學習框架DELPHI,通過分析科學文獻中計算的一系列特征之間的高維關系,預測可能產生高影響力的工作。研究人員使用的數據集包含1980-2019年期間發表的1,687,850篇研究論文(42種與生物技術相關的期刊),從中得到了論文發表后1-5年與每篇論文、作者、期刊、網絡相關的29個特征。再用每篇論文的特征訓練一個機器學習模型,讓這個模型給出影響力「預警」信號。
從動態知識圖中收集、構建、計算和學習科學影響預警信號。(來源:論文)
研究人員使用DELPHI預測了到2023年將產生巨大影響的50篇最新科學論文。論文涵蓋的主題包括:用于癌癥治療的DNA納米機器人、高能量密度鋰氧電池和利用深層神經網絡的化學合成。
「本質上,我們的算法通過從科學史中學習模式,然后在新出版物上進行模式匹配來發現有高影響力的早期信號,」 Weis說。「通過追蹤思想的早期傳播,我們可以預測它們以有意義的方式傳播到更廣泛的學術界的可能性有多大。」
預測潛在影響力
Weis和Jacobson開發的機器學習算法利用了自1980年代以來科學出版物呈指數增長的大量數字信息。但DELPHI并沒有使用諸如引用次數之類的一維度量來判斷出版物的影響,而是接受了期刊文章元數據的完整時間序列網絡的培訓,以揭示其在整個科學生態系統中的高維分布。
結果是一個知識圖,包含代表論文、作者、機構和其他類型數據的節點之間的連接。這些節點之間復雜連接的強度和類型決定了它們在框架中使用的屬性?!高@些節點和邊定義了一個基于時間的圖形,DELPHI使用它來學習預測未來高影響的模式。」 Weis解釋說。
論文在發表5年后在時間尺度節點中心位置的前5%的論文被認為DELPHI旨在識別的「高度影響」目標集。前5%的論文占圖表總影響力的35%。
可視化的低影響力和高影響力出版物的共同作者和引文網絡結構的比較演變。(來源:論文)
與引文數量相比,DELPHI識別出的高度影響力的論文的數量是其兩倍多,包括60%的「隱藏寶石」或被引文閾值遺漏的論文。
研究人員驚訝地發現,在某些情況下,使用DELPHI能夠顯示出高影響力的論文「警報信號」時間如此之早?!冈诎l布的一年內,我們已經確定了『隱藏寶石』,這些『寶石』將在以后產生重大影響。」 Weis說。
他警告說,「但DELPHI并不能完全預測未來。我們正在使用機器學習來提取和量化隱藏在現有數據的維度和動態中的信號?!?nbsp;
公平、高效
過去,論文影響力的衡量標準(如引文和期刊影響因子等指標)都可以被操縱,研究人員說,「希望DELPHI將提供一種偏見更少的方式來評估論文的影響力?!?/p>
Weis說,「與所有機器學習框架一樣,設計人員和用戶應警惕偏見。我們需要不斷意識到數據和模型中的潛在偏差。我們希望DELPHI能夠以較少偏見的方式幫助找到最佳的研究——因此,我們需要注意,我們的模型不能僅根據次優指標(例如h-Index,作者引用計數或機構隸屬關系)來預測未來的影響。」
Weis在為生物技術初創公司啟動風險投資基金和實驗室孵化設施之后,思考了很多的問題。
他說:「我越來越意識到,包括我自己在內的投資者一直在相同的地點,以相同的觀念來尋找新公司?!?「我開始瞥見大量的人才和驚人的技術,但這常常被忽視。我認為一定有一種方法可以在這個領域工作——機器學習可以幫助我們發現并更有效地實現所有這些未被挖掘的潛力。」
參考內容:
https://news.mit.edu/2021/using-machine-learning-predict-high-impact-research-0517
論文鏈接:
https://www.nature.com/articles/s41587-021-00907-6