人工智能有能力徹底改變科學研究
人工智能(AI)是一門涉及計算機科學、數學、心理學、語言學等多個學科的交叉學科,它旨在創造能夠模擬或超越人類智能的系統和應用。AI的發展經歷了幾個階段,從早期的符號主義、聯結主義,到近年來的統計學習、深度學習等,不斷地突破了理論和技術的限制,實現了許多令人驚嘆的成就,如圖像識別、自然語言處理、語音識別、機器翻譯、機器人、自動駕駛等。AI不僅在計算機科學領域有著重要的貢獻,也在其他科學領域有著廣泛的應用,如生物學、醫學、化學、物理學、社會科學等。
AI在科學中的應用,不僅可以幫助科學家解決一些復雜的問題,提高研究的效率和質量,也可以引發一些新的問題,挑戰一些既有的假設,促進一些新的發現,推動一些新的創新。AI在科學中的作用,可以說是革命性的,它有能力徹底改變科學的面貌和未來。
12月15日,由Stefano Bianchini, Moritz Müller, Pierre Pelletier三位作者共同撰寫的學術論文《Integrating New Technologies into Science: The case of AI》發表在arxiv,這是一篇關于人工智能在科學中的應用和影響的研究論文。這篇論文使用了收集了超過2.3億篇科學文章的數據源的OpenAlex數據庫來識別和分析AI在科學中的采用的數據,論文使用了一個合適的匹配方法,來控制一些共同的因素,如AI技術本身和未觀察到的人力資本和偏好。使用了一個條件對數回歸模型來分析匹配對的數據,以及科學家采用AI的影響因素。
這是第一篇系統地研究AI在科學中的采用的文章,它使用了一個全面和深入的數據源來提供一個有力的證據和視角。美中不足的是它只能分析AI在科學中的采用的現象,而不能解釋AI在科學中的采用的機制,也不能評估AI在科學中的采用的效果和價值。
1.人工智能的概念和科學研究
人工智能(AI)研究目的是通過探索智慧的實質,擴展人類智能——促使智能主體會聽(語音識別、機器翻譯等)、會看(圖像識別、文字識別等)、會說(語音合成、人機對話等)、會思考(人機對弈、專家系統等)、會學習(知識表示,機器學習等)、會行動(機器人、自動駕駛汽車等)。一個經典的AI定義是:“ 智能主體可以理解數據及從中學習,并利用知識實現特定目標和任務的能力。(A system’s ability to correctly interpret external data, to learn from such data, and to use those learnings to achieve specific goals and tasks through flexible adaptation)”
在人工智能的發展過程中,不同時代、學科背景的人對于智慧的理解及其實現方法有著不同的思想主張,并由此衍生了不同的學派,影響較大的學派及其代表方法有下面幾種。
“符號主義”(Symbolicism),又稱邏輯主義、計算機學派,認為認知就是通過對有意義的表示符號進行推導計算,并將學習視為逆向演繹,主張用顯式的公理和邏輯體系搭建人工智能系統。
“聯結主義”(Connectionism),又叫仿生學派,篤信大腦的逆向工程,認為認知就是通過神經元之間的連接和信號傳遞,并將學習視為神經網絡的自組織,主張用隱式的權重和激活函數構建人工智能系統。
“行為主義”(Behaviorism),又稱控制論學派,認為認知就是通過對外部環境的感知和反應,并將學習視為行為的調整,主張用顯式的規則和反饋機制構建人工智能系統。
人工智能與科學研究
科學進步的步伐與我們與新技術的融合是直接相關的, 過去的顯微鏡和望遠鏡等儀器都是如此,最近的計算機和互聯網也是如此。 今天的焦點集中在 AI上,它正在科學領域迅速崛起,作為一種具有巨大發現潛力的工具,一種新的“通用發明方法”, 曾經無法思考、甚至無法表述的問題現在每天都會出現。 例子包括預測蛋白質的 3D 結構、調節托卡馬克構型中的核聚變等離子體、預測宇宙結構的形成,并創建小昆蟲的大腦圖譜。 幾乎所有科學學科和研究過程的不同階段都在探索人工智能加速和推進科學發現的潛力。
隨著人工智能在科學領域的潛力不斷增長,了解哪些資源對于科學家在整個科學系統中成功采用這項技術至關重要。 論文通過比較采用人工智能的領域科學家與未采用人工智能的領域科學家的資源稟賦來解決這個問題。
《自然》雜志最近對全球 1,600 多名研究人員進行了一項調查,詢問已經嘗試過人工智能的科學家有哪些障礙阻止他們更多地使用人工智能,并得到了以下答復:“缺乏技能或熟練的研究人員”(80 %)、“缺乏培訓資源”(70%)、“缺乏資金”(50%)、缺乏計算資源(35%)、“缺乏數據”(30%) 和其他(18%)。 相比之下,沒有人工智能經驗的科學家大多宣稱他們認為人工智能對他們的研究沒有用。 因此很明顯,人工智能的采用至少與對該技術在特定領域的潛力、個人技能以及計算能力和數據的可訪問性了解不足有著千絲萬縷的聯系,關于應用人工智能中科學團隊的組成,表明領域科學家缺乏技能通常可以通過與計算機科學家一起進行跨學科研究來彌補,而且這種跨學科努力在以下方面也是成功的: 收到的引用。 然而并非所有科學家都有能力實施甚至考慮這種合作策略。 那么哪些(其他)資源有利于人工智能的采用? 此外,并非所有嘗試人工智能的科學家都打算在他們的研究中持續采用它——在我們的樣本中,這一比例約為 50%。 阻礙這些科學家將人工智能融入他們的研究的障礙是什么?
與我們的研究問題特別相關的是科學技術人力資本理論(STHC),因為它抓住了這樣一個觀點,即科學家的行為不僅取決于他們自己的人力資本——即人類“內部”的各種知識和技能。 個人——而且還依賴于他們工作關系中的更大的資源庫。 科學家并不存在于社會真空中,科學知識的生產本質上是一項社會事業,就像我們在本文中所說的將新技術融入科學實踐一樣。
在這里我們考慮 STHC 的三個維度,它們可以影響科學家在各自領域采用人工智能的決定:(i) 他們個人已有的知識、技能和實驗品味; (ii) 研究合作者的知識和專業知識; (iii) 研究人員所處的機構環境。 社會關系的相關性在于,通過合作科學家可以獲得并利用互補的技能和技術資源,以在孤立的背景下不可能實現的方式創造和轉化知識和思想。 機構設置是另一個重要因素,因為它塑造了組織內“做科學”的實踐——從運行物理基礎設施和籌集資金到科學行為的道德規范——并最終塑造其成員的研究軌跡。
2. 人工智能在科學中的傳播和應用
AI是一種具有變革性的新技術,它需要科學家具備相應的人力資本和外部資源,才能有效地融入科學研究。論文作者發現AI的擴散和再利用受到社會機制的強烈驅動,這些機制組織了與技術相輔相成的人力資本的部署和創造。他們認為AI是一種不僅是科學工具,也是科學方法,甚至是科學范式,它將促進科學的整合、創新和社會化。
分析人工智能(AI)作為一種新技術如何影響科學的發展和變革,論文的第二段是文獻綜述,回顧了AI的定義、特點、應用和影響,以及科學和技術人力資本(STHC)的理論框架。第三段是研究方法,介紹了數據來源、樣本選擇、變量定義和統計模型。第四段是研究結果,報告了AI的擴散和再利用的影響因素,如人力資本、合作網絡、機構特征和高性能計算(HPC)。
論文作者運用了STHC的理論框架,利用了大規模的出版物數據,系統地分析了AI在科學中的擴散和再利用的影響因素。同時提供了一些有意義的發現,如AI的先驅者是具有探索精神的領域科學家,他們嵌入在一個富有計算機科學家、經驗豐富的AI科學家和早期職業研究者的網絡中,他們也來自于具有高引用影響力和相對強大的AI出版歷史的機構。他們運用了STHC的理論框架,來解釋科學家在科學研究中采用AI的動機和條件。論文提出了一些有意義的假設,如社會資本和關于知識對AI采用的促進作用,以及合作網絡和機構同事對AI采用的影響。
論文認為科學家通過與AI領域的專家合作和交流,可以獲得和傳播關于知識或連接知識,來認識到AI在他們的領域中的潛力和價值。他們提出了兩個假設,即與AI相關人力資本的先前聯系和與機構同事的社會互動,都會增加領域科學家采用AI的可能性。同時還討論了導師和新人之間的知識傳遞,認為新一代的科學家可能會給他們的導師帶來AI方面的技能和知識。
他們將人工智能在研究論文制作中的采用建模為人工智能技術和 STHC 的結合。人工智能研究技術的一個重要方面是它不是一個整體、單一的技術。相反它應該被視為正在經歷特定發展并與不同程度的科學專業相關的各種技術的集合。因此他們允許人工智能技術的狀態 (A) 不僅隨時間 t 變化,而且隨焦點個體的科學專業變化,記為 s(i),并寫作 As(i),t。
為了在研究中有效地應用人工智能,焦點科學家 i 可以建立在其在時間 t ? 1, Hi,t?1 之前積累的 STHC 稟賦的某些方面。請注意,H 是一個包含焦點科學家的組織資本、社會(網絡)資本和個人人力資本的向量。
科學家不一定會利用他所擁有的所有 STHC(即 Hi,t?1)來發表個人論文。因此,我們還考慮了給定論文 p 中采用的已實現的 STHC,表示為 Hp(i),t。已實現的 STHC (Hp(i),t) 在很大程度上將成為過去 STHC 捐贈 (Hi,t?1) 的一部分,但一些資本可能在 t 年的研究過程中獲得,而一些資本可能會隨著時間的推移而損失 。
為了固定思路,我們假設一個簡單的人工智能論文生產函數 F(·),強調人工智能技術與資本各個方面之間的互補性(或相互作用):
論文中作者詳細介紹了科學和技術人力資本(STHC)的理論框架,以及用它來分析科學家在科學研究中采用AI的影響因素的假設。并且主要探討科學家的內部資源,如認知技能、科學和技術知識和情境技能對AI采用的影響。他們認為科學家需要具備一定的認知能力,如創造性、靈活性和批判性思維,來適應AI的變化和挑戰。論文認為科學家需要具備一定的科學和技術知識,如領域專業知識、AI相關知識和跨學科知識,來有效地使用AI的工具和方法。科學家需要具備一定的情境技能,如溝通、協作和領導力,來與AI領域的專家和其他領域的科學家合作和交流。然后提出了三個假設,即認知技能、科學和技術知識和情境技能,都會增加領域科學家采用AI的可能性。
科學家采用AI的決策受到他們的人力資本和內部資源,以及他們對AI的認知和態度的影響。論文認為科學家需要具備一定的認知能力,如創造性、靈活性和批判性思維,來適應AI的變化和挑戰。科學家需要具備一定的科學和技術知識,如領域專業知識、AI相關知識和跨學科知識,來有效地使用AI的工具和方法。科學家需要具備一定的情境技能,如溝通、協作和領導力,來與AI領域的專家和其他領域的科學家合作和交流。
圖 2:STHC 框架。
左圖:制度環境潛在地提供與人工智能相關的信息、引導注意力、提供資源(計算設施、人力資本);此外,機構還擁有一定程度的聲譽和卓越的科學成就。中圖:先前的合著者網絡提供與焦點科學家領域、計算分析和/或人工智能相關的人力資本。右圖:焦點科學家的人力資本是通過她過去的研究成果在科學內容、質量和國際性方面來描述的。這些變量在論文第 3.2 節中有詳細描述。
3. 人工智能在科學中的傳播和應用的趨勢和模式
論文作者使用了OpenAlex數據庫,它包含了超過2.3億篇科學文章的信息,如標題、摘要、作者、機構、期刊等。論文選擇了2012年到2020年期間,在非計算機科學領域首次使用AI的科學家作為樣本,觀察他們在采用AI前后的人力資本和外部資源的變化。使用了一些變量來測量科學家的人力資本和外部資源,如合作網絡、機構環境、計算資源、科學背景、探索傾向等。論文也使用一些統計模型來檢驗假設,如Logit模型、Poisson模型、負二項模型等。
OpenAlex數據庫顯示,人工智能在科學中的采用的數量和比例呈現出一個快速增長的趨勢,從2010年的約5萬人次,增長到2020年的超過20萬人次,占總科學家人數的約5%。這一趨勢與人工智能在科學中的發展和應用的增長相一致,表明人工智能在科學中的重要性和影響力不斷提升。這一趨勢也反映了人工智能技術的進步和普及,以及科學家對人工智能技術的認可和接受。
人工智能在科學中的采用的領域和年代分布呈現出一定的異質性和差異性,不同的領域和年代的科學家采用人工智能的動機和條件有所不同。作者發現,人工智能在科學中的采用主要集中在生命科學、工程科學和物理科學等領域,而在數學、社會科學和人文科學等領域則相對較少。人工智能在科學中的采用主要集中在中期和早期的科學家,而在晚期的科學家則相對較少。他們認為,這些差異可能與人工智能技術的適用性、可用性、可接受性等因素有關。這些差異也反映了不同領域和年代的科學家對人工智能技術的需求和態度的不同。
人工智能在科學中的采用的重復使用率呈現出一個相對穩定的水平,約為54%。這意味著,有一半以上的科學家在首次采用人工智能后,會在后續的研究中繼續使用人工智能。這一水平可能與人工智能技術的復雜性、成本、風險等因素有關,他們認為提高人工智能在科學中的采用的重復使用率,是促進人工智能在科學中的傳播和應用的一個重要目標。這一水平也反映了科學家對人工智能技術的信任和依賴的程度。
他們建立一個簡單的AI論文生產函數,強調了AI技術和人力資本的各個方面之間的互補性或相互作用。論文使用對數變換和對數回歸模型來估計一個論文使用AI的概率,以及AI技術和人力資本的參數。論文作者使用一個匹配方法來匹配同一領域和同一年代的科學家,但有不同的AI采用行為,從而消除了一些共同的因素,如AI技術本身和未觀察到的人力資本和偏好。
4.人工智能在科學中的采用的影響因素和異質性效應
機構因素對人工智能在科學中的采用有著顯著的影響,包括機構的人工智能專業化、機構的引文影響力、機構的高性能計算資源等。這些因素對首次采用人工智能和重復使用人工智能的科學家都有著正向的促進作用,表明機構的環境和資源對人工智能在科學中的采用是有利的。這些因素在不同的領域和年代有著不同的效應,表明機構的條件和需求對人工智能在科學中的采用是有差異的。這些因素也反映了機構對人工智能技術的支持和投入的程度。
社會因素對人工智能在合作網絡的規模、結構、組成等科學中的采用也有著顯著的影響,他們發現,這些因素對首次采用人工智能和重復使用人工智能的科學家都有著正向的促進作用,表明合作網絡的質量和數量對人工智能在科學中的采用是有利的。他們還發現,這些因素在不同的領域和年代也有著不同的效應,表明合作網絡的特征和動力對人工智能在科學中的采用是有差異的。社會因素也反映了科學家之間的交流和合作的程度。
個人因素對人工智能在科學中的采用也有著顯著的影響,個人的成就、國際化、探索傾向、人工智能接近度等都是個人因素,這些因素對首次采用人工智能和重復使用人工智能的科學家有著不同的作用,表明個人的能力和偏好對人工智能在科學中的采用是有影響的。論文指出這些因素在不同的領域和年代也有著不同的效應,表明個人的背景和機會對人工智能在科學中的采用是有差異的。
5.總結和展望
人工智能在科學中的采用還有許多未知的方面,需要進一步的探索和研究。例如,人工智能在科學中的采用的機制是什么?人工智能在科學中的采用的效果和價值是什么?人工智能在科學中的采用的影響因素和異質性效應的深層原因是什么?人工智能在科學中的采用的社會和倫理的影響是什么?這些問題都需要更多的數據和方法,以及更多的理論和實證,來進行更深入和全面的分析和討論。
人工智能在科學中的采用是一個既有機遇又有挑戰的問題,需要政策制定者和科學管理者的關注和支持。例如,政策制定者可以通過提供更多的資金和資源,來促進人工智能在科學中的發展和應用;科學管理者可以通過提供更多的培訓和指導,來提高科學家對人工智能的認知和能力;政策制定者和科學管理者還可以通過制定更多的規范和標準,來保障人工智能在科學中的采用的質量和安全。這些措施都可以有助于人工智能在科學中的采用的更好的進行和發展。
人工智能是一門具有革命性的技術,它有能力徹底改變科學的面貌和未來。我們希望通過分析三位科學家的論文能夠為人工智能在科學中的采用的研究和實踐提供一些有用的信息和啟示,也希望能夠激發更多的興趣和熱情,來探索和發現人工智能在科學中的更多的可能性和奧秘。