智能科學時代的雙引擎,火山引擎打造 AI 與 Science 協同創新的飛輪
原創2024 年,諾貝爾獎的物理學獎與化學獎雙雙授予了與人工智能技術緊密相關的研究,這無疑為 AI 在科研領域的推動作用提供了強有力的背書,進一步彰顯了其不可或缺的重要性。
AI for Science 變得盛況空前。科學家們積極探索人工智能在科研領域的廣闊應用與發展前景,科學研究也從經驗范式、理論范式、計算范式、數據驅動范式,迎來了第五范式——智能科學。
在火山引擎副總裁張鑫看來,AI 技術的出現,不僅加速了科學研究范式的根本性轉變,促進了多學科研究之間的深度融合與協同發展,還極大地加速了科學發現的進程。正是洞察到了科研領域需求側所發生的深刻變化,以及供給側大模型為 IT 領域帶來的多維度變革與新視角,火山引擎自 2022 年進入到了科研領域,并且從生命科學領域切入,助力科學研究提質增效。
火山引擎副總裁張鑫
縱深科研,AI for Science 也可以“多快好省”
在生命科學領域,科研人員長期面臨一系列嚴峻挑戰:過度依賴國外工具,學術研究結果可復性差,數據孤立且標準不統一,研發效率低下等問題,極大地阻礙了科研進展。于是,火山引擎攜手合作伙伴共同推出了 Bio-OS 生物信息操作系統,將科研所需要的各類數據工具、流程配置和分析過程進行封裝,希望可以像 PC 或移動操作系統一樣,屏蔽底層復雜的技術,賦能上層應用創新,從而構建一個平臺化的生態系統。
張鑫介紹道,“我們的思路就是打造一個面向生命科學行業的操作系統,其底層提供資源管理和數據管理能力,簡化操作,降低使用門檻;而上層定義應用標準,推動開源開放的生態體系形成。”
經過了兩年的快速迭代,Bio-OS 操作系統也實現了五大升級。一是 All in Workspace,使得科研過程與成果可分享、可追溯及可協同;二是引入智能助手,可以通過自然語言的方式使用 Bio-OS 平臺上的工具和創建工作流;三是將計算向數據靠攏,在一個平臺上完成數據的處理、計算和分析;四是利用云原生與分布式云技術,高效管理異構算力資源;五是持續推動社區和生態的建設,吸引更多人才加入生命科學領域,共創價值。通過五大升級,火山引擎為科研人員提供了更加便捷、高效、智能的科研平臺,促進了技術創新與知識共享,推動了生命科學領域的創新與發展。其中,Bio-OS 開源開放大賽作為推動生態建設的重要舉措之一,第二屆 Bio-OS 開源開放大賽吸引了近 300 支團隊參與,特別是AI算法打榜賽,更是激發了眾多團隊的熱情。
鑒于不同科研領域具有共通性,火山引擎從生命科學出發,逐步抽象通用能力,推出了科研智算云解決方案。張鑫用“多快好省”四個字概括了這一方案的特色。
多:火山引擎提供全棧產品體系,科研人員可以根據需求靈活組合產品,支持生物信息、藥物研發、材料科學、EDA 等多個科研場景。
快:依托火山引擎彈性調度與并行計算能力,顯著提升科研計算分析效率;同時,通過自動化工作流,實現科研實驗流程的自動化執行。
好:用戶體驗友好。通過圖形化界面封裝復雜算法與工具,科研人員僅需簡單配置與自然語言交互,即可完成技術架構設計,極大簡化了科研流程。
省:針對科研資源消耗大的問題,火山引擎通過海量算力資源的規模效應以及資源內外復用和削峰填谷,有效降低科研 IT 成本。
目前,火山引擎科研智算云解決方案已經在多個科研場景中成功應用。廣州實驗室借助 Bio-OS 在生物信息領域實現科研普惠化,序禎達在基因測序上的數據處理提速,百奧云快速構建農業基因育種平臺加速分析,分子之心借助火山引擎高性能計算資源及獨有的計算模型,快速完成新藥研發。這些成功案例不僅驗證了火山引擎解決方案的有效性,也為科學研究的未來發展開辟了新的道路。
解鎖火山引擎 AI for Science 的“制勝法寶”
火山引擎作為一家云服務供應商,在 AI for Science 方面的優勢究竟又體現在何處呢?對此,張鑫給出了清晰的解答。“火山引擎在 AI for Science 領域的優勢可歸結為三大方面,堅實的技術底座、深度的行業優化以及前沿的科研應用創新。”
科學研究離不開堅實的基礎設施和IT技術能力的支撐。火山引擎打造了“三駕馬車”來構建技術底座,即面向 AI 的全棧云,豆包大模型以及數據飛輪,這三者恰好對應了人工智能時代三大要素,算力、算法和數據。在算力層面,火山引擎通過構建軟硬一體的分布式云架構,實現了異構資源的統一調度與彈性擴展,應對科研場景下復雜多變的需求。在算法方面,豆包大模型憑借其強大的理解分析和推理能力,可以幫助科研人員完成海量的密集數據的智能分析工作。在數據方面,火山引擎具有豐富的數據經驗,從數據整理、存儲到分析的全鏈路管理,為科研人員提供有力支持。
其次,火山引擎深知科研領域的特殊性,在通用的基礎設施之上根據科研場景進行了深度優化,推出了有針對性的解決方案,助力科研人員提升科研效率與質量。
此外,字節跳動在科研領域的積累同樣不容小覷。其內部的 AML(Applied Machine Learning)團隊就設有專門負責科學計算的科學家,他們致力于量子化學、材料科學、物理學、生命科學等多個領域的研究。同時,ByteDance Research 團隊也在機器人、具身智能等前沿領域不斷鉆研,探索發現科研領域的新趨勢與新機遇。
在科研領域,火山引擎不僅提供工程化的產品與技術,加速科學研究的進程,還圍繞 AI for Science 進行前沿探究。這使得火山引擎能夠更深入地理解科學家的需求,以更高遠的視角審視科研領域的發展動態,從而為客戶提供更加精準、高效的解決方案與服務。
加速科研提效與知識發現的“四輪驅動”
隨著科研邁入第五范式,生成式 AI 的快速發展正深刻改變著科研工作的工作方式。如何更加高效地發揮 AI 能力和潛力,助力科學研究提速增效?火山引擎提出了“四輪驅動”戰略,即算力、數據、算法與知識。
張鑫特別強調了知識的重要性。很多企業將數據和知識混為一談,其實不然。數據是客觀的、原始的,而知識則是經過深入理解和加工處理的主觀產物。從數據到知識的轉化,需要借助數據治理、構建知識體系,并結合先進的算法模型,才能產出真正的智慧。
當前的大語言模型主要基于統計原理,往往缺乏對物理世界規則和知識的深入理解,因此存在諸多局限性,如經典的“9.11 和 9.8 誰大”問題便暴露了其不足。因此,大模型也需要領域知識進行增強。
在科研領域,知識的重要性更加凸顯。如何將科學家頭腦中的寶貴經驗以及實驗設計流程的最佳實踐轉化為可量化的知識形態,成為亟待解決的問題。
張鑫表示,算力、算法、數據與知識之間緊密相連,共同構成了科研工作的基石。遵循 DIKW(Data、Information、Knowledge、Wisdom)方法論,將這四個要素協同起來,是推動科研工作不斷前進的關鍵。
通過算力和數據分析,數據被轉化為信息,實現可追溯、可分享、可協作以及可傳承。在此基礎之上,算法與大模型的結合打造出科研 Copilot 和 Agent,助力科研人員迅速篩選出所需的能力和工具,完成知識的提煉。例如,火山引擎推出的科研助手,便能自動化設計實驗并調用相關工具,極大地提升了科研效率。
當知識被提煉出來后,通過大模型與知識圖譜的結合,可以打造出知識聚合體,進一步增強大模型的能力,使其從原本單純依賴數據驅動變得更加“聰明”。這樣,算力、數據、算法與知識四輪協同轉動,共同推動科研工作邁向新的高度。
預見 AI for Science,布局未來
在這個科技日新月異的時代,AI 技術正在迅速滲透到科學研究的各個領域。AI for Science 正逐漸改變著科學研究的范式,推動著科學探索的邊界不斷拓展。在展望 AI for Science 的未來發展趨勢時,張鑫歸納了五大特點。
首先,AI 推理能力將會顯著提升,其回答內容具有更強的可靠性和可追溯性,為科研人員提供堅實的數據支撐。
其次,多模態數據融合的需求日益迫切。科研領域涉及多種類型的數據,如何有效地融合多模態數據,以獲取全面且深入的信息,是至關重要的。
第三,通用 AI 與實驗科學的深度融合。將 AI 技術引入了實驗過程的每一個環節,從實驗過程監控到實驗結果調整優化,AI 都能發揮重要作用,從而推動實驗科學的快速發展。
第四,構建更加開放共享的平臺和生態,方便科研人員獲取和使用數據,同時促進不同機構之間的聯動合作,共同推動科學研究的進步。
最后,倫理和法律問題也是不容忽視的一環。在保障數據隱私性和可靠性的前提下,AI for Science 才能穩健前行,為科學研究注入源源不斷的動力。
針對這些未來趨勢,火山引擎將重點在兩個方面發力。一方面,火山引擎將在廣度上進行拓展,深入研究材料科學、化學、天文等多個領域,為更多企業和科研機構提供加速研究的支持。另一方面,在技術層面,火山引擎將優化大模型能力,不僅通過算法助力科研,還將物理世界的規則和前沿規律等知識注入大模型中,實現 AI for Science 與 Science for AI 的有機結合,形成相互促進的飛輪效應。
AI for Science 不僅為科學研究提供了前所未有的動力,讓科研過程變得更加高效、精準,同時也從科學研究中汲取養分,不斷推動著 AI 技術的邊界拓展與能力提升。科研的道路永無止境,火山引擎也會繼續深耕 AI 技術,拓展科研應用場景,以開放的心態,與科研工作者共同探索未知,解鎖科學的奧秘。