成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

首個自然科學領(lǐng)域大模型DARWIN:超過GPT-4,能自我設(shè)計新材料

人工智能 新聞
最近,來自 UNSW AI Institute 和澳大利亞國家超算中心以及 GreenDynamics 推出了 DARWIN,它是一系列為物理、化學和材料科學應(yīng)用而精心設(shè)計的專業(yè)化大語言模型(LLM),這一系列模型以開源的 LLaMA-7B 為基礎(chǔ),在多個科學任務(wù)中取得了最先進的結(jié)果,旨在通過人工智能驅(qū)動的自動化來增強和加快探索發(fā)現(xiàn)的過程。

隨著技術(shù)的不斷進步,自然科學領(lǐng)域正在發(fā)生一場引人注目的變革。傳統(tǒng)依賴人工和資源密集型的方法正在發(fā)生重大轉(zhuǎn)變,其中人工智能驅(qū)動的自動化方法正得到越來越廣泛的使用。

最近,來自 UNSW AI Institute 和澳大利亞國家超算中心以及 GreenDynamics 推出了 DARWIN,它是一系列為物理、化學和材料科學應(yīng)用而精心設(shè)計的專業(yè)化大語言模型(LLM),這一系列模型以開源的 LLaMA-7B 為基礎(chǔ),在多個科學任務(wù)中取得了最先進的結(jié)果,旨在通過人工智能驅(qū)動的自動化來增強和加快探索發(fā)現(xiàn)的過程。

該研究以「DARWIN Series: Domain Specific Large Language Models for Natural Science」為題,發(fā)布在 arXiv 預(yù)印平臺上。

論文地址:https://arxiv.org/pdf/2308.13565.pdf

Github 鏈接:https://github.com/MasterAI-EAM/Darwin

借助現(xiàn)有的開源大語言模型,DARWIN的研究人員利用開源科學FAIR數(shù)據(jù)集和科學文獻,提取并整合結(jié)構(gòu)化和非結(jié)構(gòu)化的科學知識。研究人員使用 100,000 多個指令數(shù)據(jù)點(instruction data points)對模型進行了微調(diào)(finetuning),生成了多樣化的指令數(shù)據(jù),確保模型輸出內(nèi)容的事實準確性。

在微調(diào)過程中,研究人員引入了科學指令生成(SIG)模型,這是一個從科學文本自動生成指令文本內(nèi)容的系統(tǒng)。實現(xiàn)了基于科學文本的指令自動生成。這樣一來,不僅高效地將科學知識注入模型,也減少了對門檻高,耗時耗力的人工指令構(gòu)建,和領(lǐng)域知識圖譜的需求。此外,研究人員還探索了多任務(wù)訓練(multi-task training)策略,揭示了科學任務(wù)之間的相互聯(lián)系。

在測試環(huán)節(jié),與科學領(lǐng)域的現(xiàn)有基準相比,DARWIN 系列表現(xiàn)出了卓越的性能(見圖 1),這表明它有可能對科學發(fā)現(xiàn)產(chǎn)生變革性的影響。同時,DARWIN的推廣會顯著減少研究者對閉源人工智能模型的依賴。使用 DARWIN 的總體目標包括緩解當前模型的局限性、改進領(lǐng)域模型訓練的方法以及促進科學界人工智能的發(fā)展。

研究人員提出了:

(1)名為 DARWIN 的新型系列大語言模型(LLM Series)。DARWIN標志著科學領(lǐng)域基準測試的性能得到了提高,也顯示著研究人員在利用 LLM 進行科學探索的集體努力中取得了重大進展,進一步確認了 LLM 在加速科學發(fā)現(xiàn)中的潛在作用。

(2)一種經(jīng)濟高效的科學指令生成(SIG)模型。這是建立在高質(zhì)量內(nèi)容的基礎(chǔ)上。將學術(shù)論文(而不是模型產(chǎn)出的文本)納入訓練過程之后,訓練數(shù)據(jù)集的可靠性顯著提高。此外,研究人員還對冗長的文本輸入采用了 「待續(xù)」(to be continued)標記(token)綁定,從而規(guī)避了 LLaMA 固有的輸入標記限制。

(3)一種科學領(lǐng)域訓練模型的開源模式。使用開源基礎(chǔ)模型進行訓練,并使用公共科學基準(benchmark)進行評估,從而確保了該模型的可比較性以及長期使用性。這種開源模式使得模型和代碼更易訪問,大大降低了經(jīng)濟門檻,能夠促進人工智能在整個科學界的發(fā)展。

圖片

圖 1:自然科學任務(wù)中 DARWIN 與 GPT-4 的對比分析??梢园l(fā)現(xiàn),DARWIN在物理、化學、材料科學特殊任務(wù)中的表現(xiàn)要優(yōu)于GPT-4。

自然科學領(lǐng)域缺少開源、專業(yè)的大語言模型

DARWIN誕生之前,以InstructGPT 為代表的指令微調(diào)大語言模型(Instruction-tuned Large Language Models, LLMs)在理解指令和生成類似人類對話的響應(yīng)方面表現(xiàn)出色,因而備受關(guān)注。但基于GPT的微調(diào)模型的核心問題在于,它們?nèi)匀粺o法作為開源方案使用。因此,每個用戶都局限在 OpenAI 的服務(wù)器上單獨對模型進行微調(diào),耗時耗力,經(jīng)濟成本居高不下,在精度上亦不盡如人意。這一缺陷不容小覷,并有可能會阻礙 LLM 推動科學發(fā)現(xiàn)的勢頭。

市面上現(xiàn)有的開源替代方案,如 LLaMA,則需要進一步的在指令數(shù)據(jù)集上微調(diào)。然而,當前指令數(shù)據(jù)集的構(gòu)造方案大多是基于 GPT-3.5 或 GPT-4 自學習(Self-instruct),這會拉低預(yù)測準確率,甚至導致模型崩潰。這個缺陷在自然科學課題的語境下尤為顯著,因為上述模型并不是明確針對材料科學和化學等科學領(lǐng)域設(shè)計的。雖然醫(yī)學領(lǐng)域也有利用知識圖譜生成指令數(shù)據(jù)的例子,但這在自然科學領(lǐng)域并不常見(并非所有子領(lǐng)域都有相應(yīng)的知識圖譜)。而另一種替代方案是使用 GPT-3.5 或 GPT-4對相關(guān)論文進行多輪一問一答訓練,但成本高昂。

具體研究:數(shù)據(jù)集、SIG方法與模型構(gòu)建

為了使DARWIN適用自然科學領(lǐng)域,研究人員在微調(diào)過程中使用了各種與科學相關(guān)的數(shù)據(jù)集。這些數(shù)據(jù)集包括:

(1)科學考試答題數(shù)據(jù)集:SciQ 數(shù)據(jù)集是一個大型眾包科學問答(QA)數(shù)據(jù)集,包含 13679 道科學考試題,涵蓋物理、化學和生物等學科,可提供廣泛而簡單的科學知識。

(2)從科學論文中生成的問題和相應(yīng)答案:利用Web of Science和網(wǎng)絡(luò)抓取工具 SciCrawler,研究人員從Elsevier, Springer Nature, American Chemical Society, and Royal Society of Chemistry等出版商收集了 600 萬篇英語學術(shù)論文,并通過科學指令生成(SIG)模型從論文中生成問題和相應(yīng)答案構(gòu)成基于專業(yè)科學知識的數(shù)據(jù)集。

圖片

圖 2:科學論文數(shù)據(jù)集的構(gòu)成。

(3)FAIR 數(shù)據(jù)集:數(shù)據(jù)集 FAIR 是 「可查找、可訪問、可互操作、可重用」(Findable, Accessible, Interoperable, and Reusable,是一套提高數(shù)據(jù)價值和可訪問性的原則)的縮寫。研究人員收集了 16 個開放獲取的 FAIR 數(shù)據(jù)集(見圖3),涉及物理、化學和材料科學的多學科主題,包括但不限于物理結(jié)構(gòu)、性能、合成甚至材料設(shè)計。

圖片

圖 3:FAIR 數(shù)據(jù)集的構(gòu)成。

研究人員基于以上數(shù)據(jù)集進行建模。對于DARWIN,研究人員利用不同的LLM(LLaMA-7B 和 Vicuna-7B 模型)開發(fā)了一個綜合訓練流水線,以平衡性能和成本。整個訓練路徑涉及DARWIN-SIG,DARWIN-BASE 和 DARWIN-MDP三個 LLM。

首先是DARWIN-SIG(科學指令生成模型),研究人員提出了一種生成訓練數(shù)據(jù)的實用方法——使用開源模型將完整的科學論文轉(zhuǎn)化為問答對(question-answer pairs),并作為訓練指令(instruction)。研究人員利用的是基于知識生成的數(shù)據(jù),這比LLM自生成的訓練數(shù)據(jù)更加可信,也規(guī)避了模型崩潰的風險。

SIG的流程如下:

(1)提示的設(shè)計(Prompt Design):研究人員通過迭代人工檢查以及征求領(lǐng)域?qū)<业囊庖?,為LLM設(shè)計出了有效的提示(prompt),讓 LLM 根據(jù)從科學論文中提取的詳細信息生成問答對。

(2)種子問答生成(Seed QA generation):研究人員從科學論文數(shù)據(jù)集中選取種子論文,其余為訓練論文。種子論文作為輸入,通過對GPT-4進行提示(使用步驟 1 中設(shè)計的提示)生成種子問答對。

(3)DARWIN-SIG:SIG 模型的開發(fā)首先是通過使用種子論文及其相應(yīng)的問答對,從而針對LLM 進行微調(diào)進行開發(fā)而完成的。給定一個提示 p 和輸入文本 x,SIG 生成一組指令 I,每條指令都是與 x 相關(guān)的一對問題和相應(yīng)的答案(q(i), a(i)),也就是SIG(p, x) = I。初始提示(prompt)被轉(zhuǎn)換成指令(instruction),而種子文件則輸入模型。

(4)問答生成訓練(Training QA generation):基于經(jīng)過訓練的 DARWIN-SIG,大量的訓練論文隨即可用作輸入,并以較低的成本自動生成問答對。這些問答對可直接轉(zhuǎn)換為指令數(shù)據(jù)。

基礎(chǔ)模型的選擇中,考慮到 GPT-3.5/4 可能帶來的推理成本,研究人員轉(zhuǎn)而使用開源模型作為訓練生成器。經(jīng)過人工評估,研究人員選擇了 Vicuna-7B 模型作為基礎(chǔ)模型,而不是 LLaMA 或 Alpaca。

第二個考量是長度限制。論文的長度通常超過 2048 個標記符的上限,對于這些較長的論文,研究人員對文本進行了分割,并使用「[TBC]」標記符(見圖4)作為連接器連續(xù)輸入,保證模型輸出問答對與論文內(nèi)容的一致性。

圖片

圖 4:DARWIN-SIG的長文本輸入方法。

研究人員將SIG方法與已有的QA生成方法比較后發(fā)現(xiàn)SIG生成的問題信息量更大,而且與輸入論文的內(nèi)容更相關(guān),更復雜,涵蓋面更廣,包括但不限于與應(yīng)用相關(guān)的屬性、策略的影響、結(jié)構(gòu)差異等。相應(yīng)地,DARWIN-SIG給出的回答細節(jié)豐富具體,會引用原始科學論文中的精確化學元素和數(shù)值。高質(zhì)量的問答生成確保了在冗長的科學論文中保留知識要點。

對于DARWIN-BASE的建模,研究人員基于SciQ 數(shù)據(jù)集為 DARWIN 生成了基于知識的指令數(shù)據(jù),并生成了問答對。SciQ 數(shù)據(jù)集中的答案包括正確選項,提供了強有力的支持,可用作背景知識輸入或推理過程的解釋。

由此,研究人員生成了一組混合式的指令數(shù)據(jù),按難度遞增排列,其模式為:

(1)單輪問答,即模型根據(jù)問題和提供的背景知識選擇答案;

(2)單輪問答,即模型根據(jù)問題選擇答案,同時為所選答案提供解釋;

(3)多輪對話,即模型根據(jù)問題選擇答案,并針對用戶的后續(xù)問題為所選答案提供解釋。

在沒有任何輸入的情況下,每個問題為一條指令,其對應(yīng)的答案為輸出。研究人員使用SciQ和SIG生成的基于知識的指令數(shù)據(jù)對 LLaMA-7B 模型進行了微調(diào),共計超過 20,000 個實例。從而開發(fā)出 DARWIN-BASE,一個能夠進行科學問題解答的模型,在SciQ測試集上達到96.9%的準確率。

最后是DARWIN-MDP建模。除了可以執(zhí)行科學問答任務(wù)的 DARWIN 之外,研究人員還使用了 16 個 FAIR 數(shù)據(jù)集來生成其他指令,以進一步微調(diào) DARWIN-BASE,使其可以執(zhí)行材料與設(shè)備預(yù)測任務(wù)(Material & Device Predictions tasks, MDP),如分類、回歸和設(shè)計等,形成DARWIN-MDP。

分類(classification):科學語言模型的分類任務(wù)包括將科學文本數(shù)據(jù)歸類或標記為預(yù)定義的類別。例如,DARWIN-MDP 可以根據(jù)化合物的特性(如溶解性、毒性或穩(wěn)定性)進行分類訓練。這有助于藥物發(fā)現(xiàn)、材料科學或化學工程應(yīng)用。

圖 5:分類實例。

回歸(regression):比分類要求更高的任務(wù)是開發(fā)能夠預(yù)測連續(xù)屬性值的回歸模型,雖然 LLM 無法在回歸任務(wù)中預(yù)測高精度的實數(shù),但通過在訓練過程中采用四舍五入值,它們?nèi)阅墚a(chǎn)生可接受精度的預(yù)測結(jié)果。對于設(shè)備性能數(shù)據(jù),小數(shù)點后兩位數(shù)的精度已經(jīng)足夠。

圖片

圖 6:回歸實例。

逆向設(shè)計(inverse design):在材料科學領(lǐng)域,逆向設(shè)計指的是一種計算方法,旨在通過從所需特性或功能逆向設(shè)計新材料或優(yōu)化現(xiàn)有材料——從一組所需的特性或性能目標開始,設(shè)法確定能展現(xiàn)這些特性的材料結(jié)構(gòu)或成分。通過利用逆向設(shè)計技術(shù),研究人員有可能發(fā)現(xiàn)具有量身定制特性的新型材料,而傳統(tǒng)的實驗方法難以發(fā)現(xiàn)這些新特性或耗時較長。逆向設(shè)計在材料科學的各個領(lǐng)域都大有可為,包括光伏、催化劑、電池、熱電材料等。

圖片

圖 7:逆向設(shè)計實例。

DARWIN的性能與專業(yè)機器學習模型相媲美

為了證明 DARWIN 在不同任務(wù)中的性能,研究人員將 DARWIN 與兩個基準模型(baseline models)進行了比較。

(1)LLaMA 是 Meta AI 發(fā)布的 LLM,有 70 億到 650 億個參數(shù)的不同模型大小。由于 LLaMA-7B 易于訓練,研究人員將其作為基礎(chǔ)模型。

(2)GPT-3 是 OpenAI 創(chuàng)建的第三代語言模型,擁有 1750 億個參數(shù)。

除了上述兩個基準模型外,研究人員還參考了幾個SOTA的專業(yè)機器學習模型的結(jié)果,如 MODNet (v0.1.1)、MolCLR 和 AMMExpress v2020。這些結(jié)果來自 matbench。值得注意的是,上述每個機器學習模型都是在特定的 FAIR 數(shù)據(jù)集上單獨訓練的。

表 1:回歸任務(wù)中 DARWIN 和 SOTA 模型的比較評估(MAE)。

表 2:分類任務(wù)中 DARWIN 和 SOTA 模型的比較評估(F1 分數(shù))。

表 1 和表 2 列出了 DARWIN-MDP 模型在各種回歸和分類任務(wù)中的性能指標。值得注意的是,在大多數(shù)回歸任務(wù)中,DARWIN-MDP 的平均絕對誤差(MAE)最低,而在大多數(shù)分類任務(wù)中,DARWIN-MDP 的 F1 分數(shù)最高。

通過比較 LLaMA-single 和 LLaMA-all,研究人員發(fā)現(xiàn)對多個MDP任務(wù)一起進行微調(diào)(LLaMA-all)比對單個MDP任務(wù)分別進行微調(diào)(LLaMA-single)性能更優(yōu)。這凸顯了多任務(wù)學習在增強模型整體能力方面的有效性。

此外,在將 LLaMA-all (在LLaMA上多個MDP任務(wù)一起進行微調(diào))與 DARWIN-MDP 進行比較時,研究人員發(fā)現(xiàn)對科學知識的初始階段微調(diào)促進了性能的進一步提高,凸顯了特定領(lǐng)域知識訓練的重要性。

最后,研究人員發(fā)現(xiàn)DARWIN-MDP 的性能可與特定任務(wù)的專用機器學習模型相媲美,這提供了一種新穎的材料設(shè)計方法,只需簡單提示(prompt),一個模型就能完成多項科學任務(wù)。

綜上,研究結(jié)果顯示DARWIN 系列表現(xiàn)出了卓越的性能,驗證了特定領(lǐng)域微調(diào)和多任務(wù)學習的有效性,展現(xiàn)了大語言模型在科學任務(wù)中的潛力。

DARWIN在自然科學研究中極富潛力

該研究將現(xiàn)有的知識庫有效地融入了大語言模型,提出了 DARWIN 系列大語言模型,該系列在多個科學任務(wù)中取得了 SOTA 結(jié)果。研究人員采用科學領(lǐng)域的開源數(shù)據(jù)構(gòu)建訓練數(shù)據(jù),還引入了 SIG 模型自動提取來自大型論文語料庫的知識。此外,研究人員還探索了不同的多任務(wù)訓練策略,發(fā)現(xiàn)首先對基于知識的問題和答案進行訓練可以提高在 FAIR 數(shù)據(jù)集上的預(yù)測性能,而且將多個任務(wù)結(jié)合起來證明比單獨訓練更有效,從而凸顯了看似獨立的任務(wù)之間的內(nèi)在聯(lián)系。研究人員正在探索更好的知識質(zhì)量評估方法,并不斷地使用科學論文擴充知識數(shù)據(jù)集,進一步提高模型性能。

DARWIN這一開源范式在數(shù)據(jù)集構(gòu)建,任務(wù)構(gòu)建和大模型訓練策略上提供了新的思路,為科學研究與大語言模型的互動提供了指導。該研究為大語言模型在自然科學領(lǐng)域的進一步應(yīng)用鋪平道路,促進 AI for Science的整體繁榮。

GreenDynamics 官網(wǎng):https://www.greendynamics.com.au/greendynamics

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2022-08-27 15:13:48

人工智能計算機自然科學

2023-06-21 13:37:41

模型研究

2023-12-18 15:16:47

數(shù)據(jù)模型

2023-08-24 13:59:57

模型數(shù)據(jù)

2023-11-18 09:43:46

人工智能模型

2023-06-08 11:27:10

模型AI

2021-11-09 09:58:10

AI 數(shù)據(jù)人工智能

2023-06-19 08:19:50

2023-10-12 14:18:06

2024-04-02 11:17:18

2023-04-12 16:23:00

GPT-4代碼

2025-04-16 09:35:03

2023-06-05 12:32:48

模型論文

2023-12-26 08:17:23

微軟GPT-4

2023-08-10 15:35:33

論文指數(shù)

2023-05-23 09:34:16

科學家AI

2024-06-28 13:40:03

2023-12-04 12:56:08

AI數(shù)據(jù)

2023-04-04 11:20:40

GPT-4OpenAI

2023-12-09 13:32:21

GPT-4MoE架構(gòu)開源大模型
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产精品久久久99 | 丁香久久 | 欧美精品一区二区三区在线播放 | 欧美日本一区二区 | 操操操操操 | 欧美黄在线观看 | 久久国产精品视频 | 亚洲成人一区二区在线 | 亚洲精品一区二区在线观看 | 午夜精品一区二区三区在线播放 | 国产一区二区成人 | 中国黄色毛片视频 | 国产精品一区二区不卡 | 国色天香综合网 | 精品一区二区视频 | 激情综合五月天 | 国产色黄| 97人人草 | 免费成人高清在线视频 | 狠狠入ady亚洲精品经典电影 | 先锋av资源在线 | 成人在线影视 | 欧美一级欧美三级在线观看 | 97精品超碰一区二区三区 | 成人在线欧美 | 免费观看毛片 | 国产日韩欧美精品一区二区三区 | 欧美八区 | 国产高清在线精品一区二区三区 | 国产精品亚洲综合 | 中文字幕一区二区三区乱码在线 | 成人国产精品久久 | 欧美一区在线看 | 伊人网站视频 | 日韩国产免费观看 | 91精品综合久久久久久五月天 | 成人在线免费观看视频 | 国产精品久久久久久久久久久久午夜片 | 91精品国产91久久久久久不卞 | 日韩中文字幕在线播放 | 狠狠干综合视频 |