成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<mark id="picer"></mark>

<label id="picer"></label>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

首個自然科學領(lǐng)域大模型DARWIN：超過GPT-4，能自我設(shè)計新材料

2023-09-02 11:24:02

人工智能新聞

最近，來自 UNSW AI Institute 和澳大利亞國家超算中心以及 GreenDynamics 推出了 DARWIN，它是一系列為物理、化學和材料科學應(yīng)用而精心設(shè)計的專業(yè)化大語言模型（LLM），這一系列模型以開源的 LLaMA-7B 為基礎(chǔ)，在多個科學任務(wù)中取得了最先進的結(jié)果，旨在通過人工智能驅(qū)動的自動化來增強和加快探索發(fā)現(xiàn)的過程。

隨著技術(shù)的不斷進步，自然科學領(lǐng)域正在發(fā)生一場引人注目的變革。傳統(tǒng)依賴人工和資源密集型的方法正在發(fā)生重大轉(zhuǎn)變，其中人工智能驅(qū)動的自動化方法正得到越來越廣泛的使用。

最近，來自 UNSW AI Institute 和澳大利亞國家超算中心以及 GreenDynamics 推出了 DARWIN，它是一系列為物理、化學和材料科學應(yīng)用而精心設(shè)計的專業(yè)化大語言模型（LLM），這一系列模型以開源的 LLaMA-7B 為基礎(chǔ)，在多個科學任務(wù)中取得了最先進的結(jié)果，旨在通過人工智能驅(qū)動的自動化來增強和加快探索發(fā)現(xiàn)的過程。

該研究以「DARWIN Series: Domain Specific Large Language Models for Natural Science」為題，發(fā)布在 arXiv 預(yù)印平臺上。

論文地址：https://arxiv.org/pdf/2308.13565.pdf

Github 鏈接：https://github.com/MasterAI-EAM/Darwin

借助現(xiàn)有的開源大語言模型，DARWIN的研究人員利用開源科學FAIR數(shù)據(jù)集和科學文獻，提取并整合結(jié)構(gòu)化和非結(jié)構(gòu)化的科學知識。研究人員使用 100,000 多個指令數(shù)據(jù)點（instruction data points）對模型進行了微調(diào)（finetuning），生成了多樣化的指令數(shù)據(jù)，確保模型輸出內(nèi)容的事實準確性。

在微調(diào)過程中，研究人員引入了科學指令生成（SIG）模型，這是一個從科學文本自動生成指令文本內(nèi)容的系統(tǒng)。實現(xiàn)了基于科學文本的指令自動生成。這樣一來，不僅高效地將科學知識注入模型，也減少了對門檻高，耗時耗力的人工指令構(gòu)建，和領(lǐng)域知識圖譜的需求。此外，研究人員還探索了多任務(wù)訓練（multi-task training）策略，揭示了科學任務(wù)之間的相互聯(lián)系。

在測試環(huán)節(jié)，與科學領(lǐng)域的現(xiàn)有基準相比，DARWIN 系列表現(xiàn)出了卓越的性能（見圖 1），這表明它有可能對科學發(fā)現(xiàn)產(chǎn)生變革性的影響。同時，DARWIN的推廣會顯著減少研究者對閉源人工智能模型的依賴。使用 DARWIN 的總體目標包括緩解當前模型的局限性、改進領(lǐng)域模型訓練的方法以及促進科學界人工智能的發(fā)展。

研究人員提出了：

（1）名為 DARWIN 的新型系列大語言模型（LLM Series）。DARWIN標志著科學領(lǐng)域基準測試的性能得到了提高,也顯示著研究人員在利用 LLM 進行科學探索的集體努力中取得了重大進展，進一步確認了 LLM 在加速科學發(fā)現(xiàn)中的潛在作用。

（2）一種經(jīng)濟高效的科學指令生成（SIG）模型。這是建立在高質(zhì)量內(nèi)容的基礎(chǔ)上。將學術(shù)論文（而不是模型產(chǎn)出的文本）納入訓練過程之后，訓練數(shù)據(jù)集的可靠性顯著提高。此外，研究人員還對冗長的文本輸入采用了「待續(xù)」（to be continued）標記（token）綁定，從而規(guī)避了 LLaMA 固有的輸入標記限制。

（3）一種科學領(lǐng)域訓練模型的開源模式。使用開源基礎(chǔ)模型進行訓練，并使用公共科學基準（benchmark）進行評估，從而確保了該模型的可比較性以及長期使用性。這種開源模式使得模型和代碼更易訪問，大大降低了經(jīng)濟門檻，能夠促進人工智能在整個科學界的發(fā)展。

圖 1：自然科學任務(wù)中 DARWIN 與 GPT-4 的對比分析?？梢园l(fā)現(xiàn)，DARWIN在物理、化學、材料科學特殊任務(wù)中的表現(xiàn)要優(yōu)于GPT-4。

自然科學領(lǐng)域缺少開源、專業(yè)的大語言模型

DARWIN誕生之前，以InstructGPT 為代表的指令微調(diào)大語言模型（Instruction-tuned Large Language Models, LLMs）在理解指令和生成類似人類對話的響應(yīng)方面表現(xiàn)出色，因而備受關(guān)注。但基于GPT的微調(diào)模型的核心問題在于，它們?nèi)匀粺o法作為開源方案使用。因此，每個用戶都局限在 OpenAI 的服務(wù)器上單獨對模型進行微調(diào)，耗時耗力，經(jīng)濟成本居高不下，在精度上亦不盡如人意。這一缺陷不容小覷，并有可能會阻礙 LLM 推動科學發(fā)現(xiàn)的勢頭。

市面上現(xiàn)有的開源替代方案，如 LLaMA，則需要進一步的在指令數(shù)據(jù)集上微調(diào)。然而，當前指令數(shù)據(jù)集的構(gòu)造方案大多是基于 GPT-3.5 或 GPT-4 自學習（Self-instruct），這會拉低預(yù)測準確率，甚至導致模型崩潰。這個缺陷在自然科學課題的語境下尤為顯著，因為上述模型并不是明確針對材料科學和化學等科學領(lǐng)域設(shè)計的。雖然醫(yī)學領(lǐng)域也有利用知識圖譜生成指令數(shù)據(jù)的例子，但這在自然科學領(lǐng)域并不常見（并非所有子領(lǐng)域都有相應(yīng)的知識圖譜）。而另一種替代方案是使用 GPT-3.5 或 GPT-4對相關(guān)論文進行多輪一問一答訓練，但成本高昂。

具體研究：數(shù)據(jù)集、SIG方法與模型構(gòu)建

為了使DARWIN適用自然科學領(lǐng)域，研究人員在微調(diào)過程中使用了各種與科學相關(guān)的數(shù)據(jù)集。這些數(shù)據(jù)集包括：

（1）科學考試答題數(shù)據(jù)集：SciQ 數(shù)據(jù)集是一個大型眾包科學問答（QA）數(shù)據(jù)集，包含 13679 道科學考試題，涵蓋物理、化學和生物等學科，可提供廣泛而簡單的科學知識。

（2）從科學論文中生成的問題和相應(yīng)答案：利用Web of Science和網(wǎng)絡(luò)抓取工具 SciCrawler，研究人員從Elsevier, Springer Nature, American Chemical Society, and Royal Society of Chemistry等出版商收集了 600 萬篇英語學術(shù)論文，并通過科學指令生成（SIG）模型從論文中生成問題和相應(yīng)答案構(gòu)成基于專業(yè)科學知識的數(shù)據(jù)集。

圖 2：科學論文數(shù)據(jù)集的構(gòu)成。

（3）FAIR 數(shù)據(jù)集：數(shù)據(jù)集 FAIR 是「可查找、可訪問、可互操作、可重用」（Findable, Accessible, Interoperable, and Reusable，是一套提高數(shù)據(jù)價值和可訪問性的原則）的縮寫。研究人員收集了 16 個開放獲取的 FAIR 數(shù)據(jù)集（見圖3），涉及物理、化學和材料科學的多學科主題，包括但不限于物理結(jié)構(gòu)、性能、合成甚至材料設(shè)計。

圖 3：FAIR 數(shù)據(jù)集的構(gòu)成。

研究人員基于以上數(shù)據(jù)集進行建模。對于DARWIN，研究人員利用不同的LLM（LLaMA-7B 和 Vicuna-7B 模型）開發(fā)了一個綜合訓練流水線，以平衡性能和成本。整個訓練路徑涉及DARWIN-SIG，DARWIN-BASE 和 DARWIN-MDP三個 LLM。

首先是DARWIN-SIG（科學指令生成模型），研究人員提出了一種生成訓練數(shù)據(jù)的實用方法——使用開源模型將完整的科學論文轉(zhuǎn)化為問答對（question-answer pairs），并作為訓練指令（instruction）。研究人員利用的是基于知識生成的數(shù)據(jù)，這比LLM自生成的訓練數(shù)據(jù)更加可信，也規(guī)避了模型崩潰的風險。

SIG的流程如下：

（1）提示的設(shè)計（Prompt Design）：研究人員通過迭代人工檢查以及征求領(lǐng)域?qū)＜业囊庖?，為LLM設(shè)計出了有效的提示（prompt），讓 LLM 根據(jù)從科學論文中提取的詳細信息生成問答對。

（2）種子問答生成（Seed QA generation）：研究人員從科學論文數(shù)據(jù)集中選取種子論文，其余為訓練論文。種子論文作為輸入，通過對GPT-4進行提示（使用步驟 1 中設(shè)計的提示）生成種子問答對。

（3）DARWIN-SIG：SIG 模型的開發(fā)首先是通過使用種子論文及其相應(yīng)的問答對，從而針對LLM 進行微調(diào)進行開發(fā)而完成的。給定一個提示 p 和輸入文本 x，SIG 生成一組指令 I，每條指令都是與 x 相關(guān)的一對問題和相應(yīng)的答案（q(i), a(i)），也就是SIG(p, x) = I。初始提示（prompt）被轉(zhuǎn)換成指令（instruction），而種子文件則輸入模型。

（4）問答生成訓練（Training QA generation）：基于經(jīng)過訓練的 DARWIN-SIG，大量的訓練論文隨即可用作輸入，并以較低的成本自動生成問答對。這些問答對可直接轉(zhuǎn)換為指令數(shù)據(jù)。

基礎(chǔ)模型的選擇中，考慮到 GPT-3.5/4 可能帶來的推理成本，研究人員轉(zhuǎn)而使用開源模型作為訓練生成器。經(jīng)過人工評估，研究人員選擇了 Vicuna-7B 模型作為基礎(chǔ)模型，而不是 LLaMA 或 Alpaca。

第二個考量是長度限制。論文的長度通常超過 2048 個標記符的上限，對于這些較長的論文，研究人員對文本進行了分割，并使用「[TBC]」標記符（見圖4）作為連接器連續(xù)輸入，保證模型輸出問答對與論文內(nèi)容的一致性。

圖 4：DARWIN-SIG的長文本輸入方法。

研究人員將SIG方法與已有的QA生成方法比較后發(fā)現(xiàn)SIG生成的問題信息量更大，而且與輸入論文的內(nèi)容更相關(guān)，更復雜，涵蓋面更廣，包括但不限于與應(yīng)用相關(guān)的屬性、策略的影響、結(jié)構(gòu)差異等。相應(yīng)地，DARWIN-SIG給出的回答細節(jié)豐富具體，會引用原始科學論文中的精確化學元素和數(shù)值。高質(zhì)量的問答生成確保了在冗長的科學論文中保留知識要點。

對于DARWIN-BASE的建模，研究人員基于SciQ 數(shù)據(jù)集為 DARWIN 生成了基于知識的指令數(shù)據(jù)，并生成了問答對。SciQ 數(shù)據(jù)集中的答案包括正確選項，提供了強有力的支持，可用作背景知識輸入或推理過程的解釋。

由此，研究人員生成了一組混合式的指令數(shù)據(jù)，按難度遞增排列，其模式為：

（1）單輪問答，即模型根據(jù)問題和提供的背景知識選擇答案；

（2）單輪問答，即模型根據(jù)問題選擇答案，同時為所選答案提供解釋；

（3）多輪對話，即模型根據(jù)問題選擇答案，并針對用戶的后續(xù)問題為所選答案提供解釋。

在沒有任何輸入的情況下，每個問題為一條指令，其對應(yīng)的答案為輸出。研究人員使用SciQ和SIG生成的基于知識的指令數(shù)據(jù)對 LLaMA-7B 模型進行了微調(diào)，共計超過 20,000 個實例。從而開發(fā)出 DARWIN-BASE，一個能夠進行科學問題解答的模型，在SciQ測試集上達到96.9%的準確率。

最后是DARWIN-MDP建模。除了可以執(zhí)行科學問答任務(wù)的 DARWIN 之外，研究人員還使用了 16 個 FAIR 數(shù)據(jù)集來生成其他指令，以進一步微調(diào) DARWIN-BASE，使其可以執(zhí)行材料與設(shè)備預(yù)測任務(wù)（Material & Device Predictions tasks, MDP），如分類、回歸和設(shè)計等，形成DARWIN-MDP。

分類（classification）：科學語言模型的分類任務(wù)包括將科學文本數(shù)據(jù)歸類或標記為預(yù)定義的類別。例如，DARWIN-MDP 可以根據(jù)化合物的特性（如溶解性、毒性或穩(wěn)定性）進行分類訓練。這有助于藥物發(fā)現(xiàn)、材料科學或化學工程應(yīng)用。

圖 5：分類實例。

回歸（regression）：比分類要求更高的任務(wù)是開發(fā)能夠預(yù)測連續(xù)屬性值的回歸模型，雖然 LLM 無法在回歸任務(wù)中預(yù)測高精度的實數(shù)，但通過在訓練過程中采用四舍五入值，它們?nèi)阅墚a(chǎn)生可接受精度的預(yù)測結(jié)果。對于設(shè)備性能數(shù)據(jù)，小數(shù)點后兩位數(shù)的精度已經(jīng)足夠。

圖 6：回歸實例。

逆向設(shè)計（inverse design）：在材料科學領(lǐng)域，逆向設(shè)計指的是一種計算方法，旨在通過從所需特性或功能逆向設(shè)計新材料或優(yōu)化現(xiàn)有材料——從一組所需的特性或性能目標開始，設(shè)法確定能展現(xiàn)這些特性的材料結(jié)構(gòu)或成分。通過利用逆向設(shè)計技術(shù)，研究人員有可能發(fā)現(xiàn)具有量身定制特性的新型材料，而傳統(tǒng)的實驗方法難以發(fā)現(xiàn)這些新特性或耗時較長。逆向設(shè)計在材料科學的各個領(lǐng)域都大有可為，包括光伏、催化劑、電池、熱電材料等。

圖 7：逆向設(shè)計實例。

DARWIN的性能與專業(yè)機器學習模型相媲美

為了證明 DARWIN 在不同任務(wù)中的性能，研究人員將 DARWIN 與兩個基準模型（baseline models）進行了比較。

（1）LLaMA 是 Meta AI 發(fā)布的 LLM，有 70 億到 650 億個參數(shù)的不同模型大小。由于 LLaMA-7B 易于訓練，研究人員將其作為基礎(chǔ)模型。

（2）GPT-3 是 OpenAI 創(chuàng)建的第三代語言模型，擁有 1750 億個參數(shù)。

除了上述兩個基準模型外，研究人員還參考了幾個SOTA的專業(yè)機器學習模型的結(jié)果，如 MODNet (v0.1.1)、MolCLR 和 AMMExpress v2020。這些結(jié)果來自 matbench。值得注意的是，上述每個機器學習模型都是在特定的 FAIR 數(shù)據(jù)集上單獨訓練的。

表 1：回歸任務(wù)中 DARWIN 和 SOTA 模型的比較評估（MAE）。

表 2：分類任務(wù)中 DARWIN 和 SOTA 模型的比較評估（F1 分數(shù)）。

表 1 和表 2 列出了 DARWIN-MDP 模型在各種回歸和分類任務(wù)中的性能指標。值得注意的是，在大多數(shù)回歸任務(wù)中，DARWIN-MDP 的平均絕對誤差（MAE）最低，而在大多數(shù)分類任務(wù)中，DARWIN-MDP 的 F1 分數(shù)最高。

通過比較 LLaMA-single 和 LLaMA-all，研究人員發(fā)現(xiàn)對多個MDP任務(wù)一起進行微調(diào)（LLaMA-all）比對單個MDP任務(wù)分別進行微調(diào)（LLaMA-single）性能更優(yōu)。這凸顯了多任務(wù)學習在增強模型整體能力方面的有效性。

此外，在將 LLaMA-all （在LLaMA上多個MDP任務(wù)一起進行微調(diào)）與 DARWIN-MDP 進行比較時，研究人員發(fā)現(xiàn)對科學知識的初始階段微調(diào)促進了性能的進一步提高，凸顯了特定領(lǐng)域知識訓練的重要性。

最后，研究人員發(fā)現(xiàn)DARWIN-MDP 的性能可與特定任務(wù)的專用機器學習模型相媲美，這提供了一種新穎的材料設(shè)計方法，只需簡單提示（prompt），一個模型就能完成多項科學任務(wù)。

綜上，研究結(jié)果顯示DARWIN 系列表現(xiàn)出了卓越的性能，驗證了特定領(lǐng)域微調(diào)和多任務(wù)學習的有效性，展現(xiàn)了大語言模型在科學任務(wù)中的潛力。

DARWIN在自然科學研究中極富潛力

該研究將現(xiàn)有的知識庫有效地融入了大語言模型，提出了 DARWIN 系列大語言模型，該系列在多個科學任務(wù)中取得了 SOTA 結(jié)果。研究人員采用科學領(lǐng)域的開源數(shù)據(jù)構(gòu)建訓練數(shù)據(jù)，還引入了 SIG 模型自動提取來自大型論文語料庫的知識。此外，研究人員還探索了不同的多任務(wù)訓練策略，發(fā)現(xiàn)首先對基于知識的問題和答案進行訓練可以提高在 FAIR 數(shù)據(jù)集上的預(yù)測性能，而且將多個任務(wù)結(jié)合起來證明比單獨訓練更有效，從而凸顯了看似獨立的任務(wù)之間的內(nèi)在聯(lián)系。研究人員正在探索更好的知識質(zhì)量評估方法，并不斷地使用科學論文擴充知識數(shù)據(jù)集，進一步提高模型性能。

DARWIN這一開源范式在數(shù)據(jù)集構(gòu)建，任務(wù)構(gòu)建和大模型訓練策略上提供了新的思路，為科學研究與大語言模型的互動提供了指導。該研究為大語言模型在自然科學領(lǐng)域的進一步應(yīng)用鋪平道路，促進 AI for Science的整體繁榮。

GreenDynamics 官網(wǎng)：https://www.greendynamics.com.au/greendynamics

責任編輯：張燕妮來源：機器之心

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

主站蜘蛛池模板：国产精品久久久99 | 丁香久久 | 欧美精品一区二区三区在线播放 | 欧美日本一区二区 | 操操操操操 | 欧美黄在线观看 | 久久国产精品视频 | 亚洲成人一区二区在线 | 亚洲精品一区二区在线观看 | 午夜精品一区二区三区在线播放 | 国产一区二区成人 | 中国黄色毛片视频 | 国产精品一区二区不卡 | 国色天香综合网 | 精品一区二区视频 | 激情综合五月天 | 国产色黄| 97人人草 | 免费成人高清在线视频 | 狠狠入ady亚洲精品经典电影 | 先锋av资源在线 | 成人在线影视 | 欧美一级欧美三级在线观看 | 97精品超碰一区二区三区 | 成人在线欧美 | 免费观看毛片 | 国产日韩欧美精品一区二区三区 | 欧美八区 | 国产高清在线精品一区二区三区 | 国产精品亚洲综合 | 中文字幕一区二区三区乱码在线 | 成人国产精品久久 | 欧美一区在线看 | 伊人网站视频 | 日韩国产免费观看 | 91精品综合久久久久久五月天 | 成人在线免费观看视频 | 国产精品久久久久久久久久久久午夜片 | 91精品国产91久久久久久不卞 | 日韩中文字幕在线播放 | 狠狠干综合视频 |

<kbd id="hhbnh"><listing id="hhbnh"><u id="hhbnh"></u></listing></kbd>

<noscript id="hhbnh"></noscript>