成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Claude 3再次登頂!化學(xué)專業(yè)一騎絕塵,全面碾壓GPT-4

人工智能
Claude 3在通用任務(wù)上是全球最強已經(jīng)毋庸置疑。更令人驚嘆的是,它在專業(yè)領(lǐng)域的表現(xiàn),比如化學(xué)任務(wù),也能遠遠領(lǐng)先GPT-4。

Claude 3的誕生又一次震驚了全世界。

Claude 3 Opus,Claude 3中最智能的模型,在大多數(shù)常見的人工智能系統(tǒng)評估基準測試中表現(xiàn)優(yōu)異,包括本科水平專家知識(MMLU)、研究生水平專家推理(GPQA)、基礎(chǔ)數(shù)學(xué)(GSM8K)等。

圖片圖片

但在特定的專業(yè)領(lǐng)域,它的表現(xiàn)卻是一個未知數(shù)。

比如化學(xué),化學(xué)在藥物發(fā)現(xiàn)和材料科學(xué)等領(lǐng)域發(fā)揮著至關(guān)重要的作用,但現(xiàn)有研究顯示它們在化學(xué)任務(wù)上的性能令人沮喪。

指令微調(diào)讓LLM完成化學(xué)任務(wù)成為可能

近日,一支來自O(shè)SU的團隊構(gòu)建了一個專門針對化學(xué)任務(wù)指令微調(diào)的數(shù)據(jù)集,命名為SMolInstruct。

圖片圖片

論文地址:https://arxiv.org/pdf/2402.09391.pdf

該SMolInstruct測試集涵蓋了14種任務(wù),包括名稱轉(zhuǎn)換、屬性預(yù)測、分子描述、分子生成、正向合成和逆向合成等,這些專業(yè)任務(wù)經(jīng)過精心挑選,以建立堅實的化學(xué)基礎(chǔ)。

它同時包含340萬個不同的樣本和160萬個不同的分子,涵蓋了各種大小、結(jié)構(gòu)和性質(zhì)的化合物,展示了廣泛的化學(xué)知識覆蓋范圍。這些樣本都經(jīng)過嚴格的處理步驟,排除了有問題和低質(zhì)量的樣本。

圖片圖片

然后,他們在SMolInstruct數(shù)據(jù)集上對四個開源LLM(Galactica、Llama 2、Code Llama和Mistral)進行微調(diào),創(chuàng)建了一系列專門用于化學(xué)任務(wù)的LLM,稱為LlaSMol。

論文中,主要將LlaSMol模型與兩種類型的模型進行比較:

  1. 未在SMolInstruct上進行微調(diào)的LLM
  2. SOTA任務(wù)特定模型

結(jié)果顯示,LlaSMol在所有任務(wù)上都顯著優(yōu)于現(xiàn)有的LLM,包括GPT-4。

例如,將SMILES轉(zhuǎn)換為分子式的準確率達到94.5%,而GPT-4僅為16.4%;對于逆合成任務(wù),準確率達到32.9%,而GPT-4僅為0%,并接近最先進的任務(wù)特定模型SOTA。

這凸顯了SMolInstruct數(shù)據(jù)集的有效性和微調(diào)的好處。

圖片圖片

這個結(jié)果是合理的,雖然GPT-4很強大,但它畢竟是通用模型,很難直接和經(jīng)過特定的任務(wù)及樣本微調(diào)的LlaSMol去對抗。

但經(jīng)過微調(diào)的LLM表現(xiàn)已經(jīng)逼近非LLM的任務(wù)特定模型,還是展現(xiàn)了LLM的巨大潛力。

不僅如此,四個LlaSMol模型在性能上表現(xiàn)出顯著差異,也強調(diào)出了基礎(chǔ)模型對下游任務(wù)的重要影響。

Claude 3在專業(yè)化學(xué)領(lǐng)域仍舊領(lǐng)先

Claude 3一經(jīng)推出,該團隊便在SMolInstruct 該基準測試上對于Claude 3 Opus同樣進行了實驗。

雖然與LlaSMol還是有差距,但在大多數(shù)任務(wù)中,Claude 3的表現(xiàn)遠遠超過GPT-4。

圖片圖片

雖然在其中的一個名稱轉(zhuǎn)換任務(wù)S2F中,也就是一個將用于表示分子結(jié)構(gòu)的文本字符串轉(zhuǎn)換為分子式去計算原子數(shù)量的任務(wù),Claude 3要比GPT-4差得多,但大多數(shù)任務(wù)的大幅領(lǐng)先還是展現(xiàn)了Claude 3在專業(yè)領(lǐng)域?qū)W習(xí)能力上的優(yōu)越性。

Anthropic在官網(wǎng)介紹Claude 3時,用了「smarter, faster, safer」去描述大模型智能的未來潛力。

而我們在化學(xué)特定任務(wù)上,已經(jīng)可以感受到了Opus作為通用模型,學(xué)習(xí)的速度之快,能力之強。

LLM超越任務(wù)特定模型,指日可待

在SMolInstruct原論文的結(jié)尾,作者也表達了對在化學(xué)領(lǐng)域,LLM能夠超越任務(wù)特定模型的期許和展望。

圖片圖片

任務(wù)特定模型畢竟是基于固定的輸入,它們被優(yōu)化以執(zhí)行其特定任務(wù),通常在大小和復(fù)雜性上都較小,而且在跨知識共享的任務(wù)中很難有好的表現(xiàn)。

而LLM有更多的參數(shù)和模型結(jié)構(gòu),可以在學(xué)習(xí)中進化,也能快速適應(yīng)新的需求。

不可否認的是,經(jīng)過微調(diào)的LLM更多的在專業(yè)領(lǐng)域上趕超任務(wù)特定模型,目前非常依賴于微調(diào)指令的完整性、全面性、準確性。

但若以發(fā)展的眼光來比較兩種模型,尤其是在我們已經(jīng)感受到Claude 3可怕的成長速度之后。

可以預(yù)想到,作為通用模型來設(shè)計的LLM,會在專業(yè)領(lǐng)域逐漸爆發(fā)。

參考資料:

https://twitter.com/hhsun1/status/1766656199083098134

https://www.anthropic.com/news/claude-3-family

https://arxiv.org/pdf/2402.09391.pdf

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2023-01-12 12:10:00

亞馬遜云計算

2024-03-27 13:32:00

AI數(shù)據(jù)

2011-01-24 15:52:32

金山網(wǎng)絡(luò)T盤T盤

2025-04-21 03:03:00

2024-03-27 15:37:24

2023-10-11 06:46:11

全球PC聯(lián)想

2013-01-25 09:34:29

2025-05-07 13:57:05

谷歌I/O版視覺

2024-05-08 07:28:06

LLMLinguaLLM大型語言模型

2024-04-12 17:41:28

GPT-4TurboClaude

2019-03-29 15:52:23

弘和人工智能交通違法

2021-08-27 10:50:30

編程語言開發(fā)Python

2024-05-13 07:14:03

GPT-4生成式AIAI模型

2024-03-05 11:17:40

AI模型

2024-03-28 14:26:51

人工智能

2023-06-19 08:19:50

2023-06-25 09:38:04

GPT-4研究

2024-12-09 08:00:00

AI大模型人工智能

2023-05-05 09:42:12

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 美女视频久久 | 婷婷综合网 | av网站在线看 | 一区二区中文 | 99国内精品久久久久久久 | 日韩三级| 国产欧美在线视频 | 国产精品久久 | 日韩欧美在线精品 | 99re| 国产精品久久久久久久7777 | 精品一区二区三区中文字幕 | 日本精品视频 | 色视频免费 | 久久久久久久一区 | 亚洲在线一区二区 | 国产成人短视频在线观看 | 午夜视频网站 | 激情一区二区三区 | 黄色大片在线视频 | 草比av| 亚洲欧洲一区 | 国产欧美日韩精品一区 | 欧美精品一区三区 | 欧美性网| 1级毛片| 日韩精品在线观看免费 | 欧美精品欧美精品系列 | 91热爆在线观看 | 综合色站导航 | 日韩欧美一区二区三区免费观看 | 久久国产精品偷 | 国产露脸对白88av | 午夜免费福利电影 | 羞羞网站在线免费观看 | 欧美一级黄带 | 亚洲三区在线观看 | 欧美日韩综合视频 | 国产精品高潮呻吟久久 | 中文精品一区二区 | 国内自拍偷拍一区 |