成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ChemBench:大語言模型化學能力評測數據集

發布于 2024-5-28 10:25
瀏覽
0收藏

ChemBench 是上海人工智能實驗室 AI for Science 團隊自建的化學語言模型評測數據集,實現了大模型能力在化學領域的全面評估。

研究團隊從互聯網公開資源中采集并設計構建了 4100 多道多項選擇題,每個選擇題只有一個正確答案。覆蓋了 基于文本的分子生成、名稱轉換、性質預測、溫度預測、分子描述、產率預測、溶劑預測、逆合成分析、產物預測 九大化學任務。

ChemBench 評測任務介紹

隨著大語言模型的飛速發展,一系列特定領域的垂類模型也不斷涌現,這其中就包含化學大模型。但是如何全面的評估一個大模型的化學能力仍然是一個比較棘手的問題。

目前對化學領域大語言模型的能力評估會存在以下問題:

1. 目前很多已有的化學任務評測基準,往往只是針對某個具體的化學任務進行評測,或是為了特定領域模型所設計,并不適用于測試大語言模型。

2. 現有的對化學大語言模型的評測基準大多采用問答形式,使用 BLEU 或者 ROUGE 等指標進行評測,這些類型的評估指標會受到語言模型輸出風格的顯著影響,不適合科學事實正確性的評測,在這種情況下,如果模型輸出了更好的語言風格,但是包含事實性錯誤,可能會獲得更高的評估分數。

為了解決這些問題,上海 AI Lab 化學大模型團隊提出了 ChemBench,由多項選擇題構建,用來評估大語言模型的化學能力。

評測的任務以及每個任務題目數量分布如下圖:

ChemBench:大語言模型化學能力評測數據集-AI.x社區



Name Conversion:名稱轉換任務,指分子的 IUPAC chemical name 和 smiles 互相的轉換,測試了模型對分子不同描述的認知

Property Prediction:性質預測任務,針對分子預測其不同有用的化學性質

Mol2Caption:分子描述任務,針對特定分子進行多樣的描述表征?

Caption2mol:基于文本的分子生成,用戶給定特定對分子的描述,模型預測出相應的分子的結構式?

Product Prediction:產物預測任務,預測化學反應能得到的產物

Yield Prediction:產量預測任務,預測特定化學反應能得到的產量

Retrosynthesis:逆合成分析任務,根據成品分子預測其合成的路徑

Solvent Prediction:溶劑預測任務,預測化學反應中所需要的溶劑

Temperature Prediction:溫度預測任務,預測特定化學反應需要的溫度條件

在多項選擇題的構建中,團隊還借助 ChatGPT,通過對每個任務設計專用的提示工程,構建每個題目的錯誤選項,使得模型的錯誤選項有足夠難度的混淆,保證了選項的辨別難度。

數據集題目展示

下面將選取 ChemBench 中不同任務的題目進行展示。

Name Conversion 名稱轉換任務的題目展示如下:

```
{
        "question": "\nHow would you express this IUPAC name in SMILES format? CC1(C2=C(N=C1C=CC=C3C(C4=C(N3CCCS(=O)(=O)O)N=CC=C4)(C)C)[N+](=CC=C2)CCCCCC(=O)O)C",
        "answer": "D",
        "D": "6-[2-[3-[3,3-dimethyl-1-(3-sulfopropyl)pyrrolo[2,3-b]pyridin-2-ylidene]prop-1-enyl]-3,3-dimethyl-pyrrolo[2,3-b]pyridin-7-ium-7-yl]hexanoic acid",
        "A": "6-[2-[3-[3,3-dimethyl-1-(3-phosphonopropyl)pyrrolo[2,3-c]pyridin-2-ylidene]ethylidene]-3,3-dimethyl-pyrrolo[2,3-a]pyridin-7-ium-7-yl]hexanoic acid",
        "B": "6-[2-[3-[1-(3-carboxypropyl)-3,3-dimethylindolizin-2-ylidene]prop-1-enyl]-3,3-dimethyl-1H-pyrrolo[3,2-b]pyridin-7-yl]hexanoic acid",
        "C": "6-[2-[3-[3,3-dimethyl-1-(3-sulfopropyl)pyridin-2(1H)-one]-prop-1-enyl]-3,3-dimethyl-pyrrolo[2,3-b]pyridin-7-ium-7-yl]hexanoic acid"
    },
```

Retrosynthesis 逆合成分析任務的題目展示如下:

```
  {
        "question": "Which ingredients are commonly selected for creating Cc1oc(-c2ccccc2)nc1COc1ccc2cc(CC3SC(=O)NC3=O)cnc2c1 ?\n",
        "answer": "A",
        "A": "Chemicals employed in the creation of Cc1oc(-c2ccccc2)nc1COc1ccc2cc(CC3SC(=O)NC3=O)cnc2c1  can be chosen from CCO and Cc1oc(-c2ccccc2)nc1COc1ccc2cc(CC3SC(=N)NC3=O)cnc2c1. There's a chance that reactions will emerge, with Cc1oc(-c2ccccc2)nc1COc1ccc2cc(CC3SC(=N)NC3=O)cnc2c1.CCO>Cl>Cc1oc(-c2ccccc2)nc1COc1ccc2cc(CC3SC(=O)NC3=O)cnc2c1. potentially representing the reaction equations.",
        "C": "The possibility of reactions exists, and CCOC(=O)c1c(C(F)(F)F)cc(-c2ccc(OC(F)(F)F)cc2)nc1CC1CC1.[H].[H][Al+3].[Li+].[H].[H].>>redients are commonly selected for creating Cc1oc(-c2ccccc2)nc1COc1ccc2cc(CC3SC(=O)NC3=O)cnc2c1. could portray the reaction equations. Chemicals used in the formulation of redients are commonly selected for creating Cc1oc(-c2ccccc2)nc1COc1ccc2cc(CC3SC(=O)NC3=O)cnc2c1  can be chosen from CCOC(=O)c1c(C(F)(F)F)cc(-c2ccc(OC(F)(F)F)cc2)nc1CC1CC1.",
        "B": "It's possible for reactions to manifest, with CC(F)(F)c1cc(B2OC(C)(C)C(C)(C)O2)ccc1Cl.Cc1nccn1Cc1cc(Cl)cnn1>>redients are commonly selected for creating Cc1oc(-c2ccccc2)nc1COc1ccc2cc(CC3SC(=O)NC3=O)cnc2c1. potentially representing reaction equations. Materials used in the composition of Cc1nccn1Cc1cc(-c2ccc(Cl)c(C(C)(F)F)c2)cnn1 and Cl  can be selected from CC(F)(F)c1cc(B2OC(C)(C)C(C)(C)O2)ccc1Cl and Cc1nccn1Cc1cc(Cl)cnn1.",
        "D": "Materials used for manufacturing redients are commonly selected for creating Cc1oc(-c2ccccc2)nc1COc1ccc2cc(CC3SC(=O)NC3=O)cnc2c1  can be chosen from COc1cccc2c1ccc1c(C(=O)O)cc3c(c12)OCO3. Reactions could potentially emerge, with COc1cccc2c1ccc1c(C(=O)O)cc3c(c12)OCO3.Cl.c1ccncc1>Cl>redients are commonly selected for creating Cc1oc(-c2ccccc2)nc1COc1ccc2cc(CC3SC(=O)NC3=O)cnc2c1. possibly serving as indicators of reaction equations."
    },
```

Mol2Caption 分子描述任務的題目展示如下:

```
 {
        "question": "Describe this molecule.\nO=C(NCc1ccco1)c1cc2ccccc2o1",
        "answer": "B",
        "B": "The molecule is a benzofuran derivative.",
        "A": "The molecule is a member of steroids.",
        "C": "The molecule is a member of carboxylic acids.",
        "D": "The molecule is a member of flavonoids."
    },
```


同時,7B開源模型、GPT-3.5、GPT-4 在 ChemBench 上的化學能力由弱變強,符合人們對于這些模型使用上能力的認知,也進一步反映了ChemBench測評的有效性和客觀性。

ChemBench:大語言模型化學能力評測數據集-AI.x社區

本文轉載自 ??司南評測體系??,作者: 司南 OpenCompass

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 久久久国产一区二区三区 | 国产盗摄视频 | 波多野结衣中文字幕一区二区三区 | 色资源在线观看 | 国产一区二区黑人欧美xxxx | 一区二区三区精品视频 | 99视频免费在线 | 色性av| 鲁视频| 日韩精品一区二区三区老鸭窝 | 亚洲精品一区av在线播放 | 国产精品激情 | 久久久久亚洲精品 | 国产色视频网站 | 麻豆亚洲 | 国产高清久久 | 欧美日韩在线高清 | 国产精品国产成人国产三级 | 台湾佬成人网 | 成人免费视频网址 | 欧美日韩中 | 久久99精品久久久久久噜噜 | 亚洲欧美日韩在线 | 色偷偷人人澡人人爽人人模 | 日韩av中文| 奇米影视首页 | 国产91亚洲精品 | 国产精品毛片一区二区三区 | 国产女人与拘做受免费视频 | 亚洲国产欧美在线人成 | 亚洲在线观看视频 | 特级毛片www | 亚洲精品在线免费看 | 亚洲第一在线视频 | 久久99这里只有精品 | 国产黄色小视频在线观看 | 日韩精品视频中文字幕 | 精品av| 亚洲精品国产成人 | 久久久久久亚洲精品 | 欧美日韩最新 |