基于 LlamaFactory 微調大模型的實體識別的評估實現

AI悠閑區

發布于 2025-1-17 11:51

瀏覽

0收藏

介紹

使用 LlamaFactory 結合開源大語言模型實現文本分類：從數據集構建到 LoRA 微調與推理評估.https://blog.csdn.net/sjxgghg/article/details/144290200

在前一篇文章的文本分類評估中，已經介紹了主要的框架，故在大模型微調的流程框架方面本文不再贅述。

實體數據集格式

下述是實體識別評估的一條數據示例：

{
    "prompt": "從以下政府文本中，提取指定的實體類別，并按照JSON格式輸出結果。  xxx",      
    "predict": "\n```json\n{\n  \"行政區劃和地理實體\": [],\n  \"政府機構和組織\": [],\n ... \"特定術語和關鍵詞\": [\"改革創新\", \"體制機制障礙\", \"行政管理體制\", \"城鄉一體化發展機制\"]\n}\n```", 
    "label": "```json\n{\n  \"行政區劃和地理實體\": [],\n  \"政府機構和組織\": [], ... \"特定術語和關鍵詞\": [\"改革創新發展\", \"高質量發展\", \"高品質生活\", \"體制機制障礙\"]\n}\n```"
    ...
}

讓大模型按照json格式輸出。字典的鍵是實體的類別名，字典的值是一個列表其中包含所有該類別的所有預測結果。

實體識別評估代碼

import os
import re
import json
from dataclasses import dataclass

@dataclass
class EvalNode:
    # 默認值
    predict_right_num: int = 0
    predict_num: int = 0
    label_num: int = 0

    @property
    def accuracy(self):
        return self.predict_right_num / (self.predict_num + 1e-6)

    @property
    def recall(self):
        return self.predict_right_num / (self.label_num + 1e-6)

    @property
    def f1(self):
        return 2 * self.accuracy * self.recall / (self.accuracy + self.recall + 1e-6)

@dataclass
class NEREvaluate:
    ent_class: list[str]
    input_file: str
    avg_accuracy: int = 0
    avg_recall: int = 0
    avg_f1: int = 0
    predict_error: int = 0

    def __post_init__(self):
        self._evaluate_by_jsonl()

    def _evaluate_by_jsonl(self):

        with open(self.input_file, "r", encoding="utf-8") as f:
            self.total_ent = {ent: EvalNode() for ent in self.ent_class}

            for line in f:
                data = json.loads(line)

                # 大模型采取的是序列到序列到文本生成，不能轉換為字典的數據跳過即可
                try:
                    matches = re.search("\{.*?\}", data["predict"], re.DOTALL)
                    if matches:
                        predict = eval(matches.group(0))
                except:
                    self.predict_error += 1
                    predict = {ent: [] for ent in self.ent_class}

                try:
                    # 防止label出錯
                    matches = re.search("\{.*?\}", data["label"], re.DOTALL)
                    if matches:
                        labels = eval(matches.group(0))
                except:
                    continue

                # 每個不同的實體類別單獨計數
                for ent_name in self.ent_class:
                    label_set = set(labels.get(ent_name, []))
                    predict_set = set(predict.get(ent_name, []))
                    self.total_ent[ent_name].predict_right_num += len(
                        label_set & predict_set
                    )
                    self.total_ent[ent_name].predict_num += len(predict_set)
                    self.total_ent[ent_name].label_num += len(label_set)

        for ent in self.ent_class:
            self.avg_accuracy += self.total_ent[ent].accuracy
            self.avg_recall += self.total_ent[ent].recall
            self.avg_f1 += self.total_ent[ent].f1

        self.avg_accuracy = self.avg_accuracy / len(self.ent_class)
        self.avg_recall = self.avg_recall / len(self.ent_class)
        self.avg_f1 = self.avg_f1 / len(self.ent_class)

下述是實體的類別：

ENT_CLASS = [
    "行政區劃和地理實體",
    "政府機構和組織",
    "法律法規與政策",
    "人物與職務",
    "產業",
    "產業園區",
    "高新技術",
    "項目與工程",
    "社會服務與基礎設施",
    "特定術語和關鍵詞",
]

ner_eval = NEREvaluate(
        ENT_CLASS, "xxx/generated_predictions.jsonl")
    )

for key, item in ner_eval.total_ent.items():
    print(key, item.f1)

輸出評估結果：

行政區劃和地理實體 0.6292412411907403
人物與職務 0.45714235316380664
...
特定術語和關鍵詞 0.29256472295174

accuracy 、recall 與 f1 均進行了計算，大家參考代碼自行查看與輸出即可。

在評估大模型生成的實體時，只有大模型把實體的邊界完全預測正確，才認為預測對。

本文轉載自 ??AI悠閑區??，作者： jieshenai

標簽

微調

大模型

實體識別

贊

回復

舉報

回復

相關推薦

今日arXiv最熱NLP大模型論文：Github萬星！北航發布零代碼大模型微調平臺LlamaFactory

pangguiyu ? 4769瀏覽 ? 0回復
當下最容易上手的大模型微調工具是誰？LLamaFactory或是其中之一

Syrupup ? 1.4w瀏覽 ? 0回復
從零實現大模型-GPT2指令微調

魚蟲子 ? 4164瀏覽 ? 0回復
從零實現大模型-BERT微調

魚蟲子 ? 3331瀏覽 ? 0回復
MLLM QLoRA微調實戰：基于最新的袖珍Mini-InternVL模型

51CTO內容精選 ? 3490瀏覽 ? 0回復
從零實現大模型-GPT2任務微調

魚蟲子 ? 3691瀏覽 ? 0回復
你知道什么是微調嗎？大模型為什么要微調？以及大模型微調的原理是什么？

AI探索時代 ? 6925瀏覽 ? 0回復
如何評估大語言模型生成結果的多樣性

sbf_2000 ? 3510瀏覽 ? 1回復
基于 Kimi 一鍵整理實體及其關系，并制作知識圖譜

wsp_ping ? 4752瀏覽 ? 0回復
高效打造知識圖譜，使用LlamaIndex Relik實現實體關聯和關系抽取

小虎哦哦 ? 4344瀏覽 ? 0回復
大模型ReAct框架——打造AI Agent的代碼實現——基于LLM + Function Call構建Agent

AI探索時代 ? 7112瀏覽 ? 0回復
超越文本，GPT-4在虹膜生物識別的創新應用

Aceryt ? 2499瀏覽 ? 0回復
搭建大模型知識庫流程，以及基于Langchain實現大模型知識庫案例

AI探索時代 ? 3964瀏覽 ? 0回復
自然（Nature）科學數據子刊：用于對話情境中情緒識別的 EEG-音頻-視頻數據集的創新應用

xuxiangda ? 6265瀏覽 ? 0回復
微調谷歌開源Gemini Flash模型實現PII脫敏實戰

51CTO內容精選 ? 3154瀏覽 ? 0回復
使用 LlamaFactory 結合開源大語言模型實現文本分類：從數據集構建到 LoRA 微調與推理評估

AI悠閑區 ? 7105瀏覽 ? 0回復
在AutoDL上使用LLamaFactory進行模型訓練

一起AI技術 ? 5606瀏覽 ? 0回復
FineMedLM-o1: 基于監督微調與測試時訓練的醫學推理增強型大語言模型

頓數AI ? 3281瀏覽 ? 0回復
GoRA: 基于梯度驅動的自適應低秩微調方法

頓數AI ? 2556瀏覽 ? 0回復

AI悠閑區

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

基于 LlamaFactory 微調大模型的實體識別的評估實現

介紹

實體數據集格式

實體識別評估代碼

目錄