如何使用Hugging Face Transformers為情緒分析微調BERT？原創

發布于 2024-6-21 08:39

瀏覽

0收藏

情緒分析指用于判斷文本中表達的情緒的自然語言處理(NLP)技術，它是客戶反饋評估、社交媒體情緒跟蹤和市場研究等現代應用背后的一項重要技術。情緒可以幫助企業及其他組織評估公眾意見、提供改進的客戶服務，并豐富產品或服務。

BERT的全稱是來自Transformers的雙向編碼器表示，這是一種語言處理模型，最初發布時通過了解上下文中的單詞，提高NLP的先進水平，大大超越了之前的模型。事實證明，BERT的雙向性(同時讀取特定單詞的左右上下文)在情緒分析等用例中特別有價值。

在這篇講解全面的文章中，您將學會如何使用Hugging Face Transformers庫為您自己的情緒分析項目微調BERT。無論您是新手還是現有的NLP從業者，我們都將在這個循序漸進的教程中介紹許多實用的策略和注意事項，以確保您完全能夠根據自己的目的適當地微調BERT。

搭建環境

在對模型進行微調之前，需要滿足一些必要的先決條件。具體來說，除了至少需要PyTorch和Hugging Face的數據集庫外，還需要至少Hugging Face Transformers。您可以這么做。

pip install transformers torch datasets

預處理數據

您將需要選擇一些數據來訓練文本分類器。在這里，我們將使用IMDb影評數據集，這是用于演示情緒分析的例子之一。不妨接著使用datasets庫加載數據集。

from datasets import load_dataset
dataset = load_dataset("imdb")
print(dataset)

我們需要對數據進行標記，以便為自然語言處理算法做好準備。BERT有一個特殊的標記化步驟，確保當一個句子片段被轉換時，它會為人類盡可能保持連貫性。不妨看看我們如何使用來自Transformers的BertTokenizer對數據進行標記。

from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
def tokenize_function(examples):
return tokenizer(examples['text'], padding="max_length", truncation=True)
tokenized_datasets = dataset.map(tokenize_function, batched=True)

準備數據集

不妨將數據集分成訓練集和驗證集，以評估模型的性能。以下是我們這么做的方法。

from datasets import train_test_split
train_testvalid = 
tokenized_datasets['train'].train_test_split(test_size=0.2)
train_dataset = train_testvalid['train']
valid_dataset = train_testvalid['test']

數據加載器(DataLoader)有助于在訓練過程中有效地管理批量數據。下面我們將為訓練數據集和驗證數據集創建數據加載器。

from torch.utils.data import DataLoader
train_dataloader = DataLoader(train_dataset, shuffle=True, batch_size=8)
valid_dataloader = DataLoader(valid_dataset, batch_size=8)

建立用于微調的BERT模型

我們將使用BertForSequenceClassification類來加載我們的模型，該模型已經為序列分類任務進行了預訓練。以下是我們這么做的方法。

from transformers import BertForSequenceClassification, AdamW
model = BertForSequenceClassification.from_pretrained('bert-base-uncased', 
num_labels=2)

訓練模型

訓練我們的模型包括定義訓練循環、指定損失函數、優化器和額外的訓練參數。下面是我們設置和運行訓練循環的方法。

from transformers import Trainer, TrainingArguments
training_args = TrainingArguments(
output_dir='./results',
evaluation_strategy="epoch",
learning_rate=2e-5,
per_device_train_batch_size=8,
per_device_eval_batch_size=8,
num_train_epochs=3,
weight_decay=0.01,
)
trainer = Trainer(
model=model,
args=training_args,
train_dataset=train_dataset,
eval_dataset=valid_dataset,
)
trainer.train()

評估模型

評估模型包括使用準確性、精度、召回和F1分數等度量指標檢查其性能。下面是我們評估模型的方法。

metrics = trainer.evaluate()
print(metrics)

進行預測

經過微調后，我們現在可以使用該模型拿新數據進行預測。下面是我們使用驗證集對我們的模型執行推理的方法。

metrics = trainer.evaluate()
print(metrics)

結語

本教程介紹了使用Hugging Face Transformers為情緒分析微調BERT，包括搭建環境、數據集準備和標記化、數據加載器創建、模型加載和訓練，以及模型評估和實時模型預測。

為情緒分析微調BERT在許多實際場景下都具有其價值，比如分析客戶反饋、跟蹤社交媒體情緒等。通過使用不同的數據集和模型，您可以稍加擴展，用于自己的自然語言處理項目。

有關這些主題的更多信息，請查看以下資源：

Hugging Face Transformers文檔：https://huggingface.co/transformers/
PyTorch文檔：https://pytorch.org/docs/stable/index.html
Hugging Face數據集文檔：https://huggingface.co/docs/datasets/

為了更深入地研究這些問題，提高您的自然語言處理和情緒分析能力，這些資源值得研究。

原文標題：How to Fine-Tune BERT for Sentiment Analysis with Hugging Face Transformers，作者：Matthew Mayo

鏈接：

https://www.kdnuggets.com/how-to-fine-tune-bert-sentiment-analysis-hugging-face-transformers。

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

自然語言處理

NLP

BERT

贊

回復

舉報

回復

相關推薦

使用BERT的LLM提取摘要

51CTO內容精選 ? 3332瀏覽 ? 0回復
如何正確使用Stable Diffusion？文本到圖像擴散模型中記憶化實用分析（浙大）

angel ? 3751瀏覽 ? 0回復
Hugging Face全面擁抱LangChain：全新官方合作包

ermulong ? 5807瀏覽 ? 0回復
從零實現大模型-BERT微調

魚蟲子 ? 3333瀏覽 ? 0回復
BERT如何增強NLP的性能

51CTO內容精選 ? 2468瀏覽 ? 0回復
如何使用聚類分析分割數據

51CTO內容精選 ? 2742瀏覽 ? 0回復
使用Hugging Face Transformer檢測文本中的情緒

51CTO內容精選 ? 2857瀏覽 ? 0回復
大模型微調：Hugging Face Transformers全流程實戰

51CTO內容精選 ? 7215瀏覽 ? 0回復
如何使用Hugging Face Transformers微調F5以回答問題？

51CTO內容精選 ? 2844瀏覽 ? 0回復
如何使用BART模型和Hugging Face Transformers總結文本？

51CTO內容精選 ? 3065瀏覽 ? 0回復
一鍵部署AI聊天機器人，SambaNova與Hugging Face攜手帶來全新體驗

Halo咯咯 ? 2722瀏覽 ? 0回復
從數據集到模型：視頻和音頻情緒分析的綜合研究

xuxiangda ? 4735瀏覽 ? 0回復
Hugging Face 發布 SmolVLM：用于設備端推理的 2B 參數視覺語言模型

Halo咯咯 ? 3074瀏覽 ? 0回復
Hugging Face 發布免費開放課程，微調本地LLMs模型

Halo咯咯 ? 2646瀏覽 ? 0回復
smolagents：Hugging Face 開源的Agent框架，用代碼驅動 Agent 的新思路

Syrupup ? 4464瀏覽 ? 0回復
Hugging Face 發布 Picotron：解決 LLM 訓練 4D 并行化的微型框架

Halo咯咯 ? 2308瀏覽 ? 0回復
深入解析Transformers、BERT與SBERT：從原理到應用

Halo咯咯 ? 4711瀏覽 ? 0回復
在 Hugging Face 上部署語音轉語音模型

mb67d4200f74d5e ? 1556瀏覽 ? 0回復
從零開始微調Embedding模型：基于BERT的實戰教程

AI悠閑區 ? 2039瀏覽 ? 0回復

51CTO內容精選

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

如何使用Hugging Face Transformers為情緒分析微調BERT？原創

搭建環境

預處理數據

準備數據集

建立用于微調的BERT模型

訓練模型

評估模型

進行預測

結語

目錄

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

如何使用Hugging Face Transformers為情緒分析微調BERT？ 原創

搭建環境

預處理數據

準備數據集

建立用于微調的BERT模型

訓練模型

評估模型

進行預測

結語

目錄

如何使用Hugging Face Transformers為情緒分析微調BERT？原創