【一文了解】Llama-Factory
在當下流行的各種大模型工具中,Llama-Factory是全球開發者常用的一套工具集,它基于Transformer架構,為我們提供了一套簡單、快速而又高效的大模型定制化訓練與部署工具,并且它提供了模塊化、可擴展和流程化的框架,支持多種主流的大語言模型(如 LLaMA、ChatGLM、Qwen 等),一站式地集成了數據預處理、訓練、微調、評估和推理等多種功能。本篇我們一起來看看Llama-Factory能為我們帶來哪些便利。
一、核心功能
1. 多模型支持
- 兼容主流大模型架構(LLaMA、ChatGLM、Qwen、Falcon 等)。
- 支持模型權重的加載與轉換(如 Hugging Face 格式)。
2. 高效的微調方法
- 提供多種參數高效微調(PEFT)技術,如 LoRA(Low-Rank Adaptation)、Adapter、Prefix-Tuning 等。
- 支持全量微調(Full Fine-tuning)和分布式訓練(多 GPU/TPU)。
3. 多模態訓練支持
- 可處理文本、圖像、音頻等多模態數據的聯合訓練任務。
4. 數據預處理與增強
- 內置常用數據集的清洗、分詞、格式轉換工具。
- 提供數據增強策略(如回譯、同義替換)以提升模型泛化能力。
5. 可視化與監控
- 集成 TensorBoard 和 WandB,實時監控訓練過程(損失、準確率等指標)。
- 支持模型性能分析和錯誤案例可視化。
6. 一鍵部署與推理
- 提供模型導出為 ONNX、TorchScript 等格式的工具。
- 支持本地或云端服務化部署(如 Docker、Kubernetes)。
二、主要組件和工具
LLaMA-Factory 的整體架構圍繞以下幾個核心模塊展開:
1. 模型支持框架(Model Support)
支持 Hugging Face Transformers 中的主流大語言模型:
- - LLaMA / LLaMA2 / LLaMA3
- - ChatGLM 系列
- - Baichuan 系列
- - Qwen 系列
- - InternLM
- - Mistral / Mixtral
- - Falcon / BLOOM 等
這些模型可以通過 Hugging Face 的 AutoModelForCausalLM 和 AutoTokenizer 加載,兼容性強。
2. 微調方法(Fine-tuning Methods)
通過集成 PEFT(Parameter-Efficient Fine-Tuning)庫,支持主流的參數高效微調策略:
- LoRA (Low-Rank Adaptation)
- QLoRA
- Prefix Tuning
- Prompt Tuning
- Full Fine-tuning
- AdaLoRA、LLaMA-Adapter、IA3 等(部分支持)
用戶可以選擇不同的微調方法來根據資源和需求進行訓練。
3. 訓練器模塊(Trainer)
基于 Hugging Face 的 Trainer 類封裝,增加對 PEFT 的支持。
支持:
- 多卡訓練(DeepSpeed、FSDP)
- 混合精度(fp16/bf16)
- Gradient Accumulation
- Checkpoint 保存與恢復
4. 數據處理模塊(Data Preprocessing)
支持多種數據格式:
- SFT 格式(instruction + input + output)
- Chat 格式(messages 列表)
- ShareGPT、Alpaca、OpenAI 格式
- 自定義格式(通過轉換腳本)
- 自動構建訓練樣本,支持多輪對話、多種模板。
5. 推理模塊(Inference / Serving)
提供簡單的推理腳本 `infer.py`,支持:
- 單輪 / 多輪對話
- Web UI(基于 Gradio)
- CLI 推理
- 支持加載微調后的模型進行評估或部署。
6. 評估模塊(Evaluation)
支持自動評估方法:
- BLEU / ROUGE / METEOR
- GPT / LLM-based 評價(如 GPT-4 Judge)
- MMLU、CMMLU、CEval 等標準數據集
- 支持模型輸出與參考答案的自動對比。
7. 部署模塊(Serving)
可選的部署方式:
- Gradio Web UI
- FastAPI
- OpenAI API 兼容接口(適用于本地部署大模型)
8. 配置與腳本(Scripts & Configs)
提供豐富的訓練、推理、部署腳本,如:
- `train.py`
- `infer.py`
- `web_demo.py`
- `export_model.py`(導出為 Hugging Face 或 GGUF 格式)
- 提供 YAML/json 配置文件,方便快速啟動訓練/推理任務。
三、微調實戰
我們一起來看看如何用Llama-Factory微調llama3大模型,使用“弱智吧 ruozhiba”數據集。相比某些微調工具,LLaMA-Factory 整個操作過程還是比較簡單的。
1. 環境準備
(1)克隆 LLaMA-Factory 倉庫
git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -r requirements.txt
(2) 確保在以下環境中進行微調:
- Python 3.10+
- CUDA 11.8+/12.x(支持 GPU 訓練)
- 至少一張 24G 顯存的 GPU(8B)或多張 A100/H100(70B)
2. 模型與數據集下載
我們可以在Hugging Face或魔塔社區,下載llama3模型和ruozhiba數據集,具體方法多種多樣,這里就不做詳細介紹了。下圖是我下載的模型文件與數據集文件。
數據集文件:COIG-COIA/ruozhiba
3. 微調配置文件(`scripts/llama3/finetune_ruozhiba.sh`)
創建一個 shell 腳本如下:
#!/bin/bash
CUDA_VISIBLE_DEVICES=0 accelerate launch src/train_bash.py \
--stage sft \
--model_name_or_path llama_models/llama-3-8b \
--do_train \
--dataset ruozhiba \
--dataset_dir data \
--template llama3 \
--finetuning_type lora \
--output_dir output/llama3-ruozhiba-lora \
--overwrite_cache \
--per_device_train_batch_size 2 \
--gradient_accumulation_steps 4 \
--lr_scheduler_type cosine \
--logging_steps 10 \
--save_steps 500 \
--learning_rate 5e-5 \
--num_train_epochs 3 \
--plot_loss \
--fp16
參數說明:
- stage sft:表示進行 SFT 微調
- model_name_or_path:預訓練模型路徑
- dataset ruozhiba:數據集名稱(自動找 `ruozhiba.json` 文件)
- template llama3:使用 llama3 prompt 模板
- finetuning_type lora:使用 LoRA 微調方式(節省顯存)
- output_dir:輸出模型路徑
- fp16:使用半精度訓練(節省顯存)
4. 開始訓練
bash scripts/llama3/finetune_ruozhiba.sh
訓練完成后,輸出目錄為:
output/llama3-ruozhiba-lora/
├── adapter_config.json
├── adapter_model.bin
├── tokenizer.model
└── ...
5. 推理測試(inference)
我們需要使用 `src/api_demo.py` 啟動一個測試接口:
python src/api_demo.py \
--model_name_or_path llama_models/llama-3-8b \
--template llama3 \
--finetuning_type lora \
--adapter_name_or_path output/llama3-ruozhiba-lora
本文轉載自????碼農隨心筆記????,作者:碼農隨心筆記
