LLaMA Factory：一个框架微调 100+ 大模型，零代码 Web UI 开箱即用，ACL 2024 论文，Amazon/NVIDIA/阿里云都在用

原创于 2026-06-17 10:20:41 发布 · 104 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#LLaMAFactory #大模型微调 #LoRA #QLoRA #vLLM #DeepSeek

大模型同时被 3 个专栏收录

37 篇文章

订阅专栏

工具

28 篇文章

订阅专栏

人工智能

26 篇文章

订阅专栏

LLaMA Factory：一个框架微调 100+ 大模型，零代码 Web UI 开箱即用，ACL 2024 论文，Amazon/NVIDIA/阿里云都在用

💡 微调大模型有多难？LLaMA Factory 说：零代码。100+ 模型（LLaMA/Qwen3/DeepSeek/Gemma3/GLM-4.1V/Phi-4/Llama 4）Day-0 支持；全量微调/Freeze/LoRA/QLoRA(2~8bit)/DoRA/PiSSA 一键切换；SFT/RLHF/DPO/KTO/ORPO/PPO 全对齐方法覆盖；FlashAttention-2/Unsloth/Liger-Kernel/GaLore 等前沿加速；Gradio Web UI 零代码操作；vLLM/SGLang 一键部署推理；Colab 免费白嫖 T4；FSDP+QLoRA 两张 24GB 显卡微调 70B；Ascend NPU + AMD GPU 双国产加速卡支持；Google Scholar 引用 1000+。ACL 2024 收录，GitHub 45K+ Star，大模型微调的"瑞士军刀"。

在这里插入图片描述

1. LLaMA Factory 是什么？

LLaMA Factory 是一个统一高效的大模型微调框架，让微调 100+ 个 LLM 和 VLM 变得像喝咖啡一样简单。

🔗 项目地址：https://github.com/hiyouga/LlamaFactory
📖 文档：llamafactory.readthedocs.io
📝 博客：blog.llamafactory.net
📜 论文：ACL 2024，Google Scholar 引用 1000+
📦 PyPI：pip install llamafactory
🐳 Docker：hiyouga/llamafactory
⭐ GitHub Star：45K+
📜 许可证：Apache 2.0

大厂背书

Amazon  → SageMaker HyperPod + LLaMA Factory 微调银行文档
NVIDIA  → RTX AI Toolkit 集成 LLaMA Factory
阿里云  → PAI-DSW 官方支持 LLaMA Factory

一句话总结

LLaMA Factory = 大模型微调的"瑞士军刀"
              = 100+ 模型 × 全训练方法 × 全对齐方法
              = 零代码 Web UI + CLI + API
              = vLLM/SGLang 一键部署
              = Colab 免费跑 + FSDP+QLoRA 2卡微调70B

2. 核心特性一览

特性	说明
🤖 100+ 模型	LLaMA/Qwen3/DeepSeek/Gemma3/GLM/Phi/Llama 4 等
🔧 全训练方法	全量/Freeze/LoRA/QLoRA(2-8bit)/DoRA/PiSSA/OFT
🎯 全对齐方法	SFT/RLHF/PPO/DPO/KTO/ORPO/SimPO
🚀 前沿加速	FlashAttention-2/Unsloth/Liger-Kernel/GaLore/BAdam
🖥️ 零代码 Web UI	Gradio 界面，鼠标点点即微调
⚡ 极速推理	vLLM(270%加速)/SGLang 后端
📊 实验监控	TensorBoard/W&B/MLflow/SwanLab
🔌 多硬件	NVIDIA GPU / AMD GPU / Ascend NPU
📱 多模态	图像/视频/音频理解
📦 一键导出	Ollama modelfile / OpenAI API / GGUF

3. 支持 100+ 模型（Day-0 支持）

Day-0 支持（模型发布当天即可微调）

级别	模型
Day 0	Qwen3 / Qwen2.5-VL / Gemma 3 / GLM-4.1V / InternLM 3 / MiniCPM-o-2.6
Day 1	Llama 3 / GLM-4 / Mistral Small / PaliGemma2 / Llama 4

支持模型家族

家族	代表模型
LLaMA	Llama 3 / Llama 4 / LLaVA-1.5
Qwen	Qwen3 / Qwen2.5 / Qwen2.5-VL / Qwen2.5 Omni / Qwen2-Audio
DeepSeek	DeepSeek-R1 / DeepSeek-V2
Gemma	Gemma 3 / PaliGemma2
GLM	GLM-4 / GLM-4.1V / GLM-Z1
Phi	Phi-4
Mistral	Mistral Small / Mixtral 8x7B
Intern	InternLM 3 / InternVL3 / Intern-S1-mini
MiniCPM	MiniCPM-o-2.6 / MiniCPM-V-2.6
其他	Skywork-o1 / GPT-OSS / Kimi-VL

4. 训练方法全覆盖

微调方式

方式	显存需求	效果	适用场景
16-bit 全量微调	高	最好	数据充足 + 大显存
Freeze 微调	中	好	冻结部分层
LoRA	低	好	推荐！性价比最高
QLoRA (2-8bit)	极低	较好	消费级显卡首选
DoRA	低	更好	LoRA 的增强版
PiSSA	低	好	低秩近似
OFT/OFTv2	低	好	正交微调
LoRA+	低	更好	LoRA 改进
LoftQ	低	好	量化感知初始化
LongLoRA	低	好	长上下文扩展

QLoRA 量化位宽

量化方式	位宽	说明
AQLM	2bit	极致压缩
AWQ	4bit	高精度量化
GPTQ	2/3/4/8bit	灵活量化
LLM.int8	8bit	低损耗量化
HQQ	2/4/8bit	无校准量化
EETQ	8bit	高效量化

对齐方法

方法	类型	说明
SFT	监督微调	基础指令微调
RLHF	人类反馈强化学习	PPO 训练
DPO	偏好对齐	无需奖励模型
KTO	偏好对齐	只需好/坏标签
ORPO	偏好对齐	SFT+偏好联合训练
SimPO	偏好对齐	简化偏好优化
PPO	强化学习	经典 RLHF

训练阶段

阶段	说明
Continual Pre-training	继续预训练（领域注入）
Supervised Fine-Tuning	指令微调（多模态支持）
Reward Modeling	奖励模型训练
PPO/DPO/KTO/ORPO	偏好对齐

5. 高级算法与加速技巧

优化器

优化器	特点
GaLore	低秩梯度投影，节省显存
BAdam	块坐标优化，大模型友好
APOLLO	低秩近似预条件
Adam-mini	轻量 Adam 变体
Muon	动量优化器

加速技巧

技巧	效果
FlashAttention-2	RTX4090/A100/H100 推荐开启
Unsloth	LoRA 训练 170% 加速，长序列训练 Llama-2-7B-56k 仅需 24GB
Liger Kernel	高效融合 kernel，`enable_liger_kernel: true`
KTransformers	2×4090+CPU 微调 1000B 模型
NEFTune	噪声增强，`neftune_noise_alpha: 5`
RoPE Scaling	扩展上下文长度
rsLoRA	LoRA 缩放改进
Packed Training	无污染打包训练，`neat_packing: true`
Mixture-of-Depths	动态计算分配

关键性能数据

场景	结果
Unsloth LoRA 加速	170% 速度
Unsloth 长序列训练	117% 速度 + 50% 显存（vs FA2）
vLLM 推理加速	270% 推理速度
FSDP+QLoRA	2×24GB GPU 微调 70B 模型
KTransformers	2×4090+CPU 微调 1000B 模型

6. 安装与快速开始

安装

# 方式 1：pip 安装（推荐）
pip install llamafactory

# 方式 2：从源码安装
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"

# 方式 3：Docker
docker pull hiyouga/llamafactory:latest

# 方式 4：Ascend NPU
pip install -e ".[torch,npu,metrics]"

# 方式 5：AMD GPU
pip install -e ".[torch,metrics]" --rocm

快速微调（CLI）

# LoRA 微调 Qwen3-8B，4行命令
llamafactory-cli train \
  --model_name_or_path Qwen/Qwen3-8B \
  --dataset alpaca_en_demo \
  --finetuning_type lora \
  --output_dir saves/qwen3-lora

YAML 配置方式

# examples/train_lora/qwen3_lora_sft.yaml
model_name_or_path: Qwen/Qwen3-8B
stage: sft
finetuning_type: lora
dataset: alpaca_en_demo
template: qwen3
output_dir: saves/qwen3-lora
per_device_train_batch_size: 2
gradient_accumulation_steps: 4
lr_scheduler_type: cosine
logging_steps: 10
save_steps: 500
learning_rate: 1.0e-4
num_train_epochs: 3.0
plot_loss: true

llamafactory-cli train examples/train_lora/qwen3_lora_sft.yaml

7. 零代码 Web UI：LLaMA Board

# 启动 Web UI
llamafactory-cli webui

功能一览

功能	说明
🎯 模型选择	下拉选择 100+ 预训练模型
📊 数据集选择	内置 50+ 数据集，支持自定义上传
🔧 训练配置	可视化配置所有训练参数
🚀 一键训练	点击按钮开始微调
📈 实时监控	训练曲线实时展示
💬 对话测试	微调后直接对话测试效果
📤 模型导出	合并 LoRA / 导出 GGUF / Ollama

💡 完全零代码！鼠标点点就能微调大模型，新手友好度拉满！

8. 数据准备

数据格式

// 指令微调（SFT）
[
  {
    "instruction": "Translate the following English text to Chinese.",
    "input": "Hello, how are you?",
    "output": "你好，你好吗？"
  }
]

// 偏好对齐（DPO/KTO/ORPO）
[
  {
    "instruction": "Write a poem about spring.",
    "input": "",
    "chosen": "Spring brings flowers blooming bright...",
    "rejected": "Spring is a season."
  }
]

内置数据集（50+）

数据集	类型	说明
alpaca_en_demo	SFT	英文指令微调
alpaca_zh_demo	SFT	中文指令微调
glaive_toolcall_en	Agent	工具调用训练
OpenO1-SFT	SFT	推理增强
identity	SFT	模型身份设定

自定义数据集

# dataset_info.json
{
  "my_dataset": {
    "file_name": "my_data.json",
    "columns": {
      "prompt": "instruction",
      "query": "input",
      "response": "output"
    }
  }
}

9. 微调实战示例

示例 1：LoRA 微调 Qwen3-8B（消费级显卡）

llamafactory-cli train \
  --model_name_or_path Qwen/Qwen3-8B \
  --stage sft \
  --finetuning_type lora \
  --lora_rank 8 \
  --lora_target all \
  --dataset alpaca_zh_demo \
  --template qwen3 \
  --output_dir saves/qwen3-lora \
  --per_device_train_batch_size 2 \
  --gradient_accumulation_steps 4 \
  --lr_scheduler_type cosine \
  --logging_steps 10 \
  --save_steps 500 \
  --learning_rate 1e-4 \
  --num_train_epochs 3 \
  --plot_loss true \
  --fp16

示例 2：QLoRA 4-bit 微调 Llama-3-8B（16GB 显卡）

llamafactory-cli train \
  --model_name_or_path meta-llama/Meta-Llama-3-8B \
  --stage sft \
  --finetuning_type lora \
  --quantization_bit 4 \
  --quantization_method bitsandbytes \
  --lora_rank 8 \
  --dataset alpaca_en_demo \
  --template llama3 \
  --output_dir saves/llama3-qlora \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 8 \
  --learning_rate 2e-4 \
  --num_train_epochs 3 \
  --fp16

示例 3：DPO 偏好对齐

llamafactory-cli train \
  --model_name_or_path Qwen/Qwen3-8B \
  --stage dpo \
  --finetuning_type lora \
  --dataset dpo_demo \
  --template qwen3 \
  --output_dir saves/qwen3-dpo

示例 4：多模态微调 Qwen2.5-VL

llamafactory-cli train \
  --model_name_or_path Qwen/Qwen2.5-VL-7B-Instruct \
  --stage sft \
  --finetuning_type lora \
  --dataset mllm_demo \
  --template qwen2_vl \
  --output_dir saves/qwen25vl-lora

示例 5：合并 LoRA 导出

llamafactory-cli export \
  --model_name_or_path Qwen/Qwen3-8B \
  --adapter_name_or_path saves/qwen3-lora \
  --template qwen3 \
  --finetuning_type lora \
  --export_dir models/qwen3-lora-merged \
  --export_size 2 \
  --export_device cpu \
  --export_legacy_format false

示例 6：导出 Ollama 模型

llamafactory-cli export \
  --model_name_or_path Qwen/Qwen3-8B \
  --adapter_name_or_path saves/qwen3-lora \
  --template qwen3 \
  --finetuning_type lora \
  --export_dir models/qwen3-lora \
  --export_quantization_bit 4 \
  --export_to_ollama true

10. 推理部署：vLLM + SGLang

vLLM 推理（270% 加速）

llamafactory-cli api \
  --model_name_or_path models/qwen3-lora-merged \
  --infer_backend vllm \
  --open_api_port 8000

SGLang 推理

llamafactory-cli api \
  --model_name_or_path models/qwen3-lora-merged \
  --infer_backend sglang \
  --open_api_port 8000

OpenAI 兼容 API

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="test")

response = client.chat.completions.create(
    model="qwen3-lora",
    messages=[{"role": "user", "content": "你好！"}],
)
print(response.choices[0].message.content)

Gradio UI 推理

llamafactory-cli chat \
  --model_name_or_path models/qwen3-lora-merged \
  --template qwen3

11. 多硬件后端支持

硬件	支持	说明
NVIDIA GPU	✅	主力平台，A100/H100/RTX4090 等
AMD GPU	✅	ROCm 支持，文档
Ascend NPU	✅	华为昇腾，文档
Megatron-core	✅	阿里 ROLL mcore_adapter 后端

12. 实验监控生态

工具	类型	说明
LLaMA Board	Web UI	内置可视化面板
TensorBoard	可视化	经典训练曲线
W&B	云端	团队协作实验追踪
MLflow	平台	MLOps 全流程
SwanLab	云端	国产实验追踪

13. 竞品横评

大模型微调框架对比

对比维度	LLaMA Factory	Axolotl	LLaMA-Recipes	PEFT
支持模型数	100+	~30	~10	任意
训练方法	全(10+)	5+	3+	LoRA系列
对齐方法	全(7+)	DPO/RLHF	DPO	无
Web UI	✅ LLaMA Board	❌	❌	❌
零代码	✅	❌	❌	❌
vLLM推理	✅ 270%加速	❌	❌	❌
SGLang推理	✅	❌	❌	❌
多模态	✅ 图像/视频/音频	有限	❌	❌
NPU支持	✅	❌	❌	❌
AMD GPU	✅	❌	❌	❌
Ollama导出	✅	❌	❌	❌
论文	ACL 2024	—	—	—
Star	45K+	9K	5K	16K
内置数据集	50+	少量	少量	无

14. 优缺点与使用建议

✅ 优点

维度	评分	说明
模型覆盖	⭐⭐⭐⭐⭐	100+ 模型，Day-0 支持
方法覆盖	⭐⭐⭐⭐⭐	全量/LoRA/QLoRA/DoRA/PiSSA/OFT + 全对齐方法
易用性	⭐⭐⭐⭐⭐	零代码 Web UI + CLI + YAML
加速优化	⭐⭐⭐⭐⭐	FA2/Unsloth/Liger/GaLore/KTransformers
推理部署	⭐⭐⭐⭐⭐	vLLM/SGLang/OpenAI API/Ollama
多模态	⭐⭐⭐⭐⭐	图像/视频/音频理解
硬件支持	⭐⭐⭐⭐⭐	NVIDIA/AMD/NPU/Megatron
社区生态	⭐⭐⭐⭐⭐	45K Star / 1000+ 引用 / Amazon+NVIDIA 背书

⚠️ 注意事项

事项	说明
依赖较重	transformers/peft/vllm 等全装
YAML 学习成本	Web UI 可规避，但 CLI 需了解参数
超大模型	70B+ 仍需多卡，FSDP+QLoRA 可缓解
版本更新快	频繁更新，建议固定版本
文档 WIP	官方文档仍在完善中

💡 使用建议

新手首选 Web UI：llamafactory-cli webui，零代码上手
LoRA 起步：finetuning_type: lora，显存友好
消费级显卡用 QLoRA 4bit：16GB 显卡微调 8B 模型
70B 模型用 FSDP+QLoRA：2×24GB 显卡即可
Unsloth 加速：use_unsloth: true，170% 速度提升
推理用 vLLM：infer_backend: vllm，270% 加速
偏好对齐用 DPO：比 RLHF 简单，效果也好
导出用 Ollama：一键部署到本地
先试 Colab：免费 T4 跑通全流程
看官方博客：blog.llamafactory.net

15. 总结

LLaMA Factory 是大模型微调领域的标杆级项目：

🤖 100+ 模型 Day-0/Day-1 支持，新模型第一时间可微调
🔧 全方法覆盖：全量/LoRA/QLoRA/DoRA/PiSSA/OFT + SFT/DPO/KTO/ORPO/PPO
🚀 前沿加速：Unsloth 170%/vLLM 270%/Liger-Kernel/GaLore/KTransformers
🖥️ 零代码 Web UI：LLaMA Board 鼠标点点即微调
⚡ 一键部署：vLLM/SGLang 推理 + OpenAI API + Ollama 导出
📱 多模态：图像/视频/音频理解全支持
🔌 多硬件：NVIDIA/AMD/NPU/Megatron-core
📊 实验监控：TensorBoard/W&B/MLflow/SwanLab
🎓 ACL 2024 论文，Google Scholar 1000+ 引用
🏢 大厂背书：Amazon/NVIDIA/阿里云官方使用

推荐指数：⭐⭐⭐⭐⭐

无论你是想微调第一个大模型的新手，还是在生产环境部署微调系统的工程师，LLaMA Factory 都是当前最好的选择。100+ 模型 × 全方法 × 零代码 × 极速推理，大模型微调就该这么简单。

📢 项目地址：https://github.com/hiyouga/LlamaFactory
📖 文档：llamafactory.readthedocs.io
📝 博客：blog.llamafactory.net
📄 论文：arXiv 2403.13372
🎮 Colab 体验：免费 T4 微调
🤗 Demo：HuggingFace Spaces

标签：#LLaMAFactory #大模型微调 #LoRA #QLoRA #DPO #RLHF #vLLM #Qwen3 #DeepSeek #ACL2024