LLaMA Factory:一个框架微调 100+ 大模型,零代码 Web UI 开箱即用,ACL 2024 论文,Amazon/NVIDIA/阿里云都在用
💡 微调大模型有多难?LLaMA Factory 说:零代码。100+ 模型(LLaMA/Qwen3/DeepSeek/Gemma3/GLM-4.1V/Phi-4/Llama 4)Day-0 支持;全量微调/Freeze/LoRA/QLoRA(2~8bit)/DoRA/PiSSA 一键切换;SFT/RLHF/DPO/KTO/ORPO/PPO 全对齐方法覆盖;FlashAttention-2/Unsloth/Liger-Kernel/GaLore 等前沿加速;Gradio Web UI 零代码操作;vLLM/SGLang 一键部署推理;Colab 免费白嫖 T4;FSDP+QLoRA 两张 24GB 显卡微调 70B;Ascend NPU + AMD GPU 双国产加速卡支持;Google Scholar 引用 1000+。ACL 2024 收录,GitHub 45K+ Star,大模型微调的"瑞士军刀"。
📌 目录
1. LLaMA Factory 是什么?
LLaMA Factory 是一个统一高效的大模型微调框架,让微调 100+ 个 LLM 和 VLM 变得像喝咖啡一样简单。
大厂背书
Amazon → SageMaker HyperPod + LLaMA Factory 微调银行文档
NVIDIA → RTX AI Toolkit 集成 LLaMA Factory
阿里云 → PAI-DSW 官方支持 LLaMA Factory
一句话总结
LLaMA Factory = 大模型微调的"瑞士军刀"
= 100+ 模型 × 全训练方法 × 全对齐方法
= 零代码 Web UI + CLI + API
= vLLM/SGLang 一键部署
= Colab 免费跑 + FSDP+QLoRA 2卡微调70B
2. 核心特性一览
特性 说明 🤖 100+ 模型 LLaMA/Qwen3/DeepSeek/Gemma3/GLM/Phi/Llama 4 等 🔧 全训练方法 全量/Freeze/LoRA/QLoRA(2-8bit)/DoRA/PiSSA/OFT 🎯 全对齐方法 SFT/RLHF/PPO/DPO/KTO/ORPO/SimPO 🚀 前沿加速 FlashAttention-2/Unsloth/Liger-Kernel/GaLore/BAdam 🖥️ 零代码 Web UI Gradio 界面,鼠标点点即微调 ⚡ 极速推理 vLLM(270%加速)/SGLang 后端 📊 实验监控 TensorBoard/W&B/MLflow/SwanLab 🔌 多硬件 NVIDIA GPU / AMD GPU / Ascend NPU 📱 多模态 图像/视频/音频理解 📦 一键导出 Ollama modelfile / OpenAI API / GGUF
3. 支持 100+ 模型(Day-0 支持)
Day-0 支持(模型发布当天即可微调)
级别 模型 Day 0 Qwen3 / Qwen2.5-VL / Gemma 3 / GLM-4.1V / InternLM 3 / MiniCPM-o-2.6 Day 1 Llama 3 / GLM-4 / Mistral Small / PaliGemma2 / Llama 4
支持模型家族
家族 代表模型 LLaMA Llama 3 / Llama 4 / LLaVA-1.5 Qwen Qwen3 / Qwen2.5 / Qwen2.5-VL / Qwen2.5 Omni / Qwen2-Audio DeepSeek DeepSeek-R1 / DeepSeek-V2 Gemma Gemma 3 / PaliGemma2 GLM GLM-4 / GLM-4.1V / GLM-Z1 Phi Phi-4 Mistral Mistral Small / Mixtral 8x7B Intern InternLM 3 / InternVL3 / Intern-S1-mini MiniCPM MiniCPM-o-2.6 / MiniCPM-V-2.6 其他 Skywork-o1 / GPT-OSS / Kimi-VL
4. 训练方法全覆盖
微调方式
方式 显存需求 效果 适用场景 16-bit 全量微调 高 最好 数据充足 + 大显存 Freeze 微调 中 好 冻结部分层 LoRA 低 好 推荐!性价比最高 QLoRA (2-8bit) 极低 较好 消费级显卡首选 DoRA 低 更好 LoRA 的增强版 PiSSA 低 好 低秩近似 OFT/OFTv2 低 好 正交微调 LoRA+ 低 更好 LoRA 改进 LoftQ 低 好 量化感知初始化 LongLoRA 低 好 长上下文扩展
QLoRA 量化位宽
量化方式 位宽 说明 AQLM 2bit 极致压缩 AWQ 4bit 高精度量化 GPTQ 2/3/4/8bit 灵活量化 LLM.int8 8bit 低损耗量化 HQQ 2/4/8bit 无校准量化 EETQ 8bit 高效量化
对齐方法
方法 类型 说明 SFT 监督微调 基础指令微调 RLHF 人类反馈强化学习 PPO 训练 DPO 偏好对齐 无需奖励模型 KTO 偏好对齐 只需好/坏标签 ORPO 偏好对齐 SFT+偏好联合训练 SimPO 偏好对齐 简化偏好优化 PPO 强化学习 经典 RLHF
训练阶段
阶段 说明 Continual Pre-training 继续预训练(领域注入) Supervised Fine-Tuning 指令微调(多模态支持) Reward Modeling 奖励模型训练 PPO/DPO/KTO/ORPO 偏好对齐
5. 高级算法与加速技巧
优化器
优化器 特点 GaLore 低秩梯度投影,节省显存 BAdam 块坐标优化,大模型友好 APOLLO 低秩近似预条件 Adam-mini 轻量 Adam 变体 Muon 动量优化器
加速技巧
技巧 效果 FlashAttention-2 RTX4090/A100/H100 推荐开启 Unsloth LoRA 训练 170% 加速 ,长序列训练 Llama-2-7B-56k 仅需 24GB Liger Kernel 高效融合 kernel,enable_liger_kernel: true KTransformers 2×4090+CPU 微调 1000B 模型 NEFTune 噪声增强,neftune_noise_alpha: 5 RoPE Scaling 扩展上下文长度 rsLoRA LoRA 缩放改进 Packed Training 无污染打包训练,neat_packing: true Mixture-of-Depths 动态计算分配
关键性能数据
场景 结果 Unsloth LoRA 加速 170% 速度 Unsloth 长序列训练 117% 速度 + 50% 显存 (vs FA2)vLLM 推理加速 270% 推理速度 FSDP+QLoRA 2×24GB GPU 微调 70B 模型 KTransformers 2×4090+CPU 微调 1000B 模型
6. 安装与快速开始
安装
pip install llamafactory
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"
docker pull hiyouga/llamafactory:latest
pip install -e ".[torch,npu,metrics]"
pip install -e ".[torch,metrics]" --rocm
快速微调(CLI)
llamafactory-cli train \
--model_name_or_path Qwen/Qwen3-8B \
--dataset alpaca_en_demo \
--finetuning_type lora \
--output_dir saves/qwen3-lora
YAML 配置方式
model_name_or_path : Qwen/Qwen3- 8B
stage : sft
finetuning_type : lora
dataset : alpaca_en_demo
template : qwen3
output_dir : saves/qwen3- lora
per_device_train_batch_size : 2
gradient_accumulation_steps : 4
lr_scheduler_type : cosine
logging_steps : 10
save_steps : 500
learning_rate : 1.0e-4
num_train_epochs : 3.0
plot_loss : true
llamafactory-cli train examples/train_lora/qwen3_lora_sft.yaml
7. 零代码 Web UI:LLaMA Board
llamafactory-cli webui
功能一览
功能 说明 🎯 模型选择 下拉选择 100+ 预训练模型 📊 数据集选择 内置 50+ 数据集,支持自定义上传 🔧 训练配置 可视化配置所有训练参数 🚀 一键训练 点击按钮开始微调 📈 实时监控 训练曲线实时展示 💬 对话测试 微调后直接对话测试效果 📤 模型导出 合并 LoRA / 导出 GGUF / Ollama
💡 完全零代码!鼠标点点就能微调大模型,新手友好度拉满!
8. 数据准备
数据格式
[
{
"instruction" : "Translate the following English text to Chinese." ,
"input" : "Hello, how are you?" ,
"output" : "你好,你好吗?"
}
]
[
{
"instruction" : "Write a poem about spring." ,
"input" : "" ,
"chosen" : "Spring brings flowers blooming bright..." ,
"rejected" : "Spring is a season."
}
]
内置数据集(50+)
数据集 类型 说明 alpaca_en_demo SFT 英文指令微调 alpaca_zh_demo SFT 中文指令微调 glaive_toolcall_en Agent 工具调用训练 OpenO1-SFT SFT 推理增强 identity SFT 模型身份设定
自定义数据集
{
"my_dataset" : {
"file_name" : "my_data.json" ,
"columns" : {
"prompt" : "instruction" ,
"query" : "input" ,
"response" : "output"
}
}
}
9. 微调实战示例
示例 1:LoRA 微调 Qwen3-8B(消费级显卡)
llamafactory-cli train \
--model_name_or_path Qwen/Qwen3-8B \
--stage sft \
--finetuning_type lora \
--lora_rank 8 \
--lora_target all \
--dataset alpaca_zh_demo \
--template qwen3 \
--output_dir saves/qwen3-lora \
--per_device_train_batch_size 2 \
--gradient_accumulation_steps 4 \
--lr_scheduler_type cosine \
--logging_steps 10 \
--save_steps 500 \
--learning_rate 1e-4 \
--num_train_epochs 3 \
--plot_loss true \
--fp16
示例 2:QLoRA 4-bit 微调 Llama-3-8B(16GB 显卡)
llamafactory-cli train \
--model_name_or_path meta-llama/Meta-Llama-3-8B \
--stage sft \
--finetuning_type lora \
--quantization_bit 4 \
--quantization_method bitsandbytes \
--lora_rank 8 \
--dataset alpaca_en_demo \
--template llama3 \
--output_dir saves/llama3-qlora \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 8 \
--learning_rate 2e-4 \
--num_train_epochs 3 \
--fp16
示例 3:DPO 偏好对齐
llamafactory-cli train \
--model_name_or_path Qwen/Qwen3-8B \
--stage dpo \
--finetuning_type lora \
--dataset dpo_demo \
--template qwen3 \
--output_dir saves/qwen3-dpo
示例 4:多模态微调 Qwen2.5-VL
llamafactory-cli train \
--model_name_or_path Qwen/Qwen2.5-VL-7B-Instruct \
--stage sft \
--finetuning_type lora \
--dataset mllm_demo \
--template qwen2_vl \
--output_dir saves/qwen25vl-lora
示例 5:合并 LoRA 导出
llamafactory-cli export \
--model_name_or_path Qwen/Qwen3-8B \
--adapter_name_or_path saves/qwen3-lora \
--template qwen3 \
--finetuning_type lora \
--export_dir models/qwen3-lora-merged \
--export_size 2 \
--export_device cpu \
--export_legacy_format false
示例 6:导出 Ollama 模型
llamafactory-cli export \
--model_name_or_path Qwen/Qwen3-8B \
--adapter_name_or_path saves/qwen3-lora \
--template qwen3 \
--finetuning_type lora \
--export_dir models/qwen3-lora \
--export_quantization_bit 4 \
--export_to_ollama true
10. 推理部署:vLLM + SGLang
vLLM 推理(270% 加速)
llamafactory-cli api \
--model_name_or_path models/qwen3-lora-merged \
--infer_backend vllm \
--open_api_port 8000
SGLang 推理
llamafactory-cli api \
--model_name_or_path models/qwen3-lora-merged \
--infer_backend sglang \
--open_api_port 8000
OpenAI 兼容 API
from openai import OpenAI
client = OpenAI( base_url= "http://localhost:8000/v1" , api_key= "test" )
response = client. chat. completions. create(
model= "qwen3-lora" ,
messages= [ { "role" : "user" , "content" : "你好!" } ] ,
)
print ( response. choices[ 0 ] . message. content)
Gradio UI 推理
llamafactory-cli chat \
--model_name_or_path models/qwen3-lora-merged \
--template qwen3
11. 多硬件后端支持
硬件 支持 说明 NVIDIA GPU ✅ 主力平台,A100/H100/RTX4090 等 AMD GPU ✅ ROCm 支持,文档 Ascend NPU ✅ 华为昇腾,文档 Megatron-core ✅ 阿里 ROLL mcore_adapter 后端
12. 实验监控生态
工具 类型 说明 LLaMA Board Web UI 内置可视化面板 TensorBoard 可视化 经典训练曲线 W&B 云端 团队协作实验追踪 MLflow 平台 MLOps 全流程 SwanLab 云端 国产实验追踪
13. 竞品横评
大模型微调框架对比
对比维度 LLaMA Factory Axolotl LLaMA-Recipes PEFT 支持模型数 100+ ~30 ~10 任意 训练方法 全(10+) 5+ 3+ LoRA系列 对齐方法 全(7+) DPO/RLHF DPO 无 Web UI ✅ LLaMA Board ❌ ❌ ❌ 零代码 ✅ ❌ ❌ ❌ vLLM推理 ✅ 270%加速 ❌ ❌ ❌ SGLang推理 ✅ ❌ ❌ ❌ 多模态 ✅ 图像/视频/音频 有限 ❌ ❌ NPU支持 ✅ ❌ ❌ ❌ AMD GPU ✅ ❌ ❌ ❌ Ollama导出 ✅ ❌ ❌ ❌ 论文 ACL 2024 — — — Star 45K+ 9K 5K 16K 内置数据集 50+ 少量 少量 无
14. 优缺点与使用建议
✅ 优点
维度 评分 说明 模型覆盖 ⭐⭐⭐⭐⭐ 100+ 模型,Day-0 支持 方法覆盖 ⭐⭐⭐⭐⭐ 全量/LoRA/QLoRA/DoRA/PiSSA/OFT + 全对齐方法 易用性 ⭐⭐⭐⭐⭐ 零代码 Web UI + CLI + YAML 加速优化 ⭐⭐⭐⭐⭐ FA2/Unsloth/Liger/GaLore/KTransformers 推理部署 ⭐⭐⭐⭐⭐ vLLM/SGLang/OpenAI API/Ollama 多模态 ⭐⭐⭐⭐⭐ 图像/视频/音频理解 硬件支持 ⭐⭐⭐⭐⭐ NVIDIA/AMD/NPU/Megatron 社区生态 ⭐⭐⭐⭐⭐ 45K Star / 1000+ 引用 / Amazon+NVIDIA 背书
⚠️ 注意事项
事项 说明 依赖较重 transformers/peft/vllm 等全装 YAML 学习成本 Web UI 可规避,但 CLI 需了解参数 超大模型 70B+ 仍需多卡,FSDP+QLoRA 可缓解 版本更新快 频繁更新,建议固定版本 文档 WIP 官方文档仍在完善中
💡 使用建议
新手首选 Web UI :llamafactory-cli webui,零代码上手LoRA 起步 :finetuning_type: lora,显存友好消费级显卡用 QLoRA 4bit :16GB 显卡微调 8B 模型70B 模型用 FSDP+QLoRA :2×24GB 显卡即可Unsloth 加速 :use_unsloth: true,170% 速度提升推理用 vLLM :infer_backend: vllm,270% 加速偏好对齐用 DPO :比 RLHF 简单,效果也好导出用 Ollama :一键部署到本地先试 Colab :免费 T4 跑通全流程看官方博客 :blog.llamafactory.net
15. 总结
LLaMA Factory 是大模型微调领域的标杆级项目 :
🤖 100+ 模型 Day-0/Day-1 支持,新模型第一时间可微调 🔧 全方法覆盖 :全量/LoRA/QLoRA/DoRA/PiSSA/OFT + SFT/DPO/KTO/ORPO/PPO 🚀 前沿加速 :Unsloth 170%/vLLM 270%/Liger-Kernel/GaLore/KTransformers 🖥️ 零代码 Web UI :LLaMA Board 鼠标点点即微调 ⚡ 一键部署 :vLLM/SGLang 推理 + OpenAI API + Ollama 导出 📱 多模态 :图像/视频/音频理解全支持 🔌 多硬件 :NVIDIA/AMD/NPU/Megatron-core 📊 实验监控 :TensorBoard/W&B/MLflow/SwanLab 🎓 ACL 2024 论文,Google Scholar 1000+ 引用 🏢 大厂背书 :Amazon/NVIDIA/阿里云官方使用
推荐指数:⭐⭐⭐⭐⭐
无论你是想微调第一个大模型的新手,还是在生产环境部署微调系统的工程师,LLaMA Factory 都是当前最好的选择。100+ 模型 × 全方法 × 零代码 × 极速推理,大模型微调就该这么简单。
📢 项目地址:https://github.com/hiyouga/LlamaFactory 📖 文档:llamafactory.readthedocs.io 📝 博客:blog.llamafactory.net 📄 论文:arXiv 2403.13372 🎮 Colab 体验:免费 T4 微调 🤗 Demo:HuggingFace Spaces
标签:#LLaMAFactory #大模型微调 #LoRA #QLoRA #DPO #RLHF #vLLM #Qwen3 #DeepSeek #ACL2024