LLaMA Factory:一个框架微调 100+ 大模型,零代码 Web UI 开箱即用,ACL 2024 论文,Amazon/NVIDIA/阿里云都在用

LLaMA Factory:一个框架微调 100+ 大模型,零代码 Web UI 开箱即用,ACL 2024 论文,Amazon/NVIDIA/阿里云都在用

💡 微调大模型有多难?LLaMA Factory 说:零代码。100+ 模型(LLaMA/Qwen3/DeepSeek/Gemma3/GLM-4.1V/Phi-4/Llama 4)Day-0 支持;全量微调/Freeze/LoRA/QLoRA(2~8bit)/DoRA/PiSSA 一键切换;SFT/RLHF/DPO/KTO/ORPO/PPO 全对齐方法覆盖;FlashAttention-2/Unsloth/Liger-Kernel/GaLore 等前沿加速;Gradio Web UI 零代码操作;vLLM/SGLang 一键部署推理;Colab 免费白嫖 T4;FSDP+QLoRA 两张 24GB 显卡微调 70B;Ascend NPU + AMD GPU 双国产加速卡支持;Google Scholar 引用 1000+。ACL 2024 收录,GitHub 45K+ Star,大模型微调的"瑞士军刀"。

在这里插入图片描述

📌 目录


1. LLaMA Factory 是什么?

LLaMA Factory 是一个统一高效的大模型微调框架,让微调 100+ 个 LLM 和 VLM 变得像喝咖啡一样简单。

大厂背书

Amazon  → SageMaker HyperPod + LLaMA Factory 微调银行文档
NVIDIA  → RTX AI Toolkit 集成 LLaMA Factory
阿里云  → PAI-DSW 官方支持 LLaMA Factory

一句话总结

LLaMA Factory = 大模型微调的"瑞士军刀"
              = 100+ 模型 × 全训练方法 × 全对齐方法
              = 零代码 Web UI + CLI + API
              = vLLM/SGLang 一键部署
              = Colab 免费跑 + FSDP+QLoRA 2卡微调70B

2. 核心特性一览

特性说明
🤖 100+ 模型LLaMA/Qwen3/DeepSeek/Gemma3/GLM/Phi/Llama 4 等
🔧 全训练方法全量/Freeze/LoRA/QLoRA(2-8bit)/DoRA/PiSSA/OFT
🎯 全对齐方法SFT/RLHF/PPO/DPO/KTO/ORPO/SimPO
🚀 前沿加速FlashAttention-2/Unsloth/Liger-Kernel/GaLore/BAdam
🖥️ 零代码 Web UIGradio 界面,鼠标点点即微调
极速推理vLLM(270%加速)/SGLang 后端
📊 实验监控TensorBoard/W&B/MLflow/SwanLab
🔌 多硬件NVIDIA GPU / AMD GPU / Ascend NPU
📱 多模态图像/视频/音频理解
📦 一键导出Ollama modelfile / OpenAI API / GGUF

3. 支持 100+ 模型(Day-0 支持)

Day-0 支持(模型发布当天即可微调)

级别模型
Day 0Qwen3 / Qwen2.5-VL / Gemma 3 / GLM-4.1V / InternLM 3 / MiniCPM-o-2.6
Day 1Llama 3 / GLM-4 / Mistral Small / PaliGemma2 / Llama 4

支持模型家族

家族代表模型
LLaMALlama 3 / Llama 4 / LLaVA-1.5
QwenQwen3 / Qwen2.5 / Qwen2.5-VL / Qwen2.5 Omni / Qwen2-Audio
DeepSeekDeepSeek-R1 / DeepSeek-V2
GemmaGemma 3 / PaliGemma2
GLMGLM-4 / GLM-4.1V / GLM-Z1
PhiPhi-4
MistralMistral Small / Mixtral 8x7B
InternInternLM 3 / InternVL3 / Intern-S1-mini
MiniCPMMiniCPM-o-2.6 / MiniCPM-V-2.6
其他Skywork-o1 / GPT-OSS / Kimi-VL

4. 训练方法全覆盖

微调方式

方式显存需求效果适用场景
16-bit 全量微调最好数据充足 + 大显存
Freeze 微调冻结部分层
LoRA推荐!性价比最高
QLoRA (2-8bit)极低较好消费级显卡首选
DoRA更好LoRA 的增强版
PiSSA低秩近似
OFT/OFTv2正交微调
LoRA+更好LoRA 改进
LoftQ量化感知初始化
LongLoRA长上下文扩展

QLoRA 量化位宽

量化方式位宽说明
AQLM2bit极致压缩
AWQ4bit高精度量化
GPTQ2/3/4/8bit灵活量化
LLM.int88bit低损耗量化
HQQ2/4/8bit无校准量化
EETQ8bit高效量化

对齐方法

方法类型说明
SFT监督微调基础指令微调
RLHF人类反馈强化学习PPO 训练
DPO偏好对齐无需奖励模型
KTO偏好对齐只需好/坏标签
ORPO偏好对齐SFT+偏好联合训练
SimPO偏好对齐简化偏好优化
PPO强化学习经典 RLHF

训练阶段

阶段说明
Continual Pre-training继续预训练(领域注入)
Supervised Fine-Tuning指令微调(多模态支持)
Reward Modeling奖励模型训练
PPO/DPO/KTO/ORPO偏好对齐

5. 高级算法与加速技巧

优化器

优化器特点
GaLore低秩梯度投影,节省显存
BAdam块坐标优化,大模型友好
APOLLO低秩近似预条件
Adam-mini轻量 Adam 变体
Muon动量优化器

加速技巧

技巧效果
FlashAttention-2RTX4090/A100/H100 推荐开启
UnslothLoRA 训练 170% 加速,长序列训练 Llama-2-7B-56k 仅需 24GB
Liger Kernel高效融合 kernel,enable_liger_kernel: true
KTransformers2×4090+CPU 微调 1000B 模型
NEFTune噪声增强,neftune_noise_alpha: 5
RoPE Scaling扩展上下文长度
rsLoRALoRA 缩放改进
Packed Training无污染打包训练,neat_packing: true
Mixture-of-Depths动态计算分配

关键性能数据

场景结果
Unsloth LoRA 加速170% 速度
Unsloth 长序列训练117% 速度 + 50% 显存(vs FA2)
vLLM 推理加速270% 推理速度
FSDP+QLoRA2×24GB GPU 微调 70B 模型
KTransformers2×4090+CPU 微调 1000B 模型

6. 安装与快速开始

安装

# 方式 1:pip 安装(推荐)
pip install llamafactory

# 方式 2:从源码安装
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"

# 方式 3:Docker
docker pull hiyouga/llamafactory:latest

# 方式 4:Ascend NPU
pip install -e ".[torch,npu,metrics]"

# 方式 5:AMD GPU
pip install -e ".[torch,metrics]" --rocm

快速微调(CLI)

# LoRA 微调 Qwen3-8B,4行命令
llamafactory-cli train \
  --model_name_or_path Qwen/Qwen3-8B \
  --dataset alpaca_en_demo \
  --finetuning_type lora \
  --output_dir saves/qwen3-lora

YAML 配置方式

# examples/train_lora/qwen3_lora_sft.yaml
model_name_or_path: Qwen/Qwen3-8B
stage: sft
finetuning_type: lora
dataset: alpaca_en_demo
template: qwen3
output_dir: saves/qwen3-lora
per_device_train_batch_size: 2
gradient_accumulation_steps: 4
lr_scheduler_type: cosine
logging_steps: 10
save_steps: 500
learning_rate: 1.0e-4
num_train_epochs: 3.0
plot_loss: true
llamafactory-cli train examples/train_lora/qwen3_lora_sft.yaml

7. 零代码 Web UI:LLaMA Board

# 启动 Web UI
llamafactory-cli webui

功能一览

功能说明
🎯 模型选择下拉选择 100+ 预训练模型
📊 数据集选择内置 50+ 数据集,支持自定义上传
🔧 训练配置可视化配置所有训练参数
🚀 一键训练点击按钮开始微调
📈 实时监控训练曲线实时展示
💬 对话测试微调后直接对话测试效果
📤 模型导出合并 LoRA / 导出 GGUF / Ollama

💡 完全零代码!鼠标点点就能微调大模型,新手友好度拉满!


8. 数据准备

数据格式

// 指令微调(SFT)
[
  {
    "instruction": "Translate the following English text to Chinese.",
    "input": "Hello, how are you?",
    "output": "你好,你好吗?"
  }
]

// 偏好对齐(DPO/KTO/ORPO)
[
  {
    "instruction": "Write a poem about spring.",
    "input": "",
    "chosen": "Spring brings flowers blooming bright...",
    "rejected": "Spring is a season."
  }
]

内置数据集(50+)

数据集类型说明
alpaca_en_demoSFT英文指令微调
alpaca_zh_demoSFT中文指令微调
glaive_toolcall_enAgent工具调用训练
OpenO1-SFTSFT推理增强
identitySFT模型身份设定

自定义数据集

# dataset_info.json
{
  "my_dataset": {
    "file_name": "my_data.json",
    "columns": {
      "prompt": "instruction",
      "query": "input",
      "response": "output"
    }
  }
}

9. 微调实战示例

示例 1:LoRA 微调 Qwen3-8B(消费级显卡)

llamafactory-cli train \
  --model_name_or_path Qwen/Qwen3-8B \
  --stage sft \
  --finetuning_type lora \
  --lora_rank 8 \
  --lora_target all \
  --dataset alpaca_zh_demo \
  --template qwen3 \
  --output_dir saves/qwen3-lora \
  --per_device_train_batch_size 2 \
  --gradient_accumulation_steps 4 \
  --lr_scheduler_type cosine \
  --logging_steps 10 \
  --save_steps 500 \
  --learning_rate 1e-4 \
  --num_train_epochs 3 \
  --plot_loss true \
  --fp16

示例 2:QLoRA 4-bit 微调 Llama-3-8B(16GB 显卡)

llamafactory-cli train \
  --model_name_or_path meta-llama/Meta-Llama-3-8B \
  --stage sft \
  --finetuning_type lora \
  --quantization_bit 4 \
  --quantization_method bitsandbytes \
  --lora_rank 8 \
  --dataset alpaca_en_demo \
  --template llama3 \
  --output_dir saves/llama3-qlora \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 8 \
  --learning_rate 2e-4 \
  --num_train_epochs 3 \
  --fp16

示例 3:DPO 偏好对齐

llamafactory-cli train \
  --model_name_or_path Qwen/Qwen3-8B \
  --stage dpo \
  --finetuning_type lora \
  --dataset dpo_demo \
  --template qwen3 \
  --output_dir saves/qwen3-dpo

示例 4:多模态微调 Qwen2.5-VL

llamafactory-cli train \
  --model_name_or_path Qwen/Qwen2.5-VL-7B-Instruct \
  --stage sft \
  --finetuning_type lora \
  --dataset mllm_demo \
  --template qwen2_vl \
  --output_dir saves/qwen25vl-lora

示例 5:合并 LoRA 导出

llamafactory-cli export \
  --model_name_or_path Qwen/Qwen3-8B \
  --adapter_name_or_path saves/qwen3-lora \
  --template qwen3 \
  --finetuning_type lora \
  --export_dir models/qwen3-lora-merged \
  --export_size 2 \
  --export_device cpu \
  --export_legacy_format false

示例 6:导出 Ollama 模型

llamafactory-cli export \
  --model_name_or_path Qwen/Qwen3-8B \
  --adapter_name_or_path saves/qwen3-lora \
  --template qwen3 \
  --finetuning_type lora \
  --export_dir models/qwen3-lora \
  --export_quantization_bit 4 \
  --export_to_ollama true

10. 推理部署:vLLM + SGLang

vLLM 推理(270% 加速)

llamafactory-cli api \
  --model_name_or_path models/qwen3-lora-merged \
  --infer_backend vllm \
  --open_api_port 8000

SGLang 推理

llamafactory-cli api \
  --model_name_or_path models/qwen3-lora-merged \
  --infer_backend sglang \
  --open_api_port 8000

OpenAI 兼容 API

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="test")

response = client.chat.completions.create(
    model="qwen3-lora",
    messages=[{"role": "user", "content": "你好!"}],
)
print(response.choices[0].message.content)

Gradio UI 推理

llamafactory-cli chat \
  --model_name_or_path models/qwen3-lora-merged \
  --template qwen3

11. 多硬件后端支持

硬件支持说明
NVIDIA GPU主力平台,A100/H100/RTX4090 等
AMD GPUROCm 支持,文档
Ascend NPU华为昇腾,文档
Megatron-core阿里 ROLL mcore_adapter 后端

12. 实验监控生态

工具类型说明
LLaMA BoardWeb UI内置可视化面板
TensorBoard可视化经典训练曲线
W&B云端团队协作实验追踪
MLflow平台MLOps 全流程
SwanLab云端国产实验追踪

13. 竞品横评

大模型微调框架对比

对比维度LLaMA FactoryAxolotlLLaMA-RecipesPEFT
支持模型数100+~30~10任意
训练方法全(10+)5+3+LoRA系列
对齐方法全(7+)DPO/RLHFDPO
Web UILLaMA Board
零代码
vLLM推理270%加速
SGLang推理
多模态图像/视频/音频有限
NPU支持
AMD GPU
Ollama导出
论文ACL 2024
Star45K+9K5K16K
内置数据集50+少量少量

14. 优缺点与使用建议

✅ 优点

维度评分说明
模型覆盖⭐⭐⭐⭐⭐100+ 模型,Day-0 支持
方法覆盖⭐⭐⭐⭐⭐全量/LoRA/QLoRA/DoRA/PiSSA/OFT + 全对齐方法
易用性⭐⭐⭐⭐⭐零代码 Web UI + CLI + YAML
加速优化⭐⭐⭐⭐⭐FA2/Unsloth/Liger/GaLore/KTransformers
推理部署⭐⭐⭐⭐⭐vLLM/SGLang/OpenAI API/Ollama
多模态⭐⭐⭐⭐⭐图像/视频/音频理解
硬件支持⭐⭐⭐⭐⭐NVIDIA/AMD/NPU/Megatron
社区生态⭐⭐⭐⭐⭐45K Star / 1000+ 引用 / Amazon+NVIDIA 背书

⚠️ 注意事项

事项说明
依赖较重transformers/peft/vllm 等全装
YAML 学习成本Web UI 可规避,但 CLI 需了解参数
超大模型70B+ 仍需多卡,FSDP+QLoRA 可缓解
版本更新快频繁更新,建议固定版本
文档 WIP官方文档仍在完善中

💡 使用建议

  1. 新手首选 Web UIllamafactory-cli webui,零代码上手
  2. LoRA 起步finetuning_type: lora,显存友好
  3. 消费级显卡用 QLoRA 4bit:16GB 显卡微调 8B 模型
  4. 70B 模型用 FSDP+QLoRA:2×24GB 显卡即可
  5. Unsloth 加速use_unsloth: true,170% 速度提升
  6. 推理用 vLLMinfer_backend: vllm,270% 加速
  7. 偏好对齐用 DPO:比 RLHF 简单,效果也好
  8. 导出用 Ollama:一键部署到本地
  9. 先试 Colab:免费 T4 跑通全流程
  10. 看官方博客blog.llamafactory.net

15. 总结

LLaMA Factory 是大模型微调领域的标杆级项目

  • 🤖 100+ 模型 Day-0/Day-1 支持,新模型第一时间可微调
  • 🔧 全方法覆盖:全量/LoRA/QLoRA/DoRA/PiSSA/OFT + SFT/DPO/KTO/ORPO/PPO
  • 🚀 前沿加速:Unsloth 170%/vLLM 270%/Liger-Kernel/GaLore/KTransformers
  • 🖥️ 零代码 Web UI:LLaMA Board 鼠标点点即微调
  • 一键部署:vLLM/SGLang 推理 + OpenAI API + Ollama 导出
  • 📱 多模态:图像/视频/音频理解全支持
  • 🔌 多硬件:NVIDIA/AMD/NPU/Megatron-core
  • 📊 实验监控:TensorBoard/W&B/MLflow/SwanLab
  • 🎓 ACL 2024 论文,Google Scholar 1000+ 引用
  • 🏢 大厂背书:Amazon/NVIDIA/阿里云官方使用

推荐指数:⭐⭐⭐⭐⭐

无论你是想微调第一个大模型的新手,还是在生产环境部署微调系统的工程师,LLaMA Factory 都是当前最好的选择。100+ 模型 × 全方法 × 零代码 × 极速推理,大模型微调就该这么简单。

📢 项目地址:https://github.com/hiyouga/LlamaFactory
📖 文档:llamafactory.readthedocs.io
📝 博客:blog.llamafactory.net
📄 论文:arXiv 2403.13372
🎮 Colab 体验:免费 T4 微调
🤗 Demo:HuggingFace Spaces


标签:#LLaMAFactory #大模型微调 #LoRA #QLoRA #DPO #RLHF #vLLM #Qwen3 #DeepSeek #ACL2024

内容概要:本文档是一份涵盖多个科研领域的Matlab、Python及Simulink代码实现资源集,重点包括通信系统中的GMSK调制二比特差分解调、Turbo码结合BPSK或GMSK的调制解调技术研究,以及永磁同步电机控制、微电网优化、路径规划、负荷预测、风电功率预测、无人机控制、电力系统仿真、信号处理、图像处理、雷达技术、车间调度、智能优化算法等多个方向的技术实现。文档详细列举了大量基于Matlab/Simulink的仿真项目,如自抗扰控制、模型预测控制、涡轮编码调制、智能优化算法等,并提供了相关代码资源的网盘链接。同时,文档强调科研过程中逻辑思维、创新意识与“借力”工具的重要性,倡导系统性学习与实践相结合,帮助研究者高效推进课题研究与论文复现工作。; 适合人群:具备一定Matlab、Python或Simulink编程基础,从事电子信息、通信工程、电气工程、自动化、控制科学与工程、电力系统、计算机科学等相关领域的研究生、科研人员及工程师,尤其适合开展仿真类课题或需要复现顶刊论文的研究者。; 使用场景及目标:① 学习和复现现代通信系统中GMSK、BPSK调制与Turbo码结合的仿真流程;② 掌握永磁同步电机控制策略(如自抗扰、滑模控制、模型预测控制)的建模与仿真方法;③ 实现微电网能量管理、路径规划、负荷预测、风电功率预测等复杂系统的算法开发与仿真验证;④ 辅助科研论文写作与课题研究,快速搭建仿真模型并优化算法性能;⑤ 借助智能优化算法解决生产调度、路径规划、资源配置等复杂工程问题。; 阅读建议:建议读者按照文档中项目分类循序渐进地学习,优先关注自身研究方向相关的代码实例。应结合理论知识,深入理解代码逻辑,并尝试在提供的仿真模型基础上进行参数调整与功能扩展,以达到掌握核心技术与提升科研效率的目标。注意资源来源于第三方,使用时需尊重版权,避免用于商业用途。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

guopeiAI

请博主加个火腿

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值