NVIDIA Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8:终极多模态AI模型完全指南
NVIDIA Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8是一款革命性的多模态AI模型,能够统一处理视频、音频、图像和文本,为企业级问答、摘要、转录和文档智能工作流提供强大支持。这款模型扩展了Nemotron Nano系列,集成了视频+语音理解、图形用户界面(GUI)、光学字符识别(OCR)和语音转录功能,实现了对会议记录、媒体资产、培训视频和复杂业务文档等丰富企业内容的端到端处理。
🚀 模型亮点速览
| 特性 | 详情 |
|---|---|
| 总参数 | 31B(Mamba2-Transformer混合MoE架构) |
| 激活参数 | 每token约3B |
| 最大上下文长度 | 256k tokens |
| 输入模态 | 视频、音频、图像、文本 |
| 输出模态 | 文本 |
| 推理模式 | 默认开启,可通过enable_thinking切换 |
| 最佳应用场景 | 视频+语音分析、文档智能(OCR/图表/长文档)、GUI/智能代理工作流、语音识别 |
| 最低GPU要求(FP8) | 1× L40S 48GB;推荐1× RTX Pro 6000 / 1× B200 |
| 支持精度 | BF16(62 GB)· FP8(33 GB)· NVFP4(21 GB) |
💡 核心能力解析
多模态融合处理
Nemotron-3-Nano-Omni采用创新的Mamba2-Transformer混合MoE架构,将多种模态无缝集成:
- 视觉处理:通过CRADIO v4-H视觉编码器处理图像和视频帧
- 语音处理:借助Parakeet语音编码器处理音频输入
- 文本处理:基于30B A3B参数的Nemotron 3 Nano LLM backbone
模型能够处理的输入格式包括:
- 视频:mp4格式,最长2分钟,支持1080p(1 FPS/128帧)和720p(2 FPS/256帧)
- 音频:wav、mp3文件(最长1小时),8kHz及更高采样率
- 图像:RGB格式(jpeg、png)
- 文本:字符串
强大的推理能力
模型默认启用推理模式,能够生成思考链(chain-of-thought)来解决复杂问题。你可以通过API参数灵活控制:
| 设置 | 行为 |
|---|---|
| 默认(省略) | 推理开启,模型在最终答案前生成思考链 |
"chat_template_kwargs": {"enable_thinking": false} | 推理关闭,仅返回最终答案 |
对于视频、音频等复杂多模态任务,建议尝试开启和关闭推理模式以获得最佳结果。
🛠️ 快速开始指南
模型参数配置
根据不同任务类型,推荐以下参数设置:
| 模式 | temperature | top_p | top_k | max_tokens | reasoning_budget | grace_period |
|---|---|---|---|---|---|---|
| 思考模式 | 0.6 | 0.95 | — | 20480 | 16384 | 1024 |
| 指令模式 | 0.2 | — | 1 | 1024 | — | — |
| 语音识别任务 | 1.0 | — | 1 | 1024 | — | — |
安装与部署
1. 克隆仓库
git clone https://gitcode.com/hf_mirrors/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8
cd Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8
2. 安装依赖
pip install -U "huggingface_hub[hf_xet]"
3. 使用vLLM部署(推荐)
# 拉取容器
docker pull vllm/vllm-openai:v0.20.0
# 启动服务(FP8版本)
docker run --rm -it \
--gpus all \
--ipc=host -p 8000:8000 \
--shm-size=16g \
-v $(pwd):/model:ro \
vllm/vllm-openai:v0.20.0 \
bash -c "pip install vllm[audio] && vllm serve /model \
--host 0.0.0.0 \
--max-model-len 131072 \
--tensor-parallel-size 1 \
--trust-remote-code \
--video-pruning-rate 0.5 \
--max-num-seqs 384 \
--allowed-local-media-path / \
--media-io-kwargs '{\"video\": {\"fps\": 2, \"num_frames\": 256}}' \
--reasoning-parser nemotron_v3 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder \
--kv-cache-dtype fp8"
API调用示例
图像理解
from openai import OpenAI
import base64
client = OpenAI(base_url="http://localhost:8000/v1", api_key="")
MODEL = "nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8"
def image_to_data_url(/service/path: str) -> str:
with open(path, "rb") as f:
b64 = base64.b64encode(f.read()).decode("utf-8")
return f"data:image/jpeg;base64,{b64}"
image_url = image_to_data_url(https://blog.csdn.net/"path/to/your/image.jpg")
response = client.chat.completions.create(
model=MODEL,
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "详细描述这张图片的内容。"},
{"type": "image_url", "image_url": {"url": image_url}},
],
}
],
max_tokens=1024,
temperature=0.2,
extra_body={"top_k": 1, "chat_template_kwargs": {"enable_thinking": False}},
)
print(response.choices[0].message.content)
音频转录
from openai import OpenAI
from pathlib import Path
client = OpenAI(base_url="http://localhost:8000/v1", api_key="")
MODEL = "nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-FP8"
audio_url = Path("path/to/your/audio.wav").resolve().as_uri()
response = client.chat.completions.create(
model=MODEL,
messages=[
{
"role": "user",
"content": [
{"type": "audio_url", "audio_url": {"url": audio_url}},
{"type": "text", "text": "转录这段音频。"},
],
}
],
max_tokens=1024,
temperature=1.0,
extra_body={"top_k": 1, "chat_template_kwargs": {"enable_thinking": False}},
)
print(response.choices[0].message.content)
📊 性能表现
Nemotron-3-Nano-Omni在多个多模态基准测试中表现优异:
| 任务 | 多模态基准 | Nemotron 3 Nano Omni | 性能提升 |
|---|---|---|---|
| 图像定位 | CVBench2D | 83.95 | 6.73% |
| 文档处理 | OCRBenchV2 (EN) | 67.04 | 18.26% |
| 计算机使用 | OSWorld | 47.4 | 76.58% |
| 图表推理 | Charxiv Reasoning | 63.6 | 35.06% |
| 多图推理 | MMlongBench Doc | 57.5 | 33.91% |
| 数学推理 | MathVista_MINI | 82.8 | 8.82% |
| OCR推理 | OCR_Reasoning | 54.14 | 33.87% |
FP8量化版本在保持性能的同时显著降低了资源需求:
| 指标 | BF16 | FP8 | NVFP4 |
|---|---|---|---|
| 大小 (GB) | 61.5 | 32.8 | 20.9 |
| 有效位/权重 | 16.00 | 8.5 | 4.98 |
| 与BF16性能差距 | — | -0.40 | -0.38 |
💼 应用场景
Nemotron-3-Nano-Omni专为企业客户设计,适合以下应用场景:
客户服务应用
- 快递投递视频验证(通过OCR识别地址)
- 免下车订单确认
媒体与娱乐
- 视频和语音分析
- 密集字幕生成
- 视频搜索和摘要
文档智能
- 合同、SOW/MSA分析
- 科学发现
- 财务文档处理
GUI自动化
- 事件管理
- 智能代理搜索
- 浏览器代理
- 邮件代理
🔧 高级配置
视频优化
为获得最佳视频处理效果,建议在启动服务器时设置:
--media-io-kwargs '{"video": {"fps": 2, "num_frames": 256}}'
根据GPU内存大小调整num_frames:
| GPU内存 | 推荐num_frames范围 |
|---|---|
| 80 GB (A100/H100) | 128–512 |
| ≤40 GB | 64–256 |
预算控制推理
对于复杂推理任务,可以使用预算控制推理来平衡思考深度和资源消耗:
# 详细实现请参考modeling.py中的ThinkingBudgetClient类
client = ThinkingBudgetClient(base_url="http://localhost:8000/v1", api_key="", tokenizer_name_or_path=MODEL)
response = client.chat_completion(
model=MODEL,
messages=[{"role": "user", "content": "复杂的多步骤问题..."}],
reasoning_budget=512,
max_tokens=1024
)
print("思考过程:", response["reasoning_content"])
print("最终答案:", response["content"])
📝 最佳实践
- 推理模式设置:文本和图像输入默认启用推理模式;视频处理可尝试开启/关闭推理以获得最佳结果
- 视频帧采样:默认约32帧可能不足以覆盖大多数视频,务必在服务器启动时设置
--media-io-kwargs - PDF输入处理:API不直接接受PDF文件,需将页面渲染为PNG并以base64格式发送
- 输出长度设置:对于大多数多模态推理任务,建议输出长度至少为20480;复杂推理可增加至210000 tokens
📄 许可证信息
使用本模型受NVIDIA Open Model Agreement约束。该模型可用于商业用途。
📚 引用
@misc{nvidia2026nemotron3nanoomni,
title={Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence},
author={NVIDIA},
year={2026},
eprint={2604.24954},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2604.24954},
}
🔍 相关资源
- 模型配置详情:config.json
- 架构实现:modeling.py
- 图像处理:image_processing.py
- 视频处理:video_processing.py
- 音频处理:audio_model.py
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



