小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5

简介: 小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5

01.模型亮点与创新

1.1 NaViT 视觉编码器 —— 原生自研,支持动态分辨率

  • 完全从零训练:

非基于成熟视觉编码器微调,而是从头训练,极大提升视觉感知能力上限。

  • 动态分辨率支持:

提升对多样真实图像场景的适应性。

  • 双重视觉监督:

结合纯视觉(如纯图片)与文本视觉(如图片+描述),充分逼近复杂视觉场景的泛化能力。

  • 多样训练数据:

纳入广泛结构化图片(表格、图表、公式、文档、OCR等),提升非典型场景(如长尾识别、文档解析)的表现。

1.2 多模态训练数据 —— 规模巨大,清洗精细

  • 强多样性合成数据:

合成和收集表格/Chart/文档/Graphics 等图片及丰富的描述(Alt Text/Dense Caption/Grounding)。

  • 自主重写多模态网页数据:

通过自研 VLM 进行数据清洗与重写,显著提升图文对齐和数据质量。

  • PDF 图文增强训练:

自研 dots.ocr 将 PDF 文档结构化为图文混合数据,支持遮挡预测,提高文档理解。

1.3 前沿预训练与精细化调优流程

  • 分阶段全流程训练:

视觉编码器预训练—大规模 VLM 预训练—多样 SFT 后训练。

  • 视觉推理能力突出:

专注于 MMMU、MathVision、OCR Reasoning 等多项多模态基准测试,接近 Gemini 2.5 Pro/Seed-VL1.5 闭源领先模型水平。

  • 文本推理能力主流:

在数学、代码与复杂推理上与主流 LLM 持平,部分任务略有提升空间。

02.性能评测与样例分析

2.1 评测指标与结果

在主要国际多模态评测集(如 MMMU、MathVision、OCR Reasoning 等)中,dots.vlm1 的整体表现已接近当前领先的 Gemini 2.5 Pro 与 Seed-VL1.5。相关核心结论如下:

在文本任务(AIME、GPQA、LiveCodeBench 等)上,dots.vlm1 达到了与主流 LLM 相当的水准,具备通用数学推理和代码能力,但极复杂推理仍与 SOTA 闭源模型存在差距。

2.2 应用效果样例

复杂图表推理

dots.vlm1 能对高度复杂的表格、图形、文档图像进行准确识别与逻辑推理,显著提升业务实践能力。

左右滑动查看更多

STEM/数学推理

支持复杂多步运算、长图理解、一题多解,完全胜任奥数、STEM 类视觉-文本混合解题任务。

左右滑动查看更多

长尾细分场景识别

模型对特殊/非主流领域图片(如OCR/长尾文档图像)表现优异,显著好于传统视觉编码方案。





03.技术架构与训练流程

3.1 三大核心组件

  • NaViT 视觉编码器(12亿参数):

42层 Transformer,采用 RMSNorm、SwiGLU、2D RoPE,原生多分辨率支持。

  • MLP 适配器:

高效图文特征融合。

  • DeepSeek V3 MoE LLM:

业界主流性能的门控专家型大语言模型。

3.2 三阶段训练流程

  • 视觉编码器阶段:

随机初始化,先以 224×224 分辨率进行大规模图文感知归一化训练,采用下一 Token 预测/NTP 与下一 Patch 生成/NPG 双重监督。

  • VLM 联合预训练:

与 DeepSeek V3 LLM 拼接,接入多源海量多模态数据,大幅提升跨模态能力。

  • 后训练微调:

多任务多样样例有监督Fine-tuning,进一步优化泛化与稳健性。

3.3 数据管线与多样性设计

  • 跨模态互译:

图片与文本相互描述与理解,涵盖Alt Text/密集图注/公式/表格/grounding等全谱系视觉场景。

  • 跨模态融合:

解耦图文依赖,清洗网页/PDF等复杂数据集以强化真实世界多模态理解。



04.存在不足与未来展望

视觉感知:将继续扩大跨模态数据规模和类型,优化视觉编码器神经网络结构。

视觉推理:将引入强化学习等前沿算法,提升推理泛化能力,探索更强的推理前置技术。

数据与评测闭环:打通更大规模、更丰富的结构化与非结构化多模态数据,围绕真实业务问题持续升级评测体系。

05.相关链接

GitHub Repo:

https://github.com/rednote-hilab/dots.vlm1

HuggingFace 模型:

https://huggingface.co/rednote-hilab/dots.vlm1.inst

在线 Demo:

https//huggingface.co/spaces/rednote-hilab/dots-vlm1-demo

魔搭链接:

https://modelscope.cn/models/rednote-hilab/dots.vlm1.inst

06.结论

小红书 hi lab 推出的 dots.vlm1 多模态大模型以全链条自研和开源姿态,综合性能首次对标并逼近 Gemini 2.5 Pro、Seed-VL1.5 等闭源最强大模型,不仅在视觉-文本复杂场景中展现卓越,文本编码推理能力也保持主流水平。未来,团队将坚持开源、高质量、持续创新,为国内外多模态大模型生态带来更强推动力。

点击阅读原文, 即可跳转模型链接~

https://modelscope.cn/models/rednote-hilab/dots.vlm1.inst

目录
相关文章
|
2月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
3月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
359 2
|
3月前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
1744 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
2月前
|
机器学习/深度学习 人工智能 人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
400 121
|
2月前
|
数据采集 人工智能 搜索推荐
智能新纪元:多模态大模型如何重塑人机交互
智能新纪元:多模态大模型如何重塑人机交互
262 113
|
2月前
|
人工智能 人机交互 知识图谱
当AI学会“融会贯通”:多模态大模型如何重塑未来
当AI学会“融会贯通”:多模态大模型如何重塑未来
312 114
|
2月前
|
人工智能 安全 搜索推荐
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
290 117
|
3月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
1175 2