让企业轻松把 AI 用起来——ZStack AIOS 智塔，从算力到应用的一站式 AI 底座

原创于 2026-06-18 11:18:14 发布 · 155 阅读

本内容遵循CC 4.0 BY-SA版权协议

标签

#gpu算力 #云计算 #服务器 #网络

企业对 AI 的投入还在加大，但两个问题始终绕不开。想用 AI 的企业，买了 GPU、装了大模型，却卡在上手难、运维难、业务接不上，算力买了却用不起来；手握算力的企业，建了智算资源、攒了 GPU 集群，却难以把这些算力分配出去、变成实实在在的收益。

AI 的账，一头是用不起来，一头是赚不回来。

ZStack AIOS 智塔面向的正是这两头——它是一套轻量化的企业级 AI 底座，让企业用现有的服务器和 GPU 快速把 AI 用起来；也是一套统一管理硬件、GPU、模型与应用的 AI 基础设施，让算力从沉淀的成本变成可经营的利润。

ZStack AIOS：从智算底座到应用的四层 AI 基础设施

ZStack AIOS 智塔是一款自主研发、产品化的新一代 AI 基础设施操作系统。它把算力、模型、调用治理与应用整合为一体，向下纳管多元异构的 GPU 算力，向上支撑大模型与 AI 应用的快速落地，让算力既能被充分使用，也能被计量、治理和经营。

它的能力分为四层：智算底座统一纳管并精细切分异构 GPU，让每一份算力充分发挥效能；模型层覆盖从模型导入到微调、推理、评测的完整工作流；网关层统一接入与治理 AI 模型调用，让调用可管控、可计量、可审计；应用层预置开箱即用的 AI 应用，让 AI 快速接入业务。AIOS 支持从 ZStack 云平台无缝升级，已有云底座的企业可以平滑扩展为 AI 基础设施，无需推翻重建。

智算底座：让每一张 GPU 的利用率最大化

AI 投入产出失衡，第一个症结在算力。GPU 昂贵，但整卡分配、利用率低、异构难管，让算力的实际产出远低于采购时的预期。

AIOS 在智算底座提供多种 GPU 调度与虚拟化方式，覆盖从整卡到细粒度切分的完整场景：GPU 透传以接近零开销的方式把物理 GPU 直通给云主机，发挥大模型与高性能计算的峰值性能；vGPU 与 MIG 切分适配不同隔离需求；dGPU 动态切分则是 AIOS 的差异化能力——基于 CUDA API 拦截转发技术，无需 NVIDIA vGPU 授权、不受 MIG 硬件型号限制，以纯软件方式将物理 GPU 动态切分供云主机按需加载；容器场景下更支持细粒度的显存切分，让一张卡服务多个实例。

这些能力叠加之下，GPU 利用率可从传统方式下的约 30% 提升到 70% 以上。dGPU 的稳定性也经过了内部测试验证：在 vLLM 推理场景中，并发 16 持续压力长跑 23.5 小时，累计完成 134074 次推理请求，综合性能开销约 7%，零失败、性能漂移小于 0.5%。

算力的统一纳管同样关键。AIOS 已适配英伟达及阿里 PPU、昇腾、海光、摩尔线程等主流和国产 GPU，覆盖 5 个以上 GPU 品牌、30 多种硬件型号、上万张 GPU 的统一异构管理，计算形态涵盖虚拟机、容器与裸金属。配合大规模 GPU 运维监控，负载、温度、显存、分配情况统一可视，掉卡可秒级告警并一键定位硬件槽位，让大规模 GPU 集群的运维从专业难题变为日常操作。同时，智算底座支持对算力与 GPU 资源的计量计费，为算力的成本核算与经营提供依据。

模型层：从一堆模型到一套能用的 AI 工作流

算力之上是模型。企业面对百模混战，选型、部署、微调、评测每一步都需要专业能力支撑，这是 AI 难以落地的第二道门槛。

AIOS 的模型层覆盖 AI 开发的完整工作流。模型仓库支持一键导入 Qwen、DeepSeek、Kimi、GLM、MiniMax 等主流大模型，实现模型与数据集的私有化、生命周期化管理，并通过访问隔离保障多账户多项目下的模型安全共享。推理服务支持容器与云主机双引擎一键部署，平台自动计算所需算力，无需人工估算，并支持弹性伸缩与故障自恢复。模型微调提供可视化工作台，支持 LoRA、QLoRA、全参数微调等多种方法，参数配置与训练指标实时可见。模型评测则从能力与性能两个维度对模型进行评估，为企业选型和上线提供量化依据。

主流模型的适配也在持续提速。推理模板与产品版本解耦，新模板上线后无需等待整包升级即可获取；官方发版即启动标准化适配验证，新模型可快速完成部署上线。

网关层：让 AI 调用可管控、可计量、可治理

模型部署好了，调用就管得住吗？当企业内多个业务系统、多个应用都开始调用 AI 时，分散的调用带来新的难题：权限不清、成本不明、单点故障、无从审计。这是 AI 规模化之后最容易失控的一环。

AIOS 的网关层提供企业级的 AI 模型调用治理。业务侧只需接入一个标准入口，平台侧集中接入第三方模型、本地私有推理与各类兼容服务，统一治理模型、渠道、权限与路由。令牌管理实现精细化的接入控制，按组织树形结构分配独立配额，配额用完自动限流而不影响其他组织；模型路由支持可用性优先、优先级加权等多种策略，某渠道故障时流量无感切换至健康渠道，消除单点故障。在计量与治理上，网关层按模型调用量计量计费，用量看板把每一次调用的模型、Token、耗时、来源完整记录，支持多维统计分析与导出，让 AI 调用的成本归集、审计排障一屏清晰。

至此，AI 调用从“能调用”升级为“调用能管理、能计量、能治理”。

应用层：预置开箱即用的 AI 应用，让 AI 快速接入业务

模型和算力就绪之后，业务部门还需要能直接上手的应用入口。从模型能力到业务可用之间的这段距离，往往是 AI"看得见、用不上"的最后一道坎。

AIOS 的应用层预置了 Dify、ComfyUI 等主流 AI 应用，用户无需从零搭建，即可一键部署、快速拉起，用于知识库问答、智能体编排、AI 绘图等场景。应用以私有化方式部署，数据不出域，配合访问控制与网络隔离，满足企业级的安全合规要求。企业不必投入额外的开发资源，就能让 AI 能力以应用的形态接入实际业务。

从用上 AI 到算力变现，两个真实场景的两种价值

AIOS 的双重价值，在真实业务场景里得到了验证。

某大型轮胎制造企业为推进数智化战略，部署 AIOS 构建模型服务平台，将光学字符识别、重排序等模型对接现有的销售系统与生产线，并通过大模型赋能管理、财务、业务等系统构建多智能体服务。AIOS 提供了从基础底座到模型服务管理的完整环境，屏蔽了复杂的模型管理细节，让工业 AI 应用得以快速探索落地——这是把 AI 用起来的价值。

某高速公路运营企业则通过 AIOS 构建计算、存储、网络资源池，以 GPU 透传、vGPU 等技术灵活供给算力，并基于多机多卡能力快速拉起大参数量的 DeepSeek 模型服务，在保障数据安全的同时提升了资源供给效率，为后续算力的统一调度与对外服务打下基础。

两个场景印证了 AIOS 的一体两面：它没有让企业停留在买了算力、装了模型，而是把算力真正接入业务、并让它具备被经营的可能。