模型部署架构，以Triton Inference Server（TensorRT）为例

原创

于 2020-09-01 20:19:36 发布 · 1.1w 阅读

·

14

·

标签

#人工智能 #机器学习 #推理框架 #加速

本文深入探讨Triton推理服务器（原TensorRT），一种高效GPU模型部署框架，支持多模型并发、动态显存管理和图优化，实现模型加速。涵盖硬件T4 GPU应用，软件TensorRT 2020改名后的特性，以及模型控制配置等内容。

本文概念存在偏差，混淆了几个概念
有点误人子弟，多谢评论区提醒
我花点时间再学些后再重新更新本文。打扰了

模型部署架构Triton Inference Server（TensorRT）

模型训练只是DeepLearning的一小部分，如《Hidden Technical Debt in Machine Learning Systems》NIPS2015机器学习系统的技术债
书中所说。

现有几种搭建框架

Python：TF+Flask+Funicorn+Nginx
FrameWork：TF serving，TorchServe，ONNX Runtime
Intel：OpenVINO，NVNN，QNNPACK（FB的）
NVIDIA：TensorRT Inference Server（Triton），DeepStream

主要说现阶段比较主流的

TensorRT
硬件T4的GPU（也可嵌入端等NVIDIA设备）
软件TensorRT （Triton）2020年TensorRT改名为Triton

在这里插入图片描述

T4上，相对CPU ResNet-50jiasu 快27倍
在这里插入图片描述

输入可以是TF，MXNet，Pytorch等

主要优化技术

最低0.47元/天解锁文章

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。