在Ascend NPU上源码构建并运行CANN版onnxruntime-开发者社区-阿里云

NPU上运行onnxruntime

2025-03-10 1615

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在Ascend环境下使用onnxruntime推理时，若安装了GPU版本的onnxruntime（`onnxruntime-gpu`），可能会因缺少CUDA组件报错。正确做法是卸载`onnxruntime-gpu`，并根据官方文档适配NPU，通过源码构建支持CANN的onnxruntime whl包。具体步骤为克隆onnxruntime源码，使用`--use_cann`参数构建，并安装生成的whl包。最后，配置CANNExecutionProvider进行推理。

1 问题背景

在Ascend环境上，使用onnxruntime推理时，报错：

/onnxruntime_src/onnxruntime/core/session/provider_bridge_ort.cc:1193 onnxruntime::Provider& onnxruntime::ProviderLibrary::Get() [ONNXRuntimeError] : 1 : FAIL : Failed to load library libonnxruntime_providers_cuda.so 
with error: libcudart.so.11.0: cannot open shared object file: No such file or directorys

显示的是cuda的组件找不到。由于是Ascend环境，肯定是没有GPU的，很明显是onnxruntime的包装错了。

pip show onnxruntime-gpu

通过如上命令，可以看到环境上确实安装的是gpu版本的。这里先卸载onnxruntime-gpu。

2 解决办法

通过查找onnxruntime社区，可以发现npu已经对onnxruntime进行了适配，参考如下文档：
onnxruntime/docs/execution-providers/community-maintained/CANN-ExecutionProvider.md at gh-pages · microsoft/onnxruntime
那么该如何才能构建onnxruntime适配Ascend上的whl包呢？
这里提供源码构建的办法：

2.1 克隆源码

git clone https://github.com/microsoft/onnxruntime.git
cd onnxruntime

2.2 构建whl包

注意--use_cann参数

# 先初始化CANN环境
source /usr/local/Ascend/ascend-toolkit/set_env.sh

# 执行build脚本
./build.sh --config Release --build_shared_lib --parallel --use_cann --build_wheel
若构建成功，whl包会生成在build/Linux/Release/dist/目录下。安装onnxruntime-cann
pip3 install onnxruntime_cann-x.xx.x-xxxx-xxxxx-xxxxx_xxx_xx.whl

3 推理示例

import numpy as np
import onnxruntime as ort

# 模型路径
model = "./resnet34.onnx"

# 以CANN作为EP的配置，参数说明可见：https://github.com/microsoft/onnxruntime/blob/gh-pages/docs/execution-providers/community-maintained/CANN-ExecutionProvider.md
providers = [
    ("CANNExecutionProvider", {
   
        "device_id": 0,                                 
        "arena_extend_strategy": "kNextPowerOfTwo",     
        "npu_mem_limit": 4 * 1024 * 1024 * 1024,
        "enable_cann_graph": True,
    }),
]

# options可以用来对推理session进行配置，例如开启profiling功能
options = ort.SessionOptions()

# 创建推理session
session = ort.InferenceSession(model, providers=providers, sess_options=options)

# 构造纯推理数据
ndata = np.zeros([1, 3, 224, 224], dtype=np.float32)

# 执行推理
session.run(["class"], {
   "image": ndata}])

NPU上运行onnxruntime

1 问题背景

2 解决办法

2.1 克隆源码

2.2 构建whl包

3 推理示例

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

NPU上运行onnxruntime

1 问题背景

2 解决办法

2.1 克隆源码

2.2 构建whl包

3 推理示例

热门文章

最新文章

相关电子书