CUDA运行API：RuntimeAPI

最新推荐文章于 2026-04-30 09:37:44 发布

原创

最新推荐文章于 2026-04-30 09:37:44 发布 · 2.4k 阅读

标签

#深度学习 #人工智能 #c++ #视觉检测

本文介绍CUDA编程的基本概念，包括运行时API、内存模型、流管理、核函数使用、共享内存优化等，并通过实例展示了仿射变换及YOLOv5后处理的实现。

Cuda开头的函数都属于RuntimeAPI

RuntimeAPI，与driver最大区别是懒加载:

即:第一个runtime API调用时，会进行cuInit初始化，避免驱动api的初始化窘境

即:第一个需要context的API调用时，会进行context关联并创建context和设置当前context，调用cuDevicePrimaryCtxRetain实现

绝大部分api需要context，例如查询当前显卡名称、参数、内存分配、释放等

使用cuDevicePrimaryCtxRetain为每个设备设置context，不再手工管理context，并且不提供直接管理context的API（可Driver API管理，通常不需要）

更友好的使用核函数，.cpp和.cu文件无缝对接

本节主要知识点：核函数的使用、线程束布局、内存模型、流的使用

主要可以实现：归纳求和、仿射变换、矩阵变换、模型后处理

1.1-hello-runtime

CUDA运行时API开始，以及与CUDA驱动API的context关系解释


// CUDA运行时头文件
#include <cuda_runtime.h>

// CUDA驱动头文件
#include <cuda.h>
#include <stdio.h>
#include <string.h>

#define checkRuntime(op)  __check_cuda_runtime((op), #op, __FILE__, __LINE__)

bool __check_cuda_runtime(cudaError_t code, const char* op, const char* file, int line){
    if(code != cudaSuccess){    
        const char* err_name = cudaGetErrorName(code);    
        const char* err_message = cudaGetErrorString(code);  
        printf("runtime error %s:%d  %s failed. \n  code = %s, message = %s\n", file, line, op, err_name, err_message);   
        return false;
    }
    return true;
}

int main(){

    CUcontext context = nullptr;
    cuCtxGetCurrent(&context); //获取当前的context函数
    printf("Current context = %p，当前无context\n", context);

    // cuda runtime是以cuda为基准开发的运行时库
    // cuda runtime所使用的CUcontext是基于cuDevicePrimaryCtxRetain函数获取的
    // 即，cuDevicePrimaryCtxRetain会为每个设备关联一个context，通过cuDevicePrimaryCtxRetain函数可以获取到
    // 而context初始化的时机是懒加载模式，即当你调用一个runtime api时，会触发创建动作
    // 也因此，避免了cu驱动级别的init和destroy操作。使得api的调用更加容易
    int device_count = 0;
    checkRuntime(cudaGetDeviceCount(&device_count));
    printf("device_count = %d\n", device_count);

    // 取而代之，是使用setdevice来控制当前上下文，当你要使用不同设备时
    // 使用不同的device id
    // 注意，context是线程内作用的，其他线程不相关的, 一个线程一个context stack
    int device_id = 0;
    printf("set current device to : %d，这个API依赖CUcontext，触发创建并设置\n", device_id);
    checkRuntime(cudaSetDevice(device_id));

    // 注意，是由于set device函数是“第一个执行的需要context的函数”，所以他会执行cuDevicePrimaryCtxRetain
    // 并设置当前context，这一切都是默认执行的。注意：cudaGetDeviceCount是一个不需要context的函数
    // 你可以认为绝大部分runtime api都是需要context的，所以第一个执行的cuda runtime函数，会创建context并设置上下文
    cuCtxGetCurrent(&context);
    printf("SetDevice after, Current context = %p，获取当前context\n", context);

    int current_device = 0;
    checkRuntime(cudaGetDevice(&current_device));
    printf("current_device = %d\n", current_device);
    return 0;
}

1.2 Memory

主要类型：pinned memory、global memory 、shared memory等

整个Host Memory内存条而言，操作系统区分为两个大类（逻辑区分，物理上是同一个东西）：

Pageable memory，可分页内存普通房间，内存不够时，将会被移到cpu内存中

Page lock memory，页锁定内存 vip房间

Memory总结：

1. pinned memory 具有锁定特性，是稳定不会被交换的（相当于每次去这个房间都一定能找到你）

2. pageable memory 没有锁定特性，对于第三方设备（比如 GPU ），去访问时，因为无法感知内存是否被交换，可能得不到正确的数据（每次去房间找，说不准你的房间被人交换了）

3. pageable memory 的性能比 pinned memory 差，很可能降低你程序的优先级然后把内存交换给别人用

4. pageable memory 策略能使用内存假象，实际 8GB 但是可以使用 15GB ，提高程序运行数量（不是速度）

最低0.47元/天解锁文章