024、ONNX作为算子中间表示的优缺点分析

原创已于 2026-06-18 12:00:26 修改 · 96 阅读

0 GEO检测

标签

#嵌入式硬件 #单片机 #java #mlir #开发语言

收录于

于 2026-06-18 11:59:04 首次发布

《MLIR与算子中间表示：从理论到实践》专栏收录该内容

25 篇文章 ¥19.90 ¥99.00

订阅专栏

024、ONNX作为算子中间表示的优缺点分析

从一次惨烈的模型部署翻车说起

去年有个项目，团队花了两周训了一个YOLOv5变体，精度指标漂亮得很。到了部署阶段，我习惯性地用PyTorch导出ONNX，心想“ONNX嘛，业界标准，稳得很”。结果在RK3588的NPU上跑，前向推理直接崩了——算子不支持。查日志，发现一个Resize算子的coordinate_transformation_mode参数填了half_pixel，NPU的驱动只认asymmetric。改参数、重导出、再跑，又崩了，这次是ScatterND算子，NPU的编译器直接报“unsupported op”。

那两天我对着ONNX模型文件用onnxruntime的inference_session反复调试，最后不得不手写了一个自定义算子替换方案，才把模型跑起来。这次经历让我对ONNX又爱又恨——它确实解决了框架锁定的问题，但远没有宣传中那么“一次导出，到处运行”。

ONNX的“中间表示”定位：它到底想解决什么？

ONNX（Open Neural Network Exchange）最初是微软和Facebook在2017年搞出来的，目标很明确：让PyTorch训的模型能无缝跑到Caffe2上（当时Facebook还在推Caffe2）。后来演变成了一个跨框架、跨硬件的模型交换格式。

从技术角度看，ONNX本质上是一个

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

人工智能1211

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

嵌入式硬件开发：CK6865L 蓝牙灯控 SOC 在星空灯舞台灯中的应用与选型对比

qulia0818的博客

06-17

374

本文详细解析了基于CK6865L蓝牙芯片的星空灯/舞台灯硬件设计方案。该方案采用单芯片集成蓝牙通讯、RGB灯控、音频处理和电机驱动等功能，重点介绍了电源电路、WS2812灯控、PWM调光等核心模块设计要点，并提供了PCB布局与EMC设计建议。通过对比BK3266、杰理AC6925B等主流蓝牙灯控芯片，分析了CK6865L在硬件原生支持WS2812时序、5路独立PWM等方面的独特优势。文章还总结了量产调试中的常见问题及解决方案，指出该方案具有集成度高、开发简单、稳定性好等显著特点，特别适合以灯控功能为主的产品

面向 MCU 与 RTOS 的 Newlib、Newlib-nano、`--specs=nano.specs` 与 `_REENT_SMALL` 说明

最新发布

wdfk-prog.space

06-17

292

Newlib 在 MCU/RTOS 开发中的使用指南摘要本文介绍了 newlib 和 newlib-nano 在 MCU/RTOS 嵌入式开发中的应用。主要内容包括：核心概念： newlib 是面向嵌入式系统的 C 标准库实现 newlib-nano 是优化体积和内存占用的变体 --specs=nano.specs 用于启用 newlib-nano _REENT_SMALL 宏用于优化线程局部存储结构工程建议： MCU 项目通常应使用 newlib-nano 需要提供底层适配函数（如 _write、

参与评论您还未登录，请先登录后发表或查看评论

RS485 总线详解

zd845101500的博客

06-15

194

逻辑 1：A比B电压高，差分电压(A-B)为+2V ~ +6V。逻辑 0：A比B电压低，差分电压(A-B)为-6V ~ -2V。接收端判决：接收器灵敏度很高，只要即判为逻辑0；判为逻辑1。+200mV到-200mV之间为不确定区。

【51单片机用CD4094和单片机链接扩展io口，控制一个8个LED灯一次性发光】2024-6-21

浤济的专栏

06-17

247

摘要：该问答展示了如何用51单片机和CD4094扩展IO口控制8个LED灯，通过C语言编写程序实现循环点亮效果。电路连接使用P1口控制CD4094的串行数据输入、时钟和锁存信号。程序定义QD4094函数实现8位数据串行移位输出，主函数通过变量递增和位操作实现LED灯的循环点亮模式（1→2→4→8...）。代码利用了51单片机的端口位操作功能，通过串行转并行方式扩展输出端口，实现了简单的LED控制功能。

MTK8088单板机制作（五）10ms定时器生成器 C语言版

cxhust001688的博客

06-15

156

摘要：该程序基于8051单片机（2MHz晶振），实现10ms定时中断和1秒脉冲输出功能。通过Timer0中断（初值0xF97D），每10ms产生一个12μs的Z80中断触发信号（P3.7），并累计100次后（1秒）在P1.7输出180μs低脉冲。程序采用机器周期级延时（nop()），初始化设置包括I/O口、定时器模式和中断使能。主循环保持空闲等待中断，适用于精确时序控制场景。

工业故障听诊：单片机上的稀疏音频分类模型部署

qq_42431428的博客

06-14

561

在边缘单片机上做故障声学分析，稀疏剪枝加 Int8 量化是有效的压缩方案。用 C++ 原生实现轻量级 CSR 稀疏寻址点乘引擎，能在不增加 SRAM 负担的情况下，大幅降低计算开销，保证端侧诊断的实时性和确定性。删除了"务实手段""极其有限""成功部署"等宣传性表述将"物理挤压""计算墙"等夸张比喻改为更平实的"压力""瓶颈"简化了流程图描述，去掉"物理固化""执行流程图"等冗余表述调整了代码注释，使其更简洁直接将"系统平衡""深度压缩方案"等抽象表述改为具体描述。

65、UDP协议(拓展选学)---------网络编程

森G

06-15

148

MainWindow界面拷贝之前的TcpClient版本的MainWindow就行了，稍作修改，增加一个自己的端口号，一般不用修改。●UDP（用户数据报协议）：无连接，提供尽力而为的包传输，适用于对实时性要求高但对数据可靠性要求相对较低的应用。此时运行服务器，启动多个客户端，修改为不同的名字，将消息发送给服务器，可以看到服务器收到消息并回复给其他客户端。UDP应用的场景有限，大多是对数据安全性不高的场景，我们的聊天服务也可以改为UDP版本, 效果如下图。高，保证数据按序传输，无数据丢失。

基于单片机的两路PWM信号输出及频率占空比相位差调节系统

xuezhang666666的博客

06-11

378

本文介绍了一种基于51单片机的双路PWM信号控制系统设计方案。该系统以STC89C52为核心，通过定时器中断与软件控制相结合的方式，实现两路独立PWM信号的输出，并支持频率（1Hz-10kHz）、占空比（0%-100%）及相位差（0°-360°）的实时调节。系统采用模块化设计，包含按键输入、LCD1602显示、定时器控制等功能模块，通过人机交互界面实现参数动态调整和实时状态显示。该方案具有结构清晰、控制灵活、扩展性强等特点，适用于嵌入式控制教学、电机驱动实验等应用场景，展示了良好的工程实践价值和学习参考意义

C51学习-DAY7

weixin_43204652的博客

06-12

280

摘要：本文介绍了51单片机定时器与中断的基础知识，重点讲解了如何通过Timer0实现1ms系统节拍，以替代阻塞式延时。内容涵盖：阻塞式延时的缺陷、非阻塞式编程思路、定时器工作原理、中断机制、TMOD寄存器配置、定时器初值计算方法（以12MHz时钟为例），以及如何利用系统节拍实现精准定时控制。通过1ms节拍变量g_ms_tick的递增，可构建多任务时间基准，适用于LED控制、按键扫描等小型嵌入式项目。文章采用技术博客格式，适合单片机初学者系统学习定时器中断应用。

单片机舵机实验

weixin_69179903的博客

06-13

246

舵机转动的方式和普通的电机类似，可以连续的转动，不过我们只可以控制。它转动的方向和速度，不能调节转动角度。单片机 ：STM32F407。开发板：DMF407电机开发板。平台：keil V5.31。

单片机FOChall驱动

weixin_69179903的博客

06-17

单片机 ：STM32F407。开发板：DMF407电机开发板。平台：keil V5.31。

Aurix Tc3xx Port&Dio模块总结

weixin_40172368的博客

06-14

219

英飞凌 TC3XX Port&Dio模块总结

STM32：定时器从模式

yyyzc_的博客

06-12

441

本文介绍了STM32定时器的三种从模式工作方式：复位模式、门模式和触发模式。复位模式通过外部信号复位计数器并触发更新中断；门模式通过电平信号控制计数启停；触发模式通过边沿信号启动计数，常配合单脉冲模式使用。文章详细说明了各模式的配置方法，包括CubeMX设置和代码实现要点，并解释了如何通过中断标志位区分不同触发源。特别指出触发模式初始化时需手动清除更新中断标志位，避免误触发。这三种模式为定时器提供了灵活的外部控制方式，适用于不同应用场景。

时钟控制器原理

2603_95385873的博客

06-15

237

时钟源分为：RC振荡器，晶体振荡器。RC振荡器起振速度比晶体振荡器起振速度快，成本低，但精度不高，两者都是先慢慢起振，再达到相应的频率。晶体振荡器分为两种：无源晶体振荡器，需要接两个引脚，借助时钟电路才能产生震荡信号，自身没有办法震荡有源晶体振荡器，需要外部供电才能起振，并且只需要接一个引脚OSC_IN.STM32F407有4个输入时钟源：内部时钟源（封装到芯片内部的）：HSI 内部高速时钟源（主要就是给CPU核心去提供） LSI

单片机基础知识---stm32单片机的优先级

qq_43582136的博客

06-14

253

STM32中断分抢占优先级（控制能否嵌套打断）+子优先级（同抢占时排队顺序），先全局划分优先级分组，再给每个外设中断分配两层数值；数字越小优先级越高。

按键控制 LED

jdjkdidjdj的博客

06-15

372

Rust + ESP32-S3 按键控制 LED 项目摘要本教程演示如何使用 Rust 语言在 ESP32-S3 开发板上实现按键控制 LED 的基础嵌入式项目。项目通过 39 行代码实现按键状态检测和 LED 状态切换功能，涵盖：硬件配置：使用板载 BOOT 按键(GPIO0)和 RGB LED(GPIO48) 核心知识点： GPIO 输入/输出配置上拉电阻(Pull::Up)应用按键消抖处理(120ms延时) 嵌入式主循环(loop)结构开发环境：基于 Rust 的 esp-hal 硬件抽象层

TFLite Micro 部署实战：MCU 推理优化的内存、算子与调试边界

qq_42431428的博客

06-17

209

TFLite Micro 在 MCU 上部署的核心不是“能跑”，而是可预测地跑、可解释地慢、可定位地失败。模型转换阶段要用真实样本做量化校准，固件集成阶段要显式注册算子，运行阶段要记录 Tensor Arena、推理周期和失败原因。这些指标构成了 MCU 推理的最小可观测闭环。落地路线可以分三步推进。第一步，选择算子简单、输入尺寸固定的小模型，先建立端到端链路。第二步，引入 CMSIS-NN 和周期计数器，定位主要耗时算子。第三步，建立回归样本和内存预算表，让每次模型或固件变更都能被验证。

主流嵌入式MCU GUI框架完整介绍

QK_00的博客

06-15

294

本文对比了四款主流MCU嵌入式GUI方案的特性与应用场景：1. emWin（商业授权）：以工业级稳定性和极低资源消耗著称，适合工控医疗等传统设备；2. LVGL（开源免费）：轻量级现代UI框架，支持全平台，适合消费电子和学生项目；3. TouchGFX（STM32免费）：深度优化STM32硬件加速，主打流畅动画，适用于高端彩屏设备；4. Qt for MCUs（商业付费）：功能最完整，支持多平台统一开发，面向车载仪表等复杂场景。选型需综合考虑授权模式、硬件资源、UI需求和目标芯片。

[STM32]Day12读写备份寄存器+RTC

W1524796的博客

06-12

257

摘要 Unix时间戳是从1970年1月1日UTC/GMT开始的秒计数，存储在32/64位整型变量中。C语言通过time.h提供时间转换函数，如time()获取系统时间、gmtime()转换UTC时间等。STM32的BKP（备份寄存器）可在断电时保持数据，由VBAT供电，用于存储RTC时钟和用户数据。RTC（实时时钟）为独立定时器，提供时钟/日历功能，通过32位计数器实现Unix时间戳，支持三种时钟源（常用32.768KHz LSE）。RTC操作需注意寄存器同步和配置模式，其基本结构包括预分频器、计数器和闹钟

半桥 IGBT/MOS 驱动自举电路原理与设计计算

qq_38326420的博客

06-16

368

讲解了自举电路中关键器件参数的设计和计算