AI芯片

首页 标签 AI芯片
# AI芯片 #
关注
1335内容
边缘 AI 芯片,为啥越来越“不像芯片”?聊聊这些年我看到的架构创新
边缘 AI 芯片,为啥越来越“不像芯片”?聊聊这些年我看到的架构创新
|
1天前
|
09_昇腾适配GR模型实践
本文介绍生成式推荐(GR)模型在昇腾NPU上的适配实践,涵盖模型原理、HSTU架构与一体化召回排序设计。针对NPU特性,通过算子迁移、性能优化与自定义融合算子(如NpuFusedHSTUAttention),实现端到端训练加速。实验表明,NPU在精度无损前提下,具备媲美GPU的计算效率,验证了生成式推荐在国产硬件上落地的可行性。
|
1天前
|
04_昇腾推荐系统:单双层架构解析
单双层架构互补共存:单层追求极致性能,适用于小规模特征;双层突破内存瓶颈,支持大规模扩展。结合动态扩容、准入淘汰与高效查表,实现推荐系统大规模稀疏参数的高效训练与管理。
|
1天前
|
05_推荐系统准入与淘汰策略技术详解
本文详解推荐系统多级缓存中的准入淘汰策略,涵盖基于访问频次、概率、ShowClick等准入机制,以及基于时间、L2范数、频次等淘汰机制,结合CPU-PS控制流程与NPU执行优化,实现缓存资源高效利用,提升模型训练效率与推荐精度。
|
1天前
|
07_昇腾嵌入表性能提升
本文介绍嵌入表性能优化的六大策略:多流并行掩盖通信延迟,Pin Memory加速数据传输,两级去重减少计算冗余,通信模式优化降低开销,梯度累积节省内存,并结合实验验证效果,全面提升训练效率与资源利用率。
|
1天前
|
06_昇腾流水线优化技术详解
本文详解昇腾流水线优化技术,涵盖NPU与GPU侧多级流水实现。通过Stage划分、异步调度与计算通信重叠,提升训练吞吐与硬件利用率。NPU基于Rec SDK实现五阶段流水,支持动态换入换出;GPU则利用CUDA Stream构建StagedTrainPipeline,实现高效prefetch与梯度更新协同。
|
1天前
|
03_嵌入表分片与哈希管理:支撑万亿参数的关键技术
本文介绍支撑万亿参数推荐系统的核心技术:嵌入表分片与哈希管理。通过单/双层Hash模式实现稀疏ID高效映射,结合分桶策略均匀分配数据;采用Row-Wise、Table-Wise等分片机制,优化存储与计算负载,提升大规模模型训练效率。
|
1天前
|
02_昇腾推荐系统架构解析:嵌入表存储到多级缓存的全链路设计
昇腾推荐系统采用多级缓存架构,基于达芬奇架构NPU实现HBM与DDR协同的Embedding存储。通过FastHashMap与动态Swap机制,结合LRU/LFU准入淘汰策略,支持大规模稀疏特征高效训练。软件层面深度适配TorchRec,提供统一接口,实现计算与通信重叠,提升端到端性能,适用于电商、短视频等大模型推荐场景。
|
2天前
|
昇腾 Triton-Ascend 开源实战:架构解析、环境搭建与配置速查
本文深度解析Triton-Ascend开源项目,涵盖源码结构、编译流程与环境部署,重点针对Ascend 910B硬件提供从CANN安装到算子开发的保姆级指南,并详解Autotune调优策略与性能分析工具,助力开发者高效构建高性能AI算子。
免费试用