人体姿态估计-DeepPose

最新推荐文章于 2026-03-27 02:53:26 发布

原创

最新推荐文章于 2026-03-27 02:53:26 发布 · 8.5k 阅读

DeepPose是首个将深度神经网络应用于人体关键点检测的算法，它通过级联DNN网络直接回归关节点坐标，有效解决了尺度变化问题，并提高了检测精度。

基于深度神经网络的人体姿态估计算法——DeepPose

文章目录

基于深度神经网络的人体姿态估计算法——DeepPose

参考

DeepPose: Human Pose Estimation via Deep Neural Networks

简介

Attention 1. 在本文中，人姿态估计=关键点检测=人体骨骼点检测； 2. 这是一种单人关键点检测算法，因此假设一张图仅有一个人的关节点需要进行预测。3. 本文为作者自己的理解，仅供参考。

DeepPose是第一个将深度神经网络(DNN)应用于人体关键点检测的算法框架。在FLIC和LSP数据集上取得了当时最好的检测精度。同时他也是第一个将关键点检测问题转换为回归问题的算法，通过级联的多个DNN网络，直接回归关节点的坐标值。其后的所有主流姿态估计算法基本都是基于这个算法的思想进行的改进或创新。本文首先介绍算法框架的一些预处理，其次介绍真个网络结构。

关键点坐标的表示方式

假设需要检测的骨骼点有 $k$ 个，关键点在图片中的绝对坐标值为 $\bold{y} = (..., \bold{y}_{i}^{T}, ...), i \in (i, ..., k)$ ，其中 $\bold{y}_{i}^{T}$ 表示第 $i$ 个关键点的坐标值 $x_i, y_i)$ 。因为算法回归的是关节点的坐标值，因此如果直接回归关节点在图片中的绝对坐标值，那么就会存在scale的问题。即同样大小的输入图片，如果人的相对于图片的scale差距过大，那么关节点坐标值的差距也会很大。因此作者首先对关节点的直接坐标值进行了归一化处理。设人体的bounding box 表示为 $\bold{b} = (\bold{b}_{c}, b_w, b_h)$ ，其中 $\bold{b}_{c}=(c_x,c_y)$ 表示bounding box的中心点(bounding box可以通过关节点的绝对坐标值计算出来)。那么归一化的关节点坐标(相对坐标)表示如下：
$N\left(\mathbf{y}_{i} ; b\right)=\left( \begin{array}{cc}{1 / b_{w}} & {0} \\ {0} & {1 / b_{h}}\end{array}\right)\left(\mathbf{y}_{i}-b_{c}\right) \tag{1}$