财大气粗的商汤出的第一个全身关键点数据集,直接对COCO数据集进行了扩展,将脸上的68个点,躯干的23个点(body17+feet6),以及手的23个点全部进行了标注,并将label进行了开源,地址:https://github.com/jin-s13/COCO-WholeBody,果然是大佬风范,佩服三连~
除了很🐂的推出了第一个large-scale whole body pose dataset,还针对如何训练whole body pose提出了ZoomNet,网络结构如下所示:
因为face hand body三者的尺度信息在同一张图片上相差太大,因此如果使用一个网络直接输出这三个不同部位的结果当然是不够准确的。为了解决这个问题,并且能够end-to-end training,提出的ZoomNet相当于3个子网络的堆叠,训练及检测流程如下:
- 图片首先经过一个FeatureNet进行特征提取,并分别得到两个不同尺度的featuremap F1(1/2)和F2(1/4),后面的BodyNet FaceHead HandHead共用这一个FeatureNet,相当于检测任务里的Backbone
- BodyNet直接使用F2做输入,经过类似HrNet的结果进行特征提取后,要生成23个body kps及face/hand boxes。face/hand boxes都是用2个角点+1个中心点表示的(CornerNet),所以最终BodyNet要得到38个关键点(23+5*3)
- BodyNet得到hand/face的box后,在F1和F2上进行相应位置的Crop,然后从F1得到的feature resize到64x64,F2得到的feature resize到32x32,接着将这2个feature送进去FaceHead/HandHe

商汤科技发布了一个大规模全身关键点数据集COCO-WholeBody,包含脸部、躯干和手部的详细标注。同时提出ZoomNet解决不同尺度问题,实现端到端训练。该网络结构由FeatureNet、BodyNet、FaceHead和HandHead组成,显著提升了全身关键点估计的准确性。
884

被折叠的 条评论
为什么被折叠?



