导言:由上一篇博客的方法实现人体行为识别,准确率高,但缺陷在于速度慢,最大的原因在于经典的two-stream的人体行为识别均使用光流图作为temporal net的输入。光流法速度慢,在应用中无法实时。
这篇博客引用论文
Real-time Action Recognition with Enhanced Motion Vector CNNs——–Bowen Zhang, Limin Wang, Zhe Wang, Yu Qiao, Hanli Wang
MotionVector来替代optical flow可以极大的提升速度。MotionVector原本用于视频压缩,以便视频传输到指定端后解压。论文中使用MotionVector作为运动特征来使用。但是速度快带来的缺陷是图片精度低,与光流图的点状形式存在不同,运动向量图以块状存在,因此图片不清楚,噪声多,势必带来识别准确率的下降。
该网络的核心思想是通过使用optical flow训练好的OF-CNN指导MV-CNN的训练。该transfer knowledge思想来自于Hinton大神的一篇论文:
Distilling the knowledge in neural network

本文探讨了如何使用Motion Vector替代光流法进行实时行为识别,以提高速度。尽管精度有所下降,但通过Teacher Initialization和监督性transfer方法(如Teacher Supervision Loss)能有效防止过度下降。实验结果显示,基于VGG网络的temporal Accuracy达到64.6%,测试Accuracy为79.78%,结合spatial net后,Accuracy提升至84.985%。
1361

被折叠的 条评论
为什么被折叠?



