〇、前言
虽然在行为识别领域算是挣扎了好几个月了,但是其实都像无头苍蝇一样出来一个顶会的论文,就去找关键字是action recognition的,然后再看看有没有的代码的,虽然知道了这个领域时序建模能力很重要,但是都没有很好的理解。也一直没有狠下心从头开始学习或者从最经典的开始,比如TSN我看完只知道是很多方法的baseline,但是不知道到底为什么是baseLine的,里面的consensus 又是什么意思?自己 看了一些基于TSN的代码的方法的consensus type = 'avg'也不知道是什么意思,这些都严重阻碍进步。诸如此类的还有很多。
所以借助最近疫情期间的假期,不破不立,自己处理一遍TSN

一、论文提出的依据
TSN的提出主要是为了解决下面的问题:
- 【问题1】How to effectively learn video representation that captures long range
temporal structure(怎么有效的学习到能够捕捉到long-range时序信息的视频表示) - 【问题2】How to exploit these learned ConvNet models for the more realistic setting of untrimmed videos(怎么把学习到的网络模型应用在更为真实的视频中,比如没有裁剪的)
- 【问题3】How to efficiently learn the ConvNet models given limited training samples and apply them on large scale data(当训练数据很少的时候,用什么样的方法才能保证模型的正常训练并如何应用在大规模的数据上,也就是避免过拟合)</

本文深入解析Temporal Segment Networks(TSN),探讨其如何解决视频行为识别中的长期时序结构学习、未修剪视频应用及有限样本训练问题。TSN通过稀疏全局采样捕捉长范围时序信息,并采用不同聚合函数整合各段的预测。同时,文章讨论了RGB、光流等输入方式以及未来可能的研究方向。
4444

被折叠的 条评论
为什么被折叠?



