【论文笔记】Unsupervised Learning of Video Representations using LSTMs

最新推荐文章于 2026-05-27 13:40:30 发布

原创

最新推荐文章于 2026-05-27 13:40:30 发布 · 9.7k 阅读

该文探讨如何运用LSTM网络学习视频序列的表示。通过LSTM编码器和解码器，模型实现输入序列的重构和未来序列预测。实验表明，此方法在动作识别任务中提高了准确性，尤其在小样本情况下。模型结合了自编码器和未来预测器，以捕捉历史和未来信息。

这篇文章是深度学习应用在视频分析领域的经典文章，也是Encoder-Decoder模型的经典文章，作者是多伦多大学深度学习开山鼻祖Hinton教授的徒子徒孙们，引用量非常高，是视频分析领域的必读文章。

摘要翻译

我们使用长短时记忆（Long Short Term Memory, LSTM）网络来学习视频序列的表征。我们的模型使用LSTM编码器将输入序列映射到一个固定长度的表征向量。之后我们用一个或多个LSTM解码器解码这个表征向量来实现不同的任务，比如重建输入序列、预测未来序列。我们对两种输入序列——原始的图像小块和预训练卷积网络提取的高层表征向量——都做了实验。我们探索不同的设计选择，例如解码器的LSTM是否应该取决于生产的输出。我们定量地分析模型的输出来探讨学习模型对过去和未来视频序列的表征能力。我们通过监督学习任务——UCF101和HMDB-51数据集动作识别——微调学习的表征向量来进一步评估表征能力。我们发现这些表征提高了分类准确度，尤其是当只有少量训练样本的情况下。即使模型通过不相关的数据集(300 hours of YouTube videos)预训练，也能够提高动作识别的性能。

模型描述

LSTM Autoencoder Model

模型中有两个递归神经网络，编码器LSTM和解码器LSTM，如下图。模型的输入是向量序列（图像小块或者特征向量）。当最后一个输入被读入之后，编码器的内部状态和输出状态将会被直接给入decoder。Decoder输入目标序列或者预测序列，目标序列是和输入序列一样的，只不过在顺序上是反向，把顺序反向可以使得优化更简单因为LSTM的输出就是反过来的嘛。解码器decoder既可以是有条件约束的也可以是无条件约束的。有条件约束的decoder就是decoder接受生成的最后一帧作为输入，即下图中的虚线框。无条件约束的decoder就不接受这个输入。

标签