************************************ - Action Recognition """ 这个任务相当于图片级别的image recognition,任务目标是输入一个视频,输出一个label,该label指明视频中人物在做的动作。 在这个任务中,输入的视频需要经过剪辑,一般来说画面中只有一个人,一段视频只包括一个动作。当然不排除一群人做同一个动作,比如跳舞,拥抱,握手等。 """ - dataset [1] UCF-101 [2] HMDB [3] Kinetics (目前常用) [4] Charades (目前常用) - methods (*越多,越重要) [1]* Two-Stream Convolutional Networks for Action Recognition in Videos, Zisserman 他们组的 [2]**3D Convolutional Neural Networks for Human Action Recognition Shuiwang, 第一个做3D卷积的 [3] Long-term Recurrent Convolutional Networks for Visual Recognition and Description, RNN方法 [4] Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting,卷积RNN方法 [5]** Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset, 奠定3D卷积在视频领域霸主地位的文章 [6]** Non-local Neural Networks, 何凯明组进军video领域的开山作品,该文章其实是把NLP当时大火的self-attention改进引进到了vision领域,感兴趣的话去看 Attention is all you need 这篇文章,还有查一下Bert相关信息。 [7]** SlowFast Networks for Video Recognition, 凯明在video领域的又一力作。 [8]* Long-Term Feature Banks for Detailed Video Understanding, 凯明的文章,和[7]基本上同时做出来的,方法不是很优雅,主要看一下他想要解决什么问题。 [9]* Video Action Transformer Network, Zisserman 组做的,算是另一个self-attention相关的方法 [10] Rethinking Spatiotemporal Feature Learning: Speed-Accuracy Trade-offs in Video Classification, 一篇分析文章,帮助理解3D卷积,结合[5][6]看,你会发现[5]和[6]的3D卷积的不同。 [11] Temporal Segment Networks: Towards Good Practices for Deep Action Recognition, 补充一个,解决视频太长问题的经典方法。 ************************************ - Action Spatial Detection """ 相当于图片级别的object detection,画面中有多个人,任务目标是使用bounding box(bbox)指出人物在画面中的位置,并对动作进行分类。 这个任务现在的定义还不统一,有些数据集是每一帧都标注了人物的bbox,每一帧都需要分类,当然模型可以对多个帧同时分类;有些数据是只标注了关键帧的bbox,认为其他帧是提供辅助信息的 """ - dataest [1] AVA (目前常用) [2] UCF-24 [3] Something-Something (提供的是物体的bbox,不是人) [4] JHMDB (标注的是关节点) - methods [1] Actionness Estimation Using Hybrid Fully Convolutional Networks, attentionness 概念,其实是一种attention,而且是弱监督的。 [2]** SlowFast Networks for Video Recognition, 看一下他的detection的流程 [3]* Action Tubelet Detector for Spatio-Temporal Action Localization, 直接检测3D tube的方法 [4] Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos, 同样是3D tube 的方法,我挺喜欢这种思路的,目前的研究也着重这个思路。 ************************************ - Action temporal Detection """ 视频比图片多了一个时间维度,所以detection这个任务也可以在时间维度上开展,即指出一个动作的开始时间和结束时间。这个任务中,一般一个视频中同一时间只有一个人(一组人做同一个动作)。 """ - dataset [1] THUMOS14 [2] ActivityNet [3] Charades -methods [1] R-C3D: Region Convolutional 3D Network for Temporal Activity Detection, 使用类似于RCNN的提取proposal的方法。 [2] Temporal Action Detection with Structured Segment Networks, 使proposal更准确的方法 [3] Single shot temporal action detection, 基于SSD这种one stage detector做的检测器 [4] Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs ************************************ - Tracking """ 视频领域中独有的任务。目前分为两种,一种是单目标跟踪,一种是多目标跟踪。 前者的设定是给出第一帧的一个bbox,在接下来的帧中跟踪这个给定的bbox。 后者是同时跟踪多个目标,一般给定需要跟踪的类别,比如人或者车,然后同时将画面中所有的目标同时跟踪下来。一般采用先检测目标位置,之后进行匹配的策略。 因为我只做多目标检测,所以这里只列一些多目标检测的文章供参考。 """ -dataset (只列出了多目标检测的) [1] MOTChallenge (目前常用) [2] KITTI car/pedestrian - methods [1] Deep Affinity Network for Multiple Object Tracking, 先检测,后匹配 [2] Tracking the Trackers: An Analysis of the State of the Art in Multiple Object Tracking, 一篇17年的survey [3] Tracking The Untrackable: Learning to Track Multiple Cues with Long-Term Dependencies, RNN方法 [4] Tracking without bells and whistles, 根据前一帧预测下一帧 [5] Unsupervised Deep Tracking, 这是一个单目标检测的文章,我觉得idea挺有意思的 [6] Towards Real-Time Multi-Object Tracking