使用增强运动向量CNNs的实时行为识别-一一网

点个关注，每天更新两篇计算机视觉的文章

论文原称：Zhang B, Wang L, Wang Z, et al. Real-time action recognition with enhanced motion vector CNNs[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 2718-2726.

背景：双流卷积网络需要使用光流，而光流计算很费时，在K40GPU上每计算一帧需要60ms，这非常影响它的实时性，为此，本文应运而生。

前提知识：

在图像和视频压缩方面，使用H264协议对图像或视频进行压缩。具体理解如下：对第一帧进行帧内压缩，可得到 I 帧，对第一帧后面的帧进行帧间压缩可得到P帧和B帧。完整编码的帧叫 I 帧，参考之前的 I 帧生成的只包含差异部分编码的帧叫 P 帧（意思就是P帧是表明了某一帧在前一帧的像素变化值，需要通过前一帧和P帧才能得到它的下一帧图像，以此类推得到整个视频图像），还有一种参考前后的帧编码的帧叫 B 帧（这个用的比较广，压缩效率更高，B帧表示前后帧的差异）。本文里提到的motion vection指的就是P帧，即帧间像素变化，I帧是不包含运动信息的，在本文使用前一帧（指的是P帧）来代替遇到的I帧。
在这里插入图片描述

主要贡献：

提出使用光流CNN（OF-CNN）来训练运动向量CNN（MV-CNN），以实现光流的准确性和运动向量的实时性的结合效果。
提出三种训练方法用来结合光流和运动向量，以提高模型实时性

数据集：UCF-101, THUMOS14

模型：用于视频行为识别的双流卷积网络

论文主要思想：

motion vector 是基于比较大的像素块，而optical flow是基于像素点。因此motion vector的识别效果并不好，但计算速度很快，实时性很高，而optical flow刚好相反，识别效果好，计算速度很慢，导致实时性很低。本文主要的内容就是提出三种训练方式来结合OF－CNN和MV－CNN的优点，避免各自的缺点。简称优劣互补。这里OF－CNN和MV－CNN的网络结是一样的。

第一种Teacher Initialization (TI)：由于光流和运动向量都是描述局部区域的信息（光流具体到像素点，运动向量描述的是像素块），因此他们在内在上是相关的。考虑到这点，论文提出使用已经训练好的OF－CNN的参数作为MV－CNN的初始化参数。然后再finetune MV－CNN直到它们融合。
第二种Supervision Transfer (ST)：考虑到使用第一种方式可能会导致在finetune过程中从OF－CNN带过来的语义信息会丢失，因此第二种方式采用OF－CNN的FC Layer监督MV－CNN的训练。这种灵感来源于知识蒸馏，但知识蒸馏更偏重的是在一个小的模型上学到大模型的效果，而此处两个模型的结构是一样的，因此更偏重于让MV－CNN学到OF－CNN的效果，而不是把MV－CNN压缩得很小。

那这里是怎么实现监督的呢？方式如下：

（1）采用softmax计算fc layer的输出，Tn(o) = softmax(T(n−1)(o))，
Sn(v) =softmax(S(n−1)(v))，得到Tn(o)，Sn(o)，（T指的是teacher,即OF－CNN，S指的是student，即MV－CNN，n-1指的是第n-1层,是个下标）。这里之所以使用softmax是为了把输出值映射为各个类别的概率。为了把OF－CNN学到的特征教给MV－CNN，使用下面的交叉熵损失函数来使得Tn(o)与Sn(o)尽可能地接近。

（2）使用了temp软化fc layer的输出，意思差不多等同于把Hard labels转化为soft labels。具体实施函数是：PT = softmax(T n−1/T emp)， PS = softmax(Sn−1/T emp)

（3）除了考虑到监督的损失函数外，还要最小化MV－CNN的输出与ground truth的差距（公式3）。对于这两个损失函数，采用加权和的方式作为最终的损失函数（公式4）。
在这里插入图片描述