1.团队介绍
zheey团队的成员来自北京邮电大学,其中王文哲为队长,是计算机学院研究生一年级的学生,主要研究方向为多媒体内容理解与数据挖掘,其他成员均是准备进入实验室读研或正在实验室实习的计算机学院的本科生。团队参与这次比赛主要是本着学习的目的,希望能够通过此次比赛更好地了解目前多媒体内容理解的前沿算法和相关知识。分工方面,主要由队长来进行模型的搭建、优化和结果的提交等等,其他成员则主要通过头脑风暴来提供一些思路。
2.竞赛理解
2019 iQIYI多模态视频人物识别挑战赛的任务本质上是一个人物检索问题,给定待检测的人物ID,在测试集的视频库中找到最可能为该人物的视频片段并按照概率进行降序排列。数据集由约20w视频片段组成,其中包含10034个待检索人物,数据规模很大,而且存在一些人脸识别比较困难的样本,需要充分利用视频中的多模态信息,另外官方也引入了很多干扰样本,总体来说该挑战赛的难度较大。
3.具体过程
团队首先对竞赛的任务进行了分析,并参考去年取得较高成绩的团队们的方法,对赛题的难度有了一个大致的了解,接着在五月初开始下载数据集并设计初步模型方案。直观来看,要想实现视频中人物的识别,主要是通过人脸进行区分。为了更快地实现baseline方案,团队直接选用了官方提供的人脸特征进行实验,在官方划分的训练集上训练了一个MLP模型,在验证集上达到了接近0.83的mAP值,然后将训练集和验证集数据合并后进行了重新划分,并训练了相同的模型。在耗费了几天时间熟悉docker的基本操作之后,团队完成了baseline方法的提交并在测试集上取得了0.8742的成绩,在当时成功提交的几支队伍中排名第1,从而坚定了继续投入时间参与比赛的决心。
在接下来的时间里,全体队员们开始对模型进行优化,包括引入多模型融合策略、对人脸特征进行质量筛选、模型参数微调、引入人脸质量分数作为权重等等,通过在官方划分的训练集上进行训练、验证集上进行测试的方式逐一验证这些策略的效果来进行筛选,然后在合并的训练与验证集数据上训练最终的模型进行提交。经过多次尝试,该方案在测试集上的最终分数为0.8949,在所有参赛队伍中排名第6。具体细节如下(具体代码已在https://github.com/zhezheey/iQIYI-VID 公开):
(1)模型输入:官方提供的人脸特征。
(2)模型结构:
- 三层感知机;
- 中间层层宽:4096,激活函数:relu;
- 使用batch normalization和dropout;
- 最大batch size:32768(GPU:TITAN Xp)。
(3)训练阶段:
- 抗干扰:将干扰数据统一设置为第10035类。
- 多模型:1)基于人脸特征的质量分数划分区间:0-200,20-200,40-200,0-60;2)合并训练集与验证集,取不同的随机种子进行打乱,以19:1的比例重新对数据集进行划分。
(4)预测阶段:
- 人脸质量分数:1)对于人脸特征数量不小于8的视频片段,仅选取人脸质量较高的前1/2数据进行预测;2)以人脸质量分数作为权重对概率进行加权平均。
- 多模型:取均值。
(5)最终结果:
- 基础模型(0.8742);
- 模型融合(0.8861);
- 质量筛选(0.8916);
- 模型微调(0.8937);
- 增加权重(0.8949)。
最后一周的时间里,团队开始尝试引入更多策略,例如融合多模态信息、引入图像分类模型提取特征、对训练数据进行增强等等。然而,这些策略中部分效果并不明显,部分由于时间关系并没有得以很好地实现。在竞赛截止前的最后一晚上,团队尝试增加了MLP模型的层数,并在验证集上取得了一定的效果提升,但是由于时间比较紧张,加上最后阶段竞赛的测试环境压力较大,也出现了一些问题,这一次提交并没有运行成功(后来经过官方的验证,这次提交的确能够取得更高的分数)。部分排名靠前的队伍也使用了这些策略,可见其对结果的提升是比较明显的。如果时间充足,本团队的成绩应该还会有一定的提升,这也留下了一些遗憾。
4.参赛总结
团队在本次比赛中最大的收获是自信心上的提升,同时也对多媒体内容理解方向有了一个基本的了解。回顾比赛历程,我们总结了以下经验:在时间分配方面,要把重心放在核心策略的优化上,不要过分纠结于模型的细节;由于存在提交次数的限制,在竞赛中要设置合理的验证策略;常用的一些trick在竞赛成绩的提升中十分重要,例如数据增强、模型融合等等;在策略效果不佳时要尝试对其进行检查和分析,不要轻言放弃;人员任务分配要合理,保证大家能够共同参与进来,提升模型的效果。
5.未来期望
如果未来比赛继续开放,希望能够基于目前的算法引入多模态的信息,参考其他获胜队伍的方法进行改进,与大家积极交流、相互促进,共同争取取得更好的成绩。最后,也希望能够进一步对数据集、所提供的多模态特征和组织流程进行优化,为大家进行算法创新提供更好的支持。
end
也许你还想看
扫一扫下方二维码,更多精彩内容陪伴你!
爱奇艺技术产品团队
简单想,简单做
\
▼获取开源地址请点击阅读原文