计算机视觉大赛中国全面获胜亮点在哪？-梅林-观察者网

日前，全球最权威的计算机视觉竞赛ILSVRC2016落下帷幕，中国学术界和工业界团队包揽了多项冠军。具体成绩如下：

CUImage（商汤科技和港中文）：标检测第一；

Trimps-Soushen（公安部三所）：目标定位第一；

CUvideo（商汤和港中文）：视频中物体检测子项目第一；

NUIST（南京信息工程大学）：视频中的物体探测两个子项目第一；

HikVision（海康威视）：场景分类第一；

SenseCUSceneParsing（商汤和港中文）：场景分析第一。

今年的竞赛和往年相比有什么亮点呢？是否意味着中国团队在世界计算机视觉的舞台将越走越远？

想必很多人从未听说过计算机视觉大赛，在看到这则消息时除了感受到中国技术团队在比赛中取得了优异佳绩之外，对于这些成绩各有什么意义也是一头雾水。有鉴于此，观察者网专访公安部第三研究所物联网技术研发中心梅林主任，为大家解读这些成绩代表着什么，又各有什么意义。

观察者网：除了行业内人士外，想必很多人从未听说过Imagenet比赛，能否说说这个比赛到底是什么样一个地位，又为何被称为全球最为权威的计算机视觉大赛？

梅林：ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛是基于ImageNet图像数据库的国际计算机视觉识别竞赛。2010年开始举办，逐渐发展为国际计算机视觉领域受关注度最大、水平最高、竞争最激烈的竞赛。之所以成为全球最为权威的计算机视觉大赛，和其数据规模空前、历年来吸引力众多工业巨头和知名高校参与并且不少参赛队伍提出的创新方法都直接推动了相关技术的应用有关。历年来，工业巨头如谷歌、微软、Facebook等，以及来自世界知名高校研究单位，如牛津大学、加州大学伯克利分校、多伦多大学、东京大学、阿姆斯特丹大学、香港中文大学、北京大学、中国科学院自动化所等均多次参加该竞赛。竞赛主办方会在每年的国际顶级计算机视觉大会ECCV(Europeon Conference on Computer Vision)或ICCV( IEEE International Conference on Computer Vision) 举办专题论坛，交流分享参赛经验。特别是2012年多伦多大学Geoffrey Hinton带领的团队，首次在大规模数据集上使用深度神经网络模型将竞赛中图像分类任务的成绩大幅度提高，引起了学术界的空前关注。基于该竞赛数据训练的模型，被验证具有很好的泛化能力，可以大幅提升各项计算机视觉任务的性能。因此该竞赛一直得到学术界和工业界的积极参与和高度关注。

观察者网：贵单位取得了不错的成绩，能简单地介绍下么？

梅林：参赛团队Trimps-Soushen来自公安部第三研究所，至今为止也是国内外公安系统唯一参赛的团队。公安部第三研究所是公安部直属综合性科研机构，主要从事信息网络安全、公安信息化等领域的规划设计、产品研发和检测服务工作，近年来一直走在创新型公安研究所的前列，首席科学家胡传平所长提出的视频结构化描述（VSD）、网络身份识别系统（eID）、车辆电子身份标识（RFID）和警用数字化单兵（PDD）的公安物联网4D战略，起到了引领行业发展的作用。Trimps-Soushen团队全部来自公安部第三研究所物联网技术研发中心，物联网中心作为国家视频监控规划应用的国家队，近年来一直按照“战研结合”的思路，围绕一线的实际需求开展研究工作，尤其是围绕视频警务、移动警务和公安大数据三大战略方向，致力于新一代视频监控信息化、移动警务信息化及公安大数据的顶层设计、关键技术研究、产品研发和标准化工作。包括人证合一核查核录、动态人脸识别、卡口图片车辆信息结构化描述、以图搜图等在内的相关产品已经成功应用在刑侦、治安、交通、反恐等领域，起到良好的社会经济效益，是平安中国建设的主力军。

我们今年是第四次参加这个竞赛，本次参加了所有5项任务中的4项比赛，取得了前所未有的突破，在最传统的目标分类和目标定位任务中荣获冠军！其中，在仅使用标准数据的情况下，目标分类任务位列国际第一，目标定位任务位列国际第一，目标检测任务、视频目标检测任务和场景分类任务均位列第三。目前已获邀前往荷兰参加欧洲计算机视觉大会（ECCV2016），并做专题报告，届时将与国际顶级的研究团队进行深入交流。

观察者网：目标检测考验哪方面的技术？又有怎样的意义？

梅林：目标检测任务是计算机视觉领域一项比较难的任务，其任务是将图像中多个物体类别识别出来，同时还要定位到其具体位置。在真实的自然图像中，目标视角、光线、尺度等变化，以及遮挡、复杂背景等都给任务带来很大的挑战。目标检测的任务是一项重要的基础技术，无论是在科研还是在实际应用中都具有重要意义。实际问题很少是单纯分类或者定位的应用，而往往是包含了复杂背景和多个目标的场景，在这些场景中进行目标检测是许多其他任务的基础。

目标检测

观察者网：在目标检测中分为两个子任务，任务A是用提供的数据进行目标检测，任务B是使用附加训练数据进行目标检测，这两个任务有什么区别？

梅林：任务A是指只能用竞赛举办方指定的数据进行模型训练等工作，不能用指定范围外的数据参与到任务中的任何一个环节。任务B是指除了官方指定的数据外，参赛团队可以使用任何数据进行模型训练等工作，只要参赛团队认为这些数据对模型具有提高作用，即可使用。

观察者网：目标定位考验哪方面的技术？能说说目标定位的作用么？

梅林：目标定位一般是对图像中主目标进行类别识别，并给出该类目标的具体位置。目标定位适用于图像中具有显著主目标的情形，它是图像分类任务的延伸。而图像分类作为ILSVRC中最传统的比赛项目，对整个计算机视觉领域的进步起到了巨大的推动作用。历届竞赛中获得优胜的模型（比如Alexnet、VGGNet、GoogLeNet、ResNet等）无不是在图像分类中得到验证。目标定位/分类是一项重要的基础技术，也是历年竞赛中备受关注的一项任务。今年竞赛中，Trimps-Soushen团队首次将目标定位的错误率降至8%以内，也是唯一一支达到这个成绩的参赛队。

目标定位

观察者网：视频中目标物体检测分为四个子任务，分别是基于给定训练数据进行的视频中的目标物体检测、使用附加训练数据进行的视频中的目标物体检测、给定训练数据进行的视频中物体检测和追踪、附加训练数据进行的视频中目标物体检测和追踪，能说说这四个子任务各有什么含义么？

梅林：视频中目标检测任务是去年新增的任务之一，其特点是数据量大，类别少。无论是训练数据、验证数据还是测试数据，数量均非常大，同时由于是视频数据，数据的冗余量也大。在此任务中，基于给定训练数据进行的视频中的目标物体检测子任务，是指参赛团队只使用举办方指定的数据进行模型训练、验证等工作，不使用官方指定数据的任何额外数据参与到工作中。使用附加训练数据进行的视频中的目标物体检测子任务，则是说，参赛团队可以使用官方指定的数据之外的数据参与训练、验证等工作，只要参赛团队认为对其模型具有帮助作用，均可使用。给定训练数据进行的视频中物体检测和追踪子任务和附加训练数据进行的视频中目标物体检测和追踪子任务，是今年新增的任务，目的是不仅要考察算法对单帧图像的目标检测能力，同时也要考察算法在较长时间（多帧）内对目标的跟踪能力。和前面两项任务中一样，该两项任务中也是针对数据使用情况进行的区分。

视频中的目标检测

观察者网：场景分类和场景分析各考验哪方面的技术，又各有什么作用？

梅林：场景分类任务主要是针对整张图分析其所属场景类别，有点类似于图像分类，但是比图像分类难度高，因为该任务的数据中往往不是要分类出物体类别，而是物体之间结合一起组成的场景类别，而且场景分类一般图像中目标很多很杂，不像图像分类的图像目标类别很单一。而场景分析则是将场景中的背景和前景均分割出来，比如 sky, road, person, bed，这些类别，既包括了目标又包括了组成场景的背景。场景分类和场景分析是从不同侧面考察算法对场景的理解能力，可以作为其他计算机视觉任务的基础步骤，另外在数据的标注收集等方面也具有很好的用处。

场景分析

场景分类

观察者网：为什么这次世界级的比赛好像缺了好多重量级的选手，没有看到知名IT大厂参与比赛？

梅林：今年也有“IT大厂”参加，比如Facebook的ResNext团队，而且其团队几乎全是重量级选手：有之前就职于微软亚洲研究院的ResNet作者何恺明；而Ross Girshick，则在目标检测领域有多项开创新工作，目前基于深度学习的目标检测算法，均或多或少基于其工作进行展开；Piotr Dollar也在计算机视觉领域有很多极具影响力的工作（比如EdgeBoxes和COCO等）。ResNext队在目标分类上用较简单模型取得了很好的成绩，错误率3.031%，仅次于Trimps-Soushen队的2.991%，可以说他们的模型依然是非常有潜力！

观察者网：有人说这届比赛上，往年有alexnet，vgg，googlenet，resnet这样的神作，而今年在算法上基本没有创新，有创新做不下去了就来拼资源的即视感，您对这个观点怎么看？

梅林：对于知乎上的这个问题，其实香港中文大学的欧阳万里老师给了很好的回答，我这里不妨引用他的观点：“今年有没有神作不知道，但是佳作应该还是有的。个人还是非常期待在workshop上能向各位参赛者学习到一些新的东西。”

我也想补充一下，每一个领域的发展总是曲线上升的，曲线总是往上走的，虽然发展的梯度有快有慢，但是总体是朝前发展的，这就是发展的规律。

观察者网：网络上有观点认为，scene classification任务有队伍使用外部数据作弊，应该取消比赛成绩。又有人含沙射影的表示中国团队取得优异成绩是因为作弊，这种说法有依据么？

梅林：我注意到竞赛主办方对数据使用做了补充说明，应当根据其说明进行判断。至于“中国团队取得优异成绩是因为作弊”的说法，我不认为其有任何可信的依据。

观察者网：近期，国内团队先后在全球最权威的人脸检测评测平台和全球自动驾驶算法公开排行榜上取得非常好的成绩，加上在本次ImageNet ILSVRC2016上中国团队取得优异成绩，是否表明国内计算机视觉相关算法已达到国际顶尖水平，甚至是否可以认为中国在该领域已经超越美国？

梅林：我们国家的技术近年来的发展确实是突飞猛进的，而且当前国内各个行业的大数据应用如火如荼，如国内开展大规模视频监控应用的研究天然就具有很好的环境，相信通过国内计算机视觉领域同行的不懈努力，我们与国际领先机构的差距会越来越小，甚至会有行业领头出现，这些都是指日可待的。

观察者网：如何评价今年的竞赛？

梅林：今年竞赛有这样几个特点：

1. 参赛队伍多、竞争异常激烈。今年共有85支团队参赛，创历史新高，包括工业界和高校研究所等，说明该竞赛的影响力之大、关注范围之广。众多参赛队伍无不精心备战，竞争异常激烈。比如目标分类的单项成绩，第一名与第二名仅0.0004的错误率之差。能够取得好的成绩，是人才、算法、硬件、系统等多位一体的综合实力的体现。

2. 单项任务多、竞赛规模升级。本次竞赛共分为五项大任务，其中每项任务又细分为若干个子任务。这说明竞赛的评价规则变得越来越严格和细致。无论在那一个单项上取得突破成绩，都有助于推动计算机视觉领域的发展。

3. 华人参与广、推动行业发展。国内外许多华人团队参与今年的竞赛，说明华人在计算机视觉领域的活跃度和竞争实力都在不断提升，而竞赛也对国内计算机视觉的发展具有显著的推动作用。国内近年对计算机视觉、人工智能的应用需求巨大，而且在很多领域如视频监控、网络/电商/医疗媒体数据检索等正在形成全球最大规模的应用，正在形成计算机视觉研究天然的实验场。相信随着“一带一路”的深入，中国在计算机视觉技术方面的积累一定会为世界人类福祉做出贡献！

4. 突破成果少、仍有创新佳作。今年的竞赛虽然没有出现ResNet, Inception等具有革新性的成果。但也不乏创新性工作。例如Facebook团队针对目标分类任务在去年ResNet模型的基础上进行了模块化的简化，香港中文大学和商汤科技团队针对较为困难的目标检测任务引入了更深的网络模型以及门控双向CNN结构，此外还有很多团队采用了多个功能模块级联的深度网络架构，在不同任务中均取得了准确性的有效提升。相信在接下来的ECCV专题论坛上，会有不少精彩工作呈现。

梅林，公安部第三研究所物联网技术研发中心主任，1972年生，2000年获得西安交通大学工学博士学位。2000年至2006年，先后在复旦大学计算机科学与工程系、德国弗赖堡大学计算机系、德国人工智能研究中心进行博士后和高级访问学者研究工作。2007年，加入公安部第三研究所担任警用装备技术研发中心智能图像处理学科带头人，2008年任物联网技术研发中心副主任，2012年2月任物联网技术研发中心主任。2012年12月受聘公安部第三研究所研究员, 2015年被上海市科委评为上海市优秀技术带头人。主要研究领域包括计算机视觉、人工智能、物联网应用、大数据处理等方面。负责规划了新一代视频监控网络体系、视频警务应用产品体系以及相关标准体系，为“十三五”期间公安视频监控的大规模深度应用奠定了基础。近年来先后主持了国家多部委及上海市科研项目十余项，先后在国内外期刊会议发表学术论文60余篇，申请国家发明专利近50项，获得软件著作权登记9项。

现任上海市图像图形学学会理事、中国计算机学会计算机视觉专业委员会委员、中国指挥控制学会富媒体专业委员会委员，上海智能视频监控工程技术研究中心（筹）常务副主任。

（采访：铁流）

本文系观察者网独家稿件，文章内容纯属作者个人观点，不代表平台观点，未经授权，不得转载，否则将追究法律责任。关注观察者网微信guanchacn，每日阅读趣味文章。