来源:《中国计算机学会通讯》第8期《动态》
作者:王井东 张 婷 罗杰波
#大会特点
2015 IEEE计算机视觉与模式识别(Computer Vision and Pattern Recognition, CVPR)会议有哪些特点?吸引了2700多人参会的原因又何在呢?也许从大会的主题报告人身上能得到答案。
第一个主题报告人是卷积神经网络的推动者和创始人之一的美国纽约大学教授雅恩·乐昆(Yann LeCun)。他报告的题目是“深度学习的局限性(What’sWrong with Deep Learning?)”。雅恩·乐昆是机器学习计算机视觉领域里的著名学者,他用卷积神经网络解决光学字符识别(optical character recognition)和计算机视觉问题的工作广为大家所熟悉。这次他的报告,着重讲述了近几年深度学习在包括自然图像理解、语音识别等研究领域取得的重要成果,指出深度学习中三个主要的局限性:缺乏其背后工作的推理机制,缺乏短期记忆力,以及不能进行无监督的学习。他作报告时,能容纳1000人的会场座无虚席,主办方甚至还开辟了两个分会场进行现场大屏幕直播。
另一个主题报告是来自美国加州大学伯克利分校的心理学教授杰克·加兰特(JackL. Gallant)的“对人类视觉系统的逆向工程 (Reverse Engineering theHuman Visual System)”。 加兰特的研究主要集中在人脑的计算建模上。人类大脑是图像处理系统中最复杂的系统,能够在极其复杂的自然环境下对看到的东西进行识别并分类。加兰特指出通过训练出来的深度学习模型反向去研究大脑也许可以让我们理解大脑视觉神经的运作机理,同时与大家探讨了他的团队用实验得到的深度学习不同层之间与视觉皮层不同层之间的关系,进一步验证了他所提出的逆向工程的想法。
#大会背景
CVPR 位居计算机视觉和模式识别领域里的三大顶级会议(CVPR, ICCV, ECCV)之首,通常每年6月在美国的一个城市举行。CVPR 2015在美国波士顿举行。该会自1983年创建以来已经举办了28届。
CVPR的主要内容为计算机视觉和模式识别及相关问题,涵盖图像理解、模式分析与识别、图像视频搜索、三维重建、文档手迹分析、医学图像、视频分析、运动识别、人脸手势识别等。其中三维重建一直是CVPR的重要问题。本次大会一共收到2123篇论文,接收602篇,占28.4%,其中71篇为宣讲论文。
#教学报告会
本次会议共有18个教学报告会,涉及算法平台、计算机视觉问题、计算机视觉中的算法以及计算机视觉的应用。主要内容有机器人中的三维视觉、从新手到专家的OpenCV3.0教程、用Torch深度学习工具解决计算机视觉问题、非接触式3D指纹识别、3D室内场景理解、基于图像的大规模的地点识别及定位、视觉识别中的距离度量学习、高维数据分析中的稀疏低秩建模、应用于电影制作中的应用数学、基于计算机视觉的视觉效果等。
其中“视觉识别中的距离度量学习”的组织者完全是来自中国的年轻学者,3位来自大陆,1位来自新加坡,并将于今年9月加入清华大学。
#主会
主会一共三天,包括71篇宣讲论文的口头报告以及所有602篇接收论文的墙报展示。图1为大会所有接收论文的关键字云图。
口头报告分为12个主题,第一个主题是卷积神经网络结构,会议现场座无虚席。深度学习,从最开始在图像分类上的成功,到后来被应用在图像分割、图像检索以及今年会议中有用在深度估计、三维建模中的法向量估计上,可以看到深度学习在计算机视觉中有着越来越广泛的应用。传统的三维重建相关的主题有三个。值得一提的,图像与语言主题也吸引了不少关注。
#专题研讨会
CVPR 2015还安排了两天的专题研讨会,一共31场。其中题为计算机视觉的深度学习引起的关注最大,会场座无虚席,连站的地方也没有。关于大数据的有6场:大规模视觉的商务应用,大规模视频搜索和挖掘,在大数据、深度学习、新表达的情况下计算机视觉中的医学影像,大规模的视觉识别和搜索,大数据类别的动作识别和大规模的场景理解挑战。
另外今年与以往不同的是有个新的专题研讨会:计算机视觉中的女性研究者(WiCV 2015: Women in Computer Vision)。这个研讨会旨在通过邀请在这个行业中的女性榜样研究员作交流报告来提高女性研究者的影响力,分享她们的宝贵经验,同时给予年轻的女性研究者更多的机会展示她们的成果。
#奖项
CVPR 2015共设五类奖项:最佳论文奖、最佳学生论文奖、龙格-希金斯奖(Longuet-Higgines Prize)、PAMI 青年科学家奖(Young Researcher Awards)以及最佳演示(Demo)奖。
最佳论文奖授予了美国华盛顿大学的博士后Richard Newcombe,以及与他合作的两位教授Dieter Fox和Steve Seitz。他们的论文是“对非刚性场景的实时重建与跟踪(DynamicFusion: Reconstruction and Tracking of Non-rigid Scenes in Real-Time)”。该文提出利用商业传感器Kinect采集RGBD影像,融合不同时序的深度图像,能够实时重建非刚性变形场景的第一个密集SLAM系统。
有三篇论文获得了最佳论文提名奖。一篇是基于树搜索的全局最优的一致性最大化(Efficient Globally Optimal Consensus Maximisation with Tree Search),一篇是语义分割的全卷积神经网络(Fully Convolutional Networks for Semantic Segmentation),一篇是场景感知的一种概率性编程语言(Picture: A Probabilistic Programming Language for Scene Perception)。
最佳学生论文奖授予了来自美国加州大学伯克利分校的两名学生Abhishek Kar,Shubham Tulsiani,博士后João Carreira,以及JitendraMalik的论文,该论文提出了如何只从一幅图像中重建图像中物体的三维结构的方法(Category-SpecificObject Reconstruction from a Single Image)。
龙格-希金斯奖是从2005年开始的由PAMI技术委员会(TechnicalCommittee)每年在CVPR会议上颁发的奖项,奖励至少10年前发表的CVPR的文章。今年有两篇 CVPR 2005的文章获得此奖项。一篇是法国国家计算机技术和控制研究所研究员Navneet Dalal和Bill Triggs合作的“用于行人检测的有向梯度直方图(Histograms of Oriented Gradients for Human Detection)”。另一篇是Antoni Buades、Bartomeu Coll和Jean-Michel Morel合作的“一种非局部的图像去噪算法(ANon-local Algorithm for Image Denoising)”。
PAMI青年科学家奖是由PAMI技术委员会(technical committee)每年在CVPR会议上颁发的奖项,颁发给获得博士学位7年以内的年轻杰出研究人员。今年的奖项获得者是来自美国哥伦比亚大学的教授JohnWright。
最佳演示奖授予了来自美国卡内基梅隆大学的Supreeth Achar和Srinivasa G. Narasimhan 以及来自加拿大多伦多大学的Matthew O’Toole和KiriakosN. Kutulakos的关于高效节能的结构光成像(Energy Efficient StructuredLight Imaging)的演示。
#大会印象
今年的CVPR参会人数是历年中最多的,有近2800人。提交的论文数和接收的论文数比往年也都有大幅增长,这与计算机视觉在学术界和工业界得到越来越多的关注不无关系。还有一个特点,华人在CVPR的参与程度越来越高,今年约有25~30%的与会者是华人。
深度学习仍是一个火热的研究主题,约有50%的文章涉及深度学习。深度学习自从2012年在ImageNet比赛中取得突破性的结果以来,就吸引了许多研究工作者相继致力于研究其更进一步的应用及其背后的工作机制。
此外,还有很多论文研究图像识别、目标检测、视频分析、三维重建等问题。尽管传统视觉问题已经不是CVPR热门的课题,但是最佳论文仍属于传统的三维重建,能够得到评奖委员会的赏识,说明传统问题依然是计算机视觉领域里大家关注的重点。得益于近几年深度学习,特别是循环神经网络(Recurrent Neural Network),在自然语言处理中的飞速发展,今年CVPR不少论文是研究关于如何从图像或者视频生成文字描述的课题,可以预见这一方向将会是计算机视觉领域里的热门课题。
CVPR 2016拉斯维加斯见!
#参考资料
[1] 《CCF通讯》