研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?

 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

2020 年 8 月 7 日,第五届全球人工智能与机器人峰会(CCF-GAIR 2020)在深圳正式开幕。
CCF-GAIR 2020 峰会由中国计算机学会(CCF)主办,香港中文大学(深圳)、雷锋网联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办。
作为中国最具影响力和前瞻性的前沿科技活动之一,CCF-GAIR 大会已经度过了四次精彩而又辉煌的历程。
在大会第二天的「视觉智能?城市物联」专场上,微软亚洲研究院首席研究员王井东分享了其在新一代视觉识别网络结构上的研究成果。
王井东介绍,目前学界的网络结构都是围绕分类任务而发明,除了分类以外,在计算机视觉里面还有其它的重要任务,比如图像分割、人脸关键点的检测、人体姿态估计、目标检测等等。
下一代的网络结构是什么样的呢?是否适用于更为广泛的视觉识别问题?
王井东首先介绍了分类网络结构学习高分辨率表征的方式,是通过上采样的方法,包括两个步骤,第一个步骤是分类的网络架构,表征空间尺度开始比较大,然后慢慢变小。第二个步骤,通过上采样的方法逐步从低分辨率恢复高分辨率。这样的方法获得的特征空间精度较弱。
而王井东团队研发的高分辨率网络架构(HRNet)没有沿用以前的分类架构,也不是从低分辨率恢复到高分辨率,自始至终维持高分辨率。
他们让高中低分辨率不停地交互,使得高分辨率可以拿到低分辨率语义性比较强的表征,低分辨率可以拿到高分辨率的空间精度比较强的表征,不停地融合,最终取得更强的高分辨率表征。
在人体姿态、分割、人脸关键点检测、目标检测等任务中,HRNet从参数量、计算量以及最终结果看,高分辨率结构都非常有优势。HRNet在人体姿态估计的任务上,已经成为标准的方法;在分割任务上,由于其更好的性能,也被大家广泛使用。
以下是王井东大会现场全部演讲内容,雷锋网作了不改变原意的整理及编辑:
注:完整版演讲PPT可关注公众号「AI掘金志」回复“王井东”获取。
非常荣幸能够在这里跟大家分享我们的工作,今天我报告的题目是“高分辨率网络,一种面向视觉识别的通用网络结构”。
在计算机视觉里面,视觉识别是一个非常重要的领域,这里面我列举了几种代表性的研究课题:图像分类、目标检测、图像分割、人脸关键点的检测和人体关键点的检测。
从2012年以来,随着AlexNet横空出世,深度神经网络在计算机视觉领域成为主流的方法。2014年,谷歌发明出了GoogleNet,牛津大学发明了VGGNet,2015年微软发明了ResNet,2016年康奈尔大学和清华大学发明了DenseNet,这几个结构都是围绕分类任务而发明的网络结构。
除了分类以外,在计算机视觉里面还有其它的任务,比如说图像分割、人脸关键点的检测、人体姿态估计等等。
下一代的网络结构是什么样的?是否适用于更为广泛的视觉识别问题?
在解答这些问题之前,我们先了解分类网络、我们为什么提出这样的问题,以及现在的分类网络存在的问题。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

LeNet-5分类网络是1998年发明的一种网络结构(如上图),包括一系列减小空间大小的过程,具体来讲就是把空间从大的特征变成小的特征,然后通过变换的向量,最后进行分类。
前面提到的几个结构,包括GoogleNex、VGGNet、ResNet等等,都是通过这种方式,逐步减小空间的大小,最终得到一个低分辨率的表征。低分辨率的表征在图像分类任务中是足够的,因为在图像分类里面,只需要给一个全局的标签,而不需要详细的空间信息,我们称之为空间粗粒表征的学习。
但是在其它任务中,比如检测,我们需要知道检测框的空间位置,比如分割,我们需要每个像素的标签,在人脸和人体的关键点的检测中,我们需要关键点的空间位置,这样一系列的任务实际上需要空间精度比较高的表征,我们称之为高分辨率表征。
目前业内学习高分辨率表征有几个原则,一般是以分类的网络架构作为主干网络,在此基础上学习一些高分辨率的表征。
学习高分辨率表征,有一种上采样的方法,包括两个步骤,第一个步骤是分类的网络架构,表征开始比较大,然后慢慢变小;第二个步骤,通过上采样的方法逐步从低分辨率恢复高分辨率。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

常见的网络架构,比如U-Net,主要应用在医学图像,SegNet主要是用于计算机视觉领域,这几个结构看起来很不同,其实本质都一样。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

如此一来,分辨率开始高,然后降低了,然后升高。过程中,先失去了空间精度,然后慢慢恢复,最终学到的特征空间精度较弱。
 研究院|微软亚洲研究院王井东:下一代视觉识别的基本网络结构是什么样的?
文章图片

为了解决这个问题,我们提出了一种新型的高分辨率表征学习方法,简称为HRNet。HRNet可以解决前面提到的从AlexNet到DenseNet都存在的问题,我们认为下一个网络结构是HRNet。