标题 | 人脸表情识别的概述 |
范文 | 付喜梅 庄思发 摘要:随着大数据时代的到来和深度学习的技术崛起,作为人脸识别的重要分支的表情识别是人工智能领域的研究热点,在医疗、教育、心理研究等领域具有非常广泛的应用前景。本文从传统的表情识别技术和大数据时代深度学习表情识别两个角度出发,对表情识别的理论进行了概述,针对表情识别的研究进展,探讨了表情识别未来发展的趋势。 关键词:表情识别;深度学习;卷积神经网络,特征提取;表情分类 中图分类号:TP391.41 文献标识码:A 文章编号:1009-3044(2018)23-0211-04 Abstract: With the advent of the era of big data and the rise of deep learning technologies, expression recognition as an important branch of face recognition is a research hotspot in the field of artificial intelligence, and has a very wide range of application prospects in fields such as medical treatment, education, and psychological research. In this paper, the theory of expression recognition is summarized from two aspects of the traditional expression recognition technology and the deep learning expression recognition in the big data age. In view of the research progress of facial expression recognition, the future development trend of facial expression recognition is discussed. Key words: expression recognition;deep learning;convolutional neural network;feature extraction;expression classification 人的情感的产生是一个很复杂的心理过程,情感的表达方式也有多种,在计算机研究中分为表情、语音、动作三类。在这三种情感表达方式中,心理学家拉塞尔( J. A. Russell)发现大约55%的日常交流信息是用面部表情传递的。面部表情是一个人情绪的外在表达,是复杂心理过程的体现,美国著名心理学家Ekmann与Friese把人类表情划分为7种基本表情:自然、恐惧、悲伤、愤怒、高兴、惊讶和厌恶[1],每种情感以唯一的表情来反映人的一种独特的心理活动,通过表情可以准确识别人的心理情绪。 人脸表情识别就是利用计算机获取人脸的表情特征信息进行解析并分类的过程,根据分类结果推断人的心理状态应用实际生活中。人脸表情识别作为人脸识别的一个重要分支,是人工智能研究领域的热点[1],具有广阔的应用前景,例如远程教育、安全驾驶、测谎仪、临床医学等领域。目前已取得了一些成果,在国外表情识别的研究已经进入商业化的阶段。 在传统的表情识别研究中表情特征提取和分类识别是提高识别率的关键点也是难点,近年来,国内外的研究者尝试利用不同的特征提取方法和分类方法提高识别率。随着大数据的到来和深度学习技术的兴起,表情识别的研究侧重点不再是单纯的如何准确表达提取表情特征以及分类,而是利用神经网络自主学习表情特征在统一的框架体系中自动提取特征进行自动分类。本文从传统的表情识别技术和大数据时代深度学习表情识别两个角度对表情识别的研究理论进行了概述,根据目前研究现状探讨了表情识别技术未来发展的方向。 1 传统的人脸表情识别技术 在传统的表情识别技术中,通常包括图像预处理、表情特征提取和表情分类三部分[1],其步骤及流程如图1所示。首先对输入图片进行人脸检测与定位,从图片中分割出人脸进行预处理,从图片的点阵信息中提取表达表情的特征信息,通过对提取表情的特征信息进行解析实现表情分类。目前表情识别的研究方法大都基于二维图像的面部特征,在传统的表情识别算法研究都集中在特征提取和分类两个关键技术,很多研究者尝试着各种不同的方法来提高识别率,尽管在特定的数据库上已取得不错成果,但在实际应用环境中却不尽如人意。人的面部表示是柔性物体,而非刚性物体,表情特征的描述是表情识别的难点。 1.1 图像输入 目前图像识别研究中输入的图像主要是二维图像,为了开展表情识别的研究,输入图像可以来自一些公开的表情数据集,也可以是通过摄像头、监控等图像捕捉工具截取的静态图像或动态视频图像序列。随着研究深入,为了优化算法,建立了大量的表情数据库,不同的人脸表情数据库会影响表情识别的结果,比较常用的表情库有美国CMU机器人研究所和心理学系共同建立的Cohn-Kanade AU-Coded Facial Expression Image Database(簡称CKACFEID)人脸表情数据库;日本ATR建立的日本女性表情数据库(JAFFE),除此之外还有BHU表情库、RML数据库等数据库也是应用比较广泛。 1.2 图像预处理 图像预处理的好坏直接影响表情特征提取的准确性和表情分类的效果,从而影响表情识别的准确率。图像预处理主要工作包括人脸检测及定位,去噪,进行尺度、灰度的归一化等。输入的图像通常具有比较复杂的场景,人脸位置是未知的,表情识别的研究对象是人脸,因此对输入的图像首先要进行人脸检测及定位,并把检测出脸部区域从图像中分割出来。由人脸检测技术获取的人脸图片大小、长宽比例、光照条件、局部是否遮、头部偏转通常是不一样的,为了后续提取特征的统一处理,就需要将它们的尺寸、光照、头部姿态的矫正等进行归一化处理,改善图像质量,为进一步分析和理解面部表情和行为的打好基础。 1.3 特征提取 特征提取即是将点阵的图片转化为更高抽象的图像表述—如形状、运动、颜色、纹理、空间结构等[2]。人的表情变化是由面部不同肌肉运动来表达每种表情,这是一个柔性变化过程,没有统一的模型来描述每种表情的肌肉组合,目前面部特征提取的算法集中在特征点精确定位。面部表情特征提取的方法很多,根据图片的来源是否为静态还是动态的分为基于运动和基于形变的表情特征提取。基于运动的特征提取方法,主要根据序列图像中面部特征点的相对位置和距离的变动来描述表情变化,具体有光流法、运动模型、特征点跟踪等,此类方法鲁棒性好但计算量大。基于形变的特征提取方法,主要用于静态图片提取特征,依靠与自然表情模型的外观或纹理对比获取模型特征,典型的算法有基于活动外观模型(AAM)和点分布模型(PDM)、基于纹理特征Gabor变换和局部二进制模式LBP,此类方法受外界影响较大。特征提取是整个人脸表情识别系统中最核心的部分,如何在保证图片原有信息的前提下提取出人脸表情的有用信息,在很大程度上能提高人脸表情识别率。 1.4 人脸表情分类 表情分类即把前一阶段提取到的表情特征送入训练好的分类器或回归器,让分类器或回归器给出一个预测的值,判断表情特征所对应的表情类别。选取合适的分类器对特征進行分类是影响表情识别率高低的另一关键因素。按照美国著名心理学家Ekman划分的7种基本表情,通过研究表情分类方法,挖掘与情绪相关的面部表情信息,从而应用到实际生活中。在人脸表情识别分为包括设计和分类决策两个阶段,目前常见的表情分类的算法主要有线性分类器、神经网络分类器、支持向量机SVM、隐马尔可夫模型等分类识别方法。传统方法的不足之处在于,所用的特征提取方法都是以人工设定的特征为基准来提取,损失了原图像的很多细节特征。 1.5 传统特征提取和分类算法的总结 表情识别经过十几年的发展,已经取得很多研究成果,涌现了许多性能良好的特征提取算法和识别分类方法,并在公开的表情数据库上取得很好的识别率,表1选取了文献[1]中目前文献资料中一些具有代表性特征提取算法和分类方法研究结果。 从上表可知,传统的机器学习方法在静态图片的识别上几乎90%及以上,动态图片的表情识别也在80%-90%之间,但在实际应用中输入的表情图片识别率只有80%左右,甚至更低。公开的表情库中的表情都比较显著而夸张,微表情不多,且样本的数量有限。在传统的识别算法中强调的重点在特征提取和特征识别,这两步的算法直接影响表情识别的准确率,由于人脸表情是一个柔性物体而非刚性物体,目前传统的识别方法和表情数据库都是具有显著性特征的样本,这就是传统表情识别的难点。随着大数据到来以及计算机硬件技术发展,基于深度学习的表情识别是现在主流方法。 2 大数据时代基于深度学习的人脸表情识别 2.1 深度学习 深度学习(Deep Learning,DL)起源于神经网络,是机器学习的一个分支,是对具有深层结构的神经网络进行有效训练的方法,在人工智能领域使用广泛的技术手段。深度学习一般包含多个网络层,利用海量数据进行训练,通过逐层非线性特征变换,组合低层特征形成更加抽象的高层特征表示,得到显著性的特征,从而提高分类或预测的准确率。深度学习之所以被称为“深度”,相对于传统的神经网络、支持向量机等“浅层学习”方法而言,“深度学习”只是一种手段,“特征学习”才是目的。卷积神经网络(Convolutional Neural Network,CNN)是深度学习中应用最为广泛的模型。 2.2 卷积神经网络CNN 卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,包含了若干卷积层和子采样层构成的特征抽取器,以及进行特征汇总的全连接层分类器,在图像识别中可以图像的像素值作为神经元输入,通过输入表情图片的大数据作为训练样本的图像数据进行自主学习,隐式地获得图像更抽象的特征表达。卷积神经网络采用局部链接、权值共享及下采样等技术具有平移、缩放和扭曲的不变性,使得提取的特征更具有区分性,在二维图像的识别中具有良好的鲁棒性。 2.2.1 构建卷积神经网络 CNN的基本拓扑结构由输入层、卷积层、池化层(pooling layer,也称为取样层)、全连接层及输出层构成。在深度神经网络中,一般设置若干个卷积层和池化层,通常在卷积层后连接池化层,池化层后再连接一个卷积层,卷积层和池化层交替设置,图2是一个6层结构的卷积神经网络基本模型。 在图2所示卷积神经网络中,第1、3层为卷积层,第2、4层为池化层、5层为全连接层。卷积层通常有多个特征面,每个特征面包含多个神经元,每一个神经元都通过一组权值即卷积核与输入层的局部区域连接后进行加权求和,然后通过Relu激活函数激活输出特征图中的一个神经元。通过卷积操作提取输入图片的不同特征,浅层的卷积层提取简单具体的特征诸如边缘、线条、角落等,深度的卷积层提取更抽象的特征,在同一个输入或输出特征面中,CNN的权值共享。在深度学习神经网络中,为了加快模型收敛速度,减少连网络连接数,卷积神经网络引入了下采样机制,即是用一个像素代替一个像素块,对图像进行不断缩小,降低了特征维度又保留了图像有效信息,加快了网络训练速度,在某种程度上避免了过拟合现象。在全连接层中,每个神经元与前一层的所有神经元进行全连接,即是把前面提取的特征的局部信息进行整合汇总分类,此时一般采用激励函数softmax进行分类输出。 2.2.2 卷积神经网络的训练与设计 深度学习隐层网络训练手段通常采用是无监督逐层训练,其基本思想是阶梯式训练,即前一隐层训练的输出作为后一隐层的输入继续训练,这种训练方式称为“预训练”,这种方式本质其实是先找到局部最优,然后逐层在基于局部最优的结果联合起来进行全局寻优,不仅利用了模型的大量参数提取特征,又节省了训练开销。在训练过程中,误差逆传播BP算法是卷积神经网络常用的训练算法,该算法采用由信号的正向传播与误差的反向传播两个过程组成训练学习过程。正向传播时,输入样本经隐层逐层各种非线性变换的过程向前传播,随机赋值的初始权重(w)和偏置(b)在前向传播至输出层的实际输出与期望输出不符,则转入误差的反向传播阶段。在误差的反向传播中,把输出误差以某种形式通过隐层向输入层逐层反传,并将误差分摊给各层的所有单元,利用收到误差信息来修正各单元权值w、b值。这种信号正向传播与误差反向传播的各层权值调整过程,循环往复地进行,这即是网络的学习训练过程。 目前训练深度模型主要有两种手段:一种是利用当前数据样本从零开始训练深度模型再投入预测检验中;另外一种加载已有的成熟模型,利用加载到模型的参数作为训练新模型的初始化参数。在实际应用中依据数据样本的特点来选择训练方法,通常若数据样本少或者数据与某个模型所用的数据类似,则优先选择第二种方法。具体实现步骤: u 设计网络结构:层数、神经元个数、激活函数; u 设定每层节点数; u 算出梯度; u 写代码; u 利用数据调参。 2.2.3 基于卷积神经网络的表情识别 随着大数据时代到来和计算机计算速度的提高,基于深度学习的方法成为人工智能领域成为主流方法。相比于传统的表情识别方法,基于深度学习的方法能够从海量数据中自主学习人脸表情特征并自动进行分类,把特征提取和分类器两个过程一体化,具有较强的泛化能力,提高了表情识别的性能。 图3是基于卷积神经网络人脸表情识别模型,与传统的表情识别流程基本类似,输入的表情图片首先进行人脸检测与定位、归一化等预处理,把人脸从图片中分割出来,不同的是卷积神经网络的表情识别把特征提取和分类在同一个框架体系结构中进行,通过卷积操作对抽取图片表情特征,采用下采样操作对图片进行降维,减少计算量,通过多层的卷积和下采样抽取图片精准局部特征后利用全连接进行表情分类,整个过程一体化,不需要人为设置特征提取的参数,而是让机器自动从大量输入图片的大数据中自主學习表情特征并自动提取特征和分类。采用卷积神经网络,不仅减少了计算量,而且无须人工设定的特征为基准来提取,挖掘了原图像的很多细节特征。 3 研究展望 人脸表情识别在国内外进行大量的研究,取得了非常丰硕的成果,其中MIT、CMU、Standford大学、哈尔滨工业大学、中科院、中国科技大学等研究所的贡献尤为突出。在传统的表情识别方法中识别率在公开的数据库中达到了90%以上,随着大数据的到来,深度学习方法的兴起,深度学习的表情识别对7种表情的识别率达到了95%及以上,但对于实际场景的表情识别,识别率还不是很稳定,大部分算法识别率在80%左右。 3.1 传统学习算法的难点 人脸表情识别关键在于如何准确理解和表达表情特征。人脸面部表情变化时,表现为脸部特征点的运动,目前计算机尚不能精确定位特征点,同种表情在不同人的面部表现特征也不同,计算机很难精确划分每种表情。目前的研究结果表明,对于特定数据库下基本的6-7种表情识别准确率比较高,而微表情的识别率还很低。人脸表情特征的提取与分类方法都是在特定的数据库上进行研究,在不同的数据库上识别率相差很大。另外,传统的学习算法的特征提取是人工设定的特征为基准来提取,损失了原图像的很多细节特征。 3.2 深度学习存在问题 深度学习已经成为当前表情识别的主流技术。在人脸表情识别领域,深度学习避免了传统表情识别算法对人脸姿态、光照、遮挡物的影响,提高了表情识别的鲁棒性,在公开的表情数据库上取得非常优异成绩,个别算法识别率高达99%以上,体现非常优越的性能。在研究时发现深度学习存在一些问题,在对小样本进行训练时容易发生过拟合现象。另外深度学习的支持理论尚不完备,因此在实际应用中研究者都是耗费大量的时间去设置训练参数和训练方式,通过做实验进行最优的超参数选择;如何采用理论指导的快速训练方式和针对不同实际问题设计出最佳的网络结构等是深度学习亟待解决。 3.3 表情识别的发展趋势 人的表情是一个柔性物体而非刚性物体,传统识别算法的关键是特征提取,在特定的数据库已经取得很好的成果,而目前的算法受光照、遮挡的影响,识别的效率很难提高。深度学习是表情识别的发展方向,目前深度学习在大样本提取特征的优越性能众所周知,但在小样本上却容易出现过拟合,而传统学习算法正好相反,在小样本上体现了优越性能,如何深度学习与传统学习相融合或许会让表情识别有更大的发展空间。另外,目前表情识别的研究集中在分表情库仍以Ekman划分7种基本表情,种类简单且面部表情显著而夸张,很多细微表情的识别率很低,未来发展的方向集中在自发微表情的识别,建立更大更细致的表情分类数据库,供深度学习。目前的表情识别的研究系统都是二维图像居多,构建3D人脸表情识别系统也是未来发展的方向。同时,随着智能手机普及,开发移动终端的表情识别系统也开始受到关注。 4 结束语 人脸表情识别作为人脸检测的重要分支,是人工智能领域的研究热点,具有广泛的应用前景。本文对人脸表情识别的理论及研究成果进行了全面的概述,同时针对当前研究进展,讨论了表情识别的发展趋势。 参考文献: [1] 王信,汪友生.基于深度学习与传统机器学习的人脸表情识别综述[J].应用科技,2018,45(1):65-72. [2] 张利伟,张航,张玉英.面部表情识别方法综述[J].模式识别与仿真,2009,28(1):93-97. [3] HE Jun,CAI Jianfeng,FANG Lingzhi,et al.Facial expression recognition based on LBP /VAR and DBN model[J].Application research of computers,2016,33(8):2509-2513. [4] SALAKANIDOU F,MALASSIOTIS S.Real-time 2D + 3D facial action and expression recognition[J].Pattern recognition,2010,43(5):1763-1775. [5] 姜波,解仑,刘欣,等.光流模值估计的微表情捕捉[J].浙江大学学报:工学版,2017,51(3): 577-583,589. [6] TIE Yun,GUAN Ling.A deformable 3-D facial expression model for dynamic human emotional state recognition[J].IEEE transactions on circuits and systems for video technology,2013,23(1):142-157. [7] ZHAN Yongzhao,CHENG Keyang,CHEN Yabi,et al. A new classifier for facial expression recognition: fuzzy buried Markov model[J].Journal of computer science and technology,2010,25(3): 641-650. [8] LIEW C F,YAIRIT.Facial expression recognition and analysis:a comparison study of feature descriptors[J].IPSJ transactions oncomputer vision and applications,2015,7: 104-120. [9] 周宇旋,吴秦,梁久祯,等.判别性完全局部二值模式人脸表情识别[J].计算机工程与应用,2017,53(4):163-169,194. [10] 周书仁.人脸表情识别算法分析与研究[D].长沙:中南大学,2009. 【通联编辑:唐一东】 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。