网站首页  词典首页

请输入您要查询的论文:

 

标题 动态手势识别技术综述
范文 郭雷

摘 要:分析比较了现有动态手势识别技术的思路和特点,介绍了基于视觉的动态手势识别基本步骤,分析了该技术路线中存在的若干难点。在此基础上介绍了深度学习方法的基本思路和优点,展望了动态手势识别技术今后的研究方向。
关键词:手势; 动态手势识别; 机器学习
DOIDOI:10.11907/rjdk.151343
中图分类号:TP301 文献标识码:A 文章编号文章编号:1672-7800(2015)007-0008-02
0 引言
作为一种不需要中间媒介、非常人性化的人机交互方式,手势是一种理想的自然用户界面 (Natural user interface,NUI),它使人们可以用一种更自由的方式与计算机进行交流。
手势是人手或者手和手臂结合产生的各种姿势或动作,广义上手势还可以包含人的表情、步态等,甚至全身任何部分动作。手势可以分为静态手势和动态手势。静态手势识别考虑某个时间点上手势的外形特征,动态手势关注一段时间内人的一系列动作,增加了时间信息和动作特征。
本文首先介绍基于视觉的动态手势识别基本步骤,然后分析该技术路线中存在的若干挑战性难点。接着分析比较现有动态手势识别技术的思路和特点,最后总结动态手势识别技术的研究方向。
1 手势识别基本流程
一般来说,基于视觉的手势识别基本流程如图 1 所示。设计手势特征和手势模型,并利用手势样本提取特征,对手势模型进行训练,最终建立手势模型。在此基础上,通过视频采集设备获取新的手势视频并进行预处理,接着对手势图像进行手势分割,从而比较准确地提取图像中的人手部分,然后进行手势特征提取;最后,利用前面建立好的手势模型对输入的手势进行分类识别。
图1 手势识别基本流程
2 手势识别技术难点
手势识别是一个非常具有挑战性的研究课题。自然手势存在多样性、多义性等特点,复杂的动态手势必须关注手势时间序列上的变化、手的运动轨迹、手的外形特征等多个方面,这使得基于视觉的手势识别技术面临许多关键问题,手势识别的研究仍然有一些技术难题需要突破。
首先是手势目标检测与跟踪问题。手势目标检测是手势识别中重要的一步,其好坏直接影响到手势识别效果。环境因素,如复杂多变的背景、不同光照条件等因素的影响,给手势分割带来很大困难;此外,手势在执行过程中可能存在部分遮挡,并且由于手是可变形体,能够做出各种复杂的手势动作,这些都加大了手势分割的难度,目前的手势分割方法还不能完全准确地定位出人手。
其次是动态手势的时空差异性。人类的手势动作在空间上有很大的灵活性,同类的手势动作,由于不同动作执行者的习惯不同,每次手势轨迹的幅度、方向以及位置都不尽相同,即使是同一人重复做多次,每次的运动速度和幅度都不可能完全一样。另外,从不同角度观察同一手势也会有不同的外观。
第三就是实时性问题。基于视觉的手势识别系统涉及到大量视频数据的处理,对计算机的运算速度和存储容量要求很高。为了保证较高的识别率,在手势实际识别中,采取的办法是使用多维参数提取手势特征。但参数维度过高会增加处理器的负载,导致计算速度下降。普通用户所使用的计算机处理器性能还不能满足非常复杂的识别算法需要,这使得手势识别很难达到实时性要求。
3 现有手势识别技术分析
目前,常用的手势识别方法包括模版匹配法和基于状态转移的图模型方法等。
模板匹配方法的基本思想是:计算输入手势与已知手势模板之间的相似度来识别手势,是最简单的手势识别方法。具体为:通过手势样本为每种手势训练建立对应的模板。当识别一个新的手势时,首先计算其特征向量,然后与已知模板逐个进行匹配,相似度最高的模板对应的手势类型即为识别结果。一般使用3种函数来衡量输入手势和手势模板特征序列之间的相似度:平方差、相关系数和相关匹配。文献\[1\]使用皮肤历史图像进行手势建模,利用 K-means 聚类算法进行训练得到手势模板,通过计算输入手势和手势模板之间的切线距离来衡量二者的相似度。
模板匹配方法建立和修改比较简单,但当动态手势变得非常复杂时,手势在时间和空间上的差异性,使得每种手势的模板阈值变大,即设定匹配范围较宽。当手势种类较多时,有可能出现一个模板同时与几种手势相匹配的情况,最终导致识别错误。模板匹配方法的识别速度随着手势种类增多而逐渐降低,因此,模板匹配方法不能解决手势的时空差异性问题,无法准确实现实时的多手势识别。
动态时间规整DTW\[2\]是一种时变数据序列匹配方法,其通过在时间轴上调整手势序列以消除动态手势时间上的差异。DTW调整时间轴,将输入手势非线性地映射到模板手势的时间轴上,使得二者之间距离达到最小,然后再进行模板匹配得到最终识别结果。DTW算法优点是数据训练简单、易于实现,缺点是大量模板匹配计算导致很难实时,且容易受噪音的影响。此外,当手势比较复杂,如时间上差异较大或幅度变化较大,或者遇到未定义的交互手势时,DTW的识别效果就会变得很差。
基于状态转移的图模型方法是用图模型的节点或状态描述每个静止姿态或运动状态,对应的图模型节点之间通过各种概率联系起来,因此任何手势序列都可以看作是在图模型中不同节点或状态之间的一次搜索过程。文献\[3\]将动态手势的位置、轨迹方向角、运动速度等特性设为观测序列,训练建立每一种手势的HMM 模型,在时空变化的条件下分析时间序列,可以提供时间尺度不变形。HMM是一种广泛使用的统计方法,其拓扑结构具有一般性,不仅能够描述手的形状、位置、方向及运动特性,还能描述手势在时间上的差异,尤其适用于复杂动态手势识别。HMM的训练和识别计算量非常大,难以达到实际要求。
文献\[4\]采用了基于特征包(BoF-based)的动态手势识别方法。首先从样本中提取局部区域,采用SIFT等算子进行描述,然后通过聚类算法构造特征字典,计算每类手势的特征包,以此作为手势分类的依据。该方法的局部图像块通常由特征点检测、随机采样得到,因而局部特征通常不具有显式语义。
神经网络因具有很强的自适应学习能力和容错能力,文献\[5\]将神经网络和DTW相结合,提出了基于手形和运动轨迹的识别方法,神经网络用于手形的分类和识别,DTW用于运动轨迹识别。神经网络不易受噪声影响,容错能力强,但是训练计算量大,对时间序列的建模能力较差,不能解决手势时间差异性问题。
4 深度学习技术
在图1所示的手势识别基本流程中,特征对于手势建模起着非常关键的作用。良好的特征表达,对最终算法的准确性起着非常关键的作用。手工选取和设计特征非常费力,需要专业知识和大量的时间进行调节,成功极大地依赖于设计者的经验和运气。
深度学习是机器学习研究中一个新的领域,其目标是建立、模拟人脑进行分析学习的神经网络,通过非监督学习,实现自动的学习特征。深度学习构建具有很多(5层、6层,甚至10多层)隐层的机器学习模型,通过海量数据训练,使得原样本空间逐层变换到一个新特征空间,以学习更有用的特征。这类似于人类从原始信号作低级抽象,逐渐向高级抽象迭代,最终的分类或预测在高级抽象层进行,从而提高准确性。与人工规则构造特征方法相比,利用大数据来学习特征,更能够刻画数据的内在信息。
深度学习技术已经在图像处理领域取得了成功,许多学者尝试将深度学习引入到手势识别中。文献\[6\]扩展了 CNN网络,自动学习时空特征,采用递归神经网络训练学习每个时间节点上的特征,在KTH数据集上取得了良好的效果。上述这些方法归属于基于时空的方法,主要缺陷是对复杂动作的表达能力较弱。
5 结语
自然手势存在多样性、多义性、时空差异性等特点,使得手势识别成为一个非常具有挑战性的课题。传统的动态手势识别技术取得了一定的成功,但手工选取特征极大地限制了这些技术的发展。深度学习技术模拟人脑进行分析学习,可以从原始的数据空间层层进行特征抽象和变换,最终在高层特征空间进行,极大地提升了机器学习的准确性。学习和借鉴深度学习技术,无疑是动态手势技术发展的方向,动态手势的时空复杂性也将反过来进一步推进深度学习技术的进步和发展。
随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/3/15 8:47:50