基于图像识别的中老年人下肢动作运动参数提取方法研究

2023.02.15

任彦军+黄丽敏
摘要：针对传统的运动参数提取方法一直存在提取误差大、耗时长的问题，提出基于图像识别技术的中老年人下肢动作运动图像参数提取方法，使人体运动行为识别能力得到提升。首先，结合中老年人下肢运动速度特征和三维运动形状的时空梯度自相关特征，计算出边缘梯度方向空间分布与梯度之间的自相关性，將时空自相关特征与视频运动特征相结合，使特征识别具备相应的数据条件；其次，人体下肢动作的视频图像数据是典型的时间序列数据，因此，基于人体骨架局部特征，利用训练数据能够构造完备字典，完成数据编码，运用时域金字塔匹配法对编码后的向量进行下肢动作运动图像特征参数提取与识别。实验结果证明，利用基于图像识别技术对中老年人下肢动作运动图像参数实现了准确有效的提取。
关键词：图像识别；下肢动作；自相关性；运动行为识别；时域金字塔匹配法；参数提取
中图分类号： TN911.73?34； TP391 文献标识码： A 文章编号： 1004?373X（2018）01?0071?05
Abstract： The traditional motion parameter extraction method has big extraction error and long time?consumption. Therefore， an image recognition based motion parameter extraction method of lower limbs movement for elderly people is proposed to improve the recognition ability of human motion behavior. On the basis of the speed characteristics of lower limbs movement for the middle?aged and elderly people and the spatiotemporal gradient correlation characteristic of the three?dimensional motion shape， the autocorrelation between the spatial distribution and gradient in the edge gradient direction is solved. The spatiotemporal autocorrelation characteristic and video motion feature are combined to satisfy the corresponding data condition of the feature recognition. Because the video image data of human lower limbs movement acts as the typical time series data， the training data is used to construct the complete dictionary according to the local feature of the human skeleton to realize the data encoding. The time domain pyramid matching method is adopted to extract and recognize the characteristic parameter of the lower limbs motion image for the encoded vector. The experimental results show that the proposed method based on image recognition technology can extract the image parameters of the lower limbs movement for the middle?aged and elderly people effectively.
Keywords： image recognition； lower limbs movement； autocorrelation； motion behavior recognition； time domain pyramid matching method； parameter extraction
0 引言
近年来，随着各类智能设备的发展与广泛应用，人们对人体运动行为的识别研究也越加重视，并已渐渐成为机器视觉领域中的一项重要研究课题[1]。在日常生活中，人们已渐渐熟悉并适应了在各个领域中对视频监控的运用。此外，如人机交互、基于步态与人脸的生物鉴定、手势识别、人脸识别等机器视觉技术的应用也被人们熟知[2?4]。文献[5]指出对于机器视觉技术也愈发重视，为人体运动行为识别技术的发展带来了十分有利的契机。
解析图像场景中的目标行为是机器视觉研究的主要目的，行为理解的首要步骤就是要识别人体运动，因此学术界非常重视人体运动识别的研究。可以简单地将人体运动行为识别问题视为关于随时间变化的运动图像特征的分类问题，即匹配测试图像序列与带标签的代表特定行为训练图像序列，问题的关键在于如何获取样本数据中代表特定行为的图像序列以及如何测量训练图像序列[6?7]。由于每个人执行统一动作时，其速率是不同的，因此，文献[8]提出当匹配模板与行为图像序列相配时，相同动作行为在时间和空间尺度上出现变化时，对应行为也会发生变化的情况需要得到有效处理。
为了能更加准确地了解人体运动行为识别问题，本文提出基于图像识别技术的中老年人下肢动作运动参数提取方法。首先，将基于三维运动形状的时空梯度自相关特征与中老年人下肢运动速度特征相结合，在计算边缘梯度方向的同时，也求解梯度间的自相关性，再通过时空自相关特征和视频运动特征实现级联，为特征提取奠定数据基础；其次，由于人体下肢动作的视频图像数据为时间序列数据，以人体骨架局部特征为基础，通过训练数据构造超完备字典，并对数据实现编码，编码后的向量采用时域金字塔匹配法进行下肢动作运动图像特征参数提取[9?10]。
1 中老年人下肢动作运动参数提取过程
1.1 基于时空梯度和运动速度的人体图像特征
通过拓展SIFT和HOG由一阶到二阶梯度自相关统计特征，从而获取时空梯度自相关特征，其很难分离肢体运动形状近似行为，因此本文提出一种结合时空梯度特征与运动速度特征的提取方法。
平移不变的图像特征可以通过梯度自相关法获取，通过该方法可以检测出丰富的图像信息，在辨识度方面比直方图更具优势。假定[I]表示一个图像区域，图像区域[I]中的一个位置向量由[r=x，y]表示，[?I?x，?I?y]是所有像素点处的梯度，则可分别描述梯度大小与梯度方向角度为：
[n=?I2?x+?I2?y， θ=arctan?I?x，?I?y] （1）
式中：[n]和[θ]分别表示梯度大小及梯度方向角度；[?]表示常数。
像素点[r]的梯度在局部领域内的自相关性函数可通过该点梯度方向向量[f]以及梯度大小[n]计算得出，即：
[Rd0，…，dN，a1，…，aN=Iωnr+a1，…，nr+aNfd0rfd1r+a1…fdNr+aNdr] （2）
式中：[R?]表示梯度相关函数；[ai=a1，…，aN]代表其他像素点至参考点[r]的位移向量；梯度方向向量[f]的第[di]个元素由[fdi]表示，[di]代表梯度方向向量元素个数，其中[di=d0，…，dN，]且[fd0r]表示像素点的梯度向量函数；[N]代表参数；[ω]代表权重系数。
式（2）表示两种梯度相关性：从位移向量[ai]得到的空间相关性和从元素值[fdi]得到的方向相关性。
为使孤立的噪声点得到有效抑制，将权重系数值设置为最小，则可描述实际梯度自相关函数公式为：
[RN=0d0=r∈Inrfd0rRN=0d0，d1，a1=r∈Iminnr，nr+a1fd0rfd1r+a1] （3）
式（3）代表在参数[N=0，N=1]阶时的梯度自相关特征，[nr]表示像素点梯度函数。
平移不变性是该特征最主要的特点，所以在人体运动行为识别领域中可以应用此方法，时空梯度的[N]阶自相关函数可利用二维的梯度自相关函数进行计算，具体公式如下所示：
[RNa1，a2，…，aN=wmr，…，mr+aN? hr?…?hr+aNdr] （4）
式中：[w]表示时空区域内的权重系数值；[mr]表示空间时域内的梯度向量；[hr]表示梯度编码向量；[?]表示向量张量外积。
中老年人不同种类的下肢运动行为不仅在时空运动形状上的产生不同，也在运动速度特征上存在差异。数字图像特征可由图像矩实现表述，当数字图像在各个方向发生转换时，图像的重心依然不发生改变。因此，能够求解出运动图像中的人体重心，依据重心点的移动位置计算垂直和水平方向的速度特征值，将该速度特征当作运动图像中的运动特征。具体图像矩可作如下定义：
[Mx_order，y_order=x，yIx，yxx_orderyy_order] （5）
式中：[x_order]代表像素点[x]的矩；[y_order]代表像素点[y]的矩；[Ix，y]表示像素点[x，y]处的像素值。利用图像零阶距[M0，0]代表人体所在图像域面积[A，]则：
[A=M0，0=x，yIx，y] （6）
则运动目标重心[x，y]根据下列公式计算：
[x=M1，0A=x，yIx，yxA， y=M0，1A=x，yIx，yyA] （7）
式中：[M1，0]代表[x=1]阶次图像矩；[M0，1]代表[y=1]阶次图像矩。则第[k]帧图像中人体重心位置是[xk，yk]。
设置人体行为数据集的帧率为[g，]则两帧图像的时间距离为[t=1g，]按照以下公式求解垂直方向[Vyk、]水平方向[Vxk]的瞬时速度和总速度[Vk]：
[Vyk=yk+1-ykt=yk+1-yk?g] （8）
[Vxk=xk+1-xkt=xk+1-xk?g] （9）
[Vk=xk+1-xk2+yk+1-yk2t=xk+1-xk2+yk+1-yk2?g] （10）
式中：[xk+1，yk+1]代表第[k+1]帧图像的人体重心位置；[t]代表时间间隔。
通过上述步骤获取了时空自相关特征和人体运动速度特征向量，为下肢运动图像参数的特征提取识别提供数据支持。
1.2 基于时间域金字塔匹配式运动参数特征提取
作为典型的时间序列数据，人体下肢动作视频数据需要在提取空间特征与时间特征的条件下保全原数据里的空间及时间性质。如果视频数据的时序性丢失，那么不同速度下做出的同一动作可能会出现误判，因此需对视频时间域特征实现进一步提取。
首先利用构造字典训练数据，获得一组能够表征训练数据的整个特征空間超完备的基；再利用构造的字典完成所有数据编码，所有数据通过构造基向量来表征数据；最后，通过编码后的向量提取出视频动作的时域特征。
聚类方法是构造字典最简单便捷的一种方法，其基本原理就是聚类，在特征空间里将数据聚成[K]簇，其中[K]表示给定数值。假设[X=x1，x2，…，xm]是待处理的数据集合， [m]是数据点总量，其中[xi∈Rn，]并引入数据点[μk，]而[k=1，2，…，K，mμk∈Rn，]即[K]个聚类中心点。找到一组数据中心点[μk，]即是[K?means]聚类的最终目的，同时满足全部数据点与中心点[μk]的距离和最小。
所有数据的中心点均可以通过[K-1]编码方式进行描述。将所有待聚类的数据点特征向量[xi]代入一组二元向量集合，[rik∈0，1，]其中[k=1，2，…，K]。判断每一个二元变量[rik]的第[i]个数据点是否属于第[k]个聚类中心，则：
[rik=1，k=k00，k≠k0] （11）
式中：[k0]代表聚类中心[k]的点。定义最终代价函数，计算所有点与其对应的聚类中心点值，可描述为：
[J=i=1mk=1Krikxi-μk2] （12）
式中：[ri]表示第[i]个数据点的二元变量。首先随机选择[μk]的初始值，设定[μk]值不变，[rik]为变量条件对[J]进行优化；设定[rik]值不变，[μk]为变量条件对[J]最小化，重复以上过程直至[rik]值优化完成，实现对[μk]的求解，则：
[μk=irikxinrik] （13）
式中[n]表示迭代过程次数。
本文利用构造字典中的单词表征处理特征向量[xi，]选用局部约束线性编码模型，则：
[C=argminci=1Nxi-Dci2+λli⊙ci2s.t. ITci=1， ?i] （14）
式中：[C]代表特征向量编码集合；[c]为集合中的特征向量；[ci]表示集合中第[i]个特征向量；[D]代表构造的字典集合；[λ]为常量；[li]代表局部性质的变量；[IT]为约束项参数。
时间域金字塔匹配法是将原始数据场景引入到空间域金字塔场景中，再将视频人体下肢动作识别应用到场景中与时间域金字塔进行匹配。
设定需进行对比的两个特征集合为[X，][Y，]针对特征集合存在不同尺度的分割，[0～R]是分割尺度的层级数。假设[HRX]和[HRY]分别是第[R]层两个特征向量[X]和[Y]的直方图特征。分布于区域内的两个向量集合匹配数据交集点为：
[?R=i=12dlminHRXi，HRYi] （15）
式中：[2dl]表示分割区域的数据量；[HRXi]与[HRYi]分别表示两个向量集合在区域[i]的分布数量。
通过不同尺度对特征向量进行分割操作，获取不同时间维度上的特征向量，将其通过时间域金字塔匹配，得到人体下肢运动参数特征向量。
2 仿真实验及结果分析
为有效实现中老年人下肢运动图像参数特征的提取，本文以提取视频图像序列中人体运动速度特征为基础，利用金字塔匹配法对图像特征向量进行匹配后获取下肢运动图像参数，通过以下两个实验验证本文方法的可行性。
实验1：实验给出3幅中老年人不同下肢运动图像，利用本文人体运动速度特征提取法及光流法对图像中下肢运动图像区域进行准确划分，具体实验效果如图1～图9所示。
实验中给出中老年人下肢动作图1，分别利用光流法及本文人体运动速度特征提取法对下肢动作特征进行提取。
图2为利用光流法对下肢运动图像进行处理后的结果，从图中可观察出，虽然对运动状态的特征进行了提取，但图像区域并不是下肢运动特征区域，因此，光流法对运动特征提取效果并不好。
图3为利用本文人体运动速度特征提取法进行的下肢运动特征区域处理效果图，可明确地看出利用本文方法能较为准确地将中老年人下肢运动区域提取出来。
实验给出图4及图7两幅不同的下肢动作图像，运用光流法对两幅图像进行下肢运动区域特征处理，具体如图5和图8所示，可观察出光流法不能准确地提取出中老年人下肢运动的特征区域。利用本文运动速度特征提取法对两幅图像处理后的效果图如图6及图9所示，效果图显示本文方法对下肢动态运动特征提取较为准确，表明本文方法可行性较高。
实验2：为了能够准确地提取下肢运动图像数据，本文利用金字塔匹配法与稀疏二值图像特征数据提取法对下肢运动图像数据实现有效提取，比较两种方法的差异性。实验给出6组图像特征数据，在有限时间内对这6组图像特征数据进行有效参数提取，并输出图像，比较参数提取时间及输出图像质量差异。具体数据如表1所示。
通过表1能够看出实验给出的6组下肢运动图像实验数据，运用本文金字塔方法对图像有效参数提取时间为1 s之内，耗时较少；利用稀疏二值图像数据提取法对有效参数进行处理时，耗时较长，基本在4 s以上，因此对后续图像处理影响较大。另一方面，从输出图像质量来看，比较这两种方法的数据可以看出，利用本文方法输出的图像清晰度较高。因此对比可看出本文方法性能较为优越。
3 结论
人体肢体运动分析在计算机图像处理技术领域中是诸多学者研究的重点问题，本文提出基于图像识别技术对中老年人下肢运动图像参数进行有效提取。首先，将空间运动形状的梯度自相关特征与肢体运动速度特征相结合，求解出梯度自相关函数及运动特征速度函数，为运动图像特征提取奠定数据基础；然后，通过训练图像特征数据构造字典，并通过字典中的单词表征图像特征向量；最后，利用金字塔匹配法实现了对下肢运动图像特征参数的有效提取。
参考文献
[1] 刘雨娇，范勇，高琳，等.基于时空深度特征的人体行为识别算法[J].计算机工程，2015，41（5）：259?263.
LIU Yujiao， FAN Yong， GAO Lin， et al. Human action recognition algorithm based on spatial temporal depth feature [J]. Computer engineering， 2015， 41（5）： 259?263.
[2] 任子良，秦勇，黎志雄.基于扩展卡尔曼滤波的人体行为识别算法[J].电子设计工程，2016，24（2）：15?17.
REN Ziliang， QIN Yong， LI Zhixiong. Activity events recognition algorithm based on extended Kalman filter [J]. Electronic design engineering， 2016， 24（2）： 15?17.
[3] 侯远韶，张瑶.机器视觉中图像分割问题研究[J].洛阳理工学院学报（自然科学版），2016，26（2）：76?80.
HOU Yuanshao， ZHANG Yao. Study on image segmentation in machine vision [J]. Journal of Luoyang Institute of Science and Technology （natural science edition）， 2016， 26（2）： 76?80.
[4] 张生军，吴仕勋，王宏刚，等.无标记手势识别中基于混合特征的手部分割研究[J].重庆交通大学学报（自然科学版），2016，35（5）：185?192.
ZHANG Shengjun， WU Shixun， WANG Honggang， et al. Hand segment using multi?feature fusion method in unmarked hand gesture recognition [J]. Journal of Chongqing Jiaotong University （natural sciences）， 2016， 35（5）： 185?192.
[5] 纪彬，张建平，周大志，等.一种基于简单特征量信息的快速行为识别算法[J].黑龙江科学，2016，7（17）：1?3.
JI Bin， ZHANG Jianping， ZHOU Dazhi， et al. A fast behavior recognition algorithm based on simple information of characteristic quantity [J]. Heilongjiang science， 2016， 7（17）： 1?3.
[6] 胡荣，罗小青，何尚平.远程视频图像人体运动特征监控仿真研究[J].计算机仿真，2016，33（6）：298?301.
HU Rong， LUO Xiaoqing， HE Shangping. Simulation study on the human motion characteristics monitoring of remote video image [J]. Computer simulation， 2016， 33（6）： 298?301.
[7] 王佳欣，魏涛.基于图像融合技术的运动目标图像识别研究[J].微电子学与计算机，2016，33（8）：158?162.
WANG Jiaxin， WEI Tao. Research on image recognition of moving target based on image fusion technology [J]. Microelectronics & computer， 2016， 33（8）： 158?162.
[8] 徐珩，贺飞越.模板匹配跟踪的哈希增强算法[J].计算机应用与软件，2016，33（7）：167?171.
XU Heng， HE Feiyue. Hash enhancement algorithm for template matching tracking [J]. Computer applications and software， 2016， 33（7）： 167?171.
[9] 许梅梅，肖琼琳，王璐，等.基于空间梯度信息的自适应边缘算法优化[J].计算机工程，2016，42（8）：233?236.
XU Meimei， XIAO Qionglin， WANG Lu， et al. Optimization of adaptive edge algorithm based on spatial gradient information [J]. Computer engineering， 2016， 42（8）： 233?236.
[10] 鲁雯，崔子冠，干宗良，等.基于空时域特征的视觉显著图生成算法[J].电视技术，2015，39（17）：1?4.
LU Wen， CUI Ziguan， GAN Zongliang， et al. Visual saliency map algorithm using spatiotemporal features [J]. Video engineering， 2015， 39（17）： 1?4.