基于移动端和PC的双端听障康复训练系统研究
张淑艳+赵剑+史丽娟+邹凤华+谷赫
摘要:文章提出了一种新型的听障儿童语音康复训练系统。该系统通过采集多通道语音反馈数据训练神经网并建立康复系统的桌面端和移动端,听障儿童通过移动端进行阶段性训练之后与桌面端进行数据交互,获得新的训练指导,并且为桌面端系统提供数据以持续改善桌面端的性能。桌面端与移动端的数据通信由近场通信技术实现,能够自动进行身份识别数据交互,为两端提供无缝连接。
关键词:听障;康复;移动端
截至2016年全国爱耳日,我国0—6岁听障儿童统计数量达13.7万人。对于多数听障儿童来说,早期诊断和适当的康复训练对他们有很大的帮助。世界卫生组织统计数据表明,超过60%的儿童听力损失都是可以避免或者改善的。我国在听障儿童康复训练方面有相对较大的提升空间,建造一个更合理、能更好地利用当前技术的康复系统是一个迫切的任务。
儿童听障康复训练方面有大量的领域成果,在很多方面都有相对成熟的技术,但是现有的听力康复方法及相关系统受设备和场地限制极大,因为其专业性的要求,听障儿童需要定时到固定地点的训练中心,在专业人士指导下进行康复训练,而多数听障儿童没有条件和精力持续地接受这样的服务,导致虽然有技术能够使他们摆脱不会说话的困扰,但能真正因此而受益的人只占极少的比例。随着科学技术的进步,尤其是物联网、人工智能的发展,使得普及的智能终端能够越来越好地服务人们的生活,使得人们可以利用相关技术改善听障儿童的康复训练的现状。
本文设计了一种新型的康复系统,康复系统主要由两部分构成,一部分由桌面系统构成,称之为桌面端,通过机器学习技术创建出相对庞大的康复训练回馈系统;另外一部分由移动端构成,使用当前较为廉价的移动设备构成的系统,有针对性地提供康复训练,并采集当前训练数据。两部分由近场通信技术连接。利用近场通信技术的优点构造出一个能够方便进行身份认证和数据交换的接口,由桌面端对移动端传回的数据进行分析,求解出适当的训练计划并发送回移动端,听障儿童使用移动端设备进行进一步训练。同时听障儿童的训练数据可以为改善桌面端的系统提供数据支持,整个系统将随着用户数量的增加而不停地进行学习,为整个系统形成一个增强学习的结构,从而在系统运行的过程中得到改善。**
1近场通信技术
近场通信是利用电磁波的近场耦合效应进行通信的技术,与通常的近距离通信技术相比其建立连接的速度非常快,数据传输速度也很高[1]。近距离无线通信技术(NearFieldCommunication,NFC)技术是射频识别(RadioFrequencyIdentification,RFID)技术的改进版,与原有的射频标签技术相比,其牺牲了通信距离提高了联接效率。近年来,随着技术的进步,单个的NFC标签的价格大幅下降,即便是读写设备也在逐渐地走向寻常百姓家,因为比传统的射频标签要便宜很多,所以在生活中的应用也越发地广泛。
在当前的应用中近场通信技术通常来说可以分为3种工作模式:读写模式、智能卡模式和点对点模式。在近场通信的卡模拟方式中NFC设备可以以射频卡的方式与另外的主动读取设备相连接;在主动通信的点对点模式下NFC设备可以与网络互连,或者与其他NFC设备互连构成个人网络,并且在这个短距离网络连接中完成数据共享和网络服务。
因为采用近场通信的方式完成移动端与桌面系统的互联,所以在本系统中采用点对点的NFC通信模式。
2双端系统构造
本文系统由桌面端与移动端两部分构成。桌面端为数据和处理中心,为整个系统提供数据存储和共享,移动端为应用端,参加康复训练的人可以带着移动端随时随地进行训练课程。
桌面端构造为系统的主要部分。在创建系统的时候首先采集数据,数据建模为三维会话头像,并且使用多通道信息表示语音与语音的提示。数据采集时使用三维动态捕捉系统,同步采集说话人的音频数据与视频数据。通过对连续发音的说话人进行正面和正交侧面的录像,采集说话人的连续发音动作,获取说话人面部发音器官变形的数据,然后,确定控制各个发音器官运动控制特征点,建立声带震动信息的获取和反馈模型,如图1所示。
说话人发出特定语音的时候,系统采集到他的头像的视频数据与声音数据,对应存储起来。将此数据表示成向量,并且用之训练神经网络,用以解决分类问题[2]。
我们用数据来表示通过多通道三维视觉系统采集到的实验数据,其中,是一个向量,在其中按顺序对应存储声音视频,以及震动信息的数据,
储对应的声音文本标记。数据为了表示和计算上的方便,数字化之后合并为一维特征向量来表示。
使用神经网对数据进行分类[34],因为己经有作为文本标记,所以属于有监督的分类学习。神经网训练流程如图2所示。
通过神经网的训练,做成语音信息、视频信息、震动信息与文本的对应。训练出来的系统可以对听障儿童的语音进行识别和分类,判断听障儿童在特定语音发音的准确程度。这是一个典型的分类训练。我们把获得的实验数据进行10折交叉验证,在开源的机器学习平台TensorFlow上进行训练,然后将训练完毕得到的求解器移植到移动设备上。在移动端开发对应的康复训练应用,移动端的应用系统得到桌面端的训练数据之后,就可以根据相应的数据进行语音识别,识别并给出矫正语音的提示。
在移动端的应用会先给听障儿童一个标准语音、对话视频、震动的演示,然后收集听障儿童的语音与视频信息,将收集到的数据放到识别系统中进行分类,判断多大程度上属于某个特定的标准发音,对应给出特定的训练指导。当听障儿童的发音属于特定识别区域之后,也就说明了听障儿童的这个发音基本上达到了训练要求,进行下一个语音的训练。几个临近分类方法的示意如图3所示,使用分类算法将在一个超平面上的向量分类,通过神经网络的反馈,将欧氏距离临近的向量分配到不同的集合中。
3系统的连接
系统由桌面端和移动端构成,双端的连接由近场通信技术来实现。使用NFC技术可以方便地实现从用户身份识别到数据传输的过程。使用点对点的通信模式,利用移动设备与桌面设备之间的NFC传感器,利用简单的NFC数据交换格式(NFCDataExchangeFormat,NDEF)協议和逻辑链路控制协议编写程序,实现双端系统的默认连接,只要靠近通信距离,就将自动进行身份识别和程序连接,桌面端将收集用户资料,以及用户训练数据。当用户的训练达到本次课程的训练水平之后将给出新的训练课程,而从用户端传回的数据将用于桌面端神经网络的增强学习,改进桌面端系统的训练水平。
从短距离无线数据传输的角度出发,将数据采集端的信息通过无线方式传输给云端,通过云来进行数据处理,将处理结果返还给终端,终端显示评估结果。这样操作方便,终端只需要有传感器(摄像头、麦克等基本的获取数据的终端就可以,不需要有复杂的数据处理装置)及无线数据传输装置就可以,携带方便,易于安装,系统框如图4所示。
4结语
提出了一种新的听障儿童康复训练系统,通过桌面端、移动端以及双端之间的近场通信系统将两端连接到一起,为缺少专业指导的听障儿童能够便捷地应用康复技术。其中的移动端负责为听障儿童提供训练课程,并给出视频音频和震动的反馈。其中的桌面端在创建的时候采用机器学习的方法训练系统,移动端在判断听障儿童发音是否标准的时候采用的就是桌面端的训练结果,而移动端向桌面端传回数据的同时也为桌面端的增强学习提供了数据。
[参考文献]
[1]NFCForum.NFCdigitalprotocoltechnicalspecification1.0[S].2010.
[2]徐昕,贺汉根.神经网络增强学习的梯度算法研究[J].计算机学报,2003(2):227-233.
[3]罗可,林睦纲,郗东妹激据挖掘中分类算法综述[J].计算机工程,2005(1):3-5.
[4]陈方,高升语音识别技术及发展[J].电信科学,1996(10):54-57.