在线连续交互式英语语音智能识别系统设计

赵丹+钟楠
摘 要: 英语语音智能识别系统的发展方向是在线、连续性的人机交互,为此,设计在线连续交互式英语语音智能识别系统,并基于梅尔频率倒谱系数设计语音识别函数。系统的参考数据库选取NOSE算法计算语音评价分数并查错,利用专家知识库纠正用户英语语音。系统由语音训练模块和在线连续交互式识别模块组成,前者为系统数据库提供英语语音的语料、音标资源,后者实施系统数据库的评价、纠正工作。实验结果证明设计的系统语音识别率高且识别时间短,有效性强。
关键词: 在线; 连续交互式; 语音; 智能识别系统
中图分类号: TN912.34?34 文献标识码: A 文章编号: 1004?373X(2017)15?0137?04
Abstract: The development direction of English phonetics intelligent recognition system towards the on?line and continuous human?computer interaction, therefore an on?line continuous interactive English phonetics intelligent recognition system was designed. The voice recognition function based on Mel frequency cepstrum coefficient was designed. The NOSE algorithm is selected in system reference database to calculate the voice evaluation score and check the error. The expert knowledge base is used to correct the English phonetics of users. The system is composed of the speech training module and on?line continuous interactive module. The former provides the corpus and phonetic resources of English phonetics for the system database. The latter performs the evaluation and correction for the system database. The experimental results show that the system has high speech recognition rate, short recognition time, and high effectiveness.
Keywords: online system; continuous interaction; voice; intelligent recognition system
0 引 言
英语是国际语言,随着各國间经济、人文、科技等信息交流的不断加深,英语语音智能识别渐渐成为信息技术领域的重点研究对象,其目标是使用机器达成设备与人类之间的语音交互,令设备更加智能化,增加娱乐能力,为不方便进行键盘、鼠标录入的人群提供便利。
英语语音智能识别的目标符合现代化发展脚步,英语语音智能识别系统层出不穷,第一款识别系统名为Audry系统,各项性能比较完善,现已得到极大发展。最近新出的Audry系统利用数据库计算手段从英语基础语法开始对语音的元音和独立词进行识别,识别率高,但识别时间长,只适合进行短小语句识别。1963年,由前苏联设计的端点检测系统使用动态编程实现英语语音识别,系统的实时性不好,对在线、连续性的英语语音识别力不强。此后,著名的贝尔实验室[1]改变了语音识别研究方向,设计出一个语音打印机,将英语语音翻译在设备显示屏上,再进行人机交互,在智能手机中被普遍应用,其功能少但识别精准。从1980年开始,HMM(Hidden Markov Model,隐马尔可夫模型)[2]系统进入到人们的生活中,其结合了Audry系统的计算手段以及语音打印机的人机交互能力并进行改善,从细节语音识别转换成整体语音识别,增进了在线、连续性英语语音信号的平稳性,是语音智能识别历史中的重要里程碑。
显然,英语语音智能识别系统的发展方向是在线、连续性的人机交互,对识别效率要求高,如果能够在最短的时间纠正语音错误,也可以极大提高系统识别率,这是在英语语音智能识别系统设计中的研究热点。
1 在线连续交互式英语语音智能识别系统设计
在线连续交互式英语语音智能识别系统主要由语音训练模块和在线连续交互式识别模块组成,重点设计系统工作流程和模块资源。
1.1 工作流程设计
在线连续交互式英语语音智能识别系统工作流程如图1所示。
系统拥有两个数据库,分别是参考数据库和专家数据库。参考数据库的作用是对用户英语语音进行评价,由英语标准发音特征进行训练。参考数据库使用的语音评价算法是NOSE算法[3],是一种非母语语音的口语评价技术。专家数据库的作用是纠正用户英语语音,它在常见的英语口语发音错误的基础上构建。
系统从用户英语语音中提取特征,用训练成功的参考数据库解码英语语音,使用NOSE算法计算语音评价分数,将分数变更成能够展现出用户英语语音口语质量的评价项目,之后对语音进行查错,最后利用专家知识库纠正用户英语语音。
由于在线连续交互式英语语音智能识别系统一般用于手机和平板电脑,硬件配备不多[4],因此系统的工作流程必须完美实现,并在NOSE算法的计算过程中选取尽可能多的备选语音,制定英语音标顺序,进而减少运算量,节约语音识别时间。
1.2 系统模块资源设计
1.2.1 语音训练模块
语音训练模块为参考数据库和专家数据库提供资源,资源包括英语语音的语料和音标,在线连续交互式英语语音智能识别系统的功能在很大程度上受限于数据库资源,尤其是语料资源[5]。好的语料资源可增进识别结果的有效性,系统要求语音训练模块的语料资源具有广泛性、代表性和一致性三种特点[6]。广泛性要求语料结构类型兼容性强,涵盖大多数的英语口语发音规则。代表性要求语料资源中含有性别、年纪、语速和方言等资源。一致性要求语料标记点具体且详细,能够与用户英语语音对应一致。
组织我国多所不同地域的外国语大学教授录制语料资源,男女人数各50人,每人录制40分钟英语语音,共计2 300句,包含1 600个英语单词。录制结束后对语音中的单词等级进行标记,组成语料资源,表1为录制过程中的英语语音采集标准。
语音训练模块音标资源是英语的48个音标,包括20个元音、28个辅音,元音包括12个单元音和8个双元音。解析音标资源,参考数据库或专家数据库中一同出现3个单词的几率为:
式中:表示单个单词出现的几率;表示2个单词一同出现的几率。式(1)决定着数据库的工作强度。
1.2.2 在线连续交互式识别模块
在线连续交互式识别模块实施系统数据库的评价、纠正工作,模块将进行大量运算,需要处理芯片支持运算。DSP芯片[7](Digital Signal Processing,信号处理芯片)适合处理数字信号,其体积小、价格便宜,适合安装在手机和平板电脑上使用。DSP芯片还具有强大的在线交互能力,处理速度快。在线连续交互式识别模块选择的DSP芯片是OMAP 5912ZZG[8],该芯片内部配置了开发工具,多媒体数据库、DSP操作系统、链桥技术均能够免费使用,图2是OMAP 5912ZZG芯片结构。
图2中,OMAP 5912ZZG芯片存储处理器规格是250 KB的随存随取存储器,作用是对英语语音数据和液晶显示屏的显示数据进行缓冲。内存卡用于进行系统内存扩展,交互式矢量图对音频进行帧缓冲。英语语音在线连续交互的实现由存储处理器完成,它支持多种处理模式。OMAP 5912ZZG芯片能够对英语语音识别任务进行内存分配,并经由以太网接口移植出语音识别函数。在线连续交互式识别模块进行语音识别时,OMAP 5912ZZG芯片的地位是协同处理器,主处理器是用户手机或平板电脑上的微处理器。
2 语音识别函数设计
语音识别函数是在线连续交互式英语语音智能识别系统的基础识别函数,识别流程如图3所示。
语音识别函数的本质是一种梅尔频率倒谱系数,在语音识别中具有能量特征,与音频之间的关系是非线性的,符合人类听觉神经的信号收发特点,识别率高[9]。语音特征处理分为滤波、样本采集、格式变更、信号增大和语音分帧。单元匹配指加窗操作,加窗的作用是平滑语音相邻帧之间的信号。设是窗函数,是帧信号,为帧序列,则可表示加窗后的语音帧信号。窗函数有三种形态,分别是矩形(Rectangular)、汉明(Hanming)和汉宁(Hanning),表示如下:
式中为帧数量。
在线连续交互式英语语音智能识别系统按照用户英语语音特点自动选择窗函数形态。
词性解码与语法解析即为经历傅里叶变换的过程,可获取到语音信号的频率谱线,设是变换后的帧序列,有:
设语音特征处理后的语音能量为经余弦变换后得到语义解析结果:
式(4)和式(5)给出的解析结果中存在一部分无用数据,有用数据主要存在于的区间内,式(6)是删除无用数据后的归一化识别结果:
式中是式(4)和式(5)的归一化结果。
3 实验
3.1 实验介绍
为了对在线连续交互式英语语音智能识别系统的有效性进行分析,本次实验从标准的模式识别数据库中提取语音训练集。训练集为“Continuous online interactive English speech intelligent recognition system is very good”,共11个英文单词。
实验的语音采样频率为20 kHz;语音信号窗选择24维汉明窗,長度是18 ms,分帧243点,帧移75点;语音特征参数的矢量量化为48码,量化后生成一个42×70阶的矩阵;11个单词经训练后都能输出一个语音模型。
图4为实验环境图,为了防止安装于手机或平板电脑上的英语语音智能识别系统受到手机硬件性能的限制无法发挥全部功能,统一在计算机上模拟高端手机硬件性能进行实验。
3.2 实验结果及分析
对训练集的11个单词用本文系统、Audry系统、端点检测系统和HMM系统分别进行实验,实验采用Matlab 6.5软件进行整体管控、输出实验结果。对以上四个识别系统进行的一系列语音处理与识别过程进行参数提取,取得语音模型。进行5次训练,求得5次训练中语音模型的识别率平均值,实验结果如表2所示。表3是四个系统语音识别时间平均值对比表。
从表2中的数据可以看出,本文系统的语音识别率明显高于端点检测系统和HMM系统,与Audry系统的语音识别率相差不大。由于表2中的实验数据过多,不方便分析,对原始实验结果的本文系统数据和Audry系统数据进行处理,合并单次训练中的语音识别率,求取平均值,将语音识别率的平均值描绘成折线图,以便于分析,如图5所示。为了增加对比结果的说服力,本文在绘制折线图时缩小了纵坐标的数值差距。
从表3中可以看出,端点检测系统的语音识别时间最长,Audry系统无明显优势,本文系统和HMM系统的语音识别时间都很短,本文系统更胜一筹。
从图5中可以看出,本文系统的折线图位置要比HMM系统的折线图位置偏高一些,语音识别率更好一些。
综合分析语音识别率和语音识别时间的实验结果可知,本文设计的在线连续交互式英语语音智能识别系统的语音识别率高且识别时间短,有效性强。
4 结 论
本文设计了在线连续交互式英语语音智能识别系统,依次介绍了系统的工作流程、模块资源和识别函数。实验采用Matlab 6.5软件验证系统的有效性,对比了Audry系统、端点检测系统和HMM系统,对比结果表明,本文系统具备较强的有效性。
参考文献
[1] 商雄伟,张志祥,邱舒婷.一种通用的限定领域智能语音导学系统设计方法[J].计算机工程,2016,42(6):299?304.
[2] 胡丹,曾庆宁,龙超.调制域谱减法用于鲁棒性语音识别[J].科学技术与工程,2016,16(4):216?220.
[3] 马英,陈超,张凌飞,等.感觉加权滤波在安多藏语特征提取中的应用[J].科技通报,2016,32(8):207?209.
[4] 刘荣辉,彭世国,刘国英.基于智能家居控制的嵌入式语音识别系统[J].广东工业大学学报,2014,31(2):49?53.
[5] 马英,陈超,贾国庆.基于LPC的藏语语音基音周期的检测分析[J].现代电子技术,2015,38(16):13?15.
[6] 刘增锁,师胜利,王静红.基于交互的软件模型研究[J].现代电子技术,2016,39(15):119?122.
[7] 周璐璐,邓江洪.一种机器人智能语音识别算法研究[J].计算机测量与控制,2014,22(10):3267?3269.
[8] 吕淘沙,汤汶,万韬阮,等.增强现实交互技术在历史博物馆中的应用[J].西安工程大学学报,2015,29(6):728?732.
[9] 马莎莎,戴曙光,穆平安.基于短时能量的循环AMDF基音检测算法[J].计算机仿真,2014,31(7):278?282.