基于广义回归神经网络的面罩语音矫正研究

王霞+刘婕+王光艳+王蒙军



摘 要: 为了提高面罩语音的清晰度和可懂度,提出一种基于广义回归神经网络(GRNN)对线谱对(LSP)参数进行非线性建模的面罩语音矫正方法。分别提取正常语音和面罩语音的LSP参数,其次利用LSP参数对GRNN进行训练,得到矫正模型,将面罩语音的LSP参数通过矫正模型进行修正,并将结果作为参数用来合成新的语音。实验结果表明,利用GRNN训练出的矫正模型能够有效地调整面罩语音的LSP参数,在一定程度上能够恢复其频谱分布。
关键词: 面罩语音; 线谱对; 广义回归神经网络; 语音合成
中图分类号: TN912.3?34 文献标识码: A 文章编号: 1004?373X(2017)17?0060?04
Research on mask speech correction based on generalized regression neural network
WANG Xia1, LIU Jie1, WANG Guangyan2, WANG Mengjun1
(1. School of Electronics and Information Engineering, Hebei University of Technology, Tianjin 300401, China;
2. School of Information Engineering, Tianjin University of Commerce, Tianjin 300401, China)
Abstract: In order to improve the clarity and intelligibility of mask speech, a mask speech correction method based on generalized regression neural network (GRNN) for nonlinear modeling of line spectrum pair (LSP) parameters is proposed. The LSP parameters of normal speech and mask speech are extracted respectively, and then used to train GRNN to obtain the correction model. The LSP parameters of mask speech are modified based on the correction model, and its results are used as parameters for new speech synthesis. The experimental results show that the correction model trained by GRNN can adjust the LSP parameters of the mask speech effectively, and recover the spectral distribution of the mask speech to a certain extent.
Keywords: mask speech; LSP; GRNN; speech synthesis
0 引 言
消防員在佩戴防毒面具的情况下,由于面罩体积小和封闭的物理特性,发出的声音通过面罩后变得发闷,带有鼻音色彩和呜呜声,称之为“面罩语音”。面罩语音给人们的救援行动带来了交流上的阻碍,由此出现了矫正面罩语音这一课题。
国内外针对面罩语音的研究较少,但其他类型的畸变语音(如氦语音、耳语音)的转换方法同样具有参考价值。在处理畸变语音的过程中,以合成语音模型为出发点,重点研究如何修正特征参数。文献[1?2]利用线性预测模型恢复耳语音和氦语音。之后,人们为了使重建的语音更贴近实际语音,开始研究用各种非线性的方法来修正特征参数。文献[3?4]尝试用神经网络对语音特征参数进行非线性建模。文献[5]为了使矫正后的频谱分布和共振峰带宽更加符合语音实际转换的非线性要求,加入扩展因子的双线性变换函数分段处理耳语音的频谱。文献[6]提出一种完全参数化的双线性频率翘曲与振幅缩放结合的语音转换方法,较传统基于高斯混合模型的方法,转换的语音质量有了显著改善。文献[7]以正常语音的频谱包络为转换目标,将受限玻尔兹曼机作为谱估计模型,利用深度学习技术重建语音,实验结果表明,深度学习技术能提高重建语音的质量。
本文选择在合成语音模型中更为强健的LSP作为特征参数,利用具有强大非线性学习能力的GRNN模型对LSP进行修正。
1 面罩语音特性
面罩语音的产生是由于声音在面罩腔体内传播时发生了吸波、反射、共振等现象。本文从时域波形、短时能量、基音周期以及短时频谱方面综合观察面罩语音的特性。
选用样本语音“语音信号增强”,分别在正常环境下和佩戴封闭式面罩的条件下录取正常语音和面罩语音。图1,图2是正常语音和面罩语音的时域分析和频域分析的对比,其中,图2用到的浊音帧和清音帧均从样本语音中选取。
为了更好地研究面罩语音,将其特点归结如下:
(1) 基音频率不变。从时域波形和短时能量可以明显看出面罩语音的有话段和无话段界限,并且与正常环境下的语音一致。从基音周期的对比中可以看出,面罩语音的基音频率几乎保持不变。
(2) 低频分量增加,高频分量减少。短时能量的下降解释了面罩语音在听觉上变得发闷的原因。从浊音帧和清音帧的频谱分析中可以看出频谱分量重新分配的特点是低频分量增加,高频分量减少。
2 语音特征参数的提取
2.1 线谱对分析
线谱对(Line Spectrum Pair,LSP)是线性预测(LPC)系数在频域中的另一种表达,也同样包含了共振峰中心频率和带宽的信息,因此,可以通过调整LSP参数达到矫正语音的目的。其次,LSP小的系数偏差带来的谱误差只是局部的,能够确保合成滤波器的稳定性。
2.2 LSP参数的求解
设阶线性预测合成滤波器为:
(1)
线性预测逆滤波器的阶对称和反对称实系数多项式如下:
(2)
(3)
设的零点为的零点为且满足:
(4)
由式(1)~式(3)可得:
(5)
(6)
最后求出的和则是与LSP参数对应的线谱频率(Line Spectrum Frequency,LSF),它们决定于已知的LPC系数。
声道幅度谱的特性在一定程度上可以通过LSP参数来反映,在参数分布集中的地方幅度大,反之较小。一对通常代表一个共振峰,在调整某个LSF参数时,对应的频谱只在附近与原始语音频谱有差异,而在其他频域变化很小[8]。这一性质为选择LSP作为修正参数和重建语音参数提供了理论基础。
3 基于GRNN神经网络的LSP参数矫正模型
3.1 GRNN神经网络
实际上,人的发音过程是十分复杂的,是非线性的。广义回归神经网络(Generalized Regression Neural Network,GRNN)是由径向基神经元和线性神经元组合而成的四层前向神经网络,具有很强的非线性映射能力和高度的容错性。相较BP和RBF神经网络,GRNN的逼近能力和学习速度有更强的优势,并且结果是全局收敛的,在样本数据较少时,预测结果也较好[9]。
GRNN由四层神经元构成,分别为输入层、模式层、求和层和输出层。其中输入层神经元的数目等于学习样本中输入向量的维数,即单样本LSP的阶数;模式层神经元数量与学习样本数量相同,即取决于有多少帧LSP样本,模式层传递函数为径向基函数,常用的是高斯函数;求和层中使用两种神经元分别进行相应算法的求和;输出层将求和层的两个结果相除,得到预测值。
GRNN模型的Matlab构建代码为net=newgrnn(SPREAD)。其中,和分别为输入向量、目标向量,SPREAD为径向基函数的扩展系数。SPREAD值越小,网络对样本的逼近性能越强;系数值越大,逼近过程越光滑,但同时也会加大计算上的难度,可人为调节让网络达到最佳性能,针对本文的样本,选择最优SPREAD=0.2。
3.2 矫正模型的构建
本文引入GRNN模型构建面罩语音LSP参数的非线性矫正模型,进而恢复面罩语音。
训练模型的流程图如图3所示,具体步骤如下:
(1) 对面罩语音和正常语音分别做预处理、端点检测,找出有话段语音;
(2) 提取面罩语音和正常语音的LPC参数并转换为LSP;
(3) 通过动态时间规整网络,将LSP参数规整为统一帧数;
(4) 将面罩语音的LSP参数作为GRNN模型的输入样本,将正常语音的LSP参数作为GRNN模型的期望输出样本,试验并设置最佳模型参数,训练模型。
将面罩语音的LSP参数通过训练好的面罩语音矫正模型得到矫正后的LSP参数,通过LSP参数合成滤波器重建语音,如图4所示。
4 实验过程和结果分析
在正常环境下录取若干纯净语音,在佩戴封闭式防毒面具的条件下录取对应的面罩语音,将这些正常语音和面罩语音作为实验样本。选用自录单汉字语音作为实验语音样本,采样频率均为8 000 Hz,帧长为30 ms,帧移为10 ms,LSP阶数为10,并且选取窗长为256点的汉明窗分析语音。
10个正常语音样本经过动态时间规整后,得到400帧LSP参数,一帧包含10个LSF,将它们作為训练模型的输入,对应的面罩语音样本经过同样的处理作为输出。通过图5可以看出,矫正后LSP参数更接近正常值。
图6是语音“受”的正常语音、面罩语音以及用本文方法矫正后语音的语谱图。对比语谱图可以看出,矫正后语音的频谱分布发生改变,高频分量部分适当增加,低频分量部分适当减少。
用语音质量客观评价方法来评判本文方法对面罩语音是否有矫正作用。分别计算矫正前、后语音与正常语音之间的对数谱距离(Log Spectral Dstance,LSD),计算结果取平均由1.756降低到1.522,表明矫正后语音的频谱与正常语音的频谱更相近。对数似然比测度(Log Likelihood Ratio Measure,LLR)也是一种频谱距离的计算,主要强调对频谱包络相似度的评判,通过计算取平均的过程得出LLR从1.431降低到0.866,表明矫正后频谱相似度提高,而在利用BP神经网络模型构建矫正模型的实验结果中,LLR仅降低到0.918。在收敛速度上,本文的方法也更快,仅需要10.9 s,而利用BP神经网络模型的矫正方法需要150 s。
从结果分析中可以得出,利用GRNN模型调整LSP参数的方法不但可以有效得到矫正面罩语音,而且在效果和速度上都有一定的优势。
5 结 语
本文以探索面罩语音的语音特性为起点,研究面罩语音的畸变规律,引入GRNN模型作为研究的工具。从语音质量客观评价方法的比较中可以看出,矫正后语音的频谱相似度明显提高。从语谱图上也可以看出,利用本文方法可以在一定程度上改变面罩语音的频谱分布,但是矫正后语音的频谱出现了误差分量。最优的实验样本需要正常语音与畸变语音严格一致,包括声调、语速、音调等,但是由于客观条件,录音时并不是同时进行,本文方法是应对动态规整实现这一需求,但对于后续合成语音并不是最佳的解决方式,并不能使本文方法的有效性达到最大化,这也是实验中出现误差的根本原因,归根结底,研究并发现面罩语音的畸变规律才是解决面罩语音的根源,也是未来研究工作中的首要任务。
参考文献
[1] MORRIS R W, CLEMENTS M A. Reconstruction of speech from whispers [J]. Medical engineering & physics, 2002, 24(7): 515?520.
[2] 张勇,赵晓群.基于线性预测模型的氦语音增强算法研究[J].声学技术,2007,26(1):111?116.
[3] 韩韬,陶智,顾济华,等.基于BP神经网络的耳语音转换为正常语音的研究[J].通信技术,2009(2):152?155.
[4] TAO Z, TAN X D, HAN T, et al. Reconstruction of normal speech from whispered speech based on RBF neural network [C]// Proceedings of 2010 the Third International Symposium on Intelligent Information Technology and Security Informatics. Jian, China: IEEE, 2010: 374?377.
[5] 陶智,赵鹤鸣,谈雪丹,等.采用扩展型双线性变换法将耳语音转换为正常语音的研究[J].声学学报,2012,37(6):651?658.
[6] ERRO D, NAVAS E, HERNAEZ I. Parametric voice conversion based on bilinear frequency warping plus amplitude scaling [J]. IEEE transactions on audio speech & language processing, 2013, 21(3): 556?566.
[7] LI J J, MCLOUGHLIN I V, DAI L R, et al. Whisper?to?speech conversion using restricted Boltzmann machine arrays [J]. Electronics letters, 2014, 50(24): 1781?1782.
[8] 宋知用.Matlab在语音信号分析与合成中的应用[M].北京:北京航空航天大学出版社,2013.
[9] 贾义鹏,吕庆,尚岳全.基于粒子群算法和广义回归神经网络的岩爆预测[J].岩石力学与工程学报,2013,32(2):343?348.