《分形理论在语音信号端点检测及增强中的运用》-工学论文，计算机论文-论文范文参考-科学狗论文网

标题

分形理论在语音信号端点检测及增强中的运用

范文

曾剑飞+何律君

摘要：文章针对语音信号端点检测与增强中分形理论的运用，从分形理论特征、实际内容以及实验几个方面展开了分析，目的在于总结最为合适的端点检测方法。

关键词：分形理论；语音信号端点检测；增强

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2018）02-0154-02

近几年，我国语音信号处理技术逐渐提升，尤其是低信噪比基础上的语音信号处理，已经在相关领域成为一个主要的研究课题。对于此，诸多专业人数已对其展开了研究，并且提出了一些带噪语音信号处理技术。在语音信号处理技术发展的影响下，非线性处理方式也得到重视，对带噪语音信号进行处理的过程中，语音信号、噪声信号模型参数主要是以相应的语音段、噪声段得到明确。所以在判断语音、非语音段方面，则成为语音处理系统中一个最为重要的问题，也就是所谓的带噪语音信号端点检测。

1 分形理论概述

针对分形理论，以往的理解都带有一定的不规则性，一般是对“因为整体通过某种形式相似的部分构成的一类形体”、“Harsdorff维数超过拓扑维数集合”进行表示[1]。但是，在某一角度来说，并没有专业学者对分形理论进行严格的定义，只是简单的提出了描述性的说法，即带有某些性质的集合，其中主要体现了以下几个特点：第一，分形具有自相似性；第二，分形结构的精细性：第三，分形维数大于其本身拓扑维数；第四，分形可以利用迭代递归形成。具体如下：

1.1 分形具有自相似性

所谓自相似性，即整体和部分，不管是形态、作用，还是信息，都体现了非常强的相似性。对分形对象集合尺寸进行合理的缩小或扩大，也不会对原结构造成改变。

1.2 标度带有不变性

标度具有不变性，这一点是分形集独有的特点，指不管怎么变形测量对象尺度如何改变，都不会使测量对象性质出现变化[2]。然而，需要将数学模型排除在外，针对带有实际分形集的测量对象，这种标度不变形只能够在一定范围内加以使用。通常来说，标度不变性适用空间被成为分形体无标度区间，相关人员需要根据研究对象所体现的实际性质，对判定无标度区间切实范围进行明确。

1.3 分形维数

形成分形维数主要是利用分形标度关系，获取实际的定量数值，这样一来能够将普通拓扑集维数是整数这一问题进行拓展，使维数有整数范围扩大到分数。同时，其中也体现了分形维数的其他特点，重点表现为以下几个方面：第一，分形维数与尺度之间无联系；第二，分析维数本身是相对量；第三，分析维数大小充分直接关系到空间中轮廓的不规则性、繁琐性，以及在空间内的满足程度。一般来说，维数越小，那么所体现的细节越少，其位数也就越大。

2 分形理论在语音信号处理中的运用

将分形理论运用于语音信号处理，主要分为三个部分，即语音分割、语音合成和端点检测。那么接下来就对这三个部分进行简要分析。

2.1 语音分割

因为人耳的听力在语音高频部分所体现的分辨率，一般会低于低频部分，但是清音段是语音高频非常关键的构成部分，在听觉角度分析，其实并不存在严重的影响，因此，相关人员需要在语音信号处理期间，定期对语音实施清浊音分割[3]。这二者之间本身体现了一定的不规则性，相关人员可以对分维值进行测量，以此对清音、浊音进行分割。

2.2 语音合成

在语音信号处理中，语音合成也是其中必不可少的内容之一，为未来的发展直接关系到语音编码。因为语音信号本身带有自相似性特点，其主要表现在其中某一结构特点处于不同时间、空间尺度中，带有相似性。尽管语音信号时域波形体现了分形的特点，但是却并非是完整的分形，通常只是在某一领域中出现分形特点。根据这一点，可以按照IFS 理论、拼贴定理对其进行研究与讨论，对语音信号进行划分，使其成为不重叠小区间序列，在这之后，便可以得到随意一帧IFS 三个参数，这样一来便可以对数据进行压缩。相关人员对语音进行合成期间，使用已经得到的 IFS 参数，将其重复迭代，直至收敛到 IFS吸引子为止，如此便可以获取需要的语音信号。

2.3 端点检测

所谓端点检测，即针对初始声音信息数据中所包含的纯粹语音段，对局部进行准确的定位，从而获取需要的语音单位起止点，这一点也是本文分析与讨论的要点。通常，所获取的语音单位并不局限于一点，既可以是词，也可以是音节和音素等。对端点进行检测时，因为其本身是语音信号处理这一工作的重点，所以需要保证其准确性，这也与最后语音特征的提取、可行性的体现有直接关系[4]。通过实际实践可知，其实两个相邻的音素分维值之间，带有好很大的差异性，分维轨迹也可能会出现突变的现象，针对这一点，相关人员也要按照这一特点，对相对门限值进行确定。若其中一帧语音分维值相比这一相对门限要低，那么便可获取这一帧起始语音和这一帧之前的语音，了解到这二者音素不同，这样一来便完成了语音音素分割，进而实现对端点的有效检测。

3 语音信号短时分形维数计算

分形维主要是对分形特点进行描述的参数，同时也是分形信号中十分关键的特征参数。通过分形方法的运用，能够使维数由整数扩张至分数，这也将传统拓扑维数是整数的限制打破。对于分形维的定义其实比较广泛，一般比较常见的主要有以下几种：计盒维数、关联位数、信息维数。本文主要以计盒维数为例展开计算。

对于计盒维数的定义，相关文献中对其进行了规定：n维欧式空间子集F的计盒维数DB，具体定义如下：

[DB=linδ→0lnNδ（F）ln（1/δ）]，[log（Nδ（F））∝DBlog（1/δ）] （1）

在公式（1）中，[Nδ（F）]代表以邊长为[δ]的网格对F需要的最小正方形数量进行覆盖。实践过程中，一般可以利用多点直线拟合的方式对DB进行计算。公式如下：

[DB=i=1MlogNδi（F）i=1Mlog（1/δi）-Mi=1M（logNδi（F）log（1/δi））i=1Mlog（1/δi）2-Mi=1M（log（1/δi））2] （2）

在公式（2）中，[δi]代表M变化的尺度，i=1，2，3，…，M。

对公式（2）进行分析，使尺度变化是[δi+1]-[δi]=[δ]（[δi]=i[δ]，i=1，2，3，…，M），将其带入到公式（2）中，从而获得公式（3）：

[DB=MI=1MlogNδilogi-i=1MlogNδii=1MlogiI=1Mlogi2-MI=1M（logi）2] （3）

4 带噪语音信号端点检测

对带噪语音信号端点进行检测，可以先假设x（i）为带噪语音信号时间序列，s（i）、n（i）则是语音信号、加性白噪声时间序列，以此便可以得出信号模型，即

[x（i）=s（i）+n（i）] （4）

对语音端点进行检测主要是为了在数据x（i）的测量过程中，对语音段s（i）起止点进行判断[5]。因为语音段中，带噪语音信号x（i）体现了规则性和周期性的特点，换而言之，即语音段信号分形维维数与非语音段分形维二者相比较，前者比较小。所以，其实可以通过信号短时分形维数变化状况对语音信号端点进行检测。

在实际仿真实验中，主要使用的是之前完成录制的语音信号“你好”，采样频率为22050Hz，所有样本都是以16bit实现量化。在10～20ms期间，语音信号十分稳定，因为后期需要对计算量进行简化，所以将帧长控制在300点，所有相邻帧之间无重叠，共计100帧，且有分帧需求时主要以矩形窗为主。通过实际实验可知，录制好的“你好”语音波形中，已经被加性被噪声所污染的语音信号所体现的信噪比为0db，带噪语音信号分维值中，可以清楚地了解到，噪声段与语音段交界处的分维轨迹有突变点。正因为如此为带噪语音信号端点检测提供了便利。通过试验也可以了解到，噪声段分维值通常要大于语音段分维值。

5 以端点检测为前提的谱相减语音增强方式与仿真结论

5.1 以端点检测为前提的谱相减语音增强方式

在语音信号处理和识别系统中，语音增强是其中非常关键的构成部分，进行语音增强，主要是为了将语音质量进行提高，将语音汇总的噪声消除，使语音更加自然。谱相减法和改进型方式因为其本身的计算量比较小，在实际计算过程中比较容易实时实现，所以在语音增强工作中十分常见。但是使用当前所现有的谱相减法对语音信号进行处理的过程中，有时信号处理的效果十分不理想，特别是信噪比低的时候，效果更差。一旦傅立叶出现反变换，那么便会在个别频带处出现残留的噪声。为了将这一问题合理解决，需要总结之前工作的经验，并且综合考虑其他带噪语音信号端点检测方式，以此提出以端点检测为前提的谱相减语音增强算法。

对于语音段、噪声段交界处可以使用分形维进行检测，因此针对带噪语音信号便可以实现分段处理。

[|S（ejω）|γ=X（ejω）|γ-α|N（ejω）|γ，当|X（ejω）|γ-α|N（ejω）|γ>β|N（ejω）|λ时β|N（ejω）|γ，其他] （5）

在公式（5）中，[X（ejω）]、[S（ejω）]、[N（ejω）]是观测信号x（i）、s（i）、n（i）在FFT变换之后，从而获得的数据，α、β使经验数值。针对噪声段而言，为了能够将噪声有效抑制，需要取比较大的α值，将β=0。针对语音段而言，需要在保证语音不失真的基础上，尽最大可能抑制噪声，如此一来，便要取比较小的α值，相反β值要比较大。

5.2 仿真结论

此次方针，依然使用之前“你好”你好，是两个发音？

根據谱相减法原理流程处理带噪语音信号。选择适当尺寸的窗、α、β、γ，针对噪声谱要按照之前使用的端点检测法，对噪声段平均值进行检测。经过反复几次仿真试验可知，对语音段进行处理时，分别将α、β、γ数值设置为1.5、0.01、1，而窗函数则依然为直角窗，将每段噪声的长度设置为帧长度。

通过对仿真试验最终呈现的效果可知，带噪语音信号的RSNR是0，并且通过这一实验证明，端点检测法体现了非常好的效果，增强之后的语音信号在包络形状上，非常完整的维持了原来的语音信号特点，并且将信噪比提升。通过处理前后语音信号信噪比的对比分析可知，一旦带噪语音信号RSNR为-4db，那么所提出的所有方法依然适用于语音信号增强。

5.3 实验结论

在低信噪比环境之下，对语音信号端点进行检测，并且完成语音增强，是语音信号处理工作一直以来需要解决的问题之一。以往对这两点问题进行解决时，需要是以高信噪比为前提，进行语音信号端点检测以及增强，这种方式无法满足现如今所体现的技术需求。基于此，通过对传统检测方法的分析，在分形维、谱相减两种方法的基础上，提出了新的语音信号端点检测与增强方法，并且将此方法进行仿真实验，实验结果表明，这一方法的可行的，且实验过程中涉及的计算量也比较合理。所以实用价值比较高。然而这一方法在使用的过程中，需要端点检测保证非常高的准确性，一旦信噪比不足-5 dB，所体现的端点检测最终效果准确性可能降低，进而对增强之后的语音效果造成影响，关于这一问题还需要在日后的工作中继续深入研究。

6 结束语

综上所述，在语音信号端点检测及增强中运用分形理论，可以有效减少计算量，但是相应的也对准确性提出了要求，要体现良好的运用效果，依然需要深入分析。

参考文献：

[1] 刘永俊，张立飞，刘巍.面向噪声环境下医疗语音信号端点检测方法[J].常熟理工学院学报，2017，31（4）：75-79+85.

[2] 赵益波，蒋祎，吴礼福，等.基于麦克风阵列自适应非线性滤波的语音信号端点检测方法[J].科技通报，2017，33（4）：199-203.

[3] 陈泽伟，曾庆宁，谢先明，等.基于自相关函数的语音端点检测方法[J/OL].计算机工程与用， 2017，03：1-6.

[4] 王明合，张二华，唐振民，等.基于Fisher线性判别分析的语音信号端点检测方法[J].电子与信息学报，2015，37（6）：1343-1349.

[5] 王建元，陈鹏，栾德福.基于SVD-HHT的低信噪环境语音信号端点检测[J].制造业自动化，2014，36（1）：57-61.

随便看

科学优质学术资源、百科知识分享平台，免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。