背景音乐自动分离系统设计与实现

陈洁



摘 要: 为了解决广播中背景音乐的提取、分离和鲁棒识别,考虑到广播语音中背景音乐的类型稳定性和说话人的不确定性,提出一种说话人无关背景音乐类型相关的语音和背景音乐分离算法,为了更好地分离音乐背景与语音信号,设计并实现了一个级联系统,即音乐背景下的语音活动检测系统加语音和背景音乐分离系统。针对实际的广播语料,采用一种全监督的方法提取背景音乐,实验数据表明,该系统在一定程度上能够提升背景音乐和语音的识别率。
关键词: 音频信号分离; 鲁棒语音识别; 非负矩阵分解; 语音活动检测
中图分类号: TN911.7?34, TM417 文献标识码: A 文章编号: 1004?373X(2017)05?0134?05
Abstract: To solve the problems of background music extraction, seperation and robust recognition on the radio, a voice and background music seperation algorithm independent of speaker and relevant with background music types is proposed accor?ding to the types stability of the background music and speakers′ uncertainty in broadcast voice. In order to better seperate the background music and voice signal, a cascade system was designed and implemented, which combines the voice activity detection system with speech and background music separation system in the music background. Aiming at the practical broadcast corpus, a method with entire supervision is used to extract the music background. The experimental data show this system can improve the recognition ratio of background music and speech to a certain extent.
Keywords: audio signal separation; robust speech recognition; non?negative matrix factorization; voice activity detection
随着科技的发展,背景音乐被应用到越来越多的场景当中,人们希望背景音乐识别可以在任何复杂场景中都可以发挥作用,所以如何消除背景音樂以外的干扰对背景音乐识别系统的影响就成了一个很重要的课题[1]。基于此,本文要实现的目标即为去除广播语料中的语音信号,减小其对背景音乐识别系统的影响。
1 基于非负矩阵分解的语音和背景音乐分离系统
1.1 音乐类型相关说话人无关的语音和背景音乐分离系统
根据处理的背景音乐所具有的特点,给出了一种基于NMF的音乐类型相关说话人无关的语音和背景音乐分离系统,即本系统是一个半监督算法[2]。该系统的创新点在于,相对于已有的语音和背景音乐分离算法,本算法不仅考虑了语音的稀疏处理,也考虑了背景音乐的暂时连续性。该系统的结构框图如图1所示。
训练阶段,使用相应音乐类型的纯净信号训练得到音乐的基本矢量[Wm。]在分离阶段,首先通过STFT得到混合信号的幅度谱[V,]即得到了用于NMF的待分解矩阵[3]。为了更好地利用已有的先验信息从而得到更好的分离效果,本系统考虑了语音的稀疏性和背景音乐的暂时连续性,并把它们作为先验信息加入到NMF的分解过程中。分解之后得到了语音的基本矢量和其相对应的权重矩阵[Ws]和[Hs,]音乐基本矢量对应的权重矩阵[Hm,]通过图1中的式子即可得到估计语音的幅度谱,进而得到其时域信号。
1.2 基于非负矩阵分解的背景音乐类型建模
考虑到所用的训练数据较多(一类音乐),为了使训练过程更有效率,本算法使用基于样本的训练方法。具体实施过程如下:
(1) 对长度为30 s的每一段训练数据(没有静音部分,全部为音乐)分别做STFT得到每一段的幅度谱。
(2) 将每一段的幅度谱放在一起构成一个很大的矩阵,作为训练结果保存起来。
(3) 在确定了NMF的秩,语音和音乐基本矢量的个数之后,随机的从训练结果的矩阵中选取和音乐基本矢量相同个数的不同帧的幅度谱,组成音乐的基本矢量。虽然随机选择可能会给分离性能也带来一定的随机性,但幅度谱仍然可以保留该流派音乐的一些特征。
1.3 语音的稀疏性和背景音乐的暂时连续性
式中[?]为[α]的0范式。在实际应用中由于0范式的优化问题是一个非凸问题,一般将0范式的优化问题转化为1范式或2范式,而2范式的优化由于算法简便更是经常被采用,1范式的优化问题则发展出了压缩感知算法[4]。
对于语音信号来说,大部分情况下也可以将其幅度谱做稀疏化[5]表示,即一帧信号的幅度谱[V]可以用式(2)的方法稀疏表示:
在系统提出的算法中,语音的稀疏性是通过对语音的基本矩阵对应的权重矩阵增加稀疏性来实现的,通过在优化目标函数中对稀疏性增加惩罚因子达到在优化过程中保证语音权重矩阵的稀疏性[6]。
本文提出的算法针对语音和音乐信号分离这一目的,稀疏性只加在了[Hs]上,具体实现方法如下:
式中:[σi]为[Hs]第[i]行的标准差;[hi,j]是[Hs]第[i]行第[j]列的元素;[rs]为语音基本矢量的个数,由于采用的是半监督算法,所以该值是确定的。
暂时连续性也是在处理音频信号时经常使用的一种先验信息。一般来说,语音信号被认为是准稳态的,在一段时间内其频谱特性被认为是稳定的,即在这段时间内语音信号的各种特性是暂时连续的,这也是在语音信号处理中帧长一般取10~30 ms的原因[7]。基于以上分析,本算法提出对音乐信号增加暂时连续性的限制,通过对NMF中音乐信号的权重矩阵相邻两列系数的变化增加惩罚因子以保证优化结果中其相邻两列的系数变化比较小,具体实现方法如下:
式中[rm]为音乐基本矢量的个数,其值同样也是确定的。
在得到了语音的稀疏性限制的数学表示和音乐的暂时连续性限制的数学表示之后,提出算法的代价函数(cost function):
式中:[λ]和[μ]分别是稀疏性和暂时连续性的强度,[λ]越大稀疏性的强度越大,即得到的[Hs]越稀疏;同理,[μ]越大暂时连续性的强度越大,即得到的[Hm]列与列之间的连续性越强。基于此代价函数,根据乘法迭代规则,可以得到其相应的迭代方法,经过迭代最终可以得到[Ws,Hs,Hm,]进而得到分离后的时域信号。迭代终止以固定的迭代次数为条件。
1.4 实验结果及分析
实验评测主要包括两部分:第一部分的目的是为了测试式(6)中不同的[λ]和[μ]值的组合带来的性能变化,只对背景音乐是古典音乐的测试语料做了实验,部分实验结果如图2所示。
图2中指出了[λ=1]和[μ=50]时的SDR,可以看出这个取值组合在不同的SMR下都给出了最好的结果。还可以看出,随着[λ]的增加,分离效果并没有明显的提升,而且如果[λ]过大,分离效果甚至会下降,相反,随着[μ]的增加,整体上来说性能是逐渐增加的。同稀疏性一样,过强的暂时连续性限制也会带来性能的下降,这个阈值在不同的SMR下是不同的,高SMR下阈值相对较高,低SMR下閾值则相对较低。
总体来说,第一部分实验证明了稀疏性和暂时连续性相对不加稀疏性和暂时连续性的性能提升是很明显的,而且暂时连续性限制带来的性能提升要高于稀疏性限制。稀疏性和暂时连续性限制都不是越强越好,而是有一个阈值,超过了阈值带来的分离效果反而会下降,实验结果显示[λ=1]和[μ=50]在当前的实验设置下可以给出最好的结果。
第二部分的实验做了三组对比试验。第一组是基线系统,不考虑稀疏性和暂时连续性限制,第二组是对比系统,只考虑稀疏性不考虑暂时连续性,这里[λ=1,][μ=0,]第三组是提出的算法,既考虑了稀疏性也考虑了暂时连续性,这里[λ=1,][μ=50。]基于分离效果的评测结果如表1,表2所示。其中的SIR为相对提高(即评测得到的结果减去测试语料的SMR),SDR和SAR为测试得到的实际值。从表1,表2中可以看出,在两种背景音乐下暂时连续性的加入对系统性能的总体提升都非常明显,从全局分离效果即SDR来看,加入暂时连续性之后SDR的值相对于基线系统和只加稀疏性的系统也有明显的增加,而只加稀疏性的系统相比于基线系统则性能提升很小,这与第一部分实验中得到的结果是一致的。
综上,本文提出的说话人无关背景音乐类型相关的语音和背景音乐分离系统相比传统的只加稀疏性的语音和背景音乐分离系统性能提升非常明显,可见对音乐信号施加暂时连续性可以有效地提升语音和背景音乐分离系统的表现,从而证明本文算法可以更有效地利用待分离混合信号所提供的先验信息。然而也可以看到,只固定特定音乐类型的基本矢量的半监督算法基线系统表现并不好,在实际应用时如果背景音乐的确定性很大,则可以训练得到更好的音乐基本矢量,从而得到更好的分离效果。
1.5 针对广播语料的语音和背景音乐分离系统
经过上述分析,可以得到用于广播语料语音和背景音乐分离系统的基本框图,如图3所示。
首先,从广播语料中截取了男女两个说话人的语料,其中男性说话人包括30条语料共约5 min,女性说话人包括60条语料共约10 min,但无从知道语音和背景音乐的信噪比,主观感受来说男性说话人的30条语料的语音音乐信噪比普遍比女性说话人的60条语料低。
需要得到每一条语料的幅度谱,求STFT时所用参数为:窗长64 ms,帧移16 ms,窗类型为汉明窗,本系统其他需要求STFT的地方的参数也是如此。之后,先从863语料库中选择10名说话人(5男5女),每名说话人有5条语料,共有50条语料约3 min,将这50条语料连接起来,求幅度谱并做NMF,NMF的秩设为60,即训练出60个语音基本矢量。同理,音乐基本矩阵的训练数据来自GTZAN流派数据库的古典音乐,共5条约4 min,将这5条语料连接起来做NMF,NMF的秩同样设为30,也保证了语音和音乐基本矢量个数比为2[∶]1,那么最终得到的音乐基本矢量个数为30。
测试阶段按照不同说话人测试,所用识别引擎在绪论中已有描述。首先测试了不进行增强时两个说话人的语料各自的识别率,然后在增强之后,又分别测试了两个说话人增强后的语料的识别率,实验结果如表3所示。
识别引擎对纯净的863测试语料正确率为55.99%,从表3中可以看出,本文所提出的的语音和背景音乐分离系统确实可以提高广播语料的语音识别正确率,其中测试的男性说话人的识别率相对提升17.1%,女性说话人的识别率相对提升9.70%,但由于无从得知测试语料的真实信噪比,所以也不能比较不同信噪比下分离系统对识别引擎的贡献,而且,最优的稀疏性和暂时连续性限制的强度也和信噪比有关系[8],上述只给出了针对选择的测试语料得出最好的限制强度,但是在实际使用中,还需要有相应的信噪比估计模块。
2 基于语音活动检测的语音和背景音乐分离系统
2.1 系统概述
为了得到更好的分离结果,本文采用全监督算法,先利用训练语料训练出说话人无关的语音基本矩阵,再利用VAD的结果得到背景音乐的基本矩阵,同时仍然对语音部分的权重矩阵加入稀疏性限制,对音乐部分的权重矩阵加入暂时连续性限制,进而得到分离结果。系统的基本框图如图4所示。
实际当中面临的一大问题是VAD的结果不能保证完全正确,这时会有一部分语音帧被误判别为音乐帧,并用来训练音乐的基本矩阵,从而导致训练得到的音乐基本矩阵出现较大偏差。基于NMF的音频信号分离系统对基本矢量比较敏感,即如果音乐的基本矩阵中出现相对较多的语音基本矢量,也会对分离结果产生较大的负面影响。为尽可能减少这一问题带来的影响,系统可做如下改进,在使用VAD时阈值应设置得当,使TPR尽可能的高,这样就会有较少的语音帧被错误的判别为音乐帧,尽管此时会有更多的音乐帧被判别为语音帧,但此代价要小于语音帧误判为音乐帧。
对于本文处理的广播语料,说话人不仅语速较快,而且很少有较长的停顿,且语音音乐信噪比不是很低,VAD系统可以给出不错的正确率,所以本文在使用VAD结果训练背景音乐基本矢量时只做了第一点改进,调整阈值使TPR尽可能的高,同时又有足够的音乐帧用于训练音乐的基本矢量。
2.2 实验结果及分析
实验阶段训练语音基本矢量所用的语料为纯净TIMIT数据库训练部分随机选择的100条语料,保证了说话人无关的特性。训练时所用的参数如下:求STFT时窗长为64 ms,帧移为16 ms,窗类型为汉明窗,NMF的秩为40,迭代次数为200,最终训练得到的语音基本矢量个数为40。
测试部分所用的语料库为第2.1节用于VAD结果评测的背景噪声是音乐的TIMIT数据库,所用语料为TIMIT测试部分的前10个说话人(4女6男)共200条约15 min的语料。分别测试了两种VAD算法下系统的性能表现,两种VAD算法的参数和第2.1节评测VAD算法时所用的参数一样。VAD的阈值设置标准是保证TPR不低于90%,阈值设置时参考了VAD的评测结果,然而在實际应用时是没有实验结果可以参考的,但可以根据所处理语料的信噪比适当调整阈值以达到最优的效果。
为了平衡TIMIT数据库中语音段和静音段的比例,人为在每一条语料开头和结尾增加了0.5 s的静音段,这导致带噪TIMIT数据库每一条语料的噪声段也有所增加,这里在选择音乐帧时仍然没有只选择持续的音乐帧,而是把VAD判决出的音乐帧全部用来训练音乐的基本矢量,这主要是出于项目中遇到的实际广播语料的考虑。得到VAD结果之后,对音乐帧做NMF,所用参数和训练语音基本矩阵相同,不同的是NMF的秩为20,即保证语音音乐基本矢量个数比为2[∶]1,这样最终可以得到20个音乐基本矢量。
实验评测仍然使用基于分离效果的评测方法,工具包依然使用PEASStoolkit。对比实验设置了不使用VAD的半监督算法,即只用训练得到的语音基本矩阵做半监督的语音和背景音乐分离,其所设置参数除了VAD部分和上述完全一样。这里分别列出两种VAD算法在语音音乐信噪比为5 dB,10 dB时的实验结果,以柱状图的形式给出,如图5所示。
图5中“semiNMF”为不使用VAD结果的半监督算法,“CASA_VAD_NMF”所用的VAD算法为基于CASA的VAD算法,“VAD_NMF”所用的VAD算法为基于NMF的VAD算法。
由柱状图可以看出,从SDR的角度来看,在5 dB的情况下基于VAD的算法都要好于“semiNMF”,但在10 dB的情况下结果是相反的,主要原因可能是在较高信噪比下,基于VAD的方法带来了过多的失真。而从SIR角度来看,基于VAD的方法在各种信噪比下都要远好于“semiNMF”,即音乐的去除程度很明显。而从SAR角度来说,无一例外,基于VAD的方法都要远小于“semiNMF”,这也证明了基于VAD的方法虽然更好的去除了音乐,但却带来了比较多的失真,但综合来说,基于VAD的语音和背景音乐分离算法还是有效的,特别是在信噪比不高的情况下。
3 结 论
本文以从带有背景音乐的广播语料中提取背景音乐和抑制语音为目标,以基于NMF的语音和背景音乐分离为主要研究方向,提出了一种基于NMF的说话人无关背景音乐相关的语音音乐分离系统,该系统不仅对语音增加了稀疏性限制,同时还对背景音乐增加了暂时连续性限制;为了更好地对背景音乐建模,提出了结合VAD和语音音乐分离系统,从而得到更好的系统表现。
参考文献
[1] 吕钊,吴小培,张超.鲁棒语音识别技术综述[J].安徽大学学报(自然科学版),2013,37(5):17?24.
[2] 李智勇,王飞,朱强.基于模型化DSP快速设计的音频信号采集系统[J].现代电子技术,2015,38(21):11?13.
[3] 张磊,刘继芳,项学智.基于计算听觉场景分析的混合语音分离[J].计算机工程,2010,36(14):24?25.
[4] 张天骐,徐昕,吴旺军,等.多反复结构模型的精确音乐分离方法[J].声学学报,2016(1):135?142.
[5] 周宏,潘亚涛,陈健.基于内容的音频描述[J].计算机工程,2001,27(10):140?143.
[6] 禹琳琳.语音识别技术及应用综述[J].现代电子技术,2013,36(13):43?45.
[7] 郭伟,于凤芹.基于改进时频比的语音音乐信号分离[J].计算机工程,2015,41(3):287?291.
[8] 孙爱中,刘冰,张琬珍,等.基于DSP的语音识别系统研究与实现[J].现代电子技术,2013,36(9):76?78.