网站首页  词典首页

请输入您要查询的论文:

 

标题 基于卷积神经网络的交通声音事件识别方法
范文 张文涛 莹莹 黎恒



摘 要: 针对公路交通声音事件识别中传统语音算法识别效率低、鲁棒性差的问题,提出一种基于卷积神经网络的交通声音事件识别方法。首先通过Gammatone滤波器对声音数字信号进行子带滤波,得到音频信号耳蜗谱图,然后将其代入卷积神经网络模型对声音事件类型进行识别。利用上述方法对公路交通环境下的四种音频事件做了检测处理,并与经典的隐马尔科夫模型和目前广泛使用的深层神经网络进行比较。实验结果表明,使用卷积神经网络模型能够更加准确地对交通声音事件进行识别,且在噪声环境下具有更好的鲁棒性。
关键词: Gammatone滤波器; 卷积神经网络; 音频事件识别; 公路交通环境; 声音数字信号; 子带滤波
中图分类号: TN912.3?34 文献标识码: A 文章编号: 1004?373X(2018)14?0070?04
Traffic sound event recognition method based on convolutional neural network
ZHANG Wentao1,2, HAN Yingying1,2,3, LI Heng3
(1. School of Electronic Engineering and Automation, Guilin University of Electronic Technology, Guilin 541004, China;
2. Key Laboratory of Optoelectronic Information Processing, Guilin 541004, China; 3. Guangxi Transportation Research Institute, Nanning 530000, China)
Abstract: In allusion to the problems of low recognition rate and poor robustness of the traditional acoustic algorithm in road traffic sound event recognition, a traffic sound event recognition method based on convolutional neural network is proposed. The sub?band filtering of sound digital signals is performed by using the Gammatone filter, so as to obtain the cochleogram of audio signals, which is then substituted into the convolutional neural network model for recognition of the sound event type. Four audio events in road traffic environment are detected by using the above method, and the results are compared with those of the classic hidden Markov model and deep neural network widely used at present. The experimental results show that the convolutional neural network model can recognize the traffic sound event more accurately, and has better robustness in noisy environment.
Keywords: Gammatone filter; convolutional neural network; audio event recognition; road traffic environment; sound digital signal; sub?band filtering
0 引 言
随着我国交通事业高速发展,对道路监控和信息处理分析提出了更高的要求。目前,国内外道路交通事件检测技术主要以视频为手段,依赖于视频采集的质量,技术难度大,生产成本高且受环境因素影响大。声音是人类信息的重要来源,而且其方便采集,检测范围广。声音事件识别已应用于环境安全监控、场景分析、证据提取、声源定位和突发事件检测等领域,且发挥着重要作用。
目前,对于声音事件识别一些学者已经做出一些研究[1?3]。McLoughlin等提出基于声谱图的前端特征并结合支持向量机(Support Vector Machine,SVM)[1]和深度神经网络(Deep Neural Network,DNN)对声音事件进行分类。Kucukbay等提出使用梅尔频率倒谱系数(Mel?Frequency Cepstral Coefficients,MFCC)[2]和SVM分类器结合5?折交叉验证方法识别办公环境中的16种声音。Diment等提出基于隐马尔科夫模型(Hidden Markov Model,HMM)的声音事件检测系统[3],对办公环境下的声学场景和事件进行分类检测。
以上研究在声音事件识别中都取得了一定成效。但传统的SVM算法在大规模训练样本和多分类问题上难以实现。DNN模型又存在参数数量膨胀、学习时间过长等问题。且在真实的公路交通环境中存在复杂多变的噪声,公路隧道中甚至出现声音反射和回响,对声音事件识别产生较大干扰。因此针对公路交通环境需要找出一种新的识别方法。Ossama等人首次将卷积神经网络(Convolutional Neural Network,CNN)应用于语音识别中[4],与DNN模型相比识别率取得明显改善。本文将卷积神经网络应用于公路交通声音事件识别。针对拥堵、事故等公路事件,利用卷積神经网络对车辆碰撞声、汽车鸣笛、人员呼救和车门关闭四种声音进行分类,从而判断发生的对应事件。
1 基于Gammatone滤波器的耳蜗谱图提取
人耳可以准确地对公路交通环境声音事件进行判断。在人类听觉系统中,声音信号经过耳蜗基底膜的频带分解作用后,沿听觉通路进入大脑听觉中枢神经系统。耳蜗谱图特征仿照人耳感知声音的过程,是常用的时频二维图像特征表示方法。本文使用Gammatone滤波器组来模拟耳蜗模型,实现子带滤波,最终得到耳蜗谱图。Gammatone滤波器是一个标准的耳蜗听觉滤波器,其时域脉冲响应为[5]:
[g(f,t)=Atn-1e-2πbtcos(2πft+φ)U(t), t≥0] (1)
式中:[A]为滤波器增益;[i]表示第[i]个滤波器;[f]为中心频率;[φ]为相位,本文取[φi=0];[n]为滤波器阶数;[b]是衰减因子,该因子决定相应的滤波器的带宽[b=1.019ERB(f)],[ERB(f)]是等效矩形带宽,它与中心频率[f]的关系为:
[ERB(f)=24.7(4.37f100+1)] (2)
本文采用一组64个4阶Gammatone滤波器,其中心频率在350~4 000 Hz之间。Gammatone滤波器会保留原有的采样率,因此在时间维度上设置响应频率为 100 Hz,将产生10 ms的帧移,可用于短时声音特征提取。当声音信号通过Gammatone滤波器时,输出信号的响应[Gm(i)]的表达式如下:
[Gm(i)= g(i,m)]12,i=0,1,2,…,N;m=0,1,2,…,M-1] (3)
式中:[N]为通道数;[M]为采样后的帧数。
[Gm(i)]构成代表输入声音信号频域上分布变化的矩阵,本文采用耳蜗谱图来描述信号频域分布变化。与语谱图相比,耳蜗谱图的物理意义更明确,具有更高的低频分辨率,因此在声音识别领域更具应用价值[6]。综上所述,本文采用耳蜗谱作为样本进行神经网络模型的训练与测试。
2 卷积神经网络
卷积神经网络[7]最初由Yann LeCun等人提出,应用于简单的手写字符识别,逐渐扩展到人脸检测[8]、动作识别[9]和标志识别[10]等领域。近几年,卷积神经网络作为具有优秀深度学习能力的深层网络结构,被应用于声音识别领域。
卷积神经网络是一种多层神经网络,数据以特征图的形式输入网络,然后依次进行卷积与池化处理,具体过程在相应的卷积层与池化层完成,层与层之间采用局部连接和权值共享的方式。
在卷积层中,输入的特征图被一个可学习的卷积核进行卷积。卷积操作公式如下:
[xlk=fi∈Wkxl-1i?Hli,k+blk] (4)
式中:[xlk]代表[l]层的第[k]个特征图;[Wk]代表[l-1]层的第[k]个特征图;[Hli,k]表示第[l]层第[i]个特征图的第[k]个卷积核;[blk]为偏置项;[f]是激活函数;“[?]”代表卷积符号。激活函数一般采用 relu,tanh等饱和非线性函数。所有的输入特征图经卷积操作后输出一定数量的新特征图。新特征图的数量由卷积层中卷积滤波器数目决定。
经卷积层后得到的新特征图进入池化层进行池化操作。一方面使特征图变小,简化网络计算复杂度;另一方面进行特征压缩,提取主要特征。池化层的一般形式如下:
[xlk=f(βlkdown(xl-1k)+blk)] (5)
式中:[down(·)]代表池化层;[xlk]代表[l]层的第[k]个特征图;[βlk]与[blk]为偏置项。如果分割成若干个a×a的区域,那输出图片的尺寸在不同维度上都是输入图片的[1n]。
3 实验与分析
3.1 实验性能评价指标
根据CLEAR 2007测评[11],本文使用三个指标评估所提出的方法:准确率(Precision Rate,P)、召回率(Recall Rate,R)和F?值(F?Measure,F)。准确率表明方法的查准率,召回率表明方法的查全率,F?值为准确率和召回率的调和平均值,计算公式分别为:
[P=te, R=tg, F=2PRP+R] (6)
式中:t表示正确检测的声音事件数;e表示输出的声音事件总数;g表示标注的声音事件总数。
3.2 实验数据采集
本实验在真实公路交通环境下,使用模拟声级计配合麦克风阵列,分别在20 dB,10 dB,0 dB三种信噪比下对音频数据进行采集,采样频率为8 kHz。表1中总结了每种事件类别的统计数据,共有86 400段,每种声音片段长度为1~3 s。
按照第1节中提到的方法提取耳蜗谱。抽取每种声音耳蜗谱中的[34]作为训练集,剩下的[14]为测试集。并对每种声音的种类进行标注。本文将撞车声、汽车鸣笛、人员呼救和车门关闭四种音频信号作为目标声音事件,因为这些声音事件的出现一般意味着发生交通事故或拥堵。其余两种声音事件作为干扰声。
3.3 卷积神经网络模型建立
为了研究基于卷积神经的交通声音事件识别模型性能,首先需要建立卷积神经网络。卷积神经网络结构确定的过程包括建立模型、训练模型和测试模型三部分。实验使用Matlab的Parallel Computing Toolbox工具箱和 Neural Network Toolbox工具箱创建和训练卷积神经网络。基于Pascal GP104核心的NVIDIA GTX1080搭建訓练平台,使用GPU阵列进行计算。
图1所示为基于卷积神经网络的声音事件识别流程图,包括训练过程与测试过程。训练过程中,利用随机分布函数对卷积核和权重进行随机初始化,而对偏置进行全0初始化。为了加快训练过程则使用标准的梯度下降算法调整权值与阈值。
通过网络前向传播和反向传播反复交叉处理的方式来训练卷积神经网络,直到代价函数小于0.01为止。
3.4 基于CNN的交通声音事件识别方法
本文针对公路交通环境下声音信号的特殊性,选取网络结构如图2所示,包含2个卷积层、2个池化层、2个归一化层和3个全连接层。
1) 输入层。本文将耳蜗谱图作为特征图输入。输入之前先对耳蜗谱图进行预处理,预处理过程包括平滑和裁剪,把耳蜗谱图处理成32×32的图像。
2) 卷积层。卷积层为特征提取层。均使用3×3的卷积核对输入图像进行卷积,C1卷积核个数为10,卷积移动步长为1,为保证充分提取耳蜗谱图的特征,激活函数使用tanh函数。
3) 池化层。卷积层后加入池化层可降低体征维数,避免过拟合。本文采用最大池化方式,池化域大小均为2×2。
4) 归一化层。在下一个卷积层前加入归一化层,对局部做减和除归一化,迫使相邻特征进行局部竞争。保证性能的稳定性,并提取耳蜗谱的低阶和高阶统计特征。
5) 输出层。通过Softmax回归算法将特征映射到目标的四个分类。Softmax是Logistic回归在多分类问题上的推广。在Softmax回归函数中[y=j]的概率为:
[p(y=jx;θ)=eθTjxl=1keθTjx] (7)
式中:[θ]表示全部的模型参数;[x]为输入;[y]为输出;[j]代表类别。
3.5 实验结果对比与分析
将20 dB,10 dB,0 dB三种不同信噪比下的实验样本分别代入第3.4节确定CNN模型进行训练与测试实验,并与经典HMM模型[12]和目前得到广泛应用的DNN模型进行对比。实验结果如表2~表4所示。
从3个表中可以看出,在3种不同信噪比情况下,对于车辆碰撞声、汽车鸣笛、人员呼救和车门关闭四种声音识别,CNN模型与DNN模型的指标均明显高于HMM模型,且CNN模型的识别率可达到99.3%,召回率可达100%。信噪比发生变化时,CNN模型的平均F?值相比其他两种模型所受影响最小。在0 dB的情况下,识别率突破90%。由此可以得出,相比于其他两种模型,卷积神经网络模型可以更加准确地对公路交通环境下的声音事件进行识别且鲁棒性更好。
4 结 论
本文将卷积神经网络应用到公路交通环境声音识别中。先将声音信号经Gammatone滤波器转化为耳蜗谱图,后把耳蜗谱图输入卷积神经网络进行分类识别。并与经典隐马尔科夫模型和广泛使用的深层神经网络进行了对比,基于卷积神经网络的方法在识别性与鲁棒性上有明显提高。在后续研究中,将继续优化卷积神经网络结构,进一步对混合声音事件进行识别。
参考文献
[1] MCLOUGHLIN I, ZHANG H, XIE Z, et al. Robust sound event classification using deep neural networks [J]. IEEE/ACM transactions on audio, speech, and language processing, 2015, 23(3): 540?552.
[2] KUCUKBAY S E, SERT M. Audio?based event detection in office live environments using optimized MFCC?SVM approach [C]// Proceedings of IEEE International Conference on Semantic Computing. Anaheim: IEEE, 2015: 475?480.
[3] DIMENT A, HEITTOLA T, VIRTANEN T. Sound event detection for office live and office synthetic AASP challenge [J/OL]. [2013?12?01]. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.706.807&rep;=rep1&type;=pdf.
[4] ABDEL?HAMID O, MOHAMED A, JIANG H, et al. Applying convolutional neural networks concepts to hybrid NN?HMM model for speech recognition [C]// Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Kyoto: IEEE, 2012: 4277?4280.
[5] LU B, DIBAZAR A, BERGER T W. Noise?robust acoustic signature recognition using nonlinear Hebbian learning [J]. Neural networks, 2010, 23(10): 1252?1263.
[6] TJANDRA A, SAKTI S, NEUBIG G, et al. Combination of two?dimensional cochleogram and spectrogram features for deep learning?based ASR [C]// Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Brisbane: IEEE, 2015: 4525?4529.
[7] LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition [J]. Neural computation, 1989, 1(4): 541?551.
[8] 汪济民,陆建峰.基于卷积神经网络的人脸性别识别[J].现代电子技术,2015,38(7):81?84.
WANG Jimin, LU Jianfeng. Face gender recognition based on convolutional neural network [J]. Modern electronics technique, 2015, 38(7): 81?84.
[9] JI S, XU W, YANG M, et al. 3D convolutional neural networks for human action recognition [J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 221?231.
[10] 黄琳,张尤赛.应用深层卷积神经网络的交通标志识别[J].现代电子技术,2015,38(13):101?106.
HUANG Lin,ZHANG Yousai. Traffic signs recognition applying with deep?layer convolution neural network [J]. Modern electronics technique,2015, 38(13): 101?106.
[11] TEMKO A, NADEU C, MACHO D, et al. Acoustic event detection and classification [M]// WAIBEL A, STIEFELHAGEN R. Computers in the human interaction loop. Berlin: Springer, 2009: 61?73.
[12] TEMKO A, MALKIN R, ZIEGER C, et al. CLEAR evaluation of acoustic event detection and classification systems [C]// Proceedings of the 1st international evaluation conference on classification of events, activities and relationships. Berlin: Springer, 2006: 311?322.

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2024/12/22 22:36:46