识音频，懂声音

2024.07.29

杨磊

编者按：近年来，随着人工智能技术和硬件设备的快速发展，越来越多的人工智能应用产品走进我们的日常生活，语音识别、语音合成和说话人识别等相关智能产品如雨后春笋般出现在人们的视野内。人们不禁好奇：人工智能领域的语音技术是什么？它和我们中学时代物理课上学习的声波有什么联系？本期就让我们谈谈有关声音的故事。

图像和声音作为人机智能交互领域的两个最重要媒介，正在吸引着全世界的科学家开展各类的相关算法研究和产品应用开发。由于二者的数据结构存在重大差异导致相应的研究工作主要分为图像和声音两个基本的发展方向。前者主要是指和图片处理相关的工作，关注图片内部元素的空间排列;后者主要是指处理与音频信号相关的工作，注重音频信号内部元素的时间关联性。音频信号的范围广泛，它除了包括语音研究外，还包含其他很多重要而有趣的研究方向，如声音场景分析、音乐风格分类和语音情绪识别等。因此，我们可以将音频视作为传递信息、主观意向、情绪表达的重要沟通工具，它是人类最为熟悉和运作最为有效的消息传递方式之一。随着多媒体信息处理技术的发展、计算机数据处理能力的增强，音频处理技术及其相关现实场景的开发应用正受到越来越多的关注。

声波、声音、语音和音乐

认识音频之前，我们先弄清楚几个概念——声波、声音、语音和音乐。

从物理学范畴来定义声波。介质是一系列相互联系、相互作用的粒子，由于声波的传播需要粒子与粒子之间的相互作用，所以声波被定义为一种机械波。一切声音的产生都源于发音体的振动，发音体振动时，会扰动周围的空气或其他媒介，使之产生波动，这样就形成了声波。声波是一种典型的纵波，横波的传播方向垂直于振动粒子，而纵波则与振动粒子的传播方向相同。在空气传播过程中，声波由分别称为压缩和稀疏的高压和低压区域组成。图1为空气传播过程中声波波形的一种可视化表现，较亮的区域是低压，而较暗的区域是高压。

和其他波相同，我们用速度、频率和波长这三项指标来描述声波的性质。波长、频率和速度的关系为：速度=频率×波长。振源和介质决定了波长，声波的速度取决于传播介质的性质。声速在固体材料中传播较快，在液体或气体中较慢，这是因为材料的密度和弹性性能的不同。固体材料之间粒子的相互作用最强，其次是液体，然后是气体。介质的这种性质被称作弹性性质，它是影响声速的重要因素之一。弹性性能被视为决定材料在外力作用下保持其形状而不变形的能力。介质密度是影响声速的另一个重要的因素，介质密度越大，声音传播的速度就越快，这两个因素相比较而言，弹性性能比密度对声速有更大的影响。众所周知，在标准大气压和温度下，声波以每秒343米的速度在空气中传播，下页表1列出了同一振源在不同介质条件下的声波传播速度。

声音是指可被人耳听到的，其振动频率在20Hz～20kHz之间的声波。我们把低于这个范围的声音称为次声波，高于这个范围的声波称为超声波。由此可见，声音是声波的一个子集，二者的关系如同可见光和光的关系。自然界包含各种各样的声音，如风声、雷声、乐器声等。许多动物的听力范围要比人类的更广，如狗可以检测到低至约50Hz～45kHz的声波;猫可以检测到大约45Hz～85kHz的声波;蝙蝠则可以检测出高达120kHz的声波，这主要是由于蝙蝠是夜间活动的生物，它必须依靠声音回声定位来进行导航和狩猎，所以它对声波的检测范围更宽广;海豚检测出的声波频率可以达到200kHz。自然界是否存在次声波检测的高手呢？有，它就是大象，它的可听范围约为5Hz～10kHz。

那么，语音是如何产生的？首先要明确语音是声音的一个子集。语音是由人体的发音器官在大脑的控制下做生理运动产生的、有一定的语法和意义的声音，它的频率通常在80～1.1kHz，最高可达1.5kHz。人体发音器官主要由肺和气管、喉、声道组成。肺是语音产生的能源所在;气管连接着肺部和喉部，它是肺部与声道的联系通道;喉是由一个软骨和肌肉组成的复杂系统，其中包含着重要的发音器官——声带，声带为产生语音提供了主要的激励源;声道是指声门（喉）至嘴唇的所有发音器官，包括咽喉、口腔和鼻腔，如图2所示。声音经过气流通道所形成的共鸣系统或经过滤波器以后，频谱发生改变，再经过口唇和鼻腔时频谱又发生了改变。不同音位之间的差别可以是由发声源引起的，也可以是由聲道的形状和空气柱的长度不同所引起的。声波发生后经过一个共鸣系统后，其频谱可以发生变化。这样的共鸣系统就相当于一个声学滤波器，滤波器的作用可以用频响曲线，即各个频率的增益或输出来表达。可以说，滤波在言语的产生过程中起到重要的作用。咽喉、口腔、牙齿、口唇、鼻腔组成了一个声道，此声道即为一共鸣腔，对从气管或声带发出的声波进行滤波。之后，通过外部空气的传导，到达人的耳朵里，就产生了语音的感觉。

音乐是一种人造声音，它有节拍和旋律，被视为一种声音艺术。人们用音程来描述音乐，音程与声音的频率有关，频率比为2：1的声音称为八度音，5：4的声音被称为三度音，4：3的声音称为四度音，3：2的声音称为五度音。任何音符都有一个独特的频率，任何物体都有一个可以振动的固有频率。音乐家使用的乐器能够以特定的频率振动。以弦乐器为例，弦乐器通过振动的琴弦发出声音，并且音高会因琴弦的粗细、张力和长度而改变。弦乐器可以以多种方式演奏，并且可以有多种变化。弦乐器的种类繁多，如七弦琴、吉他、小提琴和钢琴等。所有的弦乐器都会用张紧的琴弦发出声音，较长的弦相比较短的弦产生较低的音调，较紧的弦相比较松的弦产生更高的声音，较粗的琴弦相比较细的琴弦产生的声音更低，这就是为什么即使吉他上的所有弦长都相同但它们的音色却不同。弦乐器必须通过拧紧或放松乐器上的弦来进行完美调音。弦乐器以不同的方式产生不同的音符，如古筝、竖琴和钢琴之类的乐器具有一组平行的弦，每个音符对应一个弦，可以单独听起来，也可以一起发音以制作和弦。

听觉的主观感受：乐音三要素

生活中的各种声音能够给人的听觉带来不同的主观感受，有的悦耳动听，有的刺耳难耐。声音由于振动的不同可分为乐音和噪音。在音乐中所使用的音也既有乐音又有噪音。乐音的振动比较有规律，听起来音高很明显，如果在示波器上则能显示为规则的正弦曲线。在音乐中所使用的有固定频率的音一般都是乐音，如小提琴、二胡、钢琴等乐器发出的声音。而噪音的振动比较杂乱，听起来音高不很明显，在示波器上显示为十分复杂的曲线。当然，音乐所用的噪音是经过挑选的打击乐器，如锣、鼓、梆子、木鱼等。在物理学上，把声源有规律振动时发出的声音叫做乐音，用响度、音调和音色来描述它，即称为乐音三要素。

①响度是人耳对声音强弱程度即声音轻、响的主观反应，与声源的幅度有关。每单位时间传输经过介质给定区域的能量数量称为声波强度。介质粒子的振动幅度越大，能量通过介质传输的速率就越大，并且声波越强烈，用瓦特/米来表示。响度随离振源距离的增大而减小，人的健康和年龄对识别不同频率和分贝的能力有很大的影响。听觉阈值是人类耳朵能探测到的最微弱的声音，听觉阈值一般为10～12瓦特/米或0分贝。分贝是对数标度（以10的幂为基础），用它来表示声功率级。人耳对3000～4000Hz声音的音强感觉最灵敏，正常人能感知的声强范围是0～140分贝。

②音调是指声音频率的高低，主要由声音的频率决定，同时也与声音强度有关。它表示人的听觉分辨一个声音的调子高低的程度。人类感知音调的能力与撞击在耳朵上的声波频率有关。由于通过空气传播的声波是纵波，会在给定频率下对空气颗粒产生高压和低压扰动，因此，耳朵具有检测此类频率并将其与音调关联的能力。对一定强度的纯音，音调随频率的升降而升降;对一定频率的纯音、低频纯音的音调随声强增加而下降，高频纯音的音调却随强度增加而上升。经过音乐训练的人，能够检测到两种单独的声音之间的频率差仅为2Hz。当同时播放两个频率差大于7Hz的声音时，大多数人都能够检测到由于两个声波的干扰和叠加而导致的复杂波型的存在。当同时播放（和听到）某些声波时，听到时会产生特别令人愉悦的感觉。例如，频率为2：1的任何两种声音被说成是用八度音程分开的，听到时会让人产生特别愉悦的感觉。也就是说，如果一种声音的频率是另一种声音的两倍，则两个声波一起播放时听起来不错。类似地，频率比率为5：4的两种声音间隔三分之一，这样的声波一起演奏时听起来也不错。

③音色也称音质。乐器和声带在振动时发出的声音都是由一系列频率、振幅各不相同的振动复合而成的。发音体整体振动产生的音，叫做基音，决定音调;发音体部分振动产生的音，叫做泛音，決定音色;基音和泛音结合在一起而形成的音，叫做复合音。日常我们所听到的声音多为复合音。所以，除了音调所对应的频率f外，还伴随着一些高频的泛音成分（2f、3f……），这些泛音成分幅度各不相同，所以造就了独特的听觉感受，如下页图3所示。对语音而言，男声基音频率在64～523Hz左右，泛音可扩展到7～9kHz;女声基音频率在160Hz～1.2kHz左右，泛音可扩展到9～10kHz。

音频信号的处理方法

说完人们是如何描述声音的，接下来谈谈机器是如何识别声波的。我们把有关声波的信号称为音频信号。

①时域与频域。时域是描述数学函数或物理信号对时间的关系。例如，一个信号的时域波形可以表达信号随着时间的变化。时域是真实世界，因为我们的经历都是在时域中发展和验证的，已经习惯于事件按时间的先后顺序发生。以信号为例，信号在时域下的图形可以显示信号如何随着时间变化，如图4a所示。频域是指在对函数或信号进行分析时，分析其和频率有关的部分，而不是和时间有关的部分，和时域一词相对。通过傅里叶变换将一个复杂的信号分解为更简单的部分，将复杂信号描述为多个单频率分量的总和，进而确定复杂信号由哪些频率组成。傅里叶变换是一种线性积分变换，用于信号在时域和频域之间的变换，在物理学和工程学中有许多应用。因其基本思想首先由法国学者傅里叶系统地提出，所以，以其名字来命名以示纪念。光学里，棱镜可以根据波长（频率）将光分解为不同的颜色。傅里叶变换其实就是数学中的棱镜，其可以将函数基于频率分解为不同的成分。函数或信号可以透过傅里叶变换在时域及频域之间转换。信号在频域下的图形一般称为频谱，可以显示信号分布在哪些频率及其比例，如图4b所示。

②时频分析。一般来说，时域的表示较为形象与直观，频域分析则更为简练，剖析问题更为深刻和方便。信号分析的趋势是从时域向频域发展。时域分析是以时间轴为坐标表示动态信号的关系。以语音信号为例，语音信号为非平稳信号，不能直接应用于傅里叶变换，但由于语音信号随时间变化缓慢，故可以将语音切分成有限长度，应用短时傅里叶变换，从而得到声谱图。声谱图是时序相关的傅里叶分析的显示图像，可以反映音乐信号频谱随时间改变而变换，声谱图的横坐标是时间，纵坐标是频率，坐标点值为语音数据能量。由于是采用二维平面表达三维信息，所以，能量值的大小是通过颜色来表示的，颜色深，表示该点的语音能量越强，如图5所示。

声谱图中显示了大量与声音信号特性相关的信息，如共振峰、能量等频域参数随时间的变化情况，它同时具有时域波形与频谱图的特点。声谱图本身包含了声音信号的所有的频谱信息。声谱图中的花纹有横线、乱纹和竖直条等，横线是与时间轴平行的亮颜色带纹，它们是共振峰，从横线对应的频率可以确定相应的共振峰频率，在一段音频的声谱图中有没有横线出现是判断它是不是浊音的重要标志;竖直条是与时间轴垂直的条纹，每个竖直条相当于一个基音，条纹的起点相当于声纹脉冲的起点，条纹之间的距离表示基音，条纹越密表示基音频率越高。

③梅尔频谱图（Mel-Spectrogram）与梅尔频率倒谱系数（MFCC）。音调与频率有关，频率低的声音听起来音调低，频率高的声音听起来音调高。但音调与频率不成正比，而近似为对数关系，如图6所示。音调还与声音强度及波形有关。客观上用频率（Hz）表示音调，主观感觉上的音调单位为美（mel），它是音调的度量单位。

通过对原始声音每一帧的短时傅里叶变换，我们捕获了每一帧频谱包络线，即连接所有共振峰的曲线，如图7a所示。但实验表明，人耳只专注于某些区域，而不是使用整个频谱。基于人类感知实验观察到人耳仅感知某些频率分量，类似滤波器的作用。梅尔滤波器组在频率轴上的间距不均匀，低频中的滤波器更多，高频区域的滤波器较少，目的是模拟人耳对声音的非线性感知，在较低的频率下更具辨别力，在较高的频率下则不具辨别力，如图7b所示。将每一帧原始声音的频谱经过梅尔滤波器去处理后，得到梅尔频谱，进而形成梅尔频谱图，如图7c所示。

共振峰是语音信号中的主频分量，带有声音的重要识别的特征。如图7a所示，在频谱中可以看到出共振峰的包络线。在声音处理过程中，采用倒谱分析将此包络线从频谱中分离出来，进而获得梅尔倒谱系数，如图8所示。MFCC是重要的语音特征。

本期，我们从认识声音入手，最终得到表示声音的梅尔频谱和梅尔频率倒谱系数，从而使一段语音被映射为时间轴上一系列的向量集合，这些集合再通过一些规整的操作后，即可成为反映语音特性的特征集合。下期，我们将讨论语音信号处理在人工智能领域的应用。