基于音视频信号处理实例开展“数字信号处理”教学

2023.08.16

贾懋珅王琪

摘要：数字信号处理是信息技术类本科专业的基础必修课程，该课程逻辑性强，数学公式多，概念抽象，教学难度大。本文围绕数字信号处理课程教学进行探讨，将语音信号处理、音频信号处理、数字图像信号处理、视频信号处理中的典型实例引入数字信号处理教学，通过具体实例结合多媒体教学，增加课堂教学的趣味性，让学生直观了解数字信号处理中重要概念的实际意义。

关键词：数字信号处理;教学方法;音频信号处理;视频信号处理

中图分类号：G434? 文献标识码：A? 论文编号：1674-2117（2020）05/06-0163-03

数字信号处理是电子信息工程、电子信息科学与技术、通信工程等信息技术类本科专业及相近专业的必修课程，通过学习这门课程，学生可以理解离散时间信号处理相关概念的物理意义、数字滤波器的设计思路，初步具备信号处理工程设计实践能力。数字信号处理的教学目标是通过课程学习让学生掌握“数字信号处理”的基本理论、概念和方法，并初步了解信号处理领域的一些新方法和新技术，培养学生养成及时阅读信号处理领域最新知识的习惯，为今后从事信息类相关领域的理论研究和工程开发工作打下扎实基础。在本门课程的本科生教学中，讲授内容主要包括离散时间信号分析的原理及方法、离散时间系统基本概念及结构、离散时间序列傅里叶变换、离散傅里叶级数、离散傅里叶变换等。

本课程的先修课为高等数学、线性代数、信号与系统、复变函数与积分变换等，本门课程的教学过程伴随着大量的公式推导、理论证明与实际计算，是一门理论性很强的专业基础课程。大学生理解能力强，善于学习新知识并有强烈的求知欲，但是枯燥的公式推导和抽象的理论证明，会逐步磨灭学生的学习兴趣，变相加大课程教学难度。数字信号处理是后续各类实际信号处理的基础，如选择一些实际信号进行数字信号处理讲解，能有效降低授课内容的抽象性，增加课堂教学的趣味性，让学生更直观地了解数字信号处理中各类概念的实际意义，加深概念理解。基于此，笔者从日常研究工作中精选若干典型实例，在教学过程中适时引入教学大纲规定的各章节，取得了不错的教学效果。下面笔者将详细介绍利用音视频信号处理实例进行教学的案例。

● 围绕“Lena”图像讲授数字信号处理绪论

绪论是学生接触这门课程时首先面对的内容，讲得好可以极大提高学生的学习兴趣，而如果讲解枯燥，会让学生在第一次课就产生厌学情绪。对此，笔者在绪论的教学中以数字图像处理经典图片——“Lena头像”照片为核心进行讲授。首先介绍图片的来源：1973年美国南加州大学Alexander博士与学生一起在为评价其所实现的图像编码算法苦苦寻找一幅好的图像时，不知谁拿着一本杂志走进实验室。杂志中的Lena照片让所有人眼前一亮，他们随即用分辨率为100行/英寸的扫描仪，采集到了一幅512×512的图片，这张数字图片作为对比项被引用无数次，成为了数字图像处理领域的经典图片。结合故事中图像扫描这一过程，笔者讲授了照片从模拟信号到数字信号的离散化过程，随后结合《IEEE图像处理汇刊》原主编David C. Munson教授的论文，解释了这幅图片沿用至今的原因：这幅图像包含了大量的细节、平面区域、阴影和纹理等特征信息，图像中帽子、肩膀、背景墙低频成分充足，而面部表情、头发及帽檐富含高频成分，这些特征可以很好地用来测试各类图像算法。这一讲授过程让学生能够主观感受到低频、高频成分在图像信号中的具体表现形式，对信号频率有了最初的直观印象。随后，以此图片为原型素材讲授图像恢复、图像增强、图像数据压缩、图像去噪、图像识别等方法及示例效果，并由此拓展到数字音频信号中，利用多媒体教学工具播放不同频带音频信号，在课堂上让学生感受音频信号不同频率的听觉效果，同时讲授数字信号处理在不同领域的应用，包含语音频信号分析、音频合成、语音识别、语音增强、音频编码、信源编码、信道编码、数字电视及阵列信号处理等，在引入数字信号这一概念的同时，拓宽了学生的视野，加深学生对这门课程及所学专业的兴趣。

● 通过“幽灵鸟”视频感受身边的采样定理

采样定理是模拟信号数字化的理论基础，通常的讲授内容是：选用周期出现的冲激串序列对模拟信号进行理想抽样，冲激串序列的频谱同样是具有周期性冲激串序列，这样时域抽样过程在频域表现为原始模拟信号频谱的周期延拓，如果采样周期小于模拟信号最高频率的两倍，那么周期延拓势必引入频谱混叠。关于采样定理的讲授过程伴随公式推导，使得学生对这一概念的感知很抽象不易理解。为让学生直观感受采样定理的现实意义，笔者选用“幽灵鸟”视频来进行采样定理讲授。鸟儿之所以能在空中飞行，主要是通过上下扇动翅膀鼓动气流，产生巨大的下压抵抗力，使身体快速向前飞行，如果不扇动翅膀，鸟儿身体势必受地心引力影响而掉落。而在2018年网络上流行着一段家庭摄像机拍摄下的“幽灵”视频，视频中一只小鸟在空中悬浮着飞来飞去，视频显示这只小鸟并没有挥动自己的翅膀，却可以自由自在地在空中漂移。在课堂上播放这段完全不符合自然规律的视频，给学生一定的时间让其思考原因，引导学生做出正确解释，并解释这是典型的采样频率低于信号最高频率两倍时带来失真的例子，即不满足采样定理的实例。摄像机的拍摄操作是把现实中的视频信息进行离散化采集的过程，每个摄像机都有其相应的帧频，即每秒钟采集的帧或图像的数量，可视为采样频率，而现实中飞舞的鸟儿是按照一定的频率高速地扇动着翅膀的，当鸟儿舞动翅膀的频率和摄像机的帧频率相同时，摄像机每次采集的都是小鸟翅膀相同的姿态信息，也就是说采样频率与信号频率相同，此时，播放摄像机采集视频时会发现，播放的是出现混叠的视频信息——鸟儿翅膀静止的视频。这样让学生感受到了生活中不满足采样定理进行离散化处理时带来的问题。随即，对这个现象进行展开，播放摄像机拍摄的直升机飞行视频，同样演示的效果为直升机螺旋槳叶完全静止不动的效果，让学生体会摄像机采样频率和桨叶转动频率相同所带来的问题。随后，给出在不同采样频率下，摄像机录制信号的视频效果。具体地说，当摄像机采样频率大于两倍的桨叶转动频率时，得到的视频中能准确反映螺旋桨桨叶的转动方向;当摄像机采样频率小于两倍的桨叶转动频率时，视频所反映的螺旋桨桨叶转动方向是错误的。由此，让学生感受采样定理的实际物理意义，并通过引导问答的方式，加深对此概念的理解。

● 结合声源分离加深离散傅里叶变换理解

离散傅里叶变换是数字信号处理本科生教学的核心内容，在讲授时通过三棱镜将白光频谱分成七个单色光谱的例子结合连续信号傅里叶变换，引入离散时间序列傅里叶变换、离散傅里叶级数直至离散傅里叶变换。此时，虽然完成了基本的教学，但学生对离散傅里叶变换的认知还仅仅停留在公式的简单理解和推导中。为加深理解，笔者结合自身在语音与音频信号处理方面的研究成果，将基于时频掩蔽的多声源分离实例引入课堂，以音频信号为例，为学生展示离散傅里叶变换前后时域信号和频率系数的特点。音频信号在时域具有短时平稳特性，波形分布在每帧的所有离散样点上，但是对音频信号进行离散傅里叶变换得到离散频率系数后，可以发现音频信号在频域表现出了很强的能力集中特性，具体可以发现部分频率点处的离散傅里叶系数幅度很大，而大部分频率点处的离散傅里叶系数幅度很小，这就说明音频信号在频域具有很强的稀疏特性。由此扩展开来，选取多个不同说话人的语音信号进行离散傅里叶变换，引导学生分析不同说话人语音信号离散傅里叶系数间关系，适时给出多声源信号的短时正交特性（W-Disjoint Orthogonality，W-DO），即不同说话人的高幅度值谱线分布具有近似相互不重叠特性，让学生理解在时域完全冲突的多名说话人语音信号，在频域因为各自频谱分布不同而产生相互不交叠的现象。随后，给出麦克风真实录制的三名说话人同时说话情况下的语音信号，并根据W-DO特性从录制信号的离散傅里叶系数中利用时频掩蔽系数分离各说话人频谱，通过离散傅里叶反变换得到声源分离后各说话人的语音信息。在课堂上播放分离前后的语音信息，让学生感受声源分离对多说话人场景中声源信息提取的重要性，感受离散傅里叶变换在实际信号分析、处理中的应用，加深对离散信号进行时频变换的理解，同时增强学生对科学问题的观察与思考能力。

● 结语

本文介绍了选取三个音视频信号处理实例进行数字信号处理课堂教学的例子，通过具体数字图像处理、音频信号处理、视频信号处理的实例进行教学，可以让学生直观感受数字信号处理中若干抽象概念，加深对课程内容的认识，取得了很好的教学效果。在后期的教学研究中，笔者将尝试寻找更多适合于数字信号处理教学的实际信号处理实例，进一步丰富课题教学素材，提高学生学习兴趣和课堂教学效率。

参考文献：

[1]杨毅明.数字信号处理（第二版）[M].北京：机械工业出版社，2017.

[2][美]Alan V. Oppenheim，Ronaid W. Schafer.离散时间信号处理（第三版） Discrete Time Signal Processing， Third Edition （英文版）[M].北京：电子工业出版社，2011.

[3]程佩青.数字信号处理教程MATLAB版（第五版）[M].北京：清华大学出版社，2017.

[4]David C.Munson.A note on Lena[J].IEEE Transactions on Image Processing， 1996，5（01）：3.

[5]胡广书.数字信号处理理论、算法与实现（第三版）[M].北京：清华大学出版社，2015.

[6]Maoshen Jia，Jundai Sun， Changchun Bao and Christian Ritz. Speech Source Separation by Recovering Sparse and Non-Sparse Components from B-Format Microphone Recordings [J].Speech Communication，2018 （96）：184-196.

作者簡介：贾懋珅（1982—），男，河北张家口人，博士，北京工业大学信息学部副教授，硕士生导师，主要研究方向为语音与音频信号处理。