浅谈录音内容辨听司法鉴定
摘 要 录音内容辨听司法鉴定是声像资料司法鉴定中常见的鉴定事项,但是由于其难度较大并且缺乏科学性保障,因此在司法鉴定的实务中并未给予足够的重视。本文对录音内容辨听司法鉴定的有关内容进行介绍,并阐述了录音内容辨听的方法,同时针对录音内容辨听司法鉴定实务中存在的问题进行归纳,并对未来的发展方向进行展望。
关键词 录音内容 辨听 司法鉴定 方法 发展
基金项目:本论文受公安部科技强警基础工作专项项目《面向网络语音的声纹特征与识别关键技术研究》资助,项目编号:2017GABJC33。
作者简介:张晓,公安部第三研究所,助理研究员,研究方向:信息网络安全、电子数据司法鉴定。
中图分类号:D918.9 文献标识码:A DOI:10.19387/j.cnki.1009-0592.2018.01.171
录音内容辨听司法鉴定是声像资料司法鉴定的一种。录音内容辨听是指通过听辨,必要时借助录音处理等技术手段,书面整理录音资料所反应的对话内容。公安机关在侦查网络暴恐音频的案件中,需要到对音频中的内容进行辨听以作为立案审查的证据。法院在审判阶段,会对双方当事人提交的对录音内容有争议的录音证据委托鉴定机构进行司法鉴定。
一、录音内容辨听司法鉴定概述
声像资料司法鉴定的鉴定事项一般包括声音资料的同一性、完整性鉴定、录音内容辨听,以及图像资料人像同一鉴定、真实性鉴定等。录音内容辨听司法鉴定是常见的鉴定事项。
(一)录音内容辨听司法鉴定
录音内容辨听是声像资料司法鉴定中常见的鉴定事项,它是指听辨录音资料中谈话者语音文字内容,整理相关人士在实践中用语言表达的思想内容,以及从录像资料的背景图像中提取有关案件的线索信息。
现代语言学中的方言,通常指的是地区方言,也就是指地方话。它是一种全民语言的地域性变体,是一种语言分化的结果,在语音、词汇、语法上具有不同于其他亲属语言的特征,他的内部发展规律服从于全民共同语。
现代汉语的全民共同语是普通话。方言与普通话不是对立的关系,而是个别与一般的关系。新中国成立以后,国家政治、经济高度集中、统一,文化、教育逐漸普及,交通和通信日益现代化,加之推广普通话工作的不断加强,汉语方言停止了平行发展,正在向民族共同语——普通话集中、靠拢。《中华人民共和国宪法》第19条规定:“国家推广全国通用的普通话”。使用国家通用的语言文字,是每个公民应当履行的权利(非义务)。我国是一个多民族、多方言的国家,推广普及普通话有利于增进我国各民族的交流与往来,增强中华民族的凝聚力。因此,录音内容辨听司法鉴定中一项很重要的内容就是把方言整理成为普通话,以解决司法实践中存在的问题,同时为公安机关侦查提供便利。
(二)录音内容辨听司法鉴定的法律依据
声像资料司法鉴定的产生和发展具有社会发展必然性,2005年通过的《全国人民代表大会常务委员会关于司法鉴定管理问题的决定》(以下简称《决定》)中规定了声像资料鉴定这一鉴定类别。2010年发布的司法鉴定技术规范《声像资料鉴定通用规范》中规定了录音资料鉴定分为录音资料真实性(完整性)鉴定、录音内容辨听和语音同一性鉴定。2010年发布的司法鉴定技术规范《录音资料鉴定规范》中规定了录音内容辨听的步骤和方法。标准的发布使得这项鉴定工作有据可依有规可循,使得这项鉴定工作的开展更加规范。
(三)录音内容辨听司法鉴定的目的
委托机关委托鉴定机构做录音内容辨听司法鉴定一般是出于几方面原因的考虑:一是由于某些地区将普通话考试作为司法工作人员的职业准入标准之一,所以这些地方的司法工作人员在工作过程中使用普通话交流,因此将方言翻译成普通话既有利于司法工作,又减少了诉讼当事人交流的语言障碍;二是由于当事人提供的录音证据背景噪音太大、语音内容不清楚难以辨识,致使当事人提交的这份录音证据难以充分发挥其作用;三是由于双发当事人对录音资料的内容有争议,需要提交司法鉴定对录音有争议的部分进行内容的辨听。
因此,基于以上原因,侦查起诉和审判工作会要求将用方言表达或者模糊不清的说话录音内容,具体地辨识出来。录音的内容是语音证据的重要方面,可起到书证的作用,它关系到证据的价值。一份完整的语音内容整理证据可以为民事诉讼案件的审判、刑事诉讼案件的侦破提供很大的帮助。因此对模糊不清的录音内容进行辨识成为声像资料司法鉴定的一项任务和内容。
二、录音内容辨听的方法
录音内容辨听司法鉴定可以采用语音学、语用学以及专业分析软件等多种方法综合进行。案件鉴定过程中遇到的录音大致分为模拟录音和数字录音。例如磁带中的录音就属于模拟录音,磁带每播放一次,音质就会损耗一点,播放的次数久了音质就会明显下降,因此鉴定时不适合对磁带进行反复辨听。而数字录音则不存在损耗的问题,它的复制和传播都是100%无失真、无品质下降的。因此在鉴定过程中,当遇到检材为模拟录音时,通常都会将其转换为数字录音再进行辨听。
根据《录音资料鉴定规范》中的第2部分,录音内容辨听规范,语音内容辨听有以下几种基本方法:
(一)在无外界干扰条件下,通过高质量的回放系统,反复放音听辨,对录音内容进行书面整理
反复辨听是一个很重要的步骤。根据原来所使用录音机的性能,采用更高性能的录音机或功放机放音,可改善语音的听觉效果。辨听过程中应采用头戴式耳机进行辨听,以排除外界干扰。同时在播放过程中选择具有循环播放功能的播放软件。
(二)对微弱的、受干扰的、不清晰的语音,通过录音处理,改善听觉效果
送检的录音文件经常会出现声音太小听或者背景噪声太大而导致听不清语音内容的情况。此类录音文件在进行内容的辨听之前,先要对其进行处理以利于听辨。例如使用VS99语音工作站、智能声纹鉴定工作站、音频处理软件Cool Edit 、Gold Wave等工具对录音进行处理以利于听辨。
对于微弱的语音,采用语音增益可以起到增强或衰减语音,并能起到滤波(高通、低通、带通)效果。
对于含有背景噪音的录音文件,可以采取自适应降噪或者人工降噪的方法。自适应降噪可设定噪声抑制强度,处理后得到降噪后的文件,可以通过叠加操作并反复视听以达到最终效果,并保存降噪的结果。人工降噪需要人工采集噪音样本,并设定噪音范围后,对整个或多个语音段参照噪音样本进行降噪。
通常会综合使用上述手段并同时使用多种软件,进行反复处理并视听,以求达到最佳辨听效果。
(三)对语义不是十分明确的语音,对说话人的语音特点进行分析,了解与某种发音对应的语义
由于中国文化的博大精深和语言的复杂性,每个人由于生长环境、教育背景、性别、年龄、职业的不同而具有个人的语音人身特征。当在辨听过程中遇到语义不是十分明确的语音时,需要对说话人的语音特点进行分析,了解当地的文化,确定与某种发音对应的语义。
三、录音内容辨听司法鉴定存在的问题
由于录音内容辨听司法鉴定起步比较晚,况且当前并未对其引起足够的重视,因此语音内容辨识司法鉴定存在一定的問题。这些问题应当及时解决,否则将会阻碍该类鉴定的进一步发展。本人认为当前录音内容辨听司法鉴定存在的问题可以归纳为以下几点:
(一)认识不够
实践中对录音内容辨听司法鉴定并未给予足够的重视,没有认识到其重要性,认为语音内容辨识司法鉴定是很容易的甚至无关紧要。从上海某家鉴定机构2017年声像资料司法鉴定案件的分类统计数据来看,该鉴定机构的录音内容辨听司法鉴定案件的数量占声像资料司法鉴定案件总数的比例接近15%,根据这一显示的数据,说明录音内容辨听司法鉴定在声像资料司法鉴定中起着至关重要的作用。因此应当充分的认识到录音内容辨听司法鉴定所起的重要作用。
(二)技术复杂
录音内容辨听司法鉴定的技术涉及语言学、计算机学、物理学、法学等多个学科,其所运用到的知识比较综合,因此该鉴定技术具有复杂性。对于含有背景噪声的录音文件,需要根据噪声的种类,采用相应的方法并综合运用多种工具和手段进行降噪,以达到辨听的最佳效果。
(三)辅助人员易失控
由于语音辨识的内容往往会涉及到方言,而我国的汉语方言十分复杂,目前通行的说法是分为7种:北方方言、吴方言、湘方言、赣方言、粤方言、客家方言、闽方言。所以方言的复杂性和多样性给鉴定工作带来很大的困难,因此常常需要聘请相关的方言专家来进行辅助鉴定。但是辅助人员毕竟不是司法鉴定人,目前对于辅助人员的责任范围没有明确的规定,对其能力的认定也没有一定的标准,因此为确保鉴定结果的科学性,需要对辅助人员进行严格的控制和审查。
四、未来发展方向预测
录音内容辨听司法鉴定是一项技术复杂、内容繁琐的鉴定工作,对鉴定人的计算机技能、方言水平、辨听能力、耐心程度等多方面的能力都是巨大的考验。目前行业内对此类司法鉴定案件的做法主要还是通过人工辨听的方法,将录音中的内容听辨出来然后一句一句翻译出来,整理成文字。对于时间较长的录音文件,此项鉴定工作将会花费鉴定人巨大的时间和精力,对鉴定人的耐心是一种极大的考验。
在高科技迅速发展的今天,依靠信息技术解决鉴定中的技术问题已然成为一种发展趋势。市面上的语音转文字类软件按照应用环境大致可以分为语音唤醒、语音听写、语音转写等三种。语音唤醒多用于设备(手机、家电等)在休眠或锁屏状态下检测到用户的声音(设定的语音指令,即唤醒词),让处于休眠状态下的设备直接进入到等待指令状态,以开启后续进程。语音听写一般支持短时间(一分钟以内)的音频,多适用于人机对话。语音转写可以支持较长时间的音频,使用场景更自然地贴近日常交流。
科大讯飞于今年在开放平台推出一项语音转写服务,该服务基于科大讯飞独立研究的深度全序列卷积神经网络语音识别框架,针对语音的长时相关性进行语言建模,将音频数据转换成文本数据,为后续的信息处理和数据挖掘提供基础。具体表现形式为,将多种格式的长段音频文件(5小时以内)转换成包含时间戳、词句置信度、词属性以及句子标志的文字信息。文字信息提供分词形式以及整段文字形式。使用语音转写服务可以减轻录音辨听鉴定的工作量,由于是对于时间较长的录音文件,可以先使用此项服务对录音内容进行预辨识,识别率一般在80%以上,然后再根据预处理的结果做进一步的完善工作。
五、结语
在我国,有关声像资料司法鉴定中的录音内容辨听司法鉴定的研究,不论是在理论和技术方面,还是在司法应用的实践方面,都处于起始阶段。录音内容辨听司法鉴定需要解决其在鉴定过程中存在的技术难题,在实践中还需要不断探索新的方法和研究领域,促进该类司法鉴定朝着更加合理化和规范化的方向发展。
参考文献:
[1]霍宪丹主编.司法鉴定通论.法律出版社.2009.
[2]王永全.浅谈撰写计算机司法鉴定文书的一般原则//司法鉴定论丛I.北京大学出版社.2008.
[3]杨俊杰编著.司法话者识别.中国人民公安大学出版社.2009.
[4]公安部政治部编.言语识别与鉴定.中国人民公安大学出版社.2007.
[5]李利华.法医鉴定文书制作应注意的问题//司法鉴定论丛I.北京大学出版社.2008.
[6]司法鉴定技术规范《录音资料鉴定规范》SF/Z JD0301001-2010.中华人民共和国司法部司法鉴定管理局.2010.
关键词 录音内容 辨听 司法鉴定 方法 发展
基金项目:本论文受公安部科技强警基础工作专项项目《面向网络语音的声纹特征与识别关键技术研究》资助,项目编号:2017GABJC33。
作者简介:张晓,公安部第三研究所,助理研究员,研究方向:信息网络安全、电子数据司法鉴定。
中图分类号:D918.9 文献标识码:A DOI:10.19387/j.cnki.1009-0592.2018.01.171
录音内容辨听司法鉴定是声像资料司法鉴定的一种。录音内容辨听是指通过听辨,必要时借助录音处理等技术手段,书面整理录音资料所反应的对话内容。公安机关在侦查网络暴恐音频的案件中,需要到对音频中的内容进行辨听以作为立案审查的证据。法院在审判阶段,会对双方当事人提交的对录音内容有争议的录音证据委托鉴定机构进行司法鉴定。
一、录音内容辨听司法鉴定概述
声像资料司法鉴定的鉴定事项一般包括声音资料的同一性、完整性鉴定、录音内容辨听,以及图像资料人像同一鉴定、真实性鉴定等。录音内容辨听司法鉴定是常见的鉴定事项。
(一)录音内容辨听司法鉴定
录音内容辨听是声像资料司法鉴定中常见的鉴定事项,它是指听辨录音资料中谈话者语音文字内容,整理相关人士在实践中用语言表达的思想内容,以及从录像资料的背景图像中提取有关案件的线索信息。
现代语言学中的方言,通常指的是地区方言,也就是指地方话。它是一种全民语言的地域性变体,是一种语言分化的结果,在语音、词汇、语法上具有不同于其他亲属语言的特征,他的内部发展规律服从于全民共同语。
现代汉语的全民共同语是普通话。方言与普通话不是对立的关系,而是个别与一般的关系。新中国成立以后,国家政治、经济高度集中、统一,文化、教育逐漸普及,交通和通信日益现代化,加之推广普通话工作的不断加强,汉语方言停止了平行发展,正在向民族共同语——普通话集中、靠拢。《中华人民共和国宪法》第19条规定:“国家推广全国通用的普通话”。使用国家通用的语言文字,是每个公民应当履行的权利(非义务)。我国是一个多民族、多方言的国家,推广普及普通话有利于增进我国各民族的交流与往来,增强中华民族的凝聚力。因此,录音内容辨听司法鉴定中一项很重要的内容就是把方言整理成为普通话,以解决司法实践中存在的问题,同时为公安机关侦查提供便利。
(二)录音内容辨听司法鉴定的法律依据
声像资料司法鉴定的产生和发展具有社会发展必然性,2005年通过的《全国人民代表大会常务委员会关于司法鉴定管理问题的决定》(以下简称《决定》)中规定了声像资料鉴定这一鉴定类别。2010年发布的司法鉴定技术规范《声像资料鉴定通用规范》中规定了录音资料鉴定分为录音资料真实性(完整性)鉴定、录音内容辨听和语音同一性鉴定。2010年发布的司法鉴定技术规范《录音资料鉴定规范》中规定了录音内容辨听的步骤和方法。标准的发布使得这项鉴定工作有据可依有规可循,使得这项鉴定工作的开展更加规范。
(三)录音内容辨听司法鉴定的目的
委托机关委托鉴定机构做录音内容辨听司法鉴定一般是出于几方面原因的考虑:一是由于某些地区将普通话考试作为司法工作人员的职业准入标准之一,所以这些地方的司法工作人员在工作过程中使用普通话交流,因此将方言翻译成普通话既有利于司法工作,又减少了诉讼当事人交流的语言障碍;二是由于当事人提供的录音证据背景噪音太大、语音内容不清楚难以辨识,致使当事人提交的这份录音证据难以充分发挥其作用;三是由于双发当事人对录音资料的内容有争议,需要提交司法鉴定对录音有争议的部分进行内容的辨听。
因此,基于以上原因,侦查起诉和审判工作会要求将用方言表达或者模糊不清的说话录音内容,具体地辨识出来。录音的内容是语音证据的重要方面,可起到书证的作用,它关系到证据的价值。一份完整的语音内容整理证据可以为民事诉讼案件的审判、刑事诉讼案件的侦破提供很大的帮助。因此对模糊不清的录音内容进行辨识成为声像资料司法鉴定的一项任务和内容。
二、录音内容辨听的方法
录音内容辨听司法鉴定可以采用语音学、语用学以及专业分析软件等多种方法综合进行。案件鉴定过程中遇到的录音大致分为模拟录音和数字录音。例如磁带中的录音就属于模拟录音,磁带每播放一次,音质就会损耗一点,播放的次数久了音质就会明显下降,因此鉴定时不适合对磁带进行反复辨听。而数字录音则不存在损耗的问题,它的复制和传播都是100%无失真、无品质下降的。因此在鉴定过程中,当遇到检材为模拟录音时,通常都会将其转换为数字录音再进行辨听。
根据《录音资料鉴定规范》中的第2部分,录音内容辨听规范,语音内容辨听有以下几种基本方法:
(一)在无外界干扰条件下,通过高质量的回放系统,反复放音听辨,对录音内容进行书面整理
反复辨听是一个很重要的步骤。根据原来所使用录音机的性能,采用更高性能的录音机或功放机放音,可改善语音的听觉效果。辨听过程中应采用头戴式耳机进行辨听,以排除外界干扰。同时在播放过程中选择具有循环播放功能的播放软件。
(二)对微弱的、受干扰的、不清晰的语音,通过录音处理,改善听觉效果
送检的录音文件经常会出现声音太小听或者背景噪声太大而导致听不清语音内容的情况。此类录音文件在进行内容的辨听之前,先要对其进行处理以利于听辨。例如使用VS99语音工作站、智能声纹鉴定工作站、音频处理软件Cool Edit 、Gold Wave等工具对录音进行处理以利于听辨。
对于微弱的语音,采用语音增益可以起到增强或衰减语音,并能起到滤波(高通、低通、带通)效果。
对于含有背景噪音的录音文件,可以采取自适应降噪或者人工降噪的方法。自适应降噪可设定噪声抑制强度,处理后得到降噪后的文件,可以通过叠加操作并反复视听以达到最终效果,并保存降噪的结果。人工降噪需要人工采集噪音样本,并设定噪音范围后,对整个或多个语音段参照噪音样本进行降噪。
通常会综合使用上述手段并同时使用多种软件,进行反复处理并视听,以求达到最佳辨听效果。
(三)对语义不是十分明确的语音,对说话人的语音特点进行分析,了解与某种发音对应的语义
由于中国文化的博大精深和语言的复杂性,每个人由于生长环境、教育背景、性别、年龄、职业的不同而具有个人的语音人身特征。当在辨听过程中遇到语义不是十分明确的语音时,需要对说话人的语音特点进行分析,了解当地的文化,确定与某种发音对应的语义。
三、录音内容辨听司法鉴定存在的问题
由于录音内容辨听司法鉴定起步比较晚,况且当前并未对其引起足够的重视,因此语音内容辨识司法鉴定存在一定的問题。这些问题应当及时解决,否则将会阻碍该类鉴定的进一步发展。本人认为当前录音内容辨听司法鉴定存在的问题可以归纳为以下几点:
(一)认识不够
实践中对录音内容辨听司法鉴定并未给予足够的重视,没有认识到其重要性,认为语音内容辨识司法鉴定是很容易的甚至无关紧要。从上海某家鉴定机构2017年声像资料司法鉴定案件的分类统计数据来看,该鉴定机构的录音内容辨听司法鉴定案件的数量占声像资料司法鉴定案件总数的比例接近15%,根据这一显示的数据,说明录音内容辨听司法鉴定在声像资料司法鉴定中起着至关重要的作用。因此应当充分的认识到录音内容辨听司法鉴定所起的重要作用。
(二)技术复杂
录音内容辨听司法鉴定的技术涉及语言学、计算机学、物理学、法学等多个学科,其所运用到的知识比较综合,因此该鉴定技术具有复杂性。对于含有背景噪声的录音文件,需要根据噪声的种类,采用相应的方法并综合运用多种工具和手段进行降噪,以达到辨听的最佳效果。
(三)辅助人员易失控
由于语音辨识的内容往往会涉及到方言,而我国的汉语方言十分复杂,目前通行的说法是分为7种:北方方言、吴方言、湘方言、赣方言、粤方言、客家方言、闽方言。所以方言的复杂性和多样性给鉴定工作带来很大的困难,因此常常需要聘请相关的方言专家来进行辅助鉴定。但是辅助人员毕竟不是司法鉴定人,目前对于辅助人员的责任范围没有明确的规定,对其能力的认定也没有一定的标准,因此为确保鉴定结果的科学性,需要对辅助人员进行严格的控制和审查。
四、未来发展方向预测
录音内容辨听司法鉴定是一项技术复杂、内容繁琐的鉴定工作,对鉴定人的计算机技能、方言水平、辨听能力、耐心程度等多方面的能力都是巨大的考验。目前行业内对此类司法鉴定案件的做法主要还是通过人工辨听的方法,将录音中的内容听辨出来然后一句一句翻译出来,整理成文字。对于时间较长的录音文件,此项鉴定工作将会花费鉴定人巨大的时间和精力,对鉴定人的耐心是一种极大的考验。
在高科技迅速发展的今天,依靠信息技术解决鉴定中的技术问题已然成为一种发展趋势。市面上的语音转文字类软件按照应用环境大致可以分为语音唤醒、语音听写、语音转写等三种。语音唤醒多用于设备(手机、家电等)在休眠或锁屏状态下检测到用户的声音(设定的语音指令,即唤醒词),让处于休眠状态下的设备直接进入到等待指令状态,以开启后续进程。语音听写一般支持短时间(一分钟以内)的音频,多适用于人机对话。语音转写可以支持较长时间的音频,使用场景更自然地贴近日常交流。
科大讯飞于今年在开放平台推出一项语音转写服务,该服务基于科大讯飞独立研究的深度全序列卷积神经网络语音识别框架,针对语音的长时相关性进行语言建模,将音频数据转换成文本数据,为后续的信息处理和数据挖掘提供基础。具体表现形式为,将多种格式的长段音频文件(5小时以内)转换成包含时间戳、词句置信度、词属性以及句子标志的文字信息。文字信息提供分词形式以及整段文字形式。使用语音转写服务可以减轻录音辨听鉴定的工作量,由于是对于时间较长的录音文件,可以先使用此项服务对录音内容进行预辨识,识别率一般在80%以上,然后再根据预处理的结果做进一步的完善工作。
五、结语
在我国,有关声像资料司法鉴定中的录音内容辨听司法鉴定的研究,不论是在理论和技术方面,还是在司法应用的实践方面,都处于起始阶段。录音内容辨听司法鉴定需要解决其在鉴定过程中存在的技术难题,在实践中还需要不断探索新的方法和研究领域,促进该类司法鉴定朝着更加合理化和规范化的方向发展。
参考文献:
[1]霍宪丹主编.司法鉴定通论.法律出版社.2009.
[2]王永全.浅谈撰写计算机司法鉴定文书的一般原则//司法鉴定论丛I.北京大学出版社.2008.
[3]杨俊杰编著.司法话者识别.中国人民公安大学出版社.2009.
[4]公安部政治部编.言语识别与鉴定.中国人民公安大学出版社.2007.
[5]李利华.法医鉴定文书制作应注意的问题//司法鉴定论丛I.北京大学出版社.2008.
[6]司法鉴定技术规范《录音资料鉴定规范》SF/Z JD0301001-2010.中华人民共和国司法部司法鉴定管理局.2010.