智能语音技术在广播产业中的四种应用

2022.09.16

朱飞虎　焦庆争

【摘要】智能语音技术自上世纪末开始在广播产业中应用，随着深度学习算法的普及而有了强大的技术支撑。目前，智能语音在广播产业中有四种应用，即广播内容采集、广播内容生成、广播内容传播、广播内容管理，本文对此做简单梳理，以明确下一步工作的推进。

【关键词】智能语音广播产业传统广播

【中图分类号】G221 【文献标识码】A

1997年，比利时莱尔努·豪斯派（Lernout&Hauspie）公司发布了Naturally Speaking软件的1.0版本并大受好评，这是第一款为世界所知的消费级智能语音软件产品。人们惊叹于它的连续语音识别能力和准确度，并愿意为此付费，这让该公司很快取得了商业上的成功。

Naturally Speaking的成功直接启发了其他公司或组织对于加快智能语音应用的思考。彼时，NaturallySpeaking的愿景是为专业人士分担工作，用语音识别的方式帮助他们完成文档、报告、邮件、表格、日程安排等工作。但是，很快人们就将智能语音的应用场景从个人办公拓宽到汽车、医疗、通信、家电等行业应用中，智能语音技术在广播产业中的应用也是从这一时期起步的。比如：日本电报电话公司（NTT，Nippon Telegraph&Tel Corp）自行研发了一套实验性的语音交互系统，用于广播和数字通信中的语音转录与信息提取（1997年）;①美国麻省理工学院媒体实验室为广播电台设计了一款广播内容分析软件，可以基于兴趣偏好为用户匹配类似的音频新闻故事（2000年）;②日本放送协会（NHK，Nippon hoso kyokai）在自己的广播电视新闻节目中使用一套字幕实时转录系统，解决了键盘输人新闻字幕速度跟不上播音语速的同题（2000年）;③欧洲的葡萄牙及很多其他葡萄牙语国家则应用了一套名为AUDIMUS的语音识别引擎，用以进行广播播出监控和音频数据自动转录，可以实现低误差和后期4倍加速效果。④

当然，当时的智能语音技术在广播产业的这些应用存在着非常大的局限性：一是基本只有智能语音中的语音识别技术得到了应用，缺乏与其他技术的联动，应用的场景非常有限，多数用于广播节目的后期转录存档。二是应用的范围有限。因为当时语音识别软件的稳定性、適应性还存在一些问题，所以这种应用只能在广播播出间、编辑室中展开。三是很多智能语音系统还处在实验性阶段，大部分不甚成熟且造价较高，故这种应用基本上只在一些发达国家的规模较大的广播电台中存在。

智能语音技术在广播产业中的应用水平是以智能语音技术发展水平为前提的，2006年之后，随着深度学习算法在智能语音研究领域中的普及，智能语音的技术水平才迅速发展。智能语音在广播产业中的应用也迅速铺展开来，同时开始向纵深推进。

一、智能语音在广播内容采集中的应用

传统广播内容采编，主要依靠记者在现场通过录音笔、电脑以及纸笔进行记录，而整理采访资料时经常需要重复听录音，费时费力。智能语音的出现为这个问题提供了一种解决方法。

2015年，原中央人民广播电台和中国科学院签署协议，决定共建中国广播云平台，其中一项重要内容就是建立国内广播电台全媒体采编系统，实现人工智能时代广播新闻采编的进化。在全媒体采编系统中，记者可以通过手机采编客户端将采访录音实时转化为文字，辨识正确率在95%以上，并且可以进行语义修改，基本上达到了即采即发的标准，极大地提高了新闻采编的效率。这套系统支持蒙古族、藏族、维吾尔族、哈萨克族、朝鲜族等5个少数民族语言和中、英、俄、法、日、韩等多国语言，可在采访录音时通过智能语音引擎将上述语言实时翻译为中文，突破了记者个人能力的限制，将“不可能的采访”变成了可能。

不过，这套全媒体采编系统仍然存在局限，比如需要依赖手机进行录音，在嘈杂的采访环境或现场远距离采访中效果就不甚理想;还需要依赖手机网络信号，遇到复杂网络场景（如大型发布会现场）或者无网络场景（如偏远山区）时，语音转化能力也大打折扣，语音翻译则基本不可用。

众多的智能语音公司尝试为新闻记者生产专门的智能语音采访设备来解决这些问题，科大讯飞股份有限公司就是其中的先行者。其在2018年推出了专门针对媒体工作者的专业转写设备“讯飞M1转写助手”，并将之提供给一些中央级媒体进行全国两会采访使用。这款设备能够有效拾取十米范围内的声音并进行数字降噪，实现远距离无损录音;同时内置离线智能语音数据，可以实现无网络条件下的转写和翻译。2019年，科大讯飞股份有限公司又推出面向会议采访的语音转写移动工作站——讯飞转写机，除了能够精准拾取与识别会议、讲座、发布会的语音内容并实现语音转文字和即时翻译之外，还能够识别不同声源，智能区分不同说话者的声音，并按照人物将文字稿分类排布。目前讯飞转写机由于售价昂贵，尚未在记者群体中普及，但在不少大型会议现场已经可以见到它的身影，主办方主要使用讯飞转写机进行现场双语字幕直播，同时为记者提供现场语音和文字实录。其通过“语音+图像”同步智能识别技术，能够自动查找、识别演讲者投影屏幕中的关键词汇，并将其自动添加到语音识别引擎中，实时生效，大幅提升了专业词汇的识别效果，⑤减轻了记者后期文字编辑的工作量，也降低了可能出现的专业知识纰漏。

类似的专业智能语音设备其实还有很多，比如瑞典Anoto公司生产的Livescribe智能笔，它支持记者在采访时边录音边用智能笔写下关键信息，并将录音与文字同步到云端，在采访结束后，在手机应用中点击相关文字时，将会播放当时的实况录音，这将有利于音频资料的查询与广播节目制作。还有北京搜狗公司推出的搜狗智能录音笔C1，它在基本的语音转文字功能的基础上，还完善了自动分段、语气词过滤、关键词优化、在线编辑、重点标记等功能。⑥

随着越来越多的广播电台都开始为记者配备这些体积小巧、功能完善的专业级智能语音采访设备，智能语音技术正在广播内容采集中发挥越来越大的作用。

二、智能语音在广播内容生成中的应用

尽管最早的CRT示波器在1897年就已经出现，但示波技术被广泛应用在广播内容制作上却是20世纪60年代之后的事情，它让广播采集的内容变为“视觉可见”。尽管这是广播内容制作的一个巨大飞跃，但是它也存在着“可见却难以理解”的原生缺陷，节目制作者往往需要花费大量时间反复聆听来确认具体内容，故而效率也是无法保持的。要解决这一问题，必须使广播由“视觉可见”变为“视觉可理解”，而智能语音恰恰能够满足这一点。

2017年7月，江苏省广播电视总台面向内部推出了一套内容编译系统，⑦用于广播节目的后期制作。这套系统能够通过智能语音将广播音频文件转化为文字，并将音频内容与文字内容一一对应、说话者声音与特定颜色一一对应。这套系统可以实现以下功能：一是支持通过文字进行音频寻址，这让编辑可以快速找到所需音频片段并进行剪辑;二是支持预设敏感词，并对含有敏感词汇的广播内容进行特定颜色标注，这将有利于编辑进行节目审核;三是支持视频内容字幕制作，为广播电台在新媒体平台上的声音、文字、视频融合传播提供便捷。观察这套系统的运行逻辑，我们会发现，智能语音是其实现众多功能的核心，它通过声音与文本的内容转化，将音频波形编辑转变成文档编辑甚至图形编辑，从根本上打破了媒介编辑的界限，改变了传统广播内容后期制作的方式，在极大程度上提高了广播内容制作效率。应当说，江苏省广播电视总台的这套系统是智能语音技术在广播内容制作中后台编译方面的成功应用，但这一系统目前还未推广开来，无论是国内还是国外，类似的尝试还比较少见。

与此同时，智能语音技术在广播内容制作中的另一种应用却较为广泛地出现在了各大广播电台中，这就是拟人化的智能语音角色参与到节目前台播报之中。最具代表性的是由微软（亚洲）互联网工程院研发的“小冰”智能语音技术，从2017年北京广播电视台青年广播FM98.2、湖南广播电视台音乐之声FM89.3、中央广播电视总台国广HitFM FM88.7三家广播频率开始，到2019年8月1日，“小冰”已经在国内主持了63档电台和电视台的节目。⑧在这些节目中，“小冰”或与真人主持人搭档，或自己全程主持，所表现出的主持水准令人赞叹。对于广播内容制作来说，“小冰”的加人所带来的益处是显而易见的：一是能够让广播电台真正实现全天候、不间断地高质量播出，充分保证了广播节目制作和播出的持续性。二是能够确保提供精确信息。因为“小冰”知识储备非常丰富，且不会出现口播差错，保证了广播节目制作和播出的稳定性。三是通过了解听众喜好，“小冰”能够因人而变，实时为用户提供精准的内容服务，这提升了广播节目制作和播出的针对性。四是能够丰富广播节目样态。“小冰”除了可以做主播，还可以做新闻评论员、歌手、诗人等，它能应听众之邀不时地在广播节目中唱上几句或者评论一下时事，或为某个来电听众写首藏头诗，这些功能是普通真人主持人所难以一人兼具的。因为“小冰”的出色表现，正有越来越多的国内广播电台向它发出邀请。

三、智能语音在广播内容传播中的应用

2019年6月，美国国家公共广播电台（NPR，National Public Radio）与美国爱迪生研究公司（EdisonResearch）發布了一份《智能语音报告》，报告显示，在美国18岁以上的成年人中，21%的人拥有一台智能音箱，拥有人数达到5300万，而2018年这一数字是1400万，其增长率高达378.6%。在拥有智能音箱的被调查对象中，有42%的人会使用智能音箱来获取新闻，37%的人会听AM/FM广播，55%的人则认为他们在拥有智能音箱之后听了更多的音频内容，还有74%和66%的人表示他们会在做家务或者下厨的时候使用智能音箱。

尽管这份报告表征的是美国智能音箱的使用现状，但它是具有代表性的，至少说明了智能语音在广播内容传播中的几个重要作用：一是扩展了用户的广播收听渠道。这让广播在传统广播收音机、智能手机之外，有了更多传播渠道的可能。在中国，智能音箱2019年在中国市场的用户规模已经达到了2370万台，相较2018年的257万台提升了近8倍。⑨在英国，2018年智能音箱已经有950万用户，比2017年增长98.6%，而这一数字在2019年将会再增长31.6%，达到1260万人。⑩二是增加了用户的广播收听频率。人们乐于通过简单的唤醒词打开智能音箱，并使用便捷的语音交互选择自己喜欢的广播频率，让它伴随性地播放。三是使广播重新进入家庭。在客厅中，智能音箱越来越成为和电视一样的必备家电，它使一家人聚在一起共同聆听广播，就仿若在美国上世纪30年代一家人通过收音机聆听罗斯福的“炉边谈话”一般。

智能语音技术为广播的内容传播开辟了新市场，并吸引着越来越多的广播电台将自己的频率与智能音箱连接，以便触达更多用户。早在2014年，美国国家公共广播电台便与亚马逊Echo智能音箱合作，成为其默认新闻提供商，而后又人驻谷歌Home智能音箱和苹果Homepod智能音箱，为它们提供广播音频内容;美国NBC环球集团的消费者新闻与商业频道（CNBC，Consumer News and Business Channel）则从2016年12月起开始为亚马逊Echo智能音箱提供新闻服务;英国广播公司（BBC）也在2017年12月宣布，亚马逊Echo智能音箱的用户可以在这一平台上收听英国广播公司56个广播频率的内容，同时还将《阿澈一家》《女性时间》等热门节目搬到了上面。⑧同时，值得关注的是，由于进驻了这些智能语音平台，广播公司所生产的内容可以被用户以语音控制的方式无障碍地发现。

上述应用非常重要，虽然这种连接，本质上还只是广播内容传播的渠道延伸。其实，在智能语音这样一个新的声音消费平台上，业界更关注的是探索一种与广播电台、网络电台完全不同的声音传播与消费形式，这是智能语音为广播内容传播所带来的新思考。从已有的实践来看，这种形式主要有以下三种：