5G时代的音频业：场景延展与融合创新

2022.09.18

李建刚

【摘要】5G技术为探索新型音频业态与应用场景提供了难得机遇，广播需要在音质提升、终端交互和智能场景三个层面的竞争中实施创新策略，从而获得网络效应，重塑用户市场。播客在广播新媒体竞争中的重要性胜于视频或图文，对于吸引年轻用户至关重要。AI语音技术的关键性突破将创造新的产业需求，并有可能彻底改变当前音频业的传播格局。采访、写作、编辑和评论依然是新闻媒体最重要的生产构成，编辑、记者和评论员的角色将变得日益重要。场景延展与融合创新作为两个重要的维度，将持续引导广播业和音频应用创新向前发展。

【关键词】5G 音频广播场景融合创新人工智能

【中图分类号】G220 【文献标识码】A

我国政府将5G描述为“战略性新兴产业”和“新的增长领域”。5G对于中国的科技进步和经济发展至关重要，5G的总体目标是为各种可能从连接受益的任何设备和任何应用提供无处不在的连接，并带动人工智能、电子消费、智能制造等产业的同步发展。音频业的内容生产、传播和分发都将从中受益，广播有机会借助新兴技术重塑用户市场，开创新的传播格局。

5G时代，音频业将以何种方式发展和变化，广播媒体又应如何定位自身在音频业中的角色与影响力，这些都是具有挑战性的重要问题。

一、音频媒介的本质、要素与进化

人们通常会注重可见的视觉元素，忽略隐形的听觉存在。即便在一些传媒院校，对于广播媒介以及音频方面的教学科研也缺乏应有的重视，相关研究呈边缘化趋势。在移动互联的背景下，年轻一代远离广播、电视、CD唱片等传统渠道，而改为网上快速浏览，网络视觉文化流行造成泛娱乐消费态势，降低了人们的文化品位，影响了人们在思想与情感上的深度学习。传统大众媒介被边缘化，引发多种社会问题处于临界的危险。

从宏观层面来看，广播不仅是新闻、音乐、公共服务信息及其他内容的重要生产者与传播者，还是国家、地区或城市对于听觉文化、口语文化在价值判断与美学标准上的引导者与教育者。广播是社会先进文化的展示平台与交流平台，是社会转型期个人心理压力的传感器，是个体情感表达与情绪疏解的重要通道。广播在现代社会中的重要性毋庸置疑。

从广播节目的角度来看，有关声音的内容构成一般包含三种要素：一是人声或语音，二是音乐，三是音响效果。前两种好理解，第三种音响效果包括大自然当中自然存在的各种声响，比如打雷、闪电，还有人们日常生活中发出的声响。广播为人们理解声音提供了一个较为完整的、高质量的媒介框架，即便是电影学院也坚持将广播剧的学习纳入教学计划，将其视为训练学生理解声音艺术性和表现力的有效手段。广播节目的存在，拉近了人们与社会生活的距离，广播中的声音将听众与生活紧密联系在一起。

关于音频业走向的预测需要从声音传播的本质去考量，唯有如此，才能够准确把握主流媒体在5G时代音频传播的重点与方向。音频业发展的恒久动力，来自人们对于更加丰富的声音内容的追求和对于音质体验不断提升的渴望，这两点基本决定了相关技术的方向。同时，市场竞争的结果有时也会导致产业的失衡与破坏，它不能作為国家和社会文化发展的单一的媒介技术判断。例如MP3（Moving Picture ExpertsGroup Audio Layer-3）的出现，极大地迎合和满足了人们对于在线流行音乐文件下载和分享的需求。MP3以其高压缩比抵消了音质不足的缺陷，成为下载的“理想”格式。当时，全球无线电广播和唱片产业在过去数十年间建立起来的音乐生态几乎被MP3音乐盗版和非法下载击垮，这种破坏性迄今仍未能完全消除。值得反思的是，在MP3流行的初始阶段，主流媒体、唱片公司以及规制机构均低估了其对于音频产业的负面影响，也未及时推出有效的应对策略。

对于音频业的理解，需要在文化、社会和技术的综合视角下将新兴技术、产业趋势和媒体格局统筹考虑，一方面正确认识媒介环境与主流媒体的辩证关系，另一方面大幅增加科技投入，强化应用研究，对于以往内容策划和微信微博扩散为重点的传播策略进行优化和丰富。特别是要对智能语音助理、智能硬件、智能机器人等新的界面、新的终端和新的交互机制作出前瞻性分析和判断，为下一代高品质、高质量和多模式的音频传播奠定基础。

二、实施融合创新战略，解锁声音传播的新维度

广播是音频业的重要组成部分。虽然新媒体带来的竞争压力愈加明显，但是广播的内容品质并未受到过多影响。现在，智能手机及导航系统逐渐成为出行者必听必看的伴侣，车载广播的信息与娱乐功能退居其次，广播应扬长避短，可以分为三个层面实施融合创新战略。

（一）提升广播音质，改善音频传输与收听体验，树立音频传播的品牌形象

广播的历史技术路径包括有线广播、无线广播、卫星通信和互联网。不论是哪一种通道，音质的提升都会直接带来节目内容感染力的增强，如立体声调频广播的音质曾极大地满足了听众的需求。5G时代音频产品将更广泛地进入到人们的日常生活，与此同时，消费电子领域的音频设备的性能则会快速提升。例如，索尼公司的高清晰度音频格式，音质标准高于CD，支持用户收听24bit/96kHz的数字音乐内容，这已经接近原版录音的效果。

音频体验改善的另一种方式是引入运动感和空间感，让声音产生“缩放”和“聚焦”的效果，这和前期的录音设备和新的音频格式有关。例如，杜比音响被认为是影院级品质的行业标准之一，在5G时代，这类专业音频标准会向消费电子领域加速扩散，同时移动端的音频体验也会向影院级效果看齐。诺基亚公司两三年前推出的VR摄影机OZO已经提供8个麦克风的全景声音录制功能，可以准确记录并还原360度的声音空间变化。这些技术创新成果已经对部分移动手机厂商进行了专利授权。

广播覆盖作为一项重要的工作，在过去数十年间成就巨大。广播覆盖实现了多元化、立体化和数字化的跨越式发展，但是广播音质的提升与内容风格的变化还有不少提升的空间。音质对于都市听众特别是青少年而言，在保持用户黏性和创新听觉体验方面具有特别重要的意义。

（二）面向智能手机和智能音箱开发音频内容，采取共享的播客策略

播客（Podcasting）距离首次提出已经过去了十五六年，2019年播客成为全球媒体上的热门话题，2020年其热度还将继续增长。国内的广播媒体也有涉足播客领域的，但是数量较少，且重视不足。播客并非是广播的专利，报纸也可以将其作为抵达用户的新渠道，例如英国《卫报》旗下的播客“今日聚焦”（Today in Focus），听众数量已经超过了报纸读者。《卫报》的音频负责人克里斯蒂安·贝内特（ChristianBennett）说，播客深受年轻群体喜爱，完播率达到80%。①美国有9000万人收听播客，这一统计数字是2015年的两倍。播客内容生动，形式灵活，拉近了传统媒体与年轻用户的距离。播客在未来的文化影响方面将进一步加大。需要强调的是，播客对于广播在新媒体平台上的竞争力的形成非常重要，甚至超过视频和图文。

支持电台制定长期播客策略的另一个依据是近年来智能音箱市场的增长。全球知名研究机构卡纳利（Canalys）的数据调查表明：2019年第三季度，全球智能音箱出货量为2860万台，同比增长44.9%，②亚马逊、阿里巴巴、百度、谷歌、小米等公司为全球出货量前五名，排名第一的亚马逊出货量突破了1000万台。英国广播公司（BBC）语音和AI执行编辑穆库尔·德维尚认为：“智能音箱使我们有机会重新想象，如果无线电在今天重新发明，它将不受任何限制。”③2019年10月，英国广播公司推出针对智能音箱的首个交互式语音新闻服务，希望通过该终端与用户建立新的联系。现在，他们的电台节目有多种形式纳入了播客的范畴内，包括1至5分钟的特别节目片段如报道、采访和特稿，6至15分钟的新闻摘要、灵活的电台通告，15至30分钟的深度报道，以及历史音频档案等，都适合以播客的形式在智能音箱上进行访问。

播客可以被视为另一种形式的声音出版，同调频调幅广播节目相比，面向智能语音硬件的交互式语音广播可以提供更多细节，也具有更加灵活的内容样式。许多受欢迎的播客节目都属于非脚本化的谈话和访谈格式，话题由主持人主导，节目极具人格魅力。

（三）聚焦智能汽车场景，建立汽车音频新媒体枢纽

传统的汽车工业与客户的关系主要维持在维护和保养服务方面，汽车厂商没有能力从客户那里收集大量数据。而如今，以特斯拉公司（Tesla Inc.）为代表的智能汽车制造商则能够从客户那里收集到TB数量级的驱动数据（TB指数据存储单位），某些情况下还包括视频。特斯拉将这些数据用于改善汽车的自动驾驶功能。由于自动驾驶汽车的性能和安全性取决于机器学习的效率，而机器学习需要大量的数据，因此特斯拉的数据资源很容易转化为安全驾驶和高质量客户服务的优势。

科技公司在不遗余力地争夺汽车内部空间的使用权和信息的主导权，而汽车依然是极其重要的广播音频应用场景。智能汽车代表着不同以往的新型汽车创新之路，它将为汽车带来海量的网络效应（networkeffects），而汽车也将转变为新兴的物联网平台。华为公司的“鸿蒙”系统可能率先进入汽车，以车载操作系统为枢纽，将互联网、智能手机、语音交互与汽车联通，从而实现华为5G時代的“全场景智慧化”战略。广播需要快速跟上智能汽车的步伐，提前嵌入智能汽车的音频信息系统，对新闻、音乐、播客、公共信息等进行“把关”和推送，通过“智能音频编辑部”重新获得车内音频服务的主导权。

三、移动终端音频技术与性能大幅提升，带动数字音频产业的发展

通信技术，1G让用户移动和通话，2G支持用户发送文本，3G带领用户进入互联网，4G支持移动流媒体传输，而5G技术体系通过建立全新的无线基础架构，获得比4G快百倍的传输速度，并有望消除任何处理延迟。美国是全世界首个大规模应用4G的国家，而中国目前在5G技术研发和建设中处于领先地位。5G将大量设备连接到云，这将带来支持高质量语音服务和音乐体验的移动通信产品快速普及。在2019年世界移动通信大会（MWC）的展示中，音频产品的数量和性能尤为显著。耳塞式无线耳机的数量成倍增加，并且超过了传统耳机。新型无线耳机便于携带，通话质量更好，支持长时间供电，还可以抑制环境噪声。如今，在大中城市的地铁、超市或办公室中，佩戴无线耳机的人们随处可见，这些都是数字音频服务新的增长点。

需要注意的是，智能手机、智能音箱、无线耳机等消费终端的音频技术质量已经超越了传统的广播接收设备，正向更专业的音频标准靠近。2019年世界移动通信大会上许多科技公司在推广5G产品时，会以录音室质量的等效体验来吸引用户。随着新型移动通信音频产品的普及，电台访谈、名人演讲、乐队采访、音乐会直播等充满活力的有声内容都将进入实时互联、永不断线的网络传播。5G的超低延迟技术支持对于音乐会现场来自多个位置的协作录制或转播的要求，而手机也将具有强大的音频录制与编辑功能。

互联网诞生之初，人们对于数字经济抱有很高期望，然而过去30年数字经济的发展，对国家国内生产总值（GDP）增长的贡献却并不显著。以美国为例，2000年以来，包括软件和信息技术公司、互联网公司以及娱乐和出版在内的文化科技行业在美国GDP中所占的份额仅增长了1%。④人们在享受数字经济带来免费内容的同时，报纸、杂志、广播、电视、通讯社等媒体机构的收入不断下滑。传统媒体为互联网贡献了内容价值，但是其流量和显著性并未充分转化为收益。中国在5G方面的产业优势为广播业探索新型音频业态与应用场景提供了难得的机遇，而数字音频的电子消费及内容产业亦有望实现对于国家生产力的真正促进。

四、人工智能语音技术的关键进展对于音频业的影响

图灵（Alan Mathison Turing）测试是人工智能在哲学方面首个严肃的提案。图灵在1950年提出的智能测试，以计算机键盘和屏幕为载体，测试结果不依赖计算机把单词转换为音频的能力。图灵成功定义了什么是机器，却不能定义什么是智能。距离1956年达特茅斯会议⑤已经过去了六十余年，与机器学习在图形图像方面的飞速发展相比，人工智能（AI）语音技术的进展显得过于缓慢，许多研究收效甚微。这也反映出声音在智能化处理时所面临的与图像和文本研究方法的差异。

虽然语音合成如今在日常生活中随处可见，例如导航软件、电脑交互，或者文本语音转换系统，但是许多用户对于机器语音依然表示失望，合成带来的机械音色缺少人类语音语调的基本变化，很容易让人意识到是在与机器交流，而不是与真人对话。AI语音的科学研究正在从效率、准确度、清晰度向更加真实、能够模拟和反映人类真实情感的机器语音方向前进。科大讯飞公司已将真人语音的采样复刻时间缩短到5分钟，用户复刻声音后，在讯飞客户端中可以收听官方推送的早报、快讯、公众号文章以及本地文档。

2019年夏季，脸书（Facebook）的研究人员肖恩·巴斯克斯和麦克·刘易斯开发的AI语音合成软件在深度学习上取得明显突破，他们演示了比尔·盖茨的数字化合成声音⑥，只有亲耳听过才会被其逼真度所震撼。肖恩·巴斯克斯和麦克·刘易斯使用频谱图而不是音频波形来训练其深度学习网络，同时采用了一种称为反向传播的学习过程。这种新的研究方法克服了文本到語音系统的局限性，产生出完全由机器生成的栩栩如生的声音。这种技术不但可以重现人类的语调，而且可以像真人一样说话。

人工智能语音技术以微秒（百万分之一秒）为单位进行声音的建构与处理，目前广播节目编辑最小的时间线单位为毫秒（千分之一秒），虽然处理的都是声音，但是对于数字化而言，这已经是微观和宏观的差别。AI技术创建的声音波形不仅反映出与单词序列相关的特征模式，还能显示与音调和音色相关的特性。肖恩·巴斯克斯和麦克·刘易斯在代码托管平台Github上公开发布了更加多样化的演示案例，涉及复杂场景中人声的创建⑦，内容形式包括：演讲、对白、讲故事以及钢琴演奏。

音频媒介是否可以完全由AI作为声音代理（AudioAgent），这曾经是智能语音技术的关键性问题。从声音建模和技术实现的角度来看，脸书（Facebook）的这项成果已经作出了明确的回答。该技术的运用可能给音频业带来以下重要改变：第一，部分电台大规模部署基于AI的“声音代理人”技术，进入高度自动化的人机协同新模式。第二，真人语音的AI版权交易市场形成，主持人、嘉宾以及电台音频档案中的历史样本都可以为AI声音版权系统提供来源，掌握优质人声音色版权的机构将成为AI有声内容链的上游。第三，在5G万物互联的网络环境下，AI语音嵌入各类消费电子产品之中，与物联网融为一体。第四，假音频（deep fake audio）内容可能大量出现，如同AI引发的假视频（deep fake video）、假新闻一样。AI语音引发的版权争端和伦理问题为监管带来新的挑战。第五，有效验证音频真伪的智能“声印”技术与平台开始出现。

五、结语

高通公司总裁斯蒂芬·莫伦科普夫在2017年美国拉斯维加斯消费电子展会（CES）上说：“5G是人类社会自产生电力以来最大的事情。”⑧5G将以人们从未见过的方式改变社会，我们需要更多思考的是：如何与未来连接。

与高分辨率视觉图像不同，声音低分辨率的信息特性使得人们容易产生参与感⑨，这与新旧媒体无关，而与人的认知特性有关。当前，流行的音频产品和技术还远未满足人们对于美好内容的追求。声音、媒介与人的交流，不仅是客观物理参数的组合，还是心理感知的研究和重构。科技公司对于声音感知与美感的塑造，某些时候依然缺乏准确的理解和把握。

5G时代，音频业的许多问题还需要在实践中给予验证和回答。在新时代背景下，广播电台应积极拥抱新兴技术，持续推动主流媒体在音频传播方面的战略设计、技术更新与运营实施。这符合广播媒体的现实利益和长期目标，也符合音频业技术创新和业态融合的迫切需求。采访、写作、编辑和评论依然是新闻媒体最重要的生产构成。编辑、记者和评论员的角色将变得日益重要，他们代表着新闻价值的判断和新闻伦理的维护，也担负着在人机协同的信息流中对于AI自动化的监督职责。场景延展与融合创新作为两个重要的维度，将持续引导广播业和创新音频应用不断向前发展。

注释

①Inspired by The Daily， dozens of daily news podcastsare punching above their weight worldwide， Nic Newman，www.niemanlab.org，2019年12月3日。

②Canalys：Amazon smart speaker shipments cross 10million mark in Q3 2019，Canalys.com，2019年11月13日。

③BBC lunches“UK First”interactive voice news service，Jenny Priestley， TVBEUROPE，2019年10月23日。

④Why Tesla is Worth More Than GM， JamesSurowiecki，technologyreview.com，2017年6月27日。

⑤1956年达特茅斯会议，约翰·麦卡锡提出了“人工智能”的概念。希望用当时刚刚出现的计算机来构造复杂的、拥有与人类智慧同样本质特性的机器。会议正式确立了AI这一术语，并且开始从学术角度对AI展开了严肃而精专的研究。

⑥Facebooks AI system can speak with Bill Gatessvoice，MIT Technology Review，2019年6月10日。

⑦https：//audio-samples.github.io/.

⑧Qualcomm says 5G is the biggest thing since electricity，Claire Reilly，2017年1月6日，CNET。

⑨Marshall McLuhans message was imbued withconservatism，Lance Strate，The Guardian，2011年7月26日。