大数据时代编辑智能化路径分析
陈铭 徐丽芳
摘 要:大数据时代,数据主义既是认识论也是方法论,可推动编辑工作在理念层面和实操层面拥抱大数据和算法技术,实现编辑智能化。在理念层面,编辑应从数据主义视角重新审视大数据与编辑工作的关系,探究智能算法在编辑工作中的可供性,并引入“编辑智能论”作为未来编辑工作的新范式。在实操层面,本文就数据应用、内容分析和用户画像三个方面总结国外编辑群体借力大数据和算法技术的实践经验,以期为我国编辑工作拓展思路。
关键词:大数据 数据主义 算法 编辑智能化 用户
互联网和移动互联网所产生的海量数据为观察用户行为和信息传播过程提供了宝贵资源,促成了学界和业界广泛的研究和实践。尤其在近几年大数据技术和人工智能(Artificial Intelligence,AI)技术取得实质性突破之后,在数据挖掘、机器学习(Machine Learning)和智能算法的助力下,立足于计算社会科学的全新起点,数据要素和计算能力将成为所有社会科学赖以生存和发展的关键。[1]迄今為止,数字出版的发展使出版各环节都有海量用户参与,并形成了大量的出版数据。[2]我国出版业一直积极探索大数据技术的应用思路,并取得了一定成就,但对数据的应用仍需要结合机器学习、智能算法等新技术的出现,以开展更加深入的研究和实践。而为了新时代编辑工作的高质量发展,从事编辑工作者应密切关注智能媒体时代新范式的技术逻辑,用数据和算法思维看待和解决出版业的各类新旧问题。简而言之,计算传播学等计算社会学科所推崇的数据主义既是认识论也是方法论,有利于推动编辑工作在理念层面和实操层面应用大数据和算法技术。
一、变革编辑理念:从经验主义到数据主义
当前智能媒体时代初露峥嵘,面临转型升级挑战的出版业正可通过全面的数据分析等技术手段来重新解读和界定内容、用户、营销等基础问题。但产业的成功转型首先得益于理念上的重构/升华,在未来的编辑工作中,编辑群体需从数据主义视角深入思考大数据和智能化时代对编辑工作的解构和重构。
1.大数据技术与编辑工作的关系
未来的出版内容将趋向于各特定形态的新产品和服务,用户需要的不再是干巴巴的一本书,而是能精准解决用户在获取信息或内容方面痛点、痒点的个性化产品及服务。为此,编辑可运用数据挖掘和智能算法等工具去匹配每位用户的个性化需求,开展更精准、有效的营销工作。
就波普尔的“三个世界”②理论而言,编辑工作本质上从属于“世界三”,即“客观知识世界”的构造活动。在智能媒体时代,数据技术将在这一活动过程中扮演重要角色。首先,出版物一直都是内容和技术的综合体;从其本质来看,内容和技术从来不是相对的二元存在。[3]因此,出版物可视为通过编辑活动实现的人工产物,并带有一定的技术成分。其次,数据分析等新技术逐渐成为编辑活动中的基本生产要素。从历史角度看,出版一直是一个技术驱动的行业,技术发展在很大程度上影响了出版发展的速度甚至走向。[4]编辑作为出版业务流程中的必要环节,势必会受到大数据技术的冲击和影响,对数据的利用程度将不断攀升。最后,正如克莱·舍基所言:“新的工具赋予我们新的能力,继而又使我们能为彼此创造新的机会。”[5]大数据技术会随着在编辑活动中的广泛应用而成熟、进化,从而赋予编辑新的能力。目前越来越多出版物以“数字原生”(digital born)形式生产和传播。这部分机器可以直接读取的知识资源将成为大数据技术所需的基本原料;机器学习将在此基础上不断训练,并因而在发现数据背后的规律上越来越出色,从而可进一步帮助编辑发现优质内容资源并匹配细分用户。
2.计算能力成为编辑工作的关键
正如许多传播媒介在完成数字化、数据化工作之后迈入了算法化的新阶段,[6]编辑智能化的实现需要数据和算法的双擎推动。目前,大数据已逐步成为出版工作的基本生产要素,编辑从业人员日益重视对数据的采集、加工、标引等;而数据计算则是推动数据应用成为核心驱动力的关键所在。只有高超的计算能力才能助力挖掘出海量数据中所蕴涵的价值,从而为编辑智能化创造机会(见图1)。一方面,算法可推动出版内容的改进,迭代出版数据的附加价值。用户产生的行为数据以及用户评论等衍生数据都将作为机器学习算法改进的依据。这种算法的稳步改进将让编辑工作中选题、研发、后期制作等每一个环节和细节变得更有针对性、更高效,从而促使出版产品的不断完善。另一方面,算法可更加突显出版内容的服务功能,[7]即可通过数据发现个体需求,丰富服务类型。在大数据提高了用户的“能见度”后,算法通过机器所“看见”的用户画像分析和匹配用户的个性化内容需求。因此,算法技术不仅是在筛选、甄别内容,同时也日益成为编辑和用户与比特世界中的数据、信息、知识等进行互动的中介,为人们的日常生活、学习、工作和社交发挥越来越重要的服务作用。如国外以亚马逊、苹果公司为首的互联网企业,凭借自身积累的用户数据和专业数据分析能力,由网络渠道商和硬件提供商逐步转型,发展内容服务业务。这些互联网企业通过算法得出用户偏好,从而使其网页上的推荐更加贴近用户的痛点和痒点。
3.作为新范式的编辑智能论
大数据时代,“编辑智能论”正逐渐形成。[8]对此,应充分了解技术对编辑工作的可供性和局限性,主要体现在以下几个方面:第一,以大数据和算法技术为支撑,但不唯数据是从。毫无疑问,大数据技术丰富了编辑对存在于出版内容中的各类语义内容的理解,使海量语义数据和用户信息价值化。但编辑不能让自身对出版内容进行的深度阅读、理解和甄别完全被数据相关性分析所左右。第二,编辑的“把关人”职能应进一步加强。一方面,大多数用户只是通过内容产品来满足消遣、宣泄等个人情感需求。在用户至上主义的背景下,碎片化内容的生产仍需专业人士适度地规范、引导。另一方面,算法技术也会因算法自身的局限、算法设计者的偏见和输入数据的偏倚,[9]导致其在选择和分发内容上的偏差。因此,编辑的把关人角色不可或缺。[10]第三,编辑智能化的“智能”不仅仅是大数据技术和算法为编辑工作带来的单一机器智能,而是联合作者、编辑和用户的群体智能。出版业属于文化产业,文学作品需要百花齐放而不是标准化生产。因此,机器算法等人工智能并不能取代作者所能给予读者的文学智慧。此外,编辑不仅要从内容制作的专业视角出发,还应主动接触并利用包括用户在内的各类社会主体的信息网络,实现协同编辑。
二、重塑工作流程:從方法论到实践层面
随着数据主义视角和数据分析工具在编辑工作中越来越受到广泛关注和高度认可,基于大数据的内容价值发现和分析复用正深入出版产业的不同层面和编辑工作的各个环节,国内外编辑开始尝试通过算法思维对编辑工作进行解构和重构。但出版业并不像其他用户群体相对集中的行业一样具备大数据应用的“先发优势”。一方面,由于出版业尤其是大众出版领域内长期以往的B2B(Business-to-Business,企业对企业)商业模式分散了企业直面用户的机会,无法获取大量“第一手”用户数据;另一方面,由于出版业面对的用户群体较为多样化,所以在大量复杂的数据集生成后,仍需由专业人员管理、分析和操作。这对不具备技术优势的传统出版企业和编辑来说都是一个很大的挑战。但随着出版业数字化转型的逐步深入和大数据应用规模的不断扩大,大数据和算法技术在编辑工作中的应用将在广度和深度上不断增加,在选题策划等业务环节扮演重要角色,甚至会给营销方式等市场运营方面带来全新的变革。因此,编辑不能继续持观望态度,必须克服自身困难在大数据浪潮中开启对大数据应用的实操探索。目前,国外在这方面的发展相较于国内更为丰富和成熟,下文通过总结国外编辑借靠大数据和算法技术的实践经验,作为他山之石为我国新时代编辑工作的开展提供思路。
1.聚合数据,形成反馈闭环
为了获取一手数据,欧美许多大众出版商最初通过向下游延续销售环节的做法获取用户数据,并纷纷开设图书推荐平台直接与用户对接。2013年2月,由三家大众出版商巨头阿歇特图书出版集团、企鹅出版集团和西蒙&舒斯特公司联合创立的图书推荐平台Bookish正式运营。其他如霍顿·米夫林·哈考特集团、哈珀·柯林斯和独立出版商等诸多合作伙伴加入。Bookish旨在借助机器学习和数据技术为用户推荐适合的书,并在用户选择图书的过程中持续地收集用户数据。除了专注于挖掘用户数据,目前还有很多为出版商提供图书数据的服务公司可以向编辑人员提供帮助。例如苹果收购的BookLamp公司就是一家收集和分析图书数据的技术公司,其业务主要是基于自然语言技术完成图书内容分析。在被苹果收购之前,BookLamp服务的订阅者包括兰登书屋和肯辛顿图书公司等出版商,其“图书基因组计划”通过分析图书自身的“基因”信息,帮助编辑制定、调整他们的图书宣传策略和市场定位。[11]在大数据时代,图书语义数据和用户行为数据的价值都将被智能化处理。在此过程中,编辑可通过构建各类数据的反馈闭环(Feedback Loop),利用算法技术将数据转换为创造价值的效率系统(见图2)。例如内容创作公司BuzzFeed,通过将市场环境和读者反馈数据量化、结构化并及时反馈给内容编辑人员等,构成一个辅助创作的数据闭环。[12]
2.聚焦内容分析,选题策划
出版管理正逐渐迈向以数据为中心的发展阶段,但由于许多编辑并不具备技术优势,所以在数据分析层面更多地寻求“外援”开展选题策划工作。图书咨询公司Archer Jockers致力于使用大数据分析技术破解小说畅销的一般模式,探寻暗藏于畅销书中的独特信号。[13]其利用机器学习、深度学习和递归神经网络等算法,对图书内容进行拆解;从句子结构、用词、语法等方面做“诊断”;着眼于文风、主题、人物和情节等维度生成精细数据,并在此基础上为出版机构提供畅销书选题服务。[14]
社交平台上,书评等用户衍生数据同样也是编辑选题策划时需要重点分析的内容。[15]大数据技术可将每一个内容片段标签化和体系化,进行内容画像;还可将平台上与图书相关的关键词进行排序,发掘近期热门题材。2019年1月,全球最大的阅读和写作社区Wattpad推出出版业务部门Wattpad Books,结合机器学习和人工编辑从平台的560多万个故事中甄选精品,同时基于用户行为数据选出最具价值的出版书目。
随着大数据应用逐渐渗透到选题工作中,一些编辑直接通过量化分析方式锁定出版选题。例如,一些致力于非虚构类题材的小型出版商通过收集网络书店或搜索引擎上的近期搜索数据,挖掘用户感兴趣的阅读题材,然后招聘写手,依据数据分析得出的大纲快速创作,抢占出版先机。
3.具化用户画像,开展精准营销
虽然越来越多大众出版商深刻感受到大数据在改进商业模式方面的驱动力和压力,但并不是每个出版商都有信心把获取的数据货币化。其中,市场营销是兑现数据货币价值的关键环节。[16]
根据温德尔·史密斯STP理论③的根本要义,识别和获取核心用户的数据有利于选择目标市场和制定营销策略。这对出版业这类兼具利基市场和垂直行业特征的领域而言尤为重要。随着数据主义和计算主义将市场传播推向精准传播,从同质化大众传播模式转向异质化智能传播模式,用户、场景和内容之间有望实现良好匹配。易言之,大数据时代的市场营销工作需要将大众区分为一个个具象的个体,勾勒出更加清晰的用户画像,以反映异质化的市场形态。但相较于内容分析,用户画像的难度更大。目前,大多数编辑工作是通过收集读者阅读行为及购买记录,量化读者的阅读偏好及个性化阅读需求,提升市场营销效果。但这些简单的数据远远不足以构建全面立体的用户画像,用户的显性需求和隐性需求还是无法很好地呈现。对此,编辑人员可以通过一些专门的用户数据分析公司获取更全面的数据服务。例如,科技公司Tekstum一直都依靠数据和人工智能技术帮助出版商解读读者情感,通过分析社交媒体上用户发布的内容,为编辑提供了解用户情感反馈以及对特定种类图书看法的渠道,[17]帮助编辑在熟悉用户心理特征的前提下做出营销决策。
三、结语
5G、AI、云计算等技术的出现扫除了许多信息处理、数据传输及利用等基础设施层面的重大难题,物理世界中的现实属性(包括人的现实属性)越来越多地迁徙到数字空间中。编辑工作将有望触达更多关于内容产品、用户的不同数据,获得更先进的算法技术的支持。因此,新时代的编辑应当要有导向意识和担当精神,辩证看待计算传播范式对出版环节的重塑,并据此对编辑工作进行改良和重构。此外,编辑人员应积极熟悉聚合、量化和结构化数据等新的技术手段,以便从技术层面深入了解未来内容市场的利基点,为企业赢得长足发展的新动力。
注 ? ?释:
①引自《计算传播学:智能媒体视阈下传播学研究的新范式》一书的专家(喻国明)推荐语。
②波普尔的三个世界是观察、定义现实的一种方法,将世界分为三个种类。世界一指的是由物理客体和事件组成的世界,包括生物的存在;世界二指的是由心灵主体和其感知事件组成的世界;世界三指的是客观知识组成的世界。引自:维基百科.波普尔的三个世界[EB/OL]. [2019-8-26]. https://zh.wikipedia.org/wiki/%E6%B3%A2%E6%99%AE%E5%B0%94%E7%9A%84%E4%B8%89%E4%B8%AA%E4%B8%96%E7%95%8C.
③STP分别指代的是:Segmentation,市场细分;Targeting,目标市场选择;Positioning,市场定位。
参考文献:
[1]张博,乔欢,李武.基于大数据的出版内容价值发现与应用[J].出版发行研究, 2014(3): 5-8.
[2]王晓光.人工智能与出版的未来[J].科技与出版, 2017(11): 4-6.
[3]徐丽芳.网络出版策略研究[D].武汉:武汉大学博士论文,2002(4):20.
[4]克莱·舍基.认知盈余[M].胡泳, 哈丽丝,译.北京:中国人民大学出版社,2012:110.
[5]劉庆振,于进,牛新权.计算传播学:智能媒体视阈下传播学研究的新范式[M].北京:人民日报出版社, 2019:165.
[6][9]曹海峰.算法时代编辑出版专业人才培养模式创新与思考[J].中国编辑, 2018(9): 36-39.
[7]王成文.信息权力结构的演变与大数据时代的“编辑智能论”[J].出版分析研究,2013(6):15-18.
[8]张超.作为中介的算法:新闻生产中的算法偏见与应对[J].中国出版,2018(1):29-33.
[10]徐丽芳,池呈.基于图书“基因”的阅读推荐:BookLamp[J].出版参考,2015(7上):18-19.
[11]闫泽华.内容算法:把内容变成价值的效率系统[M]. 北京:中信出版社,2018: 144.
[12]Jianbo Gao,Matthew L. Jockers et al. A multiscale theory for the dynamical evoluti-on of sentiment in novels[C].2016 International Conference on Behavioral, Economic and Socio-cultural Computing (BESC). Durham:2016.
[13]陈铭,徐丽芳.Archer Jockers:用机器算法解密畅销小说基因[J].出版参考,2019(3):12-15.
[14]Burcu Yucesoy et al. Success in Books: A Big Data Approach to Bestseller[J].EPJ Data Science,2018(7):7.
[15]Yiying Hu.Marketing and Business Analysis in the Era of Big Data[J].American Journal of Industrial and Business Management, 2018(8):1747-1756.
[16]刘庆振.计算传播学:智能媒体视阈下传播学研究的新范式[J].教育传媒研究,2018(06):21-25.
[17]贺钰滢,徐丽芳.Tekstum:图书网络口碑的晴雨表[J].出版参考,2016(11):26-27.
(作者单位系武汉大学信息管理学院;武汉大学数字出版研究所)