大数据在出版产业的实践与展望

    刘立玲 张群力

    [摘要] 大数据技术背景下,思维和技术发生了巨大改变,数字出版则在同步感受着大数据的脉a搏。2013年大数据在数字出版产业中的应用还处于起步阶段,在2014年则进入数字出版实用领域,实现了出版商由内容提供商逐渐向综合信息服务商转型,数据资源整合和管理、多媒介融合,以及通过对用户数据的挖掘提供内容聚合服务、实现个性化信息定制服务、精准策划和精准营销等是大数据技术在出版业的主要应用。

    [关键词]大数据技术;数字出版;数据资源整合;数据分析

    [作者简介]刘立玲,张群力,北京城市学院。

    当下,大数据的概念受到高度关注,已经渗透多个行业和业务职能领域,逐渐成为重要的生产要素。但大数据在数字出版产业中的应用还处于起步阶段,或在2014年进入数字出版实用领域。为了更好地实现大数据在数字出版领域的应用,有必要首先了解大数据的特点及其在思维方面带来的变革。

    一、大数据时代的新思维、新技术

    大数据指的是所涉及的资料规模巨大到无法通过传统软件工具,在合理时间内撷取、管理、处理并整理成为帮助企业经营决策的资讯。大数据是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享,交叉复用形成的智力资源和知识服务能力。

    大数据往往以数据流的形式实时快速地产生,其价值的高低随着时空的变化而发生变化,海量数据在经过精确分析后的确具有巨大的价值。在数字化时代,数据处理变得更加容易,更加快速,人们能够在瞬间处理成千上万的数据。大数据带来了三个重大的思维转变。

    1. 要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本

    在信息处理能力受限的时代,需要数据分析,却缺少用来分析所有数据的工具,因此随机采样应运而生。现在经常会放弃样本分析这条捷径,而是收集全面完整的数据,并对其进行存储、处理、分析。

    大数据是建立在掌握所有数据,至少是尽可能多的数据基础上的,在任何细微的层面,都可以用大数据去论证新的假设。虽然在某些情况下,依然可以使用样本分析法,但这不再是分析数据的主要方式。

    2. 接受数据的纷繁复杂,而不再追求精确性

    执迷于精确性是信息缺乏时代和模拟时代的产物,只有5%的数据是结构化且能适用于传统数据库的,如果不接受混乱,剩下95%的非结构化数据都无法被利用。如今在信息时代,数据库越来越全面,它包括与这些现象相关的大量甚至全部数据,大数据不再需要精确性。

    要想获得大规模数据带来的好处,混乱应该是一种标准途径。不精确已经深入数据库设计这个最不能容忍错误的领域,在传统的数据库,索引是事先设定好的,限制了搜索,这种数据存储和分析的方法越来越和现实相冲突,促成新的数据库诞生,它们打破了关于记录和预设场域的成规,出现了非关系型数据库。

    相对依赖于小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,所以更进一步接近事实的真相。

    3. 不再探求难以捉摸的因果关系,转而关怀事物的相互关系

    相互关系的核心是量化两个数据值之间的数理关系,相关关系是指当一个数据值增加时,另一个数据值很有可能也会随之增加。相互关系没有绝对,只有可能性,如果相关关系强,一个相关链接成功的概率是很高的,如并非亚马逊推荐的每本书都是顾客想买的,但是很多人书架上不少书都是因为亚马逊推荐而购买的。

    通过找到一个现象的良好关联物,相关关系可以帮助我们捕捉现在和预测未来。大数据的相关关系分析法更准确、更快,而且不易受偏见的影响,建立在相关关系分析法基础上的预测是大数据的核心。

    二、大数据背景下出版业的数据资源

    1. 出版社的资源

    出版社的资源是一个内涵非常广泛的概念,包括出版手段资源、出版范围资源、作者资源、人力资源、市场资源等。整合管理出版社的资源对出版社来说具有重要意义。

    2. 用户生成内容

    网络环境下,用户生成内容成为一种新兴的网络信息资源创作与组织模式。用户生成内容(User-Generated Content,简称UGC),泛指以任何形式在网络上发表的由用户创作的文字、图片、音频、视频等内容。用户通过微博、博客、视频分享网站、SNS等社会化媒体发布的相关内容。

    大数据背景下,把用户生成内容的内涵扩展为用户在网络上登记和发表的内容,以及相关行为产生的所有数据,即用户基本信息、发布内容、用户行为数据和关联数据。用户基本信息包括个人姓名、年龄、职业、区域等基本信息,以及注册名称、网站中的订阅栏目等注册信息;用户发布内容主要包括原创、转发以及对应的评论和回复等。用户行为数据主要包括网络浏览购买数据、阅读过程和行为数据。用户在生产内容的过程中,会形成用户和内容之间的关联,用户与用户之间关联以及内容之间也会产生关联。

    通过对用户生成内容及其相互关系的深度挖掘和应用,可以了解用户的个体、群体特征,分析其阅读兴趣,也能进一步获得作品内容特征、发布频率和阅读、传播状况等规律。挖掘和分析用户生成内容是进一步探索用户需求,充分发挥内容价值,丰富出版模式的必然趋势。

    三、大数据在出版业的实践与展望

    大数据时代已经到来,思维和技术发生了巨大改变,数字出版则在同步感受着大数据的脉搏。

    1. 出版社数据资源整合和管理

    大数据时代,随着数据存储、管理、分析技术的提高,为出版社整合管理数据资源提供了技术保证。

    2. 多媒介融合

    利用大数据技术,进一步推动更为广阔的传媒版图中的媒介融合和新媒体发展,使得包括数字出版、数字影视、数字音乐等传媒领域因大数据趋势而更为紧密地结合在一起。

    2012年8月,美国学乐出版社(Sc

    holastic Press)推出的“图书+游戏”经营模式取得成功。它推出的《无限环》系列,面向8~12岁的孩子,集合了图书、互动游戏和值得收藏的《历史学家指导手册》,这个系列通过多平台进行操作,图书本身只是整个创作中的一部分。学乐出版社将图书设计成与历史相关的小道具来帮助玩家揭秘,通过透彻地阅读图书找到线索,根据提供的攻略地图帮助玩家完成网上游戏。此外,这个系列的论坛受到孩子们的欢迎,通过这个论坛可以跟其他同龄人进行互动,给学乐出版社提供了很有价值的信息反馈:如通过论坛上的留言板做一些调查和小测验;发布有关作者的消息,让小玩家和作者在一定时间内互动,成为很有创意的社区;同时可以通过这个平台进行其他的宣传活动,推广传统书籍等。

    3. 利用用户生成内容,提供内容聚合服务

    当前代表性的聚合模式包括ZAKER资讯聚合与互动分享阅读应用、Flipboard移动阅读应用等。ZAKER是一款优秀的资讯聚合与互动分享阅读应用,拥有资讯、娱乐、科技、财经、汽车、体育、本地新闻等十几个板块,上千条媒体、新媒体、自建频道内容资源。用户可根据个人喜好订阅相应内容,也可通过ZAKER智能推送功能获取自己感兴趣的信息。对于感兴趣的内容,用户可以在ZAKER内直接与好友分享互动,也可以通过微博、微信等社交平台将图文分享、收藏。Flipboard是一款免费的应用程序,灵感源于杂志的精致布局设计,将Facebook和新浪微博等社交媒体上的内容整合起来以杂志的形式呈现给用户阅读。如果用户对一些特定话题感兴趣,可以在搜索栏中键入该话题,程序会自动将博客、微博、指定新闻源中与该关键词有关的内容聚合为杂志形态,供用户阅读。

    4. 挖掘用户生成内容,实现“精准策划”与“智能策划”

    “精准策划”是指通过对主流的阅读平台和电商平台提供的记录用户行为(浏览记录、购买记录、发表的言论等)的海量数据进行分析,筛选出当前热点议题作为备选选题,同时对其相关用户的性别、年龄、职业、地理位置等信息进行分析,以准确定位目标读者群和测量市场容量的选题策划方法。

    大数据的核心功能之一就是预测,当数据聚合、分析功能向更智能化方向发展时,基于内容的选题策划甚至会在数据系统中自发形成,内容从策划到生产的阶段更加自动化、智能化。

    京东图书2014年3月19日发布其新品牌“京东出版”的首部图书《大卫·贝克汉姆》时,京东集团副总裁石涛表示,凭借大数据分析,根据消费者需求进行策划和供给,为特定消费群体“私人定制”相关图书,在未来图书出版市场将是一个方向。

    5. 分析用户生成内容,实现“精准营销”和“精准推送”

    数据智能分析技术的不断发展使得对个人和群体的实时观察成为可能,这就为预测群体行为和了解个体偏好提供了强有力的工具。如果能充分挖掘大数据的深层次价值,就可以开发出更能满足消费者需求的新产品和新服务,也能实现精确而个性化的广告推送。

    随着数字出版的发展,阅读转变为某种可以测量的半公开行为。如今,电子阅读器不仅能够显示某些书吸引了多少购买者,还能揭示他们的阅读强度。通过尽量多地采集数据,尽量合理、及时优化数据分析模型,得到相对准确的预测。利用大数据进行精准营销将会极大地提高数字出版企业的竞争能力。

    ZAKER作为流行的社会化阅读平台,除提供高效、互动,有良好体验的阅读服务外,还利用海量数据和特定算法创新广告模式,它可以根据人们的居住地点、浏览偏好,挖掘出哪些产品更受到哪一类群体喜欢,从而将品牌广告的投放范围、时间和差异化的资讯结合起来。比如,喜欢“第一财经周刊+GQ男士网+《世界国家地理》”的用户,可能会更偏向于追求高质量的生活方式,爱好旅游,关注奔驰、奥迪等高级汽车的新车型。

    四、结语

    大数据背景下,出版商将成为数据服务公司,读者将成为用户,出版商由内容提供商逐渐向综合信息服务商转型。出版单位不再将发展数字出版仅仅停留在数字化内容的提供上,而是开始从网络经济的商业模式来建构内容产业。改变传统出版以内容销售为目标、“以产品为中心”的经营模式,转向数字出版以满足用户需求为目标、“分析读者信息进行有效数据推送”的经营模式。

    [1] [英] 维克托·迈尔-舍恩伯格, 肯尼思·库克耶. 大数据时代[M] . 盛杨燕,周涛译.浙江:浙江人民出版社,2013(1).

    [2] 刘鲲翔,杜丽娟,丁雪. 大数据技术在数字出版中的应用前景展望[J] . 出版发行研究,2013(4).

    [3] [德] 比约·布劳卿,拉斯·拉克,托马斯·拉姆什. 大数据变革:让客户数据驱动利润奔跑[M] . 北京:机械工业出版社,2013(12).

    [4] 郝振省,魏玉山,张立. 2012-2013[M] . 北京:中国书籍出版社,2013(7).

    [5] 周志军. 业界关注大数据时代出版业转型[N] . 中国文化报,2013-09-18.

    [6]张博,任殿顺. 大数据背景下UGC的价值研究和出版应用[J] . 科技与出版,2014(3).

相关文章!
  • 新常态背景下供给结构转型的逻

    【摘要】吴敬琏等学者编著的《供给侧改革》一书,选题切合时代需求,研究视野宏阔,求真务实且见解独到,弘扬了改革创新的时代精神,具有强烈

  • 电视剧《西藏秘密》的史诗性

    王泉<br />
    根据刘德濒同名小说改编的46集电视连续剧《西藏秘密》,以僧人扎西顿珠的沧桑人生经历为线索,真实再现了20世纪30至50年代末

  • 个性打造精品特色塑造名牌

    陈 雪<br />
    【摘要】时下,收看电视新闻评论节目,成为观众更深层次了解新闻的热门途径。迄今,CCTV4套《海峡两岸》已成为一档优秀的电视新