标题 | 对“大数据”的理性审视 |
范文 | 孙诗雨 摘 要 随着互联网和云计算等技术的发展,大数据时代也随之到来,但目前由于人们对大数据的认知不清导致了其对大数据的盲目崇拜,一味陷入大数据的漩涡之中,对大数据没有做到理性审视。本文从大数据概念的探讨,大数据的价值分析、大数据处理流程中的短板以及大数据之于新闻传播的影响4个方面来分析大数据,肯定了其价值,指出了其不足,以期人们能全面认识大数据,从而更好地利用大数据,让大数据发挥出更大的价值。 关键词 大数据;价值;短板;新闻传播;技术 中图分类号 TP3 文献标识码 A 文章编号 1674-6708(2017)189-0077-04 近两年来,大数据的浪潮愈演愈烈,“大数据”这个名词也在各种场合被人们频繁提起。在2017年两会中,就有许多政协委员和人大代表提到了大数据,并呼吁要利用好大数据来推动社会发展,像全国人大代表、浪潮集团董事长孙丕恕就在一次50分钟的访谈中94次提到“大数据”。 不难发现,当今社会,大数据技术有着众多的追随者,我们俨然处于大数据时代下的狂欢之中。所以,理性审视大数据显得尤为重要。 目前关于大数据,笔者认为主要有两方面的问题,即迷惘与迷信。所谓迷惘,即不知什么是真正的大数据;大数据的价值空间在哪,特别是对新闻传播的价值;国家大力提倡和业界回应间是否对应等。所谓迷信,一是体现为学术研究凡事都扯上大数据,这一点从中国知网上关于“大数据”的论文基本涉及各个领域(教育、医疗、电力等)就能体现出来;二是各地方政府和职能机关也动辄以大数据为制定政策的依据和出发点。 1 “大数据”概念还没有公认的界定 其实,“大数据”这个概念由来已久。不过大数据真正受到各行各业的关注是在2011年6月麦肯锡公司发布关于“大数据”的报告之后,麦肯锡称:“数据,已经渗透到当今每一个行業和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”中国对大数据的关注也是从2011开始的,另外,近几年中国开始召开论坛会议像大数据技术与产业应用大会等也让“大数据热”持续升温。 不过,在当下,人们对大数据的态度却陷入一种盲目崇拜的漩涡之中,很多人在对大数据认知模糊的时候就成了它的狂热粉丝。其实到目前为止,大数据还没有一个统一的定义。大数据的鼻祖舍恩伯格在解释大数据时也没有给出一个确切的描述,“大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法。”[1]这是他在书中的一段诠释,具有人文色彩和社会意义,因此,对于大数据概念的界定要看研究者从哪个角度来研究它而定。正是大数据概念的这种不确定性,使得人们对其充满了想象,进而把它神化。 目前国内外的专家学者对大数据的准确定义给出的结论不一。在舍恩伯格提出大数据的概念之后,关于大数据概念的研究层出不穷,国内外的专家学者、科研机构甚至是企业家们都对大数据表达了一定的见解。中国学者王岑岚和尤建新将现在国内外已有的大数据的定义分为四类,基本涵盖了国内外学者以及机构对大数据概念的论述,分别是属性定义、来源定义、比较定义以及构架定义。属性定义以Gartner机构为代表,主要是从大数据特征的角度来解释大数据的概念,最后慢慢发展成为目前公认的大数据的“4V(数据容量大(Volume)、数据类型繁多(Variety)、商业价值高(Value)、处理速度快(Velocity))”特点,不过这几年国内外的专家学者又提出了可视性(Visualization)、合法性(Validity)、真实(Veracity)等新的特征,现在这些新提法也正在探讨之中;来源定义是从人、机、物三个维度来谈的;比较定义很好理解,即通过和传统数据的比较来解析大数据的定义;构架定义是把大数据分为大数据科学和大数据构架从而进行阐释的。虽然作者在这篇文章中提炼出了大数据概念的共通之处,即“大数据是指人类能够获取的完整的、动态的、事实的数据流,具有容量高,速度快,结构复杂的特点,只有在充分合理利用的情况下才有可能发挥其高价值和准确性的特点。”[2]但是,笔者认为把这段话当做是大数据的定义还是远远不够的。 大数据和传统意义上的数据相比,多了一个“大”字,但是这个“大”字的界定是没有具体的统一的指标的,很多学者也表示大数据这种数据集“没有最好只有更好”,所以大数据是没有衡量标准的。虽然从简单意义上来看,大数据是指所有的数据,这也是很多人对大数据的理解;但是在当下,大数据的内容并不能包含所有的数据,它无法达到信息饱和,只能说它的终极目标是无穷化。所以,在我看来,大数据与传统意义上的数据的本质上是没有差别的,它们都属于数据信息,都需要对获取来的数据进行“加工”实现数据的“增值”。 大数据的挖掘、获取和处理是需要特殊的技术支持的,云计算就是其中一种重要的技术,它和大数据的关系密不可分。但是目前对云计算的解释也有很多种,所以这就让人们对大数据的概念更加捉摸不透,在不知不觉中给大数据戴上了神秘的面纱。 2 大数据的价值:应然与实然的差距 虽然,大数据的概念具有模糊性,但是其价值仍旧能够凸显出来。上文提到的“4V”特点就彰显了大数据存在的价值。大数据提高了人们记录和采集相关信息的能力,将海量数据进行关联分析,从而辅助我们在各个领域做出决策,有利于人们发现事物的规律,进行趋势预测,所以其价值有目共睹。 清华大学信息技术研究院的研究员薛一波指出,“大数据的科学价值和社会价值主要体现在两个方面:一方面,大数据不仅可以发现事物的显式规律,而且可以挖掘事物的隐式规律和潜在价值;另一方面,大数据可以转化为经济价值的源泉,撼动世界的各个方面。”[3]他在文中没有着重分析“科学价值”和“社会价值”的内涵,但笔者认为这两个提法可以用来分析大数据所带来的价值。 人们对科学价值的关注度很低,因为它周期长,基本都处于潜在价值的范围之内,但是科学价值是大数据价值非常重要的一环,它主要通过对大数据及其技术的研究所产生来实现的,大数据研究的热潮激励基础研究的科研人员更加关注“数据科学”问题,这有望使得大数据的技术越来越纯熟,更好地发挥大数据预测的核心价值,让大数据更好地为人所用。 至于社会价值,笔者是基于广义的社会价值进行分析的,包括政治价值、经济价值、文化价值等各种社会构成元素的价值。其中,经济价值目前体现得最明显,为人所津津乐道,“4V”特点中也直接提到了大数据商业价值高,它能创造巨大的利润,有利于细分市场和精准营销,满足更多的顾客的需求。其次就是大数据给社会生活带来的便利,在治安、交通、医疗等生活领域,大数据都发挥着重要的作用。以交通为例,大数据可通过对公交地铁刷卡、停车收费站、视频摄像头等信息的收集,分析预测出行交通规律,指导公交线路的设计、调整车辆派遣密度,进行车流指挥控制,及时做到梳理拥堵,合理缓解城市交通负担。在2017年3月27日,高德地图发布了《2017年清明节出行预测报告》,就是运用了大数据预测,为人们提供了假期出行福利。 然而在当下的中国,大数据的价值并没有充分发挥,究其原因,主要包括制度限制、心理障碍以及技术问题这3个方面。技术问题包含在下一部分“大数据处理流程中的短板”中,在此就不做赘述,以下分析前两个问题。 一是制度限制。近几年对大数据的研究层出不穷,国家也十分鼓励关于大数据的研究项目,这一点从国家社科基金年度项目的立项名单中就可以看出来:2014年国家社科基金年度项目有2776项立项,其中27项戴了“大数据”的帽子。占比0.97%。2015年国家社科基金年度项目有2752项立项,其中43项戴了“大数据”的帽子。占比1.56%。2016年国家社科基金年度项目有2857项立项,其中58项戴了“大数据”的帽子。占比2.03%。这些数据反映了关于大数据的研究越来越得到国家和政府的重视,国家对此投入的成本也是逐年 增加。 此外,我國已有21个省份出台了大数据规划政策;辽宁沈阳、甘肃兰州等多个省市成立了大数据管理局;各省市引导建设大数据产业联盟20余个[4]。从中同样可以看出,国家和政府对大数据的投资很大,而且投入的成本越来越高。 一些发达的西方国家相较中国,起步早,发展迅速且完备,就以美国为例,美国政府将大数据视为强化美国竞争力的关键因素之一,把大数据研究和生产计划提高到国家战略层面。除此之外,美国政府积极推动数据公开,所以美国的大数据产业已经创造了巨大的价值。 而在中国,大数据主要是用于政府管理和社会科学的研究,以此作为制定决策的基本要素之一。但政府掌握着大量核心数据,并且数据利用率较低,由于制度的限制,如以不公开为立法取向的法律(《政府信息公开条例》的法律效力低于《保守国家秘密法》《档案法》等以信息保密为立法取向的法律)、政府职权的条块分割等,使得占数据总量95%以上的非结构化数据被束之高阁;一些平台和社会力量拥有大量的数据,无法将之应用到更大的领域发挥更大的价值;一些企业拥有专业数据分析应用技术,却只能望“数据钻石矿”兴叹。这也就造成了在中国大数据的研究投资高成效小的局面。 当然,这里面就包含了第二个原因——心理障碍。由于政府数据以及与之相关的诸多应用可能会涉及到公民隐私、国家安全等重要领域,所以政府为了保证数据安全,采取了不公开的做法。另外,企业和个人为了防止出现侵权行为的出现对数据公开的诉求也不高。这些就形成了心理的屏障,也就阻碍了数据的公开,进而使大部分大数据的价值很难发挥。 虽然近几年国家领导人多次强调要推动大数据公开,推进实施大数据战略,但是在真正落实的时候仍旧会受这3方面原因的影响。 总之,大数据本身的价值是值得肯定的,它不仅仅是单纯的数字,而是涵盖了更多的记录内容,尤其是在互联网技术高速发展的今天。传统的数据在获取和处理分析上都需要花费大量的人力物力,而且效率不高,所以以技术为支撑的大数据能够带来更多的便利,也让人们能够更加关注数据分析和统计学。它给我们的生活也带来了很多的便利,各行各业慢慢开始使用大数据来为他们服务,所以我们需要重视对大数据的技术研究和应用,让大数据为我们所用,提供更多的服务和便利,创造更多的财富。 3 大数据处理流程中的短板 对于大数据的处理流程,目前信息领域最权威的观点是将其分为4个步骤,即采集、导入/预处理、统计/分析和挖掘。为了便于分析大数据处理流程中的短板,笔者又将这4个步骤概括为两大环节:采集端和分析端。 首先是在采集端,大数据采集的是人们在互联网上留下的痕迹,这些痕迹信息在现代信息技术支撑下生成,规模大,又实时更新,因此被一些人认为比传统的统计数据更加全面、及时、透明,所以有学者将真实性作为大数据的第五个特点。我对此持怀疑态度。当下,大数据造假的现象由于难于监管而广泛存在,例如刷单、灌水等等,这种人为地在后台做手脚,制造虚假数据的行为损害了网络诚信,以此为基础采集到的数据何以保证真实性,以不尽真实的数据分析得出的结论又有何说服力。此外,某些信息(或行为)在网上留下足够的痕迹,但在现实中却无迹可寻。比如合肥近来房价高企,开发商为应对限价,明里暗里出售号头,即所谓号头费。网民意见纷纷,但官方一直称查无实据。 大数据为了掌握更多的数据,放松了容错的标准,允许不精确数据的存在,这就使得获取到的大数据的错误率是比较高的,虽然说这种不精确性可以让大数据产生大量新型数据,但它同时也会造成数据获取上的不合理。 除了真实性的问题之外,由于目前大数据还是有边界的,它并不覆盖全体,而仍旧是一个子集,它到底覆盖了哪些主体,没有对主体身份的验证例如线下数据的校验,很有可能会出现偏差,所以对于获取到的大数据的代表性和均衡性就难以考证,尤其是针对某一具体问题采集大数据的时候,无法判断所采取的数据是否有代表性,这一点传统意义上的数据反而优于大数据。2016年美国大选期间,网上民调显示,希拉里的支持率一直高于特朗普,且基本是大幅领先,但最后的选举结果却让预测希拉里胜出的人瞠目结舌。退一步说,即使大数据能够采集到普遍意义上的数据信息,那针对具体问题的调查研究也只能停留在宏观的层面,而要想深入研究一个问题,还是需要采取传统的调查方法,进行个案研究,从微观层面深入研究,将微观与宏观、典型性与普遍性相结合。 另外,正如上文所说,我国目前大量线下数据掌握在政府手中,这也就造成了大数据在获取上的不足,所以大数据在应用时的价值和意义并没有达到良好的状态,不过,在部分大数据应用的情况下,其也产生了一些不利影响。因为大数据被很多人神化,所以他们对大数据抱有敬畏之心,人们在了解了大数据分析的结果后会趋向于大数据的分析结果,这就会造成人们观点和行为的同质化,形成了“沉默的螺旋”。从这个角度看,数据控制着人,左右着人们的思想观念、生活习惯和行为等方面,这在无形中又形成了一种“数据绑架”,一定程度上限制了人们的言论自由[5]。更进一步说,在数据的不断获取中,其准确性就会越来越低。 现在很多学者批判大数据的一点就是大数据对隐私安全的威胁,人们在网上留下的痕迹,注册的信息等都处于“数据监控”之中,一旦信息泄露,就会造成个人隐私权的侵犯,更严重的话可能会危害国家和社会。当下社会,一些商家利用数据信息进行营销诈骗的现象常有发生,所以大数据在获取时要注重对数据信息的保护。 然后是在分析端,大数据的分析技术是体现大数据价值的核心部分,从目前的分析技術来看,存在的不足主要表现在大数据分析的结果与人的思想和观点之间的偏差。 笔者以民意为例,大数据能否准确反映民意是一个值得考证的问题。特朗普胜选后,瑞士的德语周刊《杂志》对其胜选背后的秘密给出的解释就是“大数据”,并指出在特朗普竞选过程中扮演关键角色的大数据技术是“心理测验”,但“心理测验”法在选民身上实行起来有不少障碍。其中的障碍与笔者在上文所谈到的数据来源以及可靠性的问题有关,除此之外,就是数据分析时的问题,特朗普团队需要完备的选民登记资料,将社交网络用户与具备选民资格的公民身份对接,资料的不完备和对接工作的复杂性都成为了数据分析时的阻碍。而且特朗普胜选的原因其实很复杂,不仅仅是大数据的原因[6]。 此外,论文查重系统在大数据时代到来以后,虽然收纳了更加海量的论文,但是查重的技术仍旧还是查询文字的重合率,这就造成了一个问题,大数据的分析技术能否对观点进行查重。举一个简单的例子,假如一篇论文引用了多篇论文的内容,但是最后得出了一个全然不同的观点,这在论文查重系统中会被定为抄袭。然而在线下生活中,这就类似于在前人已有研究的基础上继续研究,有了新的发现,得出了新的结论,不应该归为抄袭的队列中。大数据处理分析技术的这种局限性就导致了与观点之间的冲突。 虽然大数据是动态可变的,但是其是否是最新的数据也是无法确定的。另外,人的思维随着时间的变化也有可能会发生变化,而且他们不可能把自己的观点实时反映在互联网上,所以大数据分析所产生的结果与实际生活中人们的思维可能会出现不一致。 即使大数据能够实时反映人的思维,在分析大数据时仍旧会暴露出新的问题。在社会科学领域内,大数据分析的结果无法得出一个统一的结论。这与自然科学不同,在自然科学中,结论与实验过程是一一对应的,不会出现其他的结论。社会科学虽然也是一门科学,但是对其的解读可以有很多种,只要“言之有理即可”,正如《大数据时代:生活、工作与思维的大变革》中所说的那样,“大数据提供的不是最终答案,只是参考 答案。” 除了大数据难以解决数据与观点之间的冲突外,大数据在处理海量数据时删除重复数据的技术也不完善,目前的方法仍旧停留在把海量数据导入到数据库,然后运用计算机命令进行删除,但是导入海量数据耗费的时间成本是巨大的。此外还有海量数据的存储和管理技术、虚拟化技术、分布式处理技术等仍需要进一步完善。 4 大数据之于新闻传播的影响 大数据时代下,UGC模式、媒介融合的快速发展,使得大数据对新闻传播的影响也是十分深刻的。上文已经提到,在大数据的技术背景下,目前各行各业都在运用大数据来为自己服务,新闻行业也不例外;加之大数据的处理环节与新闻的制作环节是相类似的,它们都需要采集、分析、筛选和整合,所以他们之间的契合度很高。大数据形成的数据库为新闻传播提供更多的信息,改变了新闻传播的方式,进而促生了一种新型报道形态——数据新闻。这种新闻类型以公开的数据为基础,最大的特点就是可视化以及通过挖掘大数据做出预测。目前,由于大数据时代下的数据新闻更富有个性化、趣味性和技术性,且具有多种形式和多重维度,越来越多的受众青睐于这种新兴的新闻类型。如2015年央视播出的“一带一路特别报道”《数说命运共同体》,就是数据新闻的典型案例,其中综合运用了图表、地图、动画、真实纪录片等多种形式,展现出详实清晰的数据信息,让受众对“一带一路”充满期待与自信,吸引了更多的人关注与支持“一带一路”的发展。 但数据新闻的发展仍不完善,它同样存在着上述大数据处理流程中的问题。首先真实性是新闻的第一生命,但目前大数据采集信息的真实性仍有待考量。其次就是隐私问题,这涉及到了新闻伦理问题,大数据让我们每个人都越来越透明,加之以新闻媒体的传播效应,很容易让人的权利受到侵犯。最后是内容和形式的辩证关系问题。相比一般的新闻报道,数据新闻具有客观、可信、深度、广度、可读优势,但是其自身有着技术要求高、成本高、报道选题受限的弊端,所以其应用不可能普遍化。新闻工作者不能让数据或技术处于新闻传播的主体地位,这样会陷入“技术中心论”的漩涡,美国前国防部部长麦克纳马拉故事值得我们引以为戒。另外,对大数据的关注也渗透到了新闻教学的领域,现在很多高校已开设了“数据新闻写作”的课程。由于没有机会前往相关高校调研课程情况,但笔者认为,对新技术的学习是很有必要的,不过基础的新闻写作仍旧是高校新闻教学的主体部分,要始终把“内容为王”放在第一位,对数据新闻要循序渐进地研究和 探索。 5 结论 大数据的发展是社会发展的大趋势,是一种技术进步,体现了人们互联网思维的发展。目前,大数据在信息领域、经济领域、社会服务与管理领域的价值促进了社会的发展,创造了很多物质和精神上的财富。而且,它还有很大的发展空间。但我们不应神化大数据,觉得技术能够统治一切,也不应对数据过分依赖,成为数据的奴隶。不管是政府还是个人,都要理性对待大数据,政府要在衡量价值后投资大数据研究,并要适当公开数据;作为个人,不能盲目追捧和依赖大数据,要有自己的判断和认识,只有思维和技术都在发展的情况下,才能让大数据的漏洞得以修补,从而彰显大数据的价值,让大数据真正地为我们所用。 参考文献 [1]舍恩伯格,库克耶.大数据时代:生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013. [2]王岑岚,尤建新.大数据定义及其产品特征:基于文献的研究[J].上海管理科学,2016,38(3):25-29. [3]薛一波.大数据的前世、今生与未来[J].中兴通讯技术,2014,20(3):43. [4]中国大数据产业生态地图,2016:19-21. [5]曹卫东.开放社会及其数据敌人[J].读书,2014(1): 73-80. [6]夏逸平.大数据时代还需要民意测验吗?[N].文汇报,2017-02-24(14). |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。