大数据时代与经济新闻①

    郭镇之+++万婧

    【摘要】当前的大数据热,人们通过大数据的方式了解环境,并对大数据的使用进行监督。经济新闻依赖于数据。搜集各方面的大数据,可以发现新的经济问题,产生新的经济视角,预测未来经济前景,揭示深层的经济问题。但人们对大数据也存在认知误区,大数据同样带来隐私权等新技术的风险。

    【关键词】大数据 经济新闻 误解 风险

    【中图分类号】G220【文献标识码】A

    2014年的春节前后,“大数据”再次引发关注。一个是“嘀嘀”和“快的”两家手机打车公司的价格补贴竞争激烈,被行家指出——现在是抢市场,未来则争数据。②另一个是春节期间“百度迁徙”推出的显示春运人群流向的大数据动态图,经中央电视台推介,在全国声名大噪。这些实例有力证明,大数据应用已经叩响中国的大门。

    一、大数据时代来临

    我们已经进入一个数字化的信息时代。所谓数字化,就是采用一种独特的数字方式(digit)呈现信息,将各种来源和形式的信息转化为0与1的排列组合方式,贮存并传递。在这个信息化的数字时代,信息量极大增长,且信息使用更加方便。

    数字化产生了新的概念,同时将一些原有概念赋予新含义,如数据与大数据。英文的data原指一切可以用于分析的资料(如图形、声音、文字、数字、字符和符号等),现在则特指数字化资料,亦即经过初步抽象,以单一数字形式系统性地呈现,以构成信息和产生知识的原始材料。数据是一种可以作为计算机加工“原料”的结构化数值堆。而近年流行起来的大数据(big data)指的是无所不包的数据内容,或者数据整体。

    人类对“数字”(包括数量、数值)的认识经历了一个从简单到复杂、从粗糙到精细的过程。在传统社会(可称为“前数据时代”),人们使用的是简单数量概念,而且只能依赖总结经验、猜想因果和推测理论,或者纯粹按照价值观去认识未知领域及其规律。在现代社会(数据时代),科学实证研究方法引导人们依赖抽样数据和局部数据,去发现、认识和改造现实世界。在当前的信息社会(大数据时代),“人类第一次有机会和条件,在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据”,“获取过去不可能获取的知识,得到过去无法企及的商机”。③而当前的大数据热潮,不仅为专家学者提供了研究客观世界的对象,也成为社会各界广泛参与的“群众运动”:公众以自身的行为贡献数据,通过大数据的方式了解环境,并对大数据的使用进行监督,提出批评。

    二、大数据与经济新闻

    经济世界是大数据的乐土。英文的“经济”(Economy)一词源自古希腊语“家政术”,本来的含义是指管理家庭财务的方法。到了近代,才扩大为治理国家的含义(即政治经济)。“经济”一词也是中国古代“经国济世”“经国济民”等词语的省略语,④具有“配置与管理”“效率与节省”等广泛的含义。

    狭义的“经济”是一种体系,指在一定范围(国家、区域)内组织生产、分配、流通和消费等一切活动及其相互关系的系统之总称。⑤采写与经济领域相关的新闻报道和评论,就是大众传媒的经济新闻。经济新闻可以粗略地分为两大目标取向:经营者(如企业家、商务人群)角度、专业角度(例如《财经》杂志),面向的是高端市场,报道和分析较为复杂或者相对专门的经济现象;而市场角度、消费者角度(包括大量广播电视经济类节目,如中央人民广播电台经济之声的《天天3·15》等栏目)则面对的是普通公众,告知、引导并解释广泛的经济信息或者生活常识,并维护消费者权益。

    在很大程度上,经济新闻依赖于数据:例如人口及其特征、国内生产总值(GDP)、国民生产总值(GNP)、消费者物价指数(CPI)、基尼系数,等等,都是一个经济社会必须监控的数据。大数据可以成为经济新闻的背景和线索,通过分析其实质,深化人们对社会的认识。

    经济数据与一些特定的新闻领域联系又特别紧密:财经新闻(如房地产泡沫,环比涨幅、同比涨幅及其涨落趋势,都是社会和公众所关心的)、环境新闻(如空气质量特别是细颗粒物PM2.5数值的监测,以及专家对衣食住行的参考建议)、健康新闻(如各种癌症患病率的上升或者下降,包括提供健康知识和生活常识)。这些消息和事件本身就构成经济报道的内容,成为广义的数据新闻。

    狭义的数据新闻则是基于数据的抓取、挖掘、统计、分析和可视化呈现,进行新闻报道。例如,20世纪60年代出现的“精确新闻学”,就是新闻机构倡导的使用数据向公众提供结构化信息的操作方法。“精确新闻”提高了新闻报道的客观性和可信度。20世纪70至80年代,新闻机构又开始以电脑收集和分析数据进行新闻报道,被称为“计算机辅助报道”(computer-assisted reporting,CAR),从而有组织、系统化地提升了数据的意义。这些实践,是大数据新闻的先驱。

    “大数据新闻学”使得传统的数据新闻范围更大,无所不包,如物联网数据与“传感新闻”(任何电子感应终端,如电脑、手机应用中产生的流量及其内容意义,都可能提供数据来源)。还有用户自行生产的传播内容和自发产生的应用数据(就想想人们每天发出的微博和微信吧),也都可能成为新闻来源。同时,现代生活产生的数据量极为巨大,目前的计量单位已经从M、G和T发展到P、E、Z。

    搜集各方面较完整的数据,可以获得意料之外的发现——通过挖掘事实,可以发现新的经济问题,产生新的经济视角,预测未来经济前景。一个广泛传说的有趣案例是:一位美国父亲抗议企业向其未成年的女儿针对性地发放婴幼儿产品广告,却发现女儿其实已经怀孕,而自己尚不知情。原来,企业通过系统分析该女孩的消费行为和消费习惯,发现了疑似“怀孕”的征兆,从而早于其亲属做出预测,并开展了营销。

    异常的数据流动还可能揭示深层的问题。例如,根据股票市场的异常资金流动,可能发现“内幕交易”“老鼠仓”等腐败问题——这往往构成调查性新闻的内容。由于大数据的出现,现在许多国家的媒体“发动群众”,进行舆论监督、社会监督和公众监督。如英国《卫报》将议员财产及议会资金流向等大数据发布到网站上,并提供在线计算功能,以草根“众包”的方式发掘出若干贪腐丑闻。

    当然,经济不是生活中的孤立现象,而是与人们的各种活动息息相关的。因此,社会生活的方方面面,包括政治文化活动所产生的大数据,都可能对经济发生影响。而大数据带来的误解与风险,也可能表现在许多领域。

    三、大数据应用:误解与风险

    大数据是建立在计算机技术(特别是云计算等超大规模信息处理)基础之上的,它带来的是一种新技术的风险。

    在当代,对新技术总有一种占主流地位的乐观主义。特别是当新技术成为企业界新的经济增长点和盈利富矿的时候,更可能产生一种利润推导的新技术冲动。当代技术乐观主义的重量级代表人物可能非美国的莱文森莫属了。曾为媒介批评家(也是新技术悲观主义者)尼尔·波兹曼弟子的保罗·莱文森,如今却是新技术预言家麦克卢汉的“传人”。莱文森在名噪一时的《软利器》一书中承认:“任何信息技术都会产生意想不到、意义深远的结果”;但他又坚信:“我们有能力评估并有可能适当调节这样的结果。考虑到信息技术和我们的评估能力这两种相互平衡的因素,我们就可以踏上信息革命的历史之旅和未来之旅……”⑥真的会是这样吗?

    莱文森的乐观预言并不那么令人放心。英国学者维克托·迈尔-舍恩伯格和肯尼思·库克耶在其广受欢迎的2012年新著《大数据时代》中就专辟第7章说明,“风险:让数据主宰一切的隐忧”,并主张实行“自由与责任并举的数据管理”(第8章)。的确,“无所不用其极”的大数据是有风险的;更可怕的是人们对这种风险的无知无畏。

    1. 对大数据的误解

    大数据带来的风险包括对大数据时代认知特征转变的误解。全数据样本、不苛求精确和重视相关性而非因果关系,被认为是大数据应用的三大特征。如何理解这些特征呢?的确,《大数据时代》的作者指出,大数据与三个重大的思维转变有关:“首先,要分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。”“其次,我们乐于接受数据的纷繁复杂,而不再追求精确性。”“最后,我们的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。”⑦但如果认为,这三项转变意味着全样本将取代抽样方法、人们将不再追求认识的准确性和对外间世界的探索将止于关联而不求因果,那么,这显然是简单化的理解。本文认为,对大数据时代的三大特征都需要认真分析及正确解读:《大数据时代》提出的,是一种大数据的研究思路,而不是指全部的研究方法;向大数据研究转变的必要条件,也不是人类认知活动的充分条件。归根结底,大数据只不过是人们认识世界的一种途径而已。

    某些人对世界的认知,现在因大数据的引进而导致误解。首先,有一种误解——在大数据时代,工作目标,即使是非大数据研究的其他工作目标,也可以顺便牺牲准确性。例如,《大数据时代》的译者之一便说:“接下翻译这本《大数据时代》的任务时,我的目标是做到110%的好……很遗憾,我们最终只做到了90%……如果再给我一个月的时间,就可以达到我预想的110%甚至120%……”“之所以把这个(不完美的)版本呈现给读者:一是因为我们的努力使得本书中译本的出版和英文原版完全同步……二是我相信作者在书中的一个重要观点,就是大数据时代,要允许一点点的错误和不完美,因为效率可能更加重要!”(引文括弧中的文字是本文加的)⑧

    对于大数据研究不苛求精确性(并不是放弃准确性)的特征,本文的理解是:在非精确数据(包括大数据)可能得出可靠结论的情况下,确实不必要追求精确性。例如,人们一定要知道某次大型集会准确的参与人数吗?显然不必要。但这并不意味着完全放弃准确性原则。医生开药,药剂量需要尽可能精确。翻译,同样需要准确性(虽然不一定能够完全做到;但至少应该是一个必要目标)。当然,我相信,译者的说法只是一种自谦和解嘲,并非真的打算放弃翻译的准确性。

    是否要求精确(或者准确),得看具体的对象和问题。经济新闻的准确性需要毋庸置疑。数据时代如此,大数据时代依然如此。现在数据满天飞,统计口径和统计方法又各不相同,数字互相打架,甚至结果截然相反。如果长期使用一些注水的、任意“结构”和“加权”的统计数据指导中国宏观经济的运行,其后果不堪设想。

    关于舍因果而就相关的特征,本文的猜想是:人们可能不必、也可能继续寻找原因,而不是止步于结果,相关现象会导向因果追寻。很可能是——先知其然,再知其所以然,而并非一律知其然不求其所以然。例如,《大数据时代》所举的沃尔玛公司的著名案例:发现在季节性飓风来临时,手电筒与某种蛋挞的销售量同时增加。沃尔玛超市可能会仅仅按照经验,把库存的蛋挞放在靠近手电筒等飓风用品的位置,就此了事;但研究人员不难理解,也不难解释其中的因果关系——灾害天气人们有各种配套的生活需求——并深入挖掘这些相关的需求。那时候,配套搭售的商品就可能不是两种,而是三种五种了。现象的出现必有原因,相关性仅仅是人们尚未确认的诸多联系之一而已。因果性追求事关意义、价值、目标和态度,各种人认识外界的需要并不相同,难求一律。

    据说,大数据显示,日本年轻人的平均身高已经超过中国年轻人。科学家提出,喝牛奶与身高增长之间存在因果关系,似乎圆满地解释了二战后日本年轻人身高增长的原因,也促进了牛奶的需求与供给。但对更多的科学问题,目前的统计数据(尤其是大数据)可能只显示相关性,无法解释其因果性。人们可能需要更多的证据去证实(或者证伪),并解释其因果关系。科学研究需要精确的数据与可靠的相关性(因果联系),因此,更可能采用抽样统计和实验方法。一句话,大数据及其应用,也要看具体的对象和问题。

    对于全样本的特征更是如此。有时,全样本确实可能代替抽样样本,甚至更迅速、更经济地得出结论。如《大数据时代》所举的例子:谷歌“流感趋势”(通过用户求治相关症状的网络搜索),比之于医疗卫生部门的层层上报,便更简单、更迅速地发现了流行性感冒的爆发趋势。从这个例子当然可以看出:样本量大不一定意味着统计方法更复杂;样本量小也不一定意味着统计成本更节省(economical也有“经济的”、“节省”的意思)。同样的例子还有,收视率调查就不一定比电视数字监控的统计更准确、更经济。在发现收视仪得出的统计数据与传统的日记回忆法数据迥然不同之后,人们更有理由怀疑“抽样调查”的准确性。很可能,在将来的某一天,大数据的收视测量将完全取代费时费力费钱的抽样样本收视率调查。而大数据的采用,正是因为这种方法有时更节省成本,有时则更准确。

    不过,虽然有时候大数据的简单算法比抽样数据的复杂算法更有效、更节省,但大数据的统计并不总是可行的。在中国当下,数据的公开性(可获得性)和可信性(真实性)更是一个致命的问题。所以,全样本不可能完全取代更有代表性的抽样数据。同时,大数据的“客观性”(不易操纵性)也往往能够凸显数据之间的矛盾,暴露人为编造的痕迹。总之,十八般武器,各有各的长处。人类认识世界的途径是多元的。全样本与抽样样本之选择,还要看适用性。

    2. 大数据带来的风险

    以为大数据时代一切(或者大多数)悬疑问题都可迎刃而解,同样是天真的。在此,重要的问题是前提:全样本大数据是否可得?公布的大数据是否客观真实?也就是说,信息是否足够公开透明?因此,大数据需要结构化的整体社会保障。

    我们常常看到各种数据失真、数据造假的案例,而不可靠的数据导致认知偏差,后果可能不亚于完全的无知。由于框架的偏倚,数据“打架”的现象也频频出现。例如,国家统计局2013年12月18日公布消息说:广州市房价同比涨幅达20.9%,环比上涨0.8%;而在同一天,广州市国土房管局公布的房价数据却是:环比大降10.6%,当月成交均价同比下降7.1%。这怎么可能呢?原来,两组均属“真实”数据的差异,来源于统计方式的不同。广州将位于远郊的从化和增城两个县级市纳入了广州市的房价统计(这两处的平均房价每平方米不足万元;而广州市核心区的平均房价四五万元),当地部门将原来未计入广州市的两市低房价纳入算术平均的方法,导致了结论的根本不同。⑨

    对数字各取所需,难免发生偏颇;但导致失误的,往往不在于应用手段,而在于指导思想。商业和政治权力常常利用数据误导舆论,歪曲和遮蔽社会真相。例如,英国统计局曾公布一批教育机构的数据,通过“学生是否在校吃免费午餐”(低收入家庭的孩子才可以享受免费午餐)作为测量标准;并因为享受免费午餐的儿童数量不大,而得出结论说:英国贫穷家庭不多,英国基础教育机会平等。但《金融时报》通过重新解读数据,发现统计局将不能享用免费午餐家庭的孩子都归类于“不贫穷”范畴;而在英国,并非所有地区的贫穷孩子都能享受免费午餐,所以这种统计方法是不可靠的,得出的结论也是不可信的。这只是玩弄数据的例子之一。在中国,滥用、误用甚至造假数据的情形就更多了。

    研究新媒介的学者彭兰指出:数据的丰富性与其准确性、有效性并不能画等号,相反,数据的丰富性会增加对数据验证的难度和有效数据筛选的复杂度。⑩因此,关键不在于能否使用大数据,而在于如何使用大数据。除了要求社会制度对信息的公开透明之外,采集和获取数据的途径也必须科学有效——这意味着社会方方面面专业统计水平的提高。同时,收集数据、开发数据的人必须具备专业的素养,才能使用可靠的方法,得出正确的结论。最后,法律、道德与个人伦理的约束在数据使用中扮演着关键的角色。

    大数据不仅存在可靠性方面的风险,还导致对隐私的冲击。这也是新媒介技术带来的新问题。随着信息的数字化,现在,每一个服务商都可能掌握甚至出售我们的部分信息,包括隐秘信息,即隐私。例如,英国发生了商业化小报以新技术(网络、手机)为途径的窃听丑闻。美国前特工人员斯诺登揭露的美国中央情报局的“棱镜计划”,将全世界都纳入了美国的监控范围。某国机场以“防止恐怖袭击”为理由,发明一种红外线透视装置,接受检查的人形同裸体,被展示于众目睽睽之下……据说,这样的全方位检测可以获得最准确的个人定位。大数据时代每个人都成为透明的人。然而,谁可以合法地接触我们的隐私?对侵犯隐私的行为该如何判定,如何惩处?处置这样的问题,法律却是滞后的。公民的隐私权受到威胁,不安全感导致人们的担忧和焦虑。

    大数据还带来其他一些风险:首先,从虚拟的大数据中我们能否获得准确的现实感?不一定。很可能也不是。因为,某一特定范围的“大数据”并不意味着对社会现实整体的准确反映——总有探照灯照不到的地方。此外,我们被无边无际的数据淹没了……需要处理的信息越来越多,而有价值的信息比例越来越小。

    物联网技术正在跃跃欲试,力求全面占领国家经济生活。互联网研究者彭兰警告说:“物联网技术所采集的信息很多都涉及个人隐私,社会化媒体以及用户数据的利用,也往往容易越过隐私边界。这将是对媒体伦理的新挑战。”所以,我们对大数据的认识和使用才刚刚开始,维护个人安全,保护公民隐私,促进公共利益发展和社会稳定繁荣的目标任重而道远。