舍恩伯格的大数据思想研究
余爽
摘 要 隨着互联网科技的发展,人类逐渐步入大数据时代,“大数据”的浪潮正以变革之力席卷着社会的每个角落,为诸多领域带来了机遇和挑战。作为“大数据”这一概念的前瞻者——舍恩伯格,也是该领域的权威发言人。正是他对大数据颇具洞见的理解引发了人们研究大数据的热潮。因此,他的观点理论成为研究该领域不可或缺的一部分。文章在舍恩伯格的大数据理论基础上,进一步探究大数据带来的思想和技术上的变革,望为大数据的发展提供更多理论的参考。
关键词 数据化;开放数据;相关关系与因果关系
中图分类号 G2 文献标识码 A 文章编号 2096-0360(2018)10-0025-02
近年来,随着互联网技术的发展,“大数据”——这一概念逐渐成为公众探讨的热点。大数据时代到来为社会诸多领域带来了新的机遇和挑战,越来越多的学者、领域开始驻足大数据,研究其潜在的价值。大数据也被人们誉为人类第四次工业革命的标志,作为研究数据科学的技术权威,被人们誉为“大数据之父”的维克托·迈尔-舍恩伯格也成为这一话题里的热点人物。其著作《大数据时代》《删除》等书,一经出版便饱受追捧。书中阐述的大数据带来的思维变革颠覆了人们的观念,使人们逐渐认识到大数据的价值。李克强总理曾在向2015年贵阳国际大数据产业博览会发出的贺信中指出:“当今世界,新一轮科技和产业革命正在蓬勃兴起,数据是基础性资源,也是重要生产力,大数据与云计算、物联网等新技术相结合,正在迅疾并将日益深刻地改变人们生产生活方式,‘互联网+对提升产业乃至国家综合竞争力将发挥关键作用。”①由此可见,大数据这一概念也深得政府的认可和支持。在此背景下,对大数据领域探索当中,舍恩伯格的思想理论成为研究这一领域里不可或缺的一部分。因此,本文将在舍恩伯格的大数据思想与理论的基础上,对大数据概念带来的思维与技术变革展开进一步的探索。
基于这样的理论下,我们可以发现,大数据的研究方法不同于传统科学领域的“假设、推理”,它强调的是数据的分类、整合和分析,注重分析数据间的相关关系从而得出结论。这也使得在大数据领域的研究中,相关关系比因果关系更加实用,因为它能直接导出结论,省去了繁复的假设、推理的过程,直接告诉人们“是什么”,抛弃了耗时费力的验证因果关系,选择更加直接得出结果的相关关系。大数据带来的这一思想转变,改变了我们对科学研究方法的认知,舍恩伯格曾在书中强调这一观念的重要性“大数据应用的核心建立在相关关系的基础上”。
除此之外,舍恩伯格在强调大数据时代相关关系的优点的同时,阐述了因果关系在学科研究中的弊端,“在小数据时代,人类探索科学的方式建立在理论基础上的假设,通过假设的反复试验来促进科学发展,但是这种发展缓慢,导致我们在设立、应用假设过程中犯错误,这种繁琐的过程没有为我们的科学研究带来时效性的发展。而在大数据时代,因为可供分析的数据量增大,我们不再需要考虑研究领域的复杂性和有关产生的内在机理和产生机制。”举个例子来解释,股票投资者在分析某一支股票的投资价值时,他们不必细究这家上市公司的业绩情况,费时费力的摸清背后的基本面,而是专注于“蜡烛图”显现出的数据变化来进行归纳分析,便可做出是否值得投资的判断。
恩伯格认为大数据价值的体现,建立在对数据潜在价值的挖掘和对数据废气的利用之上,他曾说:“数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰上的一角,而绝大部分则隐藏在表面之下。”优秀的大数据企业是通过挖掘数据金矿的隐藏价值来获得巨大的收益的。此外,数据挖掘的价值还体现在数据的二次利用上。数据的利用不存在衰减性,在收集数据的同时,做好数据重组和扩展的工作,在使用的过程中可不断发现新的价值。对数据的二次利用展现的价值被舍恩伯格称为“数据废气”。例如社交网站和电子商务网站利用自己积累的用户数据,通过不断地筛选挖掘,在使用的过程中发现新的问题、新的现象,并融入到他们的服务建设当中。我们可以看出,优秀的社交网站懂得反复利用自己的用户资源,从而不断改善用户的体验,而一些拥有大量资源却不懂得运用的企业则被数据发展的洪流淘汰。
在舍恩伯格谈到大数据对社会各面的发展时,他多次强调政府开放数据的重要性,以及对未来发展的乐观态度,因此将从社会不同行业领域的角度进行分析,并探讨政府在大数据发展中扮演的重要角色。开放数据顾名思义,是具有可获取性、可利用性、公众可以普遍参与的数据集。互用性是其最重要的性质,它能使不同体系、不同组织之间进行协同工作。这决定了它能被企业、个人、政府、不同组织共同开发和利用。而在开放数据中,政府开放数据占据了很大的比例,并且在企业、个人与政府的三者关系中,政府作为推动社会进步的重要推动力,率先做出开放数据的举动尤为重要。开放数据的运动最先在西方国家开展,美国、英国等发达国家已建立起系统的政府开放数据库。随着计算机科学的进步,中国的开放数据运动也在逐步开展中。目前北京、上海、青岛等地政府已启动政府资源信息上线等项目,让我们看到了中国在面对即将到来的第四工业革命中赶超列强的决心。目前大数据的应用对各个行业都有不同的影响。尤其突出表现在互联网、电子信息产业领域的获益。医疗、制作业随着产业升级也逐渐收益于大数据的价值,但在建筑、教育和艺术等领域,大数据还难见功效,相信在未来,当这些领域克服了大数据发展的技术障碍后,定会取得显著的成就。此外,值得我们关注的是数据共享为一个行业带来的巨大发展价值,数据共享所带来的成果是将数据进行有效的规模聚集和分析,这有利于各个行业的融合发展,一个行业的数据整合将为自身带来更加有益的规模效应。
政府作为大数据的推动者也是受益者,下面我们将探讨政府机构在大数据时代应该付出那些行动并将收获哪些益处。分为以下几点。
1)建立数据共享体系,引领数据共赢的浪潮。正如我们上文中提到的,政府开放数据对促进社会数据共享体系的发展与数据产业的发展有重要推动作用,政府除了以身作则外,还应建立起有效的数据运作共享体系,建立起从企业到个人到非盈利机构之间的信息共存、数据共享的桥梁。
2)防止数据独裁,保护数据安全。关于数据隐私保护的重要性,政府要保障法律有效的执行,确保大数据更好的方向发展。此外,政府还应预防数据盗窃、网络攻击之类的犯罪行为,虽然犯罪的目标是看不见摸不着的数据,但极有可能产生严重的社会影响。例如网络黑客对一个国家金融系统的侵犯,如信用卡处理设施、银行系统等,这不仅会造成公众财产的丢失,更会造成个人信用体系的崩溃,危害到电子信息市场的建立。除此之外,还应防止数据巨头企业对某一领域或行业的数据垄断,形成恶性竞争的局面。这样会使得市场失去有应得活力,不利于行业的发展。政府应做好协调者的工作,加强对机构、企业数据的管理,保障数据市场的良性竞争。
3)克服技术障碍、加强信息技术基础设施的建设。大数据发展到今天,仍有一部分行业领域存在着未克服的技术难关,政府可以发挥扶持的作用,通过资助科研单位在计算机和数学领域的研究,鼓励研发新的技术和工具,建立行业标准的认证,帮助行业内克服大数据发展的障碍。例如,在美国,国家医疗信息技术协调委员会规定了统一的电子医疗记录标准和认证,使得医疗卫生保健领域的所有数据记录者、医务人员、药品厂商都按照统一的标准记录和收集数据。这样一来,改善了行业内杂乱无章的统计方式,提高了数据使用效率,极大地推动了医疗领域数据化的进程。
我们可以得出,大数据的潜在价值仅仅靠公司、企业带有商业目的地挖掘是无法实现的,这需要具有前瞻性思维的政府决策者、政策制定者及时发现和解决大数据发展道路上的障碍。政府应担当起社会协调者、法律保障者、数据技术推动者和开放数据领头羊的角色,这样才能使大数据成为一个国家发展产业升级的强大引擎,发挥其真正的价值。
注释
①李克强:《致2015贵阳国际大数据产业博览会贺信》,2015年5月26日。
参考文献
[1]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[M].盛杨燕,周涛,譯.杭州:浙江人民出版社,2012.
[2]维克托·迈尔-舍恩伯格.删除[M].袁杰,译.杭州:浙江人民出版社,2013.
[3]董晓静.相关性与因果关系[J].中国大数据产业观察,2016(2).
[4]大卫·休谟.人性论[M].关文运,译.北京:商务印书馆,1980.
摘 要 隨着互联网科技的发展,人类逐渐步入大数据时代,“大数据”的浪潮正以变革之力席卷着社会的每个角落,为诸多领域带来了机遇和挑战。作为“大数据”这一概念的前瞻者——舍恩伯格,也是该领域的权威发言人。正是他对大数据颇具洞见的理解引发了人们研究大数据的热潮。因此,他的观点理论成为研究该领域不可或缺的一部分。文章在舍恩伯格的大数据理论基础上,进一步探究大数据带来的思想和技术上的变革,望为大数据的发展提供更多理论的参考。
关键词 数据化;开放数据;相关关系与因果关系
中图分类号 G2 文献标识码 A 文章编号 2096-0360(2018)10-0025-02
近年来,随着互联网技术的发展,“大数据”——这一概念逐渐成为公众探讨的热点。大数据时代到来为社会诸多领域带来了新的机遇和挑战,越来越多的学者、领域开始驻足大数据,研究其潜在的价值。大数据也被人们誉为人类第四次工业革命的标志,作为研究数据科学的技术权威,被人们誉为“大数据之父”的维克托·迈尔-舍恩伯格也成为这一话题里的热点人物。其著作《大数据时代》《删除》等书,一经出版便饱受追捧。书中阐述的大数据带来的思维变革颠覆了人们的观念,使人们逐渐认识到大数据的价值。李克强总理曾在向2015年贵阳国际大数据产业博览会发出的贺信中指出:“当今世界,新一轮科技和产业革命正在蓬勃兴起,数据是基础性资源,也是重要生产力,大数据与云计算、物联网等新技术相结合,正在迅疾并将日益深刻地改变人们生产生活方式,‘互联网+对提升产业乃至国家综合竞争力将发挥关键作用。”①由此可见,大数据这一概念也深得政府的认可和支持。在此背景下,对大数据领域探索当中,舍恩伯格的思想理论成为研究这一领域里不可或缺的一部分。因此,本文将在舍恩伯格的大数据思想与理论的基础上,对大数据概念带来的思维与技术变革展开进一步的探索。
基于这样的理论下,我们可以发现,大数据的研究方法不同于传统科学领域的“假设、推理”,它强调的是数据的分类、整合和分析,注重分析数据间的相关关系从而得出结论。这也使得在大数据领域的研究中,相关关系比因果关系更加实用,因为它能直接导出结论,省去了繁复的假设、推理的过程,直接告诉人们“是什么”,抛弃了耗时费力的验证因果关系,选择更加直接得出结果的相关关系。大数据带来的这一思想转变,改变了我们对科学研究方法的认知,舍恩伯格曾在书中强调这一观念的重要性“大数据应用的核心建立在相关关系的基础上”。
除此之外,舍恩伯格在强调大数据时代相关关系的优点的同时,阐述了因果关系在学科研究中的弊端,“在小数据时代,人类探索科学的方式建立在理论基础上的假设,通过假设的反复试验来促进科学发展,但是这种发展缓慢,导致我们在设立、应用假设过程中犯错误,这种繁琐的过程没有为我们的科学研究带来时效性的发展。而在大数据时代,因为可供分析的数据量增大,我们不再需要考虑研究领域的复杂性和有关产生的内在机理和产生机制。”举个例子来解释,股票投资者在分析某一支股票的投资价值时,他们不必细究这家上市公司的业绩情况,费时费力的摸清背后的基本面,而是专注于“蜡烛图”显现出的数据变化来进行归纳分析,便可做出是否值得投资的判断。
恩伯格认为大数据价值的体现,建立在对数据潜在价值的挖掘和对数据废气的利用之上,他曾说:“数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰上的一角,而绝大部分则隐藏在表面之下。”优秀的大数据企业是通过挖掘数据金矿的隐藏价值来获得巨大的收益的。此外,数据挖掘的价值还体现在数据的二次利用上。数据的利用不存在衰减性,在收集数据的同时,做好数据重组和扩展的工作,在使用的过程中可不断发现新的价值。对数据的二次利用展现的价值被舍恩伯格称为“数据废气”。例如社交网站和电子商务网站利用自己积累的用户数据,通过不断地筛选挖掘,在使用的过程中发现新的问题、新的现象,并融入到他们的服务建设当中。我们可以看出,优秀的社交网站懂得反复利用自己的用户资源,从而不断改善用户的体验,而一些拥有大量资源却不懂得运用的企业则被数据发展的洪流淘汰。
在舍恩伯格谈到大数据对社会各面的发展时,他多次强调政府开放数据的重要性,以及对未来发展的乐观态度,因此将从社会不同行业领域的角度进行分析,并探讨政府在大数据发展中扮演的重要角色。开放数据顾名思义,是具有可获取性、可利用性、公众可以普遍参与的数据集。互用性是其最重要的性质,它能使不同体系、不同组织之间进行协同工作。这决定了它能被企业、个人、政府、不同组织共同开发和利用。而在开放数据中,政府开放数据占据了很大的比例,并且在企业、个人与政府的三者关系中,政府作为推动社会进步的重要推动力,率先做出开放数据的举动尤为重要。开放数据的运动最先在西方国家开展,美国、英国等发达国家已建立起系统的政府开放数据库。随着计算机科学的进步,中国的开放数据运动也在逐步开展中。目前北京、上海、青岛等地政府已启动政府资源信息上线等项目,让我们看到了中国在面对即将到来的第四工业革命中赶超列强的决心。目前大数据的应用对各个行业都有不同的影响。尤其突出表现在互联网、电子信息产业领域的获益。医疗、制作业随着产业升级也逐渐收益于大数据的价值,但在建筑、教育和艺术等领域,大数据还难见功效,相信在未来,当这些领域克服了大数据发展的技术障碍后,定会取得显著的成就。此外,值得我们关注的是数据共享为一个行业带来的巨大发展价值,数据共享所带来的成果是将数据进行有效的规模聚集和分析,这有利于各个行业的融合发展,一个行业的数据整合将为自身带来更加有益的规模效应。
政府作为大数据的推动者也是受益者,下面我们将探讨政府机构在大数据时代应该付出那些行动并将收获哪些益处。分为以下几点。
1)建立数据共享体系,引领数据共赢的浪潮。正如我们上文中提到的,政府开放数据对促进社会数据共享体系的发展与数据产业的发展有重要推动作用,政府除了以身作则外,还应建立起有效的数据运作共享体系,建立起从企业到个人到非盈利机构之间的信息共存、数据共享的桥梁。
2)防止数据独裁,保护数据安全。关于数据隐私保护的重要性,政府要保障法律有效的执行,确保大数据更好的方向发展。此外,政府还应预防数据盗窃、网络攻击之类的犯罪行为,虽然犯罪的目标是看不见摸不着的数据,但极有可能产生严重的社会影响。例如网络黑客对一个国家金融系统的侵犯,如信用卡处理设施、银行系统等,这不仅会造成公众财产的丢失,更会造成个人信用体系的崩溃,危害到电子信息市场的建立。除此之外,还应防止数据巨头企业对某一领域或行业的数据垄断,形成恶性竞争的局面。这样会使得市场失去有应得活力,不利于行业的发展。政府应做好协调者的工作,加强对机构、企业数据的管理,保障数据市场的良性竞争。
3)克服技术障碍、加强信息技术基础设施的建设。大数据发展到今天,仍有一部分行业领域存在着未克服的技术难关,政府可以发挥扶持的作用,通过资助科研单位在计算机和数学领域的研究,鼓励研发新的技术和工具,建立行业标准的认证,帮助行业内克服大数据发展的障碍。例如,在美国,国家医疗信息技术协调委员会规定了统一的电子医疗记录标准和认证,使得医疗卫生保健领域的所有数据记录者、医务人员、药品厂商都按照统一的标准记录和收集数据。这样一来,改善了行业内杂乱无章的统计方式,提高了数据使用效率,极大地推动了医疗领域数据化的进程。
我们可以得出,大数据的潜在价值仅仅靠公司、企业带有商业目的地挖掘是无法实现的,这需要具有前瞻性思维的政府决策者、政策制定者及时发现和解决大数据发展道路上的障碍。政府应担当起社会协调者、法律保障者、数据技术推动者和开放数据领头羊的角色,这样才能使大数据成为一个国家发展产业升级的强大引擎,发挥其真正的价值。
注释
①李克强:《致2015贵阳国际大数据产业博览会贺信》,2015年5月26日。
参考文献
[1]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[M].盛杨燕,周涛,譯.杭州:浙江人民出版社,2012.
[2]维克托·迈尔-舍恩伯格.删除[M].袁杰,译.杭州:浙江人民出版社,2013.
[3]董晓静.相关性与因果关系[J].中国大数据产业观察,2016(2).
[4]大卫·休谟.人性论[M].关文运,译.北京:商务印书馆,1980.