互联网+时代的大数据浅谈
李国忠
摘要:大数据已经渗透到商业、生活、通讯、金融等各个方面。由互联网+衍生出的新型电子商务产业对于大数据的处理机制和算法有着极高的要求,对数据库系统的高并发和承载提出了更高的要求。文章对互联网+时代的大数据进行了分析。
关键词:大数据;电子商务;系统承载;高并发
1大数据概述
大数据,在IT行业的专业解释是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。简单地理解,即很难用工具实时统计或者计算的数据,特别是随着信息技术的发展,寻常意义的数据量已经不能完全记录庞大的网络行为。在这种条件下,大数据就应运而生了。大数据甚至不能用G或者T来衡量,始计量起码是P(1000个T),E(100万个T)或者Z(100亿个T),如此庞大的数据量不可能在短时间内捕捉,而只能进行有效的数据挖掘。
有了大数据的发展,才可能造就一个新的时代——大数据时代。最早提出这个概念的是全球知名咨询公司麦肯锡。他提到:“数据,已经渗透到当今的每一个行业和业务职能领域,成为重要的生产因素。人们对于海量的数据挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
2大数据的来源
其实准确地说大数据一直都存在,只是在这个概念提出之前,人们没有过多地关注它,才会觉得大数据是在突然之间出现的新事物。其实不然,以前人们关注的都是交易系统和业务系统产生的最终数据,因此呈现的数据比较少。而其中的各种流水操作,例如购买物品清单、上网浏览历史、照片,同这些数据同样存在,但是不关注,也没有特意去存储,因为那些数据既是繁杂的,也是大量的,在那时看来,也是无价值的。
而在大数据时代,更多的则是关注这些大量的看似并不重要的数据。当然,这些数据来源是不同的,包括用户、本地数据、社交数据、网站分析等,通过整合并且分析这些数据可以挖掘出用户的消费习惯以及个人偏好,从而在一定意义上知晓用户需要什么体验,喜欢怎样的产品。对这些大数据加以利用,相比以前能更容易地理解业务,也能更准确地获取用户信息,从而创造出更大的价值。
迄今为止,大数据已经渗透到商业、生活、通讯、金融等各个方面。由互联网衍生出的新型产业,例如像新浪这样的门户网站,以及微信、qq这样的社交软件,都对大数据的处理机制和算法有着极高的要求。新浪的数据挖掘要实时地从数千万条用户关注的词条中筛选出最热门的词条,每一秒产生的数据量便是数千万,甚至更多。为了应对这样的难题,自然会研发出相应的大数据核心搜索算法,而两者是相辅相成的,大数据的产生促进了大数据处理机制的完善,而愈加完善的处理机制使大数据创造出更多的价值。
当然,与大数据紧密相关的还有2个词:高并发和系统承载。高并发指的是使用多个线程或者多个进程,同时处理不同的操作,像淘宝这样的电商平台,在双十一的购物节同时访问网站的活跃用户可达数千万,系统必须有应对高并发量的处理能力,即系统承载能力要强,否则整个系统会因陷入紊乱而瘫痪。
3大数据的应用领域
在未来的发展中,大数据的应用领域又是什么。本文将从5个方面来阐述。
第一大领域是市场营销。一个企业的发展前景与它在这个领域所占据的市场份额是密切相关的,因此市场营销就显得尤为重要。具体来说,通过大数据提升消费者与企业之间的关系,使得企业的产品能够卖得更多,更快,更有效率。
过去的营销方式主要是通过电话和电子邮件进行推广与营销,但现在不同了,有网页、社交媒体账户、博客、新浪微博等。正是因为渠道的多样性,跟踪客户的脚步就变得更加困难,他们的每一次点击、收藏、点赞、分享、加好友、转发等行为都将纳入企业的销售漏斗中,如此庞大的数据量无疑是一个巨大的挑战,但也是一个有潜力的挑战,这就是一种全方面的客户视角,能够实现个性化和精准定位,将企业与客户之间的接触点变得更细。
第二大领域是公共服务。将大数据应用于社会和政府,通过数据挖掘来预测疾病暴发,理解交通模型并改善教育。如今,就中国而言,随着大量的农村和郊区人口涌入城市,城市正面临着预算超支、基础设施难题这些紧迫的问题。而城市也将变为大数据计划的绝佳实验室,政府公共数据公开化以及市民生活的高度数字化(购物、交通、医疗等)等都是大数据分析的理想对象,也可以通过数据挖掘和调整政策来缓解公共问题。
第三大领域是人工智能。人工智能是对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考,也可能超过人的智能。这门技术目前还不成熟,却也为未来之路奠定了方向。大数据的采集和分析将会为人工智能的发展提供可靠的数据。比如,人类思考的过程中脑部神经细胞的相关活动,要完整地记录这些活动,需要的数据是庞大的,大数据的分析就显得至关重要。
第四大领域是机器和设备性能优化。大数据分析还可以让机器和设备在应用上更加智能化和自主化。现在涌出的智能手机便是如此,智能手机的发展,由当初诺基亚的塞班系统,到谷歌公司的安卓系统再到后来苹果公司的lOS系统,无不体现大数据的重要性,只有通过大数据的分析来掌握手机用户的全方面的需求,从而更深一步开发和优化手机系统,才能赢得更多的市场,而当年风靡全球的塞班系统正是由于过于守旧,没有借助大数据的浪潮,才会逐渐被取代。
不仅在手机系统方面,大数据工具还曾经被谷歌公司利用于研发谷歌自驾汽车。丰田的普瑞就配有相机、GPS以及传感器,在交通上能够安全驾驶,不需要人类的干预。
第五大领域是安全改善。大数据现在已经广泛应用到安全防卫中,随着科技的发展,不法分子的作案技巧也越来越高,而摄像设备的利用则让他们无法顺利地逃脱,收集、存储视频数据,一旦有需要,警察应用大数据工具,通过数据分析就能为破案提供重要的线索。比如,美国安全局利用大数据打击恐怖主义,甚至监控人们的日常生活,企业则应用大数据技术防御网络攻击。信用卡公司应用大数据工具防止欺诈性交易,信用卡公司可以收集用户的消费信息,从而推断其消费能力,进行风险评估,最大程度地防止诈骗借贷。
4大数据的风险
一种事物的产生,往往都有两面性,大数据存在优势,为时代带来新的发展,但其存在的风险也依旧不容忽视。
维克托·迈尔·舍恩伯格在其著作《大数据时代》中提到:“数据量的大幅增加会造成结果的准确,一些错误的数据会混进数据库,而来源不同的各种信息混杂在一起会增大数据的混乱性。”
还有统计学者和计算机科学家指出,巨量数据集和细颗粒度的测量会增加“错误发现”的风险。斯坦福大学的统计学教授特Trevor Hastie说“在大规模的数据干草堆中寻找一根有意义的针,其麻烦在于‘许多稻草看起来也像针”。这句话的意思很明显,当数据量太多的时候,要从其中寻找需要的数据,无疑是大海捞针,给数据的准确分析和统计增加了难度,也为恶搞统计和带偏见的实情调查研究提供了更多的原材料,从中推导出的结论也会变得更加的多样性,会对人们造成更多的误导。
在利用计算机及数学模型的情况下,我们已经驯服和理解了数据。这些模型,正如文学之隐喻,是一种解释的简化。它们对于理解是很有用的,不过也存在局限性,没有一个数学模型能确保它永远是正确的,而在进行大数据分析的时候,也极有可能得出不正确的结论。
不仅如此,大数据的风险还在于它太注重细节,将信息无限细化,这样的后果是将不该暴露的隐私全部暴露出来,甚至会被有不良企图的人加以利用,从而达到他们的目的。
例如现在的软件系统中都存在着位置定位的权限,别人甚至可以通过手机获取你的位置,正是因为大数据的存在,自己的踪迹都仿佛时时刻刻被他人掌握,自己的个人信息同样能够被别人知晓。
苹果公司的云存储系统曾经发生过泄露事件,部分用户手机中的私人照片流失,甚至被公布到网络上,这一行为已经对用户造成了巨大的伤害,但是究其根底,不得不承认,是大数据导致了这一事件的发生。
大数据将用户所有的信息加以细化,但随着产生、存储、分析的数据量越来越大,用户的隐私问题在未来的几年也将愈加凸显,这些大数据存在着安全隐患,这种风险是大家都不愿意发生在自己身上的,所以新的数据保护要求以及立法机构和监管部门的完善应当提上日程。
5结语
总的来说,大数据无疑已成为避不开的一个因素,也为企业发展的带来了契机,只有从实时更新的大数据中获取有效的商业信息,恰当地挑战发展战略,才能让企业获得更长远的发展。大数据时代的到来已是大势所趋,也同样会对那些守旧的实体企业带来冲击,快速崛起的电商占据了越来越多的市场,新的经营模式焕发出璀璨的光彩。