标题 | 大数据技术在国网电商平台的应用 |
范文 | 焦会英 辛存生 刘俊艳 摘? 要: 数据即价值,依托于国网电商数据平台,整合居民用户与企业用户数据资源,利用大数据进一步提高国网电商平台的智能化建设,实现更高效、盈利、信息共享、互惠共赢的国网电子商务平台。大数据技术通过收集居民用户和企业用户在电商平台上的行为信息、用电信息、缴费信息等信息,结合神经网络等深度学习与机器学习算法,实现用户画像分析、精准营销、个性化服务、互联网金融、信用评价、提升用户体验和业务流程全方位管理。除此之外,本文提出将依靠大数据分析的订阅式电商模式应用于国网电商平台,助力国网电商平台经营新模式。 关键词: 电子商务;大数据;数据挖掘 中图分类号: TP311.52? ? 文献标识码: A? ? DOI:10.3969/j.issn.1003-6970.2019.01.017 【Abstract】: Data is value. Relying on the e-commerce data platform of state grid, it integrates the data resources of residents and enterprises, further improves the intelligent construction of the e-commerce platform of state grid by using big data, and realizes the e-commerce platform of state grid that is more efficient, profitable, information sharing and win-win. Technology of data collected from residents users and enterprise users in the behavior of the electric business platform, electricity information, payment information, such as information, combined with the depth of learning and machine learning algorithms, such as neural networks for user picture analysis, accurate marketing, personalized services, Inter-net finance, credit evaluation, improving the user experience and business process management. In addition, this paper proposes to apply the subscription e-commerce model based on big data analysis to the state grid e-commerce platform to help the state grid e-commerce platform operate. 【Key words】: Electronic Commerce; Big data; Data mining 0? 引言 隨着移动设备、无线传感器等每秒产生的大量数据,以及互联网、物联网对信息的大量收集和快速传播,互联网服务时时刻刻都在进行巨量的数据处理和信息交互。及数据即价值,研究表明每当数据利用率调高10%,便可使电网提高20%~49%的利润,企业的核心开发模式正由应用驱动模式转变为数据驱动模式。大数据已成为各行业中研究和应用的热点课题,在智能电网以及电商平台的建设和应用中也发挥着越来越重要的作用。截止2017年,电子商务市场已经从基于消费者数量的时代进入基于大数据的时代。 大数据概念综合包含了技术和商业两个层面。一方面在技术层面上,结合Hadoop集群的分布式存储和计算系统使得数据存储和计算能力能够匹配高量级数据的处理;另一方面在商业层面上,利用数据挖掘、数据分析等技术手段分析电子商务产生的高量级的结构化和半结构化数据,从而帮助电商企业做系统性的决策,实现精准营销、个性化服务、提升用户体验和业务流程全方位管理,助力国网电商平台企业盈利模式。 1? 数据挖掘技术 大数据应用不单单是对高量级数据的计算,其真正的核心在于挖掘数据中蕴藏的情报价值。数据挖掘是从大量数据中挖掘出有指导意义的有趣模式和知识的过程。数据挖掘过程中使用的数据源一般是数据库、web、数据仓库等。数据仓库是数据挖掘技术中独有的内容,其本质是一个面向主题的、集成的、时变的、非易失的数据集合,从而支持管理者的决策过程[1]。总体上说数据库系统可以分为两类,联机数据处理(Online Transaction Processing,OLTP)系统和联机分析处理(Online Analytical Processing,OLAP)系统。两个系统的对比如下表1所示。其中数据库属于OLTP系统,数据仓库属于OLAP系统。 1.1? 数据挖掘一般过程 数据挖掘是从海量数据中发现有趣模式的过程。通常包括数据清理、数据集成、数据选择、数据变换和数据离散化[2]、模式发现、模式评估和知识表示,如下图1所示。 其中,数据清洗是为了清除噪音和删除不一致的地方;数据集成的过程将多种数据源的数据组合在一起;数据选择操作从数据库中提取出相关的数据;数据变换和数据离散化的目的是通过汇总或聚集操作,对数据进行规范化和离散化操作,把数据统一成适合挖掘的格式。通常采用最大最小[3]、z-score[3]、小数定标[3]等方法对数据进行规范化操作,接着使用分箱、直方图、概念分层等方法对数据进行离散化处理。模式发现一般是用数据分析算法对数据进行挖掘分析,得到数据间的关系模式。常有的模式可分为频繁模式、关联和相关性挖掘、分类与回归、聚类分析、离群点分析。模式评估是将发现的模式应用到实际数据中,验证模式推理的正确性。最后,通过模式评估验证后得到知识。 1.2? 数据分析方法 数据挖掘过程的最核心部分是模式发现的过程,针对不同的模式要适当的选取不同的数据分析算法。最经典的数据挖掘模式是频繁模式、关联和相关性挖掘(数据中频繁出现的数据集合或数据序列,如牛奶和面包常被一起购买,顾客倾向于先购买便携机,再购买数码相机,然后在购买内存卡),在此模式中最常用的典型算法为Apriori算法[4]。分类与回归模式是在已知数据分类的训练数据集中找出区分数据类型的模型(函数),使得此模型(函数)能够预测未知数据对象的类型。常用的分类规则有决策树(包括了由Quinlan提出的ID3[5]与C4.5[6],Breiman等提出的CART[7])、树剪枝等,分类算法有朴素贝叶斯[8]、K-最近邻[9]算法、支持向量机(SVM)算法[10]、遗传算法[11]、神经网络等。聚类分析模式中所分析的数据对象,开始并不存在其所属的分类标记,其后通过聚类算法产生数据的分组。分组或聚类的数据遵循类内相似性最大化,类间相似性最小化的原则进行分组或者聚类。如图2所示,表示了聚类的概念,以两点的欧式距离为聚类规范,将类内间距小和类间间距大的点自动分为了3类。 2? 大数据结合国网电商平台的应用 主在云计算、物联网支持与保障下,大数据在电商平台的应用场景越来越多,电商企业的增长模式已经不仅仅由原来的靠产品种类、产品数量、顾客基数所推动,数据驱动已成为其盈利增长的重要方面。大数据在电商领域的应用一般为用户画像分析、精准营销、个性化服务、互联网金融、信用评价、提升用户体验和业务流程全方位管理。基于国网电商平台的应用主要体现在以下方面: (1)用户画像分析、个性化服务。用户画像分析是电商平台面向顾客最核心和最基础的数据分析应用,典型的画像分析案例包括:用户消费行为与需求画像、用户偏好画像、用户地理画像。在国网电商平台中,可以通过对用户和企业填写的基本信息、用电量、缴费记录、产品购买记录、历史浏览记录、地理信息、银行账户信息等对用户进行画像分析,并根据用户信息提供个性化服务方案。如对年龄在40-50岁,且购买力较强的顾客,结合其具体信息可以推荐个性化的金融产品,如基金、保险等。 (2)信用评价与客户管理。运用大数据分析的优势,根据用户画像分析,将用户群进行分组,划分普通用户群以及核心用户群,并建立信誉度级别。通过对客户的管理为消费者提供可持续的产品和服务。如购买基金产品的客户通常会有极大可能购买保险产品,根据对客户信息的分析管理制定个性化产品方案。 (3)助力光伏云网。光伏发电作为新能源,清洁能源的代表性能源已接入电网,实现光伏云网“科技+服务+金融”综合服务云平台。使用大数据技术对光伏入网客户的信息(用电量、发电量、每个时间段对电网的供电量等)进行存储和分析,对用电量与发电量进行预测,推荐适合的光伏发电用电方案,统筹光伏电网数据,提供战略性决策支持。 (4)结合智能终端设备,推荐个性化用电方案。物联网与智能家居不僅扩大了用户的用电范围,也为大数据平台提供了更多的用户信息,如各类智能电器的用电量、用电时间,智能电表记录的家庭实时用电数据、用电总量。这些用户信息都可以接入到大数据平台,进行数据共享,应用于电费计算、用户画像分析,根据用户用电习惯推荐适合的购电方案,引导用户避开高峰用电,缓解供电压力。此外,移动终端、专用设备、智能电表也可使客户与公司,客户与客户之间完成实时高效的数据交换。 3? 总结与展望 大数据是一个目的性驱动很强的技术,有着巨大的社会和商业价值。但是在其应用中仍然存在一定的问题:(一)低效率问题。各个电商企业间数据闭环,难以在技术与业务的安全范围内实现信息与技术的互联互通操作,信息资源的低水平重复开发利用在一定程度上抑制了电商行业的协同发展。(二)数据安全和个人隐私问题。一方面,大量的数据汇集,其中包含大量的企业运营数据、客户信息、个人隐私和各种行为细节记录面临的数据泄露风险将会增大。另一方面,一些敏感数据的所有权和使用权还没有明确的界定,很多基于大数据的分析都尚未考虑到其中涉及的个体隐私问题[13]。(三)相关管理政策尚不明确。大数据时代下,云计算必将成为电商企业选择的业务模式,其本质是数据处理技术。数据即价值,云技术为数据资产提供了存储、访问、计算的场所和渠道。云计算提供的服务既包括软件服务和应用平台服务,又包括基础设施服务,但目前针对云计算的管理政策和技术标准尚不明确。 电商大数据作为一个拥有庞大数据规模的产业平台,数据交易与相关记录必将会为相关服务和产业带来新的利益增长,未来大数据的深入应用也会为企业带来质的飞跃。在利用大数据技术为企业和客户实现双赢的过程中,更应该注重企业和客户的信息安全,规范安全操作意识与行为,防患信息泄露,勇于承担起电商平台对企业与客户的责任,实现安全高效的信息管理。 参考文献 王光宏, 蒋平. 数据挖掘综述[J]. 同济大学学报(自然科学版), 2004, 32(2): 246-252. 刘永. 数字档案管理中的知识发现与知识服务[J]. 档案学研究, 2008(5): 51-53. 蔡维玲, 陈东霞. 数据规范化方法对K近邻分类器的影响[J]. 计算机工程, 2010, 36(22): 175-177. 陆丽娜, 陈亚萍, 魏恒义, 等. 挖掘关联规则中Apriori算法的研究[J]. 小型微型计算机系统, 2000, 21(9): 940-943. 王永梅, 胡学钢. 决策树中ID3算法的研究[J]. 安徽大学学报:自然科学版, 2011(3): 71-75. 李楠, 段隆振, 陈萌. 决策树C4.5算法在数据挖掘中的分析及其应用[J]. 计算机与现代化, 2008, 2008(12): 160-163. 李治, 李国琳. C4.5和CART算法在医学数据挖掘中的对比研究[J]. 电子技术与软件工程, 2013(10): 47-48. 赵文涛, 孟令军, 赵好好, 等. 朴素贝叶斯算法的改进与应用[J]. 测控技术, 2016, 35(2): 143-147. 刘松华, 张军英, 许进, 等. Kernel-kNN:基于信息能度量的核k-最近邻算法[J]. 自动化学报, 2010, 36(12): 1681-1688. 薛宁静. 多类支持向量机分类器对比研究[J]. 计算机工程与设计, 2011, 32(5): 1792-1795. 张铃, 张钹. 遗传算法机理的研究[J]. 软件学报, 2000, 11(7): 000945-952. 王美玲, 王念平, 李晓. BP神经网络算法的改进及应用[J]. 计算机工程与应用, 2009, 45(35): 47-48. 冯杰, 屈志毅, 李志辉. 基于分类稀疏表示的人脸表情识别[J]. 软件, 2013, 34(11): 59-61. 冯伟. 大数据时代面临的信息安全机遇和挑战[J]. 中国科技投资, 2012(34): 49-53. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。