网站首页  词典首页

请输入您要查询的论文:

 

标题 浅析数据统计中数据挖掘的方法及应用意义
范文

    魏世昌

    【摘要】数据,是21世纪的关键词,随着时间的推移,它的重要性将越来越明显.全球知名的管理咨询公司麦卡锡就最先标榜“大数据时代”的到来:“数据,已经渗透到当今每一个行业和業务职能领域,成为重要的生产因素.”那么,如何在纷繁的海量的数据中挖掘出有价值的信息来满足各行各业的需求?就需要了解数据统计中数据挖掘的方法以及具体意义,本文将对此做具体分析.

    【关键词】大数据时代;数据挖掘;统计;方法

    一、数据挖掘的基本概述

    数据挖掘就是运用一定的数理方法,从数据库中挖掘有价值的知识,它是当前人工智能和数据库领域研究的热点问题.换言之,数据挖掘是一个动态概念,数据库中存在海量的数据信息,这些信息往往是杂乱的,需要人们运用一定的方法,从中挖掘出事先未知的并有潜在意义的、隐含的信息.

    二、数据挖掘的基本方法

    一般来说,数据挖掘算法可以分为两种,一种是有监督法,一种是无监督算法.有监督算法主要有逻辑回归(Logistic Regression)、决策树(Decision Tree)、人工神经网络(Artificial Neural Network,ANN)等,无监督法主要包括聚类、最邻近分析法(Nearest Neighbor Analysis,NNA)、支持向量机(Support Vector Machine)等,这些算法各有自己的侧重,它们分别从各自不同的角度对数据信息进行深入挖掘.下面将对这些方法做具体的分析.

    1.逻辑回归(Logistic Regression),这种分析方法主要是反映数据库中属性值在时间上的特征,生成一个将数据项映射到一个实值预测变量的函数,通过分析变量或属性之间的依赖关系,多用来分析数据序列的趋势特征、数据序列的预测以及数据间的关联程度等.逻辑回归是目前较常用的机器学习方法,主要用于测算某一事物的可能性.

    逻辑回归由三个部分组成:回归、线性回归、Logsitic方程.逻辑回归属线性回归,而线性回归又属回归.逻辑回归没有求后验概率,所以它不像朴素贝叶斯那样需要满足条件独立假设,但每个特征的贡献是独立计算的.

    2.决策树(Decision Tree),每个决策或事件(即自然状态)都可能会引出两个或两个以上的事件,又会导致相异的结果,若把这种决策分支用图形表现出来,就很像一棵树的枝干,故而称这种方法为“决策树”.一般而言,决策树自上而下画出,它有四个构成要素,即方块结点、方案枝、圆形结点、概率枝.每个结点一般会引出许多细支,每条细支表示一个方案,这一细支就是方案枝.每个圆形结点又会引出许多个细支,用来表示不同的事件,这一细支就是概率枝.在概率枝上,会标明其出现概率,在概率枝的最末稍,标明其在该自然状态下所达到的收益值或损失值.

    3.人工神经网络(Artificial Neural Network,ANN),这种方法源于生物学中的神经网络原理,人工神经网络是一种运算模型,由许多节点连接而成,每个节点都代表着某种特定的输出函数,叫作激活函数.每两个节点间的连接都代表一个对于通过该连接信号的加权值,叫作为权重,通过这样一种方式,成功模拟了人类的记忆.网络的输出取决于网络的结构、网络的连接方式、权重和激活函数,而网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达.人工神经网络把对生物神经网络的认识与数学统计模型相结合,借助数学统计工具来实现.通过数学统计学的方法,使神经网络能够具备类似于人的决定能力和简单的判断能力,这种方法是对传统逻辑学演算的进一步延伸.

    4.聚类.聚类分析也称群分析或点群分析,为了让在同一类别中的数据的关联度最大,在相异类别中的数据的关联度最小,从而把数据按照其关联度和相异程度分成若干个类别.首先,应该深入分析数据的类别,然后按照一定的指标,用数学方法将其置于一个多维空间中,定量地定位数据间的关系,并根据其关系的亲疏程度,对数据进行聚类.系统聚类方法有如下步骤:① 对数据进行变换处理;② 构造n个类,每个类只包含一个样本;③ 计算n个样本两两间的距离;④ 合并距离最近的两类为一新类;⑤ 计算新类与当前各类的距离,若类的个数等于1,转到⑥,否则回④;⑥ 画聚类图;⑦ 决定类的个数,从而得出分类结果.

    5.最邻近分析法(Nearest Neighbor Analysis,NNA),就是将区域中点的分布与基于相同区域中点的理论意义的随机分布相比较.理论上,假定所有的点完全随机分布,则其平均距离为其密度倒数值的一半.用这个结果与借助图像观测到的实际的点分布格局相比较,可以得到一个比值,这个比值通常叫作最近邻指数(Nearest Neighbor Index),或叫R尺度.

    6.支持向量机(Support Vector Machine),这一方法建立在统计学习理论的VC Bound理论(机器学习最重要的理论基础)以及结构风险最小原理的基础上,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力.在具体的应用方面,在解决小样本、非线性及高维模式识别中,与其他方法相比,它具有明显的优势,并且它还能推广应用到函数拟合等其他机器学习问题中.

    三、数据挖掘的应用及意义

    数据挖掘是一种决策支持过程,它的应用范围非常广泛,在商业、农业、医疗业、电信、教育等领域中,数据挖掘都在发挥自己的价值.随着互联网时代的到来,数据以前所未有的速度在增长,有调查显示,如今《纽约时报》一期所刊载的信息量,比生活在中世纪的人们一生所获得信息量都多.既然数据这么海量,就需要使用科学的方法来挖掘数据中蕴含的价值,而数据挖掘作为数学中的重要一环,正发挥着巨大的作用.

    四、结语

    总之,数据挖掘有着十分广泛的外延,作为目前一个炙手可热的研究课题,它对社会各个方面都有着十分深层次的影响.为了让这一课题能更好地服务于社会,需要对数据挖掘的基本方法有着十分明晰的认识,这也是本文旨在说明的问题.

    【参考文献】

    [1]汪明.数据挖掘综述[J].河北软件职业技术学院学报,2012(1):45-48.

    [2]蔡运龙,陈彦光,等.地理学:科学地位与社会功能[M].北京:科学出版社,2012.

    [3]马红娟,赵秀兰,孙亚萍,郑喜英.基于数据挖掘技术的概率统计教学研究[J].经济研究导刊,2015(6):220-222.

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/2/6 4:14:26