网站首页  词典首页

请输入您要查询的论文:

 

标题 基于数理统计的数据挖掘深度探讨与研究
范文

    黄艳梅

    摘要:互联网进入了DT时代,对于数据研究不断深入。信息化时代,通过对大数据的挖掘处理,提取有效数据,能够帮助企业不断提升自身的发展。大数据的挖掘也推动了相关挖掘技术的提升,使得计算机技术进一步提升。该文主要讲述利用数理统计进行信息提取的流程,并具体讲述所用的步骤和数学公式,希望对数据的处理有所帮助。

    关键词:数理统计;数据挖掘;数学模型

    中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)27-0269-03

    信息化时代的发展,使得互联网中积沉了大量的数据,但是由于这些数据存在的方式比较杂乱,数目巨大,导致其数据利用效率低、利用程序复杂。但是计算机人员已经发现多种办法能够对这些数据进行处理,摘取出有效的数据信息,帮助推动企业自身的发展。现在对于大数据的处理方式除了云计算外,利用数学法对其进行处理也是常用的一种。利用数理统计对数据的处理,主要是为了找出数据之间存在的各种规律,然后提取出有效的数据,提升数据的利用率和价值。

    1 数据挖掘流程

    利用统计方式对数据进行处理,需要经过一系列的处理过程。

    图1是数据分析筛选的几个关键程序。而进行数据分析的大致流程如下[1]:

    1.1 取样

    由于数据整体量大,类目杂多,想要提取出精确的数据信息,必须按照数据的类目对其进行筛选,选出所需的数据库,从该数据库中选出需要的样本数据,对其进行下一步的分析。

    1.2 分选

    在样本中的数据,需要根据具体的需求进行进一步的分选,通过这样的筛选工作,能尽可能地降低样本数据中非关键数据的干扰,提升有效数据的所占比重。

    1.3 调整

    进行初步分类的数据,需要进一步的整理。为了理清数据之间的各种关系,需要通过多种方式对数据进行深入处理,保证其数据调整符合数据挖掘的原则与标准。使得调整过的数据之间的关系更加清晰。

    1.4 分析

    对于样本中调整过的大量数据,利用各种模型、分析方法对其进行归类存放。其中利用统计学、概率学等相关模型把数据带入进行分析,确保搜集的数据是有用的,符合挖掘目的,并得出数据之间清晰的脉络图。

    1.5 评定

    对于得到的数据模型,要进行评定。对于数据整理的结果进行评定标准就是查找缺漏。对于数据挖掘的每一个流程的效率都要进行评价,保证其不会出现各种弊端。

    2 建立模型

    2.1 乔里斯基分解法

    2.3 雅克比方法

    2.3.1 原理

    对于实数的矩阵,一般都是利用雅克比法,而不是施密特正交法,去求出该矩阵的特值和对应的向量,该种方法的具体内容如下:

    用公式[tan2θ]=[2apqapp-aqq]去计算角度[θ],利用变换矩阵对B进行转换后,非主线元素的二次方和降低[2a2pq],相应的主线和增加[2a2pq],整体的和没有发生变化。通过这个数据,可以看出,经过转换,非主线和越来越趋近于0,只要再进行多次转换,必定能实现非主线元素的化0计算。慢慢的,就实现了B矩阵的转化,该矩阵中的主线数值就成为了所求的特征值,然后可以求出其相对应的特征向量[4]。

    2.3.2 类型

    雅克比方法一般分为三类,其一是,经典法。就是在原矩阵选取正值最大的元素,并把其设定为0,进行数据筛选时,排出主线元素。通过数据证明,所有的数据的平方的总和其数值接近与0,我们在进行筛选时,每一个数值都要与非主线的数值相互比值,如此才能保证选出的数值是最大的,当数据特别多时,利用这样的方式,进行数据分析,显然需要花费很多的时间。其二,循环法。利用这种方法进行数据筛选时,就是从某一个数值开始,顺时针或者逆时针,对矩阵的数值进行调整,能经过运算化为0的,利用经典法化0,无法进行化0计算的,就忽略,经过多次的循环、计算,实现目的,这种方式相对第一种方法来说次数是有限的,可控制的。其三,限值循环的方式。这种方式跟循环法有部分计算流程是相通的,但是其进行比较时,是固定了一个数值进行比较,通过更换有限的固定值进行扫除。当矩阵中的数值小于第一个固定值时,就忽略,但是大于第一个固定值就通过运算化0,通过不断利用固定值,进行计算、清除,这样的方式是通过把矩阵中的非主线元素与设定的多个固定值进行比较、处理,一直得到我们想要的数据结果,然后停止循环。

    2.3.3 步骤

    2.3.4 主成分

    想要分析出主要成分,需要对线性矩阵的特征值进行分析,根据特征值所代表的意义,得出其数值越大,在数据挖掘中所起到的作用越大,当其作用达到百分之七十时,起到的作用就是主要作用,那些矩阵数值就是关键成分。

    2.4 贝叶斯模型

    2.4.1 网络模型

    该种模型是概率推算的一种方式[5]。该种模式主要利用网络结构去清晰的罗列出该系统中每一个数值之间的数学关系。而且贝叶斯网络的网络图是有方向的,主要由数据之间的节点连接构成。两个数据之间的连接线是数据之间存在的数理关系对此我们对经典的贝叶斯模型进行介绍:

    2.4.2 结构算法

    贝叶斯的结构算法一般有三种:其一,都是由数学家对该网络模型中自变量进行安置,然后利用相关的理论基础去推定出该模型的网状图,制定数据的分布。这种方式完全是以数学家的理论基础为指导,进行该模型的计算与推导,可能由于自身的局限性,导致其计算结果差距较大。其二,数据工程师安置完模型的节点,然后利用原有数据和该模型进行配比,经过多次的尝试,得到该模型的构造与数据值。这种计算方式以数据为中心,实用性比较强,随着现代技术的进步,为该种方式的实现提供了很大的可能性依据。其三,把以上两种计算方式的优势进行融合的计算模式,就是第三种方式。这三种方式都需要专业知识丰富的数据专家进行指导,才能保证计算的真实性与有效性。

    3 实例分析

    瓷器生产商为了提升瓷器整体的质量,必须找出降低产品质量的原料。通过大数据知识,找出其中几种关键可能造成产品质量下降的原料进行分析。对其中每一种材料,抽取30个数据进行分析。先利用第一种方式对数据带入线性方程进行求解,得出系数,得到相应的函数方程。然后再利用雅克比与矩阵,算出特征值与特征向量,得出影响的主要成本,进一步确定降低瓷器质量的原料种类。为了保证可能出现误差,对得到的结果数据进行判定,判定其有效性与合理性,进行多次判定,保证其数据结果与实际情况相符合[6]。

    4 结束语

    数据挖掘在实际生产中的运用范围比较广。该种方式的出现,解决了生产中查找问题没有依据的情况,而且利用该种方式能够找出生产中存在的主要问题,以及每個主要因素其在生产中影响的作用大小。数理概率在数据分析中的运用,是数据处理能力不断发展的基础和依据。数据挖掘技术的不断提升,提升了企业在数据处理方面的效率,进一步推动了社会科技的发展。

    参考文献:

    [1] 马世龙,乌尼日其其格,李小平.大数据与深度学习综述[J].智能系统学报,2016,11(6):728-742.

    [2] 谢榭.基于数据挖掘的上海电信分公司客户流失问题实证研究[D].重庆大学,2015:47-50.

    [3] 肖明伟.基于数据挖掘与数理统计的电信集团客户价值评估研究与应用[D].成都理工大学,2013:17-20.

    [4] 孔翔宇.量化交易中的统计方法:基于回归与文本挖掘的两个实证研究[D].中国科学技术大学,2014,29(3):11-12.

    [5] 孙安恂.基于数据挖掘的广电网络运营商客户价值评估研究—以J市广电网络有限公司为例[D].南京邮电大学,2016.

    [6] 李潮.对广电网络公司用户数据挖掘的探讨[J].卫星电视与宽带多媒体,2010(16):34-37.

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/3/16 6:59:51