网站首页  词典首页

请输入您要查询的论文:

 

标题 数据挖掘在国民体质测试中的应用研究
范文

    胡精超+王莉

    

    

    

    摘要:本文运用决策树和关联规则数据挖掘算法对体质测试数据进行研究,用SQLServer BI Dev Studio数据挖掘服务建立体质水平与各单项指标的数据挖掘模型,发现影响体质水平的重要指标。研究表明,将决策树和关联规则综合运用于体质水平数据挖掘研究是有着显著作用。结果显示:影响青年人体质的是身体爆发力,影响中年人体质水平的是平衡能力,对老年人体质水平影响较大的是反应时和心肺功能。建议:为促进国民体质健康,应针对不同人群、不同性别采用不同体育锻炼方式。

    关键词:数据挖掘;关联规则;决策树;体质测试

    2016年10月25日,中共中央、国务院根据党的十八届五中全会战略部署,印发了《“健康中国2030"规划纲要》。推进健康中国建设,是全面建成小康社会、基本实现社会主义现代化的重要基础,是全面提升中华民族健康素质、实现人民健康与经济社会协调发展的国家战略。未来15年,是推进健康中国建设的重要战略时期,社会、经济、科技快速发展将为健康领域可持续发展提供强大保障。

    党和国家历来高度重视国民的体质健康,国民体质是一个国家健康发展的重要保障。从2000年起每5年进行的国民体质测试是落实《中华人民共和国体育法》和《全民健身计划》的重要工作。面对积累的大量的国民体质测试数据,运用传统的处理方法,很难对体质健康状况进行全面科学的评价和有效地决策。数据挖掘是在数据库中知识发现重要的一部分,而知识发现是将未加工的数据转换为有用的信息的过程,包括数据转换、数据预处理和挖掘后的数据分析。由于我国体质测试数据库积累了大量的数据,而数据挖掘工具软件在体育领域的研究不够深入,推广还有一定难度,多数文献为数据挖掘的探索研究和规模较少数据的研究。国内许多学者根据数据挖掘的基本原理,利用数据挖掘工具对现有的体质数据进行探索,乔克满等以上海市国民体质监测指标为研究对象,应用SQL Server 2005数据挖掘服务发现验证性规则、含有新知识的规则和看似“不合理”的規则。张崇林等用Clementine12.0数据挖掘软件,发现高校教职工体质总评与各单项指标关联规则,发现对青年教职工和中年教职工体质影响较大的单项指标略有不同。数据挖掘在国民体质测试中的运用可见一斑。本文运用决策树和关联规则数据挖掘算法对体质测试数据进行研究,用SQL Server BIDev Studio数据挖掘服务建立体质水平与各单项指标的数据挖掘模型,发现影响体质水平的重要指标。

    1研究对象与方法

    1.1研究对象

    研究对象为焦作市14243名成年人(20~84岁),其中焦作市区3161人,博爱县2052人,孟州市3870人,沁阳市1201人,温县2039人,武陟县1919人。体质测试由焦作市体育局专业人员于2015年8~11月完成。数据来源于河南省焦作市体育局2015年对焦作市市区及下属的沁阳市和5个县进行的体质测试。

    1.2研究方法

    1.2.1建立数据库用SQL Server 2008数据库软件建立焦作市体质测试数据库,其中每个人由若干体质测试项目构成,包括姓名、性别、年龄、身高、体重、身高体重指数、肺活量、台阶指数、体前屈、单脚站立、反应时、握力、纵跳、仰卧起坐,每个测试对象有唯一标识符(TID)。

    1.2.2数学建模实验通过用SQL Server 2008Business Intelligence Development Studio (BI DevStudio)和Visual Studio 2010软件,包括数据分析服务SQL Server analysis service(SSAS),数据集成服务SQL Server Integration Services(SSIS)建立关联规则数据挖掘模型和决策树模型。

    1.2.3频繁项集和关联规则设D是焦作市体质测试数据库I=I1,I2,…IM}是数据库内各项的集合,事务T是非空项集。

    同时满足最小支持度阈值(min_sup)和最小置信度阈值(rain_conf)的规则称为强规则。如果项集,的相对支持度满足预定义的min_sup,则I是频繁项集。

    1.2.4决策树归纳决策树是一种类似于流程图的树形结构,该方法利用信息增益寻找体质数据库中具有最大信息的属性,建立决策树的一个节点,每个内部节点表示一个属性上的测试,再根据该属性的取值建立树的分枝,每个分枝代表该树的一个输出,每个叶节点存放一个类标号。用决策树确定一组数据是否属于特定的类型。从决策树的根节点到叶节点的一条路径就对应着一条规则,整棵树就对应着一组规则。决策树与关联规则具有异曲同工之妙,为结合关联规则进行数据挖掘提供了条件。

    决策树方法应用于国民体质测试中的基本思路是通过决策树方法,构建一棵由各测试指标的属性值构成的决策树,对给定的测试指标进行排序,找出影响国民体质的最重要的因素,为提高国民体质,加强体育健身提供参考。

    2关联规则数据挖掘

    体质测试数据挖掘流程如图1所示。

    2.1数据预处理

    国民体质测试数据库含有大量数据,需要数据清理清楚数据中的噪声,纠正数据不一致。主要预处理内容包括数据清理和数值化。经过多年研究,我国多次执行修改了《国民体质测定标准》,根据这些标准对数据进行处理满足了数据挖掘的需要。

    首先进行数据清理。清除缺失值,识别和剔除离群值,检查并纠正数据中的错误。本文采用Da-ta Mining Add-Ins for Office 2007的数据挖掘插件,在Excel2007中对进行浏览数据和清除离群数据。

    其次是数值化,为了评价需要,《国民体质测定标准》实现了测试数据的数值化,即将体质测试总评结果分为优秀、良好、合格、不合格。由于关联规则算法不接受连续属性,因为关联规则是一个计数引擎,用于计数离散属性状态的相关性,因此进行SQL Server2008进行数据挖掘时对挖掘模型中的数据连续属性进行离散化,例如:各单项体质测试成绩均离散化为几个组。

    2.2建立数据库

    对于原始焦作市2015年14 243个测试数据进行除燥、清洗,去除缺失数据,保留13838个测试数据,其中男性7063名,女性6775名;青年6790名,中年5301名,老年1747名。在SQL Serv-er2008数据库软件中创建体质数据库,按数据挖掘需要,分为青年(20~39岁)男性组、青年女性组、中年(40~59岁)男性组、中年女性组、老年(60岁以上)男性组和老年女性组,每组包括姓名、性别、年龄、身高、体重、身高体重指数、肺活量、台阶指数(青年和中年组测试项目)、体前屈、单脚站立、反应时、握力、纵跳(青年组测试项目)、仰卧起坐(青年组测试项目),每个测试对象有唯一标识符(TID)。根据《国民体质测定标准》,对原始数据进行无量纲处理和一致处理,每个指标包括原始测试数据、数值化数据,每个指标还包括体质测试总分和体质等级。

    2.3创建数据源

    在BI Dev Studio中创建数据源,进行预处理。从体质数据库中获取数据创建数据源,实现数据库与BI Dev Studio的连接,并部署到BI Dev Studio。创建数据源视图(Data Source View,DSV),并添加与分析相关的事例表。

    2.4创建模型

    2.4.1创建决策树挖掘模型根据数据挖掘原理和BI Dev Studio数据挖掘软件,以体质测试等级为输出字段,分别选择85%的数据建立各个组的决策树数据挖掘模型,选择15%的数据作为验证挖掘模型的数据。建立体质测试等级的决策树模型,研究各体质测试指标对体质等级的影响程度。通过决策树查看器查看生成的决策树和依赖关系网格(如图2、图3所示)。通过各组决策树依赖关系网络图得出前3个重要的分类属性(如表1所示)。

    2.4.2创建关联规则挖掘模型

    根据数据挖掘原理和SQL Server数据挖掘服务,以体质测试等级为输出字段,并确定最小支持度min_sup=0%,最小置信度min_conf=65%,建立该字段与其他输入字段的关联规则。建立“体质测试等级与各单项指标之间的关联”模型,研究各体质测试单项指标对体质总评的影响。最终通过挖掘模型查看器来查看关联规则模型和关联规则依赖关系网格图(图4)。

    3数据挖掘结果分析

    3.1挖掘结果

    数据量越大,数据挖掘的知识也越多,能否发现其中有用的知识,还需要加以筛选。本文挖掘出了大量的关联规则,本文结合决策树依赖关系图和关联规则筛选出如表2所示的部分具有代表性的關联规则,将有利于本研究目标的决策支持。关联规则数据挖掘的结果是以规则的形式表达,每一条关联规则都有相应的概率(列2)、重要性(列3)、规则的前件(列4和列5)、规则结果(列6)以及规则适用的对象(列7)。

    本文数据挖掘的规则可分验证性规则和含有新知识的规则,对发现知识的一般规律具有重要意义,能为决策提供重要支持。

    3.2规则解析

    表2列举的1~4条规则,反映了各单项指标对焦作青年的总评影响。规则1表明,有66.2%的体质总评为良好的男性,纵跳为优秀,并且肺活量优秀(重要性为1.019002)。规则2表明,纵跳优秀的青年男性,总评成绩良好。规则3表明有95.7%的总评成绩良好的青年女性,纵跳为优秀,体前屈也为优秀;规则4说明有42.7%的总评成绩良好的青年女性单脚站立成绩优秀。由规则1~4可以看出影响青年人身体素质最重要的指标是纵跳,其次重要的指标为肺活量、体前屈、单脚站立等。即影响20~39岁青年人身体素质的重要指标为以纵跳分数为代表的身体爆发力,其他比较重要的指标为心肺功能和身体形态。

    规则5~8反应各项指标对焦作中年人的总评影响。规则5、6表明影响中年男性的指标为单脚站立、身高体重指数、肺活量等;规则7、8体现出来影响中年女性的重要身体素质指标为体前屈和肺活量,体前屈或肺活量优秀的中年女性总评为良好,可见身体柔韧性和肺活量对中年女性影响较大。影响40~59岁中年人的重要指标为反应人体平衡性的单脚站立,其次为心肺功能、身体形态和身体柔韧性等指标。

    规则9~12反应各项指标对焦作老年人的影响。规则9表明,体前屈优秀的老年男性,如果反应时优秀,则总评成绩为优秀。规则11可以看出,影响老年女性的重要身体素质指标为体前屈和身高体重指数。由此可以看出,影响老年男、女身体素质的重要指标为体前屈、反应时和身高体重指数。影响60岁以上老年人的重要体质因素为反应时和体前屈,其他还包括身体形态和心肺功能等因素。规则10、12显示肺活量优秀的老年人,体质水平为合格,老年男性的概率为65%,老年女性的概率为75%,说明老年人的肺活量不是影响体质健康最重要的指标。

    其中:规则1、2、3、5、6、7、8、9、11为验证性规则,即体质研究专家的观点、论断等得到数据支持性验证的规则,这类规则占了绝大部分。规则4、10、12为含有新知识的规则,即事先未知的、隐含的、潜在有用的信息和知识,这类规则较少。规则4显示单脚站立优秀的青年女性总评成绩为良好,概率为42.7%,即单脚站立是反映人体健康程度的重要指标。闭眼单脚站立是平衡能力的一种简单测试方法,用以反映平衡能力的强弱。时间越短,平衡力越差,身体素质越差。闭眼单脚站立可以监测人体的衰老程度。由国家体育总局和教育部公布的2014年国民体质监测的结果中,20~39岁成年女性反应时、体重、肺活量、坐位体前屈等指标有所增长,但是闭眼单脚站立等指标有所降低,降低幅度为8.8%。规则10和规则12显示肺活量优秀的老年人,体质水平为合格,说明老年人的心肺功能不是影响其体质的重要指标。肺活量是一次呼吸的最大通气量,在一定意义上可反映呼吸机能的潜在能力,健康状况愈好的人肺活量愈大。2014年国民体质监测的结果中,60~69岁男性肺活量有所下降,女性肺活量有所上升。

    综合决策树模型和关联规则挖掘模型(表1,表2)得出结论:影响各年龄的女性的身体素质最重要的指标为体前屈和肺活量,影响男性的重要指标为肺活量和身高体重指数。提高女性身体健康最重要的是加强身体柔韧性和肺活量的锻炼,提高男性身体素质主要是依靠锻炼保持身体形态和加强肺活量的锻炼。

    4结论与建议

    4.1结论

    (1)数据挖掘适用于国民体质研究。通过体质测试数据的数据挖掘,发现一些验证性和含有新知识的规律,证明数据挖掘工具适用于体质数据分析,为体质健康领域服务。

    (2)数据挖掘具有局限性。数据挖掘实验发现众多规则,还需要结合理论和实践进行解释。数据挖掘是发现知识的重要工具,但是挖掘技术无法实现对挖掘结果的解释,需要专业人员结合理论和实践研究进行解释,同时需要在体育专业人员和数据挖掘人员共同努力下才能完成,其在体质研究领域的适用性还需提高。

    (3)数据挖掘软件的局限性。SQL Server BIDev Studio是应用最广泛的数据挖掘软件,通过BIDev Studio软件以及Office相关插件,用户可以根据需要对数据进行知识发现。通过综合运用各种数据挖掘模型发现关联度强的具有实际价值的知识。但是由于SQL Server数据挖掘软件操作复杂,步骤繁多,一般人员完全可以应用Excel软件结合Data Mining Add-Ins for Office插件进行算法要求不高的数据挖掘和知识发现。

    4.2建议

    根据挖掘结果对不同人群采用不同体质锻炼方式。通过数据挖掘结果发现对青年人体质影响较大的是身体爆发力,对中年人体质水平影响较大的是平衡能力,对老年人体质水平影响较大的是反应时和体前屈。可以针对不同年龄人群和不同性别采用不同的锻炼方式进行,例如中年女性体质促进可以从柔韧性和平衡能力等指标人手,包括健身操、健步走、广场舞等;青年女性锻炼方式可以从跑步、跳绳、健身操、健步走等提高身体爆发力等方面进行,提高男性身体素质主要是依靠锻炼保持身体形态和加强肺活量的锻炼,包括散步、慢跑等项目。

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/1/3 19:49:00