标题 | 基于主成分分析对某市PM2.5的数据处理 |
范文 | 唐珊珊 田翔华 李慧 何凌琴 王溶鲜 摘要:主成分分析是一种重要的数据分析方法,对多变量数据降维提取主成分是研究影响事物变化因素的重要手段。本文对主成分分析的相关知识进行归纳总结,在R语言的基础上使用此分析方法对某市2010年1月1日到2014年12月31日PM2.5数据进行处理,提出PM2.5的季节变化趋势和相关自然天气影响因素。 关键词:主成分分析;R语言;PM2.5 中图分类号:TP311.5 文献标识码:A 文章编号:1009-3044(2019)31-0241-02 1概述 随着科学技术进步,人们生活节奏加快的同时,人类的生存环境和自身的健康程度与社会发展存在很大联系。现如今,空气中的PM2.5浓度是广受关注的研究重点。PM2.5只是地球大气成分中含量很少的组分,但它对空气质量和能见度等有重要的影响。PM2.5产生的主要来源是工业生产、汽车尾气排放过程中经过燃烧而排放的残留物,大多含有重金属等有毒物质。本文运用主成分分析方法对影响某市PM2.5的自然天气数据进行分析处理,对数据进行降维,提取主成分,分析相关因素,为处理PM2.5提供一定的信息和依据。 2相关知识 2.1主成分分析原理 主成分分析是通过降维技术把多个变量化成少数几个主成分的方法,这些主成分能够反映原始变量的绝大部分信息。所谓降维就是把具有相关性的变量数目减少,用较小的变量来取代原先的变量。 (1)将彼此相关的指标变量转化为彼此不相关的指标变量; (2)将个数较多的指标变量转化为个数较少的指标变量; (3)将意义单一的指标变量转化为意义综合的指标变量; 在用主成分分析法进行因子求解时,我们最多可以得到与变量个数一样多的因子。在求解时,需对因子的大小进行排列,对其进行取舍,保留大因子,抛弃小因子。在一般的行為研究中,我们常常用到的保留因子的判断方法有两个:特征值大于1法与碎石图法。 2.2算法步骤 (1)数据处理 将原始数据按行排列组成矩阵x。 (2)数据标准化 对x进行数据标准化,使其均值变为零,方差变为1。 3实例分析 3.1数据集简介 Bering PM2.5 Data数据集来自加州大学欧文分校(univer-sity of CaliforniaIrvine)提出的用于机器学习的UCI数据库,数据的时间段为2010年1月1日至2014年12月31日,缺失数据表示为NA。 数据集有13个变量,分别为:NO:序号、year:年、month:月、day:日、hour:小时数、pm2.5:PM2.5浓度(ug/m~3)、DEWP:露点、TEMP:温度、PRES:压力(hpa)、cbwd:组合风向、1ws:累计风速(m/s)、Is:积雪累积小时数、Ir:累积的降雨时间 3.2数据分析 通过R语言进行数据处理,绘制时序图如图1所示。横轴为PM2.5浓度值,纵轴为时间(小时),分析PM2.5的季节变化特征。 (1)通过表1,可以可知前8个主成分的累计贡献率就包含了原来13个指标的96.77%的信息,即能够解释96.77%的方差,可以舍去另外两个成分,达到降维目的。 (2)loadings=TRUE,则结果列出了loadings(载荷)的内容,它实际上是主成分对于原始变量month,day,hour,DEWP,TEMP,PRES,1ws,Is,Ir,Cbwd的系数,也是特征值对应的特征向量,它们是线性无关的单位向量。第1列表示第1主成分z1的得分系数,依次类推。据此可以写出由标准化变量所表达的前8个主成分的关系式,即:ZI=0.147 month-0.559 DEWP-0.560TEMP+0.543 PRES-0.1911ws;Z2、Z3、Z4、Z5、Z6、Z7、Z8以此类推。 (3)在各主成分的表达式中,各标准化指标前面的系数与该主成分所对应的特征值之平方根的乘积是该主成分与该指标之间的相关系数。系数的绝对值越大,说明该主成分受该指标的影响也越大。因此,决定第1主成分ZI大小的主要为DEWP、TEMP和PRES;决定第2主成分z2大小的主要为hour、1ws和Cbwd;决定第3主成分z3大小的主要为month、day和Is;决定第4主成分大小的主要为day和Ir;决定第5主成分大小的主要为day和Ir;决定第6主成分大小的主要为month和Is;决定第7主成分大小的主要为hour;决定第8主成分大小的主要为1ws和Cbwd。 (4)前4个特征值均大于1,第5、6、7个接近于1,第9和10个远小于1。特征值越大,它所对应的主成分变量包含的信息就越多。由碎石图可以看出,在前3个主成分及第8和9个主成分之后,图线变化趋于平稳。因此可以选择前三个以及第八和第九个主成分做分析。 4结论 本文采用主成分分析方法对某市PM2.5数据集进行分析处理,用5个主成分代替原来13个变量,描述影响某市PM2.5的相关因素。其结论如下: (1)从时序图可以看出,某市PM2.5有明显的季节趋势,在每年十一月到次年二月PM2.5明显高于其他月份。 (2)根据分析结果,PM2.5与季节、月份、小时、积雪累积小时数、累积的降雨时间有很大关联。 (3)在影响PM2.5的因素中,积雪累计小时数贡献率较大,应及时清理地面残留的积雪,能够有效降低积雪对PM2.5的贡献率,对于改善空气质量有一定的影响作用。 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。