福建省PM10质量浓度影响因素主成分多元回归分析
摘要:本文以福建省为研究对象,利用主成分分析法,找出影响PM10质量浓度的主成分,然后与因变量PM10平均浓度进行多元线性回归分析。结果表明,施工烟尘对PM10浓度影响最大,其次是机动车尾气与能源燃烧排放影响。最终根据上述分析结果针对性地提出了控制PM10浓度的措施。
关键词:PM10;影响因素;主成分分析;回归分析;福建省
中图分类号:X831 文献标识码:A 文章编号:2095-672X(2018)05-0142-03
DOI:10.16647/j.cnki.cn15-1369/X.2018.05.084
Abstract: The article takes Fujian Province as the research object, uses the principal component analysis method to find out the principal components that affect the PM10 mass concentration, and then performs multiple linear regression analysis with the average concentration of the dependent variable PM10. The results show that construction dust has the greatest impact on the concentration of PM10, followed by the impact of exhaust emissions from motor vehicles and energy. Based on the analysis results, we propose to control the concentration of PM10.
Key words: PM10; Influencing factors;Principal component analysis; Regression analysis; Fujian province
PM10 也稱可吸入颗粒物,是指空气动力学直径小于或等于10μm的大气颗粒物,由于粒径小,能被人直接吸入呼吸道造成危害;同时在大气中还可为化学反应提供反应床,是影响我国空气质量的主要污染物之一。目前有关PM10污染研究多集中于颗粒物污染特征、化学性质及健康风险等方面,而对影响因素研究比较少,影响PM10浓度因素主要有气象条件和污染源排放,大多数学者研究基于气象学理论基础,停留在PM10显著性影响因素,较少对生产生活污染源与PM10的相关性进行分析或者定量分析,不利于制定具体控制措施,所以本研究从生产生活污染着手,对PM10浓度影响因素定性、定量分析。生产生活污染源主要有燃烧排放、生产工艺排放、机动车排放、扬尘排放等,本研究根据福建省PM10质量浓度以及有关经济社会发展数据,进行主成分分析,建立空气质量模型定量分析,以期为福建省空气污染控制提供参考。
1 指标选取与研究方法
1.1 指标选取
本研究选取福建省的福州市、厦门市、莆田市、三明市、泉州市、漳州市、南平市、龙岩市、宁德市、平潭综合实验区10个地区的37个国控点位2016年PM10日均值浓度( 总共3589个数据)进行计算的年均值以及影响PM10浓度主要生产生活污染源为研究对象。具体指标设置如下。
(1)空气质量指标:PM10年均值浓度。
(2)衡量城市规模指标:GDP、常住人口、建成区面积。
(3)衡量燃烧排放指标:能源消耗量。
(4)衡量工业生产排放指标:第二产业比重。由于城市发展水平不同,选取第二产业增加值占GDP比重指标更具有可比性。
(5)衡量扬尘排放指标:固定资产投资、房屋施工面积。扬尘污染大部分来自施工扬尘,故选取固定资产投资以及房屋施工面积反映扬尘污染。
(6)衡量机动车污染排放指标:机动车保有量。
1.2 数据来源与处理
本研究解释变量原始数据从2016年《福建省统计年鉴》以及各地市统计年鉴获取,机动车保有量数据来自2016年福建省环境统计数据,被解释变量2016年PM10质量浓度数据来源于福建省环保厅网站公布数据。为了消除可能存在异方差,为使数据获得正态分布对原始数据进行ln对数转换,同时为了消除量纲的影响,对数转换后的数据进行标准化处理,处理后数据记为ZLY、ZLX1-8。
1.3 研究方法
本研究解释变量比较多,且各变量间存在或多或少的线性关系,在进行多元回归分析时可能存在多重共线性。多重共线性会增大估计参数的标准误差,从而降低模型的代表性、稳定性,为了避免多重共线性,提高模型准确度,本研究先采用主成分分析,把原始变量降维为少数几个主成分,然后以主成分替代原有变量进行多元线性回归分析。
主成分分析法旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分),其中每个主成分都能够反映原始变量的大部分信息,且所含信息互不重复,通常选取累积贡献率大于等于80%的前K个成分。步骤如下:(1)收集原始数据,并对原始数据进行标准化处理,消除量纲影响;(2)计算样本相关矩阵R;(3)计算相关矩阵R的特征值、方差贡献率以及累积贡献率、因子负荷矩阵、主成分矩阵;(4)选择m个主成分,列出主成分数学模型并进行解释分析。
回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。本研究主要应用统计软件SPSS、Eviews进行分析。
2 结果与分析
2.1 主成分分析
本文利用SPSS22.0对解释变量LX1、LX2…LXn进行主成分分析,检验统计量KMO值为0.838大于0.5,巴特利特球度检验统计量的观测值为96.454,相应的概率p值为0,说明本研究数据适合进行主成分分析。表1显示,主成分F1方差贡献率最高,达84.732%,为第一主成分,主成分F2方差贡献率为8.942%,为第二主成分,累积贡献率达93.674%,表示2个主成分解释并包含了93.674%的原有变量信息,所以将8个影响因子简化为2个主成分,最大限度减少自变量个数,又保留原有变量大部分信息。
表3计算各原始变量与主成分F1、F2的相关性,得到因子矩阵。主成分F1与原始变量GDP、常住人口、能源消耗量、固定资产投资、房屋建筑施工面积、机动车保有量关系密切,相关系数值均大于0.94。主成分F2与第二产业比重关系密切。通过分析得知,对PM10浓度影响主要原始变量是GDP、常住人口、能源消耗量、固定資产投资、房屋建筑施工面积、机动车保有量、第二产业比重。
通过初始因子矩阵中数据除以主成分对应特征值平方根,得到主成分载荷矩阵。绝对值越大说明主成分与该指标间联系越紧密,主成分载荷矩阵见表4。主成分方程:
F1=0.381ZLX1+0.375ZLX2+0.318ZLX3+0.372ZLX4+0.262ZLX5+0.372ZLX6+0.364ZLX7+0.368ZLX8
F2=-0.024ZLX1+0.075ZLX2-0.526ZLX3+0.116ZLX4+0.810ZLX5-0.019ZLX6-0.203ZLX7-0.070ZLX8
2.2 回归分析
2.2.1 PM10与主成分回归模型分析
将标准化后的数据带入主成分函数,得到主成分F1、F2与ZLPM10进行多元线性回归分析。回归模型如下:
ZLPM10=2.107E-7+0.268F1-0.147F2
t=(2.615)(-0.465)
R2=0.502, 调整R2=0.36 F=3.526, DW=2.338
回归系数t检验F1的P值为0.035<0.05,F2的P值为0.0656>0.05,说明在显著性水平0.05下回归系数F1显著,F2不显著。回归模型F检验,F=3.526,相应概率P=0.087>0.05,a=0.05下,回归模型不显著。调整R2为0.36,模型的整体拟和效果一般。综上分析,主成分F2与因变量PM10相关性不高,而F2与第二产业比重相关度最高,说明第二产业比重对PM10浓度值影响不大,这与我省第二产业主要以电子信息产业为主,高污染、高能耗产业比重较小有关。因此采用主成分F1与PM10重新建立回归模型,模型如下:
ZLPM10=3.734E-7+0.268F1
t=2.753, F=7.578 DW=2.64 R2=0.697, 调整R2=0.486
回归系数t检验,回归系数 F1的P值为0.055<0.05,显著性水平0.05下,查表t(7)=2.365,回归系数t检验值为2.753>2.365,说明回归系数显著。F检验的概率P值0.025<0.05,说明显著性水平0.05下,回归模型拟合程度较好。调整R2为0.486,模型拟合优度效果一般,这与本研究未将垃圾焚烧、生物质以及二次无机气溶胶等其他影响因素未纳入有关,推测可能还存在其他原始变量对PM10浓度影响较大。
利用Eviews软件对模型进行怀特(white) 检验,判断模是否存在异方差,结果显示,White统计量P值为0.084大于0.05,说明回归模型不存在异方差。自相关检验DW值为2.64,经查表,du <dw<4-du,说明回归模型不存在一阶自相关,综上分析说明模型拟合效果理性。
2.2.2 PM10与原始变量回归模型分析
根据主成分分析以及主成分回归模型结果可知,原始变量中 GDP、常住人口、能源消耗量、固定资产投资、房屋建筑施工面积、机动车保有量对PM10影响较大,因此选取这些指标与PM10进行回归分析,得到常数项为-4.104E-15,数值很小对回归模型几乎无影响,故舍去常数项。模型如下:
ZLPM10=-1.359ZLX1-2.106ZLX2+1.574ZLX4-0.46ZLX6+2.03ZLX7+0.969ZLX8
从回归系数看,X1(GDP)、X2(常住人口)、X6(固定资产投资)对PM10浓度产生负向影响,分析自变量可能存在多重共线性,计算共线性统计量,得出自变量容差大部分小于0.1,方差膨胀因子VIF大于10,表明存在较为严重的多重共线性。为了消除多重共线性,采用逐步回归办法,分别对ZLPM10与ZLX1、ZLX2、ZLX4、ZLX6、ZLX7、 ZLX8做一元线性回归,根据回归结果,R2从大到小顺序为X7、X2、X8、X4、X6、X1。以X7为基础,顺次加入其他变量逐步回归,并进行回归系数显著性T检验,系数显著保留,不显著剔除,最终确定自变量X7、X8、X4、X1与PM10进行回归分析。常数项为-2.214E-15太小舍去,回归模型如下:
ZLPM10=-0.588ZLX1+0.06ZLX4+0.864ZLX7+0.461ZLX8
R2=0.768, F=4.131, DW=1.904
回归模型通过F检验,且R2为0.768,说明模型拟合度较好,DW检验,经查表,du <dw<4-du,回归模型不存在一阶自相关。x1(gdp)对pm10产生逆向影响,说明规模城市对pm10管控更加严格,控制措施力度更大,另一方面也体现我省经济增长方式发生较大转变,由粗放型向集约型转变,由高碳经济型向低碳经济型转变,当然pm10影响因素是复杂多样的,多个自变量回归会削弱单个变量的影响程度。x7(房屋施工面积)、x8(机动车保有量)、
关键词:PM10;影响因素;主成分分析;回归分析;福建省
中图分类号:X831 文献标识码:A 文章编号:2095-672X(2018)05-0142-03
DOI:10.16647/j.cnki.cn15-1369/X.2018.05.084
Abstract: The article takes Fujian Province as the research object, uses the principal component analysis method to find out the principal components that affect the PM10 mass concentration, and then performs multiple linear regression analysis with the average concentration of the dependent variable PM10. The results show that construction dust has the greatest impact on the concentration of PM10, followed by the impact of exhaust emissions from motor vehicles and energy. Based on the analysis results, we propose to control the concentration of PM10.
Key words: PM10; Influencing factors;Principal component analysis; Regression analysis; Fujian province
PM10 也稱可吸入颗粒物,是指空气动力学直径小于或等于10μm的大气颗粒物,由于粒径小,能被人直接吸入呼吸道造成危害;同时在大气中还可为化学反应提供反应床,是影响我国空气质量的主要污染物之一。目前有关PM10污染研究多集中于颗粒物污染特征、化学性质及健康风险等方面,而对影响因素研究比较少,影响PM10浓度因素主要有气象条件和污染源排放,大多数学者研究基于气象学理论基础,停留在PM10显著性影响因素,较少对生产生活污染源与PM10的相关性进行分析或者定量分析,不利于制定具体控制措施,所以本研究从生产生活污染着手,对PM10浓度影响因素定性、定量分析。生产生活污染源主要有燃烧排放、生产工艺排放、机动车排放、扬尘排放等,本研究根据福建省PM10质量浓度以及有关经济社会发展数据,进行主成分分析,建立空气质量模型定量分析,以期为福建省空气污染控制提供参考。
1 指标选取与研究方法
1.1 指标选取
本研究选取福建省的福州市、厦门市、莆田市、三明市、泉州市、漳州市、南平市、龙岩市、宁德市、平潭综合实验区10个地区的37个国控点位2016年PM10日均值浓度( 总共3589个数据)进行计算的年均值以及影响PM10浓度主要生产生活污染源为研究对象。具体指标设置如下。
(1)空气质量指标:PM10年均值浓度。
(2)衡量城市规模指标:GDP、常住人口、建成区面积。
(3)衡量燃烧排放指标:能源消耗量。
(4)衡量工业生产排放指标:第二产业比重。由于城市发展水平不同,选取第二产业增加值占GDP比重指标更具有可比性。
(5)衡量扬尘排放指标:固定资产投资、房屋施工面积。扬尘污染大部分来自施工扬尘,故选取固定资产投资以及房屋施工面积反映扬尘污染。
(6)衡量机动车污染排放指标:机动车保有量。
1.2 数据来源与处理
本研究解释变量原始数据从2016年《福建省统计年鉴》以及各地市统计年鉴获取,机动车保有量数据来自2016年福建省环境统计数据,被解释变量2016年PM10质量浓度数据来源于福建省环保厅网站公布数据。为了消除可能存在异方差,为使数据获得正态分布对原始数据进行ln对数转换,同时为了消除量纲的影响,对数转换后的数据进行标准化处理,处理后数据记为ZLY、ZLX1-8。
1.3 研究方法
本研究解释变量比较多,且各变量间存在或多或少的线性关系,在进行多元回归分析时可能存在多重共线性。多重共线性会增大估计参数的标准误差,从而降低模型的代表性、稳定性,为了避免多重共线性,提高模型准确度,本研究先采用主成分分析,把原始变量降维为少数几个主成分,然后以主成分替代原有变量进行多元线性回归分析。
主成分分析法旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分),其中每个主成分都能够反映原始变量的大部分信息,且所含信息互不重复,通常选取累积贡献率大于等于80%的前K个成分。步骤如下:(1)收集原始数据,并对原始数据进行标准化处理,消除量纲影响;(2)计算样本相关矩阵R;(3)计算相关矩阵R的特征值、方差贡献率以及累积贡献率、因子负荷矩阵、主成分矩阵;(4)选择m个主成分,列出主成分数学模型并进行解释分析。
回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。本研究主要应用统计软件SPSS、Eviews进行分析。
2 结果与分析
2.1 主成分分析
本文利用SPSS22.0对解释变量LX1、LX2…LXn进行主成分分析,检验统计量KMO值为0.838大于0.5,巴特利特球度检验统计量的观测值为96.454,相应的概率p值为0,说明本研究数据适合进行主成分分析。表1显示,主成分F1方差贡献率最高,达84.732%,为第一主成分,主成分F2方差贡献率为8.942%,为第二主成分,累积贡献率达93.674%,表示2个主成分解释并包含了93.674%的原有变量信息,所以将8个影响因子简化为2个主成分,最大限度减少自变量个数,又保留原有变量大部分信息。
表3计算各原始变量与主成分F1、F2的相关性,得到因子矩阵。主成分F1与原始变量GDP、常住人口、能源消耗量、固定资产投资、房屋建筑施工面积、机动车保有量关系密切,相关系数值均大于0.94。主成分F2与第二产业比重关系密切。通过分析得知,对PM10浓度影响主要原始变量是GDP、常住人口、能源消耗量、固定資产投资、房屋建筑施工面积、机动车保有量、第二产业比重。
通过初始因子矩阵中数据除以主成分对应特征值平方根,得到主成分载荷矩阵。绝对值越大说明主成分与该指标间联系越紧密,主成分载荷矩阵见表4。主成分方程:
F1=0.381ZLX1+0.375ZLX2+0.318ZLX3+0.372ZLX4+0.262ZLX5+0.372ZLX6+0.364ZLX7+0.368ZLX8
F2=-0.024ZLX1+0.075ZLX2-0.526ZLX3+0.116ZLX4+0.810ZLX5-0.019ZLX6-0.203ZLX7-0.070ZLX8
2.2 回归分析
2.2.1 PM10与主成分回归模型分析
将标准化后的数据带入主成分函数,得到主成分F1、F2与ZLPM10进行多元线性回归分析。回归模型如下:
ZLPM10=2.107E-7+0.268F1-0.147F2
t=(2.615)(-0.465)
R2=0.502, 调整R2=0.36 F=3.526, DW=2.338
回归系数t检验F1的P值为0.035<0.05,F2的P值为0.0656>0.05,说明在显著性水平0.05下回归系数F1显著,F2不显著。回归模型F检验,F=3.526,相应概率P=0.087>0.05,a=0.05下,回归模型不显著。调整R2为0.36,模型的整体拟和效果一般。综上分析,主成分F2与因变量PM10相关性不高,而F2与第二产业比重相关度最高,说明第二产业比重对PM10浓度值影响不大,这与我省第二产业主要以电子信息产业为主,高污染、高能耗产业比重较小有关。因此采用主成分F1与PM10重新建立回归模型,模型如下:
ZLPM10=3.734E-7+0.268F1
t=2.753, F=7.578 DW=2.64 R2=0.697, 调整R2=0.486
回归系数t检验,回归系数 F1的P值为0.055<0.05,显著性水平0.05下,查表t(7)=2.365,回归系数t检验值为2.753>2.365,说明回归系数显著。F检验的概率P值0.025<0.05,说明显著性水平0.05下,回归模型拟合程度较好。调整R2为0.486,模型拟合优度效果一般,这与本研究未将垃圾焚烧、生物质以及二次无机气溶胶等其他影响因素未纳入有关,推测可能还存在其他原始变量对PM10浓度影响较大。
利用Eviews软件对模型进行怀特(white) 检验,判断模是否存在异方差,结果显示,White统计量P值为0.084大于0.05,说明回归模型不存在异方差。自相关检验DW值为2.64,经查表,du <dw<4-du,说明回归模型不存在一阶自相关,综上分析说明模型拟合效果理性。
2.2.2 PM10与原始变量回归模型分析
根据主成分分析以及主成分回归模型结果可知,原始变量中 GDP、常住人口、能源消耗量、固定资产投资、房屋建筑施工面积、机动车保有量对PM10影响较大,因此选取这些指标与PM10进行回归分析,得到常数项为-4.104E-15,数值很小对回归模型几乎无影响,故舍去常数项。模型如下:
ZLPM10=-1.359ZLX1-2.106ZLX2+1.574ZLX4-0.46ZLX6+2.03ZLX7+0.969ZLX8
从回归系数看,X1(GDP)、X2(常住人口)、X6(固定资产投资)对PM10浓度产生负向影响,分析自变量可能存在多重共线性,计算共线性统计量,得出自变量容差大部分小于0.1,方差膨胀因子VIF大于10,表明存在较为严重的多重共线性。为了消除多重共线性,采用逐步回归办法,分别对ZLPM10与ZLX1、ZLX2、ZLX4、ZLX6、ZLX7、 ZLX8做一元线性回归,根据回归结果,R2从大到小顺序为X7、X2、X8、X4、X6、X1。以X7为基础,顺次加入其他变量逐步回归,并进行回归系数显著性T检验,系数显著保留,不显著剔除,最终确定自变量X7、X8、X4、X1与PM10进行回归分析。常数项为-2.214E-15太小舍去,回归模型如下:
ZLPM10=-0.588ZLX1+0.06ZLX4+0.864ZLX7+0.461ZLX8
R2=0.768, F=4.131, DW=1.904
回归模型通过F检验,且R2为0.768,说明模型拟合度较好,DW检验,经查表,du <dw<4-du,回归模型不存在一阶自相关。x1(gdp)对pm10产生逆向影响,说明规模城市对pm10管控更加严格,控制措施力度更大,另一方面也体现我省经济增长方式发生较大转变,由粗放型向集约型转变,由高碳经济型向低碳经济型转变,当然pm10影响因素是复杂多样的,多个自变量回归会削弱单个变量的影响程度。x7(房屋施工面积)、x8(机动车保有量)、