基于改进型Markov的高原湖泊水质预测算法研究
张雅+宋耀莲+赵继东+龙华+邵玉斌+杜庆治
摘要:预测水质变化趋势能及时准确发现水质恶化的原因,对指导工农业生产及水质治理有较大意义。但是目前对高原湖泊水质预测算法的研究还很匮乏,为了解决高原湖泊水质预测问题,在有限的水质数据资源的情况下,首先对数据进行预处理,然后再对水质进行Markov算法预测。理论分析和仿真结果验证洱海水质不同化学因子的预测精度达到83.33%以上,相对传统的Markov预测算法在预测精度上有了很大提高。
关键词:水质预测;高原湖泊;Markov算法;MATLAB
DOIDOI:10.11907/rjdk.172162
中图分类号:TP312
文献标识码:A文章编号文章编号:16727800(2018)001009504
Abstract:The prediction of the water quality change trend can accurately find the cause of water deterioration, and has great significance for guiding industrial and agricultural production and water quality management. At present, the study of plateau lakes water quality forecasting algorithm is deficient. To solve this problem, this paper prepares and analyzes limited data in advance. Then we apply Markov forecast to the Erhai plateau lake water quality. Finally,theory analyses and simulation results illustrate that prediction accuracy of different chemical factor is more than 83.33%, which is improved significantly compared with traditional Markov forecast.
Key Words:water quality prediction; plateau lakes; Markov forecast; MATLAB
0引言
随着社会和经济的发展,对水资源的保护与合理利用已经受到了极大的关注。河道水质状态直接影响到了沿岸居民的饮用水质量。水是生命之源,也是生态的基础和生产的关键。河道水资源污染已经成了我国经济和社会发展面临的主要难题。
水质变化趋势预测是维护与管理当前水质的重要依据,通过预测可以了解当地水域环境质量演变趋势,从而及时发现水质恶化原因并制定相应的治理措施。随着环境科学研究的进一步深入,水质预测模型的方式也层出不穷,主要包括灰度、人工神经网络、决策树和Markov预测模型等,但其算法的预测结果并不是那么理想。文献[1]中作者采用决策树的算法针对在线监测站得到的未经处理的水质数据进行水质预测,但其预测精度只有80%。文献[2]中选用灰度系统和神经网络相结合的模型算法来预测地表水质,虽然相对单独的灰度或者神经网络的算法预测精度有所提高,但最后的水质预测精度并不高。文献[3]中设计了一种基于ANN算法和GIS技术的水质预测软件,对青岛产芝水库水质进行了预测,但是误差率仍高达10%。文献[4]中采用未确知综合评价方法与Markov算法结合的水质预测模型,对安徽淝河水质状态预测结果精度非常高。文献[5]中利用灰度模型对淡水湖泊鄱阳湖水质进行预测,预测模型最大方差比也只达到37.728 4%。文献[6]采用ANN与Markov结合的水质预测模型对吐露港的水质发展趋势预测效果较好,但还存在一定误差。文献[7]中采用学习矢量化网络水质预测模型分别对三个省份的某一河流监测点水质进行预測,但文中并没有关于高原湖泊水质预测的相关描述。
虽然之前有些论文的水质预测算法精度相对很高,但是并未应用到高原湖泊上,只是对特定河流或者地表水质,而且大多并未对水质数据进行预处理。因此本文首先对得到的2000-2015年洱海高原湖泊监测点湖心3的左下层和左上层数据进行平均处理(以每一个点位表层、底层的水质监测值得算术平均结果作为该位点的水质监测结果)即为水质数据。共有2000-2015年的175条数据,选择2000-2014年的数据作为训练数据来预测2015年12个月份的数据。
1改进型Markov水质预测模型
1.1算法实现过程
能够表征水质变化的因子很多,比如说洱海流域气候概况、洱海入湖水量、水化学因子、水生生物指标、透水体明度等[13]。本文采用有代表性的溶解氧、总氮、总磷三种水化学因子作为表征洱海水质的变化趋势。
由于大理州环境监测站对洱海水质进行每月一次监测,且每个监测点分别采集水面0.5m及距湖底0.5m深处的水样进行分析,其监测结果基本能反映洱海全湖的总磷、总氮及溶解氧的现状[12]。所以选择洱海湖内某一监测点的月监测值为研究样本集合。
本文提出了一种改进型Markov水质预测算法,如图1所示。针对某一种化学因子从2000-2015年的上下层175×2条数据,对应月份的数据进行均值处理得到2000-2015年的175条数据集合,取2000-2014年的163条数据作为训练数据;首先对这163条数据集合进行数据预处理,然后经过Markov算法训练得到状态转移概率矩阵,再根据初始状态预测2015年12个月份的水质状况。
1.2数据预处理
从洱海流域局得到粗糙的水质数据,按照国家水质标准得到的水质状态大多处于水质状态边缘区域,水质状态区分比较模糊,所以单纯的进行监测点上下层数据的均值平均得到的水质状态并不能很精确的描述水质状态。
针对上面描述的水质数据存在的问题,提出了一种比较科学的水质状态划分预处理方法,具体步骤如下。
第一步:水质分类标准Q的确定。
水质数据的分类标准Q由整数和小数两部分组成,表示为:
式(1)中,N1代表第i项水质指标(化学因子)的水质类别;N2代表监测数据在X1类水质变化区间中所处的位置。
第二步:N1的确定。
由于洱海的水质从未出现过VI类水质的情况,所以可由监测数据与国家标准的比较确定N1,具体含义为:
N1=1,表示该化学因子的指标为I类水;
N1=2,表示该化学因子的指标为II类水;
N1=3,表示该化学因子的指标为III类水;
N1=4,表示该化学因子的指标为IV类水;
N1=5,表示该化学因子的指标为V类水;
N1=6,表示该化学因子的指标为劣V类水。
第三步:N2的确定。
针对所选的表征水质状态的化学因子指标,在地表水环境质量标准(GB3838-2002)中,溶解氧质量浓度随水质类别数的增大而减少,其余指标如总氮、总磷等指标值随水质类别数的增大而增加,因此水质的分类标准Qi按溶解氧和非溶解氧指标分别计算。
非溶解氧指标(总氮、总磷):
1.3马尔科夫(Markov)预测模型
马尔科夫链,描述了一种状态序列,它是一种每个状态值取决于前面有限个状态的随机过程。也可以说下一个状态出现的概率只与当前的状态有关系,跟其他状态无关。
若Xn,(n={1,2,…,k})是满足Markov链特征的一个随机序列,那么就满足下面的条件概率:
其中x为过程中的某个状态,公式(4)可以看作是马尔可夫性质。
不同时间步骤的状态转移概率矩阵是分析马尔科夫链的基本工具。一般来说,如果把两个连续时间序列的状态划分的数目为n,这个转移矩阵的大小是n×n。矩阵的每一个元素pij代表了一个状态转移到另外一个时间点的状态的概率。一步转移矩阵P定义为:
式(5)中,pij代表了t时刻的状态转移到(t+1)时刻状态的概率,并近似的计算为:
式(6)中,nij是先前的时间序列数据中状态i转移到状态j的次数。并且可以证明的是,矩阵中状态的转移概率都在[0,1]区间内且转移矩阵每一行的和为1。
当然,上面论述的仅仅是一阶马尔可夫模型,讨论的也只是一步转移概率矩阵,如果是想预测后面很多未知时间点的转态,可以由Markov过程的性质得到:
式(7)中,t代表某一个时间点,(t+1)表示推后时间点t一个时间间隔的时间点;pTt表示t时刻研究对象的状态向量,并且大小为n×1的列矩阵,取得哪一个状态就把对应状态位取1,否则为0。
2实验结果及分析
图4、图5、图6是溶解氧、总氮和总磷分别在经典Markov预测法和改进型Markov预测算法下的预测值与实际值的对比图,从图中可得到如下的结果。
(1)由图4可知,2015年12个月份中溶解氧在传统Markov算法下水质状态的预测精度为41.67%,但是采用改进型Markov算法预测的溶解氧的水质状态的精度为83.33%,相对传统的Markov水质预测算法其预测精度有很大提高,且从这两幅图上可以看出由溶解氧表征的水质状态为II类水,并有向III类水发展的趋势。
(2)由图5可知,2015年12个月份中总氮在传统Markov算法下水质状态的预测精度有41.67%,但是采用改进型Markov算法预测的总氮的水质状态的精度为83.33%,相对传统的Markov水质预测算法的预测结果已经提高很多,且从这两幅图上可以看出由总氮表征的水质状态为III类水,并将长期稳定在III类水。
(3)由图6可知,2015年12个月份中总磷在传统Markov算法下水质状态的预测精度是75.0%,但是采用改进型Markov算法预测的总氮的水质状态的精度为100%,相对传统的Markov算法的预测精度有明显提高,且从这两幅图上可以看出由总磷表征的水质状态为III类水,并将长期稳定在III类水。
3结语
本文采用改进型的Markov算法對高原湖泊洱海水质状态进行预测,相对传统的Markov水质预测算法其预测精度有很大提高,其中溶解氧、总氮和总磷的预测精度相对于传统Markov分别提高了41.66%、41.66%和25.00%。
本文中无论哪种化学因子的水质预测结果,水质状态都集中在II类和III类水。由国家水质评价标准[17]可知本文中预测的整个洱海流域的水质状态为III类水,且目前将长期稳定在III类水质状态,与实际相关部门得到的2015年洱海整体水质状态完全吻合,验证了本文算法的正确性。
参考文献:
[1]Lu, Jinsuo, and T. Huang.J Lu, T HUANG. Data mining on forecast raw water quality from online monitoring station based on decisionmaking Tree[C]. International Conference on Networked Computing and Advanced Information Management, Ncm 2009, Fifth International Joint Conference on Inc, Ims and Idc: Inc 2009: International Conference on Networked Computing, Ims 2009: International Conference on Advanced Information Management and Service, IDC 2009: International Conference on Digital Content, Multimedia Technology and ITS Applications, Seoul, Korea, 2009:706709.
[2]ZHU, CHANGJUN, et al. Prediction of groundwater quality using organic grey neural network model[J]. International Workshop on Intelligent Systems and Applications IEEE,2009:14.
[3]S SONG, X ZHENG, F LI. Surface water quality forecasting based on ANN and GIS for the Chanzhi Reservoir[C]. International Conference on Information Science and Engineering IEEE,2010:40944097.
[4]LIU, JUN E, F AN, et al. The water quality evaluation based on the unascertained Markov forecast model[C]. Chinese Control and Decision Conference,2010:11801183.
[5]YANG, LIN, Q CAO. Poyang lake water quality model for dynamic prediction[C]. Fourth International Conference on Computational and Information Sciences,2012:12141216.
[6]LI, XIU J SONG. A new ANNMarkov chain methodology for water quality prediction[C]. International Joint Conference on Neural Networks,2015:16.
[7]ZHANG YING, LI MEI. An evaluation model of water quality based on learning vector quantization neural network[C]. Proceedings of the 35th Chinese Control Conference July Cheng du International Joint Conference on Neural Networks,2016:2729.
[8]XIE, ZHENG WEN, K Y SU. Improved grey model base on exponential smoothing for river water pollution prediction[C]. International Conference on Bioinformatics and Biomedical Engineering IEEE,2010:14.
[9]黎尚豪,俞敏娟,李光正,等.云南高原湖泊调查[J].海洋与湖沼,1963(2):87114.
[10]杜宝汉.大理州环境保护思考与对策[M].北京:作家出版社,2006.
[11]宋岸,肖举强.洱海流域富营养化成囚及教训[J].厂东化工,2010,8(37):133134.
[12]李泽坤,杨萍萍,苏社飞.20042013年洱海富营养化变化趋势[J].环境科学导刊,2015,34(1):13.
[13]羊华.洱海20052014年水质状况及变化分析[J].水利信息化,2016(1):2528.
[14]李文章,张莉,王圣瑞,等.洱海上覆水溶解性有机氮特征及其与湖泊水質关系[J].中国环境科学,2016,36(6):18671876.
[15]王永美.洱海化学需氧量变化趋势及影响因素分析[J].环境科学导刊,2016,35(1):57.
[16]杨晓雪.洱海总磷、总氮污染现状分析[J].环境科学导刊,2006,25(z1):113115,112.
[17]李会仙,吴丰昌,陈艳卿,等.我国水质标准与国外水质标准/基准的对比分析[J].中国给水排水,2012,28(8):1518.
(责任编辑:刘亭亭)
摘要:预测水质变化趋势能及时准确发现水质恶化的原因,对指导工农业生产及水质治理有较大意义。但是目前对高原湖泊水质预测算法的研究还很匮乏,为了解决高原湖泊水质预测问题,在有限的水质数据资源的情况下,首先对数据进行预处理,然后再对水质进行Markov算法预测。理论分析和仿真结果验证洱海水质不同化学因子的预测精度达到83.33%以上,相对传统的Markov预测算法在预测精度上有了很大提高。
关键词:水质预测;高原湖泊;Markov算法;MATLAB
DOIDOI:10.11907/rjdk.172162
中图分类号:TP312
文献标识码:A文章编号文章编号:16727800(2018)001009504
Abstract:The prediction of the water quality change trend can accurately find the cause of water deterioration, and has great significance for guiding industrial and agricultural production and water quality management. At present, the study of plateau lakes water quality forecasting algorithm is deficient. To solve this problem, this paper prepares and analyzes limited data in advance. Then we apply Markov forecast to the Erhai plateau lake water quality. Finally,theory analyses and simulation results illustrate that prediction accuracy of different chemical factor is more than 83.33%, which is improved significantly compared with traditional Markov forecast.
Key Words:water quality prediction; plateau lakes; Markov forecast; MATLAB
0引言
随着社会和经济的发展,对水资源的保护与合理利用已经受到了极大的关注。河道水质状态直接影响到了沿岸居民的饮用水质量。水是生命之源,也是生态的基础和生产的关键。河道水资源污染已经成了我国经济和社会发展面临的主要难题。
水质变化趋势预测是维护与管理当前水质的重要依据,通过预测可以了解当地水域环境质量演变趋势,从而及时发现水质恶化原因并制定相应的治理措施。随着环境科学研究的进一步深入,水质预测模型的方式也层出不穷,主要包括灰度、人工神经网络、决策树和Markov预测模型等,但其算法的预测结果并不是那么理想。文献[1]中作者采用决策树的算法针对在线监测站得到的未经处理的水质数据进行水质预测,但其预测精度只有80%。文献[2]中选用灰度系统和神经网络相结合的模型算法来预测地表水质,虽然相对单独的灰度或者神经网络的算法预测精度有所提高,但最后的水质预测精度并不高。文献[3]中设计了一种基于ANN算法和GIS技术的水质预测软件,对青岛产芝水库水质进行了预测,但是误差率仍高达10%。文献[4]中采用未确知综合评价方法与Markov算法结合的水质预测模型,对安徽淝河水质状态预测结果精度非常高。文献[5]中利用灰度模型对淡水湖泊鄱阳湖水质进行预测,预测模型最大方差比也只达到37.728 4%。文献[6]采用ANN与Markov结合的水质预测模型对吐露港的水质发展趋势预测效果较好,但还存在一定误差。文献[7]中采用学习矢量化网络水质预测模型分别对三个省份的某一河流监测点水质进行预測,但文中并没有关于高原湖泊水质预测的相关描述。
虽然之前有些论文的水质预测算法精度相对很高,但是并未应用到高原湖泊上,只是对特定河流或者地表水质,而且大多并未对水质数据进行预处理。因此本文首先对得到的2000-2015年洱海高原湖泊监测点湖心3的左下层和左上层数据进行平均处理(以每一个点位表层、底层的水质监测值得算术平均结果作为该位点的水质监测结果)即为水质数据。共有2000-2015年的175条数据,选择2000-2014年的数据作为训练数据来预测2015年12个月份的数据。
1改进型Markov水质预测模型
1.1算法实现过程
能够表征水质变化的因子很多,比如说洱海流域气候概况、洱海入湖水量、水化学因子、水生生物指标、透水体明度等[13]。本文采用有代表性的溶解氧、总氮、总磷三种水化学因子作为表征洱海水质的变化趋势。
由于大理州环境监测站对洱海水质进行每月一次监测,且每个监测点分别采集水面0.5m及距湖底0.5m深处的水样进行分析,其监测结果基本能反映洱海全湖的总磷、总氮及溶解氧的现状[12]。所以选择洱海湖内某一监测点的月监测值为研究样本集合。
本文提出了一种改进型Markov水质预测算法,如图1所示。针对某一种化学因子从2000-2015年的上下层175×2条数据,对应月份的数据进行均值处理得到2000-2015年的175条数据集合,取2000-2014年的163条数据作为训练数据;首先对这163条数据集合进行数据预处理,然后经过Markov算法训练得到状态转移概率矩阵,再根据初始状态预测2015年12个月份的水质状况。
1.2数据预处理
从洱海流域局得到粗糙的水质数据,按照国家水质标准得到的水质状态大多处于水质状态边缘区域,水质状态区分比较模糊,所以单纯的进行监测点上下层数据的均值平均得到的水质状态并不能很精确的描述水质状态。
针对上面描述的水质数据存在的问题,提出了一种比较科学的水质状态划分预处理方法,具体步骤如下。
第一步:水质分类标准Q的确定。
水质数据的分类标准Q由整数和小数两部分组成,表示为:
式(1)中,N1代表第i项水质指标(化学因子)的水质类别;N2代表监测数据在X1类水质变化区间中所处的位置。
第二步:N1的确定。
由于洱海的水质从未出现过VI类水质的情况,所以可由监测数据与国家标准的比较确定N1,具体含义为:
N1=1,表示该化学因子的指标为I类水;
N1=2,表示该化学因子的指标为II类水;
N1=3,表示该化学因子的指标为III类水;
N1=4,表示该化学因子的指标为IV类水;
N1=5,表示该化学因子的指标为V类水;
N1=6,表示该化学因子的指标为劣V类水。
第三步:N2的确定。
针对所选的表征水质状态的化学因子指标,在地表水环境质量标准(GB3838-2002)中,溶解氧质量浓度随水质类别数的增大而减少,其余指标如总氮、总磷等指标值随水质类别数的增大而增加,因此水质的分类标准Qi按溶解氧和非溶解氧指标分别计算。
非溶解氧指标(总氮、总磷):
1.3马尔科夫(Markov)预测模型
马尔科夫链,描述了一种状态序列,它是一种每个状态值取决于前面有限个状态的随机过程。也可以说下一个状态出现的概率只与当前的状态有关系,跟其他状态无关。
若Xn,(n={1,2,…,k})是满足Markov链特征的一个随机序列,那么就满足下面的条件概率:
其中x为过程中的某个状态,公式(4)可以看作是马尔可夫性质。
不同时间步骤的状态转移概率矩阵是分析马尔科夫链的基本工具。一般来说,如果把两个连续时间序列的状态划分的数目为n,这个转移矩阵的大小是n×n。矩阵的每一个元素pij代表了一个状态转移到另外一个时间点的状态的概率。一步转移矩阵P定义为:
式(5)中,pij代表了t时刻的状态转移到(t+1)时刻状态的概率,并近似的计算为:
式(6)中,nij是先前的时间序列数据中状态i转移到状态j的次数。并且可以证明的是,矩阵中状态的转移概率都在[0,1]区间内且转移矩阵每一行的和为1。
当然,上面论述的仅仅是一阶马尔可夫模型,讨论的也只是一步转移概率矩阵,如果是想预测后面很多未知时间点的转态,可以由Markov过程的性质得到:
式(7)中,t代表某一个时间点,(t+1)表示推后时间点t一个时间间隔的时间点;pTt表示t时刻研究对象的状态向量,并且大小为n×1的列矩阵,取得哪一个状态就把对应状态位取1,否则为0。
2实验结果及分析
图4、图5、图6是溶解氧、总氮和总磷分别在经典Markov预测法和改进型Markov预测算法下的预测值与实际值的对比图,从图中可得到如下的结果。
(1)由图4可知,2015年12个月份中溶解氧在传统Markov算法下水质状态的预测精度为41.67%,但是采用改进型Markov算法预测的溶解氧的水质状态的精度为83.33%,相对传统的Markov水质预测算法其预测精度有很大提高,且从这两幅图上可以看出由溶解氧表征的水质状态为II类水,并有向III类水发展的趋势。
(2)由图5可知,2015年12个月份中总氮在传统Markov算法下水质状态的预测精度有41.67%,但是采用改进型Markov算法预测的总氮的水质状态的精度为83.33%,相对传统的Markov水质预测算法的预测结果已经提高很多,且从这两幅图上可以看出由总氮表征的水质状态为III类水,并将长期稳定在III类水。
(3)由图6可知,2015年12个月份中总磷在传统Markov算法下水质状态的预测精度是75.0%,但是采用改进型Markov算法预测的总氮的水质状态的精度为100%,相对传统的Markov算法的预测精度有明显提高,且从这两幅图上可以看出由总磷表征的水质状态为III类水,并将长期稳定在III类水。
3结语
本文采用改进型的Markov算法對高原湖泊洱海水质状态进行预测,相对传统的Markov水质预测算法其预测精度有很大提高,其中溶解氧、总氮和总磷的预测精度相对于传统Markov分别提高了41.66%、41.66%和25.00%。
本文中无论哪种化学因子的水质预测结果,水质状态都集中在II类和III类水。由国家水质评价标准[17]可知本文中预测的整个洱海流域的水质状态为III类水,且目前将长期稳定在III类水质状态,与实际相关部门得到的2015年洱海整体水质状态完全吻合,验证了本文算法的正确性。
参考文献:
[1]Lu, Jinsuo, and T. Huang.J Lu, T HUANG. Data mining on forecast raw water quality from online monitoring station based on decisionmaking Tree[C]. International Conference on Networked Computing and Advanced Information Management, Ncm 2009, Fifth International Joint Conference on Inc, Ims and Idc: Inc 2009: International Conference on Networked Computing, Ims 2009: International Conference on Advanced Information Management and Service, IDC 2009: International Conference on Digital Content, Multimedia Technology and ITS Applications, Seoul, Korea, 2009:706709.
[2]ZHU, CHANGJUN, et al. Prediction of groundwater quality using organic grey neural network model[J]. International Workshop on Intelligent Systems and Applications IEEE,2009:14.
[3]S SONG, X ZHENG, F LI. Surface water quality forecasting based on ANN and GIS for the Chanzhi Reservoir[C]. International Conference on Information Science and Engineering IEEE,2010:40944097.
[4]LIU, JUN E, F AN, et al. The water quality evaluation based on the unascertained Markov forecast model[C]. Chinese Control and Decision Conference,2010:11801183.
[5]YANG, LIN, Q CAO. Poyang lake water quality model for dynamic prediction[C]. Fourth International Conference on Computational and Information Sciences,2012:12141216.
[6]LI, XIU J SONG. A new ANNMarkov chain methodology for water quality prediction[C]. International Joint Conference on Neural Networks,2015:16.
[7]ZHANG YING, LI MEI. An evaluation model of water quality based on learning vector quantization neural network[C]. Proceedings of the 35th Chinese Control Conference July Cheng du International Joint Conference on Neural Networks,2016:2729.
[8]XIE, ZHENG WEN, K Y SU. Improved grey model base on exponential smoothing for river water pollution prediction[C]. International Conference on Bioinformatics and Biomedical Engineering IEEE,2010:14.
[9]黎尚豪,俞敏娟,李光正,等.云南高原湖泊调查[J].海洋与湖沼,1963(2):87114.
[10]杜宝汉.大理州环境保护思考与对策[M].北京:作家出版社,2006.
[11]宋岸,肖举强.洱海流域富营养化成囚及教训[J].厂东化工,2010,8(37):133134.
[12]李泽坤,杨萍萍,苏社飞.20042013年洱海富营养化变化趋势[J].环境科学导刊,2015,34(1):13.
[13]羊华.洱海20052014年水质状况及变化分析[J].水利信息化,2016(1):2528.
[14]李文章,张莉,王圣瑞,等.洱海上覆水溶解性有机氮特征及其与湖泊水質关系[J].中国环境科学,2016,36(6):18671876.
[15]王永美.洱海化学需氧量变化趋势及影响因素分析[J].环境科学导刊,2016,35(1):57.
[16]杨晓雪.洱海总磷、总氮污染现状分析[J].环境科学导刊,2006,25(z1):113115,112.
[17]李会仙,吴丰昌,陈艳卿,等.我国水质标准与国外水质标准/基准的对比分析[J].中国给水排水,2012,28(8):1518.
(责任编辑:刘亭亭)