标题 | 基于改进的C4.5算法与LSTM神经网络的水产病害预测 |
范文 | 黄昕 姜春涛 任紫薇 潘淑仪 凌逸文 曹颖 肖浩鸣 邱文浩 摘要:传统的神经网络并不能做到长期记忆,存在“长期依赖”问题。但长短期记忆循环神经网络模型擅长处理可变长度的时间序列的数据输入,且网络具有自连接的隐层,可以有效解决长期依赖问题。标准BP神经网络算法收敛速度慢、局部极值、难以确定隐层数和隐层的节点个数。由于收集的水体数据中有许多属性相关性较大,如果将所有属性都用C4.5算法进行计算,则会造成一定的资源浪费,降低计算效率。而改进的C4.5算法则增加了去除相关性大的几个属性这一环节,从而有效地减少了不必要的计算。该文主要融合长短期记忆循环神经网络以及决策树两种算法,来进行水产养殖病害预测。 关键词:长短期记忆循环神经网络;C4.5算法;水产病害预测 中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2020)08-0194-02 每年水产养殖病害影响面积占全国总水产养殖面积10%以上,直接经济损失高达上百亿元,已经成为我国水产养殖健康发展的主要障碍之一。根据水产养殖动植物疾病监测预报,2017年,我国水产养殖因病害造成的经济损失约361亿元,其中鱼类占33.8%,甲壳类占40.7%,贝类占13.2%,其他占12.4%。因此对水产病害进行预测分析对我国水产养殖具有极其重要的意义。 现有技术大都采用灰色预测模型、BP神经网络模型进行预测分析。但灰色预测模型对时间序列平滑性要求较高,有快速衰减和递增的属性,所以他的时效性有限,不适合做长期的预测或者分析。标准BP神经网络算法收敛速度慢、局部极值、难以确定隐层数和隐层的节点个数。长短期记忆循环神经网络模型擅长处理可变长度的时间序列的数据输入,也可以有效解决长期依赖问题。本文主要融合长短期记忆循环神经网络以及决策树两种算法,来进行水产养殖病害预测。 1 C4.5-LSTM模型建立 1.1数据采集 收集水体m个因素x1,x2,...xm的數据及对应的病害数据将数据导入Excel表格中,对数据进行预处理。 1.2决策树的生成 随机抽取其中的80%组数据作为决策树的训练集,剩余的20%组数据作为决策树的测试集。采取改进的C4.5算法生成决策树。 1.2.1去除相关性大的属性 1.2.3剪枝 采用PEP(Pessimistic Error Pruning)剪枝法进行因素的选择最终确定因素个数v。 1.3数据处理 1.3.1数据标准化处理 收集上一步骤中的n个因素y1,y2...yn的数据将数据导入Excel表格中并将数据进行预处理。利用min-max标准化公式分别将y1,y2...yn的r行数据归一化。 1.3.2数据划分 将上一步骤中处理好的数据随机选取80%组数据作为训练集,剩余20%组数据作为测试集。将每个因素的数据分别依次输入模型中。 1.4模型建立 步骤一:设置输入、输出层。设置网络输入为每次每个因 步骤四:长短期记忆循环神经网络模型训练。将数据代人模型进行训练过程中,由小批量梯度下降法寻找使预测值与真实值相差最小的值,提高模型的精确度。确定先决条件即确定优化模型的假设函数及损失函数见公式(9),通过计算找出最合适的LSTM神经网络中的权重。 步骤五:将预测出的各因素的数据组合成一组一组的数据,代入建立好的决策树中进行分类预测水产病害的爆发。 2 总结 长短期记忆循环神经网络模型擅长处理可变长度的时间序列的数据输入,也可以有效解决长期依赖问题。改进的C4.5算法增加了去除相关性大的因素这一环节,从而有效地减少了不必要的计算,节省了计算资源。先利用长短期记忆循环神经网络进行预测,再利用决策树进行分类,可有效、精准地对水产病害进行预测,让养殖户们及时采取措施,减小由此带来的巨大损失。 参考文献: [1]于家斌,尚方方,王小艺,等,基于GF-LSTM网络的蓝藻水华预测方法[Jl.计算机应用,2018:1-6. 【通联编辑:代影】 收稿日期:2019-11-25 作者简介:姜春涛(1985-),男,山东烟台人,讲师,博士,计算机学会(CCF)会员,主要研究方向为计算机微体系结构模拟、大数据系统优化;黄昕(1999-),女,江西赣州人,本科,主要研究方向为数据科学、大数据技术;任紫薇(1998-),女,安徽宿州人,本科,主要研究方向为数据科学、大数据技术。 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。