《基于长短时记忆网络（LSTM）的上证指数预测》-农学论文，农业论文-论文范文参考-科学狗论文网

标题

基于长短时记忆网络（LSTM）的上证指数预测

范文

段梦冉刘美君薛碧月王都成

[摘要]在第四代科技革命，即新信息技术高速发展的背景下，人工智能技术在股票市场中也得以广泛应用。股价综合指数可视为股票市场整体趋势的一种量化描述，对综合指数的变化趋势分析有助于了解股票市场的演化方向。因此，我们利用建立了一个含有200个隐藏神经元的长短时记忆网络以分析上证指数的变化趋势，该模型实现了基于前7个交易日的历史数据的一步预测。由于ADAM具有高效性的优势，我们将其用ADAM与模型训练，并利用正则化方法提高模型的泛化能力。通过仿真实验证明，LSTM模型较好地对上证指数运动的趋势进行了预测，为上证指数预测提供了一个新的研究方向。

[关键词]长短时记忆网络;上证指数预测;LSTM模型;ADAM算法

[中图分类号]TM715 [文献标识码]A

1 引言

近几年来，随着高新技术快速发展和经济全球化，我国的资本市场规模迅速扩大。资本市场得到了充分的利用，财产性收入不断增加，越来越多的人加入到投资者的行列中来，投资者们通过投资股票、基金等投资方式来获得红利、股息等。投資是具有风险性，证券持有者面临着预期收益不能实现甚至连本金都会亏损的风险。通常情况下，风险越大的证券，预期收益越高。目前，证券投资的分析方法大致分为基础分析法和技术分析法。所谓的基础分析法，就是对股票本身的内在价值进行分析，并通过对宏观政治、经济环境，发行者所在的行业与市场公司本身的情况的分析，再结合股票价格的高低，来预测该对未来股票走向的大致趋势。而技术分析法是根据市场过去已有的统计数据进行训练，进而研究出市场未来的发展趋势和变动。事实上，影响证券的许多因素会反映在股票收盘价、开盘价、最低价、最高价和交易量上。股票市场还具有一定的记忆性，过去市场上出现的一些变动，很有可能在将来再次出现。在证券市场中，大多数股民都不能全面地了解股市的实时信息，因此就需要我们利用两种方法相结合建立一个准确度较高的股市预测的模型。

作为机器学习的一个重要内容，深度学习近年迅速发展，受到了许多研究者的关注。早在1943年，心理学家Warren McCulloch和数学逻辑学家Walter Pitts就提出了一种模拟大脑神经元的结构MP神经模型（McCulloch-Pitts Neuron model），MP模型其实采用的是线性加权的方法模拟神经元处理信号的构成，I为输入，W为权重，加权和经过一个阈值函数后作为输出。

为使计算机更自动，合理地设置权重。在1958年，Frank Rosenblatt提出了感知机模型（perceptron），感知器使用特征向量来表示前馈式人工神经网络。在1969年，Marvin Minsky和Seymour证明了单层感知器无法解决线性不可分问题[感知器]，至此神经网络的发展研究停歇了近20年，直到2006年，迎来了深度学习的爆发期，例如：Nelder等人提出的广义现象模型就建立了回归进行了股票预测。现今神经网络不断发展，给证券市场建模及其更准确地预测提供了许多新思路。上证指数是具有“记忆性”，LSTM引入了记忆单位的结构设计，能够模拟记忆性。LSTM结构通过训练数据，利用LSTM中前向算法和反向算法计算误差，根据误差，训练权重，提高其学习能力及学习效率，例如：谷歌在2015年通过基于CTC训练的LSTM程序大幅度提升了安卓手机和其他设备中的语音识别能力。

建立基于长短时记忆神经网络的上证指数预测，为股票购买和投资提供参考。因为长短时记忆神经网络对短期数据更为敏感，而利用长短时记忆网络建造的模型可使股民更好地了解股票的趋势，以获得更大的利润。此外，长短时记忆神经网络可以使用传统的通过时间的反向传播（BPTT）或实时循环学习，在时间中反向流动的误差信号往往会爆炸或消失。反向传播误差的时间演化指数式地依赖于权重的大小。权重爆炸可能会导致权重振荡，而权重消失则可能导致学习弥合时间滞后并耗费过多时间或根本不工作。因此，LSTM是一种全新的循环网络架构，它可用一种合适的基于梯度的学习算法进行训练，以得到更好的网络。因此，我们将利用LSTM神经网络进行上证指数预测。

2 LSTM神经网络基本原理

2.1 LSTM神经网络的理论

长短时记忆网络（LongShortTermNetwork，LSTM），是一种循环神经网络（Recurrent Neural Networks，RNN）特殊的类型，可学习长期依赖信息。LSTM由Hochreiter和Schmidhuber提出，在很多问题上，LSTM都得到了广泛的使用，例如，基于LSTM网络的大雾临近预报模型及应用、基于LSTM循环神经网络的核电设备状态预测。长短时记忆网络（LSTM）是一种特殊的RNNs，可以很好地解决长时依赖问题。

LSTM的运算过程第一步，将样本数据输入“遗忘门”层，根据上一刻的输出和当前输入来产生一个0到1的值，判断是否让上一时刻的信息通过和部分通过。过程如下：

其中，σ表示sigmod激活函数，Wf为“遗忘门”层的权值向量，bf为“遗忘门”层的偏置参数。

第二步包含两个部分，第一部分由“输入门”层通过sigmoid来确定哪些值用来更新，第二部分是由tanh层用来生成新的候选值Ct，它作为当前层产生的候选值可能会添加到单元状态中。将两者产生的值结合起来进行更新。

其中，Wi、Wc分别为“输入门”层和记忆单元的权值向量;bi、bc分别为“输入层”和记忆单元的偏置参数。

老的单元状态进行更新，首先，将老的单元状态乘以ft来忘掉不需要的信息，然后再与相加，it*Ct得到候选值。一二步结合起来就是丢掉不需要的信息。

最后一步是通过sigmoid层来得到一个初始输出，然后使用tanh将Ct值缩放到-1到1间，再与sigmoid得到的输出逐对相乘，从而得到模型的输出。sigmoid函数的输出是不考虑先前时刻学到的信息的输出，tanh函数是对先前学到信息的压缩处理，起到稳定数值的作用。

其中，Wo为“输出门”层的权值向量，bo为“输出门”层的偏置参数。

2.2 ADAM理论和优点

2.2.1 ADAM理论

ADAM是由DiederikKingma和Jimmy Ba最先提出的，是一种深度学习模型中可以代替传统随机梯度下降过程的一阶优化算法，它基于训练数据迭代地更新神经网络权重。该算法基于适应性低阶矩估计。相较于传统的随机梯度不同，随机梯度下降保持单一的学习率更新所有的权重，学习率在训练过程中并不会改变。ADAM通过计算梯度的一阶矩估计和二阶矩估计为每一个参数保留了适应性的学习率。

ADAM算法中确定了参数α、β1、β2和随机目标函数 f（θ）之后，我们需要初始化参数向量、一阶矩向量、二阶矩向量和时间步。然后当参数θ没有收敛时，循环迭代地更新各个部分。即时间步t+1、更新目标函数在该时间步上对参数θ所求的梯度、更新偏差的一阶矩估计和二阶原始矩估计，再计算偏差修正的一阶矩估计和偏差修正的二阶矩估计，然后再用以下公式计算出来的值更新模型的参数θ。

2.2.2 ADAM优点

ADAM算法具有高效性，ADAM算法同时具有AdaGrad和RMSProp算法的优点。适应性梯度算法（AdaGrad）为每一个参数保留一个学习率以提升在稀疏梯度（自然语言和计算机视觉问题）上的性能。它能很快地实现优良的结果。经验性结果证明，ADAM算法在实践中性能优异，相对于其他种类的随机优化算法具有很大的优势。ADAM算法很容易实现，并且有很高的计算效率和较低的内存需求。ADAM算法梯度的对角缩放（diagonal rescaling）具有不变性，因此很适合求解带有大规模数据或参数的问题。因此，本文将运用ADAM算法进行LSTM神经网络的训练，希望能够取得较好的模型，提高预测的准确性。

3 LSTM神经网络模型的设计

3.1 数据预处理

网络的数据预处理主要包括数据转换、数据选择两部分，本文的数据来源于国泰安（CSMAR）数据库中，数据内容为2014年10月26日到2016年10月26日90个工作日的开盘价、最高价、最低价、收盘价和指数回报率，因此，神经网络输入的神经元为5。本文所建立的LSTM神经网络系统就是针对上证指数走势的短期预测模型，所以上证指数是唯一的输出向量，神经网络输出的神经元个数为1。从前向后选取75%的数据作为样本集，而剩余25%的数据作为测试集。为了提高训练的准确性，我们采用参数正则化及dropout的方法限制模型的复杂度，即：

3.2 模型参数的选择

由Robet Hecht-Nielsen的万能逼近定理（Universal approximation theorem），即包含一个隐藏层的LSTM神经网络是能够完成从一个有限维空间到另一个有限维空间的映射，且只要给予网络足够数量的隐藏神经元，其逼近的精度越高。本文的LSTM神经网络预测模型是具有隐含层的网络，增加隐含层神经网络的判定，首先要考察运算的准确度，其次考虑样本训练及预测所需时间。若隐含层神经元数目过少，会导致学习精确度不高，而且所需训练迭代的权重次数增加;但神经元数目过大就会增加网络的复杂度，导致所需训练时间及权重个数变多。因此，隐含神经元个数的确定决定着神经网络最终结果的好坏，我们在这里选择200个神经元作为隐藏神经元的个数。

全连接层的每一个节点都与上一层的所有节点相连，用来把前边提取到的特征综合起来，用于反映时间序列隐藏的规律。在这里我们选择50作为全连接层的节点。

学习率是监督学习以及深度学习中重要的超参，其决定着目标函数能否收敛到局部最小值以及何时收敛到最小值。合适的学习率能够使目标函数在合适的时间内收敛到局部最小值。本文的学习率有测试的最优解0.005.

3.3 LSTM神经网络结构图

4 实证情况分析

上面叙述了LSTM神经网络的理论与ADAM算法流程，下面将通过Matlab R2018a上编制LSTM神经网络的程序来实现模型的预测。模型参数取值如表1所列：

首先，将之前下载好的数据带入编制好的模型中进行预测，本文仿真实验开始时，我们一次测试中只进行一次预测，将原始值与预测值画在一张图中进行比较，预测与实际比较图和训练过程图如下：

从预测图中可以看出，預测曲线与实际曲线较为紧密，真实值上升或者下跌都会伴随着预测值的上升或者下跌，只是两者竖直方向上数值有一定的误差;均方根误差RMSE用来衡量预测值与真实值之间的偏差，1500次训练，大多数训练误差值小于0.2;且最后损失函数趋近于0，说明RMSE与模型复杂度使得模型得出数据，符合靠近测试集的最优组合;因此，仅从曲线的方向与误差来看，LSTM神经网络对上证指数的预测还是比较完美的。

之后我们进行5次预测，将原始值与5次预测值画在一张图中进行比较，预测比较图如下：

从预测与实际比较图中可以看出，在5次预测中，每次预测值曲线运动趋势大致相同，但不同次预测值与真实值之间误差有所不同，其预测5次的实际误差值分别为（112.4130、1122.6438、1108.1272、1510.5632、1035.6719），预测的实际误差值在1100.0000上下摆动，而第4次预测实际误差值较大，为1510.5632异常数据，因此将第4次实际误差值舍去，则从其余4次实际误差值可得模型稳定性较高。

将两个预测与实际比较图进行比较，预测1次时，刚开始时预测趋势比较准确，真实值与预测值较为相近，但当预测至70天左右时，预测值与真实值之间差值逐渐增大;预测5次时，初始预测趋势较预测1次时不准确，但预测时间越长，预测趋势逐渐趋于真实值，这表明LSTM预测上证指数具有一定的可靠性。

5 总结

股票投资具有相当高的风险性，预计在不久的将来，越来越多的专家学者都会对股票的走势进行研究。本文主要运用了机器学习中的LSTM对股票的上证指数后期走势进行预测，充分地利用了LSTM的长期记忆性。与其他论文相比，LSTM是本文的创新之处，也是本文的难处。

起初，创建的LSTM模型对上证指数的预测准确性不强，我们将数据导入matlab，对数据进行了预处理，不过由于数据选择和数据处理方法不当，我们用两年的数据来预测未来一周的趋势并没有达到预期效果，该模型很快就被淘汰了。之后我们进行了模型的改进，只进行短期的的预测，即利用七天的数据预测一天的上证指数升降变化，进行滚动预测。

LSTM是一种纵向预测，适合处理时间序列数据，有根据过去预测未来的本领。本文所研究的是LSTM预测出股票的上证指数，股票市场中，大盘行情瞬息万变，所谓预测的也就难上加难，而本文则预测出了短期的上证指数趋势，这远远不能紧跟股票市场的发展速度，因此则需要进一步的提高预测的准确性。针对本文的LSTM上证指数股票预测模型进行深度剖析，未来对上证指数的预测可有如下设想：

（1）能够具有股市时势行情的数据，运用时间序列，使模型确定一天中最佳买入点和最佳卖出点，以保证投资者获得最佳收益;

（2）本文选取的变量只有开盘价、收盘价、最高价、最低价、指数回报率，并没有考虑其他的相关变量;没有考虑上证指数是否具有周期性变化，同时没有考虑是否还存在其他变量对上证指数价格有影响。

股市瞬息万变，影响上证指数的因素多且复杂，未来还是要根据实际情况，进行具体分析，做模型的进一步优化。

[参考文献]

[1] 周高雄.金融发展探索[M].中国金融出版社，2015.

[2] 谢百三.证券投资学[M].清华大学出版社，2006.

[3] 吴微，陈维强，刘波.用BP神经网络预测股票市场涨跌[J].大连理工大学学报，2001（01）.

[4] 刘莉华.神经网络在股市预测中的应用研究[D].南开大学，1997.

[5] 曾毅成.基于改进BP神经网络的上证指数预测[D].厦门大学，2006.

随便看

科学优质学术资源、百科知识分享平台，免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。