基于CNN-LSTM神经网络研究股票价格的变动
陈琪琪
摘 要:提出了使用卷积神经网络和长短期记忆(CNN-LSTM)神经网络模型来分析股票价格变动。CNN-LSTM神经网络通过CNN进行数据的空间结构特征提取,然后通过使用LSTM对输入的时间序列特征进行特征提取,最后有效地预测短时间内的当日股票最高价。实验证明,CNN-LSTM神经网络模型可以成功地应用于股票价格变动的研究。
关键词:卷积神经网络(CNN);长短期记忆神经网络(LSTM);股票价格变动
中图分类号:F832.5? ? ? 文献标志码:A? ? ? 文章编号:1673-291X(2020)02-0157-04
一、股票价格研究的可行性分析
股票价格体系内部结构的复杂性和外部因素的多样性(国家政策、银行利率、价格指数、报价公司的表现以及投资者的心理因素)决定了股票市场的复杂性、股票价格预测任务的不确定性和不确定性。股票市场具有高回报、高风险的特点。CNN是特定的DNN架构,涉及在多个层中使用卷积而不是更传统的矩阵乘法,并且是处理常规采样数据(例如2D和3D图像)的理想工具。用于图像分析任务的典型CNN体系结构由四个关键层类型组成,即卷积层、非线性激活、池化和完全连接层[1]。为了获得更好的回报,我们采用了递归神经网络(RNN),它已被证明是处理顺序数据的最强大模型之一。长短期记忆(LSTM)是最成功的RNN架构之一,用于解决神经网络中的消失梯度问题[2]。对于时间序列数据(例如文本、信号、股票价格等),较长的短期记忆(LSTM)对于学习深度神经网络(DNN)中的时间模式更为优越。LSTM克服了递归神经网络(RNN)中消失的梯度问题,可以使用存储单元和门来学习时间序列数据中的长期依赖性。所以,CNN-LSTM神经网络模型可以从历史数据集中找到潜在的规则,研究股票价格变动是可行的。
二、CNN网络和LSTM网络介绍
(一)卷积神经网络(CNN)介绍
卷积神经网络是一种多层神经网络,擅长处理与图像,尤其是大图像有关的机器学习问题。通过一系列的方法,卷积网络成功地用大量的数据降低了图像识别问题的维数,最终使其得到训练。CNN最早由Yann LeCun提出并应用在手写字体识别上(MINST)。LeCun提出的网络称为LeNet,其网络结构如图1所示。
这是一个由卷积层、池化层和全连接层共同组成的基本的卷积神经网络[4]。卷积层与池化层结合形成了多个卷积组,并逐层提取特征。最后,通过多个全连接层完成分类。卷积层完成的操作可以看做是受到了局部感受野概念的启发,而池化层主要目的是减小数据维度。一般来说,CNN通过卷积来模拟特征区分,通过卷积的权重共享和卷积的池化来降低网络参数的数量级,最后运用传统的神经网络完成分类等任务。
(二)长短期记忆网络(LSTM)介绍
长短期记忆网络(LSTM)是RNN(Recurrent neural network,循环神经网络)的一种特殊形式,是一系列能够处理序列数据的神经网络的统称。LSTM在许多问题上取得了很大的成功,并且得到了广泛的应用[4]。
1.循环神经网络(RNN)
循环神经网络(RNN)不同于深度神经网络和卷积神经网络,它可以处理有关于序列的问题。例如,基于时间的序列:一段连续的语音通话、一段连续的手写文本。这些序列相对较长,长度不同,难以分离成独立样本进行训练[5]。
循環神经网络(RNN)是一种专门处理时序数据样本的神经网络。它的每个层不但要输出下一层,还输出一个当前层在处理下一个样本时使用的隐藏状态。类似于卷积神经网络,可以很容易地扩展到拥有较大高度和宽度的图像,并且一些卷积神经网络还可以处理具有不同大小的图像。循环神经网络同样也可以扩展到具有较长周期的序列数据,并且大部分的循环神经网络可以处理不同序列长度的数据,例如,for循环、长度可变变量。循环神经网络可以看做是一个具有自循环反馈的全连接神经网络[6],其网络结构如图2所示。
其中,X是输入序列(长度为T),h是隐藏层序列,o是输出序列,L是总体损失,y是目标标记序列,U是从输入层到隐藏层的参数矩阵,W是从隐藏层到隐藏层的自循环参数矩阵,V是隐藏层到输出层的参数矩阵。需要注意的是,图中的输入节点(多个)、隐藏节点和输出节点的数量都用一个个小圆圈来表示的,它们之间是完全连接的,并且在隐藏层之间添加了一个自循环反馈(通过权重共享),这也是它能够处理不同序列长度数据的原因。
2.长短期记忆网络(LSTM)
LSTM是一种递归神经网络(RNN),它可以从长期的依赖信息中学习。与常规RNN不同,当有任意大小的时间步长时,它非常适合从经验中学习以预测时间序列。另外,通过存储单元将与时间相关的信息保留任意时间量,可以解决梯度消失的问题[7]。有证据表明,它比常规的RNN更有效。通常,长短期记忆(LSTM)旨在通过引入存储单元和输入/输出门来解决RNN网络中的长期时间依赖性,以解决递归神经网络中的梯度爆炸或消失问题[8]。
LSTM的单一节点的结构如图3所示。LSTM对于时间序列预测显示出令人鼓舞的结果。它的单元由三个门组成:输入门、忘记门和输出门。它之所以受欢迎,是因为它具有学习隐藏的长期顺序依存关系的能力,这实际上有助于学习时间序列的基本表示形式。但是,现实世界中的时间序列数据通常或多或少地包含一些异常值,尤其是在网络攻击中,这些异常通常在监视网络流量某些度量的时间序列数据中显示为异常。这些离群值在提取时间序列的真实表示时误导了学习方法,并降低了预测的性能[9]。
根据LSTM网络的结构,每个LSTM单元的计算公式如图4所示。其中,Ft代表的是遗忘门限,It代表的是输入门限,Ct代表的是cell状态(这里意思是循环发生的地方),t代表的是前一时刻cell状态,Ot代表的是输出门限,Ht代表的是当前单元的输出,Ht-1代表的是前一时刻单元的输出。
三、实验和分析
(一)CNN-LSTM网络结构
我们实施了CNN-LSTM神经网络模型,用于对股票价格变动的研究。CNN-LSTM流程图和参数的细节在图5和表1中描述如下。
在我们的CNN-LSTM模型中,LSTM部分由顺序层组成,后跟1个LSTM层和具有Tanh激活的密集层。过拟合问题是神经网络训练时最难以避免的事情之一。过拟合意味着模型在训练数据中表现良好,但对于其他数据,预测器效果较差。原因是“死记硬背”的数据和噪音通常会导致复杂的模型。为了避免过拟合问题,将Dropout添加到CNN-LSTM模型中,并將正则化项应用于权重。Dropout指的是随机丢弃一些特征以提高模型的稳健性。正则化是指在计算损失函数时添加L2范数,使得一些接近0的权重值避免对每个特征的强制适应。然后它提高了稳定性,也获得了功能选择的效果[10]。
(二)实验结果
根据股票历史数据中的开盘价、收盘价、最低价、最高价、交易量、交易额、跌涨幅等因素,对下一日股票最高价进行预测。本次实验的数据信息的元素维度为10个,也就是10个对股票价格造成影响的信息数据,分别为股票序号、股票号、时间、开盘价、闭盘价、最低价、最高价、交易量、交易额、跌涨幅[11]。
本次实验主要是预测在比较短时间内的下一个时间段的最高价。由图6可以看出,test为测试集的真实最高价,pred为模型预测的最高价,在短时间的价格变动中预测的最高价还是逼近与真实的最高价的。由此可以发现,红色预测值能够很好地接近蓝色代表的真实值,并能有效预测出股票未来短期的走势等。
结语
我们将深度学习应用在股票价格的变动的分析与研究上,首先说明了运用神经网络方法研究股票价格变动是可行的。然后提出了CNN和LSTM神经网络相结合的股票预测神经网络模型,可以稍微有效率地研究股票价格的变化,从而提供了一种基于股票数据的特征构建神经网络模型的思路。但是现在对长时间股票数据的预测的方面并不理想,我们还需要对神经网络进行进一步的优化与改善,例如改进误差函数,提高神经网络预测未来股票价格的高精度。
参考文献:
[1]? 基于卷积神经网络的K线图有效性验证.2018.
[2]? 卢兴沄.一种类人机器人手势识别算法及其实现[D].长沙:湖南大学,2017.
[3]? 顾帅.Android移动平台下基于深度学习的目标检测技术研究[D].西安:西安电子科技大学,2018.
[4]? 曹成远.基于深度学习的蛋白质残基相互作用预测[D].苏州:苏州大学,2016.
[5]? 陈再发,刘彦呈,刘厶源.长短期记忆神经网络在机械状态预测中的应用[J].大连海事大学学报,2018,44(1).
[6]? 沈荣,张保文.深度学习浅谈[J].电脑知识与技术,2017,16(13):156.
[7]? BAO W,YUE J,RAO Y.A deep learning framework for financial time series using stacked autoencoders and long-short term memory[J].Plos One,2017,12(7):e0180944.
[8]? 基于时空上下文建模的行为识别研究[D].苏州:苏州大学,2017.
[9]? YANG H,PAN Z,TAO Q.Robust and Adaptive Online Time Series Prediction with Long Short-Term Memory[J].Computational Intelligence and Neuroscience,2017:1-9.
[10]? LIU S,CHAO Z,MA J:CNN-LSTM Neural Network Model for Quantitative Strategy Analysis in Stock Markets.In International Conference on Neural Information Processing 2017.
[11]? KIM T,KIM H Y.Forecasting stock prices with a feature fusion LSTM-CNN model using different representations of the same data[J].2019,14(2):e0212320.