标题 | 探讨基于支持向量机的高频金融时间序列预测 |
范文 | 叶建萍 【摘 要】论文总结了一种现今的高频金融时间序列数据预测手段,这种方法是将预处理采集到的数据通过决策树抽取不同特征的高频金融时间序列,建立基于支持向量机的高频金融时间序列预测模型,预测高频金融时间序列。数据显示,该方法使预测效率提高,同时也很精准。 【Abstract】This paper summarizes a current prediction method of high frequency financial time series data. This method is to extract the high frequency financial time series with different characteristics from the data preprocessed and collected through the decision tree, and establish the prediction model of high frequency financial time series based on support vector machine to predict the high frequency financial time series. The data show that the method makes the prediction more efficient and accurate. 【关键词】支持向量机;高频金融时间;预测 【Keywords】support vector machine; high frequency financial time; prediction 【中图分类号】TP183 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文献标志码】A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章编号】1673-1069(2019)12-0079-02 1 引言 因为现在是金融全球化的社会,国家的经济优势或多或少需要依靠金融行业的运转和质量,但影响其创新水平和发展程度的关键原因即金融的信息化技术。现在,高频金融时间序列预测手段是大热趋势,有不少学者开始研究该问题。通过预测高频金融时间序列,本文总结出以回归系数为基础的高频金融时间序列手段,对均值平稳的距离噪声不敏感[1]。但是,高频金融时间序列预测手段还是有缺陷,不能一次性针对处理太多数据,同时由于不同领域的高频金融时间序列特征不同,所以不同测试数据需要先分清特征。 2 提取高频金融时间序列数据的特征 现在部分高频金融时间序列预测手段有缺陷,不能准确指导现实中的研究。本文先是阐述了何谓高频金融时间序列,利用研究实际数据,总结出高频金融时间序列的两个关键特征,相似性与非平稳性。另外,因为这些特征,正交小波变换,可用分型维估计。通过实证分析国内金融市场的微观结构,得出指数序列的分型维。实验对证券指数进行高频金融时间序列预测,和神经网络预测相比较的话,提高了金融数据高频金融时间序列预测效率,减小了预测误差。 2.1 构造决策树 建立决策树其实是建立对象属性与对象值间的映射,通过输出决策树指导决策。重点在于一组没有规律可循的事例推理决策树对形式的分类,通过自上而下,于决策树的内部比较属性值,按照不同属性判断后得出决策树的叶节点结论。现实中经常用到决策树,其特征明显,首先结构与手段简单,很好明白;方法里准备数据不复杂;学习时,使用决策树可以不训练不属于数据的知识;模型效率高,很短时间里分析规模很大的数据源;比较精准。构建决策树其实就是选择与分割树的节点,能够知道,决策树构建算法本质在于分割[2]。按照分割手段不同,可分成两类:第一类是最小GINI的指标,第二类以信息论为基础。因为金融行业很重视信息,本文通过信息论,针对离散属性构建决策树,解答为何缺失数据以及属性值的范围连续等问题。 也就是说,ID3算法通过属性计算有关的样本熵值,采用里面最小的熵值或最大信息增益的属性当成下一结点的属性,循环往復,形成最终的决策树。设训练数据集是D,里面有N个元素,按照不同取值,把D分成k个子集,记D1,D2,…,Dk,不同子集都是n1,n2,…,nk个,同时k Σi=1 ni=N。那么定义数据集D里面的信息熵是Entropy(D)=k Σs=1nsNlog(2nsN)。 ①需要注意,信息熵是0时,即D中全部元素属于同一子集,训练集D归类完毕。分类时经常k=2,训练集D有正例与反例两类。但ID3算法,习惯通过信息增益,评判一个已知属性有没有很好归类训练集。 ②其中ETi表示训练集{ω|ω∈D,ω∈Ti }的信息熵,di,s =card{ω| ω∈D,ω∈Ti } ,A与D相比较的话,信息增益Gain(D,A),Entropy(D)降低的数量是Gain(D,A)=Entropy(D)-new_Entropy(D,A)。 Step 1:确定不同属性的数值区间,分别设为集合S1,S2,S3,S4,S5,S6,S7,各自取值,按照不同定义,取值差异很小,定义(2000,2200)(2200,2400)(2400,2600)(2600,2800)(2800,3000)(3000,3200)为数值分类区间,记不同属性的区间为S11~S16,S21~S26,S31~S36,S41~S46, S71~S76。 Step 2:计算收盘价涨幅在区间 S71,S72,S73,S74,S75中,交易天数为11,56,64,50,50,14,记d1,d2,d3,d4,d5,共为243天,总天数为N。按照公式有上证指数集S的信息熵[3]。 Step 3:计算不同属性的信息增益,统计每天开盘价在区间S11,S12,S13,S14,S15,S16的交易天数分别是11,56,64,50,50,14,记为D1,D2,D3,D4,D5,D6,共245天;下一日收盘价属于区间S71,S72,S73,S74,S75,S76 的天数分别是3,48,5,0,0,0,有上证指数集的信息熵。那么能够计算开盘价属于区间S12,S13,S14,S15,S16 的信息熵:ES11=0.8454,ES13=0.5992,ES14=0.5661,ES15=0.5579,ES16=0.5917。 重复上面的三个步骤,得到的信息增益分别为1.7992、2.0572、1.8181、0.5882、0.6758。 2.2 基于决策树信息增益的特征抽取 实验表明了ID3算法以信息增益为测试属性的规范,树节点的选择策略。ID3的根节点是信息增益最大的属性,和数据分类贡献呈正比关系,最有利于辅助决策,也最为关键。因为成交量、成交额的信息增益值最小,同时和其余的特征 属性差距很大,去掉成交量与成交额。因为最高价的信息增益最大,可知对下一日收盘价影响最大的是前一天的最高价。 3 基于支持向量机的高频金融时间序列预测模型 3.1 支持向量机 支持向量机最早由20世纪90年代提出,以统计学习理论为基础,是全新的机器学习方法。利用核函数非线性变换,将原始数据映射到高为特征空间,然后在里面通过结构风险最小化,构造线性决策函数,把低维问题变成简单的高维问题。支持向量机中最方便的模型为最大间隔分类器,用来解决特征空间里分类线性数据,提高支持向量机理论水平。本文通过支持向量回归机应用,逼近函数。给定训练数据集S={xi,yi} ni (xi是输入向量,yi是输出向量,n为训练数据集样本总量),支持向量机通过公式逼近函数(fx)。 3.2 支持向量机估计与预测结果 本文采用上证指数共245个交易日数据为样本,在前面十分之九的交易天数中作为训练样本估计支持向量机的参数,后面的十分之一交易天数是测试样本,评价预测水平[4]。选择特征属性比较抽取与特征属性。分别采用多项式核K(x,y)=(x*y+1)d和高斯RBF核K(x,y)=exp(-γ||x-y||2 )比较分析,取ε=0.1,C=1,通过R语言函数编程。取d=3,γ=1/nVal,其中nV是变量个数。不管在抽取特征属性前还是在之后,高斯RBF核函数可以顺利逼近原数据,而后者虽然也能无限逼近,但不够准确,实验结果体现就算提高多项式次数,也无法较好改善,所以对上证指数训练数据集而言,高斯RBF核函数是最适宜的。 4 结语 为验证本文方法,采用共245个交易日的指数试验。抽取结果体现出,指数抽取的特征属性均是开盘价、收盘价、最高价、最低价。表明这些指数对我国股票市场的综合指向能力很相似,通过不同算法獲得不同指数值,反映出股票市场的变化情况。实验表示,抽取特征向量后RBF核支持向量机可以提高逼近能力与预测效果。肯定了本文提到的高频金融时间序列预测方法,通过决策树提取特征属性,以支持向量机的预测为基础,让预测数据更精确,便于更好地分析与挖掘现实数据。 【参考文献】 【1】熊正丰.金融高频金融时间序列分形维估计的小波方法[J].系统工程理论与实践,2018(12):48-53. 【2】辛治运,顾明.基于最小二乘支持向量机的复杂金融高频金融时间序列预测[J].清华大学学报:自然科学版,2018(7):1147-1149. 【3】黄超.基于特征分析的金融高频金融时间序列挖掘若干关键问题研究[D].上海:复旦大学,2016. 【4】毛国君.数据挖掘原理与算法[M].北京:清华大学出版社,2007. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。