标题 | 基于多策略融合的市场模式预测模型 |
范文 | 王旭 摘要:本文创新地提出了“市场信息熵”的概念通过分析行业间波动方向的有序性来判断市场总体的状态,然后与不同参数周期的趋势跟踪策略和趋势反转策略相结合,进而将这些策略信号指令作为输入,市场模式状态作为输出建立Logistic回归模型,即构造出一种创新的、具有高稳定性的多策略融合投资模型。该模型在2010年至2017年底进行模拟交易回测,结果表明通过模式识别算法融合多策略后策略的年化收益跑赢基准指数,夏普比率有明显提高,最大回撤也大大降低,为量化择时提供新思路。 关键词:量化择时 模式识别 市场信息熵 多策略融合 一、 引言 量化交易是一种近年来在国际间兴起的投资方式,它使用非常严谨的数学和统计学手段,用理性的视角设计较低风险和较高收益的投资模型策略。量化投资方法[1]在资本市场上已经发展的十分成熟,得到了广泛肯定,成为了市场上新型的先进投资产品。很多成熟的国外证券市场具有较高的有效性,即投资者很难通过对股票价格历史数据进行研究分析而预测未来价格走势,但是我国证券市场发展时间较短,投资者风险意识较低,很多市场体制和交易手段策略跟国外有着很大差别。长期以来很多投资者可以利用技术分析、基本面分析等量化手段对股票市场走势进行预测判断,从而获取超额收益。然而随着这些量化技术的大量普及和中国股票市场监管制度的完善,一些技术手段渐渐失去了有效性。本文将一些常见的择时指标和策略融合起来,然后挖掘市场特征,进而引入模式识别算法来克服股票市场本身具有的非线性[2]和复杂性特点,构造一种具有高创新、高适应性、高预测准确率的多策略融合模型来预测市场的未来趋势。 二、多维度提取市场特征 随着中国证券市场的快速发展,越来越多的公司在上海、深圳证券交易所上市,股票市场迎来空前的繁荣期。与此同时,股票市场中每日都会产生海量的交易数据,比如股票的开盘价、收盘价、交易量、涨幅等;所有上市公司的基本面信息也会不断更新,比如市盈率、市净率、净利润、营业收入等。这些庞大的财务指标以及股票量价数据为那些希望进行主动投资的投资者们提供了进行投资分析的数据基础,投资者可以将估值指标信息单独或者通过复杂的数学计算转化成因子,也可称为股票特征,进而将其作为辅助工具进行投资决策;也可以引入均线系统等择时策略分析预测股票的未来价格走势[3]。但是,股票市场本身具有非线性和复杂性特点,依据单个特征或策略很难长期保持较高的预测准确率和正收益。本文将引入若干创新的市场指标以及一些传统的策略分析模型,提取它们各自对市场状态的分析判断结果作为市场特征用于后面模式识别算法的输入变量。 在筛选策略和指标的过程中,我们通过对策略组合进行回测发现策略之间的相关性越低,组合收益风险比的提升就会越显著,即策略设计的核心逻辑要有较大的区分度。这是因为不同的策略在面对同时期的市场状态时可能会有不同的决策方案,当市场发生突然反转时,多策略模型可能会相比单策略较早的做出反应,这样可以大大提高策略组合的抗风险能力,提高策略的夏普比率。同时,我们可以关注同一种策略不同周期的组合也会产生类似的效果。 (一)LLT策略 均线策略是量化择时策略中最基本的策略之一,它的核心逻辑思想是通过移动平均历史收盘价跟踪市场趋势。因为均线策略对于市场趋势转变的反应延迟比较高,容易造成大幅度亏损。本文将介绍这个基于基础的均线系统的改进策略——LLT策略[4]作为融合模型的基础策略。 (二)市场“信息熵” “熵”的概念来自热力学,它是用来表达分子状态杂乱程度的一个物理量。香农借用该指标提出了“信息熵”的概念来描述信息源的不确定性,解决了对信息的量化度量问题,而信息量的多少可以衡量一个系统的有序程度。在金融市场中,一些专业机构将市场中的股票按主营业务或者其他信息分类划分成若干具有较鲜明特征的行业板块,如申万一级行业划分等。据已有市场经验判断,当大多数行业的波动方向一致时,整个股票市场容易形成大趋势,而信息熵作为衡量变量不确定性程度的指标很适合可以用来刻画不同行业板块状态的差异性。 根据Boltzmanns H-theorm,香农将随机变量X的熵值H(X)定义如下: (1) 其中X表示随机变量,随机变量的取值为,表示事件xi发生的概率,且。 本文借鉴信息熵的思想来构造一个指标确定市场的趋势强弱:若行业间信息熵越小,说明行业间的不确定度量越小,即行业间出现某种共性,市场的趋势比较明显;反之信息熵越大,市场出现分歧,不同行业的表现和走势有较大区别,市场越容易处于混沌状态,即震荡市,未来走势方向不明确。 本文定义“市场信息熵”的计算方法如下: (1)按照申银万国一级行业划分标准,将股票分成28组。 (2)每个行业内根据股票的当日涨幅对股票进行打分,得分规则如表1所示。整个行业的得分可表示为,其中n表示行业内股票i的个数,Si为股票的得分。将行业遍历一遍后,将各个行业的得分归一化后可得到最终行业得分。 (3)将各行业得分代入信息熵计算公式中可得本文定义的市场信息熵。 计算每日的“市场信息熵值”后,可以构造一种交易策略:用移动平均方法对其进行平滑处理,当短周期均线从长周期均线的下方,向上穿越时看多市场;当短周期均线从长周期均线的上方,向下穿越长周期均线时看空市场。 (三)改进TD策略 上文介绍的LLT策略本质上属于趋势跟踪策略,而本文希望作为基础信号输入的策略具有多樣性,故引入主要寻找反转信号的TD策略[5]。 TD指标是Thomas DeMark于上世纪80年代为了寻找股票的走势欲反转区域而设计的,因为其逻辑简单且预测精度相对较高,该策略在近几十年间在世界范围内得到了广泛的应用和推广。TD组合策略主要包含启动阶段和计数阶段,而每个阶段又分为买入和卖出分别统计。启动阶段的作用是通过指定一系列条件识别股价的涨势或者跌势是否达到阈值,在确认趋势之后开始进入计数阶段,统计上涨或下跌的天数,并且当计数达到设定阈值之后模型即认为趋势邻近终结,反转即将发生,所以发出相应的买入或卖出指令。 有很多研究机构对TD指标针对中国股票市场作出改进,寻找较适合中国股市特征的指标参数和条件,修改了其中的一些阈值条件,使其可以在中国证券市场中使用并且盈利。广发证券金融工程团队就对TD进行了一系列研究和改进,本文借鉴其改进的GFTD策略,设定了长周期和短周期两组参数,将其产生的信号作为下文模式识别模型的输入。 三、特征处理及模式识别 从多个策略中分别提取对市场状态的判别信号后,本文将多维策略信号作为输入变量,市场真实的涨跌情况作为输出变量建立了基于逻辑斯特回归(Logistic Regression)的模式识别模型[6]。逻辑斯特回归模型又可称为“对数几率回归”,本质上是用线性回归模型的预测结果逼近真实标记的对数几率,在分类问题中被广泛应用。 逻辑回归模型有很多优点,首先它不受数据分布的影响,避免了当假设分布不准确时实验结果不准确的问题;而且该模型不仅可以预测样本集的分类结果,还可以输出其对应事件发生的近似概率。这两个优点尤其适用于解决本文所提出的问题,一般来说证券市场中的数据分布并不规则,而且具有多变性,很难用一种概率分布假设及估计参数来长时间近似。其次,投资者想预测市场的趋势是上涨还是下跌同样也可以看作是一种二分类问题,逻辑回归模型可以在有效地解决该分类问题的同时还可以给出市场上涨下跌的概率。因此,本文选择logistic回归作为模式识别模型进行样本训练学习并用于对市场状态进行预测。 四、多策略融合模型 多策略融合模型是通过筛选多个策略信号作为模式识别的输入变量,市场历史真实状态作为输出标签进行训练,然后将训练好的模型对实时股票市场状态进行判断和投资以获得收益。 本文所要建立的多策略融合模型内容及结构如下图所示: 图1 多策略融合模型流程图 本文共选取了5个基础策略信号作为机器学习模型的输入,其中LLT策略和TD策略分别有两组参数对应着抓取不同周期长度信号。LLT策略与TD策略分别属于趋势跟踪策略和趋势反转策略,从底层逻辑机理上有着本质区分,而市场信息熵策略是本文创新提出的从市场内部行业间的波动入手分析指数的走势而不是依赖于表面指数价格数据。这种策略组合搭配保证了策略信号特征的多样性和区分度,有利于提高逻辑斯特回归模型的预测精度。 在逻辑斯特回归模型的训练过程中,本文用过去4年的基础策略信号和对应的基准日涨幅数据训练逻辑斯特回归模型的参数,使用1年后更新训练数据集重新训练模型参数,以此延续。 五、实证检验 为证明多策略融合模型的有效性,本文选取沪深300指数作为投资标的,测试过程中设定沪深300指数可做空(没有加杠杆),截取2010年1月1日至2017年12月31日的每日收盘价数据进行实证检验。 从图3可以看出,本文选用的基础策略绝大部分还是实证有效的,其中表现较差的TD长周期策略虽然在2016年后表现一直很低迷,但其仍然可以为总体的融合模型提供辅助信息。其次,本文创新提出的市场信息熵的概念也被证明可以长期有效的在中国股市中发挥作用,对指数的走势有很高的预测能力。 本文提出的多策略融合模型核心思想是利用多种多类策略信号相互补充信息,使得融合后产生的信号更加稳健和准确,从表2提供的回测指标中可以看出,该模型在损失较小收益的情况下大大降低了最大回撤至14.5%,提高了整体的夏普比率至1.1。尤其是在2016年牛市反转为熊市时,在经 历一段较少的亏损之后,及时识别出市场风格的转变,避免了更大的回撤。此结果说明多策略融合模型是比较成功的。 六、结论与讨论 本文将属于趋势跟踪和趋势反转的策略分别采用不同的参数组合在一起,然后又创新地提出了市场信息熵的概念来判断市场总体的状态,进而将这些离散独立的策略信号通过引入模式识别算法逻辑斯特模型来克服股票市场的非线性特点,来构造一种创新的、具有较高投资稳健性的多策略融合模型来预测市场的模式,对于投资者进行投资决策有很高的指导意义。 本文提出的策略模型更大的意义在于为投资者提供了新的量化思维,一个独立的策略一般只能在某个固定市场形态下盈利,除此之外会陷入漫长的亏损期,但这并不意味着要废弃该策略,因为市场是多变的,该策略随时可能恢复有效性。投资者们可以尝试将各个独立的策略通过一些机器学习方法将其作出的判断作为一种输入信号,从而在保证不损失过多收益的前提下大大提高模型的稳健性和准确性。 参考文献 [1]祈海.解读量化投资-西蒙斯用公式打败市场的故事[M].北京:机械工业出版社,2009. [2]徐绪松,陈彦斌.深沪股票市场非线性实证研究[J].数量经济技术经济研究,2001,18(3):110-113. [3]吳桂雯.量化交易中股票择时的策略研究[D]. [4]广发证券,低延迟趋势线与交易性择时[R].2013. [5]广发证券,基于修正TD指标的指数择时研究[R].2010. [6]赵谦,孟德宇,徐宗本 . L1/2正则化Logistic回归[J].模式识别与人工智能,2012,25(5):721-728. [7]周志华.机器学习[M].清华大学出版社,2016. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。