情绪识别技术在期货定价领域的应用

    王彦博 郭永胜 曾渡 杨璇

    

    科技手段极大地解放了人力,助力金融机构为客户提供更为及时、便捷、智能的金融服务,然而,金融领域中的投资研究工作的自动化和智能化发展仍有研发提升空间。实际上,人工智能技术在投资研究领域具有很大的应用价值。一方面,针对结构性数据,以RPA(机器人流程自动化)为代表的智能技术能够对数据进行自动化处理,从而减少基础的重复性工作,并提升对数据存取、调用、加工、分析等数据处理的效率和准确性;另一方面,针对非结构性数据,以NLP(自然语言处理)为代表的智能技术能够在更加广泛的金融投资信息来源上,更好地处理规模庞杂但极具价值的非结构性及多模态信息。鉴于大多数与金融投资相关的信息常以文本的形式发布,运用文本挖掘及NLP将相关文本信息转化为金融投资建议颇具前景。当前,NLP相关技术被较为广泛地运用于语音识别、机器翻译、舆情分析、智能客服等领域。本文通过运用NLP中的情绪识别技术对于“股吧”评论的文本信息进行分析,生成与金融投资相关的情绪变量,探索对股指期货定价理论值与实际值之间偏差的解释。

    股指期货定价与自然语言处理研究发展

    投资者情绪是股指期货定价偏差的重要影响因素

    根据《中金所年度市场概况》,2020年沪深300指数期货累计成交量达到39.4万亿元,占全部金融期货交易的34.12%。理论上期货价格可由现货价格和无风险利率直接计算得出,由于金融期货不需要进行实物交割,所以金融期货市场交易价格与理论值之间原则上应偏差不大。然而实证分析显示,根据期货定价公式得到的期货价值理论值和实际值之间往往不一致,其中的差值一方面来自交易成本和市场机制,另一方面则来自由投资者情绪生成的非理性市场因素。

    投资者面对复杂的市场环境,无法做出完美的理性决策;同时,由于情绪、偏见、固有思维模式等因素,投资者的选择有可能来自某种非理性的行为模式,这可能造成期货交易价格会长时间的偏离理论价格。随着行为金融领域研究的发展深入,非理性投资者的噪声交易行为会对市场价格产生显著并且持续的影响,该观点已经在学术上得到论证。有学者利用上证50指数建立VAR模型,从理论和实证的角度均证明噪声与股票市场波动存在因果关系。随着衍生品市场的兴起,期权期货等产品中投资者情绪的影响也开始受到研究者的关注,研究人员通过实证分析发现,沪深300股票指数和股指期货都受到投资者关注的单向溢出影响。从目前的学术研究来看,相关实证分析中大多采用间接观测的角度来得到投资者情绪指标,或者是通过寻找代理变量来支持发现情绪与资产价值的相关性。由于对于投资者的情绪缺乏较为准确的直接度量指标,相关的研究成果难以有效应用到现实的金融投资和资产管理业务中。目前,对于投资者情绪的测度大多采用简易指标做代理变量的方法,用一些受到投资者情绪影响的可度量变量来进行分析,例如交易量、换手率、封闭式基金折价率等。总体来说,这些代理指标的缺陷在于直接性、准确性和时效性,故本文尝试通过对于投资者言论的舆情分析直接构建可量化的情绪指标值,以支持相关研究。

    NLP技术发展

    NLP领域常用的算法模型有文本分词、TF-IDF方法、POS词性标注、句法分析、主题提取、余弦文本相似性计算、文本摘要、命名实体识别等。2018年,Google推出BERT预训练模型,在多项NLP任务上都取得了极佳的应用效果;不少学者也从学术角度论证了BERT模型的优越性。有学者通过实证分析发现,BERT模型在舆情文本分类任务上相对于传统模型具有显著优势;也有学者对铜品种的行情预测文本构建期货市场投资者情绪指数,发现BERT模型相对于经典分类算法在各项评价指标上有10%左右的提升。从目前的研究来看,大多数研究更多聚焦于BERT模型本身的精准性、召回率等评价指标,本文尝试通过BERT模型构建情绪因子,观察情绪因子在投资模型中的表现,从而为进一步开展量化投资打下基础,探索拓宽NLP相关技术应用视野。

    基于自然语言处理技术的期货定价实证研究

    本文选取2016年1月11日至2021年3月3日数据,以期货定价偏差作为研究对象,基于“股吧”App评论数据,采用BERT和LSTM模型分别构建出两个投资者情绪因子,通过回归模型观测两个情绪因子对于期货定价偏差的解释力度。其中,期货价格、总成交量、指数收盘价、成分股交易量、无风险利率等金融指标均取自Tushare财经数据库,投资者评论数据从App公开网站上获取。

    根据无套利原理构建期货理论价格

    其中,St为现货价格,Ft为期货价格,r为连续时间无风险利率,d为股息支付率,T为到期时间。在对沪深300股指期货的实证研究中,期货价格和实际价格之间并不完全一致;同时,在不同的时间段其差额有所不同。为了便于后续计量分析,本文采用相对指标,用沪深300股指期货定价偏差除以当日沪深300指数用以作为被解释变量。

    无风险利率的选取

    无风险利率的选取有多种方法,国外研究通常选取不同期限国库券收益率与同业拆借利率作为无风险利率。在国内研究中,往往采用二级市场上国债的收益率、同业拆借利率、大额存单利率等。本文选取上海银行同业拆借利率(Shibor)作为无风险利率。

    情绪因子构建

    不少研究会采用交易量、交易频率等指标来度量市场情绪,本文除了这些因素外,还通过股评的文本信息直接构建投资者情绪因子用以解释定价偏差。本文从相关股吧中收集了沪深300指数区的评论数据,并采用BERT和LSTM两种方法分别计算得到具体某一条评论的情绪值。该情绪指标值趋近零时意味着消极负向,而趋近1时则意味着积极正向。

    关于进一步分析处理,本文主要汇总了每一个交易日评论的数量(num),用以度量讨论的参与情况;以当日所有评论的情绪指数求平均值(emotion),用以度量当日投资者整体情绪情况;计算出评论中较为极端的评论数量占比(index),用以度量当日情绪的强烈程度。

    搭建回归模型

    考虑到交易量和情绪因子,本文构建的回归模型如下:

    其中,vol是沪深300股指的交易量,vol_futures是期货的交易量,回归分析结果见表1。

    实证分析结果

    首先,投资者情绪对期货理论价格与实际价格之间的偏差存在较为显著的影响。BERT和LSTM模型的拟合优度R2分别是0.640和0.629,投资者情绪对于期货定价偏差具有解释力度。其中,代表投资者极端评论的情绪指标在BERT和LSTM两个模型中表现均较为显著。

    其次,从模型对比来看,BERT模型构建的情绪因子效果更佳。在相同的回归模型中,采用BERT模型构建出的情绪因子相较于LSTM模型构建出的情绪因子解释力度更强,同时模型的整体解释力度(R2)也有所提高,并且交易量的解释力度(P值)也得到提升,这说明BERT模型在测量投资者情绪方面具有较好表现。

    结语

    本文通过将NLP技术运用于期货定价领域,采用实证研究的方法,一方面印证了行为金融学理论中投资者情绪对于定价偏差的影响;另一方面,通过生成量化策略中的情绪因子,有助于构建更为完备的策略以应用于其他标准化大类资产的投资中。未来,笔者将进一步深入对该领域的研究,拓宽文本信息的来源、种类等,将多平台、多模态以及新闻舆情等信息纳入研究。

    (龙盈智达〔北京〕科技有限公司陈生、宫雅菲、王一多、乔新惠对本文亦有贡献)

    (作者單位:龙盈智达〔北京〕科技有限公司)