基于事件嵌套的财务报告知识推理研究
邓原 简书娜 滕剑仑
【摘 要】 文本挖掘与信息提取是企业财务报告自动化处理的难点。文章提出事件嵌入方法,将财务报告文本信息转化为机器可读、可操作的规范化数据形式,并构建事件语义关系规则;为解决跨段落事件信息提取的问题,采用图论方法,构建整篇文本特征,形成体现篇章-语义块-句子-词汇特征词及其相互关系的语义感知方法,为大批量抽取财务报告文本信息提供了系统解决思路。文章还提供了实际应用场景,并予以验证。
【关键词】 事件嵌套; 企业财务报告; 文本语义分析; 语义感知
【中图分类号】 F233? 【文献标识码】 A? 【文章编号】 1004-5937(2020)21-0127-04
一、引言
財务报告信息披露质量是企业利益相关者进行合理决策的重要保障。数字经济时代,企业面临的环境日益复杂,传统会计信息处理方法即便按照新发生业务情况进行了部分调整,依然无法全面覆盖当前经济业务的方方面面,难以掌控和反映经济业务的风险。以文本报告形式尽可能详尽地呈现企业重要经济事件内容,为利益相关者提供决策参考与判断依据,是财务报告逐渐冗长的重要原因。然而,财务报告文本披露形式的多样性和披露内容过于庞杂,使得财务信息的可操作性、可调用性、一致性无法得到充分保障。为此,发现更为智能的方法与技术,让决策者迅速获取文本信息中的关键内容,减少信息冗长的影响,成为当前财务报告信息处理的重要改革方向。本文提出事件嵌套方法,用于财务报告的信息提取,定义了文本段落语义块和感知推理规则,据此建立信息与文本之间的映射关系,实现大规模财务报告文本语义的批量分析,并且,以上市公司股票价格变化为例,充分展示出财务报告语义分析方法对预测市场反应方面的有效性。
二、相关研究
研究者认为,公司应该重视自愿披露信息的可理解性,有助于公司更加规范地发展,更重要的是树立企业良好的形象,帮助企业拓展自身价值。企业价值的不断提升有赖于其通过信息的公开、透明和公平的披露方式[1-3]。在分析和检验大数据的过程中,学者进一步发现公司偏好利益为上,即相对于信息质量来说,企业更在意于自身在股市的价值表现和公众的认同程度。因此,自愿信息披露时,企业更愿意披露利好的消息,隐匿那些有可能造成公司价值波动的信息[4]。随着信息披露的不断复杂化,财务报告利益相关者已经难以区分有利于自身决策的关键信息。研究者利用知识管理的方法,手工整理了前瞻性信息,识别不同的积极性信息和消极信息,在观测市场波动后,研究表明,因披露方式不同,同样的信息会带来价格波动截然不同结果[5]。然而,随着公司的业务日渐复杂,逐条分析的成本过高。
国内学者结合国内股票市场中上市公司的不确定前瞻信息开展了相应的研究。他们通过样本分析得出不确定信息,尤其是那些利好的消息和引起利益相关者恐慌的消息是造成股市波动的主要原因之一[6]。针对我国股市发展时间较短,股市监控不尽完善的问题,提出了企业应加强对不确定信息和公司内部一些可能涉及内部控制信息和公司业务变动以及高层更迭等信息的披露,以便帮助投资者尽快做出自身认知能力基础上的最优决策[7]。然而,股市中上市公司和利益相关者信息优势差别较大,上市公司利益偏好加剧了信息披露以自身利益为导向的发展势头。为了防止上市公司损害利益相关者正当权益,尽快建立信息批量处理与分析方法已成为迫在眉睫的任务[8-9]。
上述研究表明,财务报告文本信息因其内容较为纷繁,信息噪声较多,难以为企业利益相关者提供有利于决策的有用信息。虽然研究者也试图通过人工整理的方式精确识别那些可能产生歧义的信息,但是研究者本身的偏好、认知特征、情绪干扰都将影响信息识别的准确性。虽然关于财务报告的定量数据分析和处理已开发出众多软件,但是仍无法处理海量且无序的定性数据,特别是占财务报告绝大篇幅的文本信息,必须寻找有效的信息识别与提取方法。为此,本文首先建立财务报告文本事件表达的统一范式,在语料标注和事件嵌套的基础上,提出文本段落的语义推理方法,实现大规模批量提取事件信息与语义分类,以提供决策支持。最后采用实例进行展示。
三、财务报告文本的事件嵌套
(一)财务报告事件定义
财务报告反映了企业某个会计期间发生的各种经济业务活动,其中可准确计量并予以确认的在财务报表中体现,而一些难以量化的经济业务则需要通过自然语言表述的文本信息予以披露。经济业务围绕事件展开,方法构建上可采用自然语言处理方法,进行事件抽取,然而,针对财务报告的长文本特点,如何批量抽取事件信息是我们关注的重点。本文通过事件嵌入,提出以学习方法构建实践特征的特征元组,进行大批量文本事件信息抽取,并在此基础上分析事件类型、关系及其影响。
在进行事件关系推理之前,应对事件及其属性的内部关系进行梳理。根据财务报告关于信息披露“准确、相关、真实”的基本原则,交易及事件的主体、发生时间、对应金额均采用较为规范的表述方式。但段落中关联事件间的对应关系表达较为复杂。
参照文献[10]的方法,定义财务报告文本事件Event表示模型e:
e=Ke∪Ae∪Re? ?(1)
其中,Ke={Arg0,Arg1,Pre,Time-Key},Ae={Place,Type,Cause,State,…},Re={LookUp,Token,…}
定义1:e由事件主要素集合(Ke)、事件辅助要素集合(Ae)和事件推理要素集合(Re)组成。
定义2:事件主要素集合(Ke)由主体、客体、谓语动词、时间组成。
定义3:事件辅助要素集合(Ae)由发生地点、事件类型、事件原因、事件状态构成。辅助事件是对事件的补充和完善,依赖于事件主要素的存在。
定义4:事件推理要素集合(Re)由标注类型为LookUp和Token的中间过程元素构成。主要为计算机抽取事件主辅要素提供识别与判断信号,用于推导和确定事件主要素。这类要素不构成最终的事件结构化信息。
(二)财务报告事件语义关系定义
在事件统一表达的基础上,还应形成事件分类与影响分析。参照文献[11]的事件抽取框架定义,以及事件语义类别[12],定义了推理事件要素语义关系,如表1所示。
通过上述方法可将财务报告文本的事件嵌套,形成文本数据事件标注,实现事件信息的结构化表达。
四、财务报告文本事件语义分析
(一)财务报告结构抽取
在对财务文本进行事件嵌套后,考虑构建文本的段落与语义块的映射关系,以描述完整的事件群。因此,采取图论的方法,以词为节点,位置关系为有向边,将文本抽象为图结构,将识别词在文章中的位置(篇章-段落-句子)及其相互关系转化为文本结构特征,保留财务报告结构与语义信息,以此对事件群进行语义分类,可形成单一事件向关联事件群的映射。具体而言,就是形成以段落为单位事件群和句子为单位的单个事件的语义分析基础。
在财务报告结构的图谱表示中,篇章C={b1,b2,…,bn}。段落(语义块)bn在进行分词处理后,得到特征词集S={s1,s2,…,sm}。
(二)财务报告结构图与语义子图构建
1.财务报告结构图构建
Input:财务报告篇章C={b1,b2,…,bn}
Output:财务报告的特征词集S={Sb1,Sb2,…,Sbn}
Sbn为语义块bn的特征词集,该特征词集可映射成一个子图g=(x,y)。x={x1,x2,…,xi}中xi代表特征词。有向边集y={y12,y13,…,yj k}中yj k(j,k=1,2,…,i且j≠k)表示共词节点xj和xk之间的语序关系。
2.语义子图构建
Input:Sbn={S1,S2,…,Sm}
Output:gbn={[x1,x2,y12],[x1,x3,y13],…,[xj,xk,yjk]}
至此,财务报告C抽象成图G。在引入语序图后,可借助语义相似度模型对其进行分类。例如,若标准语义块对应的事件性质的分类集为{1,0,-1}即正面、中性、负面三个类别,则可借助上述子图来进行最大公共子图语义相似度计算。标准语义块gs和新块g'的最大公共子图是越重合,相似度越高。语义相似度评价模型如式2所示:
SemanticSimilarity(g',gs)=■? (2)
其中,SemanticSimilarity(g',gs)为最大语义子图,X(g)、Y(g)分别表示其中节点和边的数量。maximum(X(g'),X(gs))表示两个比较语义块中节点最大值,maximum(Y(g'),Y(gs))则是两者边的最大值。语义相似度取值范围[0,1],值越大意味着两者越相似,取最大值确定其所属类别。
五、应用
采用前述方法,得到了财务报告文本的事件信息标注数据和篇章结构图。接下来将展示依赖语义感知的事件分类与推理及其应用。
财务报告的事件类型如投融资、盈利变更、股权变更等事件对预测企业未来表现至关重要,其文本段落是对单个事件或事件群的描述,识别事件的触发词并分析其属性类别具有显著的应用价值,如触发词“重组通过”标识具有正面意义,“重组”对应无法判断即中性的事件,“重组中止”对应负面属性。那么,如何推理文本段落的语义类型则成为文本分析的关键。参照文献[13],采用“三输入一输出”方式构建推理规则,其中输入为事件语义分类结果,输出则为系统对财务报告文本中核心事件的评价:
Result→{[X1]×[X2]×[X3],Xi∈{1,0,-1}}
其中,X为事件,Result为推理结果。规则由不同的输入(事件)/输出(后果)构成,即由n个输入事件变量,每个变量都有z项属性,可能的输出变量具有r种结果,则规则数为r×nz。因此,“三输入一输出”模式下包含81条(3×33)规则。采用冲突解决机制,得到以下规则库,这些规则可以对于财务报告中的核心事件快速地做出结论,表2列示了部分规则。
以《?觹?觹?觹?觹股份有限公司2017年年度报告》为例进行分析。财务报告完整结构树中“篇章9(重要事项)-段落2(报告期内公司收购资产的简要情况及进程)-句子”给出了语义块:
X1:2016年9月28日公司与?觹?觹?觹汽车运输集团签订了《合作协议书》
X2:2016年10月10日與?觹?觹?觹汽车运输集团签订了《资产转让协议书》
X3:2016年11月11日与?觹?觹?觹奔腾高速客运有限公司签订了《资产转让协议书》
系统对触发词自动标记为“1”,并做语义分类。如用户提出分析请求,知识库将能依据Rule27,给出“1”(1×1×1)的结论。经验证,财务报告发布后30天内企业股价上升了15%以上,同期上证指数却处于下跌状态。
综上,以自然语言处理事件抽取框架为基础,定义了财务报告文本事件类型与属性的表达框架,对时间信息、金额信息、对象信息等文本标注;以财务报告中文本篇章—段落—句子—词汇的结构化表达为起点,构建财务报告文本段落语义感知模型,在数据表达上实现事件嵌套,将非结构化文本信息转化成结构化信息。通过实例展示文本事件信息语义基元的构建过程,实现了文本段落语义块感知的方法,为大规模财务报告文本自动分析提供了系统的解决路径。
在不断完善既有语料库的基础上,初步完成财务报告文本结构的规范性表达,提出了段落语义感知的推理方法。后续研究中,将结合企业所属行业、概念板块对企业财务报告自然语言表达特征进行梳理,提高语义感知推理的精确度。同时,结合财务管理、金融和企业管理等专业领域,提取财务报告文本语义块与领域知识的映射关系,进一步拓展语义感知推理方法的应用范围。
【参考文献】
[1] BUSHMAN R,SMITH A.Financial accounting information and corporate governance[J].Journal of Accounting and Economics,2001,32:237-334.
[2] MADHAVAN A.Consolidation,fragmentation,and the disclosure of trading information[J].Review of Financial Studies,1995,8(3):579-603.
[3] LANGBERG N,SIVARAMAKRISHNAN K.Voluntary disclosures and analyst feedback[J].Journal of Accounting Research,2010,48(3):603-646.
[4] MAXIMILIAN A M,EDWARD J R,THORSTEN S.Recognition versus disclosure of fair values[J].The Accounting Review,2015,90(6):2411-2447.
[5] LI F.The information content of forward-looking statements in corporate filings:a na?觙ve bayesian machine learning approach[J].Journal of Accounting Research,2010,48(5):1049-1101.
[6] 李常青,王毅辉,张凤展.上市公司“管理层讨论与分析”披露质量影响因素研究[J].经济管理,2008(4):29-34.
[7] 薛爽,肖泽忠,潘妙丽.管理层讨论与分析是否提供了有用信息——基于亏损上市公司的实证探索[J].管理世界,2010(5):130-140.
[8] 张继勋,周冉,孙鹏.内部控制披露、审计意见、投资者的风险感知和投资决策:一项实验证据[J].会计研究,2011(9):66-73.
[9] 杨清香,俞麟,宋丽.内部控制信息披露与市场反应研究——来自中国沪市上市公司的经验证据[J].南开管理评论,2012(1):123-130.
[10] 李培峰,周国栋,朱巧明.基于语义的中文事件触发词抽取联合模型[J].软件学报,2016,27(2):280-294.
[11] DING X,ZHANG Y,LIU T,et al.Deep learning for event-driven stock prediction[C]//International Conference on Artificial Intelligence.AAAI Press,2015.
[12] WEI LU,DAN ROTH.Automatic event extraction with structured preference modeling[C].Proc.of the 50th Annual Meeting of the Association for Computational Linguistics,2012:835-844.
[13] 羅明,黄海量.基于词汇—语义模式的金融事件信息抽取方法[J].计算机应用,2018(1):84-90.