标题 | 基于文本挖掘技术的企业社会责任报告研究 |
范文 | 马文超+吴商硕+黄麒+刘培基 [摘 要]企业社会责任(CSR)报告越来越受重视,其披露内容和质量成为学者们研究的重点。文章回顾了以往对CSR报告的质量评价、文本挖掘等领域的研究,通过研究发现不同企业报告质量有差异,不同年份间质量相关性高,利用文本挖掘技术从个体和上市公司群体角度分析了CSR报告,认为文本挖掘技术便利了CSR报告的信息获取,为研究建构CSR报告的本体提供了参考,并做出政策建议。文章还对文本挖掘在这一领域内的不足做了述评。 [关键词]文本挖掘;CSR;报告;企业社会责任;信息披露 [DOI]10.13939/j.cnki.zgsc.2018.04.016 1 引 言 现代社会,CSR问题的频频出现引发了严重的信任危机。社会要求企业在关注自身利益时,充分关注国家和社会的共同利益。对企业而言,履行社会责任一方面可以降低与利益相关者之间的信息不对称;另一方面,这也是进行公共关系的有效手段。CSR报告作为企业向公众传达履行社会责任信息的主要途径,重要性不言而喻。但是,目前CSR报告的发展面临窘境,报告披露的信息多是乐观、空洞的,况且一个没有强制审计的报告并不能作为投资者决策的依据,也没有造假的必要,更可能是企业粉饰门面的广告而已。 企业发布CSR报告的压力主要来自证交所和行政压力、有影响的组织机构和社会团体,上交所要求,“上证公司治理板块”样本公司、发行境外上市外资股的公司以及金融类公司必须披露CSR报告,鼓励其他有条件的公司披露报告。此外,有做大做强动机的企业也表现出发布CSR报告的愿望,一个证据是2012年自愿披露CSR报告的企业比例为32.47%,2015年达到了42.23%(见表1)。但目前CSR报告市场上也存在阻力:监管上,缺少强制性要求;操作上,第三方审验机构收费高昂,不经过审计的报告公正性和客观性有问题,进行审计又不一定能给公司带来切实利益,企业也陷入两难。 2 文献综述与假设 2.1 CSR报告质量的评价 陶文杰等(2013)研究了A股上市公司CSR披露和公司绩效间的关系,并引入中介变量媒体关注度。[1]齐丽云等(2016)构建了CSR报告的质量评价体系,将报告的实质性、完整性、回应性、可行性和包容性归类为核心维度,[2]指明了提高CSR报告质量的关键,我们要做的是根据一定的标准,利用数据挖掘工具,衡量CSR报告的质量,因此提出假设:使用文本挖掘技术可以提高CSR报告信息获取的效率。段钊等(2017)认为企业披露信息的真实性在文本主客观描述的差异中有所表现,并指出我国上市公司CSR报告中主观文本占比呈现历年上升态势,不同年份、不同行业间差异显著,[3]这有助于CSR报告质量的判断,基于此我们假设,横向上,CSR报告质量有行业区分,甚至企业差别;纵向上,不同年份的CSR報告质量有差别。 2.2 基于知识发现的文本挖掘技术 文本挖掘(Text Mining)是一种从文本中提取隐含有用信息的计算机处理技术,在商业领域取得了良好的效果,其操作方法一般包括分词技术、词频分析、聚类分析、可视化技术和情感分析等。陆宇杰等(2012)举例详细叙述了文本挖掘技术在社会科学领域的应用,[4]应用在CSR报告的研究上,我们认为篇章分析、情感分析和本体建构分析是实用的。通过规范概念、术语,数据挖掘可以助力CSR报告披露标准或质量评价体系的建立。除了将财报的审计规范挪用到CSR报告上,基于文本挖掘进行半自动的本体建构大有可为。M.Foucault等(2009)研究认为,政府首脑就职演说中优先级更高的部门和任内财政预算的分配没有关系,[5]这一发现打破了传统观念,CSR报告中所说与企业实际所做也可能大有差别。 3 研究设计 3.1 数据来源 我们选择了100家上交所上市公司CSR报告作为研究主体,剔除了金融业企业、ST公司和以图片为CSR报告主要形式的公司(对图表形式的报告,文本挖掘技术无能为力,但我们承认这种形式的有用性),剩下58家企业,从上交所网站下载报告,采用ANSI编码将PDF格式的报告转换成TXT格式的文本。另一部分数据来自润灵环球发布的2012—2015年CSR报告评级数据库。润灵环球从整体性、内容性、技术性和行业性四个零级指标出发建构了完整的评级体系(MCT 2012_1.2i),其中,内容性(Content)包含经济绩效、劳工与人权、环境、公平运营、消费者和社区参与及发展等6个一级指标,下分更细的二、三级指标。显然,若不是十分熟悉润灵体系并将其纳入CSR报告的编写参考,企业的报告很难在评分中拿到理想成绩。 3.2 假设检验 以证监会分类标准为自变量,润灵环球的评分为因变量,借助SPSS 22软件做方差分析,原假设为各行业无差异,该检验的p值为0.206,这表明CSR报告质量不存在行业差异,这与学者所说不同,我们认为是由于企业CSR报告得分整体偏低、行业间没有形成规范所致。以行业为分组依据分割文件,此时自变量为不同企业,检验各行业企业间CSR报告质量是否存在差异,该检验的p值小于0.01,结果表明各企业间的CSR报告存在差异。以历年的评分为变量做相关分析,相关性在0.01上显著(双尾),尤其是2014年和2015年报告得分,相关性达到了0.922,这说明不同年份的企业CSR报告质量不存在差别。 3.3 文本挖掘方法的使用 我们使用沈阳教授研发的ROST Content Mining软件进行文本挖掘,选择润灵评级中得分较高的兖州煤业为代表做数据挖掘个案分析,再以其所在的采掘业为代表做行业分析,最后,用收集的58个样本企业做上市公司CSR报告的整体分析。通过上市公司群体的分析,我们希望降低有关企业特色和行业特色的词汇比重,建立基于CSR更本质的语义网络。 4 结论解释 我们处理了所有样本企业的CSR报告,参考润灵环球MCTi指标体系和过滤后的高频词表,将这些词(见表2)作为关键词纳入数据库进行分析。通过纳入C指标数量多少与润灵评级中C指标得分高低的匹配,p值小于0.01,因此我们认为文本挖掘技术可以提高CSR报告信息获取的效率。高频词间的关系可以通过共现矩阵进行描述,通过分析兖州煤业CSR报告高频词共现矩阵,发现部分高频词间较少甚至没有共现过,我们认为这是因为不同关键词处在报告的不同部分,分工不同。 兖州煤业CSR报告篇幅较长,可以达到行业内其他企业的3倍以上,以报告页数和润灵评分为变量做相关分析,p值小于0.01,Pearson相关系数达0.902,由此得出结论,报告页数和评分高低正相关,我们认为可能是因为页数越多,披露信息量越大,得分点相对而言也就越多。在采掘业报告的高频词表中我们认为代表兖州煤业企业特色关键词的比重已经下降,但不是特别明显,限于篇幅,行业分析就不展开了。 最后是上市公司群体的分析。基于兖州煤业CSR报告高频词共现矩阵如表3所示,ROST软件绘制了关键词语义网络图。我们看到,无论是个案(行业)还是上市公司群体,“安全”“员工”“管理”“环境”等一直处在CSR报告的核心地位,一方面是因为文件要求,如2008年上交所《环境披露指引》;另一方面员工权益、安全管理等也是社会关注的重点。不同于单个企业的CSR报告,行业和上市公司群体的CSR报告的内容和质量能对市场的规范化提供参考,因此呈现出的关键词不能根据赋权简单地认定重要与否,语义网络中不起眼的,不代表不能提供有效信息;处于边缘地位的,亦有可能是未来的方展方向。我们特意用9×9的矩阵让大家看到,关键词“股东”与前8个高频词甚至没有一次共现的情况,这在以往的研究中或许被忽视,但共现矩阵发现了它。 5 展望与不足 5.1 展望 通过研究文本挖掘技术在CSR报告中的应用,我们可以为相关制度的出台提供参考,规范企业的社会责任行为,也能帮助开拓完善CSR报告的评价体系,还能为公众阅读理解CSR报告提供便利。但是,基于某些方面的考虑,部分信息企业可能都不愿意披露,重要概念、术语也没有规范,基于文本挖掘的本体建构就不会全面,所以在事先立法设规时就应将有关事项予以明确。从另一个角度看,不同企业CSR报告质量存在差异,但这种差异不是不可以消除,相关行业视情况应出台一些指导性意见用以自律,但不应越权管理或强制执行。此外,对于包括但不限于文本挖掘研究的成果,企业得到反馈后可能在之后的报告中做出改变,加强重要相关信息的准确度,而对其他敏感信息故意模糊,[6]使文本挖掘的成果无法运用到下一期,因此文本挖掘技术的应用有不可避免的滞后性,起不到预测作用。 5.2 研究不足 研究的不足之处,大体上可分为方法上和技术上两类。我们认为,CSR报告中关键词越多,报告越全面;主观文本越少,报告越客观。这样的假设存在两个问题,一是与履行CSR无关的词汇在报告中大量出现,[7]它们并不属于关键词,这使得报告全面性不够;二是语义分析虽然可以从非结构化的文本中提取有用信息,但前提是企业信息披露是充分、准确的,这在现实中很难做到,以上是方法上的不足。技术上,我们的分词技术并不完善,在一定程度上,行业术语的暴力切分不影响本体建构的基础,但总归是不令人满意,还有就是同一个词在上下文的意义不尽相同,这使得确定关键词、统计频数和构造共现矩阵上存在很大问题。 参考文献: [1]陶文杰,金占明.媒体关注下的CSR信息披露与企业财务绩效关系研究及启示——基于我国A股上市公司CSR报告的实证研究[J].中国管理科学,2013,21(4):162-170. [2]齐丽云,张碧波,李腾飞.企业社会责任报告质量评价研究[J].科研管理,2016(4):644-651. [3]段釗,何雅娟,钟原.企业社会责任信息披露是否客观——基于文本挖掘的我国上市公司实证研究[J].南开管理评论,2017,20(4):62-72. [4]陆宇杰,许鑫,郭金龙.文本挖掘在人文社会科学研究中的典型应用述评[J].图书情报工作,2012,56(8):18-25. [5]Foucault M,Franois A.General Policy Speech of Prime Ministers and Fiscal Choices in France:“Preach Water and Drink Wine!”[M].//Do They Walk Like They Talk?.New York:Springer,2009:131-154. [6]Li F.Annual Report Readability,Current Earnings,and Earnings Persistence[J].Journal of Accounting and Economics,2008,45(2):221-247. [7]李慧云,周华艳,胡欣蕾,等.自愿性信息披露质量评判方法的架构与实现[J].统计与决策,2017(8):70-73. [8]赵美,黄麒.文本挖掘在企业社会责任报告研究中的应用探析[J].中国市场, 2017(19). [9]陈茜,连婉琳.基于文本挖掘技术的互联网股票新闻的情感分类[J].中国市场,2015(24). [10]王泽恩.我国企业社会责任探究[J]. 中国市场,2017(4). [11]王月恒,王晶,刘欣侠.大数据时代新型对外货物贸易统计体系研究[J]. 中国市场,2017(19). |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。