面向教育的中文知识图谱自动构建技术*
吕品 贺云艳 许嘉 莫晓琨
摘 要:随着知识图谱在教育领域的广泛应用,对根据教学内容自动构建知识图谱的需求越来越迫切。针对教育类中文知识图谱生成技术中知识点易遗漏、知识点关系准确率不高、需要人工干预等挑战性问题,文章提出了教育知识图谱的自动构建技术。该技术首先自动提取教学课本中关键知识点及关键知识点间的先后顺序,生成基于课本的知识图谱;其次,利用教学类PowerPoint演示文稿中特有的层次关系提取知识点间先后顺序,设置知识点间权重调整影响系数,生成基于PPT演示文稿的知识图谱;最后,将上述两种途径构建的知识图谱进行融合,形成准确率更高的知识图谱。在真实数据集上的实验结果表明,该技术能够实现教育领域知识图谱的自动生成,且准确率能够达到90%以上。
关键词:知识图谱;关系提取;融合;教育
中图分类号:TP391.1 ? ? ?文献标志码:A? ? ? ? ? 文章编号:1673-8454(2021)04-0086-07
一、引言
知识图谱(Knowledge Graph,KG)能够揭示知识之间的关系,近年来被应用于各个领域[1]。在教育领域,知识图谱的应用主要分为知识库建设[2]、自适应学习[3]和虚拟学习助手[4][5]三个方面。随着智能教育与在线教育的快速发展,教育知识图谱的使用需求不断增大。但是目前仍然需要依赖领域专家手工构建知识图谱,远远不能满足教育信息化的需求。因此,本文对中文知识图谱的自动构建技术进行研究。
目前,研究人员在英文知识图谱的自动构建方面已经取得了很多成果[6-8]。然而,由于中文与英文有很大差异,难以将英文知识图谱自动构建方案直接应用于中文知识图谱。其中主要原因是中文词组间没有可以进行分割的依据(例如空格),使得计算机很难识别有意义的单词或短语[9]。尽管中文知识图谱的研究取得了一些进展,但与其他语言相比,中文文本的处理仍然面临着更加困难的情况[10]。所以对于中文知识图谱的自动构建仍然存在很大的挑战。
知识图谱的构建技术主要包括知识点抽取和关系抽取两个步骤。现有的教育知识图谱关系抽取技术多在教材的基础上结合诸如Wikipedia的在线知识库来进行,虽然这种结合方法比较有效,但也大大增加了人工成本。为解决上述问题,本文提出了新的知识图谱自动构建技术。该技术的不同之处在于提出了将基于教学课本生成的知识图谱与基于教学演示文稿生成的知识图谱相融合的方法生成知识图谱。PowerPoint演示文稿(以下简称PPT演示文稿)是教师在教学过程中常用的工具,具有内容精炼、层次清晰等特点,起到了连接“学生—教师—教材”的作用。PPT演示文稿通常包含教师对教学内容的归纳总结,其中的层次结构有助于提取知识点之间的先后顺序。因此,将PPT演示文稿作为构建知识图谱的依据,能够提高知识图谱的准确率。
教材和PPT演示文稿在构建知识图谱方面各有优点:教材包含的内容较多,提取的知识点容易存在冗余,但其包含的知识点比較全面;PPT演示文稿通常只包含重点知识,导致其包含知识点不全面,但PPT演示文稿内容精炼、结构清晰。鉴于此,本文利用两者的优点,针对教学PPT演示文稿的层次结构和计算机类教材的详细内容进行知识点先决关系的提取。
本文首次提出了以教材与PPT演示文稿相融合的方式自动构建教育领域中文知识图谱,主要贡献如下:①提出了基于教学PPT演示文稿生成知识图谱的技术KG-S(Knowledge Graph based on Slides),该技术充分利用了PPT演示文稿的特点,能生成灵活性较高的知识图谱。②提出了面向教育的中文知识图谱自动生成技术KG-T&S(Knowledge Graph based on Text and Slides),该技术能够将基于教材生成的知识图谱与基于教学PPT演示文稿生成的知识图谱融合。③针对计算机领域教育用途的中文知识图谱自动生成技术展开研究,基于真实的数据集生成了特定领域知识图谱。
二、相关研究
目前教育领域知识图谱构建技术主要分为半自动构建知识图谱技术和自动构建知识图谱技术两类。
1.基于半自动化的方法构建知识图谱
半自动化生成知识图谱是指知识图谱的生成过程有一部分需要人工进行。文献[11]作为典型的半自动构建知识图谱的工作,杨玉基等通过对领域知识图谱构建方法进行系统的研究后,提出了“四步法”构建领域知识图谱:首先使用半自动的方法进行领域本体构建,然后进行众包半自动语义标注,再对标注好的语义进行外源数据补全,最后进行信息抽取,得到了高质量的通用领域知识图谱。半自动方法生成的知识图谱虽然精度高,但是其过程会耗费大量人力,很难获得大规模的知识图谱,并且生成知识图谱的效率无法得到有效的保证。
2.基于自动化方法构建知识图谱
自动化构建知识图谱是指构建知识图谱的过程中不涉及(或较少涉及)人工干预,主要依赖于计算机处理实现。
Wang等人认为传统的概念图提取方法包括关键概念提取和概念关系识别两个子问题。先前的研究大都独立考虑这两个子问题,但这两个问题实际上是紧密耦合的,独立解决这些子问题可能会导致性能欠佳[12]。其提出的框架可以共同优化这些子问题,为后续研究提供了新的思路。但框架虽然可以实现将候选概念分类为“关键概念”或“非关键概念”,从而获得该领域的一组关键概念,却没有实现对关键概念及关系的抽取。
黄光轮等人提出了一种利用 Microsoft Office 编程技术、文本挖掘技术和社会网络分析技术自动提取 PPT 文档中的概念术语、概念术语之间的关系及构建概念图的算法[13],为基于教学PPT演示文稿构建知识图谱的后续研究提供了详细的的思路,但由于PPT演示文稿存在包含知识点不完全的特点,所以基于PPT生成的知识图谱准确率不稳定。
Shyi-Ming Chen等人提出了一种基于数据挖掘技术的自适应学习系统自动构建概念图[14],他们使用Apriori 算法分析学生答题结果,从而挖掘关联规则,进而生成知识图谱。但是该方法在某些情况下无法正确构造概念图,Shyi-Ming Chen等人在该工作的基础上提出了一种改进Apriori 算法[15],分析学生答题结果,生成知识图谱。Huang 等人在Apriori算法的基础上引入了分类算法[16],首先学生测试记录的分类,以降低应用数据挖掘过程之前的计算复杂性,然后每个子集进行数据挖掘计算各个子集的概念之间的相关度。上述工作都只用到了单一形式的数据,没有考虑到数据的多源化,单一形式的数据可能造成所生成的知识图谱包含的知识点不完全,不能生成准确的知识图谱。
文献[17]提出了KnowEdu系统来自动构建教育领域的知识图。该系统对教学数据采用神经序列标记算法来提取关键概念,并对学习评估数据采用概率关联规则挖掘来识别与教育意义的关系,取得了不错的结果。该工作在构建知识图谱的过程中虽然使用了教材和学生成绩数据,但由于是在不同的阶段分别进行使用的,没有实现两种数据的知识融合。
本文使用教师上课常用的教学工具(即教材和PPT演示文稿),考虑了数据的多源性,并且利用了不同数据的各自特点来构建知识图谱。
三、技术整体框架
针对现有中文知识图谱自动构建技术的不足,本文提出了计算机领域的面向教育的知识自动图谱构建方法。该方法包含三个主要部分:①基于计算机类教材构建知识图谱。②基于PPT演示文稿构建知识图谱。③将基于教材构建的知识图谱和基于PPT演示文稿构建的知识图谱相融合。
教育知识图谱构建的关键在于利用知识抽取、知识融合等技术抽取出教育领域中的实体,并建立知识之间的联系[18]。知识图谱的基本构建过程如图1所示,从非结构化的数据源(教材和PPT演示文稿)开始,经过知识抽取、知识表示、知识融合等步骤,使得初始数据通过概念抽取和关系抽取转换成三元组(Resource Description Framework,RDF)形式,用于知识的初步表示。RDF数据再经过实体对齐,加入数据模型,形成标准的知识表示。知识融合的过程中如产生新的关系组合,则对这些新的关系组合进行知识推理,进而形成新的知识形态,最后与原有知识共同经过质量评估,完成知识融合,形成完整形态的知识图谱[19]。
1.KG-T:基于计算机类教材构建知识图谱技术
(1)预处理
由于计算机类教材中有许多例题和算法例子,经调研发现这些例子占了很大文本篇幅,并且例子中包含的关键概念较少,所以在预处理过程中,本文首先去除掉文本中的例题、图片、算法例子以及表格等内容。这个过程大大缩小了正式工作中所要处理的文本内容。
(2)关键概念及关系抽取
基于教材文本构建知识图谱的工作中,本文首先导入计算机领域专用词典(https://github.com/fighting41love/funNLP),再使用层叠隐马尔可夫模型提取关键概念(https://github.com/NLPIR-team/NLPIR)。该模型由三层相互连接的隐马尔可夫模型组成,其中每层均以使用了Viterbi算法(N-Best)的隐马尔可夫模型作为基础算法模型。由低一层的隐马尔可夫模型输出最好的若干个关键概念作为下一层隐马尔可夫模型的输入,最终由最高层隐马尔可夫模型在低层级隐马尔可夫模型输出结果的基础之上进行最终的关键概念的识别。
本文选择使用了较新的Transformer模型提取关键概念关系(https://github.com/zjunlp/deepke),Transformer的模型架构如图2所示。将关键概念所在文本与关键概念进行词向量处理,通过Encoder对文本和关键概念信息进行编码。再使用 Multi-Head Attention 模块抽取文本中重要的特征,并通过将残差网络叠加的方法,将注意力层得到的输出与输入拼接并进行正则化。使用堆叠的多层注意力机制,能够有效抽取句子中的关键信息。最后將 Transformer 的结果连接至全连接层得到最终的概念间关系的分类结果。
2.KG-S:基于教学PPT演示文稿构建知识图谱技术
基于教学PPT演示文稿构建知识图谱同样包括关键概念提取和概念关系提取两个问题。先前的研究大都独立考虑这两个子问题,虽然已经获得了一定的成果,但基于PPT演示文稿层次结构的特点,独立解决这两个任务不利于对PPT演示文稿层次结构的利用。本文提出的KG-S技术充分利用PPT演示文稿层次结构清晰的特点,考虑上下层关系,把PPT演示文稿的概念提取和关系提取两者结合进行,具体过程如图3所示。
在基于PPT演示文稿生成知识图谱的过程中,首先提取出包含层次结构的PPT演示文稿的纯文本内容,然后使用模型依次按行提取关键概念,并判断提取的关键概念的层次,再将提取结果依次保存到该层次指定的位置上,对两次保存的结果进行对比,最后依据关系提取规则将对比结果进行结合,并根据赋值规则赋予提取结果一定的权重值。
(1)提取PPT演示文稿文档中的纯文本数据
提取的纯文本数据包括文本内容及文本内容间的层次关系。本文使用 Microsoft Office 软件将PPT演示文稿文件保存为RTF文件,达到提取目的。
(2)模型介绍
本文使用RoBERTa-wwm+BiLSTM+CRF三层模型提取PPT演示文稿层次中的概念。BiLSTM+CRF是现在较为主流的实体识别模型(见图4),双向的LSTM模型可以更好地处理输入前后的特征;CRF层使得模型可以使用句子级别的标签信息,从而更好地建模标签之间的限定关系。
在训练过程中,为构建模型的训练语料,本文采用Inside-Outside-Beginning(IOB)标注体系对文本进行标注,获得训练集。将训练集中句子输入到 RoBERTa 模型,其输出的结果(词向量)作为BiLSTM的输入。图4展示了BiLSTM+CRF模型的框架。
BiLSTM模型的输出结果是各个标签的概率,作为CRF的输入。不使用CRF模型的情况下,BiLSTM模型会输出结果中概率最大的结果作为最终结果。但是,当预测结果的得分都很高时,并不是得分最高的结果就是最好的结果。CRF弥补了BiLSTM的不足,不仅考虑了概率值的大小,还使得转移概率相加值最大,即考虑前后标签的情况使选择结果符合输出规则。
对于每一个输入x=(x1, x2, ..., xn),预测得到一个lable序列y=(y1, y2, ..., yn)。定义这个预测的得分:
S(x,y)=■A■+■p■公式1
其中p■为第i个位置输出为yi的概率,A■为从yi到yi+1的转移概率。
求出每个训练样本x所有可能的标注序列y的得分S(x,y),并对所有得分进行归一化:
p(y|x)=■公式2
对公式2左右两边取对数,即得损失函数:
log(p(x|y))=S(x,y)-log(■e■)公式3
由于我们的目标是最小化损失函数,所以对公式3取负值:
LogLossFunction=-log(p(x|y))公式4
通过完成上述过程,完成模型的训练。再使用训练好的模型进行后续工作。
(3)关系提取规则
PPT演示文稿的特点是层次结构较为显著,如图5所示,本文将PPT演示文稿的层次结构分为三种:①上下层关系,即处于相邻层次两个概念的关系。如概念A处于第一层,概念C和F位于第二层,概念A和概念C(或F)之间就属于上下层关系。对于上下层关系的两个概念,定义它们之间有先决关系,位于上一层次的概念是下一层次概念的头概念,并对其关系赋予一定的权重值。本文赋予具有上下层关系的概念之间的权重赋值为1。②同层次关系,即处于同一层次的概念的关系。如概念A和B都处于第一层,属于同层次关系。同理,概念C和F、概念D和E也都属于同层次关系。对于同一层次的两个概念,由于它们出现在同一个大标题下,定义它们之间有较弱的先决关系,赋予较小的权重值,并且定义前一个概念为后一个概念的前驱概念。本文中,赋予具有上下层关系的概念之间的权重赋值为0.2。③隔层次关系,即处于不相邻的两个层次的概念所具有的关系。如概念A和D分别位于第一层和第三层,属于隔层关系。本文不对具有此关系的概念进行判定。不同层次关系的具体赋值规则如表1所示。根据关系提取规则生成的网络图示例如图6所示。
3.KG-T&S:基于教材构建的知识图谱和PPT演示文稿构建的知识图谱融合技术
本文把基于教材文本生成的知识图谱和基于PPT演示文稿文本生成的知识图谱进行融合,融合规则如图7所示。对规则总结为以下两种情况:①对于两者关系相同的部分,保留知识图谱中的关系:若PPT演示文稿中此关系的权重为1,则将融合后的关系的权重值设置为2;若PPT演示文稿中此关系的权重为0.2,则将融合后的关系的权重值设置为1.2。②对于关系不同的部分,则参考PPT演示文稿的知识图谱中的权重值:若权重值为1,则对教材知识图谱中的关系进行调整,并将调整后的关系赋予新的权重值;若权重值为0.2,则不对教材知识图谱中的关系进行调整,对教材知识图谱中的此关系进行保留,并对此关系赋予权重值。
四、实验
1.实验设置
为了验证本实验的有效性,本文使用《数据库系统概论》[21]这本教材以及高校教师上课所使用的PPT演示文稿作为实验的输入分别构建知识图谱,再使用KG-T&S技术对两者进行融合。
本研究将实验分为两个阶段,第一阶段实验中,采用本文所提出的KG-T、KG-S和KG-T&S技术进行实验,并对实验结果进行分析。此外,为了验证KG-T&S技术的有效性,即证明无论针对何种现有技术生成的知识图谱,KG-T&S方法都可以使得融合后的结果相对于融合前有一定提升,因此设计了第二阶段的实验。
2.实验结果与分析
(1)第一阶段实验
实验1-1:使用本文所提出的技术生成知识图谱,分别计算三个部分的查准率(Precision)、查全率(Recall)和F1-分数(F1-score),得到如图8所示的结果。可以观察到融合后的查全率比融合前的两个结果提高了不少。但由于回收了很多没有用的关系,得到了极低的查准率,以至于得到较低的F1-分数。
针对实验1-1的结果并针对实验数据情况,本文在实验1-2中制定了两个调整方案:方案1,去除融合结果中关系权重值小于等于0.8的关系,对剩余的结果分别计算查准率、查全率和F1-分数。方案2,去除融合结果中关系权重值小于等于0.6的关系,对剩余的结果分別计算查准率、查全率和F1-分数。
实验结果展示见图9,可以看出相比于调整前,两个调整方案都使得查准率和F1-分数有了一定幅度的提升,其中方案1得到了较为平衡的结果。
对比表2中此阶段的实验数据,实验1-1中KG-S的提取结果中查准率、F1-分数都取得了最高值,证明本文所提出的KG-S技术在基于教学PPT演示文稿生成知识图谱的工作中,可以有效地生成具有一定精度的知识图谱,此外知识图谱中知识点关系间的权重为知识图谱的调整创造了便利。
相比于调整前,实验1-2中的两个方案由于删除了一定量的无用数据,使得F1-分数都得到了相应的提升。其中方案1使得查准率得到了最大幅度提升,相对的查全率也得到了一定幅度的下降,F1-分数相对于调整前也有了大幅度提升。
图10为实验最终实验结果对比图,其中,每一个指标都相对于前两项有相对的提升,这个结果也证明本文提出的技术能实现构建精度较高且具有更灵活调整性的知识图谱。
(2)第二阶段实验
为了进一步验证KG-T&S技术的有效性,在实验1的基础上设计了两种实验方案,总结为表3。
实验2:复现了文献[12]中基于联合优化模型(Joint Optimization Model,JOM)生成Database这门课的知识图谱实验结果,并以此替换本文第一部分:基于课本生成知识图谱,其余部分仍然用本文的方法。
实验3:课本部分使用本文的方法;PPT演示文稿部分在使用KG-S技术的前提下,把该技术中所使用的概念提取模型更改为中科院的NLPIR,此部分在实验中表示为KG-S。此外,为了得到与实验1中PPT演示文稿提取结果相比相差较大的结果,对KG-S实验结果中的查准率进行了适当的调整,从而提高了F1-分数。
本文使用和第一阶段同样的步骤对三个实验进行对比分析。实验2的结果数据列于表4中。实验3的结果数据列于表5中,笔者分别对实验结果进行了分析。
在实验2-1中,相比于融合前,融合后的結果中查准率相比JOM下降了0.13,但是查全率和F1-分数都有一定的提升,分析其原因,同样是由于回收的三元组中有不少无用的。对此,我们进行了实验2-2调整实验。
实验2-2中,使用了与第一阶段相同的调整方案。表4可以观察到:相比于调整前,方案1的查准率高达0.9,提高了0.34;相对的,查全率得到了相应幅度的下降,下降了0.14。而对综合了查准率和查全率的结果的评价指标F1-分数进行分析发现,方案1的F1-分数取得了实验2中的最高值。此结果说明方案1的综合效果最好,再次证明了本文提出的KG-T&S技术的有效性。
实验3-1中,KG-T&S的结果每一项评价指标都不突出,观察KG-T&S阶段的结果,可以发现权值0.6及以下的提取结果精度极低,但是权值为2-0.8的结果几乎都正确。通过实验3-2对实验结果进行调整,结果表明,方案2的每一项指标都取得了实验3中的最高值,其中精度高达93%。此实验的结果再次验证了本文提出的KG-T&S技术的有效性。
(3)实验总结
通过两个阶段的实验,不难发现知识图谱的生成结果存在的最大问题是知识点及知识点间关系不准确问题。本文所提出的KG-S技术在最大化利用PPT演示文稿层次关系且自动地生成知识图谱的前提下,合理地为每对知识点关系分配了权重。KG-T&S技术同时解决了生成知识图谱过程中教材知识点过于丰富和PPT演示文稿知识点包含不全面的问题,并且能更加灵活准确地解决知识点及知识点间关系冗余问题。
五、结束语
教育信息化的普及,使得教育知识图谱的应用也随之普遍,但目前自动化构建方法尚不成熟,采用人工构建的方法效率很低。本文提出了一种面向教育的中文知识图谱构建技术,包括基于PPT演示文稿生成知识图谱的技术以及基于教材生成的知识图谱和PPT演示文稿生成的知识图谱的融合技术,该技术通过“三步法”生成知识图谱,实现了知识图谱的自动构建,得到了准确率较高的知识图谱。
参考文献:
[1]Liu A,Du X,Wang N.Unstructured text resource access control attribute mining technology based on convolutional neural network[J].IEEE Access,2019:43031-43041.
[2]Thomas P,Gerhard W, Fabian S.YAGO 4:A reasonable knowledge base[C].Extended Semantic Web Conference (ESWC),2020:1-13.
[3] Lv P, Wang XX, Xu J, et al.Utilizing knowledge graph and student testing behavior data for personalized exercise recommendation[C].The ACM TURC 2018 conference (SIGCSE China),2018:53-59.
[4]Qiu Y, Wang Y, Jin, et al.Stepwise reasoning for multi-relation question answering over knowledge graph with weak supervision[C].ACM International Conference on Web Search and Data Mining (WSDM),2020:474-482.
[5]Ma X, Zhu Q, Zhou Y, et al.Improving question generation with sentence-level semantic matching and answer position inferring[C].AAAI Conference on Artificial Intelligence (AAAI),2020.
[6]Roy S, Madhyastha M, Lawrence S, et al.Inferring concept prerequisite relations from online educational resources[C].AAAI Conference on Artificial Intelligence (AAAI),2019:9589-9594.
[7]Wang S,Liu L.Prerequisite concept maps extraction for automatic assessment[C]. International World Wide Web Conference,2016:519-521.
[8]Atapattu T, Falkner K, Falkner N.A comprehensive text analysis of lecture slides to generate concept maps[J].Computers & Education,2017:96-113.
[9]Li S,Chen J,Xiang J.Prospecting information extraction by text mining based on convolutional neural networks - a case study of the Lala Copper Deposit, China[J]. IEEE Access,2018:52286-52297.
[10]Wang C, Gao M, He X, et al.Challenges in Chinese knowledge graph construction[C]. IEEE International Conference on Data Engineering Workshops (ICDEW), 2015:59-61.
[11]楊玉基,许斌,胡家威,等.一种准确而高效的领域知识图谱构建方法[J].软件学报,2018,29(10):2931-2947.
[12]Wang S, Ororbia A G, Wu Z, et al.Using Prerequisites to extract concept maps from textbooks[C]. Conference on Information and Knowledge Management (CIKM),2016:317-326.
[13]黄光轮,文益民,朱文宇,等.PPT文档的概念图自动构建[J].计算机系统应用,2015(9):87-92.
[14]Shyi-ming Chen,Shih-ming Bai.Using data mining techniques to automatically construct concept maps for adaptive learning systems[J].Expert Systems with Applications,2010,37(6):4496-4503.
[15]Shyi-ming Chen,Po-Jui Sue. Constructing concept maps for adaptive learning systems based on data mining techniques[J].Expert Systems with Applications,2013,40(7):2746-2755.
[16]Huang X, Yang K, Lawrence V. Classification-based approach to concept map generation in adaptive learning[C].IEEE International Conference on Advanced Learning Technologies,2015:19-23.
[17]Chen PH, Lu Y, Zheng VW, et al.KnowEdu: a system to construct knowledge graph for education[J]. IEEE Access,2018:31553-31563.
[18]钟卓,唐烨伟,钟绍春,等.人工智能支持下教育知识图谱模型构建研究[J].电化教育研究,2020,41(4):62-70.
[19]iResearch. 2020年中国知识图谱行业分析报告[R/EB]. https://www.iresearch.com.cn,2020.5.23.
[20] Vaswani A, Shazeer N, Parmar N,et al.Attention is all you need[C].Conference on Neural Information Processing Systems (NIPS),2017:1-15.
[21]王珊,萨师煊.数据库系统概论[M].北京:高等教育出版社,2014.9.
(编辑:鲁利瑞)