标题 | 构建操作系统教程知识图谱 |
范文 | 摘要:知识图谱在海量信息检索呈现有优异的性能,在人工智能领域也大量运用知识图谱技术。本文介绍了知识图谱的架构模型以及每个模型层次当前可运用的技术。分析了操作系统教学中用到的信息和知识点,整理了操作系统知识图谱的本体关系,最后运用知识图谱技术构建了一个简单的操作系统教程知识图谱。 关键词:知识图谱;知识抽取;本体;操作系统;进程 中图分类号:G642? ? ? ? 文献标识码:A 文章编号:1009-3044(2020)02-0123-02 1 知识图谱介绍 知识图谱是由Google公司在2012年提出来的概念。从学术的角度定义为:“知识图谱本质上是语义网络(Semantic Network)的知识库”。它以符号的形式描述物理世界中的概念及其相互关系。[1]具体来说,知识图谱是综合多学科的理论与方法,利用直观的图形象地展示知识的内容,发展历史,最终达到多学科融合展示的目的。 知识图谱早期主要应用在海量信息检索领域,随着人工智能技术的快速发展,知识图谱在机器学习领域的应用具有更加广阔的前景。现在机器在语音识别和图像识别的某些领域已经超越人类。所以,未来人工智能的重点进步方向将是认知层,即让机器理解这个世界,更好地与世界交互,为人类服务。知识图谱是机器学习人类思维方式的最好方法。 2 知识图谱构建过程 知识图谱的构建包括数据获取,知识抽取,知识融合,见图1。 知识抽取包含两个层面的内容。概念层用于描述术语与术语间的关系及术语和关系的约束规则,被称为本体。数据层用于描述本体的实例、实例的属性和实例间的联系。概念层相当于知识的模具,数据层相当于知识的实例。 知识抽取主要有自底向上和自顶向下两种方式。自底向上是先获得知识图谱的实体数据,然后再构建本体,即从具体到抽象,典型代表是Google的Knowledge Vault。自顶向下的方式则是先定义本体,再将具体数据加入知识图谱中,典型的有Freebase。 本例中采用自顶向下的构建方法,通过本体编辑器人工的方式进行手动的构建本体。这样构成的知识图谱实体的概念和范围都是可控的。采用的开发工具是斯坦福大学发布的protégé,该工具具有友好的用户界面。 2.1 实体识别 实体识别的方法主要分为基于规则的方法和基于统计的方法。一般来说,基于规则的方法性能要优于基于统计的方法。但这些规则往往依赖于具体语言、领域、文本格式,编辑过程耗时且容易产生错误,并且需要有经验的语言学家才能完成。相比而言,基于统计的方法利用人工标注的语料进行训练,标注语料时不需要广博的计算语言知识,并且可以在较短时间内完成。因此,这类系统在移植到新的领域时可以不做或少做改动,只要利用新的语料训练一遍即可。此外,基于统计的系统要移植到其他自然语言文本也相对容易些。【2】 2.2 关系抽取 知识抽取的另一个关键部分是关系抽取。正是由关系把实体联系在一起才形成了知识图谱。目前常见的关系类别有整体-部分关系、位置关系和时间关系等。传统的关系识别方法是先定義关系类型,然后从文本中进行抽取。【3】但是实际上关系的种类特别多,每个不同的领域都有属于该领域特定的关系。鉴于操作系统知识图谱的数据量不大,这里采用人工构造语义和语法规则的方式进行关系定义。 2.3 属性抽取 属性提取的任务是为每个本体语义类构造属性列表。属性和属性值的是能够形成完整的实体概念的知识图谱维度。属性抽取的数据主要来源于百科类网站包含的半结构化数据和相关领域的结构化数据。 3 操作系统知识图谱分析和构建 通过对操作系统课程的深入了解,在此确定了操作系统知识图谱的几个要素。如图2: 各要素描述内容如表1: 本体可通过人工编辑的方式手动构建,也可通过数据驱动自动构建,然后再经质量评估方法与人工审核相结合的方式加以修正与确认。【4】如果实体数据数量巨大,手动构建的方式工作量非常大,当前主要的本体库产品,大部分都是 采用自动构建技术而逐步扩展形成的。回到本文,鉴于后台数据量不大,所以采用了人工编辑的方式,数据的存储也采用关系数据库进行数据存储。本体构建采用Protégé软件。Protégé提供了本体概念类,关系,属性和实例的构建,并且屏蔽了具体的本体描述语言,用户只需在概念层次上进行领域本体模型的构建。 利用软件protégé构建本体如图3,图4所示。 进而可以运用protégé插件OWLviz可以生成可视化知识图谱。 4 结束语 上述操作系统知识图谱构建仅仅是知识图谱的一次小小运用,还有很多技术没有能够真正实践。知识图谱的发展日新月异,应用领域也空间广大。随着新的信息技术的发展,知识图谱的天地一定更加广阔,值得在此领域做深入研究。 参考文献: [1] 刘峤,李杨,段宏,等.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600. [2] 李畅.信息抽取和实体消歧[J].福建电脑,2014,30(11):98-99. [3] 贾丙静,葛华,李德胜.“慕课” 时代C语言知识图谱的构建[J].绵阳师范学院学报,2018,37(11):100-103. [4] 徐增林,盛泳潘,贺丽荣,等.知识图谱技术综述[J].电子科技大学学报,2016,45(4):589-606. 【通联编辑:王力】 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。