网站首页  词典首页

请输入您要查询的论文:

 

标题 基于知识图谱的自然语言问答技术
范文

    闫玉星

    摘要:社區问答已成为现代人分享和获取知识不可或缺的途径。它允许用户提出问题,由有经验的用户热情地回答。通过记录用户操作日志,积累了大量有价值和复杂的数据。 然而,问者必须等待(通常是很长一段时间)直到其他专家用户在社交平台上回答他们的问题。这将严重影响用户体验。在本文中,我们提出了一种基于知识图的社区答案生成方法,用于自动生成自然语言答案。首先,我们提取帖子的核心短语来表示它们的语义关系。然后,我们根据用户的操作记录对用户的知识背景进行建模。 最后,我们在基于用户背景和问题语义的知识图中查询知识实体,然后将它们转换为自然语言答案。

    中图分类号:G4文献标识码:A文章编号:(2021)-04-409

    导言

    如今,社区问答已经成为人们获取知识的一种必不可少的方式。 人们倾向于用自然语言提问和得到答案,而不是输入关键字来获得网页列表。流行的问答平台,包括百度知道和知乎,允许用户提交他们的问题,然后其他用户会热情地回答问题。 询问者可以从许多帖子中标记接受的答案,或者继续评论细节。问答系统提供了一种非常方便的获取知识的方法。

    知识图谱积累了大量的人类已知知识,因此它们是答案的来源。这些方法解析用户的帖子(答案和问题)以获得核心意图,然后查询相关的知识实体作为答案。 然而,以往的大多数研究都是基于词和分裂短语语义提取意图,从而导致问题理解的偏差。 例如,如果短语“知识图谱”出现在一个句子中,他们将使用“知识”和“图谱”来训练相关答案的模型。 但是,专业形式(知识 实体或查询子图)的答案很难被最终用户直接接受。

    总结前人的研究,我们将问答系统分为两类:选择现有答案或生成新答案。我们的工作重点是答案的生成,以防没有相关的答案,或者答案不匹配。由于社区问题不仅取决于字面表达,而且取决于提问者的背景,因此生成标准答案是一项复杂而具有挑战性的任务。在没有类似问题或相关答案的情况下,基于知识的方法给我们指明了一个有希望的方向。

    1.相关工作

    1.1.自然语言的产生

    一些现有质量评估的答案来自用户以前提交的帖子或相关文本或者其他结构化数据]。 它导致用户无法直接从返回的答案中获得知识。我们的研究重点是生成用户问题的自然语言答案。最相关的研究是自然语言生成。许多前人已经将不同的结构化数据转换为自然语言,提出自动生成文本问题和多项选择答案的方法。短语信息被用来生成产品的自然语言摘要。通过建立基于指定类别特性的类别文本生成模型。基于表生成自然语言句子的神经生成模型使用混合对抗性网络生成文本,将知识图中的三元组转换为自然语言文本。 这些研究为我们关于答案生成的研究奠定了坚实的基础。

    1.2.问题答案评价

    在问题答案中另一个问题是答案评估。 前人提出了一些答案问题匹配的评价方法。其中一种视觉问答系统的评价方法,给出了一组用于评估基于知识的QA系统的答案示例。无约束推理问题的评价方法,在QA评估过程中,不仅关注单个问题,而且关注它们的逻辑关系。更常用的答案评价方法来源于其他NLP任务,如机器翻译。 BLEU最初用于评估机器翻译的性能,它依赖于生成文本和参考文本之间的单词覆盖。 ROUGE通常用于文本摘要的评估,它依赖于生成的摘要与人类创建的理想文本之间的单词序列重叠比率,它们已被用于许问答系统使用。但它们忽略了语义单元的完整性,这限制了问题答案的性能。

    1.3.短语挖掘和短语嵌入

    大多数QA方法都是基于单词的,这限制了对问题的理解。文本的语义是基于短语的]。考虑了短语挖掘中短语质量的评价。通过单词嵌入的组合将短语映射到一个连续的向量空间,为短语在其他NLP任务中的应用奠定了坚实的基础。分析短语组合对短语嵌入的影响, 比较不同文本表示对文本分类的影响。 该方法已经被证明可以改善多个NLP任务。结合短语和主题表示,使用短语来改进多语种问题检索,使用短语来可以改善主题一致性问题,同时短语可以提高机器翻译的性能。基于短语表示问题语义, 一些研究人员尝试使用短语来促进QA的性能。

    1.4.数据集和知识图

    我们的实验是基于问答数据集和典型的知识图。 前者提供真实的问答对来训练模型和评估生成的答案。在本文中,我们使用短语来补充实体关系,因此我们提取短语并分别计算不同数据集中的短语数量。短语的数量大约与帖子的数量成正比,因此堆栈溢出的短语最多。知识图谱是一个广泛的知识库,它以三元组存储了大量的实体和关系。比较算法基于两个知识图生成候选答案。

    综上所述,我们提出了使用短语来表示问题语义,并基于知识图生成自然语言答案。 首先,我们通过解析树提取帖子的核心短语,并通过共现频率学习短语之间的相似性。然后,通过对过去帖子的语义分析,对用户的背景进行建模。 最后,我们通过用户背景和问题语义查询知识图中的相关实体,然后将匹配的实体转换为自然语言答案。为了评估生成的答案,我们使用短语覆盖来从语义的角度来评估文本的相似性。 总之,使用短语来表示后语义和用户知识,有效地提高了答案生成的性能。

    参考文献

    [1] 魏玉良.互联网人物摘要知识图谱构建方法研究[D].哈尔滨:哈尔滨工业大学,2019.

    [2] 徐增林,盛泳潘,贺丽荣,王雅芳.知识图谱技术综述[J].电子科技大学学报,2016,45(4):589-606.

    [3] 黄恒琪,于娟,廖晓,席运江.知识图谱研究综述[J].计算机系统应用,2019,28(6):1-12.

    [4] 漆桂林,高桓,吴天星.知识图谱研究进展[J].情报工程,2017,3(1):4-25.

    [5] 孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010(6):42-47.

    [6] X. Cheng, S. Zhu, S. Su, G. Chen, A multi-objective optimization approach for question routing in community question answering services, IEEE Trans.Knowl. Data Eng. 29 (2017) 1779–1792, https://doi.org/10.1109/TKDE.2017.2696008.

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/4/11 9:12:40