网站首页  词典首页

请输入您要查询的论文:

 

标题 领域本体的语义相似度算法研究
范文 赵彦锋++周晓红
摘 要:语义相似度计算在信息检索、文本聚类、语义消歧等方面有着广泛的应用。为提高信息检索的查全率与查准率,提出一种本体概念综合语义相似度计算方法。该方法在本体概念语义距离的计算中引入了多种权重因子,并且综合考虑了本体概念语义重合度、本体概念属性对相似度的影响。实验分析发现,该方法比传统计算方法更加准确、有效,具有一定的理论及实用价值。
关键词:本体;信息检索; 语义相似度; 权重因子
DOIDOI:10.11907/rjdk.151886
中图分类号:TP312
文献标识码:A 文章编号文章编号:16727800(2015)012004904
基金项目基金项目:陕西省教育厅科学研究项目(2013JK1192)
作者简介作者简介:赵彦锋(1976-),男,陕西镇安人,硕士,西安财经学院科研处高级工程师,研究方向为软件工程、网络安全;周晓红(1968-),女,湖南耒阳人,硕士,西安财经学院人事处实验师,研究方向为软件工程、人事管理。
0 引言
伴随互联网技术的迅猛发展,语义信息检索现已成为信息检索领域的研究热点,其中,针对领域本体的信息检索中,最重要的是语义相似度计算,它决定了语义匹配的精确度,也是信息检索的关键研究方向 [1-3]。本文基于本体概念间的语义距离、本体概念间的语义重合度及本体概念所包含的属性等多种制约因素,同时引入多种权重因子[4-5],构建基于本体概念的语义综合相似度计算算法,并与传统相似度算法进行对比分析,进而验证构建算法的有效性。
1 本体概念间相似度计算
本体概念间的语义相似度计算规则主要包括:①相似度计算算法应准确且简洁;②相似度的数值范围为[0,1];③应综合考虑影响相似度的各个因素。两个本体概念间的相似性是通过两本体概念间所体现的相同属性描述的。其中,本体概念的语义相似度描述了两个本体概念之间词义的符合程度。如两概念X、Y,其相似度Sim(X,Y)满足条件:
Sim(x,y)=0,两个概念没有相同属性P,P∈(0,1)1,两概念所有属性都相同 (1)
在影响领域本体概念相似度的多个因素中,可选取本体概念属性、本体概念语义距离、本体概念语义重合度这3个主要因素,在此基础上借助层次树表示本体结构,并对主要影响因素综合分析,进而构建更合理的本体概念语义相似度算法。
1.1 基于本体概念属性的相似度计算
每个本体概念均具有自身的属性。在本体概念结构中,如果两个本体概念相同属性较多时,其相似度会越高,因此,本体概念属性对本体概念语义相似度计算起着重要作用,其影响因子描述为:
Sim(Prop)=η2+(1-η)|P(X)-P(Y)|P(X)+P(Y)(2)
本体概念X的属性集描述为P(X),本体概念Y的属
性集记为P(Y),调节因子记为η,它影响着相似度计算的准确性,如果调节因子取值过大或过小均无法起到有效的调节作用[6],η取值0.5效果最为理想。
本体概念的其它属性间接描述了本体概念,也称间接义原或符号义原,计算方法简单,步骤为:
(1)分组。以义原所带符号是否相同为依据进行分组,若没有相同符号与之对应将舍弃分组,各分组内相似度计算方法与其它义原相似度计算一致。
(2)加权求和。在第(1)步分组的基础上,对各组进行加权求和,加权之和即为间接义原的整体相似度值,描述为:
Sim(I1,I2)=∑mi=1nin=Sim(Ai)(3)
其中,I1和I2描述了两个符号义原的集合,分组个数通过m描述,分组中的符号义原个数之和通过m表示,第i个分组中的义原个数用ni表示,Sim(Ai)表示第i个分组的相似度。义原是描述一个义项的最小意义单位,通常意义下的一个词可用义项进行描述,义项可通过一个或多个义原提供语义解释,所以义项的整体相似度可基于义原相似度计算:
Sim(c1,c2)=∑ni=1βiSim(S1i,S2i)(4)
1.3 基于本体语义重合度的相似度计算
两个本体概念间所包含相同上层概念个数可用语义重合度描述,语义重合度描述两本体概念在其共同祖先节点上的相似程度,因为概念节点同其祖先节点具有继承关系,两概念从相同祖先继承的信息越多则语义重合度将越大,两概念就越相似,可借助最近共同祖先节点深度即本体概念深度计算语义重合度,令本体概念X和Y,其语义重合度对本体概念语义相似度的计算模型描述为:
Sim(Cont)=2Dep(Lca(X,Y)-1Dep(X)+Dep(Y)+1(13)
2 本体概念综合语义相似度算法
为了克服几何量化计算的局限,将本体概念节点深度、类型、密度等权重因子加入到语义距离计算中,并基于这些权重因子构建本体模型,将本体概念语义重合度及本体概念属性引入本体概念语义相似度计算中作为影响因子,以便使本体概念语义距离方法与基于内容信息量方法结合,提高计算结果的准确性,然后借鉴专家经验调节因子,调节影响因子不同的作用方式。
本体概念语义相似度算法模型为:
Sim(X,Y)=θθ+1·Sim(Dist)+μSim(Cont)+εSim(Prop),其它关系1,X,Y等同关系 (14)
可依据本体概念语义相似度的相对权重,对可调因子θ,μ,ζ进行调整,调节因子的选择满足关系式1>θ>μ>ζ>0,其中,语义距离在相似度计算中起主导作用,其它因素起辅助作用。
为了满足不同系统需求,针对不同应用环境,语义相似度权重也不尽相同,即本体语义相似度计算遵循了可调节性原则。以本体概念X和Y为例,构建本体概念综合语义相似度算法,计算流程如图1所示。
图1 本体概念综合语义相似度计算流程
3 实验与结果分析
为验证以上本体概念语义相似度算法的可行性与有效性,可配置实验环境:操作系统Windows 7, JAVA编程语言,Protégé5.0,Eclipse 为开发工具。采用某调研领域的部分概念集作为实验样本数据,并使用Protégé实现模型构建。
通过相关本体概念相似度模型,借鉴领域专家意见设定调节因子α,β,γ的取值,α=0.3,β=0.5,γ=0.2,得到的相似度较为适中。对调整本体概念语义重合度的权重μ及本体概念属性的权重ζ取值,μ=0.2,ζ=0.2。本体概念语义距离对语义相似度计算的影响因子θ取值为0.6,η=0.5,在理想取值下,与其它相似度算法对比分析的部分结果如表1所示。
由表1可知:①基于距离的相似度算法中,由于所有有向边权值相等,所以出现差别较大的概念计算结果相等的现象,其准确度不高;②基于内容及专家经验的相似度计算中,缺少概念深度、类型、密度等影响因子,准确度有待提高;③以概念1和概念3为例,本文相似度算法中,综合考虑了语义距离计算的各种权重因子,且概念1和概念3处于本体结构的同一层,又拥有相同的祖先节点,其有向边权重差异较小,两概念相同属性较多,所以语义相似度值较高,与实际情况较为符合。
现选取两组调节因子,对比分析其对应相似度结果,参照表1概念1及其它概念的语义相似度数值,其相似度数值变化如图2所示。
图2 相似度变化对比
用户1对各参数取值为:
α=0.3,β=0.55,γ=0.15,θ=0.6,μ=0.2,ζ=0.2,η=0.5。
用户2的取值为:
α=0.15,β=0.45,γ=0.4,θ=0.6,μ=0.2,ζ=0.2,η=0.5
图2表明,在忽略本体概念语义重合度与本体概念属性情况下,本体概念加权语义距离因素对语义相似度影响为:在本体概念语义重合度与属性影响不变的前提下,深度因子调节值减小,其相似度值也随之降低,概念1与概念5的相似度Sim(1,5)及概念1与概念7的相似度Sim(1,7)即为如此。用户1的参数组中,类型因子起主要作用,用户2的参数组中,深度及密度因子起主要作用,且类型因子与语义相似度呈反比关系,所以用户1的Sim(1,3)比用户2对应值略小。
4 结语
本文引入了本体概念权重因子,并综合考虑了概念属性与概念语义重合度的影响,提出了本体概念综合语义相似度算法。实验结果分析表明:本文语义相似度算法更符合个性化检索需求,算法准确度有所提高。但本文方法还存在许多不足之处,如怎样合理选取调节因子仍需依赖实验进一步验证,调节因子的自适应性有待提高,以及语义相似度算法时间复杂度的改善等,这些问题均需进一步研究。
参考文献参考文献:
[1] 陈海燕.基于搜索引擎的词汇语义相似度计算方法[J].计算机科学,2015,42(1):261267.
[2] 刘一松,王艳莲.基于本体的语义虚拟环境查询与推理模型[J].计算机工程,2014,40(10):182186.
[3] 王凯.面向医学领域的概念语义本体相似度度量理论与方法研究[J].江汉大学学报:自然科学版,2014,42(2):3841.
[4] 李树青.个性化搜索引擎原理与技术[M].北京:科学出版社,2008.
[5] 王旭阳,万里.信息检索中语义相似度算法研究[J].计算机工程与应用,2014,50(10):124128.
[6] 王小林,王东,杨思春,等.基于《知网》的词语语义相似度算法[J].计算机工程,2014,40(12):177181.
[7] 谢文玲,潘建国.基于语义相似度的个性化信息检索方法[J].计算机应用与软件,2011,28(5):161196.
(责任编辑:杜能钢)
随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/3/11 23:15:27