跨语言信息检索中的最关联英文语义翻译选取

方茜



摘 要: 针对跨语言信息检索中关联英文翻译的选择准确度不高的问题,提出一种基于最关联语义本体模型匹配的跨语言信息检索英文翻译选取方法。首先构建跨语言信息检索中最关联英文语义的本体结构模型,采用语义指向性信息索引方法进行英文翻译的上下文语义映射;然后根据语义本体之间的词语知识和本体片段映射方法进行英文语义翻译的特征提取,实现最关联英文语义翻译选取;最后进行实验测试分析。结果表明,采用该方法进行跨语言信息检索,英文语义翻译选取的召回性能较好,查全率、查准率较高。
关键词: 跨语言信息检索; 语义翻译; 语义选取; 语义映射
中图分类号: TN911?34; TP391 文献标识码: A 文章编号: 1004?373X(2017)12?0039?04
Abstract: Aiming at the problem that the selection accuracy of relevant English translation in the cross?language information retrieval is not high, a selection method of English translation for cross?language information retrieval based on most relevant semantic ontology model matching is proposed. The most relevant English semantic ontology structure model for cross?language information retrieval is built first, then the semantic directivity information index method is used to make context semantic mapping of English translation, and the feature extraction of English semantic translation is conducted according to word & expression knowledge and ontology fragment mapping method to realize the relevant English semantic translation selection. The experimental and testing analysis results show that the proposed method has perfect English semantic translation selection for cross?language information retrieval, its data recall performance is better, and its precision ratio is higher.
Keywords: cross language information retrieval; semantic translation; semantic selection; semantic mapping
0 引 言
在跨语言的信息检索Web环境中,需要采用语义本体模型匹配和特征提取方法进行各种语义翻译处理和语义信息分析,实现对信息检索库中语义信息资源调度和模型构建。由于跨语义信息检索数据库中存在一定的语义冲突,严重影响了语言翻译和信息检索的准确性,存在语义异构和语义分歧问题,特别是在跨语言数据库中對英文语义翻译的关联性不好,在信息检索、数据集成和数据库重构中导致对关联语义的匹配度和检索的准确度不高[1?2]。因此,需要进行跨语言信息检索中的最关联英文语义翻译选取设计,利用语义分析与提取技术提高跨语言信息检索的准确性[3]。本文以异构英文语义本体模型为研究对象,进行最关联英文语义翻译选取和特征提取研究,找出语义相同或者相似概念对,逐一地对本体之间语义信息素进行相似度信息分析和信息素导引,提高对语言信息数据库的访问和检索能力,并取得一定的研究成果。
1 关联英文语义本体结构模型构建
1.1 跨语言信息检索的英文翻译语义映射
为了实现跨语言信息检索中的最关联英文语义翻译选取,需要首先构建跨语言信息检索中最关联英文语义本体结构模型,基于语义相似度计算方法进行跨语言信息检索的英文语义翻译的机器学习和训练。首先给出跨语言信息检索的数据访问和语义选取结构图如图1所示。
根据图1所示的跨语言信息检索的数据访问和语义选取结构,进行跨语言信息检索语义映射关系的分类[4?5]。
定义1 英文语义映射。针对语法分析方案Ai,跨语言信息检索英文翻译的本体语义映射模型的形式化定义是一个五元组,其中:
C:语义修饰概念集合。C中的语句CS有m种不同的语法分类,从语义上来说,对语义相似度分析,得到跨语言数据库中包含有多个从句。在本体中,AA是后置定语,满足基本单元的语句语义结构。
I:实例集合。I为每次选择一个简单子句的每个实例,通过语义映射得到一个惟一的个体。在本体中,实例是语句语义结构的本体映射表象,因此也称为语义修饰目标。
HC:语句的语义相关度的分类关系集合。这类关系可以求出非语句主干的特征映射关系(Hyponymy),用函数来表示表示本体中父概念(Super?Concept)和子概念(Sub?Concept)之间的不同的语法分析方案。
R:当前跨语言信息检索关联英文数据库本体内元素的分类集合。R所包含的关系可分成两大类:语义指向性信息索引行为关系和概念的隶属关系。
A:语义修饰目标集合。A中的每条语义修饰目标代表英文翻译语义中实词的个数,它可用于语义修饰目标之间的语义相关度来描述概念和实例之间跨语言信息检索的映射关系,或者描述第i种语法分析方案下的语义特征映射的约束关系。
1.2 语义本体相关度计算模型
在上述进行了跨语言信息检索的英文翻译语义映射定义基础上,根据跨语言信息检索中英文语句的多种语法分析方案,构建最关联英文语言翻译的语法分析方案,如图2所示。
假设跨语言信息检索数据库中关联英文的本体映射三层集成分布概念集合的数学模型可表示为:
式中:中的是表示语句具有m种语法分析方案的个数,表示语义相关度;语句主干权重系数。英语从句具有m种语法分析方案,最符合语义逻辑的语法分析方案满足所有词汇翻译相关性的约束条件为:
根据跨语言信息检索的词语知识(Lexical knowledge)得到语义映射关系的差异性特征。通过对不同本体进行英文翻译的语法分析,对概念的上下文(Context)进行关联匹配度分解,在概念节点Mountain中考虑等价的语义映射,根据语义本体相关度计算,得到语法分析的最佳方案[6]。
定義2 语义本体模型。跨语言信息检索关联英文翻译的本体与之间的语义修饰互信息特征通过一个映射函数M表示, 。其中,C是本体的语义关联度,rel是跨语言信息检索数据库中的英文资源信息一个实词集合,被称之为英文从句的归结关系。
采用语义指向性信息索引方法进行英文翻译的上下文语义映射,可进行从句范围选择中预期使用的词汇能有效反映英文语义翻译的单语义。根据简单语义单元建立英文翻译的语义修饰关系[7],如图3所示。
由于建立本体之间英文翻译的语义修饰关系存在异构性,语义结构为:,概念节点(Cs和Ct′)对英文翻译中的语义关联句属于主句,还是从句进行判断,判断准则为:Cs与Ct′之间内部语法结构映射关系()、Cs与Ct′之间简单语义单元的语义特征映射关系()、Cs与Ct′之间的自组织映射泛化关系()、Cs与Ct′之间的从句权重关系()和Cs与Ct′之间的每种语法分析方案的映射关系()。计算每个简单语义单元的语义本体相关度,得到异构本体之间的语义相关度值,例如:把语义块的n个英文翻译词汇进行信息素浓度聚焦,实现知识共享、重用,得到跨语言信息检索中英文翻译词句集合rel中的语义指向性信息索引的语义相关度表示为:
式中:表示语句CS中关联英文语义翻译的相似度;表示两组本体片段之间进行跨语言信息检索的语义关联度,且系数。
2 最关联英文语义翻译选取实现
2.1 英文语义翻译的上下文语义映射
在上述进行了关联英文语义本体结构模型构建的语义本体相关度计算的基础上,进行跨语言信息检索中的最关联英文翻译的选取。针对当前方法存在的弊端,本文提出一种基于最关联语义本体模型匹配的跨语言信息检索英文翻译选取方法,采用语义指向性信息索引方法进行英文翻译的上下文语义映射[8]。在一个概念词语知识的英文语义本体模型中,语义词典库用一个三元组的形式K=(O,A,R)表示。其中,O是语义词典库的英文语义对象集合,A是跨语言检索的属性集合,R是O和A之间的词语选择语义用二元素表示。设本体模型的拓扑结构中英文翻译的从句属性总数为m,各个分词的语义信息流在翻译采样信息时间间隔的自相关函数为:
式中:英文语义翻译的上下文语义映射的提取率与的差别越来越大,则解释信息与概念信息流与完全无关;作为所包含的元素节点集合的自相关函数,趋于0。通过英文语义翻译的上下文语义映射模型构建[9],得到英文语义翻译的上下文语义映射的规则如下:
(1) 将跨语言信息检索中英文的连接词和谓词逻辑表示成概念上下文形式;
(2) 将介词,如“in”或者“of”,表示成相应的逻辑公式;
(3) 将带有包含关系从句如“except”或者“but not”表示成否定形式。
根据上述规则构建英文语义翻译的上下文语义映射,进行最关联英文语义翻译选取。
2.2 跨语言检索最关联英文语义翻译选取
在本体模型O=中采用关键词索引方法,给定逻辑公式W,通过上下文语义映射进行词频信息X,Y特征提取,根据语义本体之间的词语知识和本体片段映射方法进行英文语义翻译的特征提取,分别为:
式中:,是分别是语义标识过程中英文实词X,Y的语义修饰目标集;是联合访问语义相似度词频信息,表示X,Y所得到的准确的语义信息召回的联合概率密度函数。
在进行跨语言检索最关联英文语义翻译选取中,假设V是形容词,S是V的后置虚词,O是V的最佳语义相关度,L是S,V,O中间的简单子句,AB是前置定语,AA是跨语言信息检索的后置谓语,PD是实词的个数,通过语义关联度匹配,实现英文语义翻译选取,步骤表述如下:
步骤1(数据预处理):根据词汇语义进行本体映射中英文从句的分词选择,并获得其词性,为进行准确的英文翻译提供目标从句;
步骤2(找到词汇语义的子句):针对语句CS,对应于n个词汇所形成的概念树,可以找出最佳语义相关度值,对简单子句集合进行从句范围选择;
步骤3:计算分段L的语义结构,选择计算结果最佳的简单子句CSi,乘以权重系数KS,进行查准率优化,语义修饰CSi;
步骤4:选择具有最佳语义相关度值的简单句,如果满足约束条件,则重复步骤2,3;否则,计算所有子句的最佳语义相关度;
步骤5:针对语法分析方案Ai,选择前置虚词,计算一次值,当满足英文语义翻译的上下文语义映射的规则,算法结束。
3 实验测试分析
在进行跨语言信息检索的最关联英文语义翻译选取的实验中,以KDDP2015跨语言数据库作为词汇语义资源,采用Matlab 7编程软件进行英文语义翻译选取的编程设计。测试英文翻译问题来自于KDDP2015的CWT200G数据测试集,测试集中包含21个语义等价概念集、46个不同语言的从句属性集和358个实例集。测试通过跨语言信息检索实现最关联英文语义翻译的查全率、查准率和最佳语义相关度值测试结果见表1。

分析表1中结果得知,采用本文模型进行跨语言信息检索的最关联英文语义翻译,能达到最佳语义相关度配准,提高英文语义翻译的查全率和查准率。图4为不同方法进行英文语义翻译选取的查准率对比结果,结果表明,采用本文方法进行关联英文语义翻译的查准率高于传统模型,具有优越性。
4 结 语
为了提高跨语言信息检索中的英文语义翻译准确性,本文提出一种基于最关联语义本体模型匹配的跨语言信息检索英文翻译选取方法。构建跨语言信息检索中最关联英文语义本体结构模型,采用语义指向性信息索引方法进行英文翻译的上下文语义映射,根据语义本体之间的词语知识和本体片段映射方法进行英文语义翻译的特征提取,实现最关联英文语义翻译选取。仿真测试结果表明,采用本文方法进行跨语言信息检索,英文语义翻译选取的召回性能较好,查全率、查准率较高,在英文跨语言检索和翻译中具有较好的应用价值。

图4 性能对比
参考文献
[1] AREFI M M, ZAREI J, KARIMI H R. Adaptive output feedback neural network control of uncertain non?affine systems with unknown control direction [J]. Journal of the Franklin Institute, 2014, 351(8): 4302?4316.
[2] 杨陟卓,黄河燕.基于词语距离的网络图词义消歧[J].软件学报,2012,23(4):776?785.
[3] 张瑞霞,庄晋林,杨国增.基于《知网》的中文信息结构消歧研究[J].中文信息学报,2012,26(4):43?49.
[4] 王广正,王喜凤.基于知网语义相关度计算的词义消歧方法[J].安徽工业大学学报(自然科学版),2008,25(1):71?75.
[5] 刘宇红.从格语法到框架语义学再到构式语法[J].解放军外国语学院学报,2011,34(1):5?9.
[6] 张华平,刘群.基于N?最短路径方法的中文词语粗分模型[J].中文信息学报,2002,16(5):1?7.
[7] 李永亮,黄曙光,李永成,等.基于浅层剖析的CYK改进算法[J].计算机应用,2011,31(5):1335?1338.
[8] DEEPESH K K, JYOTIRMAYEE C, ALOK C. Improvement in word sense disambiguation by introducing enhancements in English wordnet structure [J]. International journal on computer science and engineering, 2012, 4(7): 1366?1370.
[9] MILNE D, WITTEN I H. An effective, low?cost measure of semantic relatedness obtained from Wikipedia links [C]// Proceedings of the AAAI 2008 Workshop on Wikipedia and Artificial Intelligence: An Evolving Synergy. [S.l. : s.n.], 2008: 25?30.