基于模糊理论的英语机器翻译语义调序研究
胡广耀
摘 要: 针对当前英语机器翻译存在的准确性差,易引起歧义等不足,提出模糊理论的英语机器翻译语义调序模型。首先对英语机器翻译的语义进行分类,构建语义选择模型,然后采用层次分析法确定英语机器翻译语义顺序,对易错的误语义进行相应的容错操作,最后对语义进行加权操作计算语义之间的最优相似度,并引入模糊理论实现对英语机器翻译英语语义进行排列,最后通过具体应用实验对模型的性能进行分析。结果表明机器翻译选择排列模型的准确性高,而且时效性均要优于其他模型,具有明显的优势。
关键词: 模糊理论; 英语语义; 调序模型; 机器翻译
中图分类号: TN911.1?34; TP399 文献标识码: A 文章编号: 1004?373X(2017)21?0121?03
Study on fuzzy theory based semanteme ordering of English machine translation
HU Guangyao
(Yangtze University College of Arts and Sciences, Jingzhou 434020, China)
Abstract: Since the current English machine translation has poor accuracy and is easy to cause the ambiguity, a fuzzy theory based semanteme ordering model of English machine translation is put forward. The semanteme of English machine translation is classified to construct the semantic selection model. The AHP is used to determine the semanteme order of English machine translation, and perform the corresponding fault tolerant operation for the semanteme which can be translated erroneously. The semanteme is weighted to calculate the optimal similarity between the semanteme, and the fuzzy theory is introduced to arrange the English semanteme translated by machine. The performance of the model is analyzed with a specific application experiment. The experimental results show that the selection and ordering model of machine translation has high translation accuracy, and its timeliness is better than other models, which has obvious advantage.
Keywords: fuzzy theory; English semanteme; ordering model; machine translation
0 引 言
語义是对数据符号的进一步解释[1],在信息集成领域,往往通过模式(对于模式不存在隐含的非结构化或半结构化数据,往往需要在集成前定义出它们的模式)进行数据组织,数据的访问也是通过作用模式来获得的,这时语义就可定义为模式元素(例如类、属性、约束等)[2]。对语义进行准确的调序有助于更好地去理解复杂概念[3],同时,正确的语义可以保证数据的质量[4],因此高效地调序正确的、隐含的、有用的英语语义信息成为该领域亟待解决的问题,受到广大学者的关注[5?6]。
传统的英语语义调序模型一般使用神经网络法、机器学习法以及查错法[7?9],大体流程可总结为从英语语义库中逐个选择英语语义,再逐一对应是否为所需英语语义,或者直接调序提取已经存在的显著语义数据,再进行归一化管理,但该调序模型耗时较长,且准确性较差。本文提出基于模糊理论的英语语义调序模型,针对不同的英语语义,根据其特征进行调序,并运用实验对所提模型进行验证。
1 基于模糊理论的英语机器翻译语义调序模型
1.1 英语语义分类
基于模糊理论的英语语义调序模型的重点是对英语语义的分类,选用最大熵训练算法对英语语义进行分类,最大熵训练算法实质上类似一种词语解释过程,该模型可将语义根据其性能精确地分为层次性与交错性语义,其中交错性语义是根据最大相似度进行调序,层次性语义包括同类、间隔、递进类三种。假设,用符号[Bi]表示待调序语义中的当前调序英语语义,[Bi]的延伸英语语义为[Bi-1,]与[Bi]处于相同排列方位的目标语义用[Ai]表示,则其分类语义表达式为:
[fAi,Bi=Ai-1,i=1,2,3,…Bi-1,i=1,2,3,…]
当[Bi-1=1+Ai]时,待调序英语语义为同类语义,用符号[Ai-1]代替[Ai]的前端数据;当[Ai-1=1+Bi]时,待调序语义为递进语义;当待调序语义既不是同类语义,也不是递进语义,则视其为间隔语义。
1.2 英语语义最优相似度的计算
在对英语语义进行分类的基础上,采用加权层次结构分析法对英语语义相似度进行计算。
(1) 构建英语语义模型,确定层次性英语语义及交错性英语语义调序流程。以两种典型语义类别为依据,任选一个数据构建英语语义模型,如图1所示。
由图1可知,在进行英语语义调序时,需考虑两个方向差异化的调序结构问题,而层次性英语语义正是利用两个不同方向的差异性进行语义调序,其调序流程框图如图2所示。
如图2所示,层次性英语语义调序模型利用IBM软件(一种提供资源整合功能的业务软件)对语义进行调序,进而排除模型中语义几率小于0.18的英语语义。剩余词语将被成功调序,再诊断其是否与原数据对应,经诊断后的调序结果作为最终结果。
交错性英语语义与层次性英语语义不同,简单的调序模型无法实现待调序语义与正确目标语义的准确对应。因此,需计算英语语义间的最大相似度来调序语义。交错性语义调序模型工作流程如图3所示。
交错性英语语义调序模型是将英语语义库中的待调序英语语义依存原数据进行解析,生成待调序语义依存树,再依据模糊选择的规则进行最大相似度的计算,以免将语义调序结构打乱,防止调序过程中相似语义调序失误。在此之后实施调序,并对调序的结果实施二次诊断,之后输出结果。
(2) 确定英语语义间的相似度,利用加权层次结构分析法获取最优相似度。
假设[I1]为待调序语义中的任意语义,[I2]是[I1]的模糊对应结果,[d]是[I2]与[I1]的距离,用符号[η]表示依存树的模糊调节参数,由此可获取[I2]与[I1]的相似度为:
[sim(I1,I2)=ηη+d] (1)
获取最优相似度就是不断变更模糊调节参数[η]权重的过程,即利用加权层次结构分析法对式(1)进行描述,表达式如下:
[sim(s1,s2)=i=14δsim(I1,I2)] (2)
式中:[δ]表示权重,且[i=14δ=1]。
加权层次结构分析共进行4次描述,分别是[I1]和[I2]的独立关系描述、相同结构描述、相同语义功能描述和相同数据中心描述。经由加权层次结构分析后,确定最优相似度表达式为:
[Smax=i=1nφ1sim(s1,s2)+φ2sim(I1,I2)n] (3)
式中:[n]为子节点数量;[φ1,][φ2]是调序和加权层次分析在子节点中所占的比例,[φ2=1-φ1]。
1.3 英语语义调序模型的实现
经由以上分析后,给出英语语义的两种模糊参数,分别是当前语义和前端语义对调序几率的模糊影响参数,分别用[PoAi]和[PoAi-1]表示,其表达式为:
[PoAi=ξP(o)+ωoAiξ+ω(Ai)] (4)
[PoAi-1=ΣAiωoAiΣoΣAiωoAi] (5)
式中:[o]是相邻两数据的排列次序;[P(o)]是相鄰两个数据被同时调序的几率;[ξ]是数据优化因数;[ω(Ai)]和[ωoAi]分别表示调序前后的目标语义解码数据。
基于模糊理论的语义调序模型,选定一个模糊数据块[A,]再依次赋予同类类别结构和互调类别结构,选定模糊数据[A1]和[A2,][A1]和[A2]是用来合并[A]的。在模糊理论中,最大熵训练算法要求合并成的[A]应拥有最大面积,且与[A1]的结构相同,与[A2]的结构相反,此时需要借助一个约束架构[N]来定义模糊数据块[A],[N]的定义式为:
[N=PθoA1,A2] (6)
式中:[P]是分类组合函数;[θ]是权值。
模糊理论采用似然函数预测模糊英语语义块[A]的最大占据面积,有:
[PoA1,A2=PoAiPoAi-1] (7)
将式(7)代入式(6),得到基于模糊理论的英语语义调序结果,其表达式如下:
[N=expΣiθiPoAiexpΣiθiPoAi-1] (8)
综上所述,在确定英语语义最优相似度的基础上,采用模糊理论对英语语义进行调序,但需进行实验对比分析。
2 实验结果与分析
2.1 数据来源
使用LDC(Linguistic data Consortium,语言数据联合会)提供的FBIS语料,其中含有接近25万条不同语义和约800万个简单英语语义。使用Moses搜索系统在FBIS语料中随机抽取共计1 000条英语语义。采用神经网络法、机器学习法、查错法与改进模型进行对比验证分析。
2.2 英语语义调序时间状态分析
英语语义调序时间状态指其能够同时进行调序的整体反应时间。但直接获取调序时的状态难度较大,因此实验通过不断增加英语语义总量,观察本文模型、机器学习法、神经网络法和查错法在单位时间内的调序数量来验证时间调序状态。单位时间调序数量越大,语义调序时间状态就越好。以调序单位时间为纵坐标,英语语义总量为横坐标绘制曲线,如图4所示。
从图4中可以看出最高调序性能的曲线是本文模型,其次是机器学习法。随着时间的推移,每种模型的单位时间调序数量都出现不同程度的下降,这与语义调序资源调节能力有关,可使用软件控制手段进行优化。实验结果表明,采用本文模型进行语义调序时,语义调序耗时最小,且明显优于其他模型。
2.3 英语语义调序准确性分析
英语语义准确调序率表示英语语义调序中的调序正确率,正确率越大,则性能越好。在调序英语语义时,以英语语义的数量作为横坐标,调序准确率作为纵坐标,实验结果如图5所示。由图5可知,除本文模型以外,其他模型均未能有效优化调序英语语义。
3 结 语
针对当前英语机器翻译存在的问题,提出模糊理论的英语机器翻译语义调序模型。实验结果发现,采用本文模型进行英语语义调序,其调序准确性、耗时均要优于传统英语语义调序模型,具有一定的优势。
参考文献
[1] 甘丽新,万常选,刘德喜,等.基于句法语义特征的中文实体关系抽取[J].计算机研究与发展,2016,53(2):284?302.
[2] 游妍,徐博艺,谢诚.基于实例相似度的概念语义调序模型[J].计算机工程,2014,40(10):219?223.
[3] 贾玉祥,王浩石,昝红英,等.汉语语义选择限制知识的自动获取研究[J].中文信息学报,2014,28(5):66?73.
[4] 南潮.非使役化中英语动词的语义选择研究[J].安徽农业大学学报(社会科学版),2016,25(4):95?98.
[5] 王海艳,白圆圆.支持二分图语义匹配的组合服务选择模型[J].东南大学学报(自然科学版),2014,44(3):510?516.
[6] 姜芳,李国和,岳翔.基于语义的文档特征提取研究模型[J].计算机科学,2016,43(2):254?258.
[7] 孟祥福,张霄雁,唐延欢,等.结合语义相似度分析的Web数据库Top?K典型化查询模型[J].小型微型计算机系统,2016,37(8):1692?1696.
[8] 巴志超,李纲,朱世伟.共现分析中的关键词选择与语义度量模型研究[J].情报学报,2016,35(2):197?207.
[9] 杨万春,张晨曦,穆斌.结合语义与事务属性的QoS感知的服务优化选择[J].计算机应用,2016,36(8):2207?2212.
摘 要: 针对当前英语机器翻译存在的准确性差,易引起歧义等不足,提出模糊理论的英语机器翻译语义调序模型。首先对英语机器翻译的语义进行分类,构建语义选择模型,然后采用层次分析法确定英语机器翻译语义顺序,对易错的误语义进行相应的容错操作,最后对语义进行加权操作计算语义之间的最优相似度,并引入模糊理论实现对英语机器翻译英语语义进行排列,最后通过具体应用实验对模型的性能进行分析。结果表明机器翻译选择排列模型的准确性高,而且时效性均要优于其他模型,具有明显的优势。
关键词: 模糊理论; 英语语义; 调序模型; 机器翻译
中图分类号: TN911.1?34; TP399 文献标识码: A 文章编号: 1004?373X(2017)21?0121?03
Study on fuzzy theory based semanteme ordering of English machine translation
HU Guangyao
(Yangtze University College of Arts and Sciences, Jingzhou 434020, China)
Abstract: Since the current English machine translation has poor accuracy and is easy to cause the ambiguity, a fuzzy theory based semanteme ordering model of English machine translation is put forward. The semanteme of English machine translation is classified to construct the semantic selection model. The AHP is used to determine the semanteme order of English machine translation, and perform the corresponding fault tolerant operation for the semanteme which can be translated erroneously. The semanteme is weighted to calculate the optimal similarity between the semanteme, and the fuzzy theory is introduced to arrange the English semanteme translated by machine. The performance of the model is analyzed with a specific application experiment. The experimental results show that the selection and ordering model of machine translation has high translation accuracy, and its timeliness is better than other models, which has obvious advantage.
Keywords: fuzzy theory; English semanteme; ordering model; machine translation
0 引 言
語义是对数据符号的进一步解释[1],在信息集成领域,往往通过模式(对于模式不存在隐含的非结构化或半结构化数据,往往需要在集成前定义出它们的模式)进行数据组织,数据的访问也是通过作用模式来获得的,这时语义就可定义为模式元素(例如类、属性、约束等)[2]。对语义进行准确的调序有助于更好地去理解复杂概念[3],同时,正确的语义可以保证数据的质量[4],因此高效地调序正确的、隐含的、有用的英语语义信息成为该领域亟待解决的问题,受到广大学者的关注[5?6]。
传统的英语语义调序模型一般使用神经网络法、机器学习法以及查错法[7?9],大体流程可总结为从英语语义库中逐个选择英语语义,再逐一对应是否为所需英语语义,或者直接调序提取已经存在的显著语义数据,再进行归一化管理,但该调序模型耗时较长,且准确性较差。本文提出基于模糊理论的英语语义调序模型,针对不同的英语语义,根据其特征进行调序,并运用实验对所提模型进行验证。
1 基于模糊理论的英语机器翻译语义调序模型
1.1 英语语义分类
基于模糊理论的英语语义调序模型的重点是对英语语义的分类,选用最大熵训练算法对英语语义进行分类,最大熵训练算法实质上类似一种词语解释过程,该模型可将语义根据其性能精确地分为层次性与交错性语义,其中交错性语义是根据最大相似度进行调序,层次性语义包括同类、间隔、递进类三种。假设,用符号[Bi]表示待调序语义中的当前调序英语语义,[Bi]的延伸英语语义为[Bi-1,]与[Bi]处于相同排列方位的目标语义用[Ai]表示,则其分类语义表达式为:
[fAi,Bi=Ai-1,i=1,2,3,…Bi-1,i=1,2,3,…]
当[Bi-1=1+Ai]时,待调序英语语义为同类语义,用符号[Ai-1]代替[Ai]的前端数据;当[Ai-1=1+Bi]时,待调序语义为递进语义;当待调序语义既不是同类语义,也不是递进语义,则视其为间隔语义。
1.2 英语语义最优相似度的计算
在对英语语义进行分类的基础上,采用加权层次结构分析法对英语语义相似度进行计算。
(1) 构建英语语义模型,确定层次性英语语义及交错性英语语义调序流程。以两种典型语义类别为依据,任选一个数据构建英语语义模型,如图1所示。
由图1可知,在进行英语语义调序时,需考虑两个方向差异化的调序结构问题,而层次性英语语义正是利用两个不同方向的差异性进行语义调序,其调序流程框图如图2所示。
如图2所示,层次性英语语义调序模型利用IBM软件(一种提供资源整合功能的业务软件)对语义进行调序,进而排除模型中语义几率小于0.18的英语语义。剩余词语将被成功调序,再诊断其是否与原数据对应,经诊断后的调序结果作为最终结果。
交错性英语语义与层次性英语语义不同,简单的调序模型无法实现待调序语义与正确目标语义的准确对应。因此,需计算英语语义间的最大相似度来调序语义。交错性语义调序模型工作流程如图3所示。
交错性英语语义调序模型是将英语语义库中的待调序英语语义依存原数据进行解析,生成待调序语义依存树,再依据模糊选择的规则进行最大相似度的计算,以免将语义调序结构打乱,防止调序过程中相似语义调序失误。在此之后实施调序,并对调序的结果实施二次诊断,之后输出结果。
(2) 确定英语语义间的相似度,利用加权层次结构分析法获取最优相似度。
假设[I1]为待调序语义中的任意语义,[I2]是[I1]的模糊对应结果,[d]是[I2]与[I1]的距离,用符号[η]表示依存树的模糊调节参数,由此可获取[I2]与[I1]的相似度为:
[sim(I1,I2)=ηη+d] (1)
获取最优相似度就是不断变更模糊调节参数[η]权重的过程,即利用加权层次结构分析法对式(1)进行描述,表达式如下:
[sim(s1,s2)=i=14δsim(I1,I2)] (2)
式中:[δ]表示权重,且[i=14δ=1]。
加权层次结构分析共进行4次描述,分别是[I1]和[I2]的独立关系描述、相同结构描述、相同语义功能描述和相同数据中心描述。经由加权层次结构分析后,确定最优相似度表达式为:
[Smax=i=1nφ1sim(s1,s2)+φ2sim(I1,I2)n] (3)
式中:[n]为子节点数量;[φ1,][φ2]是调序和加权层次分析在子节点中所占的比例,[φ2=1-φ1]。
1.3 英语语义调序模型的实现
经由以上分析后,给出英语语义的两种模糊参数,分别是当前语义和前端语义对调序几率的模糊影响参数,分别用[PoAi]和[PoAi-1]表示,其表达式为:
[PoAi=ξP(o)+ωoAiξ+ω(Ai)] (4)
[PoAi-1=ΣAiωoAiΣoΣAiωoAi] (5)
式中:[o]是相邻两数据的排列次序;[P(o)]是相鄰两个数据被同时调序的几率;[ξ]是数据优化因数;[ω(Ai)]和[ωoAi]分别表示调序前后的目标语义解码数据。
基于模糊理论的语义调序模型,选定一个模糊数据块[A,]再依次赋予同类类别结构和互调类别结构,选定模糊数据[A1]和[A2,][A1]和[A2]是用来合并[A]的。在模糊理论中,最大熵训练算法要求合并成的[A]应拥有最大面积,且与[A1]的结构相同,与[A2]的结构相反,此时需要借助一个约束架构[N]来定义模糊数据块[A],[N]的定义式为:
[N=PθoA1,A2] (6)
式中:[P]是分类组合函数;[θ]是权值。
模糊理论采用似然函数预测模糊英语语义块[A]的最大占据面积,有:
[PoA1,A2=PoAiPoAi-1] (7)
将式(7)代入式(6),得到基于模糊理论的英语语义调序结果,其表达式如下:
[N=expΣiθiPoAiexpΣiθiPoAi-1] (8)
综上所述,在确定英语语义最优相似度的基础上,采用模糊理论对英语语义进行调序,但需进行实验对比分析。
2 实验结果与分析
2.1 数据来源
使用LDC(Linguistic data Consortium,语言数据联合会)提供的FBIS语料,其中含有接近25万条不同语义和约800万个简单英语语义。使用Moses搜索系统在FBIS语料中随机抽取共计1 000条英语语义。采用神经网络法、机器学习法、查错法与改进模型进行对比验证分析。
2.2 英语语义调序时间状态分析
英语语义调序时间状态指其能够同时进行调序的整体反应时间。但直接获取调序时的状态难度较大,因此实验通过不断增加英语语义总量,观察本文模型、机器学习法、神经网络法和查错法在单位时间内的调序数量来验证时间调序状态。单位时间调序数量越大,语义调序时间状态就越好。以调序单位时间为纵坐标,英语语义总量为横坐标绘制曲线,如图4所示。
从图4中可以看出最高调序性能的曲线是本文模型,其次是机器学习法。随着时间的推移,每种模型的单位时间调序数量都出现不同程度的下降,这与语义调序资源调节能力有关,可使用软件控制手段进行优化。实验结果表明,采用本文模型进行语义调序时,语义调序耗时最小,且明显优于其他模型。
2.3 英语语义调序准确性分析
英语语义准确调序率表示英语语义调序中的调序正确率,正确率越大,则性能越好。在调序英语语义时,以英语语义的数量作为横坐标,调序准确率作为纵坐标,实验结果如图5所示。由图5可知,除本文模型以外,其他模型均未能有效优化调序英语语义。
3 结 语
针对当前英语机器翻译存在的问题,提出模糊理论的英语机器翻译语义调序模型。实验结果发现,采用本文模型进行英语语义调序,其调序准确性、耗时均要优于传统英语语义调序模型,具有一定的优势。
参考文献
[1] 甘丽新,万常选,刘德喜,等.基于句法语义特征的中文实体关系抽取[J].计算机研究与发展,2016,53(2):284?302.
[2] 游妍,徐博艺,谢诚.基于实例相似度的概念语义调序模型[J].计算机工程,2014,40(10):219?223.
[3] 贾玉祥,王浩石,昝红英,等.汉语语义选择限制知识的自动获取研究[J].中文信息学报,2014,28(5):66?73.
[4] 南潮.非使役化中英语动词的语义选择研究[J].安徽农业大学学报(社会科学版),2016,25(4):95?98.
[5] 王海艳,白圆圆.支持二分图语义匹配的组合服务选择模型[J].东南大学学报(自然科学版),2014,44(3):510?516.
[6] 姜芳,李国和,岳翔.基于语义的文档特征提取研究模型[J].计算机科学,2016,43(2):254?258.
[7] 孟祥福,张霄雁,唐延欢,等.结合语义相似度分析的Web数据库Top?K典型化查询模型[J].小型微型计算机系统,2016,37(8):1692?1696.
[8] 巴志超,李纲,朱世伟.共现分析中的关键词选择与语义度量模型研究[J].情报学报,2016,35(2):197?207.
[9] 杨万春,张晨曦,穆斌.结合语义与事务属性的QoS感知的服务优化选择[J].计算机应用,2016,36(8):2207?2212.