基于弱化语法规则的英文机器翻译的优化研究
赵足娥 李培隆
摘 要: 针对传统英文机器翻译过于依赖专家总结,而对弱化规则下英文翻译误差大的缺点,提出一种基于弱化语法规则的英文机器翻译优化算法。该算法对英文的语法规则进行分析,再对语义进行高斯边缘化获取其矩形窗函数,得到窗口特征向量,投影语义信息熵数据,并将语义关联因素加入到文本的信息熵与信息增益中去,从而得到语义非线性谱特征。最终实现特征识别,解决了传统英文机器翻译误差大的问题。最后对提出的算法进行仿真验证,结果表明使用该算法可以得到较好的英文翻译效果,从而证明了该算法的发展空间较好。
关键词: 英文机器翻译; 弱化语法规则; 信息熵; 特征识别
中图分类号: TN911?34; TP393 文献标识码: A 文章编号: 1004?373X(2017)22?0027?03
Abstract: An English machine translation optimization algorithm based on weakening grammar rules is proposed in this paper, which aims at the shortcomings of large error of English translation under weakening grammar rules and too much dependence on expert summary in traditional English machine translation methods. The English grammatical rules are analyzed with the algorithm. and then obtains the rectangular window function by Gaussian peripherization of the semantics is carried out to obtain the rectangular window function, window feature vector and project semantic information entropy data, and add the semantic association factor to the information entropy and information gain of the text. And the semantic non?linear spectrum feature is obtained, and the feature recognition is finally realized, which solves the problem of large error in traditional English machine translation. The simulation results of the proposed algorithm show that the algorithm can obtain better English translation effect, which proves that the proposed algorithm has better development space.
Keywords: English machine translation; weakening grammar rule; information entropy; feature recognition
早在20世纪40年代随着计算机技术的发展出现了机器翻译,其是以计算机为平台,将一种语言翻译成另一种语言[1?3]。但传统英文机器翻译过于依赖专家总结,而对弱化规则下英文翻译存在误差大的缺点[4?6]。为了对该种情况进行改进,诸多文献提出了解决方案[7?9],但大多存在扩展性差、翻译误差大的缺点。本文基于对英文语法规则的分析,提出了一种基于弱化语法规则的英文机器翻译优化算法。该算法对语义进行高斯边缘化获取其矩形窗函数,得到窗口特征向量,投影语义信息熵数据,并将语义关联因素加入到文本的信息熵与信息增益中去,从而得到语义非线性谱特征。最终实现特征识别,解决了传统英文机器翻译误差大的问题。
1 英文机器翻译原理
英文机器翻译首先需要对翻译的源语句进行语义分析,然后按照语法转换规则对与源语句中短语相对应的英文短语进行连接,并选择组合英文短语完成译文输出,即完成翻译。其具体步骤如下:设源语句集合为T,Ti为切分后源语句,源语句短语可翻译的种类为j,则源语句与译文中短语链接为:
上述原理可以有效地完成英文翻译,但大多数翻译获取语法规则过于依赖专家总结,存在较大误差。
2 弱化语法规则下英文机器翻译改进算法
2.1 语法特征选择
对英文机器翻译进行优化,先对英文语法规则进行分析,并对语义进行高斯边缘化获取其矩形窗函数,得到窗口特征向量,然后投影语义信息熵数据,具体步骤如下:
设两个语义特征转换成的有向图为G1和G2,两者的交集为Gc,得到i时刻翻译英文输入变量,用{xi1, xi2,…,xim}表示,对应的语句类型为yi,则英文翻译整体准则为:[zmar=max-yi?xi1,xi2,…,ximGc?G1,G2iZxyfy1,y2] (4)
式中:Zxy为句子之间的映射关系;f(y1,y2)为句子与句子之间的联合概率密度函数。
将水平特征量聚点的思想融合进去,构建特征识别数学模型,用式(5)进行表达。其是由中心语驱动的,其中切分出来的短语不同時态的翻译为f(x1,x2,…,
2.2 英文机器翻译优化
基于弱化语法规则的英文机器翻译优化将语义关联因素加入到文本的信息熵与信息增益中去,从而得到语义非线性谱特征,最终实现特征识别,具体步骤如下:
向量空间中的n维向量用di表示,文档中出现词语的次数用tf表示,idf为反文档频率,则语义的特征权值为式(9),文本中各信息增益为式(10)。
3 仿真证明
3.1 基于不同算法英文机器翻译的准确性
为了证明本文提出算法的有效性,基于Windows搭建翻译平台,从《人民日报》摘取800句中文语句作为测试数据,并将机器翻译结果与专业英语教师给出的译文进行比较。分别利用本文算法与文献[9]中的算法进行实验比较,翻译结果的词错误率与切分错误率如图1、图2所示。
3.2 基于不同算法英文机器翻译的特征识别效果对比
比较本文算法与文献[9]的算法翻译结果的语义特征识别、分类效果,两者的对比图如图3、图4所示。
从图1~图4中可看出,本文提出的算法词错误率与切分错误率均低于文献[9]中的算法,特征识别与分类效果也优于文献[9],从而较好地证明了本文提出算法的整体有效性。
4 结 语
针对传统英文机器翻译过于依赖专家总结,而对弱化规则下英文翻译误差大的缺点,本文提出一种基于弱化语法规则的英文机器翻译优化算法。该算法对英文的语法规则进行分析,再对语义进行高斯边缘化获取其矩形窗函数,得到窗口特征向量,投影语义信息熵数据,并将语义关联因素加入到文本的信息熵与信息增益中去,从而得到语义非线性谱特征。最终实现特征识别,解决了传统英文机器翻译误差大的问题。本文最后对提出的算法进行仿真验证,其结果表明使用该算法可得到较好的英文翻译效果,从而证明本算法发展空间良好。
注:本文通讯作者为李培隆。
参考文献
[1] 粟千.弱化语法规则下英文机器翻译的优化仿真[J].计算机仿真,2016,33(11):414?417.
[2] 赵丹培,肖腾蛟,史骏,等.基于显著语义模型的机场与油库目标的识别方法[J].计算机辅助设计与图形学学报,2014,26(1):47?55.
[3] 张明,王燕,卢清.一种基于语义特征的快速人脸检索方法[J].重庆工商大学学报(自然科学版),2014,31(2):56?60.
[4] 刘琦,肖仰华,汪卫.一种面向海量中文文本的典型类属关系识别方法[J].计算机工程,2015,41(2):26?30.
[5] 朱铭武,韩军,陆冬明,等.自然场景中基于局部轮廓特征的对象识别方法[J].计算机工程与应用,2016,52(1):162?167.
[6] 马彬,洪宇,杨雪蓉,等.基于推理线索构建的事件关系识别方法[J].北京大学学报(自然科学版),2014,50(1):133?141.
[7] 贾霞光.支持多语义层次的短文本特征提取及其分类技术[D].沈阳:东北大学,2014.
[8] 王哲.特征空间互信息区域划分语义离散度增强算法[J].计算机仿真,2015,32(5):266?269.
[9] 李朝印.基于本体的语义检索技术研究与实现[D].西安:西安電子科技大学,2014.
摘 要: 针对传统英文机器翻译过于依赖专家总结,而对弱化规则下英文翻译误差大的缺点,提出一种基于弱化语法规则的英文机器翻译优化算法。该算法对英文的语法规则进行分析,再对语义进行高斯边缘化获取其矩形窗函数,得到窗口特征向量,投影语义信息熵数据,并将语义关联因素加入到文本的信息熵与信息增益中去,从而得到语义非线性谱特征。最终实现特征识别,解决了传统英文机器翻译误差大的问题。最后对提出的算法进行仿真验证,结果表明使用该算法可以得到较好的英文翻译效果,从而证明了该算法的发展空间较好。
关键词: 英文机器翻译; 弱化语法规则; 信息熵; 特征识别
中图分类号: TN911?34; TP393 文献标识码: A 文章编号: 1004?373X(2017)22?0027?03
Abstract: An English machine translation optimization algorithm based on weakening grammar rules is proposed in this paper, which aims at the shortcomings of large error of English translation under weakening grammar rules and too much dependence on expert summary in traditional English machine translation methods. The English grammatical rules are analyzed with the algorithm. and then obtains the rectangular window function by Gaussian peripherization of the semantics is carried out to obtain the rectangular window function, window feature vector and project semantic information entropy data, and add the semantic association factor to the information entropy and information gain of the text. And the semantic non?linear spectrum feature is obtained, and the feature recognition is finally realized, which solves the problem of large error in traditional English machine translation. The simulation results of the proposed algorithm show that the algorithm can obtain better English translation effect, which proves that the proposed algorithm has better development space.
Keywords: English machine translation; weakening grammar rule; information entropy; feature recognition
早在20世纪40年代随着计算机技术的发展出现了机器翻译,其是以计算机为平台,将一种语言翻译成另一种语言[1?3]。但传统英文机器翻译过于依赖专家总结,而对弱化规则下英文翻译存在误差大的缺点[4?6]。为了对该种情况进行改进,诸多文献提出了解决方案[7?9],但大多存在扩展性差、翻译误差大的缺点。本文基于对英文语法规则的分析,提出了一种基于弱化语法规则的英文机器翻译优化算法。该算法对语义进行高斯边缘化获取其矩形窗函数,得到窗口特征向量,投影语义信息熵数据,并将语义关联因素加入到文本的信息熵与信息增益中去,从而得到语义非线性谱特征。最终实现特征识别,解决了传统英文机器翻译误差大的问题。
1 英文机器翻译原理
英文机器翻译首先需要对翻译的源语句进行语义分析,然后按照语法转换规则对与源语句中短语相对应的英文短语进行连接,并选择组合英文短语完成译文输出,即完成翻译。其具体步骤如下:设源语句集合为T,Ti为切分后源语句,源语句短语可翻译的种类为j,则源语句与译文中短语链接为:
上述原理可以有效地完成英文翻译,但大多数翻译获取语法规则过于依赖专家总结,存在较大误差。
2 弱化语法规则下英文机器翻译改进算法
2.1 语法特征选择
对英文机器翻译进行优化,先对英文语法规则进行分析,并对语义进行高斯边缘化获取其矩形窗函数,得到窗口特征向量,然后投影语义信息熵数据,具体步骤如下:
设两个语义特征转换成的有向图为G1和G2,两者的交集为Gc,得到i时刻翻译英文输入变量,用{xi1, xi2,…,xim}表示,对应的语句类型为yi,则英文翻译整体准则为:[zmar=max-yi?xi1,xi2,…,ximGc?G1,G2iZxyfy1,y2] (4)
式中:Zxy为句子之间的映射关系;f(y1,y2)为句子与句子之间的联合概率密度函数。
将水平特征量聚点的思想融合进去,构建特征识别数学模型,用式(5)进行表达。其是由中心语驱动的,其中切分出来的短语不同時态的翻译为f(x1,x2,…,
2.2 英文机器翻译优化
基于弱化语法规则的英文机器翻译优化将语义关联因素加入到文本的信息熵与信息增益中去,从而得到语义非线性谱特征,最终实现特征识别,具体步骤如下:
向量空间中的n维向量用di表示,文档中出现词语的次数用tf表示,idf为反文档频率,则语义的特征权值为式(9),文本中各信息增益为式(10)。
3 仿真证明
3.1 基于不同算法英文机器翻译的准确性
为了证明本文提出算法的有效性,基于Windows搭建翻译平台,从《人民日报》摘取800句中文语句作为测试数据,并将机器翻译结果与专业英语教师给出的译文进行比较。分别利用本文算法与文献[9]中的算法进行实验比较,翻译结果的词错误率与切分错误率如图1、图2所示。
3.2 基于不同算法英文机器翻译的特征识别效果对比
比较本文算法与文献[9]的算法翻译结果的语义特征识别、分类效果,两者的对比图如图3、图4所示。
从图1~图4中可看出,本文提出的算法词错误率与切分错误率均低于文献[9]中的算法,特征识别与分类效果也优于文献[9],从而较好地证明了本文提出算法的整体有效性。
4 结 语
针对传统英文机器翻译过于依赖专家总结,而对弱化规则下英文翻译误差大的缺点,本文提出一种基于弱化语法规则的英文机器翻译优化算法。该算法对英文的语法规则进行分析,再对语义进行高斯边缘化获取其矩形窗函数,得到窗口特征向量,投影语义信息熵数据,并将语义关联因素加入到文本的信息熵与信息增益中去,从而得到语义非线性谱特征。最终实现特征识别,解决了传统英文机器翻译误差大的问题。本文最后对提出的算法进行仿真验证,其结果表明使用该算法可得到较好的英文翻译效果,从而证明本算法发展空间良好。
注:本文通讯作者为李培隆。
参考文献
[1] 粟千.弱化语法规则下英文机器翻译的优化仿真[J].计算机仿真,2016,33(11):414?417.
[2] 赵丹培,肖腾蛟,史骏,等.基于显著语义模型的机场与油库目标的识别方法[J].计算机辅助设计与图形学学报,2014,26(1):47?55.
[3] 张明,王燕,卢清.一种基于语义特征的快速人脸检索方法[J].重庆工商大学学报(自然科学版),2014,31(2):56?60.
[4] 刘琦,肖仰华,汪卫.一种面向海量中文文本的典型类属关系识别方法[J].计算机工程,2015,41(2):26?30.
[5] 朱铭武,韩军,陆冬明,等.自然场景中基于局部轮廓特征的对象识别方法[J].计算机工程与应用,2016,52(1):162?167.
[6] 马彬,洪宇,杨雪蓉,等.基于推理线索构建的事件关系识别方法[J].北京大学学报(自然科学版),2014,50(1):133?141.
[7] 贾霞光.支持多语义层次的短文本特征提取及其分类技术[D].沈阳:东北大学,2014.
[8] 王哲.特征空间互信息区域划分语义离散度增强算法[J].计算机仿真,2015,32(5):266?269.
[9] 李朝印.基于本体的语义检索技术研究与实现[D].西安:西安電子科技大学,2014.