英汉机器翻译中的短语自动识别算法
朱丽秋
摘 要: 为了准确识别短语,设计了一种英汉机器翻译短语自动识别新算法。首先构建标记规模约为58万个英汉单词的短语语料库,为短语赋予基本的可搜索功能,保证翻译真实度;然后以短语中心点构造短语结构,改进标准GLR算法,在短语语料库的短语标记上识别短语词性,得到词性识别结果;最后通过解析线性表的句法功能校正词性识别结果中的英汉结构歧义,得到最终的识别结果。实验组织测评小组以打分方式对所设计的算法进行测评,测评结果证明算法的短语识别精度、识别速度和更新能力均很优秀。
关键词: 英汉机器翻译; 短语自动识别; GLR算法; 词性识别
中图分类号: TN99?34; TP391.2 文献标识码: A 文章编号: 1004?373X(2017)15?0126?03
Abstract: In order to identify the phrases accurately, a new phrase automatic identification algorithm for English?Chinese machine translation was designed. The phrase corpus with about 580 000 English?Chinese words was constructed to give the basic search function of the phrase, and guarantee the truth translation. The phrase is taken as the center point to construct the phrase structure. The standard GLR algorithm is improved. The phrase speech is recognized on the phrase marker of the phrase corpus to obtain the speech recognition results. The syntax function of the linear list is parsed to correct the English?Chinese structural ambiguity in the speech recognition results, and obtain the final recognition result. The algorithm was evaluated by the experimental group assessment team in the form of scoring. The evaluation results prove that the algorithm has high phrase recognition accuracy, fast recognition speed, and strong update ability.
Keywords: English?Chinese machine translation; phrase automatic recognition; GLR algorithm; speech recognition
0 引 言
短语中蕴含的语义往往是一段语句的重点释义内容,短语自动识别是语言识别范畴内的一项重要课题,其作用是从语句中采集短语进行翻译和自动组合,进而得到整段语句的翻译。短语的自动识别结果在机器翻译中被广泛使用,能实现平行语料的精确对齐和翻译样本的选调。在英汉机器翻译中,英语与汉语的语法存在高度歧义,语句分析任务异常艰巨,而短语自动识别对语法歧义具有定向消除能力,可以说,英汉机器翻译离不开短语自动识别。
结构歧义是英汉语法歧义中最复杂的一项[1],不可避免地成为目前短语自动识别算法的重要设计内容。在很多短语自动识别算法中,一些在人工翻译中极为简单的结构却无法得到准确识别,测评结果得分高的英汉机器翻译短语自动识别算法非常少,因此,设计一种新算法,用短语在语句中的句法功能来决定翻译结果中的位置排列范围。
1 英汉机器翻译中短语自动识别算法
1.1 短语语料库的构建
语料库是以计算机为载体存放语言材料的数据库,构建短语语料库的作用是对英汉双语中的短语词性进行标记,为短语赋予基础功能,提升英汉机器翻译短语自动识别算法对识别任务的搜索精度和效率[2]。短语语料库的性能直接决定着算法的测评分数,可采取加大标记范围等方式提高算法测评分数。表1对算法的短语语料库信息进行了描述。
短语语料库的标记规模约为58万个英汉单词,大致能构造出2万段语句、1万个短语,而普通的短语语料库仅能构造1万段语句。如表1所示,短语语料库充分考虑了语料的应用领域和体制,可对日常交际、商务、科技和机械领域的各类沟通进行英汉互译。语料标记方式依次采用数据、层次和加工方式,以文本格式进行短语定义,识别短句词性以完成语句对齐,使用人机自主沟通进行英汉翻译语句的去重和校准[2],保证短语语料翻译的真实程度。下面举例说明短语预料库的具体应用。
原语句:I know you are a machine factory of physics facilities.
词性标记:I / Verb know / INC you/ PRP are / NNS a / VBP machine / VBP factory / NNS of / INP physics / JJ facilities / NNS./
1.2 短语语料库词性识别
词性识别是英汉机器翻译短语自动识别算法的一项重要处理步骤,适用于大规模语句、短语和单词的语法歧义排除[3]。在短语预料库的词性标记下,语句被分成若干个单词,单词进行对齐后组成短语,经词性识别后在短语中写入依存关系,形成句法树[4],一方面缩减了英汉机器翻译任务;另一方面有利于提高短语语料库的处理效率。
GLR(Generalized maximum likelihood ratio,狭义最大似然比检测)算法是词性识别的基础算法,为一个分辨短语上下文似然性的过程,其基础识别理论是动态识别表单和无条件转移语句。标准GLR算法中的任何一个处理步骤都拥有多种移位指令和精简操作,步骤的开始和结束以特殊标志表示[5]。在英汉短语翻译不存在语法歧义时,GLR算法直接进入去重和校准,一旦碰到语法歧义,通过句法的几何结构线性表调取解析线性表,对短语动作进行识别,给出所有可能正确的动作安置结果,存入不同的识别通道中进行符号识别,由符号识别给出最佳动作安置结果。
标准GLR算法给出的识别结果数量是不确定的,不同识别结果中有可能存在数据点重合,识别精度普遍偏低。在所设计的英汉机器翻译短语自动识别算法中,对标准GLR算法进行改进,以短语中心点构造短语结构,提高识别精度。
改进GLR算法以四元集群表示短语上下文的似然性:
设是中的任意动作且同时存在于中,有:
式中:依次表示动作右侧符号、中心点符号、约束值和标记方式,和同时位于与中[7],可位于中,也可位于中。
改进GLR算法要求识别结果线性表最高层出现的符号与始终保持一致,约束值必须为真,中心点符号不能为空值。同时满足以上三点要求的识别结果为短语词性识别结果。
1.3 英汉机器翻译短语自动识别算法校正流程
在以往的英汉机器翻译短语自动识别算法中,短语语料库的词性识别结果即为最终结果,但词性识别并没有改善英汉语言之间的结构歧义[8],对词性识别结果进行校正是必不可少的。GLR算法中利用解析线性表对短语动作进行识别,除此之外,解析线性表还具备另一项功能,即句法功能识别,其以推进、归约、接受、终止、出错为指针分析词性识别结果中的错误点,通过搜索短语语料库中的短语标记内容对错误点进行校正[9],图1为英汉机器翻译短语自动识别算法校正流程图。
如图1所示,归约与推进指令的作用非常类似,都要求重新替换解析线性表中的终止符位置,但在意义上存在本质区别。归约是指重新制定句法功能识别约束条件,表示前一個约束条件无效或循环过程出现错误。推进是指在本次句法功能识别中不存在结构歧义的错误点,位于终止符前方的短语词性识别结果是正确的,应调取接受指针输出留用。接受指针和推进指针在正常情况下是同时出现的,若算法流程中只存在二者之一,表明循环出错或算法设定出错,应重新调出解析线性表,收回已接受的词性识别结果。在替换终止符之前,对指针类型进行检测,如果为归约指针,检测指针的约束条件能否在短语语料库中搜索到,若搜索不到,进入终止指针。
终止指针产生于有可能存在结构歧义的预备点上,出现终止指针后,算法构造短语结构树,标记符号栈,分析预备点的中心点符号是否存在且安置在正确的语句结构上,若不存在或安置错误,算法立即调取出错指针校正词性的识别结果。
整个算法校正流程存在多个短语识别输出口,而一个接受指针单次只能输出一个识别结果,当发生多个识别结果需要同时输出的情况时(如两个短语在语句中的位置是相邻的),将多个识别结果写入短语结构树的同一个节点中,这时接受指针会自动将其视为一个识别结果。
2 实验测评
2.1 测评方法
实验组织了测评小组,对本文设计的英文机器翻译短语自动识别算法性能进行测评,包括短语识别精度、识别速度和更新能力。测评小组包含3台英汉机器翻译、2名英汉翻译人员和2名打分人员。3台英汉机器翻译的规格相同,初始化后分别装备本文算法、统计算法和动态记忆算法。
测评方法使用封闭测评和开发测评。封闭测评是指对特定英汉翻译语句中的短语进行自动识别;开发测评中的英汉翻译语句由网络随机挑选[10]。通过三种短语自动识别算法识别并给出翻译结果后,2名英汉翻译人员以交流方式进行翻译,打分人员对比机器翻译与人工翻译,按照打分规则为三种算法打分,打分规则如下:
(1) 算法的识别精度、识别速度和更新能力的分数分别占总分的90%,5%,5%。
(2) 识别精度打分规则(不考虑错别字)如下:
100分:翻译结构意义表达完全准确,语法结构无需修改;
80分:整体释义表述清晰,存在微小的语法结构错误,必要时应进行简单修改;
60分:整体释义表述清晰,存在多处语法结构错误,必须进行修改,否则意义表述存在歧义;
40分:部分释义表述清晰,短语释义无明显错误,整体释义不连贯;
20分:整体和部分释义均很混乱,短语释义存在明显错误;
0分:整体和部分释义均很混乱,不知所云。
(3) 识别速度和更新能力的打分规则使用加权平均值法,即将算法的总识别时间和总更新时间乘以权值后进行求和,再除以短语识别数量。
2.2 测评结果
实验分别在封闭测评和开发测评中进行了60个语句的短语识别,三种算法的测评结果见表2~表4,测评结果得分最高的是本文算法,平均为92.3分,最低的是统计算法,为75.1分。动态记忆算法的测评结果得分为91.2分,与本文算法的得分相差不大,但动态记忆算法的更新能力严重不足,从长远角度来看,本文算法更具实用价值。
3 结 论
基于改进的GLR算法和解析线性表设计的英汉机器翻译短语自动识别算法改进了标准GLR算法识别结果精度低的缺陷,又以解析线性表对短语的词性和结构进行识别,给出短语在语句中最为正确的安置位置。整个算法的计算简便、解析难度低,并且短语识别精度高、识别速度快、更新能力强,同以往设计的短语自动识别算法相比,本文算法的优势突出,实用性强。
参考文献
[1] 李英军.机器翻译与翻译技术研究的现状与展望:伯纳德马克沙特尔沃思访谈录[J].中国科技翻译,2014,27(1):24?27.
[2] 李强,何燕龙,栾爽,等.统计机器翻译删词问题研究[J].中文信息学报,2014,28(5):125?132.
[3] 杨宪泽,陈毅红.汉藏机器翻译的特点与手写汉字切分分析研究[J].计算机工程与科学,2014,36(8):1595?1598.
[4] 苏晨,张玉洁,郭振,等.使用源语言复述知识改善统计机器翻译性能[J].北京大学学报(自然科学版),2015,51(2):342?348.
[5] 李强,李沐,张冬冬,等.统计机器翻译中实例短语对研究[J].北京大学学报(自然科学版),2016,52(1):113?119.
[6] 尤胜.基于异构技术的数字图书馆信息统计平台[J].现代电子技术,2016,39(7):167?170.
[7] 孟凡军,李天伟,徐冠雷,等.基于K均值聚类算法的雾天识别方法研究[J].现代电子技术,2015,38(22):80?83.
[8] 崔启亮,李闻.译后编辑错误类型研究:基于科技文本英汉机器翻译[J].中国科技翻译,2015,28(4):19?22.
[9] 应玉龙,项明.局部相位量化特征的织物瑕疵检测算法[J].西安工程大学学报,2015,29(5):541?545.
[10] 汪昆,宗成庆,苏克毅.统计机器翻译和翻译记忆的动态融合方法研究[J].中文信息学报,2015,29(2):87?94.
摘 要: 为了准确识别短语,设计了一种英汉机器翻译短语自动识别新算法。首先构建标记规模约为58万个英汉单词的短语语料库,为短语赋予基本的可搜索功能,保证翻译真实度;然后以短语中心点构造短语结构,改进标准GLR算法,在短语语料库的短语标记上识别短语词性,得到词性识别结果;最后通过解析线性表的句法功能校正词性识别结果中的英汉结构歧义,得到最终的识别结果。实验组织测评小组以打分方式对所设计的算法进行测评,测评结果证明算法的短语识别精度、识别速度和更新能力均很优秀。
关键词: 英汉机器翻译; 短语自动识别; GLR算法; 词性识别
中图分类号: TN99?34; TP391.2 文献标识码: A 文章编号: 1004?373X(2017)15?0126?03
Abstract: In order to identify the phrases accurately, a new phrase automatic identification algorithm for English?Chinese machine translation was designed. The phrase corpus with about 580 000 English?Chinese words was constructed to give the basic search function of the phrase, and guarantee the truth translation. The phrase is taken as the center point to construct the phrase structure. The standard GLR algorithm is improved. The phrase speech is recognized on the phrase marker of the phrase corpus to obtain the speech recognition results. The syntax function of the linear list is parsed to correct the English?Chinese structural ambiguity in the speech recognition results, and obtain the final recognition result. The algorithm was evaluated by the experimental group assessment team in the form of scoring. The evaluation results prove that the algorithm has high phrase recognition accuracy, fast recognition speed, and strong update ability.
Keywords: English?Chinese machine translation; phrase automatic recognition; GLR algorithm; speech recognition
0 引 言
短语中蕴含的语义往往是一段语句的重点释义内容,短语自动识别是语言识别范畴内的一项重要课题,其作用是从语句中采集短语进行翻译和自动组合,进而得到整段语句的翻译。短语的自动识别结果在机器翻译中被广泛使用,能实现平行语料的精确对齐和翻译样本的选调。在英汉机器翻译中,英语与汉语的语法存在高度歧义,语句分析任务异常艰巨,而短语自动识别对语法歧义具有定向消除能力,可以说,英汉机器翻译离不开短语自动识别。
结构歧义是英汉语法歧义中最复杂的一项[1],不可避免地成为目前短语自动识别算法的重要设计内容。在很多短语自动识别算法中,一些在人工翻译中极为简单的结构却无法得到准确识别,测评结果得分高的英汉机器翻译短语自动识别算法非常少,因此,设计一种新算法,用短语在语句中的句法功能来决定翻译结果中的位置排列范围。
1 英汉机器翻译中短语自动识别算法
1.1 短语语料库的构建
语料库是以计算机为载体存放语言材料的数据库,构建短语语料库的作用是对英汉双语中的短语词性进行标记,为短语赋予基础功能,提升英汉机器翻译短语自动识别算法对识别任务的搜索精度和效率[2]。短语语料库的性能直接决定着算法的测评分数,可采取加大标记范围等方式提高算法测评分数。表1对算法的短语语料库信息进行了描述。
短语语料库的标记规模约为58万个英汉单词,大致能构造出2万段语句、1万个短语,而普通的短语语料库仅能构造1万段语句。如表1所示,短语语料库充分考虑了语料的应用领域和体制,可对日常交际、商务、科技和机械领域的各类沟通进行英汉互译。语料标记方式依次采用数据、层次和加工方式,以文本格式进行短语定义,识别短句词性以完成语句对齐,使用人机自主沟通进行英汉翻译语句的去重和校准[2],保证短语语料翻译的真实程度。下面举例说明短语预料库的具体应用。
原语句:I know you are a machine factory of physics facilities.
词性标记:I / Verb know / INC you/ PRP are / NNS a / VBP machine / VBP factory / NNS of / INP physics / JJ facilities / NNS./
1.2 短语语料库词性识别
词性识别是英汉机器翻译短语自动识别算法的一项重要处理步骤,适用于大规模语句、短语和单词的语法歧义排除[3]。在短语预料库的词性标记下,语句被分成若干个单词,单词进行对齐后组成短语,经词性识别后在短语中写入依存关系,形成句法树[4],一方面缩减了英汉机器翻译任务;另一方面有利于提高短语语料库的处理效率。
GLR(Generalized maximum likelihood ratio,狭义最大似然比检测)算法是词性识别的基础算法,为一个分辨短语上下文似然性的过程,其基础识别理论是动态识别表单和无条件转移语句。标准GLR算法中的任何一个处理步骤都拥有多种移位指令和精简操作,步骤的开始和结束以特殊标志表示[5]。在英汉短语翻译不存在语法歧义时,GLR算法直接进入去重和校准,一旦碰到语法歧义,通过句法的几何结构线性表调取解析线性表,对短语动作进行识别,给出所有可能正确的动作安置结果,存入不同的识别通道中进行符号识别,由符号识别给出最佳动作安置结果。
标准GLR算法给出的识别结果数量是不确定的,不同识别结果中有可能存在数据点重合,识别精度普遍偏低。在所设计的英汉机器翻译短语自动识别算法中,对标准GLR算法进行改进,以短语中心点构造短语结构,提高识别精度。
改进GLR算法以四元集群表示短语上下文的似然性:
设是中的任意动作且同时存在于中,有:
式中:依次表示动作右侧符号、中心点符号、约束值和标记方式,和同时位于与中[7],可位于中,也可位于中。
改进GLR算法要求识别结果线性表最高层出现的符号与始终保持一致,约束值必须为真,中心点符号不能为空值。同时满足以上三点要求的识别结果为短语词性识别结果。
1.3 英汉机器翻译短语自动识别算法校正流程
在以往的英汉机器翻译短语自动识别算法中,短语语料库的词性识别结果即为最终结果,但词性识别并没有改善英汉语言之间的结构歧义[8],对词性识别结果进行校正是必不可少的。GLR算法中利用解析线性表对短语动作进行识别,除此之外,解析线性表还具备另一项功能,即句法功能识别,其以推进、归约、接受、终止、出错为指针分析词性识别结果中的错误点,通过搜索短语语料库中的短语标记内容对错误点进行校正[9],图1为英汉机器翻译短语自动识别算法校正流程图。
如图1所示,归约与推进指令的作用非常类似,都要求重新替换解析线性表中的终止符位置,但在意义上存在本质区别。归约是指重新制定句法功能识别约束条件,表示前一個约束条件无效或循环过程出现错误。推进是指在本次句法功能识别中不存在结构歧义的错误点,位于终止符前方的短语词性识别结果是正确的,应调取接受指针输出留用。接受指针和推进指针在正常情况下是同时出现的,若算法流程中只存在二者之一,表明循环出错或算法设定出错,应重新调出解析线性表,收回已接受的词性识别结果。在替换终止符之前,对指针类型进行检测,如果为归约指针,检测指针的约束条件能否在短语语料库中搜索到,若搜索不到,进入终止指针。
终止指针产生于有可能存在结构歧义的预备点上,出现终止指针后,算法构造短语结构树,标记符号栈,分析预备点的中心点符号是否存在且安置在正确的语句结构上,若不存在或安置错误,算法立即调取出错指针校正词性的识别结果。
整个算法校正流程存在多个短语识别输出口,而一个接受指针单次只能输出一个识别结果,当发生多个识别结果需要同时输出的情况时(如两个短语在语句中的位置是相邻的),将多个识别结果写入短语结构树的同一个节点中,这时接受指针会自动将其视为一个识别结果。
2 实验测评
2.1 测评方法
实验组织了测评小组,对本文设计的英文机器翻译短语自动识别算法性能进行测评,包括短语识别精度、识别速度和更新能力。测评小组包含3台英汉机器翻译、2名英汉翻译人员和2名打分人员。3台英汉机器翻译的规格相同,初始化后分别装备本文算法、统计算法和动态记忆算法。
测评方法使用封闭测评和开发测评。封闭测评是指对特定英汉翻译语句中的短语进行自动识别;开发测评中的英汉翻译语句由网络随机挑选[10]。通过三种短语自动识别算法识别并给出翻译结果后,2名英汉翻译人员以交流方式进行翻译,打分人员对比机器翻译与人工翻译,按照打分规则为三种算法打分,打分规则如下:
(1) 算法的识别精度、识别速度和更新能力的分数分别占总分的90%,5%,5%。
(2) 识别精度打分规则(不考虑错别字)如下:
100分:翻译结构意义表达完全准确,语法结构无需修改;
80分:整体释义表述清晰,存在微小的语法结构错误,必要时应进行简单修改;
60分:整体释义表述清晰,存在多处语法结构错误,必须进行修改,否则意义表述存在歧义;
40分:部分释义表述清晰,短语释义无明显错误,整体释义不连贯;
20分:整体和部分释义均很混乱,短语释义存在明显错误;
0分:整体和部分释义均很混乱,不知所云。
(3) 识别速度和更新能力的打分规则使用加权平均值法,即将算法的总识别时间和总更新时间乘以权值后进行求和,再除以短语识别数量。
2.2 测评结果
实验分别在封闭测评和开发测评中进行了60个语句的短语识别,三种算法的测评结果见表2~表4,测评结果得分最高的是本文算法,平均为92.3分,最低的是统计算法,为75.1分。动态记忆算法的测评结果得分为91.2分,与本文算法的得分相差不大,但动态记忆算法的更新能力严重不足,从长远角度来看,本文算法更具实用价值。
3 结 论
基于改进的GLR算法和解析线性表设计的英汉机器翻译短语自动识别算法改进了标准GLR算法识别结果精度低的缺陷,又以解析线性表对短语的词性和结构进行识别,给出短语在语句中最为正确的安置位置。整个算法的计算简便、解析难度低,并且短语识别精度高、识别速度快、更新能力强,同以往设计的短语自动识别算法相比,本文算法的优势突出,实用性强。
参考文献
[1] 李英军.机器翻译与翻译技术研究的现状与展望:伯纳德马克沙特尔沃思访谈录[J].中国科技翻译,2014,27(1):24?27.
[2] 李强,何燕龙,栾爽,等.统计机器翻译删词问题研究[J].中文信息学报,2014,28(5):125?132.
[3] 杨宪泽,陈毅红.汉藏机器翻译的特点与手写汉字切分分析研究[J].计算机工程与科学,2014,36(8):1595?1598.
[4] 苏晨,张玉洁,郭振,等.使用源语言复述知识改善统计机器翻译性能[J].北京大学学报(自然科学版),2015,51(2):342?348.
[5] 李强,李沐,张冬冬,等.统计机器翻译中实例短语对研究[J].北京大学学报(自然科学版),2016,52(1):113?119.
[6] 尤胜.基于异构技术的数字图书馆信息统计平台[J].现代电子技术,2016,39(7):167?170.
[7] 孟凡军,李天伟,徐冠雷,等.基于K均值聚类算法的雾天识别方法研究[J].现代电子技术,2015,38(22):80?83.
[8] 崔启亮,李闻.译后编辑错误类型研究:基于科技文本英汉机器翻译[J].中国科技翻译,2015,28(4):19?22.
[9] 应玉龙,项明.局部相位量化特征的织物瑕疵检测算法[J].西安工程大学学报,2015,29(5):541?545.
[10] 汪昆,宗成庆,苏克毅.统计机器翻译和翻译记忆的动态融合方法研究[J].中文信息学报,2015,29(2):87?94.