英语翻译计算机智能校对系统设计

崔丹



关键词: 英语翻译; 短语翻译模型; 语境连贯性; 计算机智能校对; 行为日志; 系统设计
中图分类号: TN912.3?34 ? ? ? ? ? ? ? ? ? ? ? ? ? 文献标识码: A ? ? ? ? ? ? ? ? ?文章编号: 1004?373X(2019)04?0179?04
Design of intelligent computer proofreading system for English translation
CUI Dan
(Harbin Engineering University, Harbin 150001, China)
Abstract: The English translation and proofreading system based on phrases and syntax pays attention to the accuracy calibration of phrases and syntax, but cannot solve the problem of poor contextual coherence in English translation. Therefore, a new intelligent computer proofreading system for English translation is designed in this paper. The main part of the system is composed of the search module, English translation module, English translation calibration module and behavior log. The search module is used to complete the search for the basic meaning and subject content of the vocabularies under proofreading. The behavior log is used to master the user′s behavior data, so as to optimize the system. In the software part of the system, the intelligent computer calibration method based on the improved phrase translation model is adopted to search for the correct word to replace the vocabularies under proofreading, and realize intelligent proofreading for English translation. The experimental results show that the designed system can improve the accuracy of English translation results by 27.7%, and can effectively correct the contextual incoherence in English translation results, which has the performance advantages of high accuracy and contextual coherence in comparison with other similar systems.
Keywords: English translation; phrase translation model; contextual coherence; intelligent computer proofreading; behavior log; system design
of industrial robot [M]. Beijing: China Machine Press, 2014.0 ?引 ?言
互聯网技术的发展,促使大量英语翻译软件的诞生。人们对于英语翻译结果的获取更加便捷,英语翻译软件根据自身的算法设置,通过搜索全网语义词汇,给出英语翻译结果。但是这些英语翻译结果的可靠性较差,不能直接使用,后期需要大量人工校对,人工校对存在两大缺陷[1]:人工的速度跟不上英语翻译结果校对需求;人工校对投入较大,大量的英语翻译计算机智能校对系统应运而生。文献[2]采用基于短语和句法的英语翻译校对系统对英语翻译结果实施校对,重视短语、句法的准确度,但忽略了语境的连贯性校对;文献[3]是融入双语最大名词短语的英语翻译校对系统,缺乏用户行为数据的记载,开发者难以根据用户的使用情况对系统做出优化。
针对上述系统存在的问题,本文设计新的英语翻译计算机智能校对系统,从硬件和软件两方面介绍系统的功能与优势,实现英语翻译结果的智能校对。1 ?英语翻译计算机智能校对系统设计
1.1 ?系统总体架构设计
本文设计的英语翻译计算机智能校对系统总体架构如图1所示。图中工作模块、英语翻译模块、英语翻译校对模块、搜索模块、用户模块以及行为日志构成了本文系统的主体部分。
上述5个模块在进行英语翻译智能校对过程中产生的工作行为数据可通过行为日志来记录。行为日志的设置为后台工程师实时查看足迹系统提供科学依据,对此研究系统工作过程中存在的问题进行及时改正,达到提高系统校对性能的目的[4]。
英语翻译计算机智能校对系统实际上是一个英语翻译的过程,通过翻译英语语句,替换原有翻译结果中不正确的部分,实现智能校对,获取尽可能正确的英语翻译结果。系统根据待校对语句特征在互联网中搜索相关翻译信息,将其存储在工作模块内。
工作模块的作用是进行英语翻译智能校对的基础,在此基础上,完成英语翻译的智能校对[5]。当校对命令下达后,工作模块会接收到来自翻译模块的搜索链接,英语翻译模块通过分析待校对语句的各个词汇特征,根据相似度将翻译结果排序,最终选取出最符合实际的翻译结果。用户可在用户模块中查看排序靠后的翻译结果,以供参考。
1.2 ?硬件设计
1.2.1 ?搜索模块设计
对语句中词汇特征的提取与分析是搜索模块的主要功能。在此过程中,搜索模块对词汇的基本含义与相关学科信息进行搜索,仿真人脑记忆的存储方法,对词汇特征进行更新与优化[6],为获取准确的英语翻译智能校对结果提供有利条件。
搜索模块接收到用户输入的同时,立即展开词汇处理与特征搜索工作。搜索模块通过构建映射线程的方式,对待校对词汇实施基本含义获取与学科内容搜索,为待校对词汇的特征提取打下基础[7]。该映射线程是一对多模式的线程,待校对词汇的学科内容包含线程上的所有映射点,与学科内容类似的学科同样会包含部分映射点。此举能够确保有可能接近的答案出现在搜索范围之内,降低用户表达失误造成搜索结果错误的几率[8]。
1.2.2 ?行为日志
行为日志是对用户在该系统中所有行为的记录,以数据的形式呈现出来。当用户进行二次校对操作时,行为日志对用户的足迹产生记录。若用户对同一英语翻译进行多次校对,系统能够智能地增加词汇翻译的范围,搜索到更多用户可能需求的结果,以此提高系统的校对性能[9],增加英语翻译计算机智能校对的精确度。
1.3 ?软件设计
1.3.1 ?基于改进短语翻译模型的计算机智能校对方法
由一种形式的文本向另一种形式文本的转换是英语翻译与英语翻译校对的共同之处。因此,英语翻译计算机智能校对的过程实际上是对未翻译的语句实施翻译的过程[10],将校对的结果与初始翻译结果进行对比与替换,实现英语翻译的智能校对。
本文定义[H]表示错误的英语翻译结果,[D]表示正确的英语翻译结果,由[H]向[D]的转化即英语翻译的过程。基于改进短语翻译模型的英语机器翻译方法如下:
[D=argmaxcMDH ? =argmaxcMHD?MD] (1)
式中,校对完成的词汇用[MD]描述。
英语机器翻译方法获取的结果中词汇的翻译精确度有待提高,而计算机智能英语翻译方法重视词汇翻译的精确度,即式(1)中[MD]的精确度。所以,在優化式(1)的基础上实现计算机智能校对,具体方法如下:
[D=argmaxcMHDε?MDγ] ? ? ?(2)
式中,[MHD]与[MD]权重的权值分别用[ε],[γ]表示。
为方便基于改进短语翻译模型的计算机智能校对方法的表述,称[H]为待校对词汇,校对完成词汇用[D]表示。定义有[p]个字符存在于[H]中,用[Hp1]表示,这些字符与短语翻译模型中的词汇对应;同时有[q]个字符存在于[D]中,用[Dq1]表示。
定义将[Hpq]划分成随机[d]个字符串,用[Hd1]表示,其中字符串与短语翻译模型中的短语对应。同理,待校对词汇产生的校对词汇包含[d]个字符串,用[Dd1]描述。综上,得出式(2)的扩展形式,如下:[D=argmaxcMDH ? ?=argmaxD?Md1Md1MDd1,Hd1Hp1 ? ?=argmaxD?Md1Md1MHd1Hp1?MDd1Hd1,Hp1 ? =argmaxD?Md1Md1MHd1Hp1?MDd1Hd1 ??improvedargmaxD?Md1Md1MHd1Hp1?MHd1Dd1ε?MDd1γ ? =argmaxD?Md1Md1MHd1Hp1?MHd1Dd1ε?MDq1γ]在英语翻译计算机智能校对过程中,重点是寻找适当划分待校对词汇[H]的方法,对划分结果实施一一校对,获取排列成[D]顺序的校对结果,结合式(3)描述的方法寻找与待校对词汇[H]相对应的词汇[D],实现英语翻译计算机智能校对。
1.3.2 ?校对代码实现
本文系统软件设计描述的基于改进短语翻译模型的计算机智能校对方法对应的伪代码如下:
Start
Terms Form =NEW semantics blurry;
//对英语待校对结合实施还原
ashy relevance = NEW semantics theme
//对待校对词汇权重集合实施还原
Vocabulary = English translation (Vocabulary Form)
//提取词汇基本含义与学科信息
Simultaneously (phrasal language environment Is Not Empty.) {
IF (Vocabulary semantics blurry best) {
Vocabulary = folds cooperate (phrasal message);
//不能从词汇权重集合中获取,改变权值全方位查询
Otherwise
Crunode = phrasal message (Scientific);
//正确分析翻译结果
Analog = assort compute (Vocabulary, Crunode);
//衡量词汇的语义相似程度
Analog _ Form. Place (lauygdbgf Of (Sfgr));
//从排序结果中寻找与待校对词汇相对应的、最合理的词汇
Vocabulary. free surface (If (simregrfist) .Nbtjuke);
//对分词实施归纳
END}}2 ?实验分析
2.1 ?系统有效性验证
为验证本文系统在英语翻译计算机智能校对方面的有效性,对本文系统展开英语翻译校对测试,记录实验过程中的相关数据,以此进行系统性能分析。实验中,词汇校对数量为400字符,短文校对数量为500篇,校对速度为15 Kb/s,词汇识别速度为25 Kb/s。将采用本文系统校对完成后英语翻译结果的精确度与未校对前的精确度对比,结果如表1所示。
分析表1能够看出,未校对前英语翻译结果最高精确度仅为75.4%,采用本文系统校对后,最低精确度高达98.6%,两者精确度相差悬殊,本文系统的有效性突出。从翻译精确度均值角度而言,未校对前英语翻译结果均值仅为71.4%,采用本文系统校对后,精确度均值提高了27.7%,再次验证了本文系统进行英语翻译计算机智能校对的有效性。
2.2 ?校对节点分布对比
为突出本文系統的优势,在实验中引用基于短语和句法的计算机智能校对系统进行对比实验。采用第2.1节中的实验样本,对本文系统和基于短语和句法的计算机智能校对系统同时进行英语翻译计算机智能校对测试。记录实验过程中各系统的节控点位个数,分析节控分布情况。节控点位分布是对英语翻译语义、语境之间关联程度的描述,节控点位分布密集说明系统英语翻译校对准确度高、校对结果语境连贯;相反,节控点位分布松散说明系统英语翻译校对准确度高,但校对结果语境连贯性较差。系统校对节控点位分布情况见图2、图3。
图2中,本文系统的校对节控点位分布紧凑有序,说明本文系统的校对性能较高,能够在获取精确度的校对结果的同时,解决英语翻译语境不连贯的问题;图3中,基于短语和句法的计算机智能校对系统的节控点位分布总体松散,但在第1次、第4次、第5次实验中均出现校对节控点位分布紧凑的情况,说明该系统的校对精确度较高,但是难以校对出英语翻译结果语境连贯性差的问题。另外,该系统的节控点位分布松散与紧凑交替变换,证明其稳定性较差。
综上可知,本文系统的校对精确度高,并且能够有效校对出英语翻译结果中语境不连贯的问题,并给出合理的、符合语境连贯性的翻译结果;与同类系统相比,突出了本文系统的校对性能优势。
由于本文系统的搜索模块是基于语句中词汇特征的提取结果,对词汇的基本含义与相关学科信息进行搜索,模拟人脑记忆的存储方法,对词汇特征进行更新与优化,能够有效提取英语翻译结果语境不连贯部分,针对该问题进行语境连贯性校对,获取优秀的英语翻译校对结果。因此,本文系统在同类校对系统中具有优势。3 ?结 ?论
本文设计新的英语翻译计算机智能校对系统,硬件部分,利用搜索模块完成待校对词汇基本含义与学科内容搜索,通过行为日志掌握用户的行为数据,进行系统升级;软件部分采用基于改进短语翻译模型的计算机智能校对方法实现英语翻译的智能校对。
经实验验证,本文系统令英语翻译结果精确度提高了27.7%,可以有效校对出英语翻译结果中语境不连贯的问题,与同类系统相比,所设计系统具有高精确度、语境连贯的性能优势。该系统的设计为英语翻译智能校对提供了崭新手段,大大降低人工校对成本,提高英语翻译校对效率。
参考文献
[1] 陈卉.英语专业翻译课程形成性评价体系改革研究[J].外国语文,2017,33(4):133?136.
CHEN Hui. A study of reformation of formative evaluation system for translation courses of English major [J]. Journal of Sichuan International Studies University, 2017, 33(4): 133?136.
[2] 冯志伟.基于短语和句法的统计机器翻译[J].燕山大学学报,2015,39(6):546?554.
FENG Zhiwei. Phrase?based and syntax?based statistical machine translation [J]. Journal of Yanshan University, 2015, 39(6): 546?554.
[3] 李业刚,梁丽君,孙福振,等.融入双语最大名词短语的机器翻译模型[J].计算机应用研究,2017,34(5):1316?1320.
LI Yegang, LIANG Lijun, SUN Fuzhen, et al. Machine translation model integrated with bilingual maximal?length noun phrase [J]. Application research of computers, 2017, 34(5): 1316?1320.
[4] 斯·劳格劳.蒙古语固定短语识别算法的设计与实现[J].中文信息学报,2017,31(5):85?91.
S Loglo. Design and implementation of Mongolian fixed phrase recognition algorithm [J]. Journal of Chinese information processing, 2017, 31(5): 85?91.
[5] 江腾蛟,万常选,刘德喜,等.基于语义分析的评价对象?情感词对抽取[J].计算机学报,2017,40(3):617?633.
JIANG Tengjiao, WAN Changxuan, LIU Dexi, et al. Extracting target?opinion pairs based on semantic analysis [J]. Chinese journal of computers, 2017, 40(3): 617?633.
[6] HUDSON J Q, NOLIN T D. Estimated GFR and cystatin C for drug dosing: moving beyond proof of concept to clinical translation? [J]. American journal of kidney diseases, 2015, 65(4): 534?536.
[7] 王文辉,吴敏华,骆力明,等.基于相似度算法的英语智能问答系统设计与实现[J].计算机应用与软件,2017,34(6):62?68.
WANG Wenhui, WU Minhua, LUO Liming, et al. Design and implementation of English intelligent question?answering system based on similarity algorithm [J]. Computer applications and software, 2017, 34(6): 62?68.
[8] 王剑娜.论英语专业翻译教学模式的生态三维度[J].上海理工大学学报(社会科学版),2017,39(2):127?131.
WANG Jianna. On three?eco?dimensions of translation teaching mode of English major [J]. Journal of University of Shanghai for Science and Technology (Social science edition), 2017, 39(2): 127?131.
[9] LEE Y C, HSUEH C W. Hardware/software co?design of memory page translation for mobile virtualization [J]. IEEE transactions on computers, 2016, 65(10): 3070?3082.
[10] 粟千.弱化语法规则下英文机器翻译的优化仿真[J].计算机仿真,2016,33(11):414?417.
SU Qian. Weakening grammar rules under the improvement and optimization of simulation of machine translation in English [J]. Computer simulation, 2016, 33(11): 414?417.