混合策略的汉维辅助翻译系统的设计与实现

解倩倩 艾山·吾买尔 吐尔根·依布拉音 买合木提·买买提 卡哈尔江·阿比的热西提
摘 要: 采用统计与实例的混合策略和翻译记忆技术相结合的方法设计并实现汉维计算机辅助翻译系统。采用该方法的汉维方向BLUE值达0.292 4,0.299 9,0.292 2,维汉方向BLUE值达0.328 4,0.328 6,0.303 1;另外,在面对日益扩展的语料库的压力时采用优化的信息检索技术,并根据同一篇文章有同一个主题的特点采用上下文相关问答技术,均使翻译准确率和译者工作效率有了明显提高。
关键词: 计算机辅助翻译; 混合策略; 信息检索; 上下文相关问答
中图分类号: TN911?34; TP391 文献标识码: A 文章编号: 1004?373X(2017)20?0005?05
Abstract: A method of combining the hybrid strategy of statistics and instances with the translation memory technology is adopted to design and implement the Chinese?Uyghur computer?aided translation (CAT) system. Using this method, the Chinese?Uyghur BLUE value reaches 0.292 4, 0.299 9 and 0.292 2 while the Uyghur?Chinese BLUE value reaches 0.328 4, 0.328 6 and 0.303 1. In addition, the optimized information retrieval technology is used facing the pressure of the instantly increased corpus, and the contextual question answering technology is utilized according to the same topic characteristic of the same article. All these technologies make the translation accuracy of the system and the efficiency of translators significantly improved.
Keywords: computer?aided translation; hybrid strategy; information retrieval; contextual question answering
0 引 言
随着计算机科学与信息技术在人们的生活学习中发挥越来越重要的作用,计算机辅助翻译软件以译者为主、机器翻译为辅的方式进行工作,此低成本、高效率的方式给译者和其他人民群众带来极大的便利,因此受到越来越多行业的关注。
国际上的计算机辅助翻译技术的研究成果显著,而国内CAT软件不论研究或教学都处于初期阶段。20世纪80年代的机器翻译工具发展迅猛[1],其仅能起到帮助译者理解原文的目的,不能产生理想的译文。近年来CAT技术取得不容小觑的成绩。CAT软件以人类为主体,并依靠计算机强大的存储能力和快速检索功能。CAT采用翻译记忆技术可减少译者的重复劳动,随着翻译记忆库的扩大可使译文质量逐步提高,不断累积用户译文和用户习惯最终达到CAT软件与用户之间良性循环。
汉维辅助翻译[2]研究至今,因汉维语言跨度大、语料库建设单位数量不够、语料库规模及质量不尽人意、综合性研究人员稀缺等问题影响其发展略显缓慢。但学者仍不断努力,如刘群对机器翻译技术及辅助翻译技术的发展趋势进行分析并提出自己的设想[3];麦热哈巴·艾力等对维汉词语对齐的机器翻译方法进行研究[4];吴小川等建设的汉维哈柯双语平行语料库加工处理系统对汉维CAT系统的发展具有重要作用[5];达瓦·伊德木草等研究基于实例统计翻译混合策略方法并实现汉维/维汉机器翻译[6];新疆多语种信息技术实验室自然语言处理小组和新疆电力信息通信公司合作完成的国家项目[7]采用多种机器翻译手段实现基于C/S版本的多语种辅助翻译系统。以上学者的努力与成果也在不断帮助和激励后继之人。
本系统使用基于实例、统计和记忆库相结合的混合策略方法,具有较高理论价值和经济价值。在面对日益扩展的语料库的压力时采用优化的信息检索技术,并根据同一篇文章有同一个主题的特点采用上下文相关问答技术,均使翻译准确率和译者工作效率有明显提高。系统采用基于统计、基于实例、基于记忆库方法的汉维方向BLUE值达0.292 4,0.299 9,0.292 2,维汉方向BLUE值达0.328 4,0.328 6,0.303 1。
1 系统关键模块分析
维吾尔语是一种黏着语、复杂形态语言,语言内容千变万化、丰富多彩。人们需要运用音系、词法、句法、语义、语用、语境、认知等综合知识理解自然语言。而当今计算机的智能化还并未达到人类的智能程度,把一种源语言利用机器翻译为人类理想的目标语言还需一定的努力。因此现今利用翻译记忆技术实现计算机辅助翻译系统是机器翻译的发展趋势。本系统是利用统计与实例的方法和翻译记忆技术设计而成,现今的CAT软件分类如表1所示。
目前国际上比较著名的CAT软件有TRANDOS,国内有雅信、朗瑞等。TRANDOS在2008年互联网调查显示其市场份额为80%,而这个数据到2014年则下降至70%。其主要原因是近年来大量的CAT软件的涌现抢占了TRADOS的市场份额。CAT软件一般具有翻译记忆、术语库管理、翻译项目管理、语料库加工与应用等一系列功能。本系統的架构图如图1所示。
1.1 预处理模块
在辅助翻译的预处理阶段,系统对用户上传的翻译文本首先识别语言,然后再进行分段、分句等处理。按照XML文件格式的标记,将源语言文件的页数、段数、行号存入数据库表中。
1.2 术语管理
术语管理是CAT软件的主要功能之一,由于每篇文章都包含无数个单词,因此编辑校对时要重点核对单词的前后一致性。比如在阅读译著时经常出现单词翻译不一致,严重影响译文质量,极大地阻碍读者的理解。为了解决上述困惑,CAT软件拥有一个术语管理模块用于规范专业术语,在翻译时,系统自动识别译者建立的专业术语库中对应的术语翻译。现阶段的翻译软件都有术语管理功能,术语库中的内容可以通过词典、CAT工具、手工等方式导入,有的软件可以直接手动或以Excel格式导人,而有的CAT软件则需要转化格式才可导人。本系统采用手动和词典两种形式管理术语库。
1.3 翻译记忆庫
TM技术[8]是CAT的核心技术,系统记忆库是一个日积月累的本地文件,系统初始化为空,随着用户和管理员的持续使用,通过调整、矫正译文,将原文和译文导入翻译记忆库使翻译记忆库的规模不断扩大,翻译的准确率也不断提高,从而建立起更加完善的系统记忆库。本系统创建记忆库是以句子或术语为单位,可以在项目翻译时对译文不理想的句子、术语、未登录词进行翻译,也可以在记忆库管理、术语管理功能新建用户记忆库或术语,设置源语言和目标语言,将句子、术语及对应译文等存入系统记忆库。
1.4 机器翻译
众所周知机器翻译按实现方法可分为基于规则、基于实例、基于统计的方法。
使用基于规则的方法因不同专业、描述粒度日益精细,维护和管理日益艰难,基于规则的机器翻译出现瓶颈。为了解决这一难题,基于实例的翻译方法应运而生,它将句子分割为单词、短语、子句等基本单位,对每个基本单位翻译时参考例句,将通过类推方法翻译的基本单位恰当地组成句子。紧随其后,学者们又提出一种基于统计的机器翻译方法,其基本单位也是短语,但对其不做任何语法处理,是任意连续的短语,然后根据翻译模型翻译每个短语,最后将翻译为目标语言的短语进行重排序。
现阶段,使用混合策略的机器翻译方法对提高译文质量有显著提高。本系统利用实例与统计相结合的方法,构建双语平行语料库、双语词典,并采用统计机器翻译技术,对汉维机器翻译的研究有极大的推动作用。
1.5 信息检索技术
在面对海量数据时信息检索技术[9]对检索结果有重要意义,随着日益扩展的CAT语料库,使用优化的检索技术对翻译准确率和译者的工作效率有进一步提高。显示反馈、隐式反馈和伪相关反馈是三类优化的信息检索技术,隐式反馈是指利用译者和CAT系统的交互信息推断用户的喜恶,达到优化语料库检索结果的目的。
系统主要对译者的隐式正反馈进行研究和实现。譬如,统计用户翻译的领域对其检索结果的排序具有重要意义,并能进一步提高系统的译者工作效率和翻译准确率,优化用户体验;统计译者与好友的交流频率可推断译者感兴趣的领域,系统首先判断好友的翻译领域,然后在译者翻译时将该领域语料库检索结果提供给译者参考,可进一步优化用户体验。
1.6 上下文问答
上下文问答作为信息检索的新技术受到越来越多专家学者的青睐[10],在CAT系统中,同一篇文章描述是同一个主题这点毋庸置疑,据此可以推出结论,译者在翻译同一篇文章时,系统对于句对和词对的翻译,可以重复使用部分上下文翻译信息。系统采用此技术可以使系统的翻译准确率和译者的工作效率有明显提高。
2 系统设计与实现
系统采用C#语言,使用SQL Server 2012数据库,B/S架构,整体结构适合于网络应用;由于对翻译质量要求较高,系统使用Web Service技术作为中间接口将翻译服务放在一个独立的翻译服务器上面;使用Bootstrap前端框架,简介灵活,在手机端也可正常使用;客户端可以适用于内存大于等于1 GB,2.4 GHz CPU以上配置硬件系统;适用于IE,Chrome等不同的浏览器;支持Linux和Windows操作系统;对网络宽带的要求适当,提供汉语、维吾尔语等不同的语言版本;支持网络上的合作翻译,彼此之间的交流方式简单、流畅。
2.1 系统流程
将doc,docx,txt等格式的源语言文档导入CAT系统,对文本进行分句处理(共N句),利用分词工具从第一个句子开始对每个句子进行分词,利用TM技术计算句子相似度,如果完全匹配,则直接输出第i个句子,否则,译者人工校对第i个句子的译文,并将该句子的译文存入翻译记忆库,输出该句子译文,直至第N个句子译文翻译完毕,输出目标语言文本,最后以doc,docx,txt等格式导出文本文档。CAT系统流程图如图2所示。
2.2 系统功能
本系统的主要功能设计如下:
(1) 具有多语言操作界面,根据维哈柯语言特点实现从右向左显示和输入的功能;
(2) 具有实例、词典和记忆库的翻译功能,用户可根据实际情况选择机器翻译方式,提供基于统计的翻译接口;
(3) 提供自动翻译和人工交互式翻译两种翻译功能;
(4) 用户可设置源语言类型、目标语言类型,支持一对多的翻译模式;
(5) 支持Word,txt等常见文档的读写功能,实现文档导入、导出和标记等操作;
(6) 支持自定义记忆库文件、术语库的创建、维护功能等。
2.3 系统数据库设计
系统主要数据可以分为单语语料库、双语语料库、术语词典、系统记忆库以及软件系统必要的配置数据等。系统建有项目信息、项目文件、文件段落、文件内容、文件用的记忆库、用户项目6个表,如表2、表3所示。另外考虑到数据的安全性和满足复杂的查询需求,系统建立用户项目、项目文件、文件内容、用户文件列表、句子的项目及文件等视图;由于存储过程可以提高程序执行速度、使程序模块化、减少网络通信量和保证系统的安全性,系统在删除临时翻译表内容时采用存储过程设计详细的数据库表。
表2属性依次表示项目编码(自动增加)、名称、描述、创建时间、项目的状态、创建者编码、项目开始时间、结束时间、最后编辑时间、源语言、目标语言。其中项目的状态表示为:0是新建、1是活动、2是完成、3是关闭、4是删除,活动状态可以转为关闭状态。
表3属性依次为文件编码(自动增加)、文件名称、文件类型、文件语言类型、原始文件服务器目录、开始时间、结束时间、最后编辑时间、项目编码、源语言、目标语言。其中文件类型为:0是txt文件、1是doc格式文档、2是docx格式文档、3是Unkown。
文件段落表属性依次表示文件中段落编码、段落所属文件编码、用户编码。文件内容表属性依次表示文件中的句子编码、句子是否文本、需要翻译的句子原文、翻译后的句子、句子开始位置、句子结束位置、句子中字符的字体、句子中字符的字体、字体大小、文本对齐方式、句子所属端编码。其中句子是否文本:0表示是、1表示否。文件用的记忆库表属性依次表示为文件用的记忆库编码(自动增加)、文件编码、记忆库编码。用户项目表属性依次表示为用户项目编码(自动增加)、用户编码、项目编码。
2.4 实验结果
本文从150万句的汉维双语平行语料库中随机抽取1 000条分别测试系统汉维和维汉方向的BLUE值,语料来源于新疆多语种信息技术实验室自然处理小组对新闻、法律、政府文献、对话等收集整理而得,测试结果如表4、表5所示。
2.5 系统实例展示
以新疆维吾尔自治区人民政府网站上一则新闻题目为《“一带一路”台商西部行考察团抵疆考察》的实例展示系统的使用过程。将下载的新闻存入doc文档,调整新闻的字体段落等格式。首先注册并登录CAT系统,新建项目,将整理好的新闻文档导入系统。
如图3所示,翻译界面分为左上、右上、左下、右下四部分。系统自动对文本进行分句处理,左上部分以句子为单位显示源语言文本,点击原文一条句子在左下部分显示该句子的目标语言译文,其翻译来源有基于统计、基于实例、基于记忆库三种方法的译文,若译文不理想译者可点击重翻译按钮校正译文,也可以点击使用按钮引用系统给出的译文,对于未登录词或翻译不准确的词语译者可以在右下角使用添加术语功能,将术语加入术语库。翻译结束后,可查看译文,也可导出目标语言文档。
3 结 语
本系统由新疆多语种信息技术实验室自然语言处理小组从2010年开始建立,在全体成员的不懈努力下,各司其职、紧密合作,历时5年之久,终于在2015年3月面向社会发布,供各界人士免费试用。
在本系统中,译者对机器翻译译文进行校正、删除,提高译文正确率。相对于机器翻译,CAT以人为主体,机器翻译辅助译者,可提高译文质量;与人工翻译相比,CAT大幅度提高翻译效率,并降低翻译成本;因此CAT软件是机器翻译和人工翻译的完美结合。
系统在未来的升级扩展中,将针对多语种扩展、语料库共享、记忆库扩充等方面做进一步的研究和开发,从而提供更高的翻译精确性、可靠性和易操作性。
参考文献
[1] PHILIPP K. Statistical machine translation [M]. Cambridge: Cambridge University Press, 2009.
[2] 吐尔根·依布拉音,袁保社.新疆少数民族语言文字信息处理研究与应用[J].中文信息学报,2011,25(6):149?156.
[3] 刘群.机器翻译技术现状与展望[J].集成技术,2012,1(1):48?54.
[4] 麦热哈巴·艾力,王志洋,吐尔根·依布拉音.一种提高维吾尔语?汉语词语对齐的方法研究[J].小型微型计算机系统,2012,33(11):2551?2555.
[5] 吴小川,吐尔根·依布拉音,艾山·吾买尔,等.汉维哈柯双语平行语料库加工处理系统的设计与实现[J].电脑知识与技术,2011,7(27):6680?6681.
[6] 達瓦·伊德木草,艾山·吾买尔.实例统计翻译混合策略的汉民病历翻译的研究[J].新疆大学学报(自然科学版),2015(1):68?73.
[7] 尼加提·纳吉米,席小刚,马斌,等.多语种辅助翻译系统研究与实现[J].电脑知识与技术,2012,8(2):345?350.
[8] 张建平,叶德峰.谷歌译者工具包辅助下的有色金属科技论文摘要英译[J].中国钨业,2012(5):40?43.
[9] MANNING C D, RAGHAVAN P, SCHUTZE H. An introduction to information retrieval [M]. Cambridge: Cambridge University press, 2009.
[10] 王东升,王石,王卫民,等.基于本体和语义文法的上下文相关问答[J].中文信息学报,2016,30(2):142?152.