蒙汉机器翻译中数词自动翻译的研讨
【摘要】随着我国现代经济及科技的不断发展,计算机技术作为新兴技术在自然语言信息处理方面已经得到了广泛应用,计算机技术在语言信息处理方面可设计相关系统实现对蒙古文数词的自动识别与翻译。本文主要以蒙汉机器翻译为研究背景,对其在数词自动翻译系统及应用结果方面进行相关探究,实现对蒙汉统计机器翻译的完善性研究,促进机器翻译性能的提升。
【关键词】蒙汉机器翻译;数词;自动翻译
目前,随着现代计算机技术的完善性发展,蒙汉机器翻译的发展及应用已逐渐趋于成熟,成为人们应用最广泛的机器翻译方法。在统计机器翻译方面,国外已有大量的理论及技术研究基础,因此,我国在进行蒙汉机器翻译研究的过程中可借鉴相关理论及技术基础,从而实现对该方法的有效研究。但是,由于蒙古语语言自身具有一定的多变性及复杂性,从而导致蒙汉机器翻译在研究中仍存在一系列问题亟待解决。
1.蒙汉机器翻译中数词自动翻译特点
1.1语言类型复杂性 从语言学角度上来看,汉语与蒙语属不同语系,二者语言特征及形态特征等均存在较大的差异性,故蒙汉机器翻译数词自动翻译在研究中若采用传统研究思路则难以实现数词有效翻译;除此之外,蒙语形态的复杂性主要表现在数词的变形,该语种变形最多可达上百种,但汉语的词语形态及语法等多无形态变化,故在机器翻译中会出现大量未登录词,难以实现语言的完善及有效翻译[1]。
1.2语言资源缺乏 现阶段,在应用社会中常用的统计机器翻译方法时,需要大量语言资源对其进行支持,如在应用NIST机器翻译测评时,其可提供的相关双语语料库规模可达1000万句对,故平行语料库规模较小,难以满足系统翻译需求,从而影响翻译效果。
2.蒙汉数词自动翻译程序设计
数词具有多表现形式,属开放性集合,在蒙汉双语语料库中数词形式具有相对不完善性,导致蒙汉翻译译文中多现未登录数词。由于蒙古数词的多表现性,真实文本中数词除了以蒙古文形式表现外,还会以多种形式如阿拉伯数字等出现,因此蒙汉机器在翻译时因其自身的局限性,难以对所有数词进行准确翻译。针对此类问题,本文主要对蒙汉数词自动翻译程序进行完善性设计与改善,提升翻译效果。蒙汉数词自动识别及翻译程序主要通过C语言实现,该程序在具体应用中能够以词性准确切分蒙古文拉丁形式,并能够对蒙古文数词及部分时间词等相关资料进行准确性识别,在此基础上实现自动翻译,蒙古文中数词多现词格变化,多表示事物数量或替代事物,故在对数词进行准确性识别时,必须先对其词缀进行切分,后对相关词语进行识别,在此过程中,若对序数词及分数词进行识别时,需合理应用各信息,实现正确识别,故在对词缀切分功能进行设置时,需在序数词及分数词识别后才可设置。 蒙汉数词自动翻译程序在设置时主要可分为时间词及翻译两个模块,其中,数词翻译模块可分为基数词、序数词、集合数词、概数词、次数、分数词、分配数词及语法特征8个模块,各模块均具有自动识别及翻译功能。在数词翻译程序中,各程序按数词类别区分为8个不同的模块,但各模块均为数词模块程序,具有一定的关联性,如部分分数词翻译模块应用时还需与基数词模块配合使用,根据相关研究可知,在相关翻译模块应用中,基数词模块该模块应用的基础;时间词翻译模块在应用时可分为3个小模块,分别为表示年份、表示月份及表示其他时间的数词翻译模块,若在应用时间词翻译模块时,其数词均由左向右逐字翻译且按相关规则对其翻译结果进行修改,这样能够保证翻译结果的准确性及有效性。
3.蒙汉数词自动翻译程序应用及结果研究
3.1程序应用 3.1.1开源工具。在对相关数据进行处理时,可采用蒙汉数词自动翻译模块进行处理与操作。在训练时,可将相关训练集、开发集及测试集等蒙古文进行大小写转化,展开缩略数词,开源解码器可选择Moses进行操作解码并对相关参数特征进行融合。3.1.2实验数据。本文研究所应用实验语料蒙汉平行语言为6.7万句对,取14万汉语句子用于语言模型训练,测试集取500句对蒙汉平行语料,数词及时间词句子共70条,语料均不重复,本次研究中所取蒙古文均对应不同专业翻译人员汉语翻译译文,可保证其相关准确性。3.1.3系统应用步骤。蒙汉数词自动翻译程序在蒙汉统计机器翻译后处理应用中,对未登录数词进行翻译可以提升翻译性能。先采用统计机器翻译系统实现对蒙古文源文的翻译,后在本文设计的相关基础程序之上实现对译文未登录数词的识别及翻译。3.1.4语料库预处理。在进行系统应用及相关语料库处理时,为保证相关测评质量,首先需对语料库进行相关预处理,其中主要包含蒙古文及汉语两部分语料库处理内容,其方法可采用大小写转换、双重格形态切分等。3.1.5解码。解码主要是对上述翻译中所得到的模型进行选择,其选择依据主要以最高得分为主,这一程序具有相对应用困难性,在对相关句子及数词进行翻译时,首先需找出相关数词进行翻译,在此基础上依照语言模型对其进行调试,最终得出概率最高翻译句子。3.1.6结果。在本次研究中,采用层次短语4-gram语言模型对相关源文进行翻译,然后在统计机器翻译的基础上得到译文,该译文中6个未登录数词,针对该数词可对程序翻译及原译文比较可知蒙汉数词自动翻译程序翻译未登录数词后期NIST测评值提升0.0318,BLUE提升0.0037,BLUE-SBP提升0.0018,且根据研究可知,在翻译中,其源文数词比例越大,提升效果越明显,故采用该程序可有效提升翻译效果,增强翻译准确性。
结束语
综上所述,蒙汉机器翻译作为应用广泛的翻译方法在我国蒙汉语言翻译中具有非常重要的作用,但就现阶段而言,由于蒙古文自身的特殊性、复杂性以及蒙汉统计机器翻译的缺陷性,导致蒙汉机器翻译准确性较低。针对此类问题,相关人员可借鉴语言学知识,在此基础上采用现代计算机技术实现对蒙汉机器翻译数词自动翻译系统的研究,不断改善机器翻译性能,提升翻译准确性。
参考文献
[1]乌日力嘎.西里尔蒙古文—汉文机器翻译系统的实现[D].内蒙古大学,2015.
作者简介
牛其其日乐格(1989.3)女,籍贯:黑龙江省大庆市杜尔伯特蒙古族自治县,现职称:翻译助级,学历:本科,研究方向:中国少数民族(蒙古)语言文学。