标题 | 计算机辅助口译可行性推理及逻辑假设 |
范文 | 【摘要】通过对机器翻译和语音识别等相关知识的梳理和论述,在计算机辅助笔译的基础上提出计算机辅助口译模型并进行可行性推理及逻辑验证,尝试为今后的计算机辅助口译系统建设提供借鉴。 【关键词】机器翻译;机器口译;计算机辅助口译 【作者简介】夏宁(1995-),男,河北大学,硕士研究生,研究方向:计算机辅助翻译。 【基金项目】2018河北省研究生创新资助项目:十九大关键词中英文对照术语库建设及应用研究,课题编号:CXZZSS2018007。一、计算机辅助翻译的产生及发展概况 利用机器进行翻译的想法出现在计算机产生之前,早在17世纪,莱布尼茨提出利用统一符号表示不同语言相同含义的方法,编写以数字符号为基础的词典,这就是早期的机器翻译思想:解码编码解码(朱志强,2015)。1933年前苏联科学家特罗扬斯基向苏联科学院展示了一个简单简陋的翻譯机器—本质上为一台具有翻译功能的打字机,并于同年9月5日登记此项发明(冯志伟,1984)。1954年1月7日,IBM公司和美国乔治敦大学共同研发的IBM 701 计算机将俄语句子全自动翻译成英语句子,完成了历史上首次机器翻译试验。(靳海林,1987)由此可见,机器翻译比计算机翻译概念涵盖范围更广,机器翻译是指人类借助包括电子计算机在内的由各种金属和非金属部件组装成的装置进行自动翻译的活动,而计算机翻译则是指人类利用电子技术和相关原理根据一系列指令来对文本数据进行自动翻译的活动。 1956年中国政府将计算机翻译技术纳入全国科学工作发展规划,并立项“机器翻译、自然语言翻译规则的建设和自然语言的数学理论”(注:出自超星慕课—机器翻译的历史回顾与现状分析,主讲冯志伟,慕课地址为mooc.chaoxing.com/course/37755.html)。1966年11月,美国科学院自动语言处理咨询委员会发布报告《语言和机器》,声称计算机翻译花费大用处小,计算机翻译研究暂时进入缓慢发展期(柯平,1995)。但机器翻译的研究并没有停滞不前,随着语言学理论不断推陈出新和信息技术的日新月异,计算机翻译研究在20世纪80年代迎来再次发展期。1990年在芬兰赫尔辛基召开的第13 届国际计算语言学大会开启了基于大规模语料库的统计自然语言处理的新时代,并催生了影响至今的统计机器翻译模型(孙茂松,周建设,2016)。21世纪以来,计算机翻译研究不断取得新进展,互联网普及,经济全球化加速,计算机翻译的便捷高效受到越来越多使用者的认可。2016年9月27日,谷歌发布谷歌神经网络翻译,该技术与谷歌已经投入生产的基于短语的翻译模型相比误差降低了50%,标志着计算机翻译进入大发展时期(谷歌,2016)。 另一方面随着计算机翻译受挫,计算机辅助翻译应运而生。计算机辅助翻译思想源于20世纪70年代提出的“翻译记忆”概念,是翻译材料电子化后的一种翻译技术。计算机辅助翻译源于计算机翻译,但区别于前者。计算机翻译为自动化翻译,可不通过人为干涉形成译文,计算机辅助翻译则是利用双语语料库进行重复文本的模糊匹配并通过术语库进行专业词汇翻译和词汇的全文统一。计算机辅助翻译与计算机翻译的最大区别在于计算机翻译的最终译文是翻译自动化的结果,而计算机辅助翻译的最终译文需要人工补足和完善。参照《计算机辅助翻译》(钱多秀,2011)和《机器翻译简明教程》(李正栓,孟俊茂,2009),得出如下表格: 1.计算机口译发展现状与市场需求。从20世纪80年代中后期开始,随着语音识别和信息技术水平的不断提高,计算机口译研究呈现迅速发展趋势。为实现再造巴别塔的梦想,IBM、谷歌、微软、百度、科大讯飞等国内外科研巨头在计算机翻译之路上不断探索。1993-2000年德国主导研发Verbmobil免提式双向移动多语对话翻译系统,该系统可处理德、英、日三语之间的商务对话,对话翻译成功率达90%。IBM于2006年发布可识别、翻译50000多英文单词和100000阿拉伯语单词的MASTOR多语种自动语音翻译机。2012年,微软发布基于深度神经网络计算的统计机器翻译,使即时语音翻译达到商用标准。2015年1月基于安卓系统的谷歌实时语音翻译系统上线。2018年4月20日,科大讯飞翻译器2.0发布,声称翻译准确率高达95%并成为博鳌亚洲论坛指定翻译机。但此类系统大多针对特定垂直领域,针对日常会话的大范围计算机口译尚未成熟。2018年博鳌亚洲论坛,腾讯AI同传遭遇滑铁卢。2018年创新与新兴产业发展国际会议科大讯飞计算机口译被指造假,官方后续声明中特别强调是一场误会,是人机耦合的效果。 不论2018年创新与新兴产业发展国际会议科大讯飞计算机口译失败与否,在官方的人机耦合解释中,看到的是口译活动离不开人的辅助,而这也从侧面佐证了计算机辅助口译的可行性和必要性。口译对译员的瞬间记忆是极大的考验,口译速记也因此成为最重要的基本口译技能之一。在理想的计算机辅助口译系统中,译员可以获得源语文本,甚至是基于源语文本的关键词,平行术语和参考译文。 2.口译市场面临的问题。新兴产业不断产生发展,根据中华人民共和国国家发展和改革委员会《战略性新兴产业重点产品和服务指导目录》,新兴产业可分为5大领域,8大产业,40个重点方向,174个子方向,近4000项细分产品和服务。对面如此多的新兴产业,口译员在从事口译活动时,对专业领域整体了解度,对产业熟悉度,对专业词汇掌握度都是件不易之事。口译现场尤其是同声传译现场留给口译员思考查询的时间几乎为零,即使是最优秀口译译员,如果没有前期的大量行业知识储备也无法胜任一场接一场的不同领域口译活动。此外翻译现场,口译员神经高度紧张,压力大,分神丝毫都会导致漏译,错译。 口译活动较笔译活动来说,灵活多变,即时性强,受现场环境影响大,各种言外信息和副语信息都将成为计算机在执行翻译过程中的阻碍。根据奥斯丁提出的言语行为理论(注:言内行为:是说出词、短语和分句的行为,它是通过句法、词汇和音位来表达字面意义的行为。言外行为:表达说话者的意图的行为,它是在说某些话时所实施的行为。言后行为:是通过某些话所实施的行为,或讲某些话所导致的行为,它是话语所产生的后果或所引起的变化,它是通过讲某些话所完成的行为。)一句话通过句法,词汇和音位表达出来的字面意义与说话者真正的意图并不一致,语言的理解需要人脑通过以往的言语经验对说话人意图进行猜测推断,计算机口译目前能做到的只是对言内行为的理解。面对瞬息万变的口译现场,充分理解讲话者的会话含义,仅仅依靠机器的语义分析是远远不够的,自然语言中存在的歧义和未知现象于机器翻译一直是难以克服的障碍。三、计算机辅助口译 1.计算机辅助口译可行性推理。本文涉及的计算机辅助口译目前可供查阅的相关文献较少,仅有《计算机辅助英译汉口译实证研究》、《语音数字识别辅助汉英交传探究》、《试析计算机辅助工具在口译中的应用》等。计算机辅助口译是基于计算机辅助笔译提出的一项计算机辅助人工口译的思路,在理想的计算机辅助口译系统中,口译员能够及时获得源语文本信息和参考信息并开展口译活动。 计算机辅助翻译源于传统的机器翻译,因增添人为翻译校对过程,一定程度上弥补了全自动机器翻译的缺点,同时与人工翻译相比,计算机辅助翻译在提高翻译效率,减少翻译错误,统一上下文术语名词等方面有着不可代替的优点。传统的计算机辅助笔译系统依靠大量的双语平行语料库库和双语术语库工作,而计算机辅助口译与计算机辅助翻译的不同之处在于增添语音识别模块,将源语文本或是根据一定规则提取的核心口译笔记以及术语通过一定手段提供给译员进行参考。 2.现有语音技术分析。传统的语音翻译系统由自动语音识别器,机器翻译引擎和语音合成器三大部分组成,其中,语音识别是机器口译和计算机辅助口译的首要部分,也是基础部分。贝尔实验室于1952年成功研制成了世界上第一个语音识别系统,虽然只能识别十个英文数字但却成为语音识别的开端。语音识别率涉及诸多方面,如词汇长短,自然语言的自然度和流畅度,话语人的口音和讲话特点等。语音识别的准确率是目前计算机语音翻译的关键一环。理想状态下,在语音识别率100%的语音翻译系统中,语音内容的翻译准确率与笔译准确率无异。目前,我国的科大讯飞语音识别技术位居世界前列,在2018年6月12日的科大讯飞讯飞输入法产品经理宣布其汉语识别准确率已提升到98%,识别速度达每分钟400字,此数字远大于一般状态下每分钟200字左右的语速。 3.流程分析。源语音频通过听筒等音频采集器进入系统,通过降噪过滤等手段将纯净的源语音频进行语音识别。语音识别全过程不需要人工参与,通过识别初步得到源语文本,此时的源语文本可通过系统直接提供给口译员进行参考,或是进行二次处理,得到预翻译译文、双语术语文本和根据一定规则编写的源语笔记。译员结合自身听取获得的文本信息和系统提供的信息开展口译活动。双语术语文本基于已经存在系统中的术语库,在系统得到源语文本后自动在双术语库中进行检索匹配,得到初步匹配的模糊术语文本并在此根据术语进行翻译或者双语术语检索。如图-1所示: 根据设想,整个系统基于云计算,由远程服务器进行数据统计分析,译员译文音频也将同步更新到远程服务器中,为今后的计算机辅助口译和计算机口译的机器学习提供训练数据。整体流程如下图-2所示: 計算机口译在2018年备受关注,但无论是机器口译还是计算机辅助口译都是为了降低口译市场准入门槛,降低生产成本,促进生产力发展,译员不会被取代,但译员会借助信息化手段,摆脱劳动负担,提高劳动效率。本文仅是对计算机翻译和语音识别相关知识进行梳理和论述,提出计算机辅助口译的逻辑假设并进行初步可行性推理,更深层次的问题如技术层面的具体操作,译员在口译现场对听力和信息的分析、记忆、语言表达、协调以及增加的计算机辅助口译提供的文本参考之间的精力分配,以及有无计算机辅助对口译活动的影响和译文评价等方面都需要更深入的研究。 参考文献: [1]Dan Jurafsky, James H. Martin. Speech and Language Processing[M]. Prentice Hall,2008:241-281. [2]J. L. Austin. How to Do Things with Words[M]. Oxford: The Clarendon Press,1962. [3]Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, Jeff Klingner, Apurva Shah, Melvin Johnson, Xiaobing Liu, ?ukasz Kaiser, Stephan Gouws, Yoshikiyo Kato, Taku Kudo, Hideto Kazawa, Keith Stevens, George Kurian, Nishant Patil, Wei Wang, Cliff Young, Jason Smith, Jason Riesa, Alex Rudnick, Oriol Vinyals, Greg Corrado, Macduff Hughes, Jeffrey Dean. Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation[J]. Technical Report,2016. [4]冯志伟.机器翻译的历史回顾与现状分析[OL]. http: // mooc.chaoxing.com/course/37755.html. [5]冯志伟.机器翻译的历史和现状[J].国外自动化,1984(04):36-38. [6]靳海林.机器翻译的历史与展望[J].中国翻译,1987(05):33-35. [7]柯平.欧美的机器翻译[J].中国翻译,1995(02):47-48. [8]李正栓,孟俊茂.机器翻译简明教程[M].上海外语教育出版社, 2009:224-233. [9]林小木.计算机辅助英译汉口译实证研究[D].山东师范大学, 2013:1-9. [10]钱多秀.计算机辅助翻译[M].外语教学与研究出版社,2011:1-26 [11]孙茂松,周建设. 从机器翻译历程看自然语言处理研究的发展策略[J].语言战略研究,2016(06):12-18. [12]宗成庆.统计自然语言处理[M].清华大学出版社,2013:399-413. [13]朱志强. 语音数字识别辅助汉英交传探究[D].北京外国语大学, 2015:3-7. [14]中华人民共和国国家发展和改革委员会[J].战略性新兴产业重点产品和服务指导目录,2017. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。