海量互联网数据中英语翻译术语高效搜索系统设计
罗霞
摘 要: 针对海量的互联网数据经常产生翻译歧义的问题,设计英语翻译术语高效搜索系统。所设计系统的工作模型从海量互联网数据中收集英语翻译术语,搜索模型构造映射线程来剖析目标英语翻译术语的基本概念和学科范围,通过搜索链接来驱动工作模型进行搜索。工作模型分5条路径采集搜索结果中英语翻译术语的结构特征,提取相关比率高的结果并存储于搜索链接中,将相似度小的搜索结果排列在搜索链接前端,反馈给搜索模型供用户查看。实验测评显示,系统的查全率和查准率等级很高,也可保证搜索效率。
关键词: 海量互联网数据; 英语翻译; 术语; 高效搜索
中图分类号: TN911?34; TP391.3 文献标识码: A 文章编号: 1004?373X(2017)13?0134?03
Abstract: Since the massive Internet data often produces the translation ambiguity, the English translation term efficient search system was designed. The working model of the designed system collects the English translation term in the massive Internet data. The mapping thread is constructed with search model to analyze the basic concept and subject scope of the target English translation term. The working model is driven by search link for search. Five paths are divided in the working model to acquire the structure feature of the English translation term in search results. The result with high correction ratio is extracted, and stored in the search link. The search result with low similarity is arranged in the front end of search link, and feed back to the search model for user viewing. The experimental evaluation results show that the recall ratio and precision ratio of the system are both high, and can ensure the search efficiency.
Keywords: massive Internet data; English translation; term; efficient search
科学技术的日益发展带来了海量的专业术语,国际间多领域的沟通离不开英语翻译,英语翻译术语使用越发频繁。专业术语在日常生活中并不常用,术语数量每天都在不断增加,专业的英语翻译人员也无法完全掌握术语释义,因此,逐渐产生了英语翻译术语高效搜索系统,这种系统合理利用了互联网数据,适合专业翻译和普通人群使用。海量的互联网数据是动态的,数据结构和评价标准欠缺,数据杂乱无章,经常产生术语翻译歧义,英语翻译术语高效搜索系统的设计难点在于如何提高系统查全率及查准率等级。
1 海量互联网数据中英语翻译术语高效搜索系
统结构设计
英语翻译术语高效搜索系统并非直接在互联网数据中进行搜索,而是当用户输入一个目标英语翻译术语后,系统自动向海量互联网数据集群中发送搜索指令,采集目标英语翻译术语特征,通过特殊方式在集群中匹配到目标英语翻译术语,一般来讲,含有目标英语翻译术语的有效互联网数据都会被显示在系统页面上。对显示内容进行筛选,选择一些数据之间相似度[1]低且相关比率[2]高的搜索结果输出。相似度和相关比率的计算公式如下:
避免产生术语翻译歧义的前提是构造一个工作模型,对英语翻译术语特征进行高精度采集,要求必须时刻保持工作模型的高效处理能力。此外,还需重点构造一个搜索模型,要求搜索模型的更新能力强,易于维护[3]。图1是设计的英语翻译术语高效搜索系统组成,系统由用户模块、互联网机器翻译模块、工作模型和搜索模型组成,4个模块的工作数据统一生成行为日志,供开发者查看和分析,以维护系统功能。
系统的互联网机器翻译模块接入互联网,按照网页中URL(Uniform Resource Locator,统一资源定位器)[4]的指引方向,以蜘蛛式延伸到其他网页,从海量互联网数据中收集英语翻译术语,存储到工作模型中。以上介绍的是系统前期准备过程,当用户通过用户模块登录到系统中搜索英语翻译术语时,搜索模型向互联网机器翻译模块发送搜索指令,互联网机器翻译模块建立搜索链接传给工作模型。工作模型对收集到的英语翻译术语进行解释,剖析术语结构特征,提取相关比率高的互联网数据并按照相似度进行排序,将相似度小的搜索结果排列在前端,并存储到搜索链接中,反馈给搜索模型供用户查看。
2 工作模型介绍
设计的英语翻译术语高效搜索系统的工作模型负责进行海量互联网数据加工,模型分5条路径采集英语翻译术語结构特征,如图2所示。
由图2可知,每条互联网数据都会经历5次采集,最终得到最具代表性的英语翻译术语搜索结果。为满足系统的高效搜索能力,5次采集过程同时进行,将5次采集结果汇总在一起进行去重,只保留一个重复结果,在权重比例最大的采集路径上输出[5]。再对比目标英语翻译术语的语境给出搜索结果。
前4条采集路径通过查阅互联网上的专业英语翻译文献、整合内部知识和外部知识,对数据结构特征进行挖掘,第5条采集路径给出的数据结构特征则完全由内部知识决定。内部知识指专业术语发源地给定的参考释义,这种释义受到地域、文化和专业差异的约束,并非百分百准确,但能够指引英语翻译方向[6]。外部知识指专业的英语翻译人员给出的参考释义,考虑到英语翻译人员对专业术语的领域知识储备不多,外部知识的指导性不及内部知识,错误率稍高一些[7]。各条采集路径对英语翻译术语的指导性排列顺序为:
根据指导性排列顺序确定每条采集路径的数据结构特征权重,设总权重为1,那么第1条采集路径的权重最大,为0.4,第4条为0.35,第2条为0.15,第3条和第5条的权重均为0.1。
3 搜索模型介绍
搜索模型的主要作用是剖析用户自然语言的结构特征,提纯出术语的基本概念和学科范围,模拟人脑记忆保留方式,不断维护、更新结构特征,必要时可采用逻辑分析技术。搜索模型结构如图3所示。
设计的英语翻译术语高效搜索系统以用户要求为导向,用户要求涵盖在用户输入的自然语言中,用户输入何种自然语言结构,系统反馈给用户的大部分搜索结果就是何种结构,这与系统进行的相关比率计算有关。进行目标英语翻译术语特征提取时,搜索模型将构造一个映射线程,分析目标英语翻译术语表达的基本概念和学科范围。可见,搜索模型的映射线程为一个一对多线程,线程上的每一个映射点都坐落在目标英语翻译术语的学科范围之上,与基本概念相近的学科也连接在线程上,可避免因用户自然语言表述不清晰而不能输出标准搜索结果[7]。映射线程要表达出目标英语翻译术语的词性,名词与名词对应,动词与动词对应,以此类推。
映射线程将目标英语翻译术语的基本概念和学科范围混合显示,对结构特征表述不清楚,搜索模型构造语料库进行映射点分类和分层,父节点为顶点,表述特征类别,按照相关比率向下依次连接子节点[8]。分析父、子节点的范化特征矢量,对特征进行聚类,获取目标英语翻译术语想要表达的基本概念和学科范围,给出搜索指令。
指令扩展并非搜索模型的必经处理步骤,在图3中用虚线表示。如果一次搜索的搜索结果没能给出用户满意答案,用户行为倾向于进行二次搜索。当行为日志监测到用户有连续两次或两次以上的相同术语搜索行为,系统自动扩大映射线程映射点范围,给予用户不同种类的搜索结果。
4 实 验
4.1 实验步骤介绍
在如图4所示的某高校大型计算机实验室中,依次对本文英语翻译术语高效搜索系统的查全率和查准率进行测评,查全率体现出的是在特定数据集群中,搜索系统与海量互联网数据中对目标英语术语的搜索效果,查准率用于衡量搜索结果的重复率。由于在查全率的测评中需要考虑响应时间,因此查全率也间接表述了系统搜索效率。
实验先使用2个互联网搜索引擎(百度和谷歌)搜索英语术语,目标英语术语包括金融、计算机网络、医学和体育四个领域的485个专用术语,为节省实验时间,不采用人工输入目标英语术语的方法进行实验,而是通过Java语言编写一个自动输入程序。百度和谷歌引擎对每项英语术语的搜索结果都达到上千甚至上万条,将搜索结果组成海量互联网数据集群,在此环境下进行实验。
对本文搜索系统、Web垂直优化搜索系统和邻域搜索系统进行初始化,在海量互联网数据集群中搜索上文中的485个专用术语,获取三个搜索系统的响应时间、搜索结果数量、漏选结果数量和搜索结果重复率等项目,测评本文搜索系统的有效性。
4.2 结果与讨论
实验前分析用户行为习惯,得知用户在使用搜索系统时通常只查看前几页的搜索结果,因此实验采用Java语言编写一个自动求取平均值的程序,对本文搜索系统、Web垂直优化搜索系统和邻域搜索系统的前15页英语术语搜索结果进行统计,搜索结果统计表见表1。
搜索结果中的重复结果和漏选结果在原则上都是不容许存在的,但在海量互联网数据集群中,重复结果之间也存在一定的数据结构特征差异,想要完全排除重复结果是不可能的,只能极度缩减。如表1所示,Web垂直优化搜索系统虽然无漏选,但重复结果过多,查全率高、查准率低。邻域搜索系统的查全率和查准率均比较中庸。本文搜索系统的重复结果比例为1%,无漏选现象,查全率和查准率整体等级偏高,但确切结论仍不能给出,因为表1中响应时间和重复结果的数据过于笼统,为保证测评结果的有效性,将响应时间利用计算机仿真手段进行图表绘制,输出如图5所示的单项响应时间仿真结果。结合表1和图5能够明显看出,本文搜索系统的响应时间最短,搜索效率高,提高了系统的查全率等级。
通过相关比例分析法统计出前30条搜索结果的相似度和相关比率,如表2所示,可以看出,本文搜索系统的前30条搜索结果相似度最低、相关比率最高,提高了系统的查准率等级。
综上所述,本文搜索系统搜索结果的有效性最好,查全率和查准率等级很高,并可保证系统的搜索效率。
5 结 论
本文设计的英语翻译术语高效搜索系统包括用户模块、互联网机器翻译模块、工作模型和搜索模型,要求工作模型能够进行高精度的海量互联网数据采集和高效搜索,搜索模型具备更新能力强且易于维护的优势。使用Java语言编写实验测评程序,实验结果显示,从查全率、查准率和搜索效率来看,本文系统的搜索结果均有效。
参考文献
[1] 张弘弦,田玉玲.Web垂直搜索引擎实现过程的研究[J].现代电子技术,2016,39(8):55?59.
[2] 郭猛,胡秀香,邵国金,等.混合语义相似度计算优化模糊查询的智能信息检索算法[J].科学技术与工程,2014,14(23):97?102.
[3] 戴圣法,魏庆国,魏中海.基于回溯搜索算法的导联选择脑机接口研究[J].现代电子技术,2016,39(13):10?14.
[4] 冯爱芬.基于模式搜索方法的解不等式约束优化问题的算法设计[J].科技通报,2016,32(5):5?10.
[5] 吴彪,陈南.基于模式搜索的自适应干扰抵消器算法的研究[J].计算机测量与控制,2016,24(2):235?238.
[6] 王琳,刘伍颖,梁晓波.英汉双向哲学社科术语词典系統设计与实现[J].中国科技术语,2014,16(2):18?21.
[7] 贾瑞玉,马文华.基于邻域搜索的改进最大最小蚁群算法[J].计算机仿真,2014,31(12):261?264.
[8] 任雪婷,贺兴时.一种改进的粒子群与差分进化混合算法[J].西安工程大学学报,2016,30(3):380?387.
摘 要: 针对海量的互联网数据经常产生翻译歧义的问题,设计英语翻译术语高效搜索系统。所设计系统的工作模型从海量互联网数据中收集英语翻译术语,搜索模型构造映射线程来剖析目标英语翻译术语的基本概念和学科范围,通过搜索链接来驱动工作模型进行搜索。工作模型分5条路径采集搜索结果中英语翻译术语的结构特征,提取相关比率高的结果并存储于搜索链接中,将相似度小的搜索结果排列在搜索链接前端,反馈给搜索模型供用户查看。实验测评显示,系统的查全率和查准率等级很高,也可保证搜索效率。
关键词: 海量互联网数据; 英语翻译; 术语; 高效搜索
中图分类号: TN911?34; TP391.3 文献标识码: A 文章编号: 1004?373X(2017)13?0134?03
Abstract: Since the massive Internet data often produces the translation ambiguity, the English translation term efficient search system was designed. The working model of the designed system collects the English translation term in the massive Internet data. The mapping thread is constructed with search model to analyze the basic concept and subject scope of the target English translation term. The working model is driven by search link for search. Five paths are divided in the working model to acquire the structure feature of the English translation term in search results. The result with high correction ratio is extracted, and stored in the search link. The search result with low similarity is arranged in the front end of search link, and feed back to the search model for user viewing. The experimental evaluation results show that the recall ratio and precision ratio of the system are both high, and can ensure the search efficiency.
Keywords: massive Internet data; English translation; term; efficient search
科学技术的日益发展带来了海量的专业术语,国际间多领域的沟通离不开英语翻译,英语翻译术语使用越发频繁。专业术语在日常生活中并不常用,术语数量每天都在不断增加,专业的英语翻译人员也无法完全掌握术语释义,因此,逐渐产生了英语翻译术语高效搜索系统,这种系统合理利用了互联网数据,适合专业翻译和普通人群使用。海量的互联网数据是动态的,数据结构和评价标准欠缺,数据杂乱无章,经常产生术语翻译歧义,英语翻译术语高效搜索系统的设计难点在于如何提高系统查全率及查准率等级。
1 海量互联网数据中英语翻译术语高效搜索系
统结构设计
英语翻译术语高效搜索系统并非直接在互联网数据中进行搜索,而是当用户输入一个目标英语翻译术语后,系统自动向海量互联网数据集群中发送搜索指令,采集目标英语翻译术语特征,通过特殊方式在集群中匹配到目标英语翻译术语,一般来讲,含有目标英语翻译术语的有效互联网数据都会被显示在系统页面上。对显示内容进行筛选,选择一些数据之间相似度[1]低且相关比率[2]高的搜索结果输出。相似度和相关比率的计算公式如下:
避免产生术语翻译歧义的前提是构造一个工作模型,对英语翻译术语特征进行高精度采集,要求必须时刻保持工作模型的高效处理能力。此外,还需重点构造一个搜索模型,要求搜索模型的更新能力强,易于维护[3]。图1是设计的英语翻译术语高效搜索系统组成,系统由用户模块、互联网机器翻译模块、工作模型和搜索模型组成,4个模块的工作数据统一生成行为日志,供开发者查看和分析,以维护系统功能。
系统的互联网机器翻译模块接入互联网,按照网页中URL(Uniform Resource Locator,统一资源定位器)[4]的指引方向,以蜘蛛式延伸到其他网页,从海量互联网数据中收集英语翻译术语,存储到工作模型中。以上介绍的是系统前期准备过程,当用户通过用户模块登录到系统中搜索英语翻译术语时,搜索模型向互联网机器翻译模块发送搜索指令,互联网机器翻译模块建立搜索链接传给工作模型。工作模型对收集到的英语翻译术语进行解释,剖析术语结构特征,提取相关比率高的互联网数据并按照相似度进行排序,将相似度小的搜索结果排列在前端,并存储到搜索链接中,反馈给搜索模型供用户查看。
2 工作模型介绍
设计的英语翻译术语高效搜索系统的工作模型负责进行海量互联网数据加工,模型分5条路径采集英语翻译术語结构特征,如图2所示。
由图2可知,每条互联网数据都会经历5次采集,最终得到最具代表性的英语翻译术语搜索结果。为满足系统的高效搜索能力,5次采集过程同时进行,将5次采集结果汇总在一起进行去重,只保留一个重复结果,在权重比例最大的采集路径上输出[5]。再对比目标英语翻译术语的语境给出搜索结果。
前4条采集路径通过查阅互联网上的专业英语翻译文献、整合内部知识和外部知识,对数据结构特征进行挖掘,第5条采集路径给出的数据结构特征则完全由内部知识决定。内部知识指专业术语发源地给定的参考释义,这种释义受到地域、文化和专业差异的约束,并非百分百准确,但能够指引英语翻译方向[6]。外部知识指专业的英语翻译人员给出的参考释义,考虑到英语翻译人员对专业术语的领域知识储备不多,外部知识的指导性不及内部知识,错误率稍高一些[7]。各条采集路径对英语翻译术语的指导性排列顺序为:
根据指导性排列顺序确定每条采集路径的数据结构特征权重,设总权重为1,那么第1条采集路径的权重最大,为0.4,第4条为0.35,第2条为0.15,第3条和第5条的权重均为0.1。
3 搜索模型介绍
搜索模型的主要作用是剖析用户自然语言的结构特征,提纯出术语的基本概念和学科范围,模拟人脑记忆保留方式,不断维护、更新结构特征,必要时可采用逻辑分析技术。搜索模型结构如图3所示。
设计的英语翻译术语高效搜索系统以用户要求为导向,用户要求涵盖在用户输入的自然语言中,用户输入何种自然语言结构,系统反馈给用户的大部分搜索结果就是何种结构,这与系统进行的相关比率计算有关。进行目标英语翻译术语特征提取时,搜索模型将构造一个映射线程,分析目标英语翻译术语表达的基本概念和学科范围。可见,搜索模型的映射线程为一个一对多线程,线程上的每一个映射点都坐落在目标英语翻译术语的学科范围之上,与基本概念相近的学科也连接在线程上,可避免因用户自然语言表述不清晰而不能输出标准搜索结果[7]。映射线程要表达出目标英语翻译术语的词性,名词与名词对应,动词与动词对应,以此类推。
映射线程将目标英语翻译术语的基本概念和学科范围混合显示,对结构特征表述不清楚,搜索模型构造语料库进行映射点分类和分层,父节点为顶点,表述特征类别,按照相关比率向下依次连接子节点[8]。分析父、子节点的范化特征矢量,对特征进行聚类,获取目标英语翻译术语想要表达的基本概念和学科范围,给出搜索指令。
指令扩展并非搜索模型的必经处理步骤,在图3中用虚线表示。如果一次搜索的搜索结果没能给出用户满意答案,用户行为倾向于进行二次搜索。当行为日志监测到用户有连续两次或两次以上的相同术语搜索行为,系统自动扩大映射线程映射点范围,给予用户不同种类的搜索结果。
4 实 验
4.1 实验步骤介绍
在如图4所示的某高校大型计算机实验室中,依次对本文英语翻译术语高效搜索系统的查全率和查准率进行测评,查全率体现出的是在特定数据集群中,搜索系统与海量互联网数据中对目标英语术语的搜索效果,查准率用于衡量搜索结果的重复率。由于在查全率的测评中需要考虑响应时间,因此查全率也间接表述了系统搜索效率。
实验先使用2个互联网搜索引擎(百度和谷歌)搜索英语术语,目标英语术语包括金融、计算机网络、医学和体育四个领域的485个专用术语,为节省实验时间,不采用人工输入目标英语术语的方法进行实验,而是通过Java语言编写一个自动输入程序。百度和谷歌引擎对每项英语术语的搜索结果都达到上千甚至上万条,将搜索结果组成海量互联网数据集群,在此环境下进行实验。
对本文搜索系统、Web垂直优化搜索系统和邻域搜索系统进行初始化,在海量互联网数据集群中搜索上文中的485个专用术语,获取三个搜索系统的响应时间、搜索结果数量、漏选结果数量和搜索结果重复率等项目,测评本文搜索系统的有效性。
4.2 结果与讨论
实验前分析用户行为习惯,得知用户在使用搜索系统时通常只查看前几页的搜索结果,因此实验采用Java语言编写一个自动求取平均值的程序,对本文搜索系统、Web垂直优化搜索系统和邻域搜索系统的前15页英语术语搜索结果进行统计,搜索结果统计表见表1。
搜索结果中的重复结果和漏选结果在原则上都是不容许存在的,但在海量互联网数据集群中,重复结果之间也存在一定的数据结构特征差异,想要完全排除重复结果是不可能的,只能极度缩减。如表1所示,Web垂直优化搜索系统虽然无漏选,但重复结果过多,查全率高、查准率低。邻域搜索系统的查全率和查准率均比较中庸。本文搜索系统的重复结果比例为1%,无漏选现象,查全率和查准率整体等级偏高,但确切结论仍不能给出,因为表1中响应时间和重复结果的数据过于笼统,为保证测评结果的有效性,将响应时间利用计算机仿真手段进行图表绘制,输出如图5所示的单项响应时间仿真结果。结合表1和图5能够明显看出,本文搜索系统的响应时间最短,搜索效率高,提高了系统的查全率等级。
通过相关比例分析法统计出前30条搜索结果的相似度和相关比率,如表2所示,可以看出,本文搜索系统的前30条搜索结果相似度最低、相关比率最高,提高了系统的查准率等级。
综上所述,本文搜索系统搜索结果的有效性最好,查全率和查准率等级很高,并可保证系统的搜索效率。
5 结 论
本文设计的英语翻译术语高效搜索系统包括用户模块、互联网机器翻译模块、工作模型和搜索模型,要求工作模型能够进行高精度的海量互联网数据采集和高效搜索,搜索模型具备更新能力强且易于维护的优势。使用Java语言编写实验测评程序,实验结果显示,从查全率、查准率和搜索效率来看,本文系统的搜索结果均有效。
参考文献
[1] 张弘弦,田玉玲.Web垂直搜索引擎实现过程的研究[J].现代电子技术,2016,39(8):55?59.
[2] 郭猛,胡秀香,邵国金,等.混合语义相似度计算优化模糊查询的智能信息检索算法[J].科学技术与工程,2014,14(23):97?102.
[3] 戴圣法,魏庆国,魏中海.基于回溯搜索算法的导联选择脑机接口研究[J].现代电子技术,2016,39(13):10?14.
[4] 冯爱芬.基于模式搜索方法的解不等式约束优化问题的算法设计[J].科技通报,2016,32(5):5?10.
[5] 吴彪,陈南.基于模式搜索的自适应干扰抵消器算法的研究[J].计算机测量与控制,2016,24(2):235?238.
[6] 王琳,刘伍颖,梁晓波.英汉双向哲学社科术语词典系統设计与实现[J].中国科技术语,2014,16(2):18?21.
[7] 贾瑞玉,马文华.基于邻域搜索的改进最大最小蚁群算法[J].计算机仿真,2014,31(12):261?264.
[8] 任雪婷,贺兴时.一种改进的粒子群与差分进化混合算法[J].西安工程大学学报,2016,30(3):380?387.