标题 | 一种新型英语基本名词短语识别方法 |
范文 | 韩朝阳++刘国兵++王跃武 摘要:英语基本名词短语识别是一种重要的基础性自然语言处理活动,其识别准确率与召回率直接影响其它相关自然语言处理活动效果。在分析、总结几种具有代表性基本名词短语识别方法的基础上,提出了一种新型识别方法,其核心是:把边界概率与N_Gram词性串规则相结合作为识别判断条件,以“假拟中心词”为起点,分别向左、向右识别出当前“假拟中心词”所在基本名词短语的左、右边界。实验证明,该方法的识别准确率为97.13%、召回率为98.75%,FB=1为 97.93%。 关键词:英语基本名词短语识别;边界概率;N_Gram词性串规则;假拟中心词 DOIDOI:10.11907/rjdk.151296 中图分类号:TP301 文献标识码:A 文章编号文章编号:16727800(2015)008001405 基金项目基金项目:2014年国家社科基金项目(14BYY084) 作者简介作者简介:韩朝阳(1970-),男,河南洛阳人,硕士,上海杉达学院计算机科学与技术学院讲师,研究方向为自然语言处理、数据挖掘;刘国兵(1977-),河南安阳人,男,博士,河南师范大学外语学院教授,研究方向为计算语言学;王跃武(1967-),男,湖南益阳人,博士,上海杉达学院计算机科学与技术学院副教授,研究方向为应用语言学。 0 引言 英语基本名词短语识别是一种重要的基础性自然语言处理活动。它不仅是机器翻译、信息检索、知识挖掘、主题内容分析等其它众多自然语言处理的一个组成部分,还是开展这些活动的基础[14]。QI 识别准确率和召回率直接影响这些自然语言处理活动的效果。因此,应力求提高英语基本名词短语识别准确率和召回率、降低系统的时空开销,否则将会对其它相关工作产生负面影响[5]。 自20世纪80年代以来,国内外很多研究者对英语基本名词短语识别进行了相关研究并提出了一些识别方法。这些方法的共同的特点是:以句子为单位,按照从句子头部到尾部的顺序,对已经添加词性码(Part of Speech)的文本进行基本名词短语的标注或提取。下面对几种具有代表性基本名词短语识别方法进行简要分析、总结。 (1)边界统计方法[6]。首先从训练语料分别获取英语基本名词短语的开始边界和结束边界两个概率矩阵,然后以这两个概率矩阵为识别判断标准,通过识别出英语文本中所有基本名词短语的开始边界和结束边界,达到英语基本名词短语的识别目的。该方法测试报告显示,在对248个基本名词短语进行识别测试时仅有5个没有被识别出来。虽然该方法具有较高的正确率,但由于报告的测试数据偏小,因而不足以使人完全信服[8]。 (2)词性串规则方法[7]。以训练语料库和测试语料库为基础,利用错误驱动剪枝技术,获得最终确定的基本名词短语词性串规则表,再利用词性串规则匹配法识别测试文本中的英语基本名词短语。该方法实现容易、操作简单,且测试报告显示其识别准确率和召回率都达到94%,为当时报道的最好结果。但该方仍存在两个方面的不足:一是识别判断标准单一,具有识别局限性;二是没有处理规则列表数据稀疏性问题。 (3)边界统计与词性串规则校正相结合的方法[8]。在综合了边界统计和词性串规则优点的基础上,把基本名词短语识别分为主次分明的两个部分,边界统计作为主要部分能够识别出大部分基本名词,词性串规则作为辅助手段在对前者识别出的基本名词进行核对和校正的同时还对边界统计遗漏的基本名词短语进行回收。实验报告显示,其识别准确率达到96.22%,召回率达到97.59%,FB=1达到96.90%,其FB=1为当前最好的报告结果。该方法将边界统计和词性串规则有效结合,实现了对英语基本名词短语识别的二维判断,且达到了较好的识别效果。但该方法的缺陷与第二种方法相同,同样没有对规则数据稀疏性问题进行处理。因此可以认为,英语基本名词短语识别水平还有提高可能,其准确率与召回率仍有提升空间。 基于大型语料库,在对大量英语语料进行实验分析的基础上,提出一种新的英语名词短语识别方法,即边界概率与N_Gram词性串规则校正相结合的方法。主要操作步骤为:①基于训练语料库,创建开始边界(以下简称左边界)特征概率列表、结束边界(以下简称右边界)特征概率列表和一个经N_Gram(N=2,3,…,m,其中m为词性串列表中最长串的长度)切分后的基本名词短语词性串规则列表(以下简称N_Gram词性串规则列表);②把边界特征概率与N_Gram词性串规则相结合作为识别判断条件,以一个基本英语名词短语的“假拟中心词”为起点,分别向左、向右识别出当前“假拟中心词”所在基本名词短语的左、右边界,从而实现英语基本名词短语的自动识别。实验结果显示,该方法识别的准确率为97.13%、召回率为98.75%,FB=1为 97.93%,其FB=1值超出边界统计与词性串规则校正相结合方法1.03个百分点。 1 “假拟中心词”及其应用方法 英语中的基本名词短语属于简单的、无嵌套名词短语,其本身不包含其它任何名词短语。英语名词短语通常由中心词、前置修饰语或后置修饰语3部分组成。通常情况下,一个基本名词短语中心词由名词构成且不能缺省,但用于修饰该中心词的前置修饰语或后置修饰语可以缺省。因此,一个基本名词短语至少要由一个位于前置修饰语与后置修饰语之间的一个名词构成。在识别一个英语基本名词短语时,如果能够首先确定其中心词,然后再以中心词为起点分别向前、向后逐词延伸,识别出其左边界和右边界后,即可识别出该名词短语。此方法针对性强,能最大限度地减少与基本名词无关词的判断,提高识别效率。同时,该方法能够充分利用中心词的名词性特征,不易产生识别遗漏现象,因此可提高识别的召回率。 将位于一个名词短语中最右边的那个名词假设为中心词,即“假拟中心词”。在基本名词短语识别中,“假拟中心词”的识别与应用步骤为:①以句子为单位进行基本名词短语识别。首先从句尾到句首,识别出最接近句尾的第一个名词(如图1中的①),以该词为“假拟中心词”并识别该“假拟中心词”所在的基本名词短语;②从最新识别出的基本名词短语的左边界开始,继续向句首,识别出最接近该边界的第一个名词(图1中的②),以该词为“假拟中心词”并识别该“假拟中心词”所在的基本名词短语;③重复步骤②,直至识别当前句子中全部的“假拟中心词”以及这些中心词所在的基本名词短语。 图1 ①②③表示已被识别的“假拟中心词” 2 边界概率与N_Gram词性串规则相结合方法 边界概率也叫边界特征概率,它包括左边界特征概率和右边界特征概率。左边界特征概率指由基本名词短语第一个单词词性码与该单词前面的第一个单词(或标点符号)的词性码所组成的左边界词性串的频数概率。右边界特征概率则是基本名词短语最后一个单词词性码与该单词后面的第一个单词(或标点符号)的词性码所组成的右边界词性串的频数概率。所有基本名词短语的左、右边界特征概率共同构成了边界特征概率列表。左右边界特征概率与N_Gram词性串规则联合构成英语基本名词短语左、右边界判断识别的标准。N_Gram词性串规则是指把从训练语料中提取的所有基本名词短语词性串进行N_Gram切分(其中N的取值范围是[2,m],m=最长基本名词的长度)后经过去重、排序操作后得到的所有词性串列表。通过N_Gram切分,提高了基本名词短语词性串规则的丰富度,可有效降低基本名词短语词性串规则的稀疏度。 把边界特征概率和N_Gram词性串规则共同作为判定基本名词短语的标准、以“假拟中心词”为起点,分别向左、右延伸来识别英语基本名词短语,即为本文提出的新型英语基本名词短语识别方法,其流程如图2所示。 图2 系统流程 2.1 边界特征概率列表与N_Gram词性串列表构建 边界特征列表与N_Gram词性串列表是基于训练语料而创建。因此,在创建边界特征与N_Gram词性串列表之前,首先要创建训练语料,具体做法是:①从BNC语料库中随机抽取150篇英文(单词总数:61028);②用CLAWS7对抽取的语料赋词性码;③对带有词性码的语料进行英语基本名词短语人工标注;④统计训练语料,对频数低于3的英语基本名词短语再次进行人工识别确认,以保证基本名词短语识别的正确性。至此,训练语料创建完成。 从训练语料中提取已标注的基本名词短语及相关信息。这些信息主要包括:基本名词短语、基本名词短语前第一个单词(或标点符号)、基本名词短语后第一个单词(或标点符号)以及它们的词性码,如表1所示。 对提取的英语基本短语及相关信息进行如下操作:①删除单词和标点符号,构建英语基本短语及相关信息的词性码表(对表1执行该操作后的结果见表2);②构建左、右边界特征概率列表。以构建左边界特征概率列表为例:提取并合左边界词性串,计算每一个左边界词性串的频数c和它在训练语料库中出现的频数C,使用公式P=c/C计算它的频数概率,即可构建包括左边词性串和其频数概率的左边界特征概率列表;③构建N_Gram词性串规则列表。提取并合并所有基本名词短语词性串,求最长的词性串长度m。对每一个基本名词短语词性串进行N_Gram(N=2,3…m)切分,并对切分结果进行合并、排序,即可构建所需要的N_GramN_Gram词性串列表。 2.2 左、右边界识别算法 对基本名词左边界与右边界的识别是边界概率与N_Gram词性串规则相结合识别方法的关键步骤。为描述方便,首先定义并说明几个常用变量:①S表示包含一个句子内容的数组;②POSSequence(i,j)表示S[i]到S[j]的词性码串;③LP(i-1,i)表示S[i-1]与S[i]之间存在左边界的概率;④RP(i,i+1)表示S[i]与S[i+1]之间存在右边界的概率;⑤R 表示 N_Gram词性串规则列表;⑥n表示当前“假拟中心词”在句子数组S中的下标;⑦t表示当前将要识别的基本名词短语右边界下标的最大可能值。若当前“假拟中心词”的右方存在已识别的基本名词短语,则t值为该右方紧邻的那个基本名词左边界值-1;否则,t值为数组S的长度-1。 这两种算法都以两个词性码之间存在边界的概率为第一条件标准,N_Gram词性串规则为补充条件标准进行基本名词短语左右边界识别。当两个词性码之间存在和不存在边界的概率值都相对较高且这两个词性码串又属于N_Gram词性串规则列表时,需要通过继续在循环前进方向再延伸一个词性码的方法,来确定当前两个词性码之间是否存在边界。它们的不同点表现在:左边界识别算法采用以“假拟中心词”为起点向左(逆序)循环,而右边界识别算法采用以“假拟中心词”为起点向右(顺序)循环。 本文通过实例来说明左、右边界算法在英语基本名词短语识别中的具体应用。以It_PPH1 is_VBZ perhaps_RR one_MC1 of_IO the_AT most_RGT unethical_JJ and_CC disturbing_JJ things_NN2 ._. 中所有基本名词短语的识别为例,主要步骤为: (1)创建数组S[n],其中n为包含单词、标点符号等在内的句子长度,在本例中n=12。 (2)按从左到右的顺序将句子中的每一单词、标点符号以及它们的词性码赋值给数组S中的对应元素。如本例:S[0]= It_PPH1,…,S[4]= of_IO,S[5]= the_AT,S[6]= most_RGT,S[7]= unethical_JJ,S[8]= and_CC,S[9]= disturbing_JJ,S[10]= things_NN2,S[11]= ._.。 (3)逆序遍历数组,识别出每一个“假拟中心词”所在的元素。本例识别出的第一个“假拟中心词”所在元素为S[10]。 (4)调用函数getLeftBoundary(n,S)求左边界,其参数n=10。以S[10]为起点,首先以S[9]与S[10]中的词性码串JJ NN2为条件在左边界特征列表中检索,由于没有检索到符合条件的记录,则LP(9,10)=0,且N_Gram词性串规则表包含码串JJ NN2。因此,JJ NN2之间不存在边界,继续循环;把S[8]与S[9]组成的词性串CC JJ作为条件在左边界特征列表中检索,得到LP(8,9)=35.6%,且CC JJ也包含在N_Gram词性串规则表中,需向前延伸一个数组元素到S[7],则S[7]到S[10]的词性码串为JJ CC JJ NN2,由于该串包含在N_Gram词性串规则表中,因而可直接判断S[7]为当前基本名词短语的组成部分;再以判断S[9]与S[10]的方法,循环判断S[6]与S[7]、S[5]与S[6]、S[4]与S[5]之间是否存在左边界。由于S[4]与S[5]之间的LP(4,5)=100%,因此左边界应位于S[4]与S[5]之间,可确定leftBundary=5。至此,“假拟中心词”things所在英语基本名词的左边界识别工作结束。该识别过程如图3所示,其中虚线表示判断操作,实线表示所指向的单词已被确定为名词短语的组成部分。 (5)调用函数getRightBoundary(n,S,t)求右边界,其参数n=10、t=11。以S[10]为起点,首先以S[10]与S[11]组成的词性码串NN2为条件在右边界特征列表中检索,得到RP(10,11)=100%且N_Gram词性串规则表不包含码串NN2。因此右边界必定存在于S[10]与S[11]之间,可确定rightBundary=10。至此,假拟中心词”things所在英语基本名词的右边界识别过程结束。 (6)记录并标记当前识别的英语基本名词短语。 以S[4]开始,循环执行步骤(3)、(4)、(5)、(6),直至识别出句子中所有的“假拟中心词”和基本名词短语。 图3 “假拟中心词”things所在基本名词短语左边界识别过程 3 测试与结果分析 系统开发完成后,对其进行了开放测试。为保证测试语料的开放性,在准备测试语料时,从国内外3个英文网站上随机选取了当日(2015年1月2日)的10篇报道。这些报道共包括4 165个单词,分别来自《中国日报》(2篇)、《英国镜报》(3篇)、《今日美国报》(3篇)。 以其中一篇报道为例,使用采集的语料对系统进行了10次测试。将每次系统识别结果与人工识别结果进行对比并计算出每次的准确率和召回率。最后得出10次的平均准确率为97.13%、平均召回率为98.75%。以这两个平均值为依据,得出测试结果的FB=1值为97.93%。 显然,使用边界概率与N_Gram词性串规则相结合方法识别英语基本名词短语能够取得较好效果,但其正确率和召回率与期望值仍有一定差距。通过对测试过程与结果的分析发现,CLAWS7词性赋码的错误率是影响识别正确率和召回率的主要因素。同时, N_Gram词性串规则的稀疏度对识别也会产生影响。例如:在“…..a_AT1 regular_JJ press_NN1 briefing_VVG…..”中,CLAWS错误地把名词briefing赋成了动词ing码,导致识别系统把“press”作为“假拟中心词”,因此错误地将“a regular press”识别为基本名词短语。又如,对“…maintain_VVI steady_JJ and_CC relatively_RR fast_RR economic_JJ growth_NN1…”中的基本名词短语识别时发现,正是由于N_Gram词性串规则的稀疏性导致系统没能正确识别出steady and relatively fast economic growth,而是错误地把relatively fast economic growth作为基本名词短语识别进行了识别。 4 结语 本文在分析与总结具有代表性基本名词短语识别方法的基础上,提出了一种边界概率与N_Gram词性串规则相结合的英语基本名词短语识别方法。对测试过程和测试结果进行分析发现,词性赋码的准确率和N_Gram词性串规则的稀疏性是影响边界概率与N_Gram词性串规则相结合的方法进行英语基本名词短语识别正确率的主要因素。在后继研究工作中,要进一步提高词性赋码的准确率,同时在丰富训练语料内容的基础上引入如单词间搭配概率等判定标准,不断提高英语基本名词短语识别的正确率和召回率。 参考文献: [1] RAMSHAW L A,MARCUS M P.Text chunking using transformationbased learning:proceedings of WVLC95[C].Hongkong:Hongkong Polytechnic University,1995. [2] CLAIRE C,PIERCE D.Errordriven pruning of treebank grammars for base noun phrase identification:proceedings of COLINGACL98[C].New York: Cornell University,1998. [3] 吕琳,刘玉树.最大熵和Brill方法结合识别英语BaseNP[J].北京理工大学学报,2006,26(6):500503. [4] 王晓娟.最大熵方法在英语名词短语识别中的应用研究[J].计算机仿真,2011,28(3):414417. [5] 梁颖红,赵铁军,岳琪.英语基本名词短语识别技术研究[J].信息技术,2004,28(12):2224. [6] CHURCH K.A stochastic parts program and noun phrase parser for unrestricted text[C].proceedings of the second Conference on Applied Natural Language Processing,1988,1988. [7] CLAIRE C,PIERCE D.The role of lexicalization and pruning for base noun phrase grammars[C].Proceedings of the Sixteenth National Conference on Artificial Intelligence,1999. [8] 梁颖红,赵铁军,姚建民,等.基于混合策略的英语基本名词短语识别——边界统计和词性串规则校正相结合的策略[J].计算机工程与应用,2004,40(35):13. (责任编辑:孙 娟) |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。