网站首页  词典首页

请输入您要查询的论文:

 

标题 博客语料的新词发现方法
范文 黄轩 李熔烽
摘 要:新词发现一直是自然语言处理的热点问题和难点问题之一,为了提取博客语料的新词,首先对语料进行文中分词,然后根据新词的定义及新词的“时空”性质,在词串统计的基础上,通过词出现的频率,词分布的密度,上下文分析以及词在时间域上的变化分析对词进行过滤;最后通过词的统计信息和词性规则对候选词进行排序以提高准确率;在此基础上建立新词发现系统。
关键词:新词; 词串统计; 上下文分析; 分词; 候选词
中图分类号:TN911?34 文献标识码:A 文章编号:1004?373X(2013)02?0144?03
0 引 言
随着社会的飞速发展,尤其是互联网的广泛使用,新词语不断地在日常生活中涌现出来。搜集和整理这些新词语,是中文信息处理中的一个重要研究课题,在中文词法切分中有着重要的作用。由于对日常生活中的新词的定义的很模糊,很难得到一个新词的严格定义,在现有研究的基础上,认为新词应该是满足以下性质的:
(1)新词从作为一个词本身上看,应该是要可以独立成词的;
(2)从新词的分布空间上来看,新词应该是被广泛使用,即在使用的语料中应该是使用频率较高,在普遍的文档中出现,被许多作者所使用的词语。
(3)从新词的时间性质上看,新词应该是想比于之前的某一段时间是新的。这个新具体体现在这个词语在之前的某一段时间是没有出现的,或者产生了新的词义,即“旧词新用”。
目前,对新词发现的研究主要是基于统计和规则过滤的方法,主要是将新词的发现作为一个通过统计结果和新词规则不断对候选集进行过滤的过程。基于规则的方法是根据语言学只是,比如说词语的内部结构,人工的构建规则库。郑家恒等人根据汉语构词法规则建立新词的规则库,然后对加工后的文本候选串进行新词过滤[1];基于规则的方式只是通过考虑词内部构成对新词进行分析,使用人工建立规则库的方式仅能在特定的语料库中得到较好结果,其泛化性差;而且人工建立规则的代价大,在规则数量多时还有规则冲突产生。
基于统计的方法邻接分析,独立成词概率,位置成词概率,互信息等方法,通过新词的统计信息,过滤候选集合。贺敏等人通过上下文邻接分析,位置成词概率以及双字耦合度来进行过滤[2];施水才等人通过频率比,互信息以及概率比的方法对新词过滤[3];林自芳等通过从语料库中统计词的内部模式,结合互信息和位置成词概率对新词进行过滤[4]。基于统计的方法虽然能找到大量的新词,但是同时也产生了大量的垃圾词串,即基于统计的方法在保证召回率的同时确也降低了准确率。另外,还有一些研究者[5?9],将新词发现看作是一个二类分类问题,同样使用新词的统计特征作为分类器的特征向量,使用机器学习的方法对候选词进行分类,从而生成新词集合。本文采用不断对候选集过滤,最后得到新词集合的思路,结合统计与规则的方法,根据新词的性质使用频度分布过滤,上下文邻接分词以及词串时域上的变化比作为新词的统计过滤方式,然后根据统计信息对新词进行第一次排序,再使用词性规则进行第二次排序,如图1所示。实验表明,统计过滤方式能有效召回新词,而排序的方式有助于提高新词发现的准确率。

图1 博客语料的新词发现方法
1 基于统计过滤和规则排序的新词发现方法
1.1 分词与重复串统计,以及空间分布过滤
新词识别的第一步是使用现有的分词系统进行分词,根据分词结果统计语料中的串,在实验中,生成的串的最大长度为4,生成词串文本。重复串统计是指统计词串文本中重复串的频率,并根据阈值进行过滤。在此,根据新词的在空间中的性质,统计每个新词出现的总次数,作为新词的出现频率;统计新词出现文档次数,作为新词的使用频率。最后通过设置出现频率阈值以及使用频率阈值,初步过滤候选集。在统计串频率时,同时记录串的前一个词以及后一个词,为接下来的分析做准备。
1.2 上下文邻接分析
上下文邻接分析是分析词前后的文本关系,新词是以前未使用过的词语,也具有词语的一般特性,在真实文本中要有一定的流通度,能够应用于多种不同的上下文环境,而非某种特殊语境下的临时性组合。为了反映串S的上下文语境灵活程度,给出定义如下概念:
(1)邻接集合:分为左邻接集合和右邻接集合,分别指真实文本中,与串S左边或者右边相邻的元素的集合。元素可以是字、词等不同粒度的语言单位。
(2)邻接类别:分为左邻接类别和右邻接类别,分别指左右邻接集合中元素的数目,他们反映了串S上文和下文语境种类的多少,用符号Vl(S)和Vr(S)来表示。根据文献在实验总若以词为基本单位来计算,例如在语料中统计发现,“珠三”这个串的左邻接类别高达9,而右邻接类别仅仅为1,实际上该串的出现完全依赖于另外一个串“珠三角”,因此“珠三”不构成词。这样进一步对候选集进行过滤。
在此,对候选集合中的每个词串,根据词串的左右邻接词语集合,分析上下文邻接,排除不能独立成词的候选串,生成新的候选词,过滤候选集。
1.3 词串时域上的变化比
根据对新词性质的分析,在时域上,新词是与之前某一时间相比,新出现的词语或者是“旧词新用”。因此新词在时域上存在变化,本文通过定义这个变化,并且依此对候选集进行过滤。本文中将当前时间得到的候选集合作为前景,之前某时间的后候选集合作为背景集合,对新词在时域上的变化定义背景与前景的差异,可以分为以下两种:
(1)在前景集合中广泛使用而在背景中使用较少,甚至不存在的;
(2)在前景集合与背景集合的使用频率相当,左右邻接集合存在差异的。
根据上述分析,在计算频域变化比时,采用如下算法:
(1)算前景集合中候选词的频率比,如果背景集合,不存在该候选词,则变化比为1;反之,依照式(1)计算频率比:

(3)分别比较候选词左右邻接集合的差异,如果左右邻接结合都不存在差异,则认为该候选词为旧词,排除该词,反之则为新词,其变化比为:左右邻接集合差的平均值。
邻接集合的差异定义如下:
邻接集合差 = 前景邻接集合与背景邻接集合的差的个[数前]景集合的个数
其中前景邻接集合与背景邻接集合的差分为两种:
(1)前景邻接集合存在而在背景邻接集合不存在;
(2)在两个集合都存在,则比较该词在对应集合中的频率,如果频率比阈值则认为存在差异,反之不存在。
2 统计信息排序与词性规则排序
经过上述分析后,得到的大量的候选词,在候选词中找到了许多新词,但是同样也存在了许多的垃圾词汇如:的人、也不、的一、是我、你的等。接下来的工作主要是通过对得到的候选集进行排序,目标是使得真正的新词在排序后能够出现在候选集序列的前面,从而提高系统的准确率。排序过程中主要分为两个过程,首先根据新词的空间分布和时间变化信息,对新词进行排序;在此基础上,根据新词的词性规则,对新词候选集做第二次排序。定义用于第一次的排序的统计信息如下:
统计信息 = 0.5×变换比+0.5×(1-1/候选词分布的文档数)
根据上述统计信息对候选词进行第一次排序。
在第二次排序中排序依据定义为变量A,使用词性规则分为两类,定义为正规则和负规则。如果新词符合正规则,那么变量A增加1×规则的权重;如果新词符合负规则,那么变量A减小1×规则的权重,在实验中负规则的权重均是为1。使用正则表达式来表示规则。其中,使用的负规则定义如下:
(1)“[a?z0?9]*d”表示所有以副词结尾的词性序列;
(2)“u[a?z0?9]*”表示所有以助词开头的词性序列;
(3)“[a?z0?9]*u”表示所有以助词结尾的词性序列;
(4)“q[a?z0?9]*”表示所有以量词起始的词性序列。
4 结 语
本文根据新词的性质,结合现有的方法,提出了一个新的新词发现方法。该方法首先通过一系列统计信息对候选词进行过滤,保证新词的召回,然后再次基础上通过使用统计信息和词性规则信息对候选集进行排序,从而提高准确率。
参考文献
[1] 林自芳,蒋秀凤.基于词内部模式的新词发现[J].计算机与现代化,2010(11):56?58.
[2] 贺敏,龚才春,张华平,等.一种基于大规模语料的新词识别方法[J].计算机工程与应用,2007(21):70?73.
[3] 施水才,俞鸿魁.基于大规模语料的新词语识别方法[J].山东大学学报:理工版,2006(3):101?103.
[4] 崔世起,刘群.基于大规模语料的新词检测[J].计算机研究与发展,2006(21):9?13.
[5] 韩燕,姚建民.不限领域的中文新词的识别研究[J].郑州大学学报:理学版,2008(3):90?93.
[6] 吕红良.基于大规模语料库的中文新词识别[J].大连理工大学学报,2008(7):49?53.
[7] 贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004(20):19?21.
[8] 张海军,史树敏.中文新词识别技术综述[J].计算机科学,2010(3):19?22.
[9] 邹纲,刘洋,刘群.面向Internet的中文新词语检测[J].中文信息学报,2004(6):83?85.
随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/2/11 6:53:44