基于语料库的多义词统计意义解析
曹慧
摘 要:本文所研究的三种基于语料库的统计意义解析方法,试图通过对词的共现模式的了解来推断一个多义词的正确意义。该技术基于贝叶斯决策理论、神经网络和信息检索中使用的内容向量。为了更好地理解这些方法,我们给定一组上下文,每个上下文都包含已知意义上的名词line,构造一个分类器来为新的上下文选择正确的行意义。为了了解多义的程度如何影响表现,我们比较了三种和六种感觉任务的结果。结果表明,每一种方法都能准确区分六种线形感官,准确率达70%以上。此外,分类器的响应模式在很大程度上在统计上是不可区分的。两项任务的比较表明,解决个体感官困难程度是一个比多义程度更大的表现因素。
关键词:语料库; 统计; 多义词
中图分类号:G642 ? ? ? ? ? ? ?文献标识码:A ? ?文章编号:1006-3315(2019)07-159-002
1.引言
语料库指的是为某一个或多个应用而专门收集的、有一定结构的、有代表性的、可以被计算机程序检索的、具有一定规模的语料的集合[1]。本研究的目的是系统地探讨基于语料库的统计意义解析方法中,每个词的义数、每个义的训练例数等变量对統计意义解析方法的影响。为了研究词义数量的影响,我们选择了高度多义的名词line,在词汇网络中有25个词义。
2.文献综述
Yarowsky[2]将贝叶斯统计方法与其他基于语料库的统计模型发表的结果进行了比较。他通过使用相同的词语,用相同的意义定义,将这些差异最小化。令人信服地指出,贝叶斯模型与代价更高的方法一样好,甚至更好。
作为本研究的试点,利用内容向量和神经网络分类器对线进行了两种意义上的区分任务,准确率达到90%以上。然后运行一个三感区分任务。
3.研究方法
培训和测试的内容取自1987-89《华尔街日报》语料库和来自APHB语料库。从WordNet中提取2个包含“[L1]ine(s)”的句子,并手动分配单个意义。
通常,实验在目标的两侧使用固定数量的单词或字符作为上下文。在这个实验中,我们使用语言单位-句子-代替。选择使用两句上下文:包含行和前一句的句子,训练和测试上下文的平均大小为44.5个单词。
词义解析任务使用名词行以下六种意义:
1.a product: ‘ a new line of workstations
2.a formation of people or things: ‘stand in line
3.spoken or written text: ‘a line from Shakespeare
4.a thin, flexible object; cord: ‘a nylon line
5.an abstract division: ‘a line between good and evil
6.a telephone connection: ‘the line went dead
为了检验训练样本的数量对分类器性能的影响,我们从200个训练集中提取了较小的训练集,每个意义的前50和100个上下文被用来构建新的训练集。在给定的试验中,对每个训练集使用相同的894个测试上下文集。每个分类器在相同的试验中使用相同的训练和测试上下文,但是根据方法的需要对文本进行不同的处理。
4.分类
这三个分类器使用的唯一信息是字符串在上下文中同时出现。它们不使用其他线索,如句法标记或词序。它们也不需要任何不是完全自动的训练上下文的增强。
4.1贝叶斯法
由Gale,Church和Yarowsky[3]开发的贝叶斯分类器使用贝叶斯决策理论对与多义目标的每个意义同时出现的令牌进行加权。模型的主要组件标记被定义为任何字符串:单词、数字、符号、标点符号或任何组合。整个标记都是重要的,因此基本单词(wait vs. wait)和混合大小写字符串(Bush vs. Bush)的变形形式是不同的标记。与每个标记相关联的是一组显著性,每个显著性对应一种感觉,由训练数据计算得出。给定意义的标记的显著性是Pr(token/sense)/Pr(token)。给定意义的标记的影响是其显著性的对数。
为了在(测试)上下文中选择目标单词的意义,分类器计算每个标记意义在上下文中对所有标记的影响总和,并选择和最大的意义。在意义分辨的情况下,显著标记包括出现频率低得多的内容词。贝叶斯分类器实验由AT&T贝尔实验室的Kenneth Church进行。在这些实验中,两句话环境使用的一个固定大小的窗口±50标记周围的目标词,Gale等人找到导致一个小数量的上下文用于估计概率最优值。
4.2内容向量
信息检索系统的向量空间模型推动了感知分辨率的内容向量方法,其中,语料库中的每个概念都定义了向量空间的一个轴,语料库中的文本表示为该空间中的一个点。语料库中的概念通常定义为出现在语料库中的词干集,两个文本之间的相似性被计算为表示两个文本的向量的函数。
对于感知解析问题,每个感知都由一个由该感知训练上下文构造的单个向量表示。由训练上下文定义的一个空间向量也是为每一个测试上下文构造的。要为测试上下文选择一个意义,需要计算其向量与每个意义向量之间的内积,并选择其内积最大的意义。
4.3神经网络
神经网络方法将感知分辨率作为一种监督学习范式。成对的(输入特性,期望的响应)出现在一个学习程序中。该程序的任务是设计一些方法来使用输入特性将训练上下文划分为与期望响应相对应的非重叠集。
每个上下文都被转换成位向量。在整个训练集中出现至少两次的每个概念都被分配到位向量位置。得到的向量的位置为1,与上下文中的概念对应,否则为0。这个过程创建超过4000个位置的向量。然而,这些向量是极其稀疏的,它们平均包含略多于17个概念。
对网络进行训练,直到每个训练示例中对应于期望响应的单元的输出大于任何其他单元的输出为止。训练一个网络直到所有的例子都正确分类,这样的结果是罕见的标记可以获得不相称的重要性。
为了确定网络的良好拓扑结构,研究了各种网络拓扑:将0到100个隐藏单元排列在一个隐藏层中的网络;具有多层隐藏单元的网络;以及具有单层隐藏单元的网络,其中输出单元连接到隐藏单元和输入单元。在所有情况下,没有隐藏单元的网络配置要么优越,要么在统计上与更复杂的网络难以区分。由于没有网络拓撲明显优于没有隐藏单元的网络拓扑,所以这里报告的所有数据都来自这样的网络。
5.结论
所有分类器在训练上下文数量最多(200)的情况下表现最佳。
三种方法的响应模式的收敛性表明,每种分类器都从训练上下文中提取尽可能多的字数数据。如果是这样,那么任何只使用单词计数的技术都不会比这里测试的技术准确得多。
虽然一词多义的程度确实影响了感官分辨任务的难度,但更大的表现因素是个体感官分辨的难度。从语境的考察来看,关键信息似乎离词很近,而离词较远的语境则是噪声。这些基于语料库的统计技术使用了训练上下文的贫乏表示:两个句子中出现的标记的简单计数。我们认为,除非将词序或句法信息等其他信息纳入该技术,否则不可能显著提高分辨率的准确性。
基金项目:2013年安徽省教育厅人文社会科学研究一般项目(项目编号:SK2013B227)
参考文献:
[1]何婷婷.语料库研究[D]华中师范大学博士学位论文,2003
[2]Yarowsky,D.,Word-sense disambiguation using statistical models of Rogets categories trained on large corpora, COLING-92, 1992
[3]Gale,W.,Church,K.W.,and Yarowsky,D,A method for disambiguating word senses in a large corpus. Statistical Research Report 104,AT&T Bell Laboratories,1992