标题 | 基于word2vec扩充情感词典的商品评论倾向分析 |
范文 | 陆峰 摘要: 商品评论是用户对所购商品的信息反馈,在一定程度上代表了用户对商品的关注点和情感倾向,对企业具有重要的研究价值。该文提出基于word2vec的情感词典扩充方法,以此构建面向情感倾向分析的电商平台情感词典,旨在能较好地识别商品评论的情感倾向。试验中,该文将扩充的情感词典结合改进的情感词极性算法,用于天猫洗护类商品评论的情感倾向分析,实验表明了该方法的有效性。 关键词:情感词典;word2vec;情感分析;电商平台 中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2017)05-0143-03 Abstract: Product reviews can be treat as the feedback of user on the purchased of goods,Which,to a certain extent, represents the user's focus on the commodity and emotional tendencies, has important research value to the enterprise. This paper proposes an extension method of emotional lexicon based on word2vec, in order to construct affective dictionary of sentiment platform for sentiment orientation analysis. In experiment, we use the method of expanding the emotional words of sentiment dictionary combine with improved sentiment word polarity algorithm for the sentiment analysis of Tmall care commodities reviews, Finally,The experiments prove the effectiveness of the method. Key words: Sentiment Lexion ; word2vec; sentiment analysis ; E-commerce platform 随着计算机和互联网技术的发展,各种电商平台纷纷涌现。如何从繁杂的商品评论中识别用户的情感倾向,不仅是各大电商平台的关注热点,也是自然语言处理领域中亟待解决的问题,因此,文本倾向性分析成为计算机领域的研究热点之一。目前文本情感倾向性分析研究方法分为基于简单统计、基于相关性分析与基于机器学习三种。基于简单统计方面,主要通过求合法、向量空间法等对情感值进行简单的倾向性统计,邹嘉彦等[4] 通过对极性元素的分布、密度及语义强度等进行分析,实现相关新闻的褒贬分类。基于相关性方面,陈晓东[3]使用扩展的情感倾向点互信息算法(Semantic Orientation Pointwise Mutual Information, SO-PMI),从微博语料集中自动获取领域情感词,构建了微博情感词典,并将其使用于中文微博的情感倾向研究。姜亚华[2]优化了基于HowNet衡量语义相关度算法,并将其用于汽车领域的商品评论情感分析。在基于机器学习的研究方面,Wang[5] 选取形容词和副词这类修饰词作为特征,將启发式规则与贝叶斯分类技术相融合并应用于文本情感倾向的分类。徐琳宏等[6] 通过计算词汇与基准词间的相似度,进而利用支持向量机分类器对文本的褒贬性进行分析。但是目前针对商品评论的倾向性分析技术仍然存在以下问题:1)中文情感词典相对较少,各领域的情感词典并不兼容,例如主流的HowNet(知网)等在构建情感词典的过程中未考虑网络用语的更新;2)一般的情感词上下文极性算法的情感倾向识别准确率不高,而且可扩展性较差,情感词的极性仅仅考虑其原极性(情感词典所标注),在上下文存在关联关系,转折关系时,没有结合上下文语境考查其上下文极性。针对以上问题,本文以天猫商城洗护类商品评论的情感倾向分析为主题,首先通过word2vec算法在HowNet和NTU情感词典的基础上构建适用于电商平台的情感词典;其次给出了利用扩充的情感词典与改进的情感词极性算法计算情感词极性的方法,完成商品评论的情感倾向分析。 1 基于word2vec的情感词典扩充 目前情感极性计算方法主要有基于语料库和基于情感词典2种方法。本文主要研究的是基于情感词典的方法。基于情感词典的情感极性计算方法的有效性依赖于两个点:1)能否准确通过分词分出情感词典中的褒贬词。2)能否找到一个适用于当前你研究领域的领域词典。因为目前并没有普适性的情感词典,且随着网络用语的传播,出现了一大批新的褒贬词,甚至有些词的词义也发生了改变。因此如何构建相关的领域情感词典具有一定的研究意义。 本文的电商平台的情感词典的构建主要由4部分组成:Hownet情感词典,台湾大学NTU中文情感词典,网络用语中抽取出来的网络情感词典,基于word2vec构建的面向电商平台的电商商品情感词典。过程如下图所示: Word2vec 是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。基于word2vec构建面向电商平台的电商商品情感词典过程如下,首先设计爬虫程序从各大电商平台上采集商品评论数据和商品标题页的商品名及属性,选择常用的网络用语,商品标题页的商品名及属性作为基准词,通过计算候选词与基准词的相似度及识别候选词语的褒贬倾向与极性值来构建电商平台情感词典。即利用word2vec训练语料库得到词向量模型。通过计算词语之间的余弦值来度量两个词语之间的相关程度。将依据相似度排序靠前的词语添加进构造的电商商品情感词典。相比于传统方法中情感倾向点互信息算法(Semantic Orientation Pointwise Mutual Information, SO-PMI),从语料集中获取领域情感词方式,使用基于word2vec方法,体现了两个方面的优势。一方面是,基于词向量的方法包含了丰富的语义信息,能够自动地学习到词语之间潜在的语义关系。另一方面相对HowNet、NTU词典在识别网络用语上的局限性, word2vec计算得到的词向量是基于一个开放的语料库空间,能够针对性的构建特定领域的情感词典。表1是利用word2vec工具对实验语料进行训练后,部分词语及与其相关的词语。 2 改进的情感词极性算法 对商品评论进行情感倾向识别,应先将长评论根据标点划分成短句,再通过中文分词工具进行分词。利用情感词典进行情感分析的关键点如下:1)情感词:要识别评论的情感倾向,最简单的方法就是找出句子里面的情感词,若是褒义词情感值+1,若是贬义情感值-1;2)程度词:程度副词反映了情感的强烈程度,“好”和“非常好”应该赋予不同的情感值,因此找到情感词后,需要寻找这个情感词和上个情感词间是否存在修饰的程度词,打分时给不同程度副词赋予不同权值;3)感叹号:感叹号意味着情感强烈,例如“这个包装太烂了!”;4)否定词:在找到情感词的时候,需要往前找否定词。比如”不“,”不能“这些词。统计否定词出现次数,若是奇数,情感分值就*-1,反之,那情感就没有反转,还是*1; 5)以分句情感为基础:一条评论的情感分值是由不同的分句加起来的,因此要得到整条评论的情感分值,就要先计算该评论每个分句的情感分值。 此外若评论前后句间存在关联结构,则应该找出修饰词前缀(否定前缀和程度副词前缀)及关联词,结合组合情感词典,最终计算出词语的上下文极性。本文给出的改进的情感词极性计算算法如下。 算法:改进的情感词极性算法 1:读取评论,将每条评论以标点切分成分句,将分句进行分词 2:去除停用词 3:遍历分句中的分词,查找分句是否存在关联词,记录类型,以及位置 3:遍历分句中的分词,查找分句的情感词,记录积极还是消极,以及位置 4:在上个情感词和现找到的情感词间查找程度词,找到就停止搜寻。为程度词设权值,乘以情感值 5:在上个情感词和现找到的情感词查找否定词,找完全部否定词,统计否定词数量,若数量为奇数,则*(-1),若为偶数,*1 6:判断分句结尾是否有感叹号,有叹号则往前寻找情感词,有则相应的情感值+2 7:为每个分句乘上分句关联词所设的权重,计算完整条评论的情感值,若情感值为正,标签为1,即好评;若情感值为0,标签为0,即中评;反之标签为-1,即差评。 3 实验 实验环境:CPU为Celeron(R)Dual-Core T3000 @1.8GHz 4GB内存,window7 操作系统,算法实现工具为python,分词工具为结巴分词。 本文实验数据使用从天猫商城爬取的7月4日洗护类商品依销量排序top10的商品,每个商品爬取了2000条的商品评论,共20000条商品评论作为语料构建电商平台情感词典,人工对这些评论进行样本标注,从中选取已标注的200条正向评论,200条负向评论,100条中性评论,共500 条评论做算法测试,部分样本如表5 所示。 实验结果分析如下:比较表6 第一,二行可知,使用word2vec扩充的电商情感词典+改进情感极性算法,在正向评论,负向评论,中性评论的准确率/召回率/f1分数3个评价指标上,各指标都略高于使用传统的HowNet+NTU情感词典+改进情感极性算法。同理可知,使用word2vec扩充的电商情感词典+改进情感极性算法,仅在中性评论召回率上低4%,从整体来看,情感倾向识别优于使用word2vec扩充的电商情感词典+原情感极性算法。综合可知,word2vec扩充的电商情感词典+改进的情感词极性算法在情感倾向识别的各评价指标上表现最优。 4 结语 本文在构建组合情感词典的过程中,提出基于word2vec的情感词典扩充方法,以此构建面向情感傾向分析的电商平台情感词典,结合改进的情感词极性算法,实验表明基于word2vec扩充的电商情感词典+改进情感极性算法在情感倾向识别的各评价指标上优于传统情感词典+情感词极性算法,究其原因在于两个方面。 1)此种方法扩充的情感词典较大程度扩充了常用于网上购物的网络用语,减少了网络语言多变性对倾向性分析的影响; 2)改进的情感极性算法在评论中存在否定,程度副词,上下文存在各种关联关系时可以较好地还原极性强度,可避免单纯统计学方法的不可靠性。 参考文献: [1] 台湾大学NTUSD简体中文情感极性词典,http://vnvwf.data.tang.corn/data/11837. [2] 陈晓东.基于情感词典的中文微博情感倾向分析研究[D].武汉:华中科技大学,2012. [3] 姜亚华. 基于HowNet的汽车领域产品评论挖掘方法研究[D]. 哈尔滨:哈尔滨工业大学, 2011. [4] 邹嘉彦.评述新闻报道或文章色彩-正负两极性自动分类的研究[C]//自然语言理解与大规模内容计算-全国第八届计算语言学联合学术会议.清华大学出版社,2005:21 23. [5] Wang C,LuC,Zhang G.A semantic classification approach for online product reviews [C]//Proc of the 2005 IEEE /WIC/ACM International Conference on Web Intelli-gence.2005:276 279. [6] 徐琳宏,林鸿飞,杨志豪,等.基于语义理解的文本倾向性识别机制[J].中文信息报,2007,21(1):96 100. [7] 王文远,王大玲,冯时. 一种面向情感分析的微博表情情感词典构建及应用[J]. 计算机与数字工程, 2012, 40(11): 6-8 [8] 董丽丽, 赵繁荣, 张翔. 基于领域本体,情感词典的商品评论倾向性分析[J]. 计算机应用与软件, 2014,31(12): 105-108 [9] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space.arXiv:1301.3781,2013. [10] 杨鼎, 阳爱民.一种基于情感词典和朴素贝叶斯的中文 文本情感分类方法水[J]. 计算机应用研究, 2010, 27(10): 3736-3739 [11] 柳位平,朱艳辉,粟春亮,等.中文基础情感词词典构建方法研究[J].计算机应用,2009,29(11):2882-2884. [12] 蔺磺,郭姝慧.程度副词的特点范围与分类[J].山西大学学报,2003,26(2):71-74. [13] 郝雷红.现代汉语否定副词研究[D].北京:首都师范大学,2003. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。