网站首页  词典首页

请输入您要查询的论文:

 

标题 融合情感符号的自注意力BLSTM情感分析
范文

    刘臣 方结 郝宇辰

    

    

    

    摘 要:利用深度学习方法进行情感分析时,将文本作为一个整体进行编码,缺乏对表情符号与情感词的有效关注。而传统基于词典的方法则过分依赖于情感词典与判断规则的质量,不能充分考虑文本深层语义关系。针对该问题,构建融合表情符号与情感词的自注意力模型。通过BLSTM训練得到情感符号,并与文本特征向量融合,同时引入结构化自注意力机制识别文本中不同情感符号的情感信息。在NLPCC2014和微博公开语料数据集上的实验表明,相较传统情感分析方法,该模型可有效提高情感分类准确率。

    关键词:情感分析;情感符号;注意力机制;双向长短期记忆网络

    DOI:10. 11907/rjdk. 191707

    中图分类号:TP301 ? 文献标识码:A??????????????? 文章编号:1672-7800(2020)003-0039-05

    Self-attention BLSTM Emotion Analysis with Emotion Symbols

    LIU Chen, FANG Jie, HAO Yu-chen

    (School of Management, University of Shanghai For Science and Technology,Shanghai 200093,China)

    Abstract: In current emotion analysis tasks, deep learning usually encodes the text as a whole and lacks effective attention to emoticons and emotion words. The traditional dictionary-based approach relies too much on the quality of affective dictionaries and judgment rules and fails to fully consider the deep semantic relationship of texts. In this paper, a self-attention model integrating emoticons and emoticons is constructed, and emoticons and text features are obtained through BLSTM learning for fusion. At the same time, the self-attention mechanism is introduced to recognize the emotional information of different emotive symbols in the text. Experiments on NLPCCW 2014 and the Weibo public corpus data set show that compared with previous methods of emotion analysis, the model in this paper can effectively improve the accuracy of emotion classification.

    Key Words: emotional analysis;emoticons;attention mechanism; bidirectional long short-term memory network

    0 引言

    情感分析,也称为观点挖掘,其目的是对特定文本进行分析处理,挖掘其中蕴含的情感色彩[1]。作为自然语言处理(NLP)的重要分支,情感分析受到越来越多的关注。随着互联网行业的发展、微博社交平台的推广,网络中产生了大量短文本信息数据。分析微博内容是否包含用户主观情感、包含哪种极性的情感,对研究微博信息传播机制与动态、突发事件趋势预测,甚至股票市场预测均有重要意义[2-3]。

    现有微博情感分析方法主要可分为3种:基于情感词典的方法、传统机器学习方法与深度学习方法。基于情感词典的方法首先构建微博情感分析知识库,包括情感词典、短语词典、表情符号词典、句法依存关系规则库[1],然后利用知识库对微博情感进行聚合计算[4]。基于特征分类的机器学习方法首先进行特征工程,构建微博情感分类特征集;然后利用有监督的机器学习方法对情感博情绪进行分类[5]。其使用的特征集包括n-gram特征、词性特征、句法依存关系特征、TF-IDF特征。常用于微博情感分析的机器学习方法包括朴素贝叶斯方法、支持向量机、条件随机场,以及集成学习方法等[6]。首先基于深度学习的方法对微博文本进行分词,将词汇表示为词向量的形式;然后构建深度神经网络模型抽取微博文本语义,构建微博情感表征向量;最后进行情感分类。常用深度学习模型包括循环神经网络、卷积神经网络等。文献[7]利用双向长短期记忆网络模型针对微博用户负面情绪进行分析,将其分为愤怒、 悲伤和恐惧3种;文献[8]利用卷积神经网络模型进行微博情感倾向性分析;文献[9]将不同特征信息结合形成不同的网络输入,构建多通道卷积神经网络用于微博情感分类。为提高模型情感语义抽取能力,研究者在深度学习模型中引入了多种更复杂的机制,例如注意力机制、深度记忆网络等。

    注意力机制最早用于处理图像信息,Mnih等[10]根据人脑会集中关注自己感兴趣的事物的特点,通过计算注意力概率分布,对关键性输入进行突出表达,从而提高了图像分类效果。此外,注意力机制在文本分类和机器翻译等领域[11-12]也得到了广泛应用。张浩宇等[13]构建了自注意力网络模型,Pavlopoulos [14]在用户评论任务中首次运用深层注意力机制,取得了非常好的效果。

    在目前微博情感分析任务中,文本过短、对表情符号与情感词的作用体现不够,文本信息特征体现不足。为了解决以上问题,本文提出一种融合情感符号与文本信息的BLSTM神经网络模型,将文本信息和情感符号信息同时作为输入,通过BLSTM学习得到情感符号,与文本特征表示进行融合,引入结构化自注意力机制识别文本中不同情感符号的情感信息。

    1 双向LSTM模型

    长短期记忆(Long-Short Term Memory,LSTM)属于循环神经网络(RNN)的变种。依赖于其独特机制,LSTM能处理间隔距离长的文本特征信息,在自然语言处理中获得了广泛应用[15]。

    LSTM模型是由t时刻的输入词[xt]、细胞状态[Ct]、临时细胞状态[ct],隐层状态[ht]、遗忘门[ft]、记忆门[it]、输出门[Ot]组成。通过遗忘细胞状态中的信息、记忆新信息使对后续时刻计算有用的信息得以传递,而无用的信息被丢弃,并在每个时间步均会输出隐层状态[ht],其中遗忘、记忆与输出由通过上个时刻的隐层状态[ht-1]和当前输入[xt]计算的遗忘门[ft]、记忆门[it]、输出门[Ot]控制。

    遗忘门待遗忘的信息有:

    记忆门应记忆的信息有:

    当前时刻细胞状态为:

    输出门与当前时刻隐层状态为:

    最终,可以得到长度相同的隐层状态序列[h0,h1,?,hn-1}]。

    传统LSTM只能按次序读取文本,考虑微博上下文信息,本文使用能够双向提取特征的BLSTM模型。在每一个时间序列前后配置一个正向LSTM,由[x1]读取到[xt],以及一个反向LSTM,由[xt]读取到[x1],连接在同一个输出层,从而获取时间点过去、未来完整的上下文信息。

    2 注意力机制

    注意力机制最开始用于图像处理任务, 目的是从众多画面中找到对当前目标更关键的信息[16]。该方法借鉴了人类视觉注意力,即人类视觉扫描一个物体时,往往着重关注物体某个特定区域,而忽视一些次要信息,从大量信息中筛选出高价值的信息[17]。近年来,注意力机制在多个领域得到广泛运用。2014 年,Mnih等[5] 在图像分类任务上引入注意力机制,捕捉一幅图像的重要特征,获得了非常好的效果;随后,Bahdanau 等[7]将注意力机制应用于NLP 领域,在机器翻译任务上引入注意力模型,使翻译和对齐同时进行;张仰森等[18]在文本上使用双重注意力机制,成功提取到对文档比较重要的词或句子,提高了文本分类效果。

    令[w=[w1,?,wn]]表示输入序列,[h=[h1,?,hn]]=[gx] 为隐含层输出。[g]可用RNN、CNN或其它神经网络结构实现,用以对输入数据进行序列编码。注意力机制的思想是在特征提取时,对隐层输出序列的不同部分赋予不同程度的重要性权重。该权重是注意力机制的核心,表示为:

    其中,[q]称为查询向量,当[q]来自[h]时称为自注意力,[f]为[q]和[hi]的匹配函数,可以使用多种实现方式[19]。

    3 模型

    本文融合情感符号和结构化自注意力编码机制, 提出一种结构化BLSTM网络模型,该模型将BLSTM网络的长期上下文信息存储机制与结构化自注意力编码抽取句子多方面信息的能力结合起来。

    模型使用文本和情感符号信息作为输入,通过BLSTM学习得到情感符号矩阵与文本特征表示进行融合,引入自注意力模型提取句子中含有重要意义的表情符号与情感词构成新的文本表示向量。模型整体架构如图1所示。

    3.1 词向量输入层

    深度学习方法进行情感分析的第一步是将文本句子序列向量化。将微博文本与情感符号两部分作为模型输入。本文应用谷歌公司的一款开源词向量工具Word2Vec,利用词向量训练模型学习得到微博文本向量[w]与情感符号向量[E]。

    对一条微博文本:,模型输入主要包括两部分:微博文本的词向量矩阵[wi]与表情符号和情感词集合的词向量矩阵[Ej]。其中d为词向量维数。

    3.2 BLSTM层构建

    对于微博文本信息,不僅要考虑词语上下文联系,还要识别出不同文本词语对情感的表达程度,对情感表现重要的词语需要赋予更高权重。对于微博情感符号信息,则需要找出其中最重要的情感信号与情感词。所以本文模型使用两个双向LSTM 层分别对微博文本、情感词和表情符号进行训练,获取语义深层表达。其中,双向LSTM在文本层面产生的特征向量为:

    在情感符号层面产生的特征向量为:

    同时使用一个池化层聚合情感符号特征,进而产生单一的特征。在池化层生成情感符号特征向量表示为:

    3.3 特征融合

    在获取纯文本特征向量和情感符号的深层语义表达后,本文使用加的方式将文本经过BLSTM产生的特征与经过池化层将主题聚合后的特征进行连接,对每一条文本形成融合特征。

    3.4 结构化自注意力机制

    微博文本情感分析需更多地关注句子中的表情符号和情感词信息。因此本文引入注意力机制提取句子中含有重要意义的表情符号和情感词。为了提高句中针对主题表达情感词向量的贡献率,采用结构化自注意力机制,用以衡量与表情结合后微博中词语重要程度权重。

    是特征融合层输出,。其中,d 表示隐藏层维度,N 表示输入句子的长度。注意力模型通过对每一个输出状态[h*i] 进行加权,从而实现为输入文本构造一个上下文相关的文本表示向量S。

    ?S?表示句中每个词结合情感符号后的特征表示,[at]表示情感符号对句中第t个词的重要程度,其定义为:

    其中,[ws1]是大小为[?a*2u]的权重矩阵,[ws2]是大小为[?a]的向量参数,[?a]随机设定。将融合后获得的文本情感符号特征[h*i]和注意力权重[at]进行加权,即可得到一个定长的、与上下文相关的文本情感符号表示向量[S],向量中的信息包含各个输入状态的重要程度。

    3.5 情感分类

    模型最后由一个全连接神经网络层构成,其输入为最后一个计算步微博文本表示矩阵S,最终微博情感类别为:

    其中,W=[[w1,w2,?,wn]]为全连接层的权值矩阵,b=[[b1,b2,?,bn]]为残差向量。

    3.6 损失函数

    模型中全连接层的激活函数采用softmax函数,可将输出结果看作微博情感类别上的概率分布。因此模型采用交叉熵损失函数。

    其中,[D]为微博文档集合,t为集合里一条微博,[E]为情感类别集合,共分为3类(积极、消极、中性);优化目标是将所有数据中已知情感类别与预测情感类别的交叉熵最小化。[y]是真实情感类别,[y]是模型预测情感类别。

    3.7 注意力惩罚因子

    模型训练过程中,[at]中不同的注意力向量可能会关注同一个微博情感特征,造成信息冗余,影响模型性能。为了强制不同的注意力向量关注不同的特征,文献[20]提出一种惩罚机制,使不同的注意向量具有不同的分布,非零元素集中在不同的维度上。本文采用该惩罚机制,使最后一个计算步的注意力矩阵[at]中各注意力向量集中于不同的微博情感特征。该惩罚项作为目标函数的一部分,与损失函数同时在训练中最小化,因此模型训练的目标函数为:

    其中,[p∈[0,1]]为惩罚因子,为矩阵的Frobenius范数,[I]为单位阵。

    4 实验

    4.1 数据集

    为探究情感符号在微博情感分类中发挥的作用,增加具有情感符号的语料在整个数据集中的比重。其中[高兴]等归纳为消极类。本文将 NLPCC2014提供的中文评测数据集中所有包含情感符号的微博抽取出来,组成另一个语料,同时在微博平台爬取10 000条微博数据构建一个含有大量情感符号的微博语料,本部分以该语料作为实验数据进行分析,实验数据如表1所示。

    4.2 实验设置

    先对数据进行预处理,去除微博文本中的链接、微博用户名及部分标点符号。对3个数据集采用10折交叉验证进行实验,对于未包含表情符号与情感词的微博,采用均匀分布的U([-ε,ε])进行随机初始化。

    本文实验采用已预训练的Word2vec词向量进行初始化,文本中词向量维度、情感符号词向量维度和经过BLSTM 输出的特征连接后的维度均为300。注意力权重的维度和文本中的长度一致。实验中每 60 个样本1个 batch,共迭代40个epoch,Adam学习率为0.001,代价函数惩罚项为0.001。Dropout 设置为0.5,LSTM设置为64层,BLSTM为128层。

    4.3 实验对比

    为探究情感符号在微博情感分类中的作用,将本文提出的模型Att-BLSTM-text-emoij与以下5种模型在3个不同数据集上进行实验。

    (1)情感词典。该模型按规则进行匹配[3]。

    (2)SVM。该模型使用传统机器学习算法支持向量机进行情感分类[21]。

    (3)BLSTM。该模型将纯文本作为模型唯一输入,使用BLSTM对词向量进行训练。该模型包括一个前向LSTM和一个反向LSTM,将两者输出序列合并作为文本序列的表征向量,同样利用全连接层进行分类[22]。

    (4)BLSTM-text-emoji,即文本+表情符号输入的BLSTM情感分析网络模型。该模型考虑表情符号的特征信息,利用BLSTM模型训练提取文本深层语义信息。其优化目标及训练方法与本文模型相同。

    (5)Att-BLSTM。在BiLSTM的基础之上加入注意力机制,使隐含层的不同输出在最终的句子表达中发挥不同作用[23]。

    4.4 实验结果分析

    本文选取 NLPCC2014数据集与爬取的微博数据集的训练样本作为模型训练集进行模型训练和交叉校验,采用其测试样例进行测试,使用准确率作为情感分析的评估标准。结果如表2、图2所示。由表2实验结果可知,本文提出的融合情感符号特征的自注意力模型比其它4种模型效果更好,具有更高的准确率。

    图2中,横坐标为模型序号,纵坐标表示准确率。在传统情感分析方法中,SVM的准确率普遍优于构建情感词典模型,准确率有很大提升。而深度学习方法比传统方法(SVM、情感词典)效果更好。

    对比使用深度学习方法的4组实验结果,相对于模型3仅使用文本特征作为情感特征的输入,模型4、6使用情感符号与文本作为情感特征的输入,丰富了文本特征信息,取得了更好效果。模型5引入注意力机制,从实验结果来看,模型准确捕捉到了对文本分类更重要的特征,相对于模型3提升效果显著,但相对于结合情感符号模型4在微博文本分析中并没有绝对优势,原因可能在于微博短文本内容有限,不能充分表达情感信息。因此本文提出的模型6引入情感符号特征信息作为补充。综合以上数据集实验结果分析可知,本文提出的Att-BLSTM-text-emoji模型优于单独使用文本词向量与注意力机制的模型。

    由此可知,在情感分类任务上,引入情感符号特征和结构化注意力机制对情感分类准确率具有正面作用,可有效提高情感分类效果。

    4.5 可视化注意力机制

    本部分随機抽取数据集中3条微博验证本文自注意力模型的有效性。

    图3展示的是融合情感符号的自注意力模型分类结果。注意力向量α权重用颜色深度表示,权重越大颜色越深。文本(a)表示的情感符号是“[开心]”,模型注意力更多地体现在“好看”、“漂亮”等积极层面信息。

    而文本(b)表示的情感符号是“[难过]”。模型更多地关注“费电”、“偏僻”等负面信息。

    5 结语

    本文提出了一种融合文本信息与情感符号特征的自注意力情感分析方法。将微博情感符号和文本作为模型输入,通过双向LSTM模型训练得到上下文深层语义特征并进行融合,丰富了纯文本情感信息;同时引入结构化自注意力机制,提取文本中对情感分类具有重要意义的特征信息。在3个数据集上的实验表明,相比于传统情感分类研究方法,本文提出的模型准确率更高,模型泛化性更强。

    由于中文语义结构歧义性与复杂程度,模型对于文本语义特征提取的能力还有待提高。该模型还可进一步拓展,利用多分类方法进行细粒度更高的微博情绪分析。此外,微博中包含的情绪可能超过一种,下一步工作将考虑多个情感符号相互关系对语义信息的影响,利用基于深度学习的多标记分类方法进行微博情绪分析。

    参考文献:

    [1]宋祖康,阎瑞霞,辜丽琼.? 基于机器学习与情感词典的文本主题概括及情感分析[J].? 软件导刊, 2019, 18(4): 4-8.

    [2]PENG H, CAMBRIA E, HUSSAIN A. A review of sentiment analysis research in Chinese language[J]. Cognitive Computation,2017,9 (4):1-13.

    [3]拥措,史晓东,尼玛扎西. 短文本情感分析的研究现状——从社交媒体到资源稀缺语言[J]. 计算机科学,2018,45(S1):46-49+68.

    [4]TANG D Y, QIN B, LIU T. Document modeling with gated recurrent neural network for sentiment classification[C]. Proceedings of Conference on Empirical Methods in Natural Language Processing, 2015: 1422-1432.

    [5]MNIH V,HEESS N,GRAVES A,et al. Recurrent models of visual attention[C]. Proceedings of the 27th International Conference on Advances in Neural Information Processing Systems,2014:2204-2212.

    [6]周才东,曾碧卿,王盛玉,等.? 结合注意力与卷积神经网络的中文摘要研究[J]. 计算机工程与应用,2019, 55(8): 132-137.

    [7]BAHDANAU D,CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate[C]. Proceedings of International Conference on Learning Representations, 2015:1-15.

    [8]张浩宇,张鹏飞,李真真,等. 基于自注意力机制的阅读理解模型[J]. 中文信息学报,2018,32(12):125-131.

    [9]PAVLOPOULOS J,MALAKASIOTIS P,ANDROUTSOPOULOS I.Deeper attention to abusive user content moderation [C]. Proceedings of Conference on Empirical Methods in Natural Language Processing, 2017: 1136-1146.

    [10]PANG Bo, LEE L, VAITHYANATHAN S. Thumbs up?: sentiment classification using machine learning techniques [C]. ACL Conference on Empirical Methods in Natural Language Processing,2002: 76-86.

    [11]PONTIKI M,GALANIS D,PAVLOPOULOS J, et al. Semeval-2014 task4: aspect based sentiment analysis [C]. The 8th International Workshop on Semantic Evaluation. 2014: 27-35.

    [12]ROSENTHAL S, FARRA N, NAKOV P. SemEval-2017 task4: sentiment analysis in Twitter [C].? Proceedings of SemEval,2017:1-5.

    [13]KIRITCHENKO S,ZHU X D,CHERRY C,et al. NRC-Canada-2014: detecting aspects and sentiment in customer reviews [C]. Proceedings of the 8th International Workshop on Semantic Evaluation, 2014: 437-442.

    [14]劉思叶,田原,冯雨宁,等. 游客微博主题情感分析方法比较研究[J]. 北京大学学报:自然科学版,2018,54(4):687-692.

    [15]TAI K S, SOCHER R, MANNING S D. Improved semantic representations from tree-structured long short-term memory networks[C].? Procedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, 2015:1556-1566.

    [16]TANG D Y, QIN B, FENG X C,et al. Effective LSTMs for target-dependent sentiment classification [C].? Proceedings of the 26th International Conference on Computational Linguistics,2016: 3298-3307.

    [17]KIRITCHENKO S,ZHU X D,CHERRY C,et al. NRC-Canada-2014: detecting aspects and sentiment in customer reviews [C].? Proceedings of the 8th International Workshop on Semantic Evaluation, 2014: 437-442.

    [18]张仰森,郑佳,黄改娟,等. 基于双重注意力模型的微博情感分析方法[J]. 清华大学学报:自然科学版,2018,58(2):122-130.

    [19]VASWANI A, SHAZEER N, PARMAR N et al. Attention is all you need [C]. Long Beach:Proceedings of the Conference and Workshop on Neural Information Processing Systems (NIPS),2017.

    [20]LUONG M-T, PHAM H, MANNING C D. Effective approaches to attention-based neural machine translation[C]. Lisbon:Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2015.

    [21]韩开旭,任伟建. 基于改进Fisher核函数的支持向量机在推特数据库情感分析中的应用[J]. 自动化技术与应用,2015,34(11):30-36.

    [22]HOCHEREITER S,SCHMIDHUBER J. Long short-term memory[J].? Neural Computation, 2012, 9(8): 1735-1780.

    [23]QIU Y Y, LI H Z, LI S et al. Revisiting correlations between intrinsic and extrinsic evaluations of word embeddings[C]. Changsha: Proceedings of the Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data, 2018.

    (責任编辑:江 艳)

    收稿日期:2019-05-21

    基金项目:国家自然科学基金项目(7177411,71303157)

    作者简介:刘臣(1981-),男,上海理工大学管理学院副教授、硕士生导师,研究方向为互联网用户行为、Web数据挖掘;方结(1996-),男,上海理工大学管理学院硕士研究生,研究方向为自然语言处理、情感分析;郝宇辰(1995-),男,上海理工大学管理学院硕士研究生,研究方向为机器学习。

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/2/5 15:42:50