卷积神经网络在微博反讽语句识别中的应用

    霍瑞雪 白晓雷

    

    

    

    【摘要】 ? ?随着互联网信息发布平台日益增多,网民发表情感的方式也逐渐多元化,其中反讽这一特殊修辞手法得到了广泛使用,对其的识别也变得日益迫切。为了更好的识别微博语料中的反讽语句,研究了一种改进后卷积神经网络模型。卷积神经网络是人工智能领域的一个重要组成部分,应用范围极其广泛,也是目前人工智能领域的研究重点。卷积神经网络凭借着特征自主学习的优势在自然语言处理方面有着出色的表现。通过实验,利用特征与词向量双输入的卷积神经网络模型对反讽识别准确率有了明显提升。

    【关键词】 ? ?卷积神经网络 ? ?机器学习 ? ?反讽识别

    引言:

    随着互联网信息发布平台的逐渐增加,网民的发布内容也变得多样化。其中反讽作为一种特殊的表达方式,也占有相当大的比例。反讽通常是以一种正面的文字表达不屑、嘲笑等反面的信息内容,为微博平台自身管理带来了一定的挑战。本文基于卷积神经网络模型对反讽语句的识别展开研究,为微博等互联网信息发布平台开展内容审核提供一种新的思路。

    一、技术研究路线概述

    本文的主要技术路线如图1所示,首先是对实验数据的收集。该部分主要是对微博的数据进行爬取,过滤,清洗、标注形成初步的实验数据集。

    其次对实验数据进行特征提取。特征主要包含两方面,一是通过人工提取的方式,找到反讽语句共通的特征。例如:很好又要加班了,该句中的“很好……又”,就可以作为一种特征。二是通过卷积神经网络模型中独特的卷积层和池化层,自主提取特征。

    然后使用词向量与特征共同融入至卷积神经网络模型。实现反讽特征、词向量的双输入,提高卷积神经网络反讽识别的准确性。

    最后将经过改善的卷积神经网络模型与传统机器模型进行对比,并通过人工方式验证识别效果,并持续对模型进行优化,持续提高模型的反讽文本识别准确率。

    二、数据集建立与特征选择

    2.1 实验数据集建立

    为了更好的进行卷积神经网络模型的训练,提高准确性,本研究明确了采用监督学习的方式。监督学习需要对训练样本进行标注,反讽的标注过程,主要是将反讽看做二分类,若为反讽则标注为1,否则标注为0。在标注的同时对不符合要求的数据进行清洗、扩充、去噪等处理。另外为了保证标注结果的准确性,减少人工判定的偏差。在标注完成后,又采用交叉检验的方式,最终得到标注后的反讽语句共2888条,为了防止实验数据集类别倾斜,影响分类的性能,需要把数据类别平衡化,又从非反讽中任意抽取了2888条语料,使得中文反讽数据集最终由反讽与非反讽各2888条语料,共5776条语料构成了反讽平衡语料库。

    2.2 特征选择

    反讽语言特征的选择好坏与最终识别结果有着紧密的联系,为了提取最佳的语言特征,本研究利用在文本检测方面有着较大优势的卡方统计法。卡方统计法首先假设特征和类别之间是相互独立的,主要通过计算偏差来判断相关性。当卡方值较小时,说明二者相关性不大;当卡方统计值较大时,说明选取的特征和类别相关性较高,可以作为该类别的特征。

    反讽特征词汇的选择:

    通过计算卡方值,人工提取了緊密度较高的反讽词汇,如绝了、果然、就这、极好、不愧、牛逼、真有你的、你敢信、真是高啊等。

    三、融合反讽特征的卷积神经网络

    3.1 词嵌入向量

    词向量技术是将自然语言中的词语转化为稠密的向量,相似的词会有相似的向量表示,这样的转化方便挖掘文字中词语和句子之间的特征。生成词向量的方法从一开始基于统计学的方法到基于不同结构的神经网络的语言模型方法。到现在为止已经有很多成熟的词向量模型,本研究中采用的是TF-IDF模型来进行词向量的训练。

    TF-IDF模型是一种统计方法,用来衡量字词对于文本的重要程度。字词的重要性随着它在当前文本中出现的频率成正比,随着它在语料库中其他文本中出现的频率成反比,因此TD-IDF也经常被用来提取文本的特征。该模型的计算公式如下:

    在实验中只要设置合适语料,就可以训练出高质量的词向量。

    3.2 融合反讽特征与词向量技术的卷积神经网络模型

    为了更好的提高反讽的识别精度,本研究采用词向量与反讽特征双输入的卷积神经网络模型进行训练。具体流程:首先输入语料,使用特征对语料进行扩展,再统一进行分词。之后使用词向量模型对扩展分词后的进行使用词向量对融合特征的句子形成矩阵。最后将矩阵输入至卷积神经网络模型,经过卷积层、池化层自动提取特征向量,并在全连接层进行拟合,最后在输出层分类器sigmoid分类器进行输出。

    3.2.1输入层

    由于我们要进行识别的是反讽语句,要想使用卷积层、池化层进行特征的进一步提取就需要把语句转化为矩阵的形式。我们实验集的语句经过词向量的训练后,已经形成矩阵。

    首先使用分词工具对句子进行分词,假设一个句子为“醉了,当着这么多人也不脸红,是真够厉害的”使用分词工具进行分词后得到的为“醉 了 , 当着 这么 多人 也 不 脸红 , 是 真够 厉害 的”。

    3.2.2卷积层

    卷积层的作用主要是用于特征的提取。和之前的人工特征提取不同,此处的特征提取是模型随着训练次数的增多自主提取的。考虑到本课题是对文本的识别,卷积神经网络的过滤器只能在矩阵的列上移动才能正确的识别出特征。

    3.3 具体实验过程与结果分析

    为了进一步验证融合特征与词向量的卷积神经网络在反讽识别上的优势,采用keras 深度学习的框架,在GT740显卡上展开了实验。

    3.3.1评价指标

    本课题采用的是精确率、召回率、F值三个指标作为实验结果的评判指标。其中主要是以准确率作为重要的整体评价指标。

    3.3.2参数设置

    本课题反讽语料库中20%用来做测试集。实验中卷积神经网络的卷积层的过滤器设置大小为[3,4,5]训练迭代次数为20次,batch size是32,dropout率设为0.5.

    3.3.3实验结果

    按照约定的把反讽语料数据划分成了4:1的形式。实验主要过程是对比融合反讽特征以及词向量后的卷积神经网络与融合反讽特征以及词向量后词袋模型在反讽识别上的主要差别。其中词袋模型采用支持向量机(svm),朴素贝叶斯(NB)和随机森林(rf)三种方法。

    融合反讽特征与没有融合词袋模型的训练结果对比如下所示:

    由此可见,融合了反讽特征后的,传统的机器模型识别精确度都有所提升。可见融入反讽特征在对反讽识别上具有一定的积极作用。

    将融合反讽特征以及词向量技术的卷积神经网络与融合反讽特征以及词向量技术的传统模型进行对比,实验结果如下:

    由此可见卷积神经网络在反讽识别上相比较传统的机器学习模型的确优势较为明显。

    四、结束语

    针对微博反讽语句识别,本文提出了一种融合反讽特征的深度学习的模型。该方法首先对微博的反讽语料数据进行预处理,人工提取反讽语料中出现频率较多的特征词,之后采用分词工具对语句、特征进行分词,再用词向量进行训练,转换成矩阵模块,最后再采用与卷积神经网络模型上进行训练与对比,得到最终实验结果相比较与传统的分类器精确率有明显提高,进一步验证深度学习在反讽识别方面具有显著优势。

    参 ?考 ?文 ?献

    [1]卢欣. 基于深度学习的中文反讽识别及其情感判别研究[D]. ?山西大学, 2019.

    [2] 罗婷. ?社交网络评论中的反语识别研究[D]. ?云南:云南财经大学, 2017.

    [3] 罗观柱. ?面向社交媒体的反讽识别[D]. ?哈尔滨工业大学, 2019.