网站首页  词典首页

请输入您要查询的论文:

 

标题 结合Bert字向量和卷积神经网络的新闻文本分类方法
范文

     刘凯洋

    

    

    

    摘要:目前的文本分类大多使用词向量,且词向量大多由Word2vec,Glove等方法训练得到,其存在的问题是部分文本中词语的数量较多而训练速度较慢,且准确率受到切词的影响。由于中文字词和英文差异较大,提出结合Bert字向量的文本分类方法。Bert是一个由Google提出的以Transformer为基础的自然语言处理通用模型,它提供了汉语字符级别的词向量即字向量。利用Bert字向量并使用卷积神经网络对新闻进行文本分类。在准确率较高的情况下,其效率高于结合词向量的文本分类方法。

    关键词:Bert;CNN;文本分类;字向量;新闻

    中图分类号:TP391 文献标识码:A

    文章编号:1009-3044(2020)01-0187-02

    文本分类是自然语言处理领域中较为重要,且实用性非常强的方向之一。在深度學习技术兴起之前,朴素贝叶斯是一种高效而不失准确率的文本分类方法,SVM也被应用于文本分类中并取得不错的结果。近几年随着深度学习技术的迅速发展,神经网络也被应用在了文本分类技术之中,如2016年提出的TEXTCNNTM正是把卷积神经网络(以下简称CNN)应用于文本分类中并取得了较好的效果,除此之外RNN,LSTM等网络也结合了文本分类领域。2018年Google提出了Bert模型,本文结合了Bert字向量和CNN来对新闻进行文本分类,流程更加简洁,效率更高,结果较好。

    1文本分类流程

    1.1字符库提取

    在实验之前要把数据集中文本出现的所有字符提取并去重构成字符库,字符按出现次数由多到少进行排列,以便于下一步的字符向量化。由于使用字向量而非词向量,省去了切词的步骤,只需把出现的字符提取即可。在通常的文本中,常用汉字大约有3000个,本文的数据集中所有汉字加上字符共有5282个,删去出现最多的字符和最少的字符共282个,剩余5000个字符作为字符库。较之于词语的数量,使用字向量在效率上也会有显著提高。

    1.2字符向量化

    1.2.1 Bert介绍

    Bert是一个自然语言处理的通用模型,其基础是Attention机制。Attention机制的提出是为了解决RNN无法并行等缺点。在此之后Google提出了完全建立在Attention之上的Trans-former模型,Bert正是由多个Transformer模型的Encoder结构堆叠而成。Bert具有预训练的特点,即先使用大规模的语料进行无监督学习得到预训练模型。使用者可以在具体的自然语言处理任务中直接使用此模型或者微调后使用。

    1.2.2生成字向量

    本步骤需要把上一步所得的字符进行向量化,生成Bert字向量。GooSe提供的中文Bert模型参数如表1所示:

    由表可得,字符向量化后的维数为768,由于本文实验数据集大小的限制以及方便和word2vec方法进行对比,Bert字向量需要降维,因此使用t-SNE方法[]把向量维度降至100维。

    1.3构建CNN

    本文使用的CNN主要参数如下:

    (1)Embedding层,设定为100维。

    (2)Seq_length层,设定句子长度为800字符,不足的用空字符补齐,多余的删去。

    (3)Vocab_size层,设定字符库大小为5000。

    (4)Num_fihers层,设定filter为128个。

    (5)Kernel_sizes层,设定filter尺寸分别为3,4,5个字符。

    (6)Num_classes层,设定分类数为10。

    (7)Dropout层,设定为0.5。

    2实验结果评价和对比

    2.1数据集

    本文使用的数据集皆在清华大学开源的中文新闻数据集THUCTC中随机抽取。共4个数据集,编号为数据集1,数据集2,数据集3,数据集4。每个数据集有50000条新闻,其中有10个分类,每个分类下有5000条新闻,4000条作为训练集,1000条作为测试集。

    2.2实验环境

    本文的实验环境如表2所示:

    2.3实验结果对比

    由实验结果可得,Bert词向量和Bert字向量分别结合CNN实验结果的准确率差别不大,两者均较优于Word2vec词向量+CNN的结果。但是Bert词向量+CNN花费的训练时间是Bert字向量的6.32倍,Word2vec词向量+CNN训练花费的时间是Bert字向量的6.75倍。除此之外,词向量结合CNN准确率会受到切词准确性的影响。因此综合效率和准确率,Bert字向量的结果是最优的。

    3结论

    本文利用Bert字向量结合CNN的文本分类方法,在实验中取得了较好的结果,事实上字向量的最大优势在于结合了汉字中“字即是词”的特点,训练速度快,占用内存小,且准确率不受切词准确度的影响,在需要兼顾效率和准确率的文本分类任务中表现会更好。

    此外,目前已经有了针对汉字笔画向量的研究,在词向量的训练上,也有了效果超越Bert的新模型Xlnet,结合这些新的技术方法,文本分类的准确率和效率会得到进一步的提高。

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2024/12/23 1:35:29