基于改进的TF-IDF和贝叶斯算法的新闻分类
王彬 司杨涛 付军涛
摘 要:本文提出一种基于改进的TF-IDF和贝叶斯算法的新闻分类方法,目的是利用改进的TF-IDF算法提取新闻文本中的特征词集合,然后计算每个特征词的TF-IDF值,并将TF-IDF值形成特征向量作为贝叶斯算法的输入来实现新闻文本的分类。本文随机搜集了大量的不同类别的新闻文本进行分类实验,实验结果表明,该方法对不同类别的新闻都有较好的分类效果。
关键词:新闻分类;TF-IDF;贝叶斯算法;特征词
以前,人们主要从电视、报纸等传统媒介获取新闻,通过这种方式获取的新闻数量有限,且新闻的受众群体也不太普遍。随着科技和网络时代的发展,电脑和智能手机等电子设备的普及,人们获取新闻的方式逐渐转变为从网络上获取为主。网络新闻不仅数据量巨大,而且更新和传播的速度都非常快。海量的网络新闻一方面使用户可获得的信息量越来越多,极大地推动信息的传递,但另一方面也使用户获取自己感兴趣或对自己有用信息的效率降低。因此,对网络新闻加以分类,仅呈现给用户他们比较感兴趣的新闻是一个值得研究的问题[1]。
在文本分类领域,统计学习方法是一种被广泛应用的方法。統计分类方法的基本思想是先将文本分词,再运用一定的规则将样本文本转换为特征向量,然后构建合适的分类模型,将特征向量作为模型的输入对模型进行优化训练,训练完的模型即可实现文本的分类。文本分类的方法有很多,目前常用的方法有KNN算法、支持向量机、贝叶斯算法等。本文将采用一种基于改进的TF-IDF和贝叶斯算法的分类方法对新闻进行分类。
1 基于改进的TF-IDF和贝叶斯算法的新闻分类
1.1 改进的TF-IDF算法
TF-IDF算法可以用来评估一个字词对一个语料库或文件集中的一份给定文件中的重要程度。一个字词的重要性与它在某份文件中出现的次数正相关,字词在文件中出现的次数越多重要性越大,但同时与它在语料库中出现的频率成负相关,语料库中出现的次数越多,则该字词的重要性越小[2,3]。因此,TF-IDF值可以用来作为对新闻文本分类的依据。
词频(term frequency,TF)指的是一个字词在一份给定文件中出现的总的次数。逆向文件频率(inverse document frequency,IDF)可以由语料库中的文件总数除以包含该字词的文件数目,再将得到的商取对数获得。若某一字词在一个文件内部的词频较高,而在整个语料库中的词频较低,那么这个字词对该文件的重要性比较大。所以,TF-IDF值可以用来过滤常用字词,仅保留文档中可以突出文档特征的字词。
传统的TF-IDF算法是将经过分词的文件作为输入(可通过结巴分词器进行分词,并去除停用词),输出是每个字词的TF-IDF值,然后将TF-IDF值从大到小排序,取前TOP-N个字词作为特征词用于分类。TF-IDF算法步骤如下:
步骤1:统计每个字词在文件中出现的次数,计算字词的TF值,计算方法如公式(1)所示。
2 实验结果
本文随机搜集了10类共100000份新闻文本进行分类实验,10个类别分别为体育、军事、游戏、科技、财经、电影、美食、综艺、时尚、情感,每个类别的新闻样本各10000份。然后从每个类别中随机抽出7000份作为训练样本,剩余的3000份作为测试样本。最后利用改进的TF-IDF和贝叶斯算法的新闻分类方法验证分类效果,各个类别分类的精确率、召回率和F1值统计值如下表所示。从统计值中可见,本文所提的方法对不同类别的新闻的分类精确率都比较高,较好地实现了新闻文本分类效果。
3 结语
本文提出了一种基于改进的TF-IDF和贝叶斯算法的新闻分类方法,并随机搜集了大量的体育、军事、游戏等类别的新闻文本进行分类实验,实验结果表明该方法较好地实现了新闻分类,但如何进一步提高新闻分类的精确率,还有待进一步研究。
参考文献:
[1]刘冬瑶,刘世杰,陈宇星,张文波,周振.新闻文本自动分类概述[J].电脑知识与技术,2017,13(35).
[2]李春梅.基于TF-IDF的网页新闻分类的研究与应用[J].贵州师范大学学报,2015,33(06).
[3]张云纯.基于TF-IDF和互信息的推荐算法[J].计算机时代,2019(12).
[4]杨欣,郭建彬.基于改进TF-IDF的百度百科词语相似度计算[J].甘肃科学学报,2019(2).
[5]祁小军,兰海翔,卢涵宇,丁蕾锭,薛安琪.贝叶斯、KNN和SVM算法在新闻文本分类中的对比研究[J].电脑知识与技术,2019,15(25).
[6]周红卫,周宏印.基于向量空间用户兴趣模型的态势情报信息分发机制[J].指挥信息系统与技术,2015,6(6).
[7]梁珂,李健,陈颖雪,刘志钢.基于朴素贝叶斯的文本情感分类及实现[I].智能计算机与应用,2019(5).
[8]冯勇,屈渤浩,徐红艳,王嵘冰,张永刚.融合TF-IDF和LDA的中文FastText短文分类方法[J].应用科学学报,2019(03).
[9]曾小芹.基于Python的中文结巴分析技术实现[J].信息与电脑,2019(18).
作者简介:王彬,男,汉族,硕士,研发工程师,研究方向:自然语言处理。