《基于改进BP网络的中文期刊论文分类方法》-管理学论文，图书馆情报与档案管理论文-论文范文参考-科学狗论文网

网站首页词典首页

标题	基于改进BP网络的中文期刊论文分类方法
范文	关键词：BP网络；论文分类；特征提取摘要：文章将改进BP网络应用到期刊论文的分类领域中。该方法根据中文期刊论文的特点选择题名、摘要及关键词作为特征项的来源，计算特征项的权值，设定阀值对特征项向量进行降维处理，最后利用BP神经网络对不同的阀值分别进行分类实验，比较其效果。中图分类号:TP391文献标识码：A文章编号：1003-1588（2014）05-0061-03 收稿日期：2014-03-11 作者简介：张瑾（1970-），郑州轻工业学院图书馆馆员。1序言 1960年，Maron发表了第一篇自动分类文章，将贝叶斯定理运用于文本自动分类，标志着自动分类技术的正式产生［1］。1998年，JoachimsT将支持向量机算法应用于文本自动分类［2］，Yang Y.和Chute C.G两位学者提出了 K邻近的分类方法［3］。相对于国外，国内的文本自动分类研究起步相对较晚，基于机器学习技术的自动分类也是目前我国文本自动分类领域的主流。国内学者的研究对象主要是中文文本自动分类，国内学者学习并应用了各种分类算法，并根据中文的特点构建了我国的中文文本自动分类体系［4］。刘锋将径向基神经网络模型应用到了XML文本的自动分类中［5］。胡清华提出了可变精度的粗糙集模型，引入精度的概念，提高了处理不一致信息的能力［6］。笔者将文本分类技术应用到期刊论文的自动分类中，根据期刊论文的特点，在选择数据上进行改进，同时对传统的BP网络算法进行改进，构建分类系统，从大规模期刊论文中提取分类的信息，并验证其分类的可行性。 2期刊论文分类的问题描述期刊论文分类的任务是：在给定的分类体系下，根据论文的主题自动确定论文的类别。从数学角度看，期刊论文分类是一个映射过程，它将未知分类的论文映射到已有的类别中。该映射可以是单映射，也可以是一对多映射。笔者为了简化问题，采用一对一映射。论文分类的映射规则是系统根据已经掌握的每个类别的很多样本数据信息，总结出分类规律而产生的分类规则，完成分类器的构建。输入未知类别的论文，根据分类规则确定其相应的类别。 3数据预处理 3.1空间模型为了使计算机能够自动分类，必须先将论文转换为计算机可以识别的格式，笔者采用向量空间模型（即VSM）。其基本思想是以向量模式表示一篇论文：（W1，W2，W3，…，Wn），其中Wi为第i个特征项的权重。论文在结构上由题名、作者、摘要、关键词及正文等组成，笔者认为这些信息中能够为论文分类提供依据的有题名、摘要和关键词。笔者采用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS (Institute of computing Technology，Chinese Lexical Analysis system ) ，对题名和摘要进行分词，然后进行停用词剔除，将得到的词语和关键词一起组成特征项。在文本自动分类研究中，计算特征项的权值时一般采用TF-IDF算法来计算，笔者采用另外一种方式计算特征项权值，即特征项出现在题名中时其权值为3，出现在关键词中权值为5，出现在摘要中权值为2。在正常情况下特征项在题名中重复的概率很低，故不考虑出现的频率。但在摘要中的特征项重复的概率较高，频率为m，在计算特征权值时，其权值为2*m。因特征项可能即出现在题名中又出现在关键词或摘要中，此时设定权值取最大值。 3.2特征提取对期刊论文进行向量空间表示之后，特征空间的维数会很大，因此必须进行特征抽取。特征抽取可以降低空间维数，简化计算，防止过度拟合。特征抽取常用的方法有：文档频率法、信息增益、相互信息法和x2统计法等。笔者采用一个新的方法即设定一个阀值，剔除小于阀值的特征项，保留大于阀值的特征项。 3.3期刊论文类别目前中国知网的期刊论文的类别是依据《中国图书馆分类法》进行人工标引获得的分类号。《中国图书馆分类法》共分5个基本部类、22个大类。采用汉语拼音字母与阿拉伯数字相结合的混合号码，用一个字母代表一个大类，以字母顺序反映大类的次序，在字母后用数字作标记。为适应工业技术发展及该类文献的分类，对工业技术二级类目，采用双字母。例如：分类号TP391代表信息处理（信息加工）。 4改进BP神经网络分类器传统BP网络具有思路清晰、结构严谨、工作状态稳定、可操作性强等特点，并且由于隐层节点的引入，使得一个三层的非线性网络可以以任意精度逼近任何连续函数，从而在模式识别、非线性映射、复杂系统仿真等许多领域得到广泛应用。但存在几个缺陷［7］：①传统的BP网络既然是一个非线性优化问题，这就不可避免地存在局部极小问题。②学习过程中，学习速度缓慢，易出现一个长时间的误差平坦区，即出现平台。其原因主要是其算法中网络权值以及阈值的每次调节的幅度均以一个与网络误差函数或对其权值导数大小成正比的固定因子进行。针对BP算法收敛速度慢的缺点，笔者引入带动量的批处理梯度下降的思想，即每一个输入样本对网络并不立即产生作用，而是等到全部输入样本到齐，将全部误差求和累加，再集中修改权值，即根据总误差E=∑kEk修正权值，以提高收敛速度。在调整权值时加入动量项，降低网络对于误差曲面局部细节的敏感性，有效地抑制网络过冲现象，此时， △Wji（t）=ηEWji+ηα△Wji（t-1）(1) 其中，α为动量系数，加入的动量项相当于阻尼项，以减小学习过程的振荡趋势，从而改善收敛性。其算法如下： ①初始化权值和阈值； ②给定输入x和目标输出y； ③计算实际输出y：张瑾：基于改进BP网络的中文期刊论文分类方法张瑾：基于改进BP网络的中文期刊论文分类方法yj= 瘙楋（∑iwjixi-θj）(2) ④修正权值，比起传统的算法增加了动量项，权值调整公式为： wji（t+1）=wji（t）+ηα△wji（t）(3) △wji（t）=ηEWji+ηα△wji（t-1）=ηδixi+ηα△wji（t-1）(4) E=∑kEk=∑k∑i12（yki-yki）2(5) 其中若j为输出节点，则 δj=（y-yj）yj（1-yj）(6) 若j为隐层节点，则 δj=yj（1-yj）∑kδkwkj(7) ⑤若达到误差精度或是循环次数，则输出结果，否则回到②。 BP网络训练完成之后，得到的权系数和阈值系数就是一个预测模型。当输入的样本数据是若干组分类数据时，得到的就是一个预测分类模型。 5实验 5.1测试标准评价文本分类系统，一般采用准确率(Precision)、召回率(Recall)和F1值来衡量分类效果。查准率(Precision): P=AA+B查全率（Recall）： R=AA+C其中，A一正确地分入该类的文档数； B一错误地分入该类的文档数； C一错误地划出该类的文档数；准确率和召回率反映了分类质量的两个不同方面，其中一个指标提高，会导致另一个指标下滑，采用两者的调和平均值，计算公式如下： F1=2PRP+R=2A2A+B+C 可以看出F1值越大，抽取性能就越好。 5.2数据准备文中所有的数据均从中国知网上进行获取，在中国知网上可以获取到的信息有题名、作者、摘要、分类号、关键词等。笔者使用工具在中国知网上抓取了2万篇左右的期刊论文信息作为实验样本。保留题名、摘要、关键词和分类号。其中18,000篇论文作为训练用，2,000篇论文作为测试使用。对实验样本的题名和摘要进行分词，剔除停用词，计算其和关键词的权值，形成文本空间模型。 5.3实验结果在上述工作基础上，笔者对文中特征提取的方法设置阀值对空间模型进行降维，并测试了不同阀值选取对分类的性能的影响。笔者分别选择阀值为1、2和3进行测试，得到效果如表1。表1不同阈值下分类的效果阀值123准确数1,5401,5741,605查准率94.94%96.15%96.75%查全率94.19%95.34%96.92%值94.57%95.74%96.83%由表1可知,在阈值为1时,由于加权,所有特征项的特征值都是大于1的,故实验结果是未经过降维处理得到的结果；当阈值为2时,特征值为2的特征项将会被删除,删除只在摘要并且只出现过一次的特征项,实验结果F1值提升了 1.18个百分点,说明有一定的效果；当阈值为3时, 特征值小于等于3的特征项将会被删除,删除只在题名或摘要中出现并且只出现过一次的特征项 ,实验结果值达到了96.83%。 6结语笔者将BP神经网络应用到期刊论文的分类中。根据论文的特点合理选择题名、摘要及关键词作为特征项来源，并计算特征项的权值，设定阀值对特征向量进行降维处理，最后利用BP神经网络分别对不同的阀值进行实验。实验表明在阀值设置为3时，分类效果最好。参考文献: ［l］孙建军,成颖等编著.信息检索技术［M］.北京:科学出版社,2004. ［2］Joachims T. Text categorization with support vector machines: learning with many relevant features［C］. In: Proceedings of 10 European Conference on Machine Learning (ECML-98), Chemnitz , DE, 1998, 137-142. ［3］Yang Y. Chute C.G. An example-based mapping method for text categorization and retrieval ［J］.ACM Transactions on Information Systems,1994,12(3): 252-277. ［4］陈玉芹.多类别科技文献自动分类系统［D］.湖北:华中科技大学,2008. ［5］刘锋,唐佳,仲红.一种基于RBF祌经网络XML文本分类方法［J］.计算机技术与发展,2009(8):34-36. ［6］胡淸华,谢定霞,于达仁.基于粗糙集加权的文本分类方法研究［J］.情报学报,2005(1): 59-63. ［7］周朴雄.基于神经网络集成的WEB文档分类研究［J］.图书情报工作，2008（7）：110-112. （编校：严真） 5.3实验结果在上述工作基础上，笔者对文中特征提取的方法设置阀值对空间模型进行降维，并测试了不同阀值选取对分类的性能的影响。笔者分别选择阀值为1、2和3进行测试，得到效果如表1。表1不同阈值下分类的效果阀值123准确数1,5401,5741,605查准率94.94%96.15%96.75%查全率94.19%95.34%96.92%值94.57%95.74%96.83%由表1可知,在阈值为1时,由于加权,所有特征项的特征值都是大于1的,故实验结果是未经过降维处理得到的结果；当阈值为2时,特征值为2的特征项将会被删除,删除只在摘要并且只出现过一次的特征项,实验结果F1值提升了 1.18个百分点,说明有一定的效果；当阈值为3时, 特征值小于等于3的特征项将会被删除,删除只在题名或摘要中出现并且只出现过一次的特征项 ,实验结果值达到了96.83%。 6结语笔者将BP神经网络应用到期刊论文的分类中。根据论文的特点合理选择题名、摘要及关键词作为特征项来源，并计算特征项的权值，设定阀值对特征向量进行降维处理，最后利用BP神经网络分别对不同的阀值进行实验。实验表明在阀值设置为3时，分类效果最好。参考文献: ［l］孙建军,成颖等编著.信息检索技术［M］.北京:科学出版社,2004. ［2］Joachims T. Text categorization with support vector machines: learning with many relevant features［C］. In: Proceedings of 10 European Conference on Machine Learning (ECML-98), Chemnitz , DE, 1998, 137-142. ［3］Yang Y. Chute C.G. An example-based mapping method for text categorization and retrieval ［J］.ACM Transactions on Information Systems,1994,12(3): 252-277. ［4］陈玉芹.多类别科技文献自动分类系统［D］.湖北:华中科技大学,2008. ［5］刘锋,唐佳,仲红.一种基于RBF祌经网络XML文本分类方法［J］.计算机技术与发展,2009(8):34-36. ［6］胡淸华,谢定霞,于达仁.基于粗糙集加权的文本分类方法研究［J］.情报学报,2005(1): 59-63. ［7］周朴雄.基于神经网络集成的WEB文档分类研究［J］.图书情报工作，2008（7）：110-112. （编校：严真） 5.3实验结果在上述工作基础上，笔者对文中特征提取的方法设置阀值对空间模型进行降维，并测试了不同阀值选取对分类的性能的影响。笔者分别选择阀值为1、2和3进行测试，得到效果如表1。表1不同阈值下分类的效果阀值123准确数1,5401,5741,605查准率94.94%96.15%96.75%查全率94.19%95.34%96.92%值94.57%95.74%96.83%由表1可知,在阈值为1时,由于加权,所有特征项的特征值都是大于1的,故实验结果是未经过降维处理得到的结果；当阈值为2时,特征值为2的特征项将会被删除,删除只在摘要并且只出现过一次的特征项,实验结果F1值提升了 1.18个百分点,说明有一定的效果；当阈值为3时, 特征值小于等于3的特征项将会被删除,删除只在题名或摘要中出现并且只出现过一次的特征项 ,实验结果值达到了96.83%。 6结语笔者将BP神经网络应用到期刊论文的分类中。根据论文的特点合理选择题名、摘要及关键词作为特征项来源，并计算特征项的权值，设定阀值对特征向量进行降维处理，最后利用BP神经网络分别对不同的阀值进行实验。实验表明在阀值设置为3时，分类效果最好。参考文献: ［l］孙建军,成颖等编著.信息检索技术［M］.北京:科学出版社,2004. ［2］Joachims T. Text categorization with support vector machines: learning with many relevant features［C］. In: Proceedings of 10 European Conference on Machine Learning (ECML-98), Chemnitz , DE, 1998, 137-142. ［3］Yang Y. Chute C.G. An example-based mapping method for text categorization and retrieval ［J］.ACM Transactions on Information Systems,1994,12(3): 252-277. ［4］陈玉芹.多类别科技文献自动分类系统［D］.湖北:华中科技大学,2008. ［5］刘锋,唐佳,仲红.一种基于RBF祌经网络XML文本分类方法［J］.计算机技术与发展,2009(8):34-36. ［6］胡淸华,谢定霞,于达仁.基于粗糙集加权的文本分类方法研究［J］.情报学报,2005(1): 59-63. ［7］周朴雄.基于神经网络集成的WEB文档分类研究［J］.图书情报工作，2008（7）：110-112. （编校：严真）
随便看	感谢那次批评这才是春青与书结缘网课二三事这就是我的承诺利用还原情境法解决诗歌多元解读的困惑高中语文教学策略分析高中诗歌鉴赏指导如何提高高中生的语文阅读水平课本作品再利用开拓作文新天地这样的人让我佩服友谊的直通车不一样的新年我的飞机冲上天假如我变成一只兔子过年向英雄致敬小学综合实践活动策略简析项目式学习，向阅读更深处漫溯小学道德与法治课上的美育渗透用“心”转化待优生低年级寓言故事教学策略依托大阅读，推进阅读实践活动开展深度阅读促进素养提升巧借文本，写话亦精彩 reddishly reddishness reddishnesses reddy redebate redebated redebates redebating redebit re-debit redebited redebiting redebits redecay redecayed redecaying re-decays redecays redeceived redeceives redeceiving redecided redecides redeciding redecision 一点儿可取之处都没有一点儿听不进去一点儿富余也不能一点儿指望没有了一点儿收成都没有一点儿神气也没有一点儿神气都没有一点儿都不知道一点儿都没有遗漏一点兴趣也没有一点办法也想不出一点办法也没有一点动静都没有一点半点一点半点儿一点半点，很少一点一点回响也没有一点头绪也没有，对某件事摸不着边一点好东西都不遗漏一点子一点富裕也没有一点对的地方也没有一点小小的恩惠，不能使所有人都得到一点小小的才能一点小的成绩

科学优质学术资源、百科知识分享平台，免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。