标题 | 深度学习视域下的文本特征提取方法分析 |
范文 | 聂维 刘小豫 康世英 【摘? 要】特征提取是当前关于文本挖掘、自然语言处理、信息检索、文本情感分析和网络舆情分析等领域的研究重难点。一方面,特征提取是基于文本挖掘系统的基本因素;另一方面,从文本分类结果的角度而言,文本特征提取性能是分类结果的重要衡量指标。因此,论文详细地阐述了传统的文本特征提取方法和深度学习视域下的文本特征提取方法,并对基于深度学习视域下的文本特征提取方法在实际应用中出现的问题进行分析和创新,以期能够帮助提高提取效率和提取质量。 【Abstract】Feature extraction is an important and difficult topic in the field of text mining, natural language processing, information retrieval, text sentiment analysis and network public opinion analysis. On the one hand, feature extraction is the basic factor of text mining system; on the other hand, from the perspective of text classification results, text feature extraction performance is an important measure of classification results. Therefore, this paper elaborates the traditional text feature extraction methods and text feature extraction methods from the perspective of deep learning, and analyzes and innovates the problems in the practical application of text feature extraction methods from the perspective of deep learning, so as to help improve the extraction efficiency and quality. 【關键词】深度学习;文本特征;提取方法;自然语言处理 【Keywords】deep learning; text feature; extraction method; natural language processing 【中图分类号】TP391.1;TP18? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文献标志码】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章编号】1673-1069(2020)09-0190-02 1 当前对文本特征提取的主要方法 随着信息技术的不断发展,计算机网络的应用已经成为日常生活中不可缺少的组成部分。随着近年来云计算应用和大数据的兴起,网络中所存储的文件数量和内容都越来越多,越来越广泛。在保证大量存储文件中的文本信息能够得到有效管理和组织的基础上,如何快速、准确地获取到文本信息中的内容成为当前文本挖掘、信息检索或是网路舆情信息分析等行业首要解决的问题。由于网络文本信息内容具有多样性、复杂性、不规范性和冗余性的特点,因此,在对网络文本信息进行特征提取时首先要对高纬度特征进行降维。另一方面,在高纬度特征空间中,提取最优特征子集也可以归纳至特征提取方法中。但就目前的提取方法而言,主要分为Filter过滤式和Wrapper封装式两种提取方式。特征提取方式作为文本分类的关键,对于文本分类的好坏起到直接的影响作用。一是由于特征提取的方式不同对于所提取内容的特征子集优劣不同。二是在特征提取过程中,要选择出能够有效展示信息完整性的子集特征,才能够最大限度地保证文本分类的质量。 1.1 Wrapper封装式特征选择算法 Wrapper封装式的提取方法相较于Filter过滤式的提取方法在很大程度上会过于依赖监督式机器的学习技术。监督学习主要是指在特征选择的过程中,对于特征子集的训练和学习。监督式机器根据所训练的内容和特征对于特征子集产生一定的判断结果,并对其优劣进行评定。由于监督机器需要设定固定的训练模型,因此,对于数据较为庞大的样本时仍然具有较大的局限性。 1.2 Filter过滤式特征选择算法 Filter过滤式作为一项效率高、运算快的特征选择提取方式,相比较于Wrapper封装式的提取方法具有一定的独立性,它是不依赖于训练集和监督机器的。Filter过滤式特征选择算法主要是根据特定的评估函数的运算,选择出最能够体现文本类别特征的合集。刚开始特征类别的合集仅仅是作为特征空间的子集存在的,在经过不同函数的评估和判定之后,得出相应的特征合集。目前Filter过滤式特征选择算法包括距离测度、信息测度、一致性测度和相关性测度四个方面。 2 深度学习视域下的文本特征提取方法 特征提取作为机器学习中较为重要的特征工程任务,是相关处理机器所需要学习的重要内容之一,同时在数据挖掘和信息检索中也起着不可忽视的作用。就目前来看,在机器学习的众多人物中,特征提取往往在起着决定性作用。一方面,在常用类任务方面,分类结果是取决于特征提取的质量。另一方面,在传统的特征提取方法中,人工提取是主要的提取手段,这种提取方法包含了冗余的分类任务和提取特征,使得人工提取难度增加,无论是在质量方面还是在效率方面都具有一定的局限性。为了解决这一问题的困扰,大多是对任务特征进行降维,在保证特征提取质量时,又加大了工作量。因此,传统的特征提取方式并不能很好地满足当前社会的需求。 近年来,随着我国信息技术的不断发展,对于特征提取的相关技术手段的研究内容也不断增加。其中较为著名的有使用多个卷积层与池化层的卷积网络来对高光谱图像的特征进行提取,并通过实验后具有不错的检测效果。在文本特征提取方面,主要是关于基于深度学习的特征提取方法居多,其中包括自编码的神经网络特征提取、受限波兹曼机特征提取和循环神经网络特征提取等。这些基于深度学习理念的特征提取方法不仅对传统词袋模型进行了探讨,同时对非传统神经网络特征提取方法也提供了一定的借鉴材料。因此,在这一时期内,结合深度学习理念的特征提取称为研究热点。 目前,基于深度学习理念的特征提取技术在图像领域的应用不断加强,而有关于文本特征提取的报道却并不多见。在对中文文本提取特征的研究成果中,相关的研究内容更是稀缺。而传统的手工特征提取方法不仅维度较大,同时也具有效率低和耗费资源等问题。因此,深度学习作为近年来文本特征提取的重要指导思想,对文本特征的提取难度和特征提取效率都具有一定的帮助。 因此,在本文中,对基于深度学习视域下的特征提取方法主要从卷积神经网络结构和卷积循环神经网絡结构两种处理方式来展开。同时对于两种方式下的特征提取方式作了详细的解释,以期能够更为准确地表达出文本信息的内容,从而获得更好的分类效果。 2.1 卷积神经网络 卷积神经网络结构相对于特征提取方面的应用,更为常用的是在计算机视觉领域并且相关的应用技术都已经趋于成熟。随着深度学习理念的发展,卷积神经网络结构也被越来越多的学者应用于自然语言的处理领域,并且取得了较好的实验效果。在当前的文本特征提取中,卷积神经网络更常见地应用于对任务的分类中,分类效果良好。 2.1.1 TF-IDF TF-IDF(term frequency-inverse document frequency)是在卷积神经网络结构中的组成部分之一,是基于统计学的应用技术之一,主要是用来计算词权重的方法之一,同时也是特征向量化的常用方法。TF-IDF目前更多地应用于信息检索和数据挖掘等方面,该方法不仅能够准确地评估某一个具体文档在语料库或其他文档中的重要程度,还能够详细地分析出某一文件的具体权重,从而帮助区分文档的独立性。 2.1.2 Word2vec Word2vec是与TF-IDF相似的,是作为卷积神经网络结构的组成部分之一。而不同的地方主要体现在,TF-IDF主要是对文本权重的分析,而Word2vec则是词嵌入工具。这种词嵌入工具最早源于谷歌,同时也是在自然语言处理领域中较为常用的一种词嵌入方式。在理论上,Word2vec是通过将每个特征词映射至向量空间,并通过其中的某一个向量表现出来。通过所表现的向量来刻画出具体的文本语言信息,从而使计算机特征之间的相关性更为明显。Word2vec作为词嵌入工具主要有两种模型:一是跳字模型。跳字模型是根据文本中的中心词来预测上下文的背景,同时根据检测特征词来调整中心词的词向量。二是连续词袋模型。连续词袋模型不同于跳字模型,主要是依据上下文的背景来预测中心词,而后根据上下文之间的区别和变化来不断调整中心词的词向量。 2.2 循环卷积神经网络 卷积神经网络结构相较于神经网络结构而言,更具有局部特征的提取优势,这主要是因为长短期的记忆网络更能够捕捉上下文信息。卷积神经网络结构能够对所需要提取的文本进行多组特征提取,并对所提取的多组文本特征进行池化,从而得到文本内容中较为重要的特征,最后再由提取出的重要特征送入LSTM神经网络检测,并得出最终结果。 3 结论 本文详细地阐述了传统的文本特征提取方式和基于深度学习理念下的本文特征提取方式,并对不同的特征提取方法作了一定的比较和探讨。在特征提取方面,要充分考虑到本内容中特征词的词性,位置分布和相互之间的关系,只有充分考虑到这些因素,才能够将特征提取和分类方法完美结合,才能够对特征提取的内容进一步完善。 【参考文献】 【1】聂维,刘小豫.深度学习视域下的文本表示方法研究[J].科技资讯,2019,17(18):30+32. 【2】庞景安.Web文本特征提取方法的研究与发展[J].情报理论与实践,2006(03):338-340+367. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。