大数据环境下文本信息挖掘系统设计

2023.02.17

赵逸智+张云峰
摘要：传统文本信息挖掘技术系统能够对文本信息进行系统的信息挖掘，但是在大数据环境下容易产生系统的数据识别乱码以及数据干扰。针对上述问题，提出一种大数据环境下文本信息挖掘系统设计方案，在系统的硬件设备上增加数据简化器，通过数据简化器能够对数据进行一定的过滤筛选，保证数据进入识别阶段的准确率，同时促进了数据挖掘过程的效率，对文本信息挖掘的过程使用质数矩阵模型，通过建立的质数矩阵模型能够有效地对文本信息进行深层次的挖掘。同时优化了Aprioirt计算方法，保证了对文本信息的优先识别度，避免了传统方法中出现的数据混乱以及数据干扰问题。为了验证设计的大数据环境下文本信息挖掘系统的有效性，设计了对比仿真实验，通过实验数据的分析，有效地证明了设计的大数据环境下文本信息挖掘系统的有效性，避免了传统方法中出现的数据混乱以及数据干扰问题。
关键词：大数据环境；文本信息；关联密度； Aprioirt計算方法；挖掘系统
中图分类号： TN911.1?34； TP391 文献标识码： A 文章编号： 1004?373X（2018）01?0125?04
Abstract： The traditional text information mining technology system can carry out the systematic information mining for text information， but is easy to generate the data identification messy code of the system and data interference in the big data environment. Aiming at these problems， a design scheme of text information mining system in big data environment is put forward. The data reducer is added on the hardware device of the system， which can filter the data， ensure the accuracy of data entered into the recognition stage， and improve the efficiency of data mining. The prime number matrix model is used in the process of information mining to mine the text information deeply. The Aprioirt computing method is optimized to ensure the priority recognition of text information， avoid the data chaos and data interference of the traditional method. In order to verify the effectiveness of text information mining system in large data environment， the contrast simulation experiment was designed. The experimental data verifies that the text information mining system in large data environment is effective， and can avoid the data chaos and data interference of the traditional methods.
Keywords： big data environment； text information； correlation density； Aprioirt computing method； mining system
0 引言
伴随互联网时代的快速崛起，互联网的数据信息已经用海量来比拟[1?2]。随着信息储量的不断增加，对信息进行系统挖掘能够发现数据信息中的隐藏数据和潜在有价值的数据[3?4]。这样可以最大程度上的使用数据信息[5?6]。互联网环境下的数据传输方式都是以压缩的形式进行传递，在大数据的环境下，文本信息是传输的主体，能够占据大数据信息的[13]以上[7?8]。对文本信息的挖掘技术关系到文本数据的使用率和利用率[9]。传统的文本信息挖掘技术，对文本数据的挖掘面较窄，同时挖掘深度有限，无法挖掘出文本信息中潜在的有价值的信息内容[10]。最主要的问题是在大数据的环境下进行文本数据的挖掘，对数据信息的识别能力是一种严格的考验，特别是在数据类型比较混乱、复杂的情况下，能够有效的进行数据识别是关键。
针对上述问题，本文设计了一款大数据环境下文本信息挖掘系统。在系统的硬件设备上增加了数据简化器，保证了数据进入识别阶段的准确率，同时促进了数据挖掘过程的效率，对文本信息挖掘的过程使用的是质数矩阵模型，通过建立的质数矩阵模型能够有效地对文本信息进行深层次的挖掘。同时优化了Aprioirt计算方法，保证对文本信息的优先识别度，避免了传统方法中出现的数据混乱以及数据干扰问题。
本文设计了对比仿真实验，把传统的文本信息挖掘系统与本文设计的大数据环境下文本信息挖掘系统相比较，无论是在鲁棒性还是在挖掘深度上都比传统的文本挖掘系统强很多。因此，有效地证明了本文设计的大数据环境下文本信息挖掘系统能够进行准确的文本挖掘。
1 文本信息挖掘系統设计方案
本文设计的大数据环境下文本信息挖掘系统在硬件上进行了一定的优化，增加了数据简化器，能够保证在大数据的环境下，本文设计的大数据环境下文本信息挖掘系统能够有效地对数据进行系统识别，由于传统的文本数据挖掘系统容易出现数据混乱以及数据干扰，因此，本文使用质数矩阵数据模型对文本信息进行深层的数据挖掘，同时还优化了Aprioirt计算方法，避免出现数据混乱以及数据干扰的问题，有效地保证了文本信息挖掘过程的准确性。文本信息挖掘的流程图如图1所示。
2 硬件设计
本文设计的大数据环境下文本信息挖掘系统是在大数据的环境下进行使用的，因此本文给系统增加了数据简化器，方便在大数据环境下进行文本信息挖掘。本文设计的大数据环境下文本信息挖掘系统主要包括：数据引擎、数据简化器、数据筛选器、内核运算器、显示模块、控制电路、预备电源等。本文设计的大数据环境下文本信息挖掘系统硬件结构图，如图2所示。
3 软件设计
3.1 挖掘模型的建立
本文设计的大数据环境下文本信息挖掘系统使用质数矩阵模型进行文本信息有效挖掘，为了保证质数矩阵模型能够在数据关联过程的准确性，需要进行关联回归关系检测，可表示为：
[STx=UminKTx+UminUminG2max+nΔt=UminUminG2max+ndG2max] （1）
式中：[STx]表示文本信息的回归关系熵值；[Umin]表示质数关联度的使用系数；[KTx]表示回归关联方程的预设参数，能够反映模型所需的参数量；[G2max]表示最大数据环境下的关联密度参数；[Δt]表示变化预测数据的使用值。确定关联性以后需要进行聚类内核的控制计算，公式为：
[Hij=-O2iTij+LiLjBijcos?ij-Mijsin?ij] （2）
式中：[Hij]表示文本内核聚类比拟参数；[-O2i]表示大数据的文本参照系数；[Li，][Lj]分别表示内置文本数据的标注码、内置文本数据的识别参数；[Bij]表示参照的质数的分量比值；[?ij]表示大数据中文本数据的包含量；[Mij]表示文本数据的属性辨别参数。这样便可以进行质数矩阵模型的建立，公式如下：
[E=cnabKTx-KTjd?ij+cnabQ±L2j-G2max2PdG2max] （3）
质数矩阵模型不能够进行直接的使用，需要进行使用条件的限定。限定条件[fabcn]用公式表示为：
[fabcn=L2ijG-LiLjBijcos?ij-G2maxsin?ij-P2ij] （4）
经过上述的条件限定完成了质数矩阵模型的建立。
3.2 优化Aprioirt计算方法
本文对Aprioirt计算方法进行优化，主要目的是在文本信息挖掘过程中避免数据的干扰以及数据的混乱，完成数据挖掘。本文优化的Aprioirt计算方法能够在大数据的环境下进行数据信道分类，改变传统运算方式，这样能够更好地在大数据环境下进行识别分类，根据优化后的Aprioirt计算方法，首先需要进行信道优化，公式为：
[minE1=a1+a2+a3=KG] （5）
式中：[a1，][a2，][a3]分别表示分区信道过程中的有效属性值、有效系统参量、挖掘模型的识别边距；[KG]表示大数据环境下的信道编辑程度。由于本文设计的挖掘模型使用的是质数排列，因此需要对数列编辑进行重新组序，用公式表示为：
[ZJ=?2N?u?v=i=1neScos2.75?ijeι2i2] （6）
式中： [ZJ]表示质数数列的逻辑有效值；[?ij]表示数列抗偶集的参量值；[?2N]表示预计能够发生数列畸变的参数转换系数；[eι2i2]表示随机本文数据的属性有效值；[?u?v]表示设计的挖掘模型的阈代关联系数。经过上述计算便可以进行Aprioirt计算，其计算过程为：
[AE=m2aa+b+m2a?c2m2a+a+ba+b+m2a?aa+b] （7）
式中：[AE]表示进行Aprioirt计算过程中使用的参数，一般是在[100，240]值域范围内；[c2]表示文本信息数据的属性稳定性，不同类型的数据具有不同的稳定性，针对属性进行筛选能够提高对文本信息挖掘的能力； [m2a]表示文本信息数据蕴含的信息量。
4 仿真实验分析
4.1 参数设定
为保证设计的大数据环境下文本信息挖掘系统的有效性，对参数进行设置，[STx]文本信息的回归关系熵值在[78.65，85.2]值域范围之内；设置回归关联方程的预设参数[KTx]为9.6；为了保证大数据环境下文本信息挖掘系统能够更准确地对文本数据进行挖掘，设置[E2ab，][?2N，][eι2i2，][a1]分别为90.25，550，50.69，100。
设置实验参数如表1所示。
评价挖掘系统的指标主要有系统稳定性、结构数据辨识量差两种。
系统稳定性：
[P=MNan，m?a1n，mMNfn，m2?MNa1n，mb2] （8）
数据辨识量差：
[?=H-Dm-V2>0] （9）
根据上述仿真设定的参数进行实验，结果如下。
4.2 结果分析
在实验过程中，对传统挖掘系统与本文设计的挖掘系统的实验结果进行记录，如表2，图3，图4所示。
分析表2结果得知，本文设计的大数据环境下文本信息挖掘系统，其系统稳定性比传统的挖掘系统高出1.86，说明本文设计的挖掘系统稳定性更好，数据辨识量差是衡量挖掘系统有效性的指标，本文设计的挖掘系统比传统的挖掘系统高出5.5%，说明本文设计的挖掘系统更加有效。
分析图3结果得知，本文设计的大数据环境下文本信息挖掘系统的挖掘准确率明显高于传统的挖掘系统，同时可以有效避免数据干扰以及数据扰乱现象。
分析图4结果得知，本文设计的大数据环境下文本信息挖掘系统对文本信息进行挖掘的时间明显小于传统的挖掘系统。
5 结语
本文提出大数据环境下文本信息挖掘系统设计方案，在系统的硬件设备上增加了数据简化器，通过数据简化器能够对数据进行一定的过滤筛选，保证数据进入识别阶段的准确率，同时促进了数据挖掘过程的效率，对文本信息挖掘的过程使用质数矩阵模型，通过建立的质数矩阵模型能够有效地对文本信息进行深层次的挖掘。同时优化了Aprioirt计算方法，保证了对文本信息的优先识别度，避免了传统方法中出现的数据混乱以及数据干扰问题。通过本文的研究希望能够促进文本信息挖掘系统的发展。
参考文献
[1] 郜凯英，杨宜勇.中国互联网+社会保障信息系统构建：基于大数据挖掘视角[J].经济与管理研究，2016，37（5）：83?89.
GAO Kaiying， YANG Yiyong. Building of an Internet+social security informatization system in china?from perspective of big data mining [J]. Research on economics and management， 2016， 37（5）： 83?89.
[2] 李宁，罗文娟，庄福振，等.基于MapReduce的并行PLSA算法及在文本挖掘中的应用[J].中文信息学报，2015，29（2）：79?86.
LI Ning， LUO Wenjuan， ZHUANG Fuzhen， et al. MapReduce based parallel probabilistic latent semantic analysis for text mining [J]. Journal of Chinese Information Processing， 2015， 29（2）： 79?86.
[3] 葛岩，赵海，秦裕林，等.国家、地区媒体形象的数据挖掘：基于认知心理学与计算机自然语言处理技术的视角[J].学术月刊，2015（7）：163?170.
GE Yan， ZHAO Hai， QIN Yulin， et al. Data mining of national and regional media images： from the perspective of cognitive psychology and computer natural language processing technology [J]. Academic monthly， 2015（7）： 163?170.
[4] 周勇.大数据驱动下的视频内容生产模式探索：解析腾讯《事实说》节目的创新实践[J].新闻与写作，2015（5）：14?17.
ZHOU Yong. Exploration of video content production model driven by big data： analysis of the innovation practice of Tencent′s Fact program [J]. News and writing， 2015（5）： 14?17.
[5] 江波，王鄂生，孙巍.面向大数据知识服务的数字资源聚合与行业数字内容运营平台建设路径分析[J].科技与出版，2016（12）：80?83.
JIANG Bo， WANG Esheng， SUN Wei. Analysis of digital resource aggregation and industry digital content operation platform construction for big data knowledge service [J]. Science?technology & publication， 2016（12）： 80?83.
[6] 杨张博，高山行.基于文本挖掘和语义网络方法的战略导向交互现象研究：以生物技术企业为例[J].科学学与科学技术管理，2015，36（1）：139?150.
YANG Zhangbo， GAO Shanxing. Study on interactive pattern of strategic orientations based on text mining and semantic networks： case study of biotechnology firms [J]. Science of science and management of S. & T.， 2015， 36（1）： 139?150.
[7] 王末，王卷乐，赫运涛.地学数据共享网用户Web行为预测及数据推荐方法[J].地球信息科学学报，2017，19（5）：595?604.
WANG Mo， WANG Juanle， HE Yuntao. An approach for prediction of Web user behavior and data recommendation for geoscience data sharing portals [J]. Journal of geo?information science， 2017， 19（5）： 595?604.
[8] 郑祥江，殷明均.大数据视域下高校教学管理信息系统建设研究：以西南科技大学教学管理信息化建设为例[J].黑龙江高教研究，2015（1）：50?52.
ZHENG Xiangjiang， YIN Mingjun. The research on the tea?ching activities management system （TAMS） of higher education institutions under "big data"： based on the TAM of Southwest University of Science and Technology [J]. Heilongjiang researches on higher education， 2015（1）： 50?52.
[9] 李慧娟.大数据食物链、信息聚类系统、定制解决方案：汤森路透商业模式比较分析[J].编辑之友，2015（2）：79?84.
LI Huijuan. Big data chain， information cluster system and customized solutions： a comparative analysis on the business model of Thomson Reuters [J]. Editors′ friend， 2015（2）： 79?84.
[10] 徐迭石，刘胜辉，马超，等.大数据环境下MES作业计划与调度能力云服务化研究[J].计算机工程与科学，2016，38（4）：624?633.
XU Dieshi， LIU Shenghui， MA Chao， et al. A cloud servitization method for job shop scheduling capability of MES in big data environment [J]. Computer engineering and science， 2016， 38（4）： 624?633.