海量图书检索中的模糊目标确定技术
张艳菊
摘 要: 传统图书检索技术如人工检索和模糊目标确定模型对海量图书信息进行检索时,存在检索效率低和准确性差的弊端。因此,设计一种新的海量图书检索模糊目标确定模型,给出模糊目标确定技术的四大优势,引入读者相关性概念,利用检索相关模型和检索无关模型分别对模糊关键词进行内容检索,得到两种与读者相关性有关的检索排列结果,选择两种结果中模糊关键词性质比重较大的排列顺序实现检索输出。实验评估结果表明,所设计的模型检索结果符合读者需求,具有较高的检索性能。
关键词: 海量图书检索; 模糊目标确定技术; 排列; 读者相关性
中图分类号: TN911.1?34; TP391.3 文献标识码: A 文章编号: 1004?373X(2017)13?0137?04
Abstract: The traditional book retrieval technology, such as artificial retrieval and fuzzy target determination model, has the disadvantages of low retrieval efficiency and poor accuracy when it is used to retrieve the massive book information, therefore a new fuzzy target determination model for massive book retrieval was designed. Four major advantages of fuzzy target determination technology are given. The concept of reader relevance is introduced. The retrieval relevant model and query independent model are adopted to perform the content retrieval for fuzzy keywords respectively. Two retrieval arrangement results related with reader relevance are obtained, in which the arrangement sequence with high proportion of fuzzy keyword retrieval property is selected to realize the retrieval output. The experimental evaluation results show that the retrieval results of the model can meet the needs of readers, and the model has high retrieval performance.
Keywords: mass book retrieval; fuzzy target determination technology; arrangement; reader relevance
0 引 言
传统海量图书进行目标检索有两种人工方式:第一种是为图书粘贴写有图书分类以及内容信息的卡片,由读者在图书馆中浏览选择;另一种是利用掃描设备进行检索[1]。两种方法在索引中都要浪费大量时间,不能给读者带来优质的阅读体验,在进行海量图书信息卡片粘贴时成本较高,不利于图书馆长期盈利。信息是人们日常生活中最基本的沟通介质,就业、念书、购物、行路都离不开信息,信息时代的来临加速了经济与人文发展,不断为人们带来新的生活方式和文化理念。目前,纸质图书馆也渐渐受到信息时代的影响而向智能化方向发展,打破了海量图书人工检索的弊端,大大加快了检索效率。
根据以上情况,使用计算机技术解决传统检索方法比较适合信息时代发展。针对海量图书索引,模糊目标确定技术是很好的解决方法,如文献[2]所表述的模糊目标确定模型,其检索范围大、准确性强,可令纸质图书变成信息集合体,同时兼具图书推广功能。但该模型的检索关系需要进行改进,这是因为其检索结果未能依照特定规则进行排列,读者往往不能快速找寻到所需内容,这样的检索相当于无效。因此,模糊目标确定技术还需要对读者的检索目标进行条件组合,以求取全面、快速、高质量的检索能力。
1 模糊目标确定技术
1956年,美国一位数学家率先提出“模糊集合”的概念,其目的是针对一些无法获取表面含义的事件进行模糊推理,从而令事件具有条理性。之后,模糊目标确定技术在智能控制领域迅速发展起来,具体是指一个针对事件重要信息进行检索的过程。模糊目标确定技术能够从检索关键词中发现模糊关键词,从而拓宽检索范围,得到更加全面的检索结果。如果检索内容过于复杂,该项技术还可以接受一些比较简短且模糊的关键词,具备十分强烈的友好性。
模糊目标确定技术可应用在所有关系型数据库中[3],例如Oracle数据库,其在检索关键词“爱”时,模糊目标确定技术先对关键词的定义进行模糊确定,给出“喜欢”、“崇拜”、“愿意”、“友谊”、“享受”等模糊关键词,再采用通用符号对事件中的模糊关键词进行限制。通用符号一般包括四种,即“%”、“_”、“[ ]”、“[^]”,分别代表多字符、单字符、多字符框选、单字符框选[4]。如事件“爱与友谊的建立都是人生中的享受过程”在检索结果中的链接定义为:爱“_”与友谊“%”的建立都是人生中的享受“%”过程。
与传统检索技术相比,模糊目标确定技术拥有四大优点,即便捷性、实用性、拓展性和启发性,如图1所示。便捷性为用户设置出便于理解的数据端口;实用性表示该项技术实用的查询语言比较大众;拓展性指其在模糊关键词的设置上涉及范围广泛,词义灵活;启发性表示用户可以在历史检索结果中进一步挑选关键词,逐渐实现精准检索。
2 海量图书模糊检索相关性排列模型
2.1 读者相关性影响因素
相关性是检索技术中的重要内容,海量图书检索的作用是屏蔽无用内容、查询读者所需内容。在模糊目标确定技术中,海量图书模糊检索相关性表示图书数据库的图书内容与模糊关键词之间的配合程度,其可能是立体动态的,也可能是一维静态的。
通过分析文献[2]中模糊目标确定技术的使用弊端,引入“读者相关性”这一概念,对海量图书检索性能进行改进。读者相关性基本定义式如下:
式中:表示模糊关键词与图书检索词条真实值集合;表示对进行协方差计算;表示模糊关键词与图书检索词条平均值。
读者相关性是指模糊关键词与图书检索词条之间的良性配合程度。海量图书检索作业中的检索数据量大,读者心理变化是连接关键词的重要沟通介质,它受到读者性格与情绪、图书馆环境、检索时间、目标定义复杂性等多种因素的影响[5],图2为读者相关性影响模式图。
读者相关性能够从侧面映射模糊目标确定技术所给出海量图像检索结果的真实可信度,由于受到以上因素的影响,读者相关性在相同的检索关键词上进行模糊目标索引,所得到的结果是无法一直保持不变的[6],因此,需要使用两个相关性排列模型综合两个模型的结果做出最佳决策。
2.2 检索相关模型
检索相关模型负责进行模糊关键词相关内容的读者相关性排列,使用的是概率检索理论,这种模型可以对模糊关键词实施量化处理,对读者相关性的概率定义比较精准,检索相关模型目标函数如下:
式中:表示检索相关模型对海量图书检索内容的排列结果;表示词条模型;表示词条在图书内的词条出现频率;表示图书内的词条数量;表示模糊关键词词条长度;表示第个词条中关键词的比重;与均表示模糊检索参数。
可以看出,在检索相关模型中使用读者相关性基本定义式并不合适,原因是计算海量图书检索词条平均值需要花费大量时间,故将读者相关度的表示形式转化为:
式中:表示平滑参数[7],表示词条最大频率。
2.3 检索无关模型
检索无关模型采用网页链接形式删除与模糊关键词无关的海量图书词条,并对剩余内容进行读者相关度排序,此时,读者相关度排序的计算公式为:
式中:表示非模糊关键词,是图书词条出链集合;表示阻尼系数;是出链数量。
采用检索无关模型对读者相关度进行排列,所得结果可以表示为:
式中表示含有链接的网页数量。
可以看出,检索无关模型的计算量要远远小于检索相关模型,但检索精度不高[8]。因此,在进行排列结果融合的过程中,仍然以检索相关模型为主,如果两种检索结果的交集为空,则为读者显示检索相关模型给出的结果。
3 海量图书索引模糊目标确定模型
海量图书检索模糊目标确定模型负责将两种读者相关性排列模型的检索结果进行融合。由于两种读者相关性排列模型将读者相关性分为概率相关性和结构相关性,因此在进行结果融合时,需要着重考虑模糊关键词性质比重,模型目标函数可直接表示成模糊关键词性质比重的计算公式。设模糊关键词性质比重为根据式(1),模糊关键词与图书检索词条真实值集合的协方差越大,模糊关键词在某图书中出现的频率越高,读者相关度就越大[9]。如果读者提供的某个关键词有个模糊关键词,用…,表示,图书检索结果用…,表示,其中,每条检索结果的字节数为字节内容表示为…,那么,检索无关模型和检索相关模型中第个模糊关键词在第一个排列结果上的性质可表示为和。
设检索无关模型和检索相关模型的某条检索结果上存在和个模糊关键词,如果读者的思维情绪确定其索引目标属于类别则模糊关键词性质比重可表示为:
最佳检索结果应取检索无关模型模糊关键词性质比重和检索相关模型模糊关键词性质比重中的较大值。
为海量图书检索模糊目标确定模型的检索语言进行定义,表示如下:
Opt Form Book List;
FROM Table Book List;
When
Contrast and
Set Up .
其中,表示综合输出结果,其满足。
采用模糊关键词性质比重进行海量图书检索结果处理,可以将比重大的结果优先显示,令检索输出更加符合读者需求,同时过滤掉了与关键词无关的检索结果,收缩了输出结果。
4 模型性能测试
4.1 数据处理规则
实验采用归一化累积增益评估方法,对文献[2]中传统模糊目标确定模型与本文中海量图书检索模糊目标确定模型进行评估。归一化累积增益评估将展示检索输出的有效性,其目标函数为:
式中:表示归一化;表示检索因子;表示类别的排列位置有效性度量;表示检索输出总数。
为一个市级大型图书馆建立Oracle数据库,实验将在两种情况下计算两种模型的归一化累积增益评估值。分别设传统模糊目标确定模型和本文模型的归一化累积增益评估平均值为和,如果则预示着本文模型的检索结果更加符合读者需求。
4.2 对比计算
设置两个关键词,分别是“2015”和“通知”。传统模糊目标确定模型与本文模型检索结果的排列位置有效性度量如表1,表2所示。
设关键词“2015”和“通知”在两种模型中的归一化累积增益评估值分别为和计算和值,有:
可知,因此,本文模型的检索结果更加符合读者需求,檢索性能高。
5 结 论
图书检索是现代图书馆内一项非常重要的工作,好的检索模型对提高读者阅读体验意义非凡。对此,本文设计海量图书检索模糊目标确定模型,其针对传统模糊目标确定模型的重大弊端进行改进,将不同检索结果排列模型输出进行重新组合,在改进检索效率的同时提高了模型的有效性,使检索结果更加符合读者需求。
参考文献
[1] 刘中.海量图书关键词特征检索定位优化仿真研究[J].计算机仿真,2016,33(9):422?425.
[2] 王敏,嵇绍春.基于模糊聚类和模糊模式识别的数字图书馆个性化推荐研究[J].现代情报,2016,36(4):52?56.
[3] 缪丰羽,王宏志.图结构模糊XML文档上的模式匹配算法[J].计算机科学,2016,43(11):284?290.
[4] 邓创,鞠立伟,刘俊勇,等.基于模糊CVaR理论的水火电系统随机调度多目标优化模型[J].电网技术,2016,40(5):1447?1454.
[5] 黄裕文.基于模糊逻辑的风廓线雷达目标检测技术[J].现代雷达,2016,38(8):43?45.
[6] 刘文学,梁军,贠志皓,等.考虑节能减排的多目标模糊机会约束动态经济调度[J].电工技术学报,2016,31(1):62?70.
[7] 赵安学.海量题库中的特定数据搜索系统的设计与实现[J].现代电子技术,2016,39(20):49?52.
[8] 魏江来.数据库模糊逻辑推理中的关键信息索引优化[J].计算机仿真,2016,33(8):457?460.
[9] 申艳光,张猛,范永健.面向加密云数据的多关键词模糊检索方法[J].计算机工程与设计,2016,37(12):3156?3160.
摘 要: 传统图书检索技术如人工检索和模糊目标确定模型对海量图书信息进行检索时,存在检索效率低和准确性差的弊端。因此,设计一种新的海量图书检索模糊目标确定模型,给出模糊目标确定技术的四大优势,引入读者相关性概念,利用检索相关模型和检索无关模型分别对模糊关键词进行内容检索,得到两种与读者相关性有关的检索排列结果,选择两种结果中模糊关键词性质比重较大的排列顺序实现检索输出。实验评估结果表明,所设计的模型检索结果符合读者需求,具有较高的检索性能。
关键词: 海量图书检索; 模糊目标确定技术; 排列; 读者相关性
中图分类号: TN911.1?34; TP391.3 文献标识码: A 文章编号: 1004?373X(2017)13?0137?04
Abstract: The traditional book retrieval technology, such as artificial retrieval and fuzzy target determination model, has the disadvantages of low retrieval efficiency and poor accuracy when it is used to retrieve the massive book information, therefore a new fuzzy target determination model for massive book retrieval was designed. Four major advantages of fuzzy target determination technology are given. The concept of reader relevance is introduced. The retrieval relevant model and query independent model are adopted to perform the content retrieval for fuzzy keywords respectively. Two retrieval arrangement results related with reader relevance are obtained, in which the arrangement sequence with high proportion of fuzzy keyword retrieval property is selected to realize the retrieval output. The experimental evaluation results show that the retrieval results of the model can meet the needs of readers, and the model has high retrieval performance.
Keywords: mass book retrieval; fuzzy target determination technology; arrangement; reader relevance
0 引 言
传统海量图书进行目标检索有两种人工方式:第一种是为图书粘贴写有图书分类以及内容信息的卡片,由读者在图书馆中浏览选择;另一种是利用掃描设备进行检索[1]。两种方法在索引中都要浪费大量时间,不能给读者带来优质的阅读体验,在进行海量图书信息卡片粘贴时成本较高,不利于图书馆长期盈利。信息是人们日常生活中最基本的沟通介质,就业、念书、购物、行路都离不开信息,信息时代的来临加速了经济与人文发展,不断为人们带来新的生活方式和文化理念。目前,纸质图书馆也渐渐受到信息时代的影响而向智能化方向发展,打破了海量图书人工检索的弊端,大大加快了检索效率。
根据以上情况,使用计算机技术解决传统检索方法比较适合信息时代发展。针对海量图书索引,模糊目标确定技术是很好的解决方法,如文献[2]所表述的模糊目标确定模型,其检索范围大、准确性强,可令纸质图书变成信息集合体,同时兼具图书推广功能。但该模型的检索关系需要进行改进,这是因为其检索结果未能依照特定规则进行排列,读者往往不能快速找寻到所需内容,这样的检索相当于无效。因此,模糊目标确定技术还需要对读者的检索目标进行条件组合,以求取全面、快速、高质量的检索能力。
1 模糊目标确定技术
1956年,美国一位数学家率先提出“模糊集合”的概念,其目的是针对一些无法获取表面含义的事件进行模糊推理,从而令事件具有条理性。之后,模糊目标确定技术在智能控制领域迅速发展起来,具体是指一个针对事件重要信息进行检索的过程。模糊目标确定技术能够从检索关键词中发现模糊关键词,从而拓宽检索范围,得到更加全面的检索结果。如果检索内容过于复杂,该项技术还可以接受一些比较简短且模糊的关键词,具备十分强烈的友好性。
模糊目标确定技术可应用在所有关系型数据库中[3],例如Oracle数据库,其在检索关键词“爱”时,模糊目标确定技术先对关键词的定义进行模糊确定,给出“喜欢”、“崇拜”、“愿意”、“友谊”、“享受”等模糊关键词,再采用通用符号对事件中的模糊关键词进行限制。通用符号一般包括四种,即“%”、“_”、“[ ]”、“[^]”,分别代表多字符、单字符、多字符框选、单字符框选[4]。如事件“爱与友谊的建立都是人生中的享受过程”在检索结果中的链接定义为:爱“_”与友谊“%”的建立都是人生中的享受“%”过程。
与传统检索技术相比,模糊目标确定技术拥有四大优点,即便捷性、实用性、拓展性和启发性,如图1所示。便捷性为用户设置出便于理解的数据端口;实用性表示该项技术实用的查询语言比较大众;拓展性指其在模糊关键词的设置上涉及范围广泛,词义灵活;启发性表示用户可以在历史检索结果中进一步挑选关键词,逐渐实现精准检索。
2 海量图书模糊检索相关性排列模型
2.1 读者相关性影响因素
相关性是检索技术中的重要内容,海量图书检索的作用是屏蔽无用内容、查询读者所需内容。在模糊目标确定技术中,海量图书模糊检索相关性表示图书数据库的图书内容与模糊关键词之间的配合程度,其可能是立体动态的,也可能是一维静态的。
通过分析文献[2]中模糊目标确定技术的使用弊端,引入“读者相关性”这一概念,对海量图书检索性能进行改进。读者相关性基本定义式如下:
式中:表示模糊关键词与图书检索词条真实值集合;表示对进行协方差计算;表示模糊关键词与图书检索词条平均值。
读者相关性是指模糊关键词与图书检索词条之间的良性配合程度。海量图书检索作业中的检索数据量大,读者心理变化是连接关键词的重要沟通介质,它受到读者性格与情绪、图书馆环境、检索时间、目标定义复杂性等多种因素的影响[5],图2为读者相关性影响模式图。
读者相关性能够从侧面映射模糊目标确定技术所给出海量图像检索结果的真实可信度,由于受到以上因素的影响,读者相关性在相同的检索关键词上进行模糊目标索引,所得到的结果是无法一直保持不变的[6],因此,需要使用两个相关性排列模型综合两个模型的结果做出最佳决策。
2.2 检索相关模型
检索相关模型负责进行模糊关键词相关内容的读者相关性排列,使用的是概率检索理论,这种模型可以对模糊关键词实施量化处理,对读者相关性的概率定义比较精准,检索相关模型目标函数如下:
式中:表示检索相关模型对海量图书检索内容的排列结果;表示词条模型;表示词条在图书内的词条出现频率;表示图书内的词条数量;表示模糊关键词词条长度;表示第个词条中关键词的比重;与均表示模糊检索参数。
可以看出,在检索相关模型中使用读者相关性基本定义式并不合适,原因是计算海量图书检索词条平均值需要花费大量时间,故将读者相关度的表示形式转化为:
式中:表示平滑参数[7],表示词条最大频率。
2.3 检索无关模型
检索无关模型采用网页链接形式删除与模糊关键词无关的海量图书词条,并对剩余内容进行读者相关度排序,此时,读者相关度排序的计算公式为:
式中:表示非模糊关键词,是图书词条出链集合;表示阻尼系数;是出链数量。
采用检索无关模型对读者相关度进行排列,所得结果可以表示为:
式中表示含有链接的网页数量。
可以看出,检索无关模型的计算量要远远小于检索相关模型,但检索精度不高[8]。因此,在进行排列结果融合的过程中,仍然以检索相关模型为主,如果两种检索结果的交集为空,则为读者显示检索相关模型给出的结果。
3 海量图书索引模糊目标确定模型
海量图书检索模糊目标确定模型负责将两种读者相关性排列模型的检索结果进行融合。由于两种读者相关性排列模型将读者相关性分为概率相关性和结构相关性,因此在进行结果融合时,需要着重考虑模糊关键词性质比重,模型目标函数可直接表示成模糊关键词性质比重的计算公式。设模糊关键词性质比重为根据式(1),模糊关键词与图书检索词条真实值集合的协方差越大,模糊关键词在某图书中出现的频率越高,读者相关度就越大[9]。如果读者提供的某个关键词有个模糊关键词,用…,表示,图书检索结果用…,表示,其中,每条检索结果的字节数为字节内容表示为…,那么,检索无关模型和检索相关模型中第个模糊关键词在第一个排列结果上的性质可表示为和。
设检索无关模型和检索相关模型的某条检索结果上存在和个模糊关键词,如果读者的思维情绪确定其索引目标属于类别则模糊关键词性质比重可表示为:
最佳检索结果应取检索无关模型模糊关键词性质比重和检索相关模型模糊关键词性质比重中的较大值。
为海量图书检索模糊目标确定模型的检索语言进行定义,表示如下:
Opt Form Book List;
FROM Table Book List;
When
Contrast and
Set Up .
其中,表示综合输出结果,其满足。
采用模糊关键词性质比重进行海量图书检索结果处理,可以将比重大的结果优先显示,令检索输出更加符合读者需求,同时过滤掉了与关键词无关的检索结果,收缩了输出结果。
4 模型性能测试
4.1 数据处理规则
实验采用归一化累积增益评估方法,对文献[2]中传统模糊目标确定模型与本文中海量图书检索模糊目标确定模型进行评估。归一化累积增益评估将展示检索输出的有效性,其目标函数为:
式中:表示归一化;表示检索因子;表示类别的排列位置有效性度量;表示检索输出总数。
为一个市级大型图书馆建立Oracle数据库,实验将在两种情况下计算两种模型的归一化累积增益评估值。分别设传统模糊目标确定模型和本文模型的归一化累积增益评估平均值为和,如果则预示着本文模型的检索结果更加符合读者需求。
4.2 对比计算
设置两个关键词,分别是“2015”和“通知”。传统模糊目标确定模型与本文模型检索结果的排列位置有效性度量如表1,表2所示。
设关键词“2015”和“通知”在两种模型中的归一化累积增益评估值分别为和计算和值,有:
可知,因此,本文模型的检索结果更加符合读者需求,檢索性能高。
5 结 论
图书检索是现代图书馆内一项非常重要的工作,好的检索模型对提高读者阅读体验意义非凡。对此,本文设计海量图书检索模糊目标确定模型,其针对传统模糊目标确定模型的重大弊端进行改进,将不同检索结果排列模型输出进行重新组合,在改进检索效率的同时提高了模型的有效性,使检索结果更加符合读者需求。
参考文献
[1] 刘中.海量图书关键词特征检索定位优化仿真研究[J].计算机仿真,2016,33(9):422?425.
[2] 王敏,嵇绍春.基于模糊聚类和模糊模式识别的数字图书馆个性化推荐研究[J].现代情报,2016,36(4):52?56.
[3] 缪丰羽,王宏志.图结构模糊XML文档上的模式匹配算法[J].计算机科学,2016,43(11):284?290.
[4] 邓创,鞠立伟,刘俊勇,等.基于模糊CVaR理论的水火电系统随机调度多目标优化模型[J].电网技术,2016,40(5):1447?1454.
[5] 黄裕文.基于模糊逻辑的风廓线雷达目标检测技术[J].现代雷达,2016,38(8):43?45.
[6] 刘文学,梁军,贠志皓,等.考虑节能减排的多目标模糊机会约束动态经济调度[J].电工技术学报,2016,31(1):62?70.
[7] 赵安学.海量题库中的特定数据搜索系统的设计与实现[J].现代电子技术,2016,39(20):49?52.
[8] 魏江来.数据库模糊逻辑推理中的关键信息索引优化[J].计算机仿真,2016,33(8):457?460.
[9] 申艳光,张猛,范永健.面向加密云数据的多关键词模糊检索方法[J].计算机工程与设计,2016,37(12):3156?3160.