标题 | 网络信息检索及其局限性 |
范文 | 王娜 摘要:目前,随着信息技术的迅猛发展,信息已发展成整个社会的主要资源,要衡量一个国家或地区的现代化程度,主要看其信息的占有度和信息处理水平的先进程度,丰富的网络信息在很大程度上改善了人们的工作及生活方式。Internet是当前覆盖面最广、规模最大、信息资源最丰富、发展最迅速的信息网络,对Internet网络信息检索的研究,有着很强的现实性和实用性。 关键词:网络信息检索搜索引擎局限性 1 网络信息检索简介 1.1 信息检索的概念 信息检索指的是将信息按照一定的方式组织、存储起来,根据信息用户的需求查找所需信息的过程和技术。信息检索主要通过以下几种途径来获取信息:①传统的信息检索,即利用人工查询的方式,查询图书馆等文献丰富的机构,并获取文献;②联机信息检索,它和传统的信息检索比起来具有广泛性、实时性、完整性和共享性等特点;③网络信息检索,即信息用户利用网络信息检索工具检索Internet信息空间中的各类网络信息资源。 1.2 网络信息检索的原理 概率模型、布尔逻辑模型、模糊逻辑模型是应用比较广泛的几种网络信息检索模型主要有:①概率模型。该模型是在贝叶斯概率原理的基础上提出来的,对词条和文档间的内在联系进行研究之后,通过词条和词条之间和以及词条和文档之间的概率相依性来检索信息。②布尔逻辑模型。根据检索项在文档中的布尔逻辑关系提交查询,搜索工具按照提前组建的倒排文档结构来确定查询结果。③模糊逻辑模型。处理查询结果的过程中引入模糊逻辑比较,同时根据先后次序将查询结果排列出来。 2 搜索引擎 搜索引擎,又称检索引擎,指的是在Internet上运行,通过对信息资源进行检索来提供所需数据的服务系统。当前,大部分人们都利用搜索引擎来检索网络信息。和其他检索工具比起来,它这种检索工具的检准率、检全率远远高于其他检索工具,具有极强的利用价值,且就目前情况而言,它的市场强劲非常广阔。 2.1 搜索引擎的功能 ①模糊检索。对网络资源进行检索时,系统检索用户提供的关键词以及与冠军按此相似的词语,同时返回包含关键词,或这些相似词的检索结果。②布尔逻辑检索。用户可通过NOT、AND、OR进行关键词的搭配检索。③截词检索。截取词条的某一部分来进行检索。在搜索引擎中,用户提供包含“?”、“*”通配符的检索项进行检索。④限定词检索。它用来规定检索项中必须出现或是必须不出现某些关键词。 2.2 搜索引擎的工作原理 搜索引擎的检索机制一般包括数据组织机制、数据采集和标引机制和用户检索机制。 ①数据组织据组织机制是对www页面信息进行整合,使其更加简单、规范,同时构建相应的索引数据库。②数据采集和标引机制根据相关规律及一定的方法来搜索网络上的www站点,同时将搜索结果存入搜索引擎临时的数据库内。③索引数据库是信息检索的先决条件,检索结果是否符合要求在很大程度上去觉与索引数据的准确性,数据库质量主要取决于搜索引擎的数据采集及标引机制。④用户检索机制通过相应的方式对引擎的索引数据库进行检索,从中获取有价值的网页或站点。 2.3 搜索引擎的分类 目前的中文搜索引擎主要有三种类型:目录式搜索引擎、机器人搜索引擎和元搜索引擎。 ①目录式搜索引擎,是通过半人工、人工的办法采集信息,组建数据库,编辑对某一web站点进行访问以后由编辑人员在访问以后描述这个站点,同时按照站点的性质、内容对该站点归类处理。②机器人搜索引擎是目前运用较广的搜索引擎。这个搜索引擎采用自动采集软件Robot,对网页信息进行检索,同时将其下载并储存在本地文档库中,然后自动分析文档内容,建立索引。根据用户的检索需求,对索引进行检索,分析出相应的文档并反馈给用户。③元搜索引擎主要通过调用其他搜索引擎的引擎来完成信息检索。它在一个统一的用户界面上,以用户需求为目的,在多个搜索引擎中寻找合适的引擎来检索信息资源。 3 网络信息检索的局限 用户都是通过网络信息检索工具在网络信息资源进行查找自己需要的信息,因此,检索工具的优劣会对检索效率产生很大的影响。近些年,网络信息检索工具的确有所发展,但仍然存在着这样或那样的局限。 3.1 文本信息检索的局限 ①搜索引擎的查全率低。网络信息资源库在持续扩充,信息资源的增长的速度要比搜索引擎采集数据的速度快的多,这会大大降低搜索引擎的检全率。②搜索引擎的查准率低。一是当前的搜索引擎中普遍存在反馈信息;二是信息重复反馈。同一信息源有时在检索结果中产生不同的组成部分,不同的信息源也有相同内容信息出现的情况。③网络信息标引准确度不达标。大部分检索工具标引的准确度都无法达到设计要求,检索工具往往在反馈垃圾信息的过程中也会将部分有价值的信息丢掉,某些情况下,垃圾信息会覆盖所有有价值的信息。④查询方式较少。当前的很多搜索引擎,在查询方式上都过于单一,而且都需要用户提供关键词来查询或采用分类查询的方法。这样,只能就某一关键词或概念进行笼统检索,因此使查询结果相关性很差。⑤检索对象的数据结构单一。由于现在大多网站使用傳统的关系数据库对信息进行组织和存储,因此其使用的搜索引擎也是基于关系数据库的,这种数据库非常擅长处理结构化的数据,但对非结构化的数据的处理能力很弱。⑥交互性不够。大部分搜索引擎和用户之间无法建立其很好的交互性,在协作方面比较欠缺,对用户信息很陌生,不对用户查询的信息进行记录,无法对用户的反馈信息进行处理,也就无法与用户之间达成良好的交互来提高检索效率。 3.2 多媒体信息检索的局限 虽然眼下已经存在只针对声音、视频和图像等媒体的检索技术,但仍未研究出能检索多媒体信息的搜索引擎,具体体现在以下几点:①检索效果不好。就目前情况而言,大部分多媒体搜索引擎的查准率都无法满足用户的需求,用户不得不从众多图像结果中自己筛选出所需的信息资源。这很费时,而且有时根本检不出想要的东西。究其原因,一是查询方式少,二是在于对图像的标引深度不到位,所以,必须进一步完善图像检索及相关的索引机制。②用户查询接口单一。科学的多媒体检索系统,人处于主动地位,用户的查询接口直观易用,可提供足够的交互能力,用户能可以对检索参数进行适当的调整之后,将图像的语义感知准确的表达出来,并从中取得较好的结果。当前,多媒体搜索引擎用户查询接口呈现单一的发展趋势,很多引擎仅能通过关键词或提问框进行查询。③信息的自动加工与人工标引不够。目前多媒体搜索引擎的研究刚刚起步,尤其是图像信息的加工,人工干预虽能提高查准率,但可被人工标引的非常有限,同时,因为人工标引需要付出很多劳动而使检索范围受到限制,因此,当前亟待解决的一个问题是快速标引图像信息,并对其进行合理的分类。 当前,基于内容的检索技术多应用于对静态图像的检索,对动态图像的检索还没有多少行之有效的方法。但随着宽带网络的逐步实现,动态多媒体信息在网络中将会越来越多。 参考文献: [1]孙建军,成颖.信息检索技术[M].北京:科学出版社,2004. [2]王丰.国内中文搜索引擎研究[J].网络通讯与安全,2007,(8). |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。