标题 | 大数据下人工智能技术在信息检索中的应用探析 |
范文 | 杨涛 摘要:本文描述了大数据时代下,在信息检索领域可以延伸的前沿研究,基于人工智能技术,对信息进行处理、检索的方法,对已有技术的分析介绍,以及存在问题的解决方案。 Abstract: This paper describes the frontier research that can be extended in the field of information retrieval in the era of big data, and the method of processing and retrieving information based on artificial intelligence technology, the introduction and analysis of existing technology, and the solution to the problem. 关键词:大数据;智能检索 Key words: big data;intelligent retrieval 中图分类号:TP18;TP311.13 ? ? ? ? ? ? ? ? ? ? ? ? 文献标识码:A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文章编号:1006-4311(2019)10-0173-03 0 ?引言 至今,“大数据时代”的概念已经不断渗透进我们的生活。最早提出“大数据时代”到来的公司麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来”。“大数据”这项概念数年前还不被人们所熟悉,虽然它在物理科学、生物医学以及军事金融等领域应用许久,却是因为近几年来互联网和信息行业的飞速发展而引起人們的关注,“大数据”对信息检索所产生的影响和意义是巨大的。 1 ?大数据下智能信息检索技术 1.1 大数据 大数据下信息资源极其庞大并多样化,而且还在不断增长,以至于人们无法使用常规办法在一定时间内对其进行管理的数据集合。大数据具有四个大的特点,第一,大数据的种类繁多并且来源广泛,已不仅限于某一种类型的数据,当前包括文本图片视频等多种类型,且在不断增加;第二,大数据具有很强的时效性与真实性,随着时间不断增加改动;第三,大数据的体量巨大,从TB级别,跃升到PB级别;第四,由于其较大规模的特点,不能采用陈旧的数据存储分析方式。 1.2 人工智能 人工智能(Artificial Intelligence),简称AI,是当前科学技术中发展最为前沿的一门学科,它被用来模拟、延伸和扩展智能的理论、方法、技术以及应用系统。这门学科涉及数学、计算机、心理学、哲学等多门学科,应用领域广泛,包括智能检索、问题求解、专家系统、人工神经网络、自然语言理解、机器学习和模式识别等。它在信息检索的领域主要包括自然语言理解ID3算法、神经网络算法、基于本体论的算法、遗传算法等的智能检索方法 1.3 信息检索 信息检索(Information Retrieval)指在信息系统中将已有信息按照一定的方式管理组织起来,并根据需求找出信息的过程。狭义的信息检索主要指信息查询,即用户借助检索工具是用一定的方法根据需要从信息集合中查找所需的查找过程。广义的信息检索是先将信息按一定的方式整理加工组织并存储起来,再需要的时候进行信息查询的过程。下文所指信息检索均为广义的信息检索[1]。 2 ?人工智能技术在信息检索领域中的体现 智能检索即人工智能技术在信息检索中的应用,它主要实现了可以通过用户的信息来进行信息的收集与处理,并在此过程中根据用户的身份场景需求以及偏好筛选信息,当用户表现的查询请求并不明确时,系统即使用知识库中的推理机制来推测用户的可能需求并在多种需求中选择出最适合的需求,实现对信息的存储与检索。 2.1 信息过滤技术 信息过滤技术又称内容过滤技术,主要用于两个方面,一是在信息检索过程中对数据的过滤与查询;二是对网络内容的管理,用于防范垃圾邮件、版权保护、病毒防护等领域。传统的过滤实现比较简单缺少灵活性,对匹配到的数据进行直接筛选,无法结合全文分析语义。在人工智能技术下的智能过滤技术能够识别文档的内容进行语义的分析并智能化过滤筛选。 2.2 自然语言处理技术 自然语言处理是人工智能领域的一个重要研究方向,它研究人类的语言特点,并将其应用到计算机语言中,实现人与计算机的有效通信。使用复杂的语言规则嵌入在信息检索系统中,可以识别可疑信息并判断是否为垃圾信息,可以分析句子与全文的含义。 2.3 语音识别技术 语音识别技术涉及信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等,是一种应用广泛的人工智能技术,在信息检索中起到了重要作用。它主要将人类复杂的语言进行识别,过滤掉不必要的垃圾语言,提取有用语音信息,进行信息检索。在此过程中先将难以识别的信息单独存储,在经过对语音内容的整体分析后,重新排列组合并检索。 2.4 图像识别与视频检索技术 图像识别与视频检索技术也称机器视觉,主要是使机器通过图像摄取设备摄取目标转化为图像信号,来得到目标对象的特征、形态等信息。 每个图像都有自己的特征,图像识别技术便以图像最主要的一些特征为基础。生物研究表明人在识别图像时,视线往往集中在图像的主要特征上,这些特征又往往是在图像轮廓方向突然改变或曲度最大的地方,这些地方能够获取的信息最多最重要,并依据这些来分辨事物,而且眼睛的识别路线也有一定规律,它总是在特征上轮转,从一个特征到另一个特征[2]。正因如此,系统在识别过程前先要通过大量的数据在已有的经验和基础上利用计算机和数学的方法进行学习,此为学习阶段,主要提取样本的特征,找寻分类的规律,然后根据得到的分类规律对目标样本集摄取,进行分类和识别,此为实现阶段。 视频检索技术目前主要包括目标检测、目标跟踪、目标识别、行为分析、基于内容的视频检索和数据融合等五类,在检索过程中分析视频对象,计算它的颜色直方图,并用运动跟踪算法(KLT)对主要数据进行跟踪处理,而这所有的特征点构成了特征向量。在视频的各个片段中根据特征向量对其进行分类与检索。具体的工作流程分为五个阶段:系统训练阶段、视频片段的聚焦、视频片段的检索、特征提取算法和用于分类和检索的人工智能算法(包括反馈式人工神经网,自适应匹配算法)。 3 ?智能技术在信息检索的应用方法 3.1 基于本体论 传统方法使用的匹配关键字以及分类检索的工具使用效果差强人意,而其根本原因在于这些方法都没有深刻挖掘理解每个概念间的内在联系,对概念的理解只存在于表面。而本体论是对一个概念的精确表述,它的基本方法是用一组属性来描述每条数据、信息或知识项,这些属性整合在一起就能够描述信息的元模型、信息的内容和信息的研究背景。本体论可用语义网络来表示,其中网络的一个节点代表一个概念,节点间的线代表了概念之间的关系,我们可以用以一个关系数据库来管理存放一个本体论。在搜索过程中,有两种搜索方式,分别为盲目搜索和启发式搜索,盲目搜索即为以查找信息为根据,直接进行全内容的检索,而啟发式搜索充分应用了人工智能的思想,在搜索求解过程中,依据问题本身的特性以及在搜索过程中不断产生的一些信息来实时地调整或改变继续搜索的方向,找到一个最适合的方向进行查找,不仅使查询过程加速,而且得到的解往往更优[3]。 3.2 基于神经网络 神经网络是由生物大脑神经元,细胞,触点等组成的网络,用于产生生物的意识,帮助生物进行思考和行动。而现在人工智能一个巨大突破便是研究出了人工神经网络,可以更智能的处理信息,其主要以生物的神经网络行为特征为例,使用分布式并行信息处理的方法,人工神经网络有大量的节点以及节点间的关系和权值,通过不断的调整改进权值,来更有效地处理信息。人工神经网络可以模拟人的形象思维模式,能够大规模并行协同处理事务,它具有较强的学习能力、容错力和联想力。按网络的拓扑结构可以划分为两种:无反馈网络和反馈网络,反馈网络的学习能力相对更强。区别在于用户在使用浏览器进行查询过程中,系统会持续跟踪用户的兴趣,并将其记录反馈给查询过程,不断优化改良搜索方向,向用户提供更优的搜索结果。反馈大致分为两种:“正例”与“反例”,系统预先设置一个阈值来评判,查询开始时,对检索对象进行分析量化,获取它的特征量,再依据所选的相似度函数来给定一个满足阈值的检索结果,接下来用户依照需求评判这些检索结果并标记,划分为“正例”或“反例”,随后这个评判结果被反馈给系统作用于下一轮的检索,这样循环直到有用户满意的结果为止,使得检索结果最优化[4]。 4 ?优化检索质量尚需解决的问题 4.1 存在的问题 在最初获取信息资源时,用户因为各自职业、爱好、年龄等所引起的需求不同,各个领域的专家可以解决他们的问题,但对于计算机系统来说,合理的定位用户的类别也是一项困难的事。“术业有专攻”,各个领域的专业性严重阻碍了计算机系统化整理信息,每一领域的专家对本领域有独到的见解,但计算机对专家经验的认知缺乏就导致了很难实现对信息检索专家库的建立。 在信息体量巨大的情况下,信息检索一般会使用两种基础技术,一种技术是分类技术,将数据或信息按照学科上、物理上的概念划分成不同的类别,另一种技术则是整体检索技术,即对文档或数据库进行整体的搜索,但为了精简搜索过程必须先进行分类。在大数据时代,数据信息成几何增长,这两种技术在应用过程中也出现了更多的不足之处。其中分类技术由于对信息概念的理解不够深刻,导致分类不够精确细致,搜索过程中会出现遗漏。整体检索技术相对来说更加细致,但其搜索过于浅显,对信息只停留在文字表面,匹配到检索对象时会直接提取出这部分信息,若信息量十分庞大时,检索到的信息也会随之增加,这就使得检索的准确性下降。大多数情况下,用户进行信息检索时可能并不明确,无法用几个字眼来描述所需,这样使得检索的难度更大了。 4.2 可尝试方法:智能代理系统 智能代理(IntelligentAgent,IA)技术,起始于20世纪80年代,也是人工智能研究的一个重要领域方向。通常,广义的智能代理包括人类,物理世界中的移动机器人和信息世界中软件机器人。而狭义的智能代理则专指信息世界中的软件机器人,它是代表用户或其他程序,以主动服务的方式完成的一组操作的机动计算实体,主动服务包括主动适应性和主动代理。总之,智能代理是指收集信息或提供其他相关服务的程序,它不需要人的即时干预即可定时完成所需功能。 智能代理是一套辅助人和充当他们代表的软件,人们可以借助于智能代理进行网络上的操作,以提高用户的检索效率,并且达到更深层次的智能化。一般智能代理有以下4个特征:代理性,智能性,机动性和个性化。 代理性主要是指智能代理的自主与协调工作能力。主要表现为智能代理从事行为的自动化程度,即操作行为可以离开人或代理程序的干预的程度。但代理在其系统中必须通过操作行为加以控制,当其他代理提出请求时,只有代理自己才能决定是接受还是拒绝这种请求。智能性是指代理的推理和学习能力,它描述了智能代理接受用户目标指令并代表用户完成任务的能力,如理解用户用自然语言表达的对信息资源和计算资源的需求,帮助用户在一定程度上克服信息内容的语言障碍,捕捉用户的偏好和兴趣,推测用户的用途并为其代劳等。机动性是指智能代理在网络之间的迁移能力,操作任务和处理能从一台计算机运行到另一台计算机上。在很多时候互通的智能代理能够更好的比较用户之间检索需求的差异,进行深度追踪。所以在必要时,智能代理需要有同其他代理和人进行交流的能力,并且都可以从事自己的操作以及帮助其他代理和人。另外,智能代理拥有个性化,通过个性化的渲染和个性化的设置,用户就会在浏览信息的过程中,逐步优化检索结果的展现方式,例如有的信息需要文字叙述,有的可以利用表格展现,有的用图像或视频更加清晰。 以往我们的搜索引擎是被动的,也就是只有我们在检索时才会运行,智能代理技术是一种与传统模式大相径庭的信息检索模式,它更像是一个“个人助手”,能满足用户的个性化需求,并在系统黑盒中跟踪用户的以往搜索,智能地模拟用户需求,监视用户的潜在需求信息,减少用户的查询负担。智能代理系统是应用智能代理技术、信息检索技术和用户知识学习技术,构建一个智能的推理机制,更好地帮助用户进行信息的划分和查询处理。以智能搜索代理技术为主,结合搜索引擎“面向主题”的检索模式,在密切关注个体需求、提高信息与用户需求相关系统,彼此间可以通过统一的传输协议进行沟通,交换信息,从而使更多相关的信息得以挖掘,以弥补智能代理信息搜索范围有限的缺陷。这种模式充分利用了智能搜索代理的流动性、交互性、智能性特点,同时又吸取了搜索引擎的主题相关的思想,提供了高质量的信息个性化检索服务[5]。 5 ?结束语 人工智能技术的飞速发展对信息检索领域产生了巨大的影响,成功的结合使得检索不断智能化,并且在当前大数据时代下,对于海量的数字信息资源,大量的数据类型进行了智能的集成与管理,实现了分布式信息资源的智能化管理。人工智能使得信息检索更加快捷、准确化以及智能化,反之智能检索又为人工智能技术的发展提供了大量相关学科的知识体系,两者相辅相成,互相促进,相得益彰。 参考文献: [1]莫祖英.数字图书馆信息检索技术研究综述[J].情报探索,2010-09-15. [2]梁涤尘.人工智能在信息检索中的应用. [3]段韶鹏,温文豪,轩春青,于景茹.大数据下人工智能技术在信息检索中的应用[J].信息通信,2018-07-15. [4]崔文.浅析人工智能技术在信息检索领域中的体现[J].2010. [5]张玉峰,文燕平.智能检索Agent系统研究[J].中国图书馆学报,2002-09-15. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。