标题 | 中文智能搜索引擎技术研究 |
范文 | 李佳 陈亚军 摘 要:针对当前搜索引擎系统存在的局限性,探讨智能搜索引擎关键技术。介绍其主要特征,探讨其核心技术,并对其发展方向进行展望。 关键词:搜索引擎;智能化;智能搜索引擎技术;发展方向 DOIDOI:10.11907/rjdk.151224 中图分类号:TP301 文献标识码:A 文章编号文章编号:1672-7800(2015)007-0013-02 简介简介:李佳(1990-),女,四川什邡人,西华师范大学计算机学院硕士研究生,研究方向为计算机应用。 0 引言 随着互联网的快速发展,网络信息量不断增加。面对数量庞大,种类多样的信息,一般搜索引擎无法为用户提供准确的检索结果,开发新的搜索引擎势在必行。智能搜索引擎不仅要提高信息检索准确性和全面性,还要满足用户个性等搜索信息需求。搜索引擎与智能代理相结合的智能化搜索引擎技术能够比较好的实现这一目标。 1 搜索引擎 1.1 搜索引擎基本原理 搜索引擎由信息搜集系统、文件处理系统、索引系统和检索系统组成。 信息搜集系统通过网页抓取程序(spider)在网络中顺着网页的超链接抓取网页,搜集文档的基本信息并下载至搜索引擎本地,然后将文档和其基本信息分开,并保存到原始文档数据库和文档信息数据库中。 文件处理系统负责将需要索引的文件转换成具有统一编码格式的文本文件。信息搜集系统从网络上下载文件,保存到本地供索引器索引。文件文本格式种类繁多,如纯文本文件、html格式文件、word文件、pdf文档等,文本格式相同的文件,字符编码方式也不尽相同。文件的异构性要求文件处理系统将各种不同格式的类文本文件转换成纯文本文件。 索引系统将程序收集到的文件进行处理,建立索引库和索引。相关处理还包括去除重复网页、分词(中文)、判断网页类型、分析超链接,计算网页的重要度、丰富度等。 检索系统通过用户输入的关键词从索引数据库中找到与关键词匹配的网页,并按照文档得分的高低依次显示在用户浏览器中。 1.2 传统搜索引擎的局限性 面对浩如烟海的网络信息,用户想要通过一般搜索引擎获取准确和全面的信息较困难。其局限性表现在: (1)信息检索方式单一。搜索引擎一般提供网站分类查询和关键词全文检索两种方式,这两种方法均容易造成信息丢失,不能全面检索用户需要的信息;不能对用户输入的关键词进行词意分析和词意扩展。如今信息的多样化要求搜索引擎不仅要检索出文档,还要检索需要的图片、视频、音频等。 (2)不能个性化制定。传统搜索引擎提供相同的界面和检索策略,不能提供用户信息定制,不同用户输入相同的查询条件返回的结果相同。不同领域的用户对同一个关键词的搜索返回的检索结果应该不一样,智能搜索引擎能根据用户专业背景和网页浏览历史检索出用户需求的信息。 (3)对信息的标引深度不够。搜索引擎检索的结果往往只提供线形的网址和包括关键词的网页信息,或者返回过多的无用信息,特别是对特定文献数据库的检索更显得无能为力[1]。 (4)信息更新能力低。搜索引擎信息收集和查询是两个分离的过程,缺少有机结合。网络信息资源呈分布式、动态、快速增长,搜索引擎的集中化架构不能跟上文档的扩张速度,也就不能有规律地及时更新数据库,用户检索到的结果可能不是最新信息。 2 智能搜索引擎 智能搜索引擎应摆脱传统搜索引擎的局限性,更加智能化,更具主动性,提供多元化的检索方式,为用户提供个性化制定,检索出满足用户个性需求。 2.1 智能搜索引擎主要特征 (1)智能性。智能化搜索引擎网络蜘蛛通过自主启发式学习选择最有效的搜索策略和最佳时机,在特定站点或者整个因特网搜集和整理信息。智能化搜索引擎可以将多个引擎的搜索结果进行整合,作为一个整体存放到数据库中。 (2)个性化。智能化搜索引擎提供个性化制定服务,用户注册基本信息,如年龄、专业背景、工作方向等,通过分析用户基本信息及平时浏览网页的记录制定出用户兴趣模块,检索出来的信息和用户兴趣相关,不同兴趣的用户输入同一个关键词返回的结果可能不同。 (3)多元化。智能化搜索引擎有多元化的检索方式,提供基于大众的搜索分析,基于自然语言、关键词、概念和上下文,通过相关反馈技术检索可选择查询路径。对关键词进行词意扩展和词意派生,实现准确的分词,从而更加准确地把握用户的搜索需求。 (4)协作性。智能化搜索引擎能通过各种通信协议和其它智能代理进行信息交流 ,并可以相互协调共同完成复杂任务[2]。 2.2 智能搜索引擎技术 要实现智能化搜索引擎,当前要特别加强对汉语分词技术、短语识别技术、同义词处理技术、知识库与推理机应有技术和人机对话智能技术的研究。 智能化搜索引擎对语义的理解主要体现在以下两个方面:一是对用户输入的关键词的理解;二是对网页信息内容的理解。传统搜索引擎对关键字的识别是较机械的匹配方式,容易造成信息不准确和丢失。智能化搜索引擎可对用户输入的关键词进行语义理解,并返回用户想要的信息。自然语言语义理解的技术主要有4种:①汉语分词技术。中国文化博大精深,语句是由各种词语按照一定的语序组成的。汉语对词语的划分相对英文来说复杂得多,汉语词语可以是由一个字或者多个字组成。汉语分词技术主要有基于字典、词库匹配的分词、基于词频度和基于知识理解的分词,通过这些方法准确把握用户输入关键词的含义;②短语识别技术。短语是由词语所构成的,是句子中基本的识别单位,在汉语句法分析和语义分析中具有重大意义。用户搜索有时需要对关键词加一定的修饰词,例如关键字为“搜索”,加入修饰词可为“个性化的搜索”,前者就是词语,后者为短语。需要通过短语识别技术对关键词进行正确的分词,从而准确理解用户的查询需求;③同义词处理技术。包括基于词汇字面相似度算法、基于词素的语义相似度算法以及基于《同义词词林》、《知网》等语义词典的语义相似度算法。主要依靠人工方式构造同义词库等辅助词库,利用搜索引擎主动联想技术实现对同义词的联想,准确把握用户关键词语义;④知识库构建技术。知识库包含各种词典,词典按其功能不同可分成定义词词典、同名词词典、派生词词典等,词典按词的确定性又可分成系统词典与用户词典。这些词典构成了一个庞大而复杂的知识库。 人机接口智能化主要有以下技术: ①人机交互界面技术。智能化搜索引擎界面具有智能化、多元化、个性化等特点。其技术主要包括搜索请求提交技术、搜索结果表现技术、搜索向导技术、搜索行为分析技术。其中,搜索行为分析技术是个性化搜索的关键技术,它通过分析用户的浏览记录和搜索习惯来提高搜索效率;②关联式综合搜索。将图片、新闻等各种有关联的信息呈现在同一界面上,用户搜索时只需查询一次,即可在同一界面得到各种有关联的查询结果。 随着云技术的出现,智能搜索引擎将全球服务器当作一个云系统,从而极大提升从数据库中提取信息速度。云技术的成熟能够有效提升搜索引擎的算法速度,提高智能搜索引擎的运行速度[3]。 3 结语 智能化搜索引擎技术的发展首先应该解决目前搜索引擎的局限性,然后再添加智能搜索。智能搜索引擎应该在以下几个方面寻求发展:提供友好的查询界面;多元化的检索方式;强大的自然语言理解技术;丰富的知识库;考虑按时间、地域顺序输出检索结果,以便用户选择所需的最新信息;查询结果文摘动态生成;结果自动综合分析和评分[4]。 随着搜索引擎技术的发展,智能化搜索引擎变得更多元化、亲切、个性化,广泛融入进人们的生活,为用户提供更准确、符合需求的搜索信息。 参考文献: [1] 刘 冰,马晓丽,胡风华.搜索引擎智能化及其在知识库系统中的应用[J].软件导刊, 2009.8(8):138-139. [2] 朱素媛, 马溪俊, 梁昌勇.人工智能技术在搜索引擎中的应用[J]. 合肥工业大学学报,2003,8(26):657-661. [3] 林 勇.计算机搜索引擎智能化技术研究[J]. 煤炭技术,2013,6(32):175-177. [4] 吴 丹.搜索引擎的智能化研究[J].情报理论与实践,2002(4):293-295. 责任编辑(责任编辑:陈福时) |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。