大数据呼唤大搜索 大搜索向网络索取智慧

    方滨兴

    【摘要】大数据时代,互联网朝着泛在网的方向发展,这催生了大搜索技术的诞生,同时大搜索也成为网络发展的利器和催化剂。与传统搜索相比,大搜索不仅能够在语义级别上对用户的搜索意图进行理解,还能根据用户的时空位置、情绪状态以及历史偏好等信息来感知用户的需求;能去伪数据,还能保障用户的隐私;而且搜索解答实现了智慧化,能为用户求解给出智慧的答案。

    【关键词】大数据 大搜索 泛在网 时空 智慧

    【中图分类号】TP37 【文献标识码】A

    目前,互联网正结合物联网、移动互联网向着泛在网的方向发展。泛在网是指基于个人和社会的需求,利用现有的网络技术和新的网络技术,实现人与人、人与物、物与物之间按需进行的信息获取、传递、存储、认知、决策、使用等服务,网络超强的环境感知、内容感知及其智能性,可能为个人和社会提供泛在的、无所不含的信息服务和应用。泛在网不仅承载信息,还把人和物连接在一起,新型应用层出不穷,数据及数据形态利益丰富多样,并且蕴藏极大的价值,大搜索技术由此应运而生。

    大数据时代数据的特点是:数据量大,数据产生的速度快、类型多样,数据不可信,最重要的是具有潜在价值。我们需要应对、需要解决的问题就是在大数据中发掘价值。比如:哪个企业的产值最高?这就涉及到统计的问题。近期会出现什么热点?这涉及到聚类的问题。事件的起因,这就涉及关联计算。

    现在有很多大数据价值发掘的案例。比如:亚马逊通过营销推荐系统,可以精准对接客户需求,把很多产品提前预销售。中国移动的客户投诉识别系统,每年可以节约成本540万元。谷歌使用大数据技术实现更加精准的广告投放,获得80亿美元的收入。

    我们团队开发的应急系统可以通过公开的语境信息、公开的微博信息去挖掘并为用户提供一些公开的能力,大家可以利用这個能力去发现他所感兴趣的领域中的一些重要事件。比如:判断某个自己感兴趣的事件的传播情况,大家对该事件所持的态度以及事件在什么地域传播等等。

    一、网络搜索引擎的种类

    从搜索引擎角度来思考,目前网络空间中我们都能搜到的信息多种多样,最简单的就是文字搜索和儿童搜索。儿童搜索的特点是:你要是输入脏话,它会告诉你,没有这个词。文字搜索种类很多,比如:视频搜索,在视频库里搜索你所关心的视频;新闻搜索,它的背后是大量的新闻网站;微博搜索,了解其他人所关注的内容;文档搜索,搜索自己关心的领域及相关研究内容;学术搜索,可以搜索到很多资料,包括研究成果;人物搜索,输入“奥巴马”,就可以搜索到他的一些公开信息;企业信息搜索,比如输入“天眼查”,它可以告诉你这个公司的法人代表是谁、有哪些下设机构;房地产搜索,输入“房天下”,它会告诉你附近的房价;购物搜索,使用“一淘”搜索引擎,可以随时查询自己关注的产品价格;商品信息检索,拿起手机拍下商品的二维码,就可以知道这个商品在哪个超市多少钱,哪里最便宜;物流搜索,可以随时查询自己购买的物品现在在哪、何时能到;生活搜索,输入“北京小吃”,会告诉你北京哪里有有特色的著名的小吃;旅游搜索,在去哪儿搜索引擎输入“我要在北京旅游三天”,它会告诉你有哪些最适合你的旅游套餐;职位搜索,它会告诉你哪个企业需要什么样的人才,满足你个性化的需求;农业搜索,会告诉你不同的作物不同的季节应该打什么样的农药,怎么使用,等等。

    此外,还有其他种类的搜索。比如:我们团队开发的联网设备搜索,目前已经搜到了3亿多个联网设备,还发现了170多万个设备有漏洞,可以任意闯进去;移动设备检索,如360智能手环,可以定位佩戴手环的儿童的具体位置。这些应用本质上我们叫做存在性搜索。它是把存在的符合用户需求的东西提供给用户,重点是如何给出最符合用户需求的信息。比如搜索“第四次工业革命”,它可能有几万个结果,哪个结果放在最前面这是它所要关心的。所有这些我们都叫存在性搜索。

    本质上来说,这些都是能感知到你所需要的服务,并有针对性地提供服务。我上面举的例子叫服务搜索,以“尽力而为”为原则,通过汇集大量“服务”的方式,在用户提出搜索需求时,首先判断这个需求是否和系统服务库之中的某个服务对应,如果能对应,就为用户启动相应的服务。简单说,就是根据你的关键词判断你可能需要这个服务,如果没有这个服务,就提供与这个服务相关的信息。再比如:学术搜索,输入“北京邮电大学”,会告诉你北京邮电大学的相关知识点、具体机构、相关人员还有图书的曲线、发表刊物的曲线等等,具有强大的智能性,会帮你分析这个学校的整个学术情况。企业信用搜索,输入相关企业名称,会得到它的打分情况、信用等级,还会介绍其高管和核心企业对外进行了哪些投资等等。论文查重搜索,输入一个文档名,了解这个文档在网上是不是和其他文章有重复、重复率多少,是否有抄袭情况等。

    二、大搜索的要素及其特性

    网络空间、大数据等新技术的发展,促进搜索引擎技术不断进步,也促进用户形成了新的搜索需求,用户将不再满足于仅在互联网空间搜索存在性信息,而是希望搜集到涉及信息、时间、位置三维空间的包含有人、物体、信息在内的解决方案。从互联网到物联网到移动互联网,再到泛在网,我们要搜索答案,而不是搜索信息,而且这个答案要涉及到时间和空间。

    (一)大搜索的要素

    下一代搜索就是从大数据到价值发掘,再到知识发现服务,称之为大搜索。比如地图搜索导航信息,这本身就是知识搜索,它要给你做路径规划。但是现在导航要结合物联网信息,这样它就知道每条路的交通流量,通过交通流量给出最快的一条路径,而这个“到达最快”不仅仅取决于距离,还包含交通拥堵情况等。这就相当于搜索引擎基于知识处理之外,还有更多的信息融合。

    大搜索,是指面向泛在网络空间的人、物体和内容,在正确理解用户意图的基础上,基于从网络空间大数据获取的知识,从信息、时间、位置的角度给出满足用户需求的智慧解答。我们有各种各样的信息源,最后要得出的是一个智能发掘,而这个智能发掘就是从大数据的源头通过大搜索获得网络的智慧。

    这样做要依靠四个因素:第一是网络空间。第二是正确的理解,理解就涉及到要有感知,要能判断真实的需求是什么。第三是知识库的构建,如果我们设计的是一个专家系统,两个小时可以给出答案,这个大家都能接受。但如果设计的是一个搜索引擎,怎么可能等两小时?大家可能两分钟都等不了。大数据也是一样,可能对用户这一次问的问题没有提供满意的答案,因为数据库还没有为这个问题做过知识框架,但可以把它记录下来,以后围绕它搜集所有相关答案,等下次有人再问这个问题的时候,就可以马上提供答案。最后,当用户提出问题的时候,搜索引擎不能给出存在性的信息,而是要对相关答案进行重新组织,重新加工,从而给出最正确的答案。这些要素都具备了以后,搜索就会很强大,它可能把个人的隐私也挖掘出来了,所以就需要一道安全门,这个安全门就是隐私保护,涉及到隐私了,这个东西就不能往外提供。

    (二)大搜索的特性

    大数据有5V特性:Volume(大体量)、Variety(多样性)、Velocity(时效性)、Veracity(準确性)、Value(大价值);而大搜索有5S特性,首先是信息泛网获取(Sourcing);第二是感知人们的意图(Sensing);第三是多源综合(Synthesizing);第四是安全可信(Secure);第五是智慧解答(Solution)。

    1.泛网获取,网络空间泛在化,支持定向信息的获取。传统搜索只是从网页上抓取互联网数据。为了提供答案,现在是十万个为什么,将来可能是十亿个为什么,大搜索围绕的是为什么获取信息以及没有这个为什么就不去获取了。

    2.用户感知、意图理解精确化,基于场景感知的意图理解。传统搜索只是关心所提交的查询词,大搜索关心的是不仅能够在语意级别上对用户的搜索意图进行理解,还能根据用户的时空位置、情绪状态以及历史偏好等信息来感知用户的需求。比如输入一家公司名“曼豪中国”,就会把曼豪中国的组成、业绩、相关人员都提供出来,如果发现曼豪中国背后有关联的创新论坛,也会推送与创新论坛相关的内容。只有具有用户感知功能才能解决这个问题。

    3.多源综合,信息关联知识化,构建搜索对象空间。传统搜索只是根据网页级别(PageRank)给出最相关的结果。大搜索要把所有的东西联系起来,看看它们之间有什么关联。

    4.安全可信,传统的安全可信只是简单的信息过滤措施,大搜索能去伪数据,还能保障用户的隐私。

    5.解决方案,搜索解答智慧化,为用户求解提供智慧的答案。

    搜查搜索的内容分为三种:信息搜索、物体搜索和人物搜索,搜索的问题从传统的信息搜索扩张到信息、人物和物体。网络空间大搜索就是根据一定的策略和方法,通过互联网、物联网、电信网等实时、快速、精准地获取各种物理实体、人物、信息,及其时间与位置的属性,具备洞察理解用户搜索意图的智能。

    历史经验告诉我们,如果没有互联网搜索引擎,就没有今天互联网的发展,如果没有大搜索引擎,泛在网肯定发展不快,走不下去。媒体在今后的发展创新中应关注泛在网,面向泛在网,在大数据中发掘满足用户意图的智慧解答,因为它将成为下一代网络发展的利器和催化剂!

    注释

    ①百度百科,http://baike.baidu.com/view/1470376.htm.

    (本文编辑:宁黎黎)