标题 | 大数据必须回归本质 |
范文 | 杨学山 最近在网上有两篇关于大数据的文章,引起了我的关注,一篇是讲既不要神化大数据,更不要把大数据妖魔化。意思就是我们由于互联网等其他原因,大数据越来越多,我们个人隐私无处可藏,带来了对大数据公司的质疑。第二篇是一个论坛上一个嘉宾的讲话,中心意思是大数据只有回到企业具体场景才有商业价值。 由此,回顾2011年有两篇文章开启了大数据的元年,第一篇文章是《科学》杂志一篇文章,核心意思是大数据越来越多,我们在无所不在大数据的包围下。不要神化大数据和不要妖魔化大数据。第二篇文章是一个研究报告,这个报告的题目是大数据是创新、竞争、生产力的下一个前沿,这和大数据要回到企业的具体场景来实现商业价值一脉相承,也就是说我们大数据必须摆脱困惑,回归本质。这个本质就是大数据是干什么的?大数据是为了提升我们创新、竞争力。 大数据的基点、基石究竟在什么地方?就是為我们认识问题、解决问题作出贡献,创造价值。我们的大数据产业生态联盟就是在这样的基石上走出来的,所以我们必须回到基石、基点,然后再去寻找路径,再说产业链和生态链的发展。围绕着大数据回归到问题的求解来说,我们需要有几个重要的转变。第一个转变是我们通过大数据来找到对问题的认识和解决办法。要逐步走向从问题本身出发,去看需要什么样的大数据,探究大数据在解决问题中起什么作用。我们要逐渐使得我们大数据的处理,以符号处理为主转向以语义处理为主。我们逐渐从重视大数据以数量为主转向以质量为主,这两个之间是相互关联,不能割裂的。我们要逐渐从数量为主要追求目标转向质量作为主要追求目标。 对于我们来说,更重要或者说我们更要做的是对确定的问题来说,大数据分析究竟需要什么数据,这个数据对于认识这个问题和解决这个问题应该要发挥什么作用。而不仅仅是通过大数据发现什么问题。因此,我们这个重心要移过来。为什么要移?根本原因就是我说的基点,这个基点就是我们认识问题、解决问题中存在的商业价值,这是大数据的根本。这个转变是最根本的转变,如果不解决它的话,大数据发展方向这个健康可持续的发展路径就没有。 关于大数据的转变,在此我举几个例子说明一下。比如雾霾的治理,雾霾我们需要用两种数据或者两个系列的数据来为我们认识问题,解决问题作出贡献。哪两个系列?第一个就是雾霾实际产生的数据,从北京这个空间上看源头在哪?是哪种行为、哪个客体产生了雾霾。第二个是雾霾到空气中它产生什么样的变化,以至于形成了我们实际空气中的这种现象。这两个问题会让我们认识到雾霾的形成或者产生原理,但解决问题我们缺的是什么?缺的是我们没有能够使我们分析问题、明确问题的数据。这一点恰恰是非常重要的。 现实是,从现有的数据认识北京的雾霾问题是不够的。你只能认识到局部,不能认识到全部。认识全部,我们需要从雾霾的理论出发,雾霾的空气,以及从雾霾在空气中发生变化的这个过程出发。从我们各个产生点的分布出发来说,我们需要什么样的数据。我们要部署什么样的传感器,这个传感器怎么运作,这个传感器的性能是什么。根据这些非常细节的数据和支持,我们才能建立理论,进行分析。今天的数据类型即使你再增加100倍,也不能为认识问题、解决问题做出实质性的贡献。 第二个转变就是我们要从符号处理出发,而不是语义处理。大家都知道“阿尔法狗”,在它背后有一件事:网上有一个专家认为谷歌“阿尔法狗”是不成功的项目,为什么不成功?他的理由是因为人工足够,智能没有。为什么说人工足够,智能没有。他认为,原因是在整个“阿尔法狗”赢得比赛的过程中,算法贡献和数据贡献不一样。数据是“阿尔法狗”成功的主要贡献,而不是算法。 关于“阿尔法狗”还有一个评论,人在下棋的时候所有处理都是语义处理,所有信息过程没有一步一点是浪费。“阿尔法狗”在整个过程中是以符号数据为主,没有办法直接把感知的东西连接到一个像人一样确定的语义通道上去。而数据智能的核心是,我们要在整个过程增加语义处理。 第三个讲的是数量和质量,不管是数据还是大数据,数量是很重要的,没有数量什么都做不出来,所以要有量。工业大数据量十分的大,没有量,模型出不来,算法出不来,要量,但是量和质的中间,我们需要逐渐把质量放在更重要的位置。因为,我们不是需要一堆数据,而是真正有一个传感器,这个东西感知到的细微信息才是有用,才是有质量的。我们必须把质量放在第一位,因为我们是认识、解决问题,我们通过数据使认识问题和解决问题的代价变得小了,才能有价值。 如果你用了大数据以后,用了那堆工艺之后,你认识问题,解决问题付出的代价比原来还要大,那是负价值,不是正价值。要把这样的过程中付出的价值变得更小,我们必须从数量向质量转移。(根据主旨报告内容整理,未经本人审核) |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。