网站首页  词典首页

请输入您要查询的论文:

 

标题 从数据基因看企业数据结构变化
范文 VERITAS


数据基因项目是Veritas 自主发起的一项计划,旨在改变人们对数据管理的看法。Veritas发起该计划,希望为志同道合的数据科学家、行业专家和思想领导者创建一个共同的讨论平台,从而深入了解企业日常创建、存储和管理的非结构化数据的真正本质。作为基于实际存储环境组成的基准测评报告,首份《数据基因指数》报告便是此项计划的首个研究成果。
当前,Veritas研究的重点对象是元数据的特征。通过Veritas的文件分析产品,我们可以利用从各个客户汇集的元数据,准确呈现企业实际数据环境结构的各个细节。
首份 Veritas 数据基因指数报告
为了进一步了解客户数据环境的真正结构,Veritas在2015年分析了来自众多客户非结构化数据环境的数百亿份文件及其属性。本次分析涵盖了8千多种最常见的文件类型扩展名。因此,报告中的数据基本能够代表客户文件系统环境的数据构成。
数据呈爆炸式增长
从文件级别来看,在过去7年中,数据的实际增长速度为每年平均增长39.2481189%, 而相应的存储空间需求增长比创建单个文件增长快9%。因此,尽管操作层面上的改变可以一定程度地控制某些方面的增长,但根本依然是存储管理问题。
控制存储空间并不仅仅是存储问题。现在,存储环境杂乱无章,平均1PB的信息包含了 23.12亿个文件。
增速最快文件类型:图像和开发者文件
企业数据总量表明,数量最多的文件类型和最占空间的文件类型具有明显差异。具体情况可参见图—存储环境与环境成本对照表。
10年前 VS 现今:企业数据的变化
随着时间的推移,数据结构已经发生了巨大变化。过去十年间,相较其他文件类型, 变化最大的文件类型为:演示文稿文件、CAD文件、游戏文件等。
不同季节,企业的数据增长情况也不同
秋季是文件创建的旺季。文本文件的增长率尤为突出,高达91%;其次是地理和信息系统文件,增长率为89%;电子表格的增长率为 48%。
只有备份和文档文件会在秋、冬季激增。在企业完成年度备份后,备份文件将激增756%。但图像文件的创建量明显减少,降幅达63%。此外,68%的视频都创建于夏、秋两季,电子邮件(pst)的情况可预测性高,各季节间只有0.7%的标准偏差。
为何企业还在保留这些数据?
信息是当今企业的关键所在,但由于信息的创建速度过快,企业中有价值的信息转瞬即逝。
治理:数量过多的文件类型
面对海量的陈旧数据,以及在可以执行多个可行处理决策时,为信息管理“决策预算” 的重点划分优先级,无疑能够帮助企业选择文件管理的入手点。
陈旧数据和总数据中数量最多的文件类型中,传统“office”文件是企业巨大的负担。如果企业希望最大限度地节约存储空间成本,但又无法确定优先处理哪些文件类型。那么企业可以重点对以下五大类型文件进行处理,每一类型都能够帮助企业找回GB级的存储空间。
1. 虚拟机文件
2. 安全文件
3. 游戏文件
4. 科技文件
5. 地理位置信息系统文件
文件数量和空间比例失衡
如果企业希望优先处理特定文件类型,只需观察哪些文件类型的数量和空间不成比例。例如,视频文件在陈旧数据存储空间总量中的比例,比其在陈旧文件总量中的比例高15.8 倍。虚拟机文件所占空间为7.3倍,演示文件是6.4倍,电子邮件为2.2倍,这些类型的文件都是企业优先处理的最佳选择。
当员工离职后,留下了数据残局
当数据失去其所有者,即会成为孤立数据。由于职位变更、员工离职以及常用活动目录混乱等原因,企业很难追踪数据环境的传承关系;此外,追踪数据传承需要巨大的资金支持。
孤立数据会占据企业的高额成本,一方面是因为其占据了过量的存储空间。即便孤立数据仅占文件总量的1.6%,但它占据的存储空间却达到了5.1%。不仅如此,大多数孤立数据是内容丰富的数据类型,这类数据所占据的空间都远超正常比例。如图像文件超出正常存储空间的88%,而视频和演示文稿,分别超出165%和229%。
报告调查发现,企业人员流动趋势对存储环境具有一定的影响。孤立文件的大小,是平均文件的222%。数据管理人员可能认为,文件越大,其内容越重要。因此在员工离职后,倾向于继续保留这类密集文件。如果企业希望恢复更多存储空间,从孤立数据下手无疑是首选。
通过存储密度判断文件是否有用
如今,企业创建大密度的内容并不奇怪,但令人吃惊的是,过去7年来,这类内容的涨幅只达到了10.3%,增长相对缓慢。文件的平均大小为:过去10年或更长时间内,使用过的文件的平均大小:0.24MB是过去5年内使用过文件的平均大小:0.40MB是过去1年内修改过文件的平均大小:0.53MB是被分类为陈旧文件,要比去年1年内修改的文件小33%。
现在,企业该如何应对?
如果企业用户的存储环境与我们分析的环境类似,那么企业用户将有很多机会来改变自身的存储现状。
以10PB为普通环境举例,如果企业数据环境中41%的数据为陈旧数据,那么每年,企业需要投入2050万美元,来管理3年来无人问津的数据。然而,清除陈旧数据非常困难。企业整理4.1 PB的数据,便需要对94.79亿个个体文件进行分类、删除或归档。
企业用户不得不划分优先级
演示文稿、电子表格、文档和文本文件等内容丰富的文件占陈旧数据的20%,开展一项专门处理这些文件的归档项目,能够降低企业至少50%,相当于200多万美元的存储成本。
删除陈旧数据中音频和视频文件,能够帮助企业降低11%的成本。
此外,图像文件占据企业陈旧数据18%的存储空间,它们甚至在长达7年或更久的时间里从未受到修改。
集中处理拥有少量单个文件的空间,对其进行标记以换取更多的存储空间,例如视频、 虚拟机文件和电子邮件等。这不但能够回收大量的存储空间,同时运行速度可迅速提升15倍。当员工离职或职位调整时,对其遗留的数据进行评估,可帮助企业节省5%,大约近百万元的成本。
随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2024/12/22 23:15:53