标题 | 从数据基因看企业数据结构变化 |
范文 | VERITAS 数据基因项目是Veritas 自主发起的一项计划,旨在改变人们对数据管理的看法。Veritas发起该计划,希望为志同道合的数据科学家、行业专家和思想领导者创建一个共同的讨论平台,从而深入了解企业日常创建、存储和管理的非结构化数据的真正本质。作为基于实际存储环境组成的基准测评报告,首份《数据基因指数》报告便是此项计划的首个研究成果。 当前,Veritas研究的重点对象是元数据的特征。通过Veritas的文件分析产品,我们可以利用从各个客户汇集的元数据,准确呈现企业实际数据环境结构的各个细节。 首份 Veritas 数据基因指数报告 为了进一步了解客户数据环境的真正结构,Veritas在2015年分析了来自众多客户非结构化数据环境的数百亿份文件及其属性。本次分析涵盖了8千多种最常见的文件类型扩展名。因此,报告中的数据基本能够代表客户文件系统环境的数据构成。 数据呈爆炸式增长 从文件级别来看,在过去7年中,数据的实际增长速度为每年平均增长39.2481189%, 而相应的存储空间需求增长比创建单个文件增长快9%。因此,尽管操作层面上的改变可以一定程度地控制某些方面的增长,但根本依然是存储管理问题。 控制存储空间并不仅仅是存储问题。现在,存储环境杂乱无章,平均1PB的信息包含了 23.12亿个文件。 增速最快文件类型:图像和开发者文件 企业数据总量表明,数量最多的文件类型和最占空间的文件类型具有明显差异。具体情况可参见图—存储环境与环境成本对照表。 10年前 VS 现今:企业数据的变化 随着时间的推移,数据结构已经发生了巨大变化。过去十年间,相较其他文件类型, 变化最大的文件类型为:演示文稿文件、CAD文件、游戏文件等。 不同季节,企业的数据增长情况也不同 秋季是文件创建的旺季。文本文件的增长率尤为突出,高达91%;其次是地理和信息系统文件,增长率为89%;电子表格的增长率为 48%。 只有备份和文档文件会在秋、冬季激增。在企业完成年度备份后,备份文件将激增756%。但图像文件的创建量明显减少,降幅达63%。此外,68%的视频都创建于夏、秋两季,电子邮件(pst)的情况可预测性高,各季节间只有0.7%的标准偏差。 为何企业还在保留这些数据? 信息是当今企业的关键所在,但由于信息的创建速度过快,企业中有价值的信息转瞬即逝。 治理:数量过多的文件类型 面对海量的陈旧数据,以及在可以执行多个可行处理决策时,为信息管理“决策预算” 的重点划分优先级,无疑能够帮助企业选择文件管理的入手点。 陈旧数据和总数据中数量最多的文件类型中,传统“office”文件是企业巨大的负担。如果企业希望最大限度地节约存储空间成本,但又无法确定优先处理哪些文件类型。那么企业可以重点对以下五大类型文件进行处理,每一类型都能够帮助企业找回GB级的存储空间。 1. 虚拟机文件 2. 安全文件 3. 游戏文件 4. 科技文件 5. 地理位置信息系统文件 文件数量和空间比例失衡 如果企业希望优先处理特定文件类型,只需观察哪些文件类型的数量和空间不成比例。例如,视频文件在陈旧数据存储空间总量中的比例,比其在陈旧文件总量中的比例高15.8 倍。虚拟机文件所占空间为7.3倍,演示文件是6.4倍,电子邮件为2.2倍,这些类型的文件都是企业优先处理的最佳选择。 当员工离职后,留下了数据残局 当数据失去其所有者,即会成为孤立数据。由于职位变更、员工离职以及常用活动目录混乱等原因,企业很难追踪数据环境的传承关系;此外,追踪数据传承需要巨大的资金支持。 孤立数据会占据企业的高额成本,一方面是因为其占据了过量的存储空间。即便孤立数据仅占文件总量的1.6%,但它占据的存储空间却达到了5.1%。不仅如此,大多数孤立数据是内容丰富的数据类型,这类数据所占据的空间都远超正常比例。如图像文件超出正常存储空间的88%,而视频和演示文稿,分别超出165%和229%。 报告调查发现,企业人员流动趋势对存储环境具有一定的影响。孤立文件的大小,是平均文件的222%。数据管理人员可能认为,文件越大,其内容越重要。因此在员工离职后,倾向于继续保留这类密集文件。如果企业希望恢复更多存储空间,从孤立数据下手无疑是首选。 通过存储密度判断文件是否有用 如今,企业创建大密度的内容并不奇怪,但令人吃惊的是,过去7年来,这类内容的涨幅只达到了10.3%,增长相对缓慢。文件的平均大小为:过去10年或更长时间内,使用过的文件的平均大小:0.24MB是过去5年内使用过文件的平均大小:0.40MB是过去1年内修改过文件的平均大小:0.53MB是被分类为陈旧文件,要比去年1年内修改的文件小33%。 现在,企业该如何应对? 如果企业用户的存储环境与我们分析的环境类似,那么企业用户将有很多机会来改变自身的存储现状。 以10PB为普通环境举例,如果企业数据环境中41%的数据为陈旧数据,那么每年,企业需要投入2050万美元,来管理3年来无人问津的数据。然而,清除陈旧数据非常困难。企业整理4.1 PB的数据,便需要对94.79亿个个体文件进行分类、删除或归档。 企业用户不得不划分优先级 演示文稿、电子表格、文档和文本文件等内容丰富的文件占陈旧数据的20%,开展一项专门处理这些文件的归档项目,能够降低企业至少50%,相当于200多万美元的存储成本。 删除陈旧数据中音频和视频文件,能够帮助企业降低11%的成本。 此外,图像文件占据企业陈旧数据18%的存储空间,它们甚至在长达7年或更久的时间里从未受到修改。 集中处理拥有少量单个文件的空间,对其进行标记以换取更多的存储空间,例如视频、 虚拟机文件和电子邮件等。这不但能够回收大量的存储空间,同时运行速度可迅速提升15倍。当员工离职或职位调整时,对其遗留的数据进行评估,可帮助企业节省5%,大约近百万元的成本。 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。