大数据技术与档案数据挖掘

    张文元+张倩

    摘要:档案数据深度挖掘是大数据技术应用于档案管理中的主要特点,推动档案管理模式发生变化:一是档案管理流程走向精细化,二是这种精细化使档案资源和用户需求的双向控制关系发挥到极致。为了保证档案数据深度挖掘,促使档案管理走向精细化,提出了实现对策:建立以数据挖掘技术为核心的信息系统,构建以人为本的用户关系管理,保证数据挖掘技术中的数据隐私安全,借力“智慧因子”完善数据挖掘技术等。

    关键词:大数据技术;数据挖掘;档案管理

    伴随着大数据时代的到来,数据挖掘技术在档案管理中的应用将进入一个新的发展时期。尽管档案学术界很早就提出知识管理与知识挖掘,但知识挖掘尚停留在概念和理论探讨阶段[1]。大数据挖掘,即从大数据中挖掘知识,大数据挖掘技术有效地解决了数据和知识之间的鸿沟,是将数据转变成知识的有效方式[2]。因此,有档案学研究者认为“档案馆的传统业务将向档案资源的数据分析、数据挖掘方向转移,对大量数据的分析处理将成为档案馆的主要业务”[3],“档案信息服务的底层基础可能不再是检索,而是智能化的数据挖掘”[4]。

    大数据时代给数据挖掘技术带来的根本性改变是使数据的深度挖掘成为可能,对大量数据进行分析处理和智能化挖掘,从管理角度来看,要达到最优的结果,不仅数据要全面、可靠、有价值,而且需要对数据进行深度挖掘。

    1 数据深度挖掘是大数据技术应用于档案管理中的主要特点

    数据挖掘技术是通过对海量数据进行建模,并通过数理模型对企业的海量数据进行整理与分析,以帮助企业了解其不同的客户或不同的市场划分的一种从海量数据中找出企业所需知识的技术方法[5]。数据深度挖掘,是一个对数据进行建模的过程,并对数据进行分类与统计,查找得出数据分布的关联性,这也是探索规律的过程。

    如,档案人员想要做好档案编研选题,不仅要对用户利用档案数据,包括档案调卷数量、档案利用次数、复制档案数量、制发档案证明数量等进行深度挖掘,而且还需要对用户访问记录,包括网页采用的关键字、下载记录、检索词、用户利用网页时间和频度等信息进行深度挖掘,然后利用分类功能及数据分析,建立档案编研选题的用户模型,一是按需确定不同类型的编研选题,提供个性化的服务;二是根据档案用户需求特点,预测其未来趋向,结合社会热点选定档案编研题目,从而使档案编研部门推出用户满意的编研成果。在档案利用方面,对档案利用登记数据库进行深度挖掘,分别选取不同方面数据进行建模,可以得出不同档案利用形式的变化趋势,从而对档案利用趋势进行分析和预测,对利用频率高的档案进行全文数字化,既可以提高档案利用效率,又可以起到保护档案原件的作用。

    因此,档案数据的深度挖掘是大数据时代的主要特点,档案学的发展历程告诉我们,每一次重大的技术变革都必然影响着档案学的发展,如计算机和网络技术的引入,引起了档案管理理念与实践的变革,改变了文件与档案的处理流程[5]。大数据技术对档案数据的深度挖掘为档案管理流程由粗放走向精细化提供了可能。

    2 大数据技术对档案数据深度挖掘使档案管理模式走向精细化

    大数据挖掘技术基于传统的数据挖掘,使用的是数据仓库,构造的是“泛关系”的聚分类模型,采取的是海量数据分析方法,机器与人类一样具备语义知识,提供的是可视化视图来揭示信息,可以说是传统数据挖掘方法的深化。由中国人民大学网络与移动数据管理实验室开发ScholarSpace,大数据处理的最基本流程由数据来源、数据抽取与集成、数据分析、数据解释等过程组成[6],分析认为大数据技术对档案数据挖掘由数据采集层、数据整理层、数据分析层、数据展示层组成。

    2.1 数据采集层收集高质量的档案数据,为档案管理精细化奠定基础。数据采集是大数据技术处理流程中最为基础的一步,高质量的数据是大数据技术发挥效能的前提,大数据技术只有在高质量的大数据环境下才能提取出隐含的、有用的信息。由于大数据具有实时与动态性特征,“在线”、“近线”和“离线”的各种数字资源均是采集对象。为了使所获得的数据更具有代表性,通过什么方式获取数据信息显得格外重要。数据采集层要收集不同数据源产生的数据,为档案数据挖掘的后续工作做好准备。

    2.2 数据整理层改变传统数据处理方式,凸显档案管理精细化过程。经过各种渠道获取的档案数据种类繁杂、结构多样,通过处理、集成、存储可以做到:

    一是将结构复杂的数据转换为单一的或便于处理结构的数据。现代互联网应用呈现出半结构化和非结构化数据大幅度增长的趋势,这些资源将成为馆藏的重要来源。如,对档案系统运行日志资料等数据,就需要转换成结构化数据,形成档案统一的语言。二是对采集到的数据进行“去噪”和“清洗”,以保证数据的质量和可靠性。由于原始数据中有噪声数据、冗余数据等问题,对数据进行解析、清洗、重构,以提高待挖掘数据的质量。三是对整理好的数据进行存储,建立专门的数据库分门别类地放置,减少数据查询和访问的时间,提高数据提取速度。

    2.3 数据分析层对档案数据的精细分析,凸显档案管理精细化的思维模式。数据分析是整个大数据处理流程最为核心的部分。“相关性”分析是大数据技术重要的思维模式,通过对数据彼此关联性的分析,能够更清楚地看到隐藏在背后的看似不相关的数据之间彼此的密切联系,使档案数据挖掘从常规分析向广度、深度分析转变。

    “相关性”分析可激活数字档案资源,大数据技术的核心作用就是挖掘出庞大的数据仓库独有的价值,不管是网络实时运算的“热数据”,还是非在线的“冷数据”,通过对档案数据的综合挖掘、深度整合和数据分析,激活休眠状态的档案资源,展现数据价值,创造出新知识、新价值。“相关性”分析能有效破除信息孤岛的数据壁垒,使各个孤立的、互不联通的数据库之间资源实现充分共享。

    2.4 数据展示层为档案用户提供更加精准服务,凸显档案管理精细化“以人为本”的价值追求。对档案用户来说,最关心的不是数据分析处理过程,而是对大数据分析结果的解释与展示。若数据分析的结果不能得到精准的展示,会对档案用户产生困扰,甚至会误导用户。通过档案管理信息系统,将深度挖掘的数据可视化,可以使用户清楚地看到未来发展的方向,从而对决策结果作出评价,这也是决定整个系统挖掘技术是否成功的标准。

    3 大数据技术对档案数据深度挖掘,将档案管理精细化发挥到极致

    大数据技术在档案管理中的应用从两个方向进行描述:从横向上看,以大数据挖掘技术为中心沿数据收集、整理、分析到展示等技术解决方案;从纵向上看,以数据产品为中心沿档案资源挖掘、用户数据挖掘及关系洞察及趋势预测逐级递进。大数据技术对档案数据深度挖掘使档案资源与用户需求的双向控制达到最优化,凸显管理精细化趋势。

    3.1 档案资源挖掘。由于缺乏综合数据挖掘和深度整合,档案资源存在着重藏轻用深度挖掘不够的问题,因此,通过对档案资源数据的深度挖掘,展现数据价值,创造出新价值。

    首先,大数据时代树立“大档案”工作思路,重视数据积累,不仅要建立档案资源体系,还要建立数据资源体系观。其次,建立共享档案数据资源库。以省级为单位,建立集中的、规范的、可供共享的档案数据资源库,使各档案馆藏之间相互关联,成为一个内容丰富且不拘泥于实体存储的,信息互联共享的档案数据资源网。最后,利用云计算平台和处理技术构建档案数据资源网,可以用于实时性档案数据的接收,也可以对非实时性数据进行分类处理,使其成为档案用户提供服务的平台。

    3.2 用户数据挖掘。通过对用户数据挖掘做到精确洞察,精准服务,提升档案用户认同感,实现档案服务价值。用户数据挖掘包括以下方面:

    一是对用户信息进行数据挖掘。提取用户的信息需求,查看用户访问服务器时留下的日志文件,跟踪用户行为,推测用户兴趣,提供个性化利用服务。二是对用户统计检索和浏览记录进行挖掘。如,利用统计分析的方法,通过分析用户对档案目录的点击率,选取点击率高的档案进行数字化;通过分析用户检索时使用的档案检索词,充实和完善数据仓库中的检索关键词,以提高查准率;通过统计分析用户对网页的访问频率,进而开展深层次的信息服务。

    3.3 关系洞察及趋势分析。无论是档案资源和用户数据,通过挖掘得到的仅是某一方面的数据,这些数据往往是孤立的数据点,因此,要使这些数据集成为一个完整的网络,必须对数据网络后面的数据关系进行深入分析。如,单单对档案收集情况进行挖掘,得到的仅仅是档案人员与档案之间的关系,对档案利用情况进行挖掘,得到的仅仅是档案与用户之间的数据关系。然而,要想精准洞察档案之间、用户之间及档案与用户之间关系,必须将以上各个孤立的数据点进行整合,得到一个完整的档案网络,才能使档案发展、社会服务等趋势的预测成为可能。

    4 积极探索综合性的对策促进档案数据深度挖掘的实现

    在融合数据,精细分析后,我们应通过综合性的策略保证大数据技术在档案数据挖掘中的应用落到实处,保障大数据技术在档案管理应用中的有效实现与良性循环。

    4.1 建立以大数据技术为核心的数据资源体系,使档案数据挖掘具有时代特色。构建一个“以数字资源为主体,以文本、图片、音频、视频等为形式,为中华民族集体记忆的建构和传承提供文献支撑的‘中国记忆数字资源库”[7],是时代赋予我们的目标与使命。

    首先,扩大数据总量,构建现代化的档案资源体系,加强实体资源的建设,完善档案门类,优化馆藏结构。其次,加强数字资源建设,按照“存量数据化,增量电子化”战略,组建数字化档案资源库,加强电子文件的收集归档。最后,积极开放数据,整合数据资源,增强知识挖掘,实现数据增值。大数据技术为档案管理的深度挖掘提供了数据管理方面的保障,而对数据的深度挖掘使档案馆的功能扩展到发现与预测。

    4.2 构建以人为本的用户关系管理,使得档案数据内在关联得以深度挖掘。大数据时代最大转变是放弃对因果关系的渴求,取而代之关注相互关系,只要知道“是什么”,而不需要知道“为什么”[8],这一转变将使我们以新的视角去理解档案用户数据挖掘。

    利用大数据技术可以掌握用户此前的行为、正在进行的实时行为,还可以对用户未来行为进行预测分析,深度挖掘数据内在关联,促进资源集成创新,实现档案数据资源的增值服务。借助大数据技术,对用户搜索方式、行为轨迹、使用习惯、利用兴趣、存储行为等数据进行分析,有效发现用户隐性诉求。如,针对不同用户,产生动态推荐超级链接列表。建立以用户名为单位的个性化数据库,把用户想要的东西、挖掘分析结果放入。

    4.3 在挖掘数据同时保护数据隐私安全,为档案数据深度挖掘提供良好的环境保证。大数据时代的隐私保护面临着技术和人力层面的双重考验,如果将这些数据合理利用,将为档案预测决策提供必要的情报信息。如何在保护隐私的前提下对档案数据进行有效的挖掘,我们应做到:一是健全法律规范对个人的隐私权利给予保护,建立健全数据安全管理规划体系,避免因个人隐私数据被随意挖掘滥用而造成影响社会稳定的事件发生。二是使用保护数据隐私的数据挖掘方法,合理界定哪些信息是属于私人信息,在保护私人信息安全的情况下进行数据挖掘。

    4.4 借力“智慧因子”完善大数据技术在档案数据挖掘中的应用。随着“智慧城市”的提出,智慧的概念涉及各个领域,智慧档案馆也应运而生,智慧档案馆的核心理念是智慧服务,在大数据技术中植入智慧因子,依托物联网技术将馆舍、档案、网络、数据以及用户统一在智能网络中,达到有效整合和深度挖掘,深层次推动档案服务智慧化。大数据技术不仅将档案资源、用户数据、关系洞察及趋势分析产生的各种数据资源进行汇聚融合,而且利用智慧服务理念创新开发个性化的服务手段,使得档案知识的隐性知识显性化,为用户提供精细化的服务体验,推进档案信息资源智慧服务和知识空间的构建。

    5 结论

    大数据时代,大档案、大服务、智慧档案等成为档案工作的新发展,随着档案管理创新的深入推进,大数据技术将真正落实到档案管理各个环节,数据挖掘技术将更加娴熟地在档案管理中得到运用。通过本文分析我们得出以下结论:

    (1)档案数据的深度挖掘是大数据时代数据挖掘技术在档案管理应用中最主要特点,促进档案管理模式发生改变。因此,在开展档案管理流程研究时,应当立足于这一点,从而达到整体的最优化。

    (2)大数据技术对档案数据的深度挖掘历经不同过程环节,我们应当在厘清各环节的基础上,采取有效措施促进整个过程的有效运行,实现整个过程的良性循环与互动。

    (3)大数据技术对档案数据挖掘的实现除了依赖大档案数据资源作为基础外,还需要有“以人为本”的用户关系管理、智慧服务理念、规范化的数据安全管理环境等,因此,档案部门应当加强与各部门之间的协同合作,实现大数据技术在档案管理中的应用。

    参考文献:

    [1] 于英香.档案大数据研究热的冷思考[J].档案学通讯,2015(2):5.

    [2] 王雅洁等.大数据挖掘在食品安全预警领域的应用[J].安徽农业科学,2015(8):332.

    [3] 周枫.资源 技术 思维——大数据时代档案馆的三维诠释[J].档案学研究,2013(6):63~64.

    [4] 张芳霖,唐霜.大数据影响下档案学发展趋势的思考[J].北京档案,2014(9):12.

    [5] 曹莉.刍议大数据时代的数据挖掘与精细管理[J].经营管理者,2013(18):191~192.

    [6] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(1):150~151.

    [7] 冯惠玲.档案记忆观、资源观与“中国记忆”数字资源建设[J].档案学通讯,2012(3):6.

    [8] 迈尔-舍恩伯格,库克耶著,周涛译.大数据时代:生活、工作与思维的大变革[M].浙江人民出版社,2013:12~13.