标题 | 核电厂文档信息系统建设 |
范文 | 刘鑫 摘 要:本文对核电厂文档信息系统建设的现状加以分析,从中总结出目前文档信息系统建设中的先进经验,并对文档系统应关注的前沿方向予以展望、探索。通过这些展望与探索,挖掘出文档信息系统内的数据优势,更好地为生产运行提供支持保障。 关键词:文档系统;知识热点;功能;建设 一、核电厂文档信息系统现状 核电厂文档信息系统以Filenet、Documentum等平台搭建。秦山核电依托Filenet平台建立的ECM系统代表了目前核电厂文档信息系统的最高能力。但该系统仍是以文档存储、文档流程为主要功能,并不具备事物流、数据流、数据交互的功能。 1.核电厂文档信息系统建设成果。ECM系统是以国家档案局在2017年发布《企业数字档案馆(室)建设指南》中“数字化档案馆的建设”为指导思想,以“通过计算机系统将各生产系统、管理系统的数据进行自动捕获归档”为实施思路,开发建立的国内新型文档信息系统。纵观核电文档信息系统建设情况,已从离线收集档案数据,向在线收集档案数据的方向发展,并向大数据管理与利用的方向发展。 2.核电厂文档信息系统建设的良好实践。核电厂文档信息系统已实现从其他系统自动对接电子数据与电子文档,减少了文档数据离线传递而导致的出错率,避免了电子文件重复加工。现在的文档信息系统也具备了多维度文档分类的雏形,通过不同视角透视文档结构,部分满足不同用户构建文档树状结构的需求。文档信息系统也具备了评价功能,用户可对文档的利用效果进行评价;通过用户主动推荐对知识热点加以标引,初步实现知识管理的雏形。 二、核电厂文档信息系统建设存在的不足之处 1.与生产系统的嵌入能力不足。文档信息系统的建设方向注重了数据的单向收集,而未注重文档数据向外部信息系统的主动发送利用。不能与生产系统双向对接或嵌入,生产系统不能良好的调用文档系统数据,做不到互相标引。 2.“事物—文档”数据流欠缺。目前文档的产生来源于孤立事件,但系统化的文档是产生于事物流、数据流。并能通过事物流、数据流将文档信息加以动态整合。以某项目运作为例,立项、审批、论证、采购、验收、完工等环节,在不同系统或者离线完成,产生的文档则离散存储于不同之处,文档系统性较差。 3.提取知识点的能力不足。核电厂主要的知识点集中在手册、图纸、记录等各类文档中。文档信息系统不具备发现知识热点的能力,不具备有效的算法对知识热点标引,成为知识管理的瓶颈。传统的用户主动标引模式很难调动用户积极性,知识热点识别的准确度不高。 4.基于内容的互相关联未做好。文档信息系统具备了全文检索能力,但基于全文内容的数据挖掘能力还不具备,也没有采用数据挖掘工具。以系统流程图为例,图中均有设备、系统、流程指向等数据,但无法基于内容数据进行文档自动关联。 三、文档信息系统未来建设的思考 首先,需要建立文档数据与其他生产系统数据双向对接的能力;其次,应建立“事务—文档”数据流;再次,应考虑知识热点的自动发掘能力;最后,是基于文档内容的相互之间关联功能。 1.其他系统的嵌入 (1)文档数据双向传递标准接口。文档信息系统与外部系统之间进行数据交互,需建立双向传递的功能。实现外部系统产生的文档数据自动捕获进入文档信息系统,文档信息系统的数据能主动传递与外部系统或被外部系统调用。文档信息系统成为文档数据交换的中心,外部系统围绕该中心无缝双向传递文档数据。实现此能力需建立标准数据传递接口,外部系统在系统开发时涉及到文档传递,只需调用标准接口无需再次开发。但其缺陷是标准接口是普遍适用,难以满足系统之间文档使用的个性需求。 (2)嵌入式的文档功能模块。可将文档管控基础功能整合为功能模块,各外部系统在建设时,可将此功能模块嵌入。文档功能模块应用目标是外部系统,模块功能可略为简化,能做到增、删、改、查,简单报表则可,文档专业的归档、组卷、排架等功能可省略。文档功能模块应满足跨平台应用。 (3)文档模块元数据自定义。文档模块元数据定义,首先需满足行业标准加以初始化定义。但文档模块应用于外部系统,有自身业务元数据与生成的文档紧密相关。因此应考虑在文档模块功能不变的前提下,在标准元数据的基础上,允许外部系统增加个性元数据。及时将各外部系统个性化元数据收集分析,对于重复度高的可视为高耦合数据,及时纳入标准元数据之中。 2.基于事物流创建文档流 (1)事物—文档流模型。以项目建设为例,其生命周期内不同阶段均产生、使用文档,生成记录。文档信息系统应考虑在系统内建立事物流概念,如立项、评价、审批、上报、论证、执行、验收等事物环节。事物环节内定义触发事物所必需的文档条件、事物执行后产生文档列表等。事物流概念与嵌入式文档模块相结合,外部系统生成文档时将关联事物信息一并归档到文档信息系统。最终实现以事物的总体视角将相关文档进行有序组合。 (2)从外部系统获取事物流。事物流的创建,并非全部从文档信息系统触发。专业系统中已具备专业事物(办理)流,文档信息系统则应将专业事物流要素纳入其中,与文档系统数据相结合。但应考虑不同外部系统事物流数据结构的不同,获取外部事物流与文档应优先考虑标准封装格式数据,以便于读取与解析。 (3)综合组合事物流。事物流可从文档信息系统触发,也可外部系统触发。实际工作中,一项事物会切分为若干事物子项,每一事物子项具备自身的事物流。各子项事物流需链接与整合,各子項事务产生的文档整合在一起才为完整的项目文档。文档信息系统需在获取多子项事物流之后,进行事物流整合,最终保证全部过程产生的文档数据为有序整体。 (4)事物流交互提供。事物流关系结构中,上一事物流的结果往往是下一事物流触发的条件。文档信息系统在具备事物流整合能力时,应注重事物流生成文档的可交互性,实现从不同系统获取文档,依照事物流总流程,自动提交与下一级事物流,从文档的角度将综合流程打通。 3.自动提取知识热点 (1)检索条件与结果统计知识热点。文档信息系统已实现多种检索能力,应在检索条件与检索结果利用方面进行统计、算法计算。對用户的检索词进行统计,可分析出搜索热词,可得知用户关注的知识方向,提供热词自动提醒。检索结果利用对点击率高的文档进行统计,得出搜索热词与文档之间的相关性。相关性高可做优先推送,提供精准利用。 (2)阅读行为提取知识热点。用户查阅电子文档时,有价值的部分阅读时间长,无价值的略过。统计分析电子文档有效阅读时间,用户对某文档阅读时间明显高于其他文档,则可认定该文档的内容价值较高,用户较为关注。同一篇文档中,某部分有效阅读时间高于其他章节,可认定该部分则包含了潜在的热点知识。可以作为热点知识储备。 (3)分词分析知识热点。热点文档、热点片段包含了知识热点。运用技术手段对内容文字分词分析、关键词标引,通过用户不断积累有效阅读时间,内容中分词标引次数则会明显升高,可分析出热点知识词汇。进而通过与检索热词对比,与其他热点文档所标引的热点词汇对比,逐步筛选出共性热点词汇,在大量自动标引与比对之后,热点知识可以初见模型。 4.基于文档内容自动关联 文档之间是多对多的关系,树状目录是一对多关系,需运用网状关系进行描述。 (1)特定关键词分析。以流程图为例,特定文档包含特定含义的关键词,例如系统代码等。特定关键词与日常词汇语义不同,没有模糊含义,可作为基于文档内容管理的触发条件。例如,对系统代码进行提取,可知哪些文档对该系统有记录,多文档提取后,可获得该系统相关的文档图谱。 (2)特定关键词建立网状文档关系。多份文档具有多个特定关键词,通过计算机自动建立网状关系。通过一份文档可以可视化的看到与其内容有所关联的文档全集,用可视化手段实现用户进行文档逐步探索的需求。 (3)通过用户行为,建立关系主干。网状关系中关系程度有强弱之分。通过用户行为分析,根据探索点击率、被点击文档的有效阅读时间,标注关系强弱。通过关系图探索,点击率越高,且有效阅读时间越长,则文档之间关系越强。根据强关系实现智能推荐。 四、结论 核电厂文档信息系统经过长期的建设,目前需要探索的是如何将文档中所包含的浩瀚的知识加以有组织的利用。让用户搜索提取知识的模式已经过时,需要通过计算机建立与用户行为相似的学习模式,用信息系统自主学习的方法,帮助用户预先规划好文档信息,提取关键数据,建立出关联文档,主动精准推送与用户利用。 参考文献: [1]钱 毅.《电子文件管理系统通用功能要求》(GB/T 29194)解读[J].北京档案,2018 [2]苏 博.基于工作流的电子文件管理系统功能分析[J].机电兵船档案,2019 [3]王 华,王 瑾,冯萍萍.企业重要业务平台电子文件归档与电子档案集成利用研究[J].浙江档案,2018 (作者单位:中核核电运行管理有限公司) |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。