水文地质非结构化数据模型的理论研究
何万双+尚功伟
摘要:水文地质数据复杂多样,非结构化数据彼此孤立,不能共享,建立一个水文地质非结构化数据模型势在必行,为资源共享,提高工作效率提供最大限度的可能性。
关键词:水文地质;非结构化数据;信息
一、非结构化数据的定义
相对于结构化数据(即行数据,存储在现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括数据库里,可以用二维表结构来逻辑表达式所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。据统计,非结构化数据占到现有数据总量的80%以上。
二、非结构化水文地质数据的特点
1、专业性强。水文地质数据涉及到的大部分是和水文地质相关的信息,如水文地质图、物探、测井曲线、地质构造三维结构图、各种水文视频资料等内容。对于这些数据的分析和解释,不同的经验背景、不同分析方法得出的分析结论可能依然会有差异。
2、媒体形式多。水文地质资料包括数字化的文本、实物、照片、电子出版物、数字及三维地质图、地质构造图等各种各样的水文地质相关资源。其存储媒介已不限于印刷体,它包含文本、声音、图像、视频等多种媒体形式,类型复杂。
3、存储容量大。水文地质相关的各类资料非常多,要实现由计算机来进行处理分析,则需要对大量资料进行信息抽取和数字化,随着资料的不断完善,资料的积累导致的数据会成倍增长并将一直持续下去。
三、水文地质数据信息的管理及使用现状
1、管理现状。目前,在国内各水文地质、勘察设计等单位之间没有形成有效的资源共享,各单位的详细信息资源基本都相互独立,产生了信息孤岛。同时,在单位内部,除部分结构化的信息资料(如地质结构数据等)由计算机进行管理,大部分的应用系统中的非结构化数据,如报告、报表、图片等都是以二进制的格式保存在结构化数据库的BLOB字段中。保存在BLOB字段中的好处是调用文件的速度很快,维护和管理简单;缺点一是由于非结构化数据文件大,在数据量不断增大的情况下,会使得结构化数据库迅速膨胀,导致数据库性能下降,进而影响整个应用系统的性能;二是由于各个应用系统相对封闭和独立,其他应用无法共享相关文档资料,信息之间的关联程度低,不能有效发挥信息之间的关联解释作用,极大的降低了数据的价值。
2、使用现状。由于上述的管理现状,水文地质资料在使用上存在影响资料价值有效发挥及工作效率低的问题。例如,在本单位所掌握的资料区域内执行任务时,由于信息资料管理的自动化程度低,资料之间的关联关系没有有效建立,查阅资料时就需要翻阅不同存储位置、不同存储介质的大量信息,以便为制定决策提供依据,极大的降低工作效率。如果到本单位所掌握的资料区域外执行任务,所能得到的参考资料非常少,通常需要提前进行现场勘查或到当地有关单位索取相关资料。
四、水文地质数据的应用分析
第一类决策指挥层:主要关心的是水源分布及施工进度情况,从宏观上掌握控制水环境,以便能够及时进行任务分派、调整、做出指挥决策。
第二类工程地质人员:主要关心如何利用现有水文地质资料及以往的知识和经验分析某一区域的水文地质情况,寻找水源位置,评估施工效率和施工成本,报表打印,为施工、钻井设计以及水源侦查过程中所遇到的一些问题提供相关资料和解决办法。
第三类施工技术人员:包括钻井指挥人员、机台管理人员、设备操作人员等,主要关心施工区域的地质构造,应采用的施工工艺,发生故障时应采取的处理办法。
五、水文地质信息知识抽取模型的建立
1、对水文地质非结构化数据进行专业细分,使其作为一个独立的专业领域来进行专门处理,从而极大缩小数据的管理范围,提供管理的专业化水平。因此,集成行业的相关数据,或者说为了搜索和分析而对这些数据进行专业细分,其实现的可能性就非常大。
2、在非结构化水文地质数据采集的方式上采用元数据管理和系统自动学习修正的技术,从而提高数据质量。对于非结构化的水文地质数据,大部分都无法直接由计算机来进行统一管理和使用,必须对其本质信息进行抽取和总结,从而提取出便于计算机管理的有价值的信息。抽取的这些信息便是非结构化数据的元数据描述。这些元数据通常无法由计算机直接生成,需要由专业人员对其进行解释分析生成。
3、在数据使用上采用全文检索技术和信息自动关联的方法。根据调查,地质工作者每天30%的工作时间,用于收集信息:72%的领导者认为,知识没有在他们的组织得到重复利用。从这些异构、繁杂、丰富的内容中,准确、快速地找到自己所需要的信息,减少信息搜寻时间,能够创造巨大的价值。当非结构化的水文地质元数据库建立好以后,信息查找就变的和处理结构化数据一样简单了。
六、非结构数据模型存在的问题
1、各水文地质单位之间的数据共享问题。由于这些水文地质数据可能涉及到国家利益和各单位的自身利益,因此有些数据通常属于保密范畴,通常不便于联网使用。因此,这些详细的水文地质资料需要由国家相关部门来统一进行整合,统一管理使用,及时进行数据更新,从而方便相关部门执行任务时进行查找使用。
2、结构化数据与非结构化数据之间的互通问题。以上模型的建立是基于非结构化的水文地质数据而得出的,对于结构化的水文地质数据依然保存在结构化的数据库中,二者之间如果要建立关联,则需要一个中间的特殊纽带来完成。纽带的选择非常重要,我们将地理坐标和区域名称作为这一关键性的关联纽带,在结构化和非结构化水文地质数据之间建立联系。
3、专业化解释的问题。对于非结构化的水文地质数据,由于其专业化程度较高,很多数据都需要进行分析解释,因此,元数据构建的工作量非常大。