标题 | 地震资料处理中的并行存储技术研究与应用 |
范文 | 于盛 摘要:随着并行计算机、高性能集群技术以及GPU等硬件的快速发展,逆时偏移的研究得到了快速发展,在石油勘探领域,普遍以逆时偏移技术为基础,通过GPU和集群技术来增强整个平台的计算能力; 如何构建一个高性能、高可用的存储平台来满足逆时偏移计算平台变得非常重要,因此,我们需要根据逆时偏移技术算法特点,开展逆时偏移高性能集群并行存储技术研究,对目前的存储系统进行定制开发,使存储系统能够更高效地满足石油勘探计算平台需求,使文件系统可以做到在保证数据安全的前提下在线扩容以及在线更换 关键词: 高性能;高可用;在线扩容 中图分类号:TP311? ? 文献标识码:A 文章编号:1009-3044(2019)21-0266-02 开放科学(资源服务)标识码(OSID): 1 引言 石油勘探计算平台,尤其是逆时偏移应用的I/O模式,整个计算平台每天都会进行大量的计算任务,每个任务都是成千上万的计算节点以及GPU同时进行计算,因此,在整个的计算过程中访问并发度较高,读写同时进行,整个存储系统的聚合带宽越高,计算任务完成的速度越快。 其次,在整个的石油勘探计算过程中,整个计算平台在实际使用过程中会产生海量的大小文件,如何高效地支持海量文件的并发访问以及快速检索对存储系统来说非常重要;由于计算任务的不同,一段时间内整个计算平台也许只运行一个或者几个大型任务,这样一段时间内访问存储系统时,数据存在局部性,因此,为了使计算任务的效率更高,存储系统可以利用这一访问模式的特点,根据局部性原理实现智能缓存技术来加速石油勘探计算应用数据的访问;由于整个计算平台是面向各个不同部门的共享平台,所以同一时刻会有多个部门的人同时在计算平台上面运行不同的任务,需要存储系统确保各个任务能够安全可靠的访问各自的数据,防止不同用户发生数据篡改或误删除现象。 2 需要解决的问题 缓解逆时偏移数据存取瓶颈; 满足常规地震处理数据存储与传输带宽需求。 2.1地震资料处理相关存储技术 目前地震处理主流存储是SAN存储,这类文件系统的代表:StorNext,EMC,日立,等等这些都是基于SAN架构。 这次我们选择使用的是LoongStore存储文件系统,该文件系统主要由应用服务器集群、元数据服务器集群、智能存储服务器集群三大部分组成,通过这三部分对外提供数据读写服务。 应用服务器集群:运行客户应用程序的集群,进行特定计算、信息处理及业务服务等。应用服务器集群可通过存储系统看到全局统一试图,对共享存储进行并发访问。 元数据服务器集群:管理文件系统的元数据(包括文件目录树组织、属性维护、文件操作日志记录、授权访问等),管理整个存储系统的命名空间,对外提供单一的系统映像,支持千亿文件的快速检索。 整个集群存储系统是一个带外模式的IO访问架构,客户端访问存储系统模型如下图1所示,数据通道和元数据通道完全分开,所有的数据读写都直接在Client(客户端)和iStore(存储服务器)之间进行,整个IO架构不存在任何单点性能限制。 如下图2所示,存储服务器集群中所有的存储服务器都同时提供IO服务,能够向应用服务器提供GByte/s级的聚合IO带宽,能够满足云计算平台中大量的应用服务器同时访问存储系统带来的性能需求。 集群存储系统的双集群模式(元数据服务器集群和存储服务器集群)使得整个存储平台在架构上没有任何性能瓶颈,能够提供超过100GByte/s的聚合IO带宽以及1000万次以上的IOPS(每秒读写次数)。 2.2逆时偏移集群并行存储系统测试 测试存储系统整体性能与文件的检索效率,以此考察在高并发的环境下存储系统的整体性能是否能够满足应用数据读写以及未来发展趋势的需求。 2.2.1 数据读写测试 2.2.2 测试工具 本次测试采用的测试工具是iozone3.0版本,该软件可以模拟数据读写模式,测试存储系统的随机和连续读写性能。 2.2.3 硬件环境 测试环境包括存储服务器21台,每台12块3T企业级SAS盘,元数据服务器为2台intel520服务器,应用服务器为21台HP刀片服务器。部署Linux RedHat6.5操作系统。 2.2.4 性能测试 名称:写测试描述:在21个应用服务器上启动写测试(多进程并发,每个节点10个进程并发),往存储系统里以不同粒度(1KB、1MB)的模式写入数据,统计总的写操作带宽。 测试存储系统整体写聚合带宽。因应用在进行数据写时,文件粒度大小是不规则的,所以此测试采用不同粒度的形式进行数据写测试,以此判断存储系统对应用系统的支撑度。 客户端数量:21整体并发数:210读写文件大小:20000GB 1K:8.21GB/s 1M: 8.34GB/s。 名称:读测试描述:在多个应用服务器上启动集群读测试(多进程并发,每个节点5-10或以上进程并发),往存储系统里以不同粒度(1KB、4KB、7KB、56KB、128KB、1MB)的模式读出数据,统计总的读操作带宽。 测试存储系统整体读聚合带宽。因应用在进行数据读时,文件粒度大小是不规则的,所以此测试采用不同粒度的形式进行数据读测试,以此判断存储系统对应用系统的支撑度。 客户端数量:21整体并发数:210读写文件大小:20000GB 1K:8.45GB/s1M:8.56GB/s。 2.2.5 測试结论 (1)性能:FC SAN存储设备,如StoreNext EMV等存储设备,文件系统本身并不是严格意义上的并行存储,还是有所谓的IO概念,存储的性能主要还是局限在IO性能,而基于并行文件系统的存储则会随着存储规模的扩大,存储的性能也会线性的增长。 (2)扩展性:由于大部分SAN存储做的都是RAID阵列,一旦产品投产之后,如果要对其进行扩容或重新分配使用用途,就只能停机重新对其规划,并行文件系统就不存在类似问题,完全可以做到在线扩容,只要把存储加到原有的资源池即可,完全做到在线扩容,对于用户来说不会有任何的感觉。 (3)安全性 SAN由于存储大多采用的是RIAD5技术,如果同时一次2块硬盘故障就会有数据丢失,而并行存储可以人为做调整,根据数据的重要性可以做到50%冗余度或者80%冗余度等,即冗余度可调,经过测试即使一个存储柜子掉线也不会影响数据的使用,存储会在后台自动恢复重建丢失的数据,对于业务来说只是速度会有一些降低,但是不会对其产生致命的错误。 (4)易用性 首先传统的SAN存储对管理员的要求较高,需要专人维护,并且其硬盘造价昂贵,如果是一个用了很多年的存储,那么备件也是一个问题,而并行存储它不挑磁盘,可以把陈旧磁盘进行回收利用。管理十分友好,有一定的系统基础的人经过简单培训即可胜任。 3 结束语 LoongStore作为一款优秀国产文件系统,采用了自主研发的全系统规模数据高可用技术,彻底消除存储系统中的单点故障,结合特有的自动故障探测和快速故障恢复技术,确保用户的应用持续稳定地运行,在目前中美贸易摩擦的大环境下 ,这样一款软件对于我们用户来说是非常及时的,在实际应用过程中,经受住了各种极端环境条件的考验,并且能够保证数据的安全。 参考文献: [1] 高剑林.Linux内核探秘:深入解析文件系统和设备驱动的架构与设计[M].北京:机械工业出版社,2014. [2] 凌云.地震数据采集处理解释一体化[M].北京: 石油工业出版社,2007. [3] 赵文辉,徐俊,周加林,等.网络存储技术[M].北京:清华大学出版社,2005. 【通联编辑:闻翔军】 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。