大数据在海事管理中的应用与挑战
钱雁
摘要:本文简要分析和描述了大数据在海事管理中的场景及应用,并就面临的挑战探讨相关对策。
关键词:大数据 海事管理 场景及应用挑战 对策
0 引 言
大数据(big data)是具有5V特征--Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)的数据,涉及的数据集合规模非常庞大,需要更强的决策力、洞察力和流程优化能力对其进行运算。
李克强总理在2015年政府工作报告中,首次提出“互联网+”行动计划,推动移动互联网、云计算、大数据、物联网等的发展。同时,国务院印发了《促进大数据发展行动纲要》,可见大数据在当今信息化时代的巨大影响力。海事管理机构在这样的背景下,应积极尝试将大数据与海事管理相结合,深入开展数据挖掘,让大数据应用到海事现代化监管与服务中。
1大数据在海事管理中的应用
交通运输部海事局组织编制的《海事信息系统顶层设计报告》,制定了“一个目标、二个模型、四套体系”的总体架构,根据系统顶层设计的核心精神。杨浦海事局利用大数据在船舶动态评价体系建设上做出了积极探索和实践,将船舶管理系统、AIS信息服务平台和船载危险货物申报系统等数据整合到“国内航行船舶现场监管和自动选船系统”(简称“选船系统”),AIS识别到的船舶被自动计算出风险值和优先等级,目标船及现场监管重点变得一目了然,避免了重复检查,改变过去人工选船的盲目低效,变为系统自动“抓取”的精准高效,实现了海事监管从“汗水型”向“智慧型”的转变,“选船系统”于2016年7月1日已在上海、天津、山东海事局试点运行,积累了一定的现场应用经验。
1.1开发选船的数学模型,用数据进行客观的决策
在信息不对称的条件下,经验可有效提高工作效率,但随着数据的积累,经验明显滞后,对不同个体也不尽适用,对新事物新变化无法把握。目前设计的选船系统充分考虑了船舶的各项信息,并结合船舶综合管理的理念来进行数据建模,通过船舶、公司、风险、绩效等多维度交叉分析实现数字化选船,让数据进行客观决策,通过“互联网+海事监管与服务”思维运用,实现海事现场监管的智能化、信息化。选船系统模型开发遵循:
(1)符合海事监管与服务的相关规范要求
(2)系统设计应严格执行有关规范并充分考虑用户的需求
(3)综合考虑各种资源,避免重复建设,降低运营成本
(4)系统应具有较强的容错能力,具有完善的系统恢复和安全机制
(5)系统方案在满足现状的情况下,充分考虑将来的发展,具备良好的扩展性。
1.2多维度建立数据关联,解决数据孤岛问题
海事管理涉及人、船、环境等多个方面,与之相配套的管理系统各地不尽相同,信息不联通也未实现共享,海事监管虽然积累了众多数据,但信息孤岛现象也逐渐凸现出来。如何将船舶基本数据、安全检查、事故调查、行政处罚、重点跟踪及协查船舶等分类信息有效集中并加以利用,是重中之重。杨浦海事局探索了一套行之有效的数据关联方法,建立集中数据服务,以船舶为中心,与之相关的船员、公司以及历史信息进行收集、整理、漂洗后有机结合在一起,形成用于选船的数据集市,不但解决了数据孤岛问题,而且可以构建开放的数据流动生态。
1.3让数据发挥其效能
如何在有限的资源条件下让海事数据的效益得以最大化是非常值得研究的课题,通过对船舶数据进行更深入的统计分析和预测,则会有很多有价值的信息可以开发,让船舶监控逐步智能化,发挥海事机构更大管理效能,提高监管针对性,让船舶更安全。
2 大数据对海事管理的挑战
2.1 数据共享难以实现
海事管理的大数据覆盖范围很广,比如船舶基本数据、登记注册信息、安全检查、事故调查、行政处罚、重点跟踪及协查船舶等分类管理信息,目前散乱分布在各个业务系统、各港口海事部门,而各港口之间的信息并没有全部互联互通,各港口海事部门仅掌握本辖区船舶在本港的数据信息,无法获得该船舶的全部营运状况信息。数据不能共享使用,对大数据的价值挖掘形成桎梏,在建立健康、有效的海事大数据生态圈过程中,数据共享问题亟待解决。
2.2 数据有待挖掘利用
海事管理信息系统经过十几年的发展,无论从业务还是技术的角度看都是一个复杂的大集合系统,信息覆盖范围广、信息量大、来源分散、结构复杂,特别是系统中既有结构化数据,也有非结构化数据。面对庞大的数据金矿,数据挖掘与数据分析已经成为发展大数据的“瓶颈”。
首先,在当前的技术条件下,往往处理数据和形成报告需要花费大量时间,而忽略了挖掘,大数据若不经过挖掘、提炼,便无法体现其价值。目前,海事管理系统数据库对大量的海事数据利用程度不够,对数据的关联性和精确性也未引起足够关注,不断增加的数据不但没有带来价值却带来巨大的存储负担。
其次,随着网络技术的发展,特别是Internet和Intranet技术的飞快发展,使得非结构化数据的量级日趋增大,之前用于管理的结构化数据关系数据库的局限性日益明显,数据库技术也步入了“后关系数据库时代”。对大量非结构化数据进行有效的数据挖掘,将是海事管理信息系统的一项挑战。非结构化文本处理可以通过三种途径展开:
(1)智能化理解,对文本进行量化,确定一段文字的信息要素,再进一步分析,并转化成结构化的数据输出到预测模型。
(2)处理复杂文本,可以将两种或更多数据源一起进行分析,以获得深刻的见解。
(3)实体提取和语义分析,并以图表的方式存储在一个关系型数据库中。
再者,对数据进行合理分类分析。按海事管理的要求对大数据的特征进行标注,与合适的大数据进行模式匹配,包括:如何收集、分析和处理数据。下图详细的说明了数据分类方法及层次划分。
最后,选择合适的技术框架以适应业务场景来有效地提高工作效率。与传统的数据分析相比,大数据在分析模型和算法本身没有大的突破,但数据的处理能力与应用方式具有革命性变化,特别是大数据量下的执行效率及处理能力的并行化。目前比较成熟的技术框架,有MapReduce、Spark等。
(1)Hadoop的MapReduce框架,通过优化资源调度与利用将任务分解成适合执行的映射-整理-归纳过程,分布在不同的机器上运行,同时加强了容错性和可用性,实现了对海量数据的处理。
(2)Spark采用了基于有向图(DAG)的计算框架,将计算任务分解为多个并行任务,使用RDD(弹性分布数据集)数据模型,中间数据放入内存高效共享,避免频繁磁盘读写对处理速度的损耗,实现高效率计算,对社交网络分析、机器学习、流处理等场景具备良好支撑能力。
2.3 数据安全需关注
由于海事管理信息数据的极速增长,也给数据安全防护和信息隐私保护带来极大的挑战。若系统遭黑客入侵带来信息安全隐患甚至导致信息系统崩溃。究其原因,主要来自对系统数据监督管理不严、制度标准不衔接等问题,可从以下技术上予以改进:
(1)完全控制数据流从一个应用系统到另一个系统的流程,清晰密钥管理和访问管理的界限,完善的关键控制策略。
(2)控制好内部的数据中心私有云、混合环境中公共云的数据存储安全控制。
(3)使用足够安全的验证加密算法。在大数据应用中,采集数据,数据交互,保护隐私,都是大数据安全的责任所在。
2.4 海事管理数据标准仍缺失
在海事管理大数据的背景下,数据标准不统一问题是制约海事管理智能化发展的掣肘。现有的多套海事管理信息系统由不同的企业开发提供,没有制式标准,数据不能贯通,无法统一整合。若想构建一体化的海事集成数据平台,需要在数据规范上进行统一,实现数据的标准化。
3 加快发展海事大数据的对策
3.1 加强组织领导
在发展海事监管大数据工作中,海事各级管理机构应按照交通运输部海事局在数据顶层设计上的思路,统一思想,把发展海事大数据作为重要任务来执行,明确发展目标、通过科学建设步骤、规范化的配套措施,强有力的组织保证,坚持高质量建设、高水平管理、高效益使用,科学有序地发展海事大数据。
3.2 完善配套法规制度
海事大数据需依靠完善的规章制度,明确责任分工,从制度建设上优化资源配置,实行数据共享和安全保护,实现数据的规范管理及有效利用。在数据安全方面,建立强而可靠的攻击防范措施,最大程度控制信息泄露风险,保障网络数据安全。在保证数据安全的前提下,通过数据共享模式,促进数据资源流通,提高数据资源使用率。
3.3 建立健全行业标准
加快制定统一的海事管理数据标准,对数据分类、数据接口、数据质量、数据安全、数据共享、数据开放等通过标准的方式进行规范管理,并与国际标准对接,集约整合、协同开发,提高海事大数据的精准性和有效性,满足海事监管与服务的多样化需求。
3.4 重视人才队伍建设
人才在海事大数据建设过程中的推动作用不言而喻,必须充分重视培养既懂海事业务又懂数据的专业性人才,鼓励、引导创新,建立多层次、复合型的大数据人才队伍,引进社会先进资源,共同交流研发,培养符合社会发展需要的海事创新型人才。
参考文献:
[1] 刘智慧.张泉灵.大数据技术研究综述[J].浙江大学学报:工学版,2014,48(6):1-16.
[2] 陶雪娇,胡要峰,刘洋.大数据研究综述[J].系统仿真学报.2013(S1):142-146.
[3] 中国计算机协会大数据委员会.中国大数据技术与产业发展白皮书[R].2013.
[4] 董西成.hadoop技术内幕:深入解析YARN架构设计与实现原理[M].北京:机械工业出版社,2013.
摘要:本文简要分析和描述了大数据在海事管理中的场景及应用,并就面临的挑战探讨相关对策。
关键词:大数据 海事管理 场景及应用挑战 对策
0 引 言
大数据(big data)是具有5V特征--Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)的数据,涉及的数据集合规模非常庞大,需要更强的决策力、洞察力和流程优化能力对其进行运算。
李克强总理在2015年政府工作报告中,首次提出“互联网+”行动计划,推动移动互联网、云计算、大数据、物联网等的发展。同时,国务院印发了《促进大数据发展行动纲要》,可见大数据在当今信息化时代的巨大影响力。海事管理机构在这样的背景下,应积极尝试将大数据与海事管理相结合,深入开展数据挖掘,让大数据应用到海事现代化监管与服务中。
1大数据在海事管理中的应用
交通运输部海事局组织编制的《海事信息系统顶层设计报告》,制定了“一个目标、二个模型、四套体系”的总体架构,根据系统顶层设计的核心精神。杨浦海事局利用大数据在船舶动态评价体系建设上做出了积极探索和实践,将船舶管理系统、AIS信息服务平台和船载危险货物申报系统等数据整合到“国内航行船舶现场监管和自动选船系统”(简称“选船系统”),AIS识别到的船舶被自动计算出风险值和优先等级,目标船及现场监管重点变得一目了然,避免了重复检查,改变过去人工选船的盲目低效,变为系统自动“抓取”的精准高效,实现了海事监管从“汗水型”向“智慧型”的转变,“选船系统”于2016年7月1日已在上海、天津、山东海事局试点运行,积累了一定的现场应用经验。
1.1开发选船的数学模型,用数据进行客观的决策
在信息不对称的条件下,经验可有效提高工作效率,但随着数据的积累,经验明显滞后,对不同个体也不尽适用,对新事物新变化无法把握。目前设计的选船系统充分考虑了船舶的各项信息,并结合船舶综合管理的理念来进行数据建模,通过船舶、公司、风险、绩效等多维度交叉分析实现数字化选船,让数据进行客观决策,通过“互联网+海事监管与服务”思维运用,实现海事现场监管的智能化、信息化。选船系统模型开发遵循:
(1)符合海事监管与服务的相关规范要求
(2)系统设计应严格执行有关规范并充分考虑用户的需求
(3)综合考虑各种资源,避免重复建设,降低运营成本
(4)系统应具有较强的容错能力,具有完善的系统恢复和安全机制
(5)系统方案在满足现状的情况下,充分考虑将来的发展,具备良好的扩展性。
1.2多维度建立数据关联,解决数据孤岛问题
海事管理涉及人、船、环境等多个方面,与之相配套的管理系统各地不尽相同,信息不联通也未实现共享,海事监管虽然积累了众多数据,但信息孤岛现象也逐渐凸现出来。如何将船舶基本数据、安全检查、事故调查、行政处罚、重点跟踪及协查船舶等分类信息有效集中并加以利用,是重中之重。杨浦海事局探索了一套行之有效的数据关联方法,建立集中数据服务,以船舶为中心,与之相关的船员、公司以及历史信息进行收集、整理、漂洗后有机结合在一起,形成用于选船的数据集市,不但解决了数据孤岛问题,而且可以构建开放的数据流动生态。
1.3让数据发挥其效能
如何在有限的资源条件下让海事数据的效益得以最大化是非常值得研究的课题,通过对船舶数据进行更深入的统计分析和预测,则会有很多有价值的信息可以开发,让船舶监控逐步智能化,发挥海事机构更大管理效能,提高监管针对性,让船舶更安全。
2 大数据对海事管理的挑战
2.1 数据共享难以实现
海事管理的大数据覆盖范围很广,比如船舶基本数据、登记注册信息、安全检查、事故调查、行政处罚、重点跟踪及协查船舶等分类管理信息,目前散乱分布在各个业务系统、各港口海事部门,而各港口之间的信息并没有全部互联互通,各港口海事部门仅掌握本辖区船舶在本港的数据信息,无法获得该船舶的全部营运状况信息。数据不能共享使用,对大数据的价值挖掘形成桎梏,在建立健康、有效的海事大数据生态圈过程中,数据共享问题亟待解决。
2.2 数据有待挖掘利用
海事管理信息系统经过十几年的发展,无论从业务还是技术的角度看都是一个复杂的大集合系统,信息覆盖范围广、信息量大、来源分散、结构复杂,特别是系统中既有结构化数据,也有非结构化数据。面对庞大的数据金矿,数据挖掘与数据分析已经成为发展大数据的“瓶颈”。
首先,在当前的技术条件下,往往处理数据和形成报告需要花费大量时间,而忽略了挖掘,大数据若不经过挖掘、提炼,便无法体现其价值。目前,海事管理系统数据库对大量的海事数据利用程度不够,对数据的关联性和精确性也未引起足够关注,不断增加的数据不但没有带来价值却带来巨大的存储负担。
其次,随着网络技术的发展,特别是Internet和Intranet技术的飞快发展,使得非结构化数据的量级日趋增大,之前用于管理的结构化数据关系数据库的局限性日益明显,数据库技术也步入了“后关系数据库时代”。对大量非结构化数据进行有效的数据挖掘,将是海事管理信息系统的一项挑战。非结构化文本处理可以通过三种途径展开:
(1)智能化理解,对文本进行量化,确定一段文字的信息要素,再进一步分析,并转化成结构化的数据输出到预测模型。
(2)处理复杂文本,可以将两种或更多数据源一起进行分析,以获得深刻的见解。
(3)实体提取和语义分析,并以图表的方式存储在一个关系型数据库中。
再者,对数据进行合理分类分析。按海事管理的要求对大数据的特征进行标注,与合适的大数据进行模式匹配,包括:如何收集、分析和处理数据。下图详细的说明了数据分类方法及层次划分。
最后,选择合适的技术框架以适应业务场景来有效地提高工作效率。与传统的数据分析相比,大数据在分析模型和算法本身没有大的突破,但数据的处理能力与应用方式具有革命性变化,特别是大数据量下的执行效率及处理能力的并行化。目前比较成熟的技术框架,有MapReduce、Spark等。
(1)Hadoop的MapReduce框架,通过优化资源调度与利用将任务分解成适合执行的映射-整理-归纳过程,分布在不同的机器上运行,同时加强了容错性和可用性,实现了对海量数据的处理。
(2)Spark采用了基于有向图(DAG)的计算框架,将计算任务分解为多个并行任务,使用RDD(弹性分布数据集)数据模型,中间数据放入内存高效共享,避免频繁磁盘读写对处理速度的损耗,实现高效率计算,对社交网络分析、机器学习、流处理等场景具备良好支撑能力。
2.3 数据安全需关注
由于海事管理信息数据的极速增长,也给数据安全防护和信息隐私保护带来极大的挑战。若系统遭黑客入侵带来信息安全隐患甚至导致信息系统崩溃。究其原因,主要来自对系统数据监督管理不严、制度标准不衔接等问题,可从以下技术上予以改进:
(1)完全控制数据流从一个应用系统到另一个系统的流程,清晰密钥管理和访问管理的界限,完善的关键控制策略。
(2)控制好内部的数据中心私有云、混合环境中公共云的数据存储安全控制。
(3)使用足够安全的验证加密算法。在大数据应用中,采集数据,数据交互,保护隐私,都是大数据安全的责任所在。
2.4 海事管理数据标准仍缺失
在海事管理大数据的背景下,数据标准不统一问题是制约海事管理智能化发展的掣肘。现有的多套海事管理信息系统由不同的企业开发提供,没有制式标准,数据不能贯通,无法统一整合。若想构建一体化的海事集成数据平台,需要在数据规范上进行统一,实现数据的标准化。
3 加快发展海事大数据的对策
3.1 加强组织领导
在发展海事监管大数据工作中,海事各级管理机构应按照交通运输部海事局在数据顶层设计上的思路,统一思想,把发展海事大数据作为重要任务来执行,明确发展目标、通过科学建设步骤、规范化的配套措施,强有力的组织保证,坚持高质量建设、高水平管理、高效益使用,科学有序地发展海事大数据。
3.2 完善配套法规制度
海事大数据需依靠完善的规章制度,明确责任分工,从制度建设上优化资源配置,实行数据共享和安全保护,实现数据的规范管理及有效利用。在数据安全方面,建立强而可靠的攻击防范措施,最大程度控制信息泄露风险,保障网络数据安全。在保证数据安全的前提下,通过数据共享模式,促进数据资源流通,提高数据资源使用率。
3.3 建立健全行业标准
加快制定统一的海事管理数据标准,对数据分类、数据接口、数据质量、数据安全、数据共享、数据开放等通过标准的方式进行规范管理,并与国际标准对接,集约整合、协同开发,提高海事大数据的精准性和有效性,满足海事监管与服务的多样化需求。
3.4 重视人才队伍建设
人才在海事大数据建设过程中的推动作用不言而喻,必须充分重视培养既懂海事业务又懂数据的专业性人才,鼓励、引导创新,建立多层次、复合型的大数据人才队伍,引进社会先进资源,共同交流研发,培养符合社会发展需要的海事创新型人才。
参考文献:
[1] 刘智慧.张泉灵.大数据技术研究综述[J].浙江大学学报:工学版,2014,48(6):1-16.
[2] 陶雪娇,胡要峰,刘洋.大数据研究综述[J].系统仿真学报.2013(S1):142-146.
[3] 中国计算机协会大数据委员会.中国大数据技术与产业发展白皮书[R].2013.
[4] 董西成.hadoop技术内幕:深入解析YARN架构设计与实现原理[M].北京:机械工业出版社,2013.