Chukwa在日志数据监控方面的运用

    常广炎

    

    摘要:Chukwa是Hadoop软件家族成员的一员,是_个分布式系统,应用于大规模集群的数据收集上,构建在Hadoop的HDFS和MapReduce框架之上。文章通过对数据日志的采集、存储、分析和展示,为用户提供全面、灵活、可视化的服务,弥补了MapReduce对大量日志文件处理能力不足的弱点。

    关键词:分布式系统;Hadoop;Chukwa;MapReduce

    1.Chukwa的简介

    Hadoop的MapReduce最初用于日志处理,随着集群日志不断地增加,生成大量的小文件,而MapReduce具有处理少量大文件的优势。Chukwa弥补了这一缺陷,同时具有高可靠性。

    Chukwa由Yahoo开发,是基于Hadoop的大集群分布式监控系统,是Hadoop软件家族成员之一,依赖于Hadoop的其他子项目,以HDFS为存储层,MapReduce为计算模型,Pig作为其高层处理语言,是采用流水式處理方式和模块化结构的收集系统。Chukwa的系统开销非常小,不到整个集群资源的5%。

    2.Chukwa的架构

    Chukwa有3个主要组成部分:客户端,运行在每个监控机上,传送源数据到收集器;收集器和分离解析器,收集器接收客户端数据,将其写到HDFS中,分离解析器进行数据分析,转换成有用记录;HICC是一个Web页面,用于Chukwa内容的展示。

    2.1客户端(Agent)

    集群上的每一个结点,Chukwa使用一个Agent来采集它感兴趣的数据,每一类数据通过一个Adaptor来实现,数据类型在相应配置中指定。启动Adaptor可以通过UNIx命令完成,Adaptor能够扫描目录,追踪创建文件,接收UDP消息,不断追踪日志,将日志更新到文件中。Agent的主要工作是负责Adaptor的开始和停止,并通过网络传输数据。为了防止数据采集端Agent出现故障,Chukwa的Agent采用了watchdog机制,会自动重启和终止数据采集进程,防止原始数据的丢失。

    2.2收集器(Collector)和分离解析器(Demux)

    Agent收集到的数据是存储到Had00p集群上的HDFS上,Hadoop集群处理少量大文件具有明显优势,而对大量小文件是其弱点,针对这一点Chukwa设计了Collector这个角色,用于把数据先进行合并成大文件,再写入集群。Demux负责抽取数据记录并解析,使之成为可以利用的记录,以减少文件数目和降低分析难度。一般采用把非结构化的数据进行结构化处理,抽取其中的数据属性,Demux是MapReduce的一个作业,可以根据需求定制Demux作业,进行各种复杂的逻辑分析。

    2.3HICC

    HICC是Demux数据展示端的名字,其功能是可视化系统性能指标。HICC能够显示传统的度量数据,以及应用层的统计数据,其可视化功能可以清楚看到群集中的作业是否在被均匀传播,同时支持集群性能的调试和Hadoop作业执行的可视化。

    3.Chukwa流水式数据处理结构

    流水式模式就是利用分布在各个结点客户端的采集器收集监控信息,然后以块的形式通过HTTP POST汇集到收集器,处理后转存到HDFS中。后由分离器利用MapReduce将这些数据转化为结构化记录,存入数据库,HICC调用数据库数据,展示给用户。其数据处理流程如图1所示。

    4.Chukwa在数据收集处理方面的运用

    4.1数据生成

    Chukwa提供了日志文件、Socket、命令行等数据生成结口,方便脚本的执行,直接读取脚本执行结果的操作如下:

    Chukwa首先加载Initial Adaptors的配置文件,它指定了不同适配器对应的收集日志的内容。以execAdaptoe脚本为例,配置文件内容如下:

    add org.apache.hadoop.chukwa.datacollection.adaptor.ExecAdaptor DT 3600

    $CHUUKWA-HOME/bin/hdfs-new.sh 0

    其中:3 600脚本执行间隔,单位为秒。

    4.2数据收集

    收集器部署时,将所有适配器机器端口存放在代理的conf/collectors中,配置收集器的chukwa-collector-conf.xml文件内容如下:

相关文章!
  • 融合正向建模与反求计算的车用

    崔庆佳 周兵 吴晓建 李宁 曾凡沂<br />
    摘 要:针对减振器调试过程中工程师凭借经验调试耗时耗力等局限性,引入反求的思想,开展了

  • 基于MATLAB 的信号时域采样及

    唐敏敏 张静摘要:频率混叠是数字信号处理中特有的现象,发生频率混叠后,信号会分析出错误的结果。而采样过程中,由于频率不够高,采样出

  • 卫星天线过顶盲区时机分析

    晁宁+罗晓英+杨新龙<br />
    摘 要: 分析直角坐标框架结构平台和极坐标框架平台结构星载天线在各自盲区状态区域附近的发散问题。通过建