目前国内互联网企业单日日志数据增量达到TB级已很常见,大规模日志数据实时多维统计分析对于企业运行、管理和决策越来越重要。但目前大规模日志数据分析处理技术专业性强,企业中数据处理需求最为急迫的业务部门和运维部门都难有这样的技术能力。本论文整合Flume、Kafka、Storm、HBase等开源系统设计了飞流大规模日志数据实时多维统计分析平台,解决了多种日志数据接入、实时多维度统计分析、用户通过提交配置代替大数据编程来提交、更新和删除任务等关键问题,提供了飞流平台上用户不需要编程就能方便使用的大规模日志数据实时多维统计分析的功能。飞流平台在互联网企业中实际应用效果较好,满足了业务部门和运维部门的大部分日志数据多维统计分析需求。
互联网企业的主要数据来源是散落在各个业务服务器上的半结构化日志, 比如系统日志、程序日志、访问日志、审计日志等。目前国内互联网企业单日日志数据增量达到TB 级很常见。互联网企业间的竞争非常激烈,实时统计分析日志数据并将结果指导决策能够提高企业的竞争力。因此最原始的日志数据记录具有丰富和巨大的价值。
目前很多开源的系统,如Flume、Kafka、Storm、HBase 等可以对日志数据进行处理,但是这些系统相互独立,均庞大复杂,需要专门的数据处理人员根据需求编程来使用,而企业的业务和运维部门一般没有专业从事大数据实时处理的人员,因此设计大数据实时处理平台,为用户提供不需要编程就能方便使用的大规模日志数据实时多维统计分析功能,是各个互联网企业的迫切需求,飞流应运而生。
统一的大规模日志数据实时多维统计分析平台需要接入多种来源的日志数据,每种日志记录了各种不同维度的运行数据,用户需要的是灵活的、方便的、多维度的统计分析。因此,飞流平台的设计目标主要是实现大规模日志数据的多源采集和聚合、实时多维度统计分析、用户可以在线通过配置代替大数据编程实现统计分析任务的热提交、热更新和热删除、统计分析结果通过WebUI 进行展示。
2. 相关工作 目前国内外工业界和学术界在大规模日志数据分析领域做了很多研究和实践,尤其是工业界推动的开源社区非常活跃。面对数据规模大这个问题,广泛采用的解决办法是使用分布式的方案。
多源采集和聚合。Flume [1]是Apache 基金会下面的一个分布式、可靠和高可用的,从不同源采集、