之前每小时接入平台的数据量在十几w左右,我们的系统是一个多条件组合多维度视图的数据展示平台,因此对视图数据查询的速度性能要求较高,单机计算所有条件组合的速度已经灰常慢了,因此需要用到hadoop这类分布式计算平台;

1、数据统计平台架构
满足公司所有客户端(pc,js,移动)的海量数据接入,条件组合数据统计,数据分析等需求;
平台架构比较简单,整体使用“下游拉数据”的架构(data_writer从上游data_fetcher处拉数据),分成数据采集模块、数据写模块、数据持久化模块和数据统计模块4个部分;

图1.0 数据统计平台架构

数据采集模块使用数据预读和双buffer来保证读数据和传数据的效率;
数据写模块可根据hbase写入速度情况快速横向扩展;
数据持久化模块使用hdfs+hbase的大数据存储解决方案;
数据统计模块使用hadoop的mapreduce解决方案;

2、数据统计和汇总(mapreduce)
统一从hbase中读取数据,使用两种方式汇总,分别是汇总到hbase和汇总到hdfs的文件;
mapreduce开发资料:http://abloz.com/hbase/book.html