大数据处理规范(选型测试),自用

用完时序数据库的时候,我悟了,车企每天2T的数据。让我感觉到,我以前的大数据就是随便处理着玩。有必要建立一套属于自己的数据处理规范的方法了。

常见甲方问题,以及测试性能后的解决方案:

1.处理时间?
从采集端,到结果展示端,一般秒级
数据采集到系统处理以及分析都是秒级
像消息到kafka推送基本都是毫秒级,入库秒级(kudu)

1.校验准确性?
准确性,体现在不同的数据处理阶段,对于,kafka生产,
目前我们的校验是,从mysql业务数据,与kudu进行比较,按条数来比,如果要求高的话,只能通过hash,对于计算结果,模型上的准确性做了定义
导入ods层,在通过对不同业务的,不同开发人员,去定业务标注,我们写udaf函数

2.支持拓展?
完全支持的,可用轻松的通过可视化界面,进行拓展

3.数据导入
70G,导入处理没有问题,5台(128g,40tb,32core),后续集成impala+kudu.随着业务增加,可用拓展,200g,2t,2t*3=6t,
历史数据2年,120t
kafka完全没问题,10-50w很少,只要消费者消费能力ok,就行,可用拓展消费者

3.涉及方案


数仓,增量更新
数据一般分成2种类型,日志和关系型数据
cancal针对关系数据库采集,flume采集日志,上报到kafka,代码读取kafka的不同topic

1.增量更新,历史数据+新增
2.数仓的统计分析结果,新增的数据直接进行更新最终结果,实时做到秒级(每日汇总,消耗资源多一点,一直跑)
3.如果给的是一个数据,如sqoop或者我们提供一个脚本,定时,导入大量数据到大数据平台(kudu),进行每日的数据计算(如累加,或者从头跑)
4.根据你的业务要求,如果要求保留更改记录,进行回溯,或者更新

4.报表时间
自定义,-------没有听懂

5.拖拉拽
可用根据拖拉拽形式,我们使用的cube(机器学习平台)集成个BI,cboard(报表可视化)        


历史数据,导过去,在根据时间




生成数据-》处理完毕,整体处理时间,如果是流处理是毫秒级


clickhouse性能图,普通机器,每秒插入10W,4核心16G,6600W数据

大数据处理规范(选型测试),自用_第1张图片

每秒80W数据都是easy

 

时序数据库

行业适合:存在终端,根据时间每秒上报数据,如车企

目前使用了2款,分别是apache的druid,和涛思数据的tdengine

TDengine在单设备的时序查询远超,druid

druid在多设备方面和tdengine打平手

druid不同的查询,如avg和max函数查询的速度差别较大,而tdengine较小

总体:tdengine超过druid,从github看,tdengine4w次提交,druid1w次提交,tdengine18k,druid12k。tdengine社区也相对活跃,而且对中文支持也较好。

具体差别统计:(第一个是单设备,第二个是多设备)

大数据处理规范(选型测试),自用_第2张图片

SENSORO 处理智慧城市海量感知数据的数据库应用_Hadia Shi的博客-CSDN博客

你可能感兴趣的:(bigdata-大数据专栏,大数据,架构选型)