项目难点攻破

一、Flink数据倾斜,分流,二次聚合,时间窗口,自定义聚合函数

二、HBase数据倾斜及查询效率问题,Phoenix应用

三、数据入库效率问题,hdfs及HBase分析,批量写入优化

四、CheckPoint优化及配置,内存模型,Flink运行参数调优

五、爬虫,hive表关联

六、mapreduce程序->hdfs文件转hfile文件,然后通过命令行,完成历史数据的批量导入

七、shell脚本,定时监控数据量,异常重启机制

八、Flume自定义source端和sink端,采集pulsar数据入库,效率问题及配置优化

九、Flink程序消费probuf格式数据,做实时表关联,数据入HBase并配置API接口,供业务方查询

十、数据质量核验,异常问题分析处理,能从各个环节入手,分析数据质量不完整的原因;常见原因:pulsar/kafka采集文件积压(2者区别)、Flink消费程序性能问题(数据倾斜,资源紧张,逻辑混乱)、入库异常(HBase RegionServer异常,预分区,数据倾斜;入hive异常,程序异常结束,部分正在写入的hdfs文件未正常关闭,这部分数据入库失败)、上游数据推送异常

十一、HBase JavaAPI批量插入,线程安全问题

你可能感兴趣的:(hadoop,hbase,大数据)