Flume-Kafka-Hbase操作心得

通过Flume读取日志文件写入到Kafka中在写入HbASE 心得

  • Flume
    • Kafka
    • Hbase
    • 注意

Flume

通过Flume将实时更新的日志文件读入到Kafka中,编辑Flume配置文件,Resource来自文件,sinks为kafka的主题。

Kafka

通过API操作Kafka,将kafka的配置信息写入.properties文件,读取配置信息,查询并遍历所有结果。可以通过Kafka的控制台进行测试

Hbase

通过Hbase表的put方法将数据写入Hbase,写入数据就涉及到初始化命名空间,建表,建列族,设计RowKey,设计预分区。
创建表:创建表之前要对表进行判断,判断表是否已经存在。
预分区设置:
设置预分区的目的是防止大量数据存到一个Region中,造成数据倾斜,设置预分区的其中一个方法是对RowKey中的数据进行抽样,抽出几个数据求出hash值,在用hash值对分区数进行求余,拼接在RowKey的最前面,这样就可以减少数据倾斜。
RowKey设计:
rowkey的设计要将便于区分,便于分割的数据进行拼接,不要怕长,100位以下都可以
分区的设计:
先进行数据量的预估来计算分区数,要将分区号格式化成"00|“的形式方便比较,因为”|"是所有字符中ASCII中最大的

注意

尽量将代码进行解耦,参数尽量存在properties文件中,方便代码的可挪用

你可能感兴趣的:(心得笔记)