【SDC】StreamSets实战之路-28-实战篇- 使用StreamSets实时采集指定数据目录文件并写入库Kudu

1

文档编写目的

本篇文章主要介绍通过StreamSets实时的方式读取本地的数据文件,通过解析处理将文件中的内容写入到Kudu中。

  • 内容概述

1.测试环境准备

2.准备测试数据

3.配置StreamSets

4.流程测试及数据验证

  • 测试环境

1.RedHat7.4

2.CM和CDH版本为6.1.0

3.Kudu 1.8.0

2

测试环境准备

1.通过Hue使用Impala创建一个Kudu表,创建脚本如下:

CREATE TABLE user_info_kudu (
  id STRING COMPRESSION snappy,
  name STRING COMPRESSION snappy,
  sex STRING COMPRESSION snappy,
  city STRING COMPRESSION snappy,
  occupation STRING COMPRESSION snappy,
  mobile_phone_num STRING COMPRESSION snappy,
  fix_phone_num STRING COMPRESSION snappy,
  bank_name STRING COMPRESSION snappy,
  address STRING COMPRESSION snappy,
  marriage STRING COMPRESSION snappy,
  child_num INT COMPRESSION snappy,
  PRIMARY KEY (id)
)
  PARTITION BY HASH PARTITIONS 16
STORED AS KUDU
  TBLPROPERTIES ('kudu.master_addresses'='master,hadoop13&

你可能感兴趣的:(StreamSets,hdfs,big,data,hive)