hive导入到clickhouse的几种方式总结

在开发过程中,需要从HDFS中导入数据到clickhouse中,探索了几种方式,以及一些坑与大家分享;

  • Waterdrop 参考大神的文章,实现快速的安装,和相关配置如何快速地把HDFS中的数据导入ClickHouse

    因为waterdrop是通过spark的RDD方式,能够实现数据的快速导入;

    基本配置如下

    spark {
      spark.app.name = "Waterdrop"
      spark.executor.instances = 2
      spark.executor.cores = 8
      spark.executor.memory = "2g"
    }
    input {
        hive {
            pre_sql = "sql "
            table_name = "temp_table"
        }
    }
    filter {
       
    }
    output {
        clickhouse {
            host = "IP:port
            database = "dwst"
            table = "tb_name"
            fields = ["partition_id" ~~"]
            username = "username"
            password = "pwd"
        }
    }
    
    

    配置非常简单,1千万的数据量,能够在10分钟以内只能导入;使用该方法消耗内存较大,成本较大;

csv 文件导入到clickhouse当中

第一步 生成csv文件

选择合适的分隔符;大部分情况下,会选择逗号或者hive的默认分隔符\001 ,可以参考文件 详解hive的列分隔符和行分隔符的使用

情况一:由于存储中可能含有分割符,导致分割列的时候,会多出几列的情况;比如说本来是5列的情况,但是却分割出来6列的情况,就是因为数据中含有分隔符的情况,所有如果出现该情况,需要对于可能出现情况的列进行特殊处理

regexp_replace(t.column_name,'\t|\n|\001','') as column_name,

特别注意 列中的换行符以及tab符号,需要处理掉,否则也会出现一些问题;

情况二 :clickhouse中不能出现null需要对所有可能的列,进行如下处理

 ifnull(tm.column_name,0) as column_name,

​ 情况三:因为hive导出之后,原来的bigint,会出现10.0的情况,在有些情况下,需要进行截断

​ 情况四: hive中的列的属性,和clickhouse中列的属性不一致会出现问题;对于clickhouse多列的情况下,一定要细致,一个个列的属性进行校验

​ Float-->bigInt出现错误

​ int8--->Uint8之间转换错误;

第二步 csv导入到clickhouse当中;

csv导入clickhouse的方式,常见的有两种方式;通过clickhouse的jdbc执行sql和使用clickhouse的clickhouse-client客户端的方式,数据量大的情况下,切记不要用第一种方式,一定要切记;切记

方式一: 写一个Python脚本,pandas,以及整合了csv的写入的实现,数据量不大的时候,小于500百万,列在50列左右的时候,可以使用

方式二:

//需要加入列名,推荐使用
cat ~/csv_fileName.csv| clickhouse-client  --host=ip --port=19000 --user=username --password=pwd --format_csv_delimiter=$'\001' --query="INSERT INTO table_name FORMAT CSVWithNames"
//真正的数据
cat ~/csv_fileName.csv| clickhouse-client  --host=ip --port=19000 --user=username --password=pwd --format_csv_delimiter=$'\001' --query="INSERT INTO table_name FORMAT CSV"

常见错误:

Code: 27. DB::Exception: Cannot parse input: expected , before:
  • clickhouse列的属性和hive不匹配,包括类型和列的个数
  • clickhouse 时间类型

你可能感兴趣的:(hive导入到clickhouse的几种方式总结)