Hive之中文乱码问题

前言

  • Hive:2.3.0
  • Hadoop:2.7.7
  • MySQL Server:5.7.10
  • OS:CentOS 7
  • 本文主要演示如何解决Hive注释内容(即COMMENT)中出现中文乱码的问题

原因

Hive中的表字段等注释信息都存储在元数据库metastore中(本文中的元数据存储在MySQL的hive_db数据库中),当使用desc命令查看表字段的注释信息时,Hive会直接读取元数据库中的hive_db.COLUMNS_V2表,同样的修改元数据库中此表中的内容会直接反馈到desc的查询结果中。故,之所以desc查询结果中显示中文乱码,是因为元数据库中对应表中的元数据字符集无法显示中文(默认为latin1),因此本文主要是通过修改元数据库中的字符集来解决中文乱码的问题。


解决步骤

1)连接存储元数据的数据库(此处为MySQL中的hive_db),执行下列SQL语句

-- 注意选择对应的元数据存储数据库
use hive_db;
-- 修改表字段注释字符集
ALTER TABLE COLUMNS_V2 MODIFY COLUMN `COMMENT` varchar(256) CHARACTER SET utf8;
-- 修改表字段名字符集
ALTER TABLE COLUMNS_V2 MODIFY COLUMN `COLUMN_NAME` varchar(767) CHARACTER SET utf8;

-- 修改表属性Key和Value字符集
ALTER TABLE TABLE_PARAMS MODIFY COLUMN `PARAM_VALUE` varchar(4000) CHARACTER SET utf8;
ALTER TABLE TABLE_PARAMS MODIFY COLUMN `PARAM_KEY` varchar(256) CHARACTER SET utf8;

-- 修改分区属性Key和Value字符集
ALTER TABLE PARTITION_PARAMS MODIFY COLUMN `PARAM_KEY` varchar(256) CHARACTER SET utf8;
ALTER TABLE PARTITION_PARAMS MODIFY COLUMN `PARAM_VALUE` varchar(4000) CHARACTER SET utf8;
-- 修改分区字段Key和Value字符集
ALTER TABLE PARTITION_KEYS MODIFY COLUMN `PKEY_COMMENT` varchar(4000) CHARACTER SET utf8;
ALTER TABLE PARTITION_KEY_VALS MODIFY COLUMN `PART_KEY_VAL` varchar(256) CHARACTER SET utf8;
-- 修改分区的分区名字符集
ALTER TABLE `PARTITIONS` MODIFY COLUMN `PART_NAME` varchar(767) CHARACTER SET utf8;

-- 修改索引属性Key和Value字符集
ALTER TABLE INDEX_PARAMS MODIFY COLUMN `PARAM_KEY` varchar(256) CHARACTER SET utf8;
ALTER TABLE INDEX_PARAMS MODIFY COLUMN `PARAM_VALUE` varchar(4000) CHARACTER SET utf8;

2)修改metastore的连接url

修改hive-site.xml文件中对应配置

    
    
    <property>
        <name>javax.jdo.option.ConnectionURLname>
        <value>jdbc:mysql://hadoop101:3306/hive_db?createDatabaseIfNotExist=true&useUnicode=true&characterEncoding=UTF-8value>
        <description>
            JDBC connect string for a JDBC metastore.
            To use SSL to encrypt/authenticate the connection, provide database-specific SSL flag in the connection URL.
            For example, jdbc:postgresql://myhost/db?ssl=true for postgres database.
        description>
    property>

3)重新建表即可

PS:修改编码之前的注释依旧是乱码,只有修改编码之后创建的注释才不会乱码


参考资料

Hive学习之路 (八)Hive中文乱码

hive修改使用utf8编码支持中文字符集

hive中解决中文乱码


End~

你可能感兴趣的:(Hive,MySQL,Hadoop)