Hive Hive配置详解


整理自 https://www.cnblogs.com/hark0623/p/5650075.html


在Hive 安装后,  hive 主要的配置文件为 conf 中  hive-site.xml

那该文件中那么多的配置选项都是什么含义呢。下面这篇文章带你解密这些配置


请跟随以下这些问题来看以下配置:


1.hive输出格式的配置项是哪个?

2.hive被各种语言调用如何配置?

3.hive提交作业是在hive中还是hadoop中?

4.一个查询的最后一个map/reduce任务输出是否被压缩的标志,通过哪个配置项?

5.当用户自定义了UDF或者SerDe,这些插件的jar都要放到这个目录下,通过那个配置项?

6.每个reducer的大小,默认是1G,输入文件如果是10G,那么就会起10个reducer;通过那个配置项可以配置?

7.group by操作是否允许数据倾斜,通过那个配置项配置?

8.本地模式时,map/reduce的内存使用量该如何配置?

9.在做表join时缓存在内存中的行数,默认25000;通过那个配置项可以修改?

10.是否开启数据倾斜的join优化,通过那个配置项可以优化?

11.并行运算开启时,允许多少作业同时计算,默认是8;该如何修改这个配置项?



hive的配置:


hive.ddl.output.format:

    hive的ddl语句的输出格式,

    默认是text,纯文本,还有json格式,这个是0.90以后才出的新配置;



hive.exec.script.wrapper:

    hive调用脚本时的包装器,默认是null,

    如果设置为python的话,那么在做脚本调用操作时语句会变为python

你可能感兴趣的:(Hive)