Hive Load等问题

以下内容为 qq群整理内容,如有侵权,请联系我,会立刻删除。


hive load数据的效率比较低,一个 master三个node load 一个G的数据需要两分钟,10G需要20多分钟。
可选的解决方案;
1.直接导入
2.使用外表
3.先导入HDSF系统,再导入表
使用外表的方式,一般是先导入HDFS然后再和外表关联
直接导入是先建表,再导入数据到HDFS
如果都是以文本方式存储到HdFS的话,没有什么区别
如果以RCFile格式或ORCFile格式存储,速度上有区别
hive乱码问题
create table test5 (id int comment '编码');
desc test5; 乱码
去mysql元数据库看也没问题 CRT客户端编码也没问题
当下Hadoop已经成长为一个庞大的体系,貌似只要和海量数据相关的,没有哪个领域缺少Hadoop的身影,下面是一个Hadoop生态系统的图谱,详细的列举了在Hadoop这个生态系统中出现的各种数据工具。

这一切,都起源自Web数据爆炸时代的来临
数据抓取系统 - Nutch
海量数据怎么存,当然是用分布式文件系统 - HDFS
数据怎么用呢,分析,处理
MapReduce框架,让你编写代码来实现对大数据的分析工作
非结构化数据(日志)收集处理 - fuse,webdav, chukwa, flume, Scribe
数据导入到HDFS中,至此RDBSM也可以加入HDFS的狂欢了 - Hiho, sqoop
MapReduce太麻烦,好吧,让你用熟悉的方式来操作Hadoop里的数据 – Pig, Hive, Jaql
让你的数据可见 - drilldown, Intellicus
用高级语言管理你的任务流 – oozie, Cascading
Hadoop当然也有自己的监控管理工具 – Hue, karmasphere, eclipse plugin, cacti, ganglia
数据序列化处理与任务调度 – Avro, Zookeeper
更多构建在Hadoop上层的服务 –Mahout, Elastic map Reduce
OLTP存储系统 – Hbase   

你可能感兴趣的:(hadoop)