hadoop讨论

雪候鸟<[email protected]>  9:46:08
hadoop只是降低了分布式开发的门槛,只需要调用map reduce接口,就能写一个在一个很大数据集上跑的分布式程序,但它效率并不高,一个进程动辄占几个G。这也是为什么百度自己实现一套hadoop。但它还是可以满足大多数公司处理大数据的需要,我觉得结合业务设计一个好的mr很重要,也很难。
乄信念ヤ(244985220)  9:47:22
pig的mapreduce模式必须将pig部署在hadoop节点上吗?
寒塘草(957261640)  9:49:02
hive也许更适合我,不知道其性能到底能不能达到web交互模式的应用开发?
雪候鸟<[email protected]>  9:51:38
hive是秒级响应的吧
storm是实时的
寒塘草(957261640)  9:52:50
我那天测试了下,才一点点数据,hive查询就22秒
寒塘草(957261640)  9:53:31

KeepItSimple<[email protected]>  9:54:04
一个进程动辄占几个G
雪候鸟<[email protected]>  9:54:06
hive貌似除了select *,其他都是起MR,启动个MR都要几秒钟,不太适合实时的查询
寒塘草(957261640)  9:54:11
这种效率,对于web系统是要命的
KeepItSimple<[email protected]>  9:54:21
这话怎么理解?雪候鸟
寒塘草(957261640)  9:54:51
难道hadoop只能用于后台数据挖掘了?
雪候鸟<[email protected]>  9:56:07
默认配置namenode和jobtracker都要1个G,而且如果集群大的话,还要把namenode和jobtracker分开,非常耗资源,hbase就更耗资源了,16G的机器很难跑
寒塘草(957261640)  9:56:43
hive不是基于hbase吗?
雪候鸟<[email protected]>  9:56:48
有时候2个oracle搞定的事情,用hbase要5台
雪候鸟<[email protected]>  9:57:14
没研究过,我就看看了user guide。。。
寒塘草(957261640)  9:58:44
namenode能不能自动镜像备份?否则namenode坏了怎么办,集群系统一旦namenode坏了,不要了命去了
寒塘草(957261640)  9:59:36
一旦namenode 不可恢复,那些datanode都是废物了吧?
雪候鸟<[email protected]>  10:01:06
有好几种备份方式,但都是冷备,只有facebook那种方式是热备,可是我们用的hadoop版本和它相差很多了,升级需要改很多东西
我们公司有个牛逼人在做虚拟机热备,还在试验,貌似可以解决namenode备份问题
寒塘草(957261640)  10:01:57
冷备就不用考虑了,现在没人愿意用冷备
寒塘草(957261640)  10:03:51
看来没几个公司能用得起hadoop的,离现实还有很长的路要走?
雪候鸟<[email protected]>  10:04:04
小数据基本还是冷备的,namenode加载20PB需要一个小时,我们数据量不到1PB,而且用checkpoint方式可以保证数据安全
寒塘草(957261640)  10:04:06
敢用
蓝晓宇^^(瑜)(33445185)  10:04:44
hbase你用小数据去测试,那个响应时间是完全达不到要求的
寒塘草(957261640)  10:05:35
难道越大越快?我还以为只是大的话不会明显变慢而已
蓝晓宇^^(瑜)(33445185)  10:05:36
HBASE我了解不深,但是之前在CSDN上看过几篇关于HBASE性能探讨的文章,基本有一个观点,当你的存储量没有打到1亿条时,还是老实的关系型数据库吧
蓝晓宇^^(瑜)(33445185)  10:05:50
因为是基于列的
蓝晓宇^^(瑜)(33445185)  10:05:59
所以才会越大越快
蓝晓宇^^(瑜)(33445185)  10:06:12
关于HBASE,用得比较好的就是TAOBAO了
蓝晓宇^^(瑜)(33445185)  10:06:23
百度搞的什么HYBERBASE
寒塘草(957261640)  10:07:10
问题是3年数据量可能达不到,但是,5,10年数据量就达到了,难道非得等系统运行几年后再去重写?
蓝晓宇^^(瑜)(33445185)  10:07:28
那你就不要用HBASE啊
雪候鸟<[email protected]>  10:07:49
额,如果用oracle能解决,最好还是用oracle,hbase非常不稳定
寒塘草(957261640)  10:08:13
非常不稳定?
蓝晓宇^^(瑜)(33445185)  10:08:18
HADOOP提供一个叫Sqxx的东西用于将关系型数据库的数据导出到HDFS里
雪候鸟<[email protected]>  10:08:34
0.90版本split过程经常会有丢region块的问题
雪候鸟<[email protected]>  10:08:41
sqoop
蓝晓宇^^(瑜)(33445185)  10:08:52
我用的0.92.1的貌似还好。。
寒塘草(957261640)  10:09:26
光导出不行啊,要在线服务的那种 hdfs下的"云oracle"
雪候鸟<[email protected]>  10:09:41
恩,我们考虑用cloudera的cdh4b2,这个是用的0.92,目前的项目还是用的cdh3u1
蓝晓宇^^(瑜)(33445185)  10:09:57
雪候鸟,你们公司有在用HADOOP?北京没多少公司在用,貌似都是些大公司。
寒塘草(957261640)  10:10:31
大公司估计也没几家敢用
雪候鸟<[email protected]>  10:10:34
额,我们公司是网安行业,数据量非常大,实时性不高
雪候鸟<[email protected]>  10:11:29
北京大概一天20T,其他地方也有几T
蓝晓宇^^(瑜)(33445185)  10:11:39
你们招人不,我迫切需要HADOOP,HBASE之类的实习啊,在整个学院的研究生里,就我一个在弄,导师们都不懂,真孤独啊。
蓝晓宇^^(瑜)(33445185)  10:12:02
一天20T那是必须要用了。。
雪候鸟<[email protected]>  10:12:35
我们招人。。。来吗,马上要去东莞出差,去两个月
现在还有2个NOSQL的名额
VISION(929596182)  10:13:31
在哪里呢

【提示:此用户正在使用Q+ Web: http://web.qq.com/】
寒塘草(957261640)  10:13:38
我看你可以去研究2个月
雪候鸟<[email protected]>  10:13:57
北京
乄信念ヤ(244985220)  10:14:01
估计他们不要实习生
雪候鸟<[email protected]>  10:14:07

你可能感兴趣的:(hadoop)