运维记录第2页

BUG管理系统运维记录(bugfree)

BUG管理系统运维记录(bugfree)创建时间: 2013-06-18最新版本: 1.3制作者: Teemo君release1.1 2013-06-08 文档初生成release1.2 2014

qileilove·2014-08-13 09:00

Hadoop运维记录系列(十三)

记录一下在2.x里面不会很常见的报错。只是在测试集群中发生，生产集群大概很少有人会去重启Namenode吧，特别是做了HA的。场景是在2.x里做好了NamenodeHA，以NamespaceURI方式访问HDFS时，报错，然后两个Namenode貌似都是standby，然后历史任务服务器无法启动，HBase的Master也无法启动。其实这个故障很简单。2014-06-05 17:20:09,548

Slaytanic·2014-06-05 17:33

Hadoop运维记录系列(十三)

记录一下在2.x里面不会很常见的报错。只是在测试集群中发生，生产集群大概很少有人会去重启Namenode吧，特别是做了HA的。场景是在2.x里做好了NamenodeHA，以NamespaceURI方式访问HDFS时，报错，然后两个Namenode貌似都是standby，然后历史任务服务器无法启动，HBase的Master也无法启动。其实这个故障很简单。2014-06-05 17:20:09,548

Slaytanic·2014-06-05 17:33

BUG 管理系统运维记录(bugfree)

BUG管理系统运维记录(bugfree)创建时间: 2013-06-18最新版本: 1.3制作者: Teemo君release1.1 2013-06-08 文档初生成release1.2 2014

ending123·2014-03-12 00:59

BUG 管理系统运维记录(bugfree)

BUG管理系统运维记录(bugfree)创建时间:2013-06-18最新版本:1.3制作者:Teemo君release1.12013-06-08文档初生成release1.22014-03-07二次修改

teemomo·2014-03-12 00:59

Hadoop运维记录系列(十二)

从公司离职有几天了，今天回去看同事，想一起吃饭，没成想摊上大事了。说下午hadoop集群的机房停电了，然后集群就启动不了了，几个人从下午4点多折腾到8点多还没搞定，有几台服务器找不到硬盘，还有内网ping不通的。反正是有10来台服务器起不来datanode和tasktracker了。于是在原公司蹭了个饭，花了20分钟解决了一下。由于这几台服务器挂机，namenode没有达到有效数据块的阀值所以一直

Slaytanic·2013-10-30 00:37

技术博客2013年10月份头条记录

=============10.30-10.31头条回顾============深入Hadoop节点部署的策略[Hadoop运维记录系列][是否需要追逐潮流！

51CTO博客·2013-10-08 16:03

技术博客2013年10月份头条记录

=============10.30-10.31头条回顾============深入Hadoop节点部署的策略[Hadoop运维记录系列][是否需要追逐潮流！

51cto_blog·2013-10-08 16:03

Hadoop运维记录汇总

好的文章在这里汇总下，便于后续学习和查找：Hadoop运维记录系列（一）Hadoop运维记录系列(二) Hadoop运维记录系列(三) Hadoop运维记录系列(四) Hadoop运维记录系列(五) Hadoop

u010926176·2013-09-28 18:00

Hadoop运维记录系列(十一)

记录一些Hive的优化点，和能够提升的效率差异。Hive是目前应用最多最广的SQLonHadoop工具，近期很多专业的大数据公司推出了很多新的，基于列式或者内存热数据的SQL工具，像Impala，Tez，Spark等等，但是Hive仍然是目前使用率最高和普及面最广的SQLonHadoop的工具。在以前淘宝罗李的报告中，淘宝90%的业务跑在Hive上面。暴风影音的比例更高一些，大概95%以上都是跑在

Slaytanic·2013-09-12 18:35

Hadoop运维记录系列(十一)

记录一些Hive的优化点，和能够提升的效率差异。Hive是目前应用最多最广的SQLonHadoop工具，近期很多专业的大数据公司推出了很多新的，基于列式或者内存热数据的SQL工具，像Impala，Tez，Spark等等，但是Hive仍然是目前使用率最高和普及面最广的SQLonHadoop的工具。在以前淘宝罗李的报告中，淘宝90%的业务跑在Hive上面。暴风影音的比例更高一些，大概95%以上都是跑在

Slaytanic·2013-09-12 18:35

Hadoop运维记录系列(十)

昨天同事遇到一个hadoop故障，找了半天没看出问题，问到我这里，花了一会解决了一下，估计这是我给暴风的集群解决的最后的故障了，以后就不定给谁解决问题去了。只截下来了Namenode的报错Log，Datanode的刷屏刷过去了，不过都差不多。2013-09-0318:11:44,021WARNorg.apache.hadoop.hdfs.StateChange:BLOCK*NameSystem.b

Slaytanic·2013-09-04 16:43

Hadoop运维记录系列(十)

昨天同事遇到一个hadoop故障，找了半天没看出问题，问到我这里，花了一会解决了一下，估计这是我给暴风的集群解决的最后的故障了，以后就不定给谁解决问题去了。只截下来了Namenode的报错Log，Datanode的刷屏刷过去了，不过都差不多。2013-09-0318:11:44,021WARNorg.apache.hadoop.hdfs.StateChange:BLOCK*NameSystem.b

Slaytanic·2013-09-04 16:43

Hadoop运维记录系列(九)

Linux操作系统针对Hadoop的参数和命令调优。对于Hadoop本身的参数调优，写的已经不少了，操作系统方面的不多，记录一下我用的系统参数。先写一点，想起哪个再往里面加。一、系统内核参数调优sysctl.confnet.ipv4.ip_forward=0 net.ipv4.conf.default.rp_filter=1 net.ipv4.conf.default.accept_sourc

Slaytanic·2013-07-22 12:52

Hadoop运维记录系列(九)

Linux操作系统针对Hadoop的参数和命令调优。对于Hadoop本身的参数调优，写的已经不少了，操作系统方面的不多，记录一下我用的系统参数。先写一点，想起哪个再往里面加。一、系统内核参数调优sysctl.confnet.ipv4.ip_forward=0net.ipv4.conf.default.rp_filter=1net.ipv4.conf.default.accept_source_ro

Slaytanic·2013-07-22 12:52

Hadoop运维记录系列(八)

新部署了几个接收服务器，因为以前的老业务都是nginx接收的，没法迁移到scribe或者fluentd上。所以，只能在这些服务器上部署hadoop的client，用fs-put的方法把nginx生成的NCSA日志定时放到HDFS里。也就是在nginx服务器上需要部署hadoop的client。hadoop部署好了之后交给别人做日志的put脚本，然后一会报告我，put失败。而且是一会成功一会失败，不

Slaytanic·2013-07-17 18:11

Hadoop运维记录系列(八)

新部署了几个接收服务器，因为以前的老业务都是nginx接收的，没法迁移到scribe或者fluentd上。所以，只能在这些服务器上部署hadoop的client，用fs-put的方法把nginx生成的NCSA日志定时放到HDFS里。也就是在nginx服务器上需要部署hadoop的client。hadoop部署好了之后交给别人做日志的put脚本，然后一会报告我，put失败。而且是一会成功一会失败，不

Slaytanic·2013-07-17 18:11

Hadoop运维记录系列(七)

这段时间一直在搞Hadoop集群迁移，最近Hadoop也没出什么大问题，就没更新运维系列。这次的运维系列也跟Hadoop自己的故障无关，主要是自动化运维。不过我确实犯了一个严重的错误，在迁移新集群的时候，为了安装部署方便，我把hbase打成了rpm包的方式进行部署。在编写spec文件的时候，一个变量少写了一对花括号，结果把操作系统的文件给删掉了。而我恰恰是在新集群的生产环境下去编译rpm，后果就是

Slaytanic·2013-07-05 12:16

Hadoop运维记录系列(七)

这段时间一直在搞Hadoop集群迁移，最近Hadoop也没出什么大问题，就没更新运维系列。这次的运维系列也跟Hadoop自己的故障无关，主要是自动化运维。不过我确实犯了一个严重的错误，在迁移新集群的时候，为了安装部署方便，我把hbase打成了rpm包的方式进行部署。在编写spec文件的时候，一个变量少写了一对花括号，结果把操作系统的文件给删掉了。而我恰恰是在新集群的生产环境下去编译rpm，后果就是

Slaytanic·2013-07-05 12:16

Hadoop运维记录系列（一）

caodaoxi·2013-05-23 10:00

Hadoop运维记录系列(二)

caodaoxi·2013-05-23 09:00

Hadoop运维记录系列(六)

这两天有业务部门反馈，总有hive跑某天的log失败。看了一下log，虽然各种报错不一样，但基本都是OOM，追了一下午，终于追出来原因了，特此记录一下。这个问题很诡异，map阶段oom，按说map的时候一个map对应一个数据块，最大也就占用128M内存，怎么会溢出呢，通常都应该是reduce溢出才对。先看看各个hadoop节点的tasktracker报的错误log。节点一2013-05-0820:

Slaytanic·2013-05-08 22:47

Hadoop运维记录系列(六)

这两天有业务部门反馈，总有hive跑某天的log失败。看了一下log，虽然各种报错不一样，但基本都是OOM，追了一下午，终于追出来原因了，特此记录一下。这个问题很诡异，map阶段oom，按说map的时候一个map对应一个数据块，最大也就占用128M内存，怎么会溢出呢，通常都应该是reduce溢出才对。先看看各个hadoop节点的tasktracker报的错误log。节点一2013-05-0820:

Slaytanic·2013-05-08 22:47

Linux运维趋势：阿里运维监控那些事儿

目录阿里运维部监控那些事 Hadoop运维记录系列如何扩展Nagios，以实现自定义监控？怎样用好Eucalyptus?Nagios监控实战：性能测评分析

李航421·2013-04-26 10:00

Hadoop运维记录系列(五)

今天集群神秘崩溃，影响范围较大，分析故障原因比较有趣，特此记录一下。之前也发生过类似的事情，不过没想起写blog，今天正好抓出log来写了。当时的状况是，下午16点左右，集群处于比较繁忙的状态，突然集群数台服务器崩溃，已经无法ssh远程连接服务器，只好找ops重启服务器，然后就是正常的重启datanode和tasktracker。先恢复起来，再去看log，但是去看hadooplog的时候就心寒了。

Slaytanic·2013-04-03 22:33

Hadoop运维记录系列(五)

今天集群神秘崩溃，影响范围较大，分析故障原因比较有趣，特此记录一下。之前也发生过类似的事情，不过没想起写blog，今天正好抓出log来写了。当时的状况是，下午16点左右，集群处于比较繁忙的状态，突然集群数台服务器崩溃，已经无法ssh远程连接服务器，只好找ops重启服务器，然后就是正常的重启datanode和tasktracker。先恢复起来，再去看log，但是去看hadooplog的时候就心寒了。

Slaytanic·2013-04-03 22:33

Hadoop运维记录系列(四)

记录一下，可能算是个比较典型的故障，磁盘满导致的tasktracker无法启动。故障是一台tasktracker挂了，怎么也起不来，报错信息如下。 2013-03-26 17:34:57,620 ERROR org.apache.hadoop.mapred.TaskTracker: Can not start task tracker because ENOENT: No such f

Slaytanic·2013-03-26 19:00

Hadoop运维记录系列(四)

记录一下，可能算是个比较典型的故障，磁盘满导致的tasktracker无法启动。故障是一台tasktracker挂了，怎么也起不来，报错信息如下。2013-03-26 17:34:57,620 ERROR org.apache.hadoop.mapred.TaskTracker: Can not start task tracker because ENOENT: No such file or

Slaytanic·2013-03-26 19:00

Hadoop运维记录系列(三)

Hive0.10发布了，修正了一些bug，搞了一些新特性，对提高工作效率很有帮助，于是尝试升级了一下，然后遇到了一些问题，记录一下。主要是看上了下面几个feature，打算换上看看。1.AllowSELECTwithoutamapreducejob2.Implement"showcreatetable"3.SkewedJoinOptimization，optimizeunionsub-querie

Slaytanic·2013-01-30 15:36

Hadoop运维记录系列(三)

Hive0.10发布了，修正了一些bug，搞了一些新特性，对提高工作效率很有帮助，于是尝试升级了一下，然后遇到了一些问题，记录一下。主要是看上了下面几个feature，打算换上看看。 1. Allow SELECT without a mapreduce job2.Implement "show create table"3.Skewed Join Optimization，optimize u

Slaytanic·2013-01-30 15:36

Hadoop运维记录系列(二)

Slaytanic·2012-12-09 01:50

Hadoop运维记录系列(二)

Slaytanic·2012-12-09 01:50

Hadoop运维记录系列（一）

这两天参加了51CTO举办的云计算架构师峰会，办的非常好，很多干货。确实比一些名不副实的所谓大数据实际都是厂商推销产品的会议要强得多。但是其实这事跟Hadoop运维没关系，但是这两天集群发生的故障影响了我听报告。说起来很奇幻，集群里面有三台服务器需要升级CPU，这本无可厚非。但是不多不少，恰恰是三台，符合Hadoop集群配置的replication数量。之间运维人员没有提前跟我们进行沟通，基本就是

Slaytanic·2012-10-26 22:25

Hadoop运维记录系列（一）

这两天参加了51CTO举办的云计算架构师峰会，办的非常好，很多干货。确实比一些名不副实的所谓大数据实际都是厂商推销产品的会议要强得多。但是其实这事跟Hadoop运维没关系，但是这两天集群发生的故障影响了我听报告。说起来很奇幻，集群里面有三台服务器需要升级CPU，这本无可厚非。但是不多不少，恰恰是三台，符合Hadoop集群配置的replication数量。之间运维人员没有提前跟我们进行沟通，基本就是

Slaytanic·2012-10-26 22:25

hadoop运维记录之二：tasktracker启动后”假死“

由于hadoop集群中某台服务器磁盘损坏，导致该服务器tasktracker任务失败率大增（失败原因：分配到该服务器的任务的临时目录选择了损坏的磁盘，导致job初始化是失败），所以决定将坏的磁盘从tasktracker中的mapred本地目录中删除，然后重启tasktracker。操作步骤如下： 1）修改完mapred-site.xml配置文件； 2

azhao_dn·2012-05-30 15:00

hive运维记录20111117

1）运行hivecli客户端时报错：Mkdirsfailedtocreate/tmp/hadoop-test/hadoop-unjar15513 错误原因：hive客户端所在服务器/tmp目录已满解决办法：a）清空/tmp目录；b）修改hive的临时目录2）hive提交的作业始终是map0%red0%的状态：作业图示如下：发现该job分配的map数为零，最初还以为是jobt

azhao_dn·2011-11-17 11:00

hadoop运维记录1

最近发现hadoop集群上数据清洗业务运行的越来越慢，从开始的3-4分钟到现在的10-30分钟，性能出现了几倍的下滑，在网上和hadoop日志中折腾了半天后，发现清洗业务运行的map作业和文件块分布在不同的服务器上，且这种现象还比较多，这就是说，map程序必须从其他的服务器上拷贝数据块，这会导致map程序性能下滑。在这过程中，还按照网上的建议优化了hadoop集群jvm的运行

azhao_dn·2011-11-10 14:00

推荐频道

运维记录

BUG管理系统运维记录(bugfree)

Hadoop运维记录系列(十三)

Hadoop运维记录系列(十三)

BUG 管理系统运维记录(bugfree)

BUG 管理系统运维记录(bugfree)

Hadoop运维记录系列(十二)

技术博客2013年10月份头条记录

技术博客2013年10月份头条记录

Hadoop运维记录汇总

Hadoop运维记录系列(十一)

Hadoop运维记录系列(十一)

Hadoop运维记录系列(十)

Hadoop运维记录系列(十)

Hadoop运维记录系列(九)

Hadoop运维记录系列(九)

Hadoop运维记录系列(八)

Hadoop运维记录系列(八)

Hadoop运维记录系列(七)

Hadoop运维记录系列(七)

Hadoop运维记录系列（一）

Hadoop运维记录系列(二)

Hadoop运维记录系列(六)

Hadoop运维记录系列(六)

Linux运维趋势：阿里运维监控那些事儿

Hadoop运维记录系列(五)

Hadoop运维记录系列(五)

Hadoop运维记录系列(四)

Hadoop运维记录系列(四)

Hadoop运维记录系列(三)

Hadoop运维记录系列(三)

Hadoop运维记录系列(二)

Hadoop运维记录系列(二)

Hadoop运维记录系列（一）

Hadoop运维记录系列（一）

hadoop运维记录之二：tasktracker启动后”假死“

hive运维记录20111117

hadoop运维记录1