E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
运维记录
BUG管理系统
运维记录
(bugfree)
BUG管理系统
运维记录
(bugfree)创建时间: 2013-06-18最新版本: 1.3制作者: Teemo君release1.1 2013-06-08 文档初生成release1.2 2014
qileilove
·
2014-08-13 09:00
Hadoop
运维记录
系列(十三)
记录一下在2.x里面不会很常见的报错。只是在测试集群中发生,生产集群大概很少有人会去重启Namenode吧,特别是做了HA的。场景是在2.x里做好了NamenodeHA,以NamespaceURI方式访问HDFS时,报错,然后两个Namenode貌似都是standby,然后历史任务服务器无法启动,HBase的Master也无法启动。其实这个故障很简单。2014-06-05 17:20:09,548
Slaytanic
·
2014-06-05 17:33
hadoop
部署
开发
运维
系列
Hadoop
运维记录
系列(十三)
记录一下在2.x里面不会很常见的报错。只是在测试集群中发生,生产集群大概很少有人会去重启Namenode吧,特别是做了HA的。场景是在2.x里做好了NamenodeHA,以NamespaceURI方式访问HDFS时,报错,然后两个Namenode貌似都是standby,然后历史任务服务器无法启动,HBase的Master也无法启动。其实这个故障很简单。2014-06-05 17:20:09,548
Slaytanic
·
2014-06-05 17:33
部署
开发
运维
hadoop
BUG 管理系统
运维记录
(bugfree)
BUG管理系统
运维记录
(bugfree)创建时间: 2013-06-18最新版本: 1.3制作者: Teemo君release1.1 2013-06-08 文档初生成release1.2 2014
ending123
·
2014-03-12 00:59
bug
bugfree
管理系统运维记录
BUG 管理系统
运维记录
(bugfree)
BUG管理系统
运维记录
(bugfree)创建时间:2013-06-18最新版本:1.3制作者:Teemo君release1.12013-06-08文档初生成release1.22014-03-07二次修改
teemomo
·
2014-03-12 00:59
BUG
管理系统运维记录
bugfree
经验分享
Hadoop
运维记录
系列(十二)
从公司离职有几天了,今天回去看同事,想一起吃饭,没成想摊上大事了。说下午hadoop集群的机房停电了,然后集群就启动不了了,几个人从下午4点多折腾到8点多还没搞定,有几台服务器找不到硬盘,还有内网ping不通的。反正是有10来台服务器起不来datanode和tasktracker了。于是在原公司蹭了个饭,花了20分钟解决了一下。由于这几台服务器挂机,namenode没有达到有效数据块的阀值所以一直
Slaytanic
·
2013-10-30 00:37
故障
记录
运维
hadoop
技术博客2013年10月份头条记录
=============10.30-10.31头条回顾============深入Hadoop节点部署的策略[Hadoop
运维记录
系列][是否需要追逐潮流!
51CTO博客
·
2013-10-08 16:03
博客头条
博客幻灯图
头条记录
存档文章
技术博客2013年10月份头条记录
=============10.30-10.31头条回顾============深入Hadoop节点部署的策略[Hadoop
运维记录
系列][是否需要追逐潮流!
51cto_blog
·
2013-10-08 16:03
头条记录
博客头条
博客幻灯图
Hadoop
运维记录
汇总
好的文章在这里汇总下,便于后续学习和查找:Hadoop
运维记录
系列(一)Hadoop
运维记录
系列(二) Hadoop
运维记录
系列(三) Hadoop
运维记录
系列(四) Hadoop
运维记录
系列(五) Hadoop
u010926176
·
2013-09-28 18:00
Hadoop
运维记录
系列(十一)
记录一些Hive的优化点,和能够提升的效率差异。Hive是目前应用最多最广的SQLonHadoop工具,近期很多专业的大数据公司推出了很多新的,基于列式或者内存热数据的SQL工具,像Impala,Tez,Spark等等,但是Hive仍然是目前使用率最高和普及面最广的SQLonHadoop的工具。在以前淘宝罗李的报告中,淘宝90%的业务跑在Hive上面。暴风影音的比例更高一些,大概95%以上都是跑在
Slaytanic
·
2013-09-12 18:35
系统
性能
调优
hadoop
Hadoop
运维记录
系列(十一)
记录一些Hive的优化点,和能够提升的效率差异。Hive是目前应用最多最广的SQLonHadoop工具,近期很多专业的大数据公司推出了很多新的,基于列式或者内存热数据的SQL工具,像Impala,Tez,Spark等等,但是Hive仍然是目前使用率最高和普及面最广的SQLonHadoop的工具。在以前淘宝罗李的报告中,淘宝90%的业务跑在Hive上面。暴风影音的比例更高一些,大概95%以上都是跑在
Slaytanic
·
2013-09-12 18:35
hadoop
性能
hive
系统
调优
Hadoop
运维记录
系列(十)
昨天同事遇到一个hadoop故障,找了半天没看出问题,问到我这里,花了一会解决了一下,估计这是我给暴风的集群解决的最后的故障了,以后就不定给谁解决问题去了。只截下来了Namenode的报错Log,Datanode的刷屏刷过去了,不过都差不多。2013-09-0318:11:44,021WARNorg.apache.hadoop.hdfs.StateChange:BLOCK*NameSystem.b
Slaytanic
·
2013-09-04 16:43
hadoop
运维
记录
故障分析
Hadoop
运维记录
系列(十)
昨天同事遇到一个hadoop故障,找了半天没看出问题,问到我这里,花了一会解决了一下,估计这是我给暴风的集群解决的最后的故障了,以后就不定给谁解决问题去了。只截下来了Namenode的报错Log,Datanode的刷屏刷过去了,不过都差不多。2013-09-0318:11:44,021WARNorg.apache.hadoop.hdfs.StateChange:BLOCK*NameSystem.b
Slaytanic
·
2013-09-04 16:43
记录
运维
hadoop
hadoop
Hadoop
运维记录
系列(九)
Linux操作系统针对Hadoop的参数和命令调优。对于Hadoop本身的参数调优,写的已经不少了,操作系统方面的不多,记录一下我用的系统参数。先写一点,想起哪个再往里面加。一、系统内核参数调优sysctl.confnet.ipv4.ip_forward=0 net.ipv4.conf.default.rp_filter=1 net.ipv4.conf.default.accept_sourc
Slaytanic
·
2013-07-22 12:52
hadoop
运维
系统
记录
调优
Hadoop
运维记录
系列(九)
Linux操作系统针对Hadoop的参数和命令调优。对于Hadoop本身的参数调优,写的已经不少了,操作系统方面的不多,记录一下我用的系统参数。先写一点,想起哪个再往里面加。一、系统内核参数调优sysctl.confnet.ipv4.ip_forward=0net.ipv4.conf.default.rp_filter=1net.ipv4.conf.default.accept_source_ro
Slaytanic
·
2013-07-22 12:52
系统
记录
运维
hadoop
Hadoop
运维记录
系列(八)
新部署了几个接收服务器,因为以前的老业务都是nginx接收的,没法迁移到scribe或者fluentd上。所以,只能在这些服务器上部署hadoop的client,用fs-put的方法把nginx生成的NCSA日志定时放到HDFS里。也就是在nginx服务器上需要部署hadoop的client。hadoop部署好了之后交给别人做日志的put脚本,然后一会报告我,put失败。而且是一会成功一会失败,不
Slaytanic
·
2013-07-17 18:11
hadoop
运维
记录
故障分析
Hadoop
运维记录
系列(八)
新部署了几个接收服务器,因为以前的老业务都是nginx接收的,没法迁移到scribe或者fluentd上。所以,只能在这些服务器上部署hadoop的client,用fs-put的方法把nginx生成的NCSA日志定时放到HDFS里。也就是在nginx服务器上需要部署hadoop的client。hadoop部署好了之后交给别人做日志的put脚本,然后一会报告我,put失败。而且是一会成功一会失败,不
Slaytanic
·
2013-07-17 18:11
记录
运维
hadoop
hadoop
Hadoop
运维记录
系列(七)
这段时间一直在搞Hadoop集群迁移,最近Hadoop也没出什么大问题,就没更新运维系列。这次的运维系列也跟Hadoop自己的故障无关,主要是自动化运维。不过我确实犯了一个严重的错误,在迁移新集群的时候,为了安装部署方便,我把hbase打成了rpm包的方式进行部署。在编写spec文件的时候,一个变量少写了一对花括号,结果把操作系统的文件给删掉了。而我恰恰是在新集群的生产环境下去编译rpm,后果就是
Slaytanic
·
2013-07-05 12:16
hadoop
运维
记录
故障分析
Hadoop
运维记录
系列(七)
这段时间一直在搞Hadoop集群迁移,最近Hadoop也没出什么大问题,就没更新运维系列。这次的运维系列也跟Hadoop自己的故障无关,主要是自动化运维。不过我确实犯了一个严重的错误,在迁移新集群的时候,为了安装部署方便,我把hbase打成了rpm包的方式进行部署。在编写spec文件的时候,一个变量少写了一对花括号,结果把操作系统的文件给删掉了。而我恰恰是在新集群的生产环境下去编译rpm,后果就是
Slaytanic
·
2013-07-05 12:16
记录
运维
hadoop
hadoop
Hadoop
运维记录
系列(一)
版权声明:原创作品,谢绝转载!否则将追究法律责任。 这两天参加了51CTO举办的云计算架构师峰会,办的非常好,很多干货。确实比一些名不副实的所谓大数据实际都是厂商推销产品的会议要强得多。但是其实这事跟Hadoop运维没关系,但是这两天集群发生的故障影响了我听报告。 说起来很奇幻,集群里面有三台服务器需要升级CPU,这本无可厚非。但是不多不少,恰恰是三台,符合Hadoop集群配置的r
caodaoxi
·
2013-05-23 10:00
hadoop
Hadoop
运维记录
系列(二)
:下周准备去某地做Hadoop相关的技术培训,主要负责讲解Hadoop的安装部署和运维部分,赶制了一份PPT,将平时工作中遇到的问题也提取了一下,希望能对Hadoop运维相关人员有所帮助,算是个补上的
运维记录
吧
caodaoxi
·
2013-05-23 09:00
hadoop
Hadoop
运维记录
系列(六)
这两天有业务部门反馈,总有hive跑某天的log失败。看了一下log,虽然各种报错不一样,但基本都是OOM,追了一下午,终于追出来原因了,特此记录一下。这个问题很诡异,map阶段oom,按说map的时候一个map对应一个数据块,最大也就占用128M内存,怎么会溢出呢,通常都应该是reduce溢出才对。先看看各个hadoop节点的tasktracker报的错误log。节点一2013-05-0820:
Slaytanic
·
2013-05-08 22:47
hadoop
运维
故障分析
Hadoop
运维记录
系列(六)
这两天有业务部门反馈,总有hive跑某天的log失败。看了一下log,虽然各种报错不一样,但基本都是OOM,追了一下午,终于追出来原因了,特此记录一下。这个问题很诡异,map阶段oom,按说map的时候一个map对应一个数据块,最大也就占用128M内存,怎么会溢出呢,通常都应该是reduce溢出才对。先看看各个hadoop节点的tasktracker报的错误log。节点一2013-05-0820:
Slaytanic
·
2013-05-08 22:47
运维
hadoop
故障分析
hadoop
Linux运维趋势:阿里运维监控那些事儿
目录阿里运维部监控那些事 Hadoop
运维记录
系列如何扩展Nagios,以实现自定义监控? 怎样用好Eucalyptus?Nagios监控实战:性能测评分析
李航421
·
2013-04-26 10:00
linux
运维
监控
阿里
趋势
Hadoop
运维记录
系列(五)
今天集群神秘崩溃,影响范围较大,分析故障原因比较有趣,特此记录一下。之前也发生过类似的事情,不过没想起写blog,今天正好抓出log来写了。当时的状况是,下午16点左右,集群处于比较繁忙的状态,突然集群数台服务器崩溃,已经无法ssh远程连接服务器,只好找ops重启服务器,然后就是正常的重启datanode和tasktracker。先恢复起来,再去看log,但是去看hadooplog的时候就心寒了。
Slaytanic
·
2013-04-03 22:33
记录
运维
hadoop
hadoop
Hadoop
运维记录
系列(五)
今天集群神秘崩溃,影响范围较大,分析故障原因比较有趣,特此记录一下。之前也发生过类似的事情,不过没想起写blog,今天正好抓出log来写了。当时的状况是,下午16点左右,集群处于比较繁忙的状态,突然集群数台服务器崩溃,已经无法ssh远程连接服务器,只好找ops重启服务器,然后就是正常的重启datanode和tasktracker。先恢复起来,再去看log,但是去看hadooplog的时候就心寒了。
Slaytanic
·
2013-04-03 22:33
hadoop
运维
记录
故障分析
Hadoop
运维记录
系列(四)
记录一下,可能算是个比较典型的故障,磁盘满导致的tasktracker无法启动。故障是一台tasktracker挂了,怎么也起不来,报错信息如下。 2013-03-26 17:34:57,620 ERROR org.apache.hadoop.mapred.TaskTracker: Can not start task tracker because ENOENT: No such f
Slaytanic
·
2013-03-26 19:00
hadoop
运维
故障分析
Hadoop
运维记录
系列(四)
记录一下,可能算是个比较典型的故障,磁盘满导致的tasktracker无法启动。故障是一台tasktracker挂了,怎么也起不来,报错信息如下。2013-03-26 17:34:57,620 ERROR org.apache.hadoop.mapred.TaskTracker: Can not start task tracker because ENOENT: No such file or
Slaytanic
·
2013-03-26 19:00
运维
hadoop
故障分析
hadoop
Hadoop
运维记录
系列(三)
Hive0.10发布了,修正了一些bug,搞了一些新特性,对提高工作效率很有帮助,于是尝试升级了一下,然后遇到了一些问题,记录一下。主要是看上了下面几个feature,打算换上看看。1.AllowSELECTwithoutamapreducejob2.Implement"showcreatetable"3.SkewedJoinOptimization,optimizeunionsub-querie
Slaytanic
·
2013-01-30 15:36
运维
hadoop
故障分析
hadoop
Hadoop
运维记录
系列(三)
Hive0.10发布了,修正了一些bug,搞了一些新特性,对提高工作效率很有帮助,于是尝试升级了一下,然后遇到了一些问题,记录一下。主要是看上了下面几个feature,打算换上看看。 1. Allow SELECT without a mapreduce job2.Implement "show create table"3.Skewed Join Optimization,optimize u
Slaytanic
·
2013-01-30 15:36
hadoop
运维
故障分析
Hadoop
运维记录
系列(二)
下周准备去某地做Hadoop相关的技术培训,主要负责讲解Hadoop的安装部署和运维部分,赶制了一份PPT,将平时工作中遇到的问题也提取了一下,希望能对Hadoop运维相关人员有所帮助,算是个补上的
运维记录
吧
Slaytanic
·
2012-12-09 01:50
运维
hadoop
故障分析
hadoop
Hadoop
运维记录
系列(二)
下周准备去某地做Hadoop相关的技术培训,主要负责讲解Hadoop的安装部署和运维部分,赶制了一份PPT,将平时工作中遇到的问题也提取了一下,希望能对Hadoop运维相关人员有所帮助,算是个补上的
运维记录
吧
Slaytanic
·
2012-12-09 01:50
hadoop
运维
故障分析
Hadoop
运维记录
系列(一)
这两天参加了51CTO举办的云计算架构师峰会,办的非常好,很多干货。确实比一些名不副实的所谓大数据实际都是厂商推销产品的会议要强得多。但是其实这事跟Hadoop运维没关系,但是这两天集群发生的故障影响了我听报告。说起来很奇幻,集群里面有三台服务器需要升级CPU,这本无可厚非。但是不多不少,恰恰是三台,符合Hadoop集群配置的replication数量。之间运维人员没有提前跟我们进行沟通,基本就是
Slaytanic
·
2012-10-26 22:25
hadoop
运维
故障分析
Hadoop
运维记录
系列(一)
这两天参加了51CTO举办的云计算架构师峰会,办的非常好,很多干货。确实比一些名不副实的所谓大数据实际都是厂商推销产品的会议要强得多。但是其实这事跟Hadoop运维没关系,但是这两天集群发生的故障影响了我听报告。说起来很奇幻,集群里面有三台服务器需要升级CPU,这本无可厚非。但是不多不少,恰恰是三台,符合Hadoop集群配置的replication数量。之间运维人员没有提前跟我们进行沟通,基本就是
Slaytanic
·
2012-10-26 22:25
运维
hadoop
故障分析
hadoop
hadoop
运维记录
之二:tasktracker启动后”假死“
由于hadoop集群中某台服务器磁盘损坏,导致该服务器tasktracker任务失败率大增(失败原因:分配到该服务器的任务的临时目录选择了损坏的磁盘,导致job初始化是失败),所以决定将坏的磁盘从tasktracker中的mapred本地目录中删除,然后重启tasktracker。 操作步骤如下: 1)修改完mapred-site.xml配置文件; 2
azhao_dn
·
2012-05-30 15:00
hadoop
集群
服务器
Path
任务
磁盘
hive
运维记录
20111117
1)运行hivecli客户端时报错:Mkdirsfailedtocreate/tmp/hadoop-test/hadoop-unjar15513 错误原因:hive客户端所在服务器/tmp目录已满 解决办法:a)清空/tmp目录;b)修改hive的临时目录2)hive提交的作业始终是map0%red0%的状态: 作业图示如下: 发现该job分配的map数为零,最初还以为是jobt
azhao_dn
·
2011-11-17 11:00
hadoop
运维记录
1
最近发现hadoop集群上数据清洗业务运行的越来越慢,从开始的3-4分钟到现在的10-30分钟,性能出现了几倍的下滑,在网上和hadoop日志中折腾了半天后,发现清洗业务运行的map作业和文件块分布在不同的服务器上,且这种现象还比较多,这就是说,map程序必须从其他的服务器上拷贝数据块,这会导致map程序性能下滑。 在这过程中,还按照网上的建议优化了hadoop集群jvm的运行
azhao_dn
·
2011-11-10 14:00
上一页
1
2
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他