bug发现与制造

大数据解决方案：实时日志处理系统架构及整体思路

1.实时日志处理系统架构及整体思路

整个系统分为三层：收集(Agent)层，汇总(Collector)层和处理层。

其中Agent层采用flume收集日志，每个机器部署一个进程，负责对单机的日志收集工作；

Collector层flume部署在后端服务器上，负责接收Agent层发送的日志，汇总并决定最终流向；

对于单个日志文件的服务器，flume采用传统的source-channel-sink配置，而对于有多个日志的服务器，flume采用开启多个源的方式来进行监控，流程为sources-channel-sink。

处理层主要负责接受Collector传来的日志，经由kafka，给Storm系统提供实时日志流。

Agent到Collector使用LoadBalance策略，将所有的日志均衡地发到所有的Collector上，达到负载均衡的目标，同时并处理单个Collector失效的问题。

架构设计考虑：

可用性

1.1 Agent死掉

Agent死掉分为两种情况：机器死机或者Agent进程死掉。

对于机器死机的情况来说，由于产生日志的进程也同样会死掉，所以不会再产生新的日志，不存在不提供服务的情况。

对于Agent进程死掉的情况来说，由于采用了filechannel的方式，虽然降低了传输速率，但是在进程死掉重启后，可以通过检查点来接着读取。

1.2 Collector死掉

由于中心服务器提供的是对等的且无差别的服务，且Agent访问Collector做了LoadBalance机制。所以当某个Collector无法提供服务时，Agent的重试策略会将数据发送到其它可用的Collector上面。所以整个服务不受影响。

可靠性

对Flume来说，所有的events都被保存在Agent的Channel中，然后被发送到数据流中的下一个Agent或者最终的存储服务中。当且仅当它们被保存到下一个Agent的Channel中或者被保存到最终的存储服务中。这就是Flume提供数据流中点到点的可靠性保证的最基本的单跳消息传递语义。

那么Flume是如何做到上述最基本的消息传递语义呢？

首先，Agent间的事务交换。Flume使用事务的办法来保证event的可靠传递。Source和Sink分别被封装在事务中，这些事务由保存event的存储提供或者由Channel提供。这就保证了event在数据流的点对点传输中是可靠的。在多级数据流中，如下图，上一级的Sink和下一级的Source都被包含在事务中，保证数据可靠地从一个Channel到另一个Channel转移。

其次，我们采用FileChannel是持久性的，提供类似mysql的日志机制，保证数据不丢失。

可扩展性

3.1 Agent层

对于Agent这一层来说，每个机器部署一个Agent，可以水平扩展，不受限制。一个方面，Agent收集日志的能力受限于机器的性能，正常情况下一个Agent可以为单机提供足够服务。另一方面，如果机器比较多，可能受限于后端Collector提供的服务，但Agent到Collector是有Load Balance机制，使得Collector可以线性扩展提高能力。

3.2 Collector层

对于Collector这一层，Agent到Collector是有Load Balance机制，并且Collector提供无差别服务，所以可以线性扩展。

具体模块分解图：

agent的source端采用exec执行linux中的tail命令的方式来监控日志数据，对于这种方式flume默认不会开启失败重试因此会造成数据丢失情况严重，而开启后数据几乎不会丢失。

agent的sink端采用thrift，flume提供了avro和thrift两种方式进行传输，经过测试avro在load banlance机制中可能会发生数据重复发送的问题，因此我们采用thrift的方式进行传输。

我们的channel统一采用file channel的方式，flume提供了memory channel和file channel的方式，采用file channel的方式牺牲了一定的传输性能，但是保证了数据的完整性。

2.Flume部署手册

1.安装前准备

解压flume-agent.tar/flume-collect.tar至安装目录下

相关命令：tar zvxf flume-agent.tar –C /usr/local/hadoop(安装目录，可自定义)

2.配置jdk环境变量

Vi /etc/profile

修改相应的JAVA_HOME和PATH

3.Flume的agent端(日志收集端)部署步骤

修改conf/tailSource_avro.conf文件相关配置选项：

修改agent.sources.r1.command为要监控的日志文件，默认为/var/www/logs/access_log

(2)修改agent.channels.c1.checkpointDir为保存检查点的文件夹地址，默认/hadoop/flume/checkpointdir

(3)修改agent.channels.c1.dataDirs为保存缓存文件的文件夹地址，默认为/hadoop/flume/datadirs

(4)修改agent.sources.r1.interceptors.i1.value为频道名加分隔符(!`@`!)，例如：searchweb!`@`!

flume的agent分为单个源文件和多个源文件

整体参考配置见附录。

4.Flume的collect端(处理端)部署步骤

修改conf/avro_hdfs.conf文件：

(1)修改agent.channels.c1.checkpointDir为保存检查点的文件夹地址，默认/hadoop/flume/checkpointdir

(2)修改agent.channels.c1.dataDirs为保存缓存文件的文件夹地址，默认为/hadoop/flume/datadirs

(3)修改agent.sinks.s1.hdfs.rollInterval为想要往HDFS保存的间隔，默认20分钟(1200)

5.修改bin/flume-start.sh

把所有的/hadoop/flume改为flume安装路径

6.Flume启动

启动顺序：先启动collector端，再启动agent端

启动命令：执行bin/flume-start.sh

7.Flume agent端压力测试结果

2014-10-17上午9点将searchweb3机器的权重调为原来的3倍，并部署flume收集日志，最近7天(2014-10-14---2014-10-21)结果如下：

网卡流量：

CPU Load:

CPU利用率：

内存使用情况：

7.Flume 数据完整性测试结果

抽取了其中半天的日志(00:00:00—11:59:59)做对比

原始日志条数：1208097

Flume收集条数：1208102

相差5条

3.Kafka部署手册

1.解压安装包

tar zxvf kafka_2.9.2-0.8.1.1.tgz –C /hadoop

mv kafka_2.9.2-0.8.1.1/ kafka

2.编译kafka

cd /hadoop/kafka

sbt update

sbt package

sbt assembly-package-dependency

sbt sbt-dependency

3.修改server.properties使用自己的zookeeper

具体配置参加附录

4.拷贝kafka到各主机

scp –r kafka/ hadoop19:/hadoop/

scp –r kafka/ hadoop20:/hadoop/

scp –r kafka/ hadoop21:/hadoop/

修改相应的server.properties配置

Broker.id=2

advertised.host.name=hadoop20

5.启动kafka

kafka-server-start.sh $KAFKA_HOME/config/server.properties > /dev/null 2>&1 &

4.flume-Kafka整合

1.拷贝flumeng-kafka-plugin-master/flumeng-kafka-plugin中的lib和package文件夹中的jar包到flume/lib中

这些jar包是：

kafka-2.9.2-0.8.0-beta1

metrics-annotation-2.2.0

metrics-core-2.2.0

scala-compiler-2.9.2

scala-library-2.9.2

zkclient-0.1

flumeng-kafka-plugin.jar

2.配置文件参考flume-collector端配置文件

5.storm部署

1.安装zeromq

yum install gcc-c++ libuuid-devel

tar zvxf zeromq-3.2.4.tar.gz –C /hadoop

mv zeromq-3.2.4 zeromq

cd zeromq

./autogen.sh

./configure

make && make install

2.安装jzmq

yum install git libtool

unzip jzmq-master.zip –d /hadoop

mv jzmq-master jzmq

cd jzmq

./autogen.sh

./configure

make && make install

安装storm

(1)解压

tar zxvf apache-storm-0.9.2-incubating.tar.gz –C /hadoop

mv storm-0.9.2-incubating storm

修改conf/storm.yaml配置文件

4.修改/etc/profile

增加STORM_HOME=/hadoop/storm

在PATH中增加$STORM_HOME/bin

5.拷贝到其他机器

scp –r storm hadoop19:/hadoop

scp –r storm hadoop20:/hadoop

scp –r storm hadoop21:/hadoop

6.启动storm

启动zk:zkServer.sh start

启动nimbus:storm nimbus >/dev/null 2>&1 &

启动supervisor：storm supervisor >/dev/null 2>&1 &

启动ui :storm ui >/dev/null 2>&1 &

6.storm和kafka整合

1.拷贝jar包到storm/lib下

这些jar为：

storm-kafka-0.9.2-incubating.jar

kafka_2.9.2-0.8.1.1.jar

metrics-core-2.2.0.jar

scala-library-2.9.2.jar

2.重启storm

7.曾经遇到的问题

1.类冲突

问题描述：采用自定义source在1.5版本时会出现类冲突错误

问题原因：自定义的jar与官方jar包的类有冲突

解决思路：换一种source

目前方案：放弃使用自定义方案，采用官方exec模式

2.采用exec模式会出现丢数据现象

问题描述：采用官方exec模式做为source端有时会出现严重的丢数据现象

问题原因：exec source在执行Tail的时候，put数据到channel，当一直未获取到channel lock超时后，exec source会退出，而默认行为是不自动恢复重试

解决思路：开启flume提供快速恢复的机制

目前方案：在配置文件中加上这三个参数：restartThrottle，restart，logStdErr解决

3.flume重复收集日志

问题：采用自定义tail配合avro方式传递日志后曾发现flume会多收集日志，误差率2%左右。

问题原因：

flume-agent与flume-collector会出现短暂的断开连接，此时这条日志会发送失败，而后flume-agent会向剩余的机器都发送这条数据。

解决思路：在FileChannel中添加相关的事务配置

目前方案：

采用exec模式配合thrift同时在FileChannel中增加事务配置解决，收集结果如下：

原始日志条数：1208097

Flume收集条数：1208102

相差5条

附录

Flume-agent端收集单个日志参考配置如下：

agent.sources = r1

agent.sinks=s1 s2 s3

agent.channels=c1

#Configure source

agent.sources.r1.type=exec

agent.sources.r1.command=tail -F /var/www/logs/access_log

agent.sources.r1.restart=true

agent.sources.r1.logStdErr=true

agent.sources.r1.restartThrottle=5000

agent.sources.r1.channels = c1

agent.sources.r1.interceptors=i1

agent.sources.r1.interceptors.i1.type=org.apache.flume.interceptor.ValueBodyInterceptor$Builder

agent.sources.r1.interceptors.i1.value=searchweb!`@`!

#Configure sink

agent.sinkgroups=g1

agent.sinkgroups.g1.sinks=s1 s2 s3

agent.sinkgroups.g1.processor.type=load_balance

agent.sinkgroups.g1.processor.backoff=true

agent.sinkgroups.g1.processor.selector=round_robin

agent.sinks.s1.type=thrift

agent.sinks.s1.hostname=192.168.4.181

agent.sinks.s1.port=44444

agent.sinks.s1.channel=c1

agent.sinks.s2.type=thrift

agent.sinks.s2.hostname=192.168.4.180

agent.sinks.s2.port=44444

agent.sinks.s2.channel=c1

agent.sinks.s3.type=thrift

agent.sinks.s3.hostname=192.168.4.179

agent.sinks.s3.port=44444

agent.sinks.s3.channel=c1

#Configure c1

agent.channels.c1.type=file

agent.channels.c1.checkpointDir=/usr/local/hadoop/flume/checkpointdir

agent.channels.c1.dataDirs=/usr/local/hadoop/flume/datadirs

agent.channels.c1.transactionCapacity=10000

agent.channels.c1.checkpointInterval=30000

Flume-agent端收集多个日志参考配置如下：

agent.sources = r1 r2

agent.sinks=s1 s2 s3

agent.channels=c1

#Configure source

agent.sources.r1.type=exec

agent.sources.r1.command=tail -F /var/www/logs/access_5linux_log

agent.sources.r1.restart=true

agent.sources.r1.logStdErr=true

agent.sources.r1.restartThrottle=5000

agent.sources.r1.channels = c1

agent.sources.r1.interceptors=i1

agent.sources.r1.interceptors.i1.type=org.apache.flume.interceptor.ValueBodyInterceptor$Builder

agent.sources.r1.interceptors.i1.value=5linux!`@`!

agent.sources.r2.type=exec

agent.sources.r2.command=tail -F /var/www/logs/access_3g_log

agent.sources.r2.restart=true

agent.sources.r2.logStdErr=true

agent.sources.r2.restartThrottle=5000

agent.sources.r2.channels = c1

agent.sources.r2.interceptors=i2

agent.sources.r2.interceptors.i2.type=org.apache.flume.interceptor.ValueBodyInterceptor$Builder

agent.sources.r2.interceptors.i2.value=3g!`@`!

#Configure sink

agent.sinkgroups=g1

agent.sinkgroups.g1.sinks=s1 s2 s3

agent.sinkgroups.g1.processor.type=load_balance

agent.sinkgroups.g1.processor.backoff=true

agent.sinkgroups.g1.processor.selector=round_robin

agent.sinks.s1.type=thrift

agent.sinks.s1.hostname=192.168.4.181

agent.sinks.s1.port=44444

agent.sinks.s1.channel=c1

agent.sinks.s2.type=thrift

agent.sinks.s2.hostname=192.168.4.180

agent.sinks.s2.port=44444

agent.sinks.s2.channel=c1

agent.sinks.s3.type=thrift

agent.sinks.s3.hostname=192.168.4.179

agent.sinks.s3.port=44444

agent.sinks.s3.channel=c1

#Configure c1

agent.channels.c1.type=file

agent.channels.c1.checkpointDir=/usr/local/hadoop/flume/checkpointdir

agent.channels.c1.dataDirs=/usr/local/hadoop/flume/datadirs

agent.channels.c1.transactionCapacity=10000

agent.channels.c1.checkpointInterval=30000

Flume-collect参考配置如下：

agent.sources = r1

agent.sinks=s1 s2

agent.channels=c1 c2

#Configure source

agent.sources.r1.type = thrift

agent.sources.r1.channels = c1 c2

agent.sources.r1.bind=0.0.0.0

agent.sources.r1.port=44444

agent.sources.r1.selector.type = replicating

#Configure s1

agent.sinks.s1.type=hdfs

agent.sinks.s1.hdfs.path=hdfs://ns1/flume/tmp2/%m%d%H

agent.sinks.s1.hdfs.fileType=DataStream

agent.sinks.s1.hdfs.useLocalTimeStamp=true

agent.sinks.s1.hdfs.writeFormat=TEXT

#agent.sinks.s1.hdfs.round=true

agent.sinks.s1.hdfs.rollInterval=1200

agent.sinks.s1.hdfs.rollSize=50000000

agent.sinks.s1.hdfs.rollCount=1000000

agent.sinks.s1.hdfs.batchSize=1000

#agent.sinks.s1.hdfs.roundUnit=minute

#agent.sinks.s1.hdfs.roundValue=1

agent.sinks.s1.channel=c1

#Configure c1

agent.channels.c1.type=file

agent.channels.c1.checkpointDir=/hadoop/flume/checkpointdir

agent.channels.c1.dataDirs=/hadoop/flume/datadirs

agent.channels.c1.transactionCapacity=10000

agent.channels.c1.checkpointInterval=30000

####

agent.channels.c2.type=file

agent.channels.c2.checkpointDir=/hadoop/flume/kafka/check

agent.channels.c2.dataDirs=/hadoop/flume/kafka/data

agent.channels.c2.transactionCapacity=10000

agent.channels.c2.checkpointInterval=30000

agent.sinks.s2.type = org.apache.flume.plugins.KafkaSink

agent.sinks.s2.metadata.broker.list=127.0.0.1:9092

agent.sinks.s2.partition.key=0

agent.sinks.s2.partitioner.class=org.apache.flume.plugins.SinglePartition

agent.sinks.s2.serializer.class=kafka.serializer.StringEncoder

agent.sinks.s2.request.required.acks=0

agent.sinks.s2.max.message.size=1000000

agent.sinks.s2.producer.type=sync

agent.sinks.s2.custom.encoding=UTF-8

agent.sinks.s2.custom.topic.name=kafka

agent.sinks.s2.channel=c2

Kafka参考配置：

broker.id=2

port=9092

advertised.host.name=hadoop20

num.network.threads=2

num.io.threads=8

socket.send.buffer.bytes=1048576

socket.receive.buffer.bytes=1048576

socket.request.max.bytes=104857600

log.dirs=/hadoop/kafka/logs

num.partitions=2

log.retention.hours=168

log.segment.bytes=536870912

Log.retention.check.interval.ms=60000

Log.cleaner.enable=false

zookeeper.connect=hadoop19:2181,hadoop20:2181,hadoop21:2181

zookeeper.connect.timeout.ms=1000000

Storm参考配置：

storm.zookeeper.servers:

- "hadoop21"

- "hadoop20"

- "hadoop19"

nimbus.host: "hadoop22"

storm.local.dir: "/hadoop/storm/data"

ui.port: 8080

你可能感兴趣的:(大数据集群部署与运维,大数据运维)

Apache Pulsar 为滴滴大数据运维带来了哪些收益？滴滴技术 apache 大数据运维
ApachePulsar是Apache软件基金会顶级项目，是下一代云原生分布式消息流平台，集消息、存储、轻量化函数式计算为一体。该系统源于Yahoo，最初在Yahoo内部开发和部署，支持Yahoo应用服务平台140万个主题，日处理超过1000亿条消息。Pulsar于2017年由Yahoo开源并捐赠给Apache软件基金会进行孵化，2018年成为Apache软件基金会顶级项目。滴滴大数据于2021年
大数据运维到底是什么又需要做些什么科技资讯快报
疫情期间，大数据的广泛应用发挥了巨大的作用，作为新兴的IT领域技术，大数据行业受到越来越多的人关注，于是想要入行的、转行的纷纷选择大数据学习，那么大数据运维到底是什么？又需要做些什么?直白的解释大数据运维，就是有一些数据需要进行维护,运维的意思在这里就是维护。作为一名合格的大数据运维，需要承担的责任繁琐而严谨，今天就来了解其中的一部分，首先大数据运维需要承担团队的日常管理，组织制定中心基础设施的保
作为刚入职的小白，怎么才能学好大数据？铁拳虎大数据学习大数据开发大数据入门数据分析 Hadoop Kafka 大数据大数据技术人工智能 spark Linux 大数据大数据学习大数据开发
大数据学习方向一、大数据运维之Linux基础打好Linux基础，以便更好地学习Hadoop，hbase,NoSQL，Spark，Storm，docker,openstack等。因为企业中的项目基本上都是使用Linux环境下搭建或部署的。1）Linux系统概述2）系统安装及相关配置3）Linux网络基础4）OpenSSH实现网络安全连接5）vi文本编辑器6）用户和用户组管理7）磁盘管理8）Linux
工作十年总结的六条面试技巧，助力你拿到理想的offer KubeData 个人成长面试职场和发展大数据
大数据开发的领域不同，面试的锚定点也不同，从我过往的经验来说，可以大致来将大数据领域的开发分为如下几种：离线开发：数据仓库、离线计算、ETL开发实时开发：流计算开发基础架构：组件二次开发，底层组件稳定性维护大数据运维方向数据平台开发一：技术面试共性首先讲几点，在技术面试中几个共性问题，这些问题无论是从事哪个领域的开发，都必须要掌握的基本能力。1.具备一定的逻辑表达能力为什么一定要强调逻辑表达能力？
Start learning python... 要树立远大的理想
最近转岗到了大数据运维，据我所知，运维需要了解的知识就包含python，之前没有任何编程经验，所以只能自己收集材料来学习了有志者，事竟成
【网络】网络层ICMP协议阿龙先生啊网络知识网络网络层 ICMP协议 ping请求重定向终点不可达 ICMP差错
个人主页——开着拖拉机回家_Linux,大数据运维-CSDN博客✨感谢点赞和关注，每天进步一点点！加油！目录一、ICMP协议简介二、ICMP报文2.1ICMP的主要功能2.2报文类型2.2差错报文2.2.1终点不可达2.2.2改变路由（重定向）2.2.3超时2.2.4参数问题2.3查询/信息类报文2.3.1回显请求/应答(ping)2.3.2时间戳请求和应答2.4ICMP报文应用——ping请求测
大数据开发个人简历范本（2024最新版-附模板） itLeeyw 简历怎么写大数据简历简历工具个人简历简历模板
大数据开发工程师个人简历范本>男22本科张三计算机科学与技术1234567890个人概述具备深入的Hadoop大数据运维工程师背景，熟悉相关技术和工具具备良好的团队合作能力，善于沟通和协作具有快速学习新知识和解决问题的能力对于数据科学和分析充满热情，喜欢研究和探索新技术专业技能大数据熟悉Hadoop、Spark、Hive等大数据技术栈，具有实际项目经验数据库熟悉MySQL、MongoDB等数据库系
大数据学习方向乐姐大数据大数据大数据学习大数据开发大数据入门人工智能
一、大数据运维之Linux基础打好Linux基础，以便更好地学习Hadoop，hbase,NoSQL，Spark，Storm，docker,openstack等。因为企业中的项目基本上都是使用Linux环境下搭建或部署的。1）Linux系统概述2）系统安装及相关配置3）Linux网络基础4）OpenSSH实现网络安全连接5）vi文本编辑器6）用户和用户组管理7）磁盘管理8）Linux文件和目录管理
【网络】网络层IP地址和IP数据报的格式阿龙先生啊网络知识网络 tcp/ip 网络协议 IP数据报 IP地址
个人主页——开着拖拉机回家_Linux,大数据运维-CSDN博客✨感谢点赞和关注，每天进步一点点！加油！目录一、IP概述1.1IP简介1.2IP协议1.3IP地址1.4IP地址特点1.5IP地址表二、IP地址及其表示方法三、IP数据报的格式一、IP概述1.1IP简介IP地址（InternetProtocolAddress）是指互联网协议地址，又译为网际协议地址。IP地址是IP协议提供的一种统一的地
用python抓取yarn和jstorm界面资源信息在grafana展示运维仙人大数据 Python python grafana 开发语言
背景：大数据系统分布式计算和存储强大功能推动了科技的进步，而在大数据运维过程中计算资源是时刻要关注的指标。为了能够快速了解集群资源使用率，写了个python脚本将数据入到MySQL，再通过grafana在界面进行展示，当然可以把数据落到时序数据库：tdengine或opntsdb上。本文只用于交流和学习。#！/usr/bin/envpython3#-*-coding:UTF-8-*-#抓取yarn
【powershell】Windows环境powershell 运维之历史文件压缩清理阿龙先生啊运维之美运维 powershell ps ps脚本 Window运维 windows文件压缩 windows自动化
个人主页——开着拖拉机回家_Linux,大数据运维-CSDN博客✨感谢点赞和关注，每天进步一点点！加油！目录一、PowerShell概述1.1WindowsPowerShell简介1.2PowerShell是什么1.3windows执行策略更改二、PowerShell使用2.1文件复制2.2文件压缩清理一、PowerShell概述1.1WindowsPowerShell简介WindowsPower
【DataSophon】大数据服务组件之Flink升级阿龙先生啊大数据运维 hadoop flink 大数据平台大数据底座大数据运维组件升级 DataSophon
个人主页——开着拖拉机回家_Linux,大数据运维-CSDN博客✨感谢点赞和关注，每天进步一点点！加油！目录一、DataSophon是什么1.1DataSophon概述1.2架构概览1.3设计思想二、解压新旧组件安装包三、修改安装包中文件和目录四、重新生成安装包3.1重新打包3.2生成加密码3.3生成md5加密文件五、删除已装的组件包flink(ALL)六、修改service_ddl.json七、
【Ambari】Python调用Rest API 获取YARN HA状态信息并发送钉钉告警阿龙先生啊 #【====Ambari ====】ambari 钉钉 restAPI python 钉钉告警 HDP YARN HA
个人主页——开着拖拉机回家_Linux,大数据运维-CSDN博客✨感谢点赞和关注，每天进步一点点！加油！目录一、概述二、集群版本信息三、组件状态信息获取三、告警实现一、概述Ambari借鉴了很多成熟分布式软件的API设计。RestAPI就是一个很好地体现。通过Ambari的RestAPI，可以在脚本中通过curl维护整个集群。并且，我们可以用RestAPI实现一些无法在AmbariGUI上面做的操
零基础学习大数据的方向和路线 weixin_44386638 大数据大数据大数据学习大数据开发大数据入门
大数据本质是：数据挖掘深度和应用广度的结合。对海量数据进行有效的分析和处理，而不单单是数据量大就叫大数据。随着人们对大数据的认识越来越深入，很多零基础人员看到了大数据的未来，也想学习这个前沿技术，踏入时代的领军行业。但是一直没有一个很好的思路和方向，本文将详细的讲解零基础如何学习大数据。大数据三大学习方向：大数据开发师、大数据架构师、大数据运维师互联网科技发展蓬勃兴起，人工智能时代来临，抓住下一个
【Ambari】HDFS基于Ambari的常规运维阿龙先生啊 #【====Ambari ====】ambari hdfs 运维服务重启添加配置 core-site.xml
个人主页——开着拖拉机回家_大数据运维-CSDN博客✨感谢点赞和关注，每天进步一点点！加油！目录一、简介1.1Ambari介绍1.2关于本手册二、综合运维2.1Ambari一览2.1.1命令行操作2.1.2登入和登出2.1.3.管理界面首页三、服务的管理和运维3.1HDFS运维3.1启动/停止/删除HDFS服务3.1.1HDFS服务的配置3.1.2HDFS服务监控一、简介1.1Ambari介绍Ap
【Ambari】HDP单机自动化安装（基础环境和MySQL脚本一键安装）阿龙先生啊 #【====Ambari ====】ambari 自动化 mysql 一键安装基础环境配置
个人主页——开着拖拉机回家_Linux,大数据运维-CSDN博客✨感谢点赞和关注，每天进步一点点！加油！目录一、版本信息1.1大数据组件版本1.2ApacheComponents1.3Databases支持版本二、安装包上传三、服务器基础环境配置3.1配置修改3.2服务器环境配置3.3MySQL数据库安装四、安装Ambari-server4.1安装ambari-server4.2检查REPO源五、
大数据开发之运维面试题汇总分享 at小白在线中大数据运维 big data 大数据
Q1：集群线上扩容如何达到自动化？线上扩容，规模正常都是以10+以上，如果都以课堂所示，人肉操作，时间投入与产出比不匹配，人力造成很大的不必要浪费，想学习老师线上集群实际扩容的方案。A:课堂所示兼顾了小白同学，所以是手把手纯人肉搭建，产线环境扩容数量少则几十多则上百，人肉肯定不行，我们公司的运维分为IAAS运维、大数据运维、应用运维，大数据运维工程师在扩容集群时，需要向IAAS运维工程师以工单的方
【Hadoop】MapReduce详解阿龙先生啊 #【====HDFS&YARN ====】hadoop mapreduce MapTask ReduceTask WordCount Shuffle过程 MapReduce运行机制
个人主页——开着拖拉机回家_大数据运维-CSDN博客✨感谢点赞和关注，每天进步一点点！加油！目录一、MapReduce概述1.1MapReduce介绍1.2MapReduce定义1.3MapReduce优缺点1.2.1.优点1.2.2.缺点1.4MapReduce框架结构二、WordCount案例三、MapReduce的运行机制详解3.1MapTask工作机制3.2ReduceTask工作机制3.
阿里巴巴大数据运维平台实践 weixin_33697898 运维大数据
作者介绍：矮鱼，2012年开始从事互联网，现负责阿里大数据计算服务保障和平台研发，在运维领域内有丰富经验积累。秉承"Serviceunavailable?Ourproblem,whateverthereason"的理念，致力于保证线上稳定性和推进团队平台产品的迭代演进。MaxCompute是阿里巴巴内部唯一的大数据处理平台，且在全球十几个地区提供公有云服务，并为上百家专有云输出计算能力。作为支撑如
python大数据运维工程师_【大数据科普系列之二】大数据运维工程师 weixin_39707693 python大数据运维工程师
大数据系列岗位要求，大数据运维可能是“技术含量最高”的职位之一，这里说的大数据运维主要是指hadoop生态体系方面的运维，在一些小公司或者传统行业的大公司也会使用oracle、db2等技术栈，在互联网行业数据量稍微大点的公司基本都是使用hadoop技术栈，像在电信或者银行领域基本上是oracle/db2、hadoop同时使用。该文章默认是指hadoop生态技术体系，这个职位之所以说可能是“技术含量
python大数据运维常用脚本_大数据岗位要求之大数据运维 weixin_39968490 python大数据运维常用脚本
继续介绍大数据系列岗位要求，大数据运维可能是“技术含量最高”的职位之一，这里说的大数据运维主要是指hadoop生态体系方面的运维，在一些小公司或者传统行业的大公司也会使用oracle、db2等技术栈，在互联网行业数据量稍微大点的公司基本都是使用hadoop技术栈，像在电信或者银行领域基本上是oracle/db2、hadoop同时使用。该文章默认是指hadoop生态技术体系，这个职位之所以说可能是“
监控易在大数据运维中的应用与实践 MXsoft618 一体化监控平台运维管理软件大数据运维
在当下的信息化时代，大数据环境的稳定性和高效性成为了企业关注的核心。监控易通过其全面的监控能力和灵活的扩展性，成功应用于多种大数据环境中，实现了对大数据集群的全方位监控和管理。接下来，我们将深入探讨监控易在大数据环境中的应用实践和价值体现。大数据环境的挑战大数据环境由于其数据量大、流动性强的特性，给监控和管理带来了诸多挑战。如何实现对大数据的实时监控、如何保证大数据处理的高效性、如何保障大数据环境
云呐|网络运维监控平台，运维监控平台解决方案云呐智能运维 AIOps 运维管理系统科技
大数据运维平台提供大数据生态智能大数据集群运维服务能力，简化大数据部件安装、维护、监控预警、日志管理等服务，可提高运维人员50%以上的大数据集群管理和维护效率，有效降低运维成本。解决方案包括统一运维门户（运维订单、运维垂直搜索）和多个运维基础平台（步骤平台、配置平台、运营平台、数据平台）、日常运维订单管理、自动发布变更、统一配置管理、统一任务调度、智能监控报警管理、异常检测预测、故障自愈等服务。这
【Hadoop】YARN容量调度器详解开着拖拉机回家 #【====HDFS&YARN ====】hadoop YARN Capacity Scheduler 容量调度 YARN WEB UI YARN 调度配置
个人主页——开着拖拉机回家_Linux,Java基础学习,大数据运维-CSDN博客✨目录一、CapacityScheduler简介二、CapacityScheduler特性三、CapacityScheduler配置四、YARNWEBUI参数详解一、CapacityScheduler简介HadoopYARN的核心组件是ResourceManager，负责集群资源管理与调度，而ResourceMana
【Hadoop】Apache Hadoop YARN 开着拖拉机回家 #【====HDFS&YARN ====】hadoop YARN YARN任务调度 YARN架构 YARN命令 YARN任务提交流程 YARN 资源配置
个人主页——开着拖拉机回家_Linux,Java基础学习,大数据运维-CSDN博客✨感谢点赞和关注，每天进步一点点！加油！目录一、YARN概述二、YARN基础架构2.1ResourceManager（RM）2.1.1Scheduler2.1.2ApplicationManager2.2ApplicationMaster（AM）2.3NodeManager（NM）2.4Container三、YARN
【大数据基础平台】星环TDH社区集群版本部署开着拖拉机回家大数据运维大数据底座大数据平台国产化信创 TDH 大数据解决方案
个人主页——开着拖拉机回家_大数据运维-CSDN博客✨感谢点赞和关注，每天进步一点点！加油!目录一、概述二、环境配置三、安装Manager四、配置集群五、安装服务六、基本配置6.1开启安全6.2安装TDH客户端6.3集群外使用hadoopclient6.3.1使用hadoop/hdfs6.3.2使用hbaseshell6.3.3beeline访问hive一、概述TDH企业级一站式大数据基础平台致力
【大数据基础平台】星环TDH社区开发版单机部署开着拖拉机回家大数据运维大数据 HDP TDH 星环TDH 集群信创
博主"开着拖拉机回家"带您GotoNewWorld.✨个人主页——开着拖拉机回家_大数据运维-CSDN博客✨感谢点赞和关注，每天进步一点点！加油！目录博主"开着拖拉机回家"带您GotoNewWorld.✨一、概述二、安装TDH-CE-DEV2.1环境准备2.2安装TDH社区开发版2.3自助申请许可证三、基本配置3.1开启安全3.2Hyperbase设置3.3安装TDH客户端3.4集群外使用hado
从呆逼到苦逼在到牛逼，详解Linux运维工程师的打怪升级之路烧开的热水壶 Linux
运维工程师是从一个呆逼进化为苦逼再成长为牛逼的过程，前提在于你要能忍能干能拼，还要具有敏锐的嗅觉感知前方潮流变化。如：今年大数据，人工智能比较火……(相对表示就是Python比较火)之前写过运维基础篇，发现对很多人收益挺大，接下来也写下关于这4年多的运维实践经验，从事了2年多游戏运维，1年多安全运维，1年大数据运维，相关行业信息不能算非常精通，但是熟悉和熟练还是相对可以的。初级篇8张Linux知识
运维大数据平台的建设与实践探索 H3C-Navigator 运维大数据
随着企业数字化转型的推进，运维管理面临着前所未有的挑战和机遇。为应对日益复杂且严峻的挑战，数字免疫系统和智能运维等概念应运而生。数字免疫系统和智能运维作为新兴技术，正引领着运维管理的新趋势。数字免疫系统和智能运维都借助大数据运维平台，实现数据驱动的运维策略，实时监控分析系统状态，自动识别异常行为、威胁和攻击，提供智能决策和预防性维护建议，实现自我保护和自我修复等，从根本上提高了系统安全性、稳定性和
什么是大数据运维？大数据运维的职责蘑菇丁大数据
大数据运维是指管理、监控和维护大规模数据存储和处理平台的过程。它包含了对数据存储、处理、传输等方面的管理和维护，同时负责确保数据的安全性、可靠性和高效性。大数据运维的职责包括以下几个方面：确保大数据平台的高可用性和稳定性，包括对硬件、软件和网络设备进行监控和故障排除。进行大数据集群的容量规划和资源管理，保证集群的规模和性能与业务需求相匹配。管理和监控大数据平台的数据备份和恢复，对故障和数据丢失进行
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置