visionsky

hadoop集群搭建

首先确定hdfs分布式文件系统目前很多大公司都在用，例如百度、腾讯、淘宝等。相信网上也有很多关于这方面的文档，我写这篇文章只是为了自己更加深刻的学习和理解，或者帮助一些不会搭建的童鞋们！有问题请加群234086986讨论！以前我搭建的是hadoop-0.20.2、hbase-0.90.4、hbase自带的zookeeper，但是经过与开发测试后，用了hadoop-1.0.3、hbase-0.92.1和独立部署的zookeeper-3.3.5版本替代上述版本。下面开始配置分布式集群。

前期准备工作，大致分为以下几步：

1）安装jdk并检查是否正常。

2）每台几点上实现无密码认证及检查是否正常。

3）安装hadoop并配置，检查是否正常。

本次环境一共用了四台服务器，操作系统均使用RedHat4.8版本、JAVA使用的是版本是jdk1.6.0_14，当然你可以找适合自己的版本，但是务必是1.6以上。

主机名 IP地址用途

hadoop1 192.168.3.65 namenode、jobtracker

hadoop2 192.168.3.66 datanode、tasktracker

hadoop3 192.168.3.67 datanode、tasktracker

hadoop4 192.168.3.64 secondarynamenode、tasktracker、datanode

对于hadoop来说，在hdfs看来节点分为namenode、datanode。namenode只有一个，datanode可以是很多；在mapreduce看来节点分为jobtracker、tasktracker，jobtracker只有一个，tasktracker有多个。我这里是将namenode和jobtracker部署在同一节点上，datanode和tasktracker部署在其它节点上，另外hadoop4上面还部署了secondarynamenode。当然你可以全部部署在一台机器上，但是这样根本无法测试hdfs分布式文件系统的性能。所以根据个人的情况而定。

以本实验为例，四台机器的hosts文件分别如下，（注意把127.0.0.1那一行直接删除掉，避免一些客观因素的影响），写完后四台机器分别使用PING每个节点的主机名测试一下连通性即可！下面红色字体则是输入命令。

一定不要用IP地址代理host，我就是被这个问题浪费了三天时间

[root@hadoop1 ~] # more /etc/hosts

# Do not remove the following line, or various programs

# that require network functionality will fail.

192.168.3.65 hadoop1

192.168.3.66 hadoop2

192.168.3.67 hadoop3

192.168.3.64 hadoop4

1、下面开始安装jdk，上传到/root目录下，我只在一台机器上示范安装，其余的节点也请自行完成安装。

[root@hadoop1 ~] # chmod a+x jdk-6u14-linux-x64.bin

[root@hadoop1 ~] # ./jdk-6u14-linux-x64.bin（一路空格，提示输入yes和no的时候输入yes即可）

将安装目录移动到/usr/java目录下（java目录自行创建）

[root@hadoop1 ~] # mkdir /usr/java

[root@hadoop1 ~] # mv jdk1.6.0_14 /usr/java

配置java的环境变量

[root@hadoop1 ~] # vi .bash_profile

添加如下内容：

export JAVA_HOME=/usr/java/jdk1.6.0_14

export CLASSPATH=$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar

export PATH=$JAVA_HOME/bin:$PATH

让添加的环境变量生效执行如下命令：

[root@hadoop1 ~] # source .bash_profile

验证安装是否成功？如果出来以下信息则说明安装没有任何问题。

[root@hadoop1 ~]# java -version

java version "1.6.0_14"

Java(TM) SE Runtime Environment (build 1.6.0_14-b08)

Java HotSpot(TM) 64-Bit Server VM (build 14.0-b16, mixed mode)

同样在hadoop2、hadoop3、hadoop4上面安装jdk。

2、由于hadoop要求所有机器上hadoop的部署目录结构要求相同，并且都有一个相同的用户名的账户。参考各种文档上说的是三台机器都建立一个hadoop用户，使用这个账户来实现无密码认证。但是我用了这个hadoop这个账户做好信任关系之后还是需要密码登录，后来才知道是authorized_keys这个文件的权限的关系。这里我就用root用户做。个人建议下载hadoop稳定版本，因为后面还需要配置hbase的，如果选择的版本不匹配，那么出现的问题将会让你找不到头绪。这里提醒大家多看官方文档。下载地址：http://labs.renren.com/apache-mirror/hadoop/core/

下载文件后上传到/root目录下并将其解压：（所有的操作均在hadoop1上操作，除去在数据节点上操作的我会特殊说明，为了实验方便就放root用户下，如果是真实环境建议放别的目录下面）

[root@hadoop1 ~] # tar -zxvf hadoop-1.0.3.tar.gz

将解压完后的目录备份一份并且重命名为hadoop即可!（方便以后有问题好恢复）

[root@hadoop1 ~] # cp -r hadoop-1.0.3 hadoop

这样一来，所有的配置文件都在/root/hadoop/conf/目录中，所有执行程序都在/root/hadoop/bin目录中。

在Hadoop启动以后，Namenode是通过SSH(Secure Shell)来启动和停止各个节点上的各种守护进程的，这就需要在节点之间执行指令的时候是不需要输入密码的方式，故我们需要配置SSH使用无密码公钥认证的方式。

首先要保证每台机器上都装了SSH服务器，且都正常启动。实际中我们用的都是OpenSSH，这是SSH协议的一个免费开源实现。

以本文中的4台机器为例，现在hadoop1是主节点，它需要主动发起SSH连接到hadoop2，对于SSH服务来说，hadoop1就是SSH客户端，而hadoop2, hadoop3,hadoop4则是SSH服务端，因此在hadoop2，hadoop3，hadoop4上需要确定sshd服务已经启动。简单的说，在hadoop1上需要生成一个密钥对，即一个私钥，一个公钥。将公钥拷贝到hadoop2上，这样，比如当hadoop1向hadoop2发起ssh连接的时候，hadoop2上就会生成一个随机数并用hadoop1的公钥对这个随机数进行加密，并发送给hadoop1，hadoop1收到这个加密的数以后用私钥进行解密，并将解密后的数发送回hadoop2，hadoop2确认解密的数无误后就允许hadoop1进行连接了。这就完成了一次公钥认证过程。

对于本文中的4台机器，首先在hadoop1上生成密钥对：

[root@hadoop1 ~]# ssh-keygen -t rsa（直接一路回车键即可）

这个命令将为hadoop1上的用户root生成其密钥对。生成的密钥对id_rsa，id_rsa.pub，在/root/.ssh目录下。

然后将id_rsa.pub文件传到其它两台数据节点的/root/.ssh目录下。先在其它两台数据节点上建立隐藏目录.ssh

[root@hadoop2 ~]# mkdir /root/.ssh（在hadoop2上操作）

[root@hadoop3 ~]# mkdir /root/.ssh（在hadoop3上操作）

[root@hadoop4 ~]# mkdir /root/.ssh（在hadoop4上操作）

[root@hadoop1 ~]# scp /root/.ssh/id_rsa.pub 192.168.3.66:/root/.ssh

[root@hadoop1 ~]# scp /root/.ssh/id_rsa.pub 192.168.3.67:/root/.ssh

[root@hadoop1 ~]# scp /root/.ssh/id_rsa.pub 192.168.3.64:/root/.ssh

验证这3台数据节点上分别查看是否拷贝过去了？并且重新命名为authized_keys文件

[root@hadoop2 ~]# mv /root/.ssh/id_rsa.pub /root/.ssh/authorized_keys（在hadoop2上操作）

[root@hadoop3 ~]# mv /root/.ssh/id_rsa.pub /root/.ssh/authorized_keys（在hadoop3上操作）

[root@hadoop4 ~]# mv /root/.ssh/id_rsa.pub /root/.ssh/authorized_keys（在hadoop4上操作）

现在可以验证从hadoop1登录hadoop2、hadoop3、hadoop4上是否还需要输入密码了？如果不需要那么说明则可以了。（如下图）

[root@hadoop1 ~]# ssh hadoop2

Last login: Mon Jun 25 09:38:22 2012 from zengzhunzhun.ninetowns.cn

[root@hadoop1 ~]# ssh hadoop3

Last login: Mon Jun 25 13:52:12 2012 from zengzhunzhun.ninetowns.cn

[root@hadoop1 ~]# ssh hadoop4

Last login: Mon Jun 25 10:41:01 2012 from 172.16.7.65

拷贝hadoop1上的root用户的公钥id_rsa.pub重命名为authorized_keys文件

[root@hadoop1 ~]# cp /root/.ssh/id_rsa.pub /root/.ssh/authorized_keys

验证本机登录是否需要密码？

[root@hadoop1 ~]# ssh hadoop1

Last login: Tue Jun 26 13:38:28 2012 from zengzhunzhun.ninetowns.cn

上述条件我们只测试了hadoop1登录hadoop2、hadoop3、hadoop4和它自己不需要密码，但是hadoop2登录hadoop3、hadoop1、hadoop4还是需要密码的，我们的目的就是让其中任意两台机器都能登录另外不需要输入密码。

把hadoop1上的私钥id_rsa分别上传到hadoop2、hadoop3、hadoop4机器的/root/.ssh/下，不需要重命名。

[root@hadoop1:~]# scp /root/.ssh/id_rsa 192.168.3.66:/root/.ssh

[root@hadoop1:~]# scp /root/.ssh/id_rsa 192.168.3.67:/root/.ssh

[root@hadoop1:~]# scp /root/.ssh/id_rsa 192.168.3.64:/root/.ssh

验证文件是否传过去，如果过去就可以测试了。随便找一台机器登录其它两台，如果可以，那么我们接着往下一步（这里不做任何阐述）

3、在/root/hadoop/conf目录下的hadoop-env.sh中设置Hadoop需要的环境变量，其中JAVA_HOME是必须设定的变量。如下图所示：

export JAVA_HOME=/usr/java/jdk1.6.0_14

修改slaves文件

如前所述，在hadoop1(NameNode)的hadoop/conf目录下，打开slaves文件，该文件用来指定所有的DataNode，一行指定一个主机名。即本文中的hadoop2、hadoop3、hadoop4。因此slaves文件看起来应该是这样的：

hadoop2

hadoop3

hadoop4

修改masters文件

打开masters文件，该文件用来指定备份节点Secondarynamenode，生产上环境部署不会将namenode和Secondarynamenode同时部署在一台服务器上，内容如下：

hadoop4

修改core-site.xml文件

core-site.xml是hadoop核心的配置文件，这里配置的是hdfs的地址和端口

core-site.xml的添加如下内容:

<name>fs.default.name</name>

<value>hdfs://hadoop1:9000</value>

</property>

</configuration>

修改hdfs-site.xml文件

将默认的/root/hadoop/src/hdfs/hdfs-default.xml文件拷贝一份到/root/hadoop/conf目录下并且重命名为hdfs-site.xml，执行如下命令拷贝：

[root@hadoop1:~]# cp /root/hadoop/src/hdfs/hdfs-default.xml /root/hadoop/conf/hdfs-site.xml

修改dfs.name.dir的目录，因为默认是在/tmp目录下，linux系统重启时可能会造成临时目录的文件丢失。

改为

修改dfs.data.dir的目录，原理同上：

改为

还有一处需要注意的是dfs.replication的值，hadoop默认设置为3（文件块备份份数），正好我也有3个数据节点，所有不用修改。

修改mapred-site.xml文件

mapred-site.xml是mapreduce的配置文件，配置的是jobtracker的地址和端口

<name>mapred.job.tracker</name>

<value>hadoop1:9001</value>

</property>

</configuration>

文件基本修改完成了。下面开始部署hadoop了。

现在需要将hadoop部署到其他的机器上，保证目录结构一致。

[root@hadoop1 ~]# scp -r /root/hadoop hadoop2:/root

[root@hadoop1 ~]# scp -r /root/hadoop hadoop3:/root

[root@hadoop1 ~]# scp -r /root/hadoop hadoop4:/root

至此，可以说，Hadoop已经在各个机器上部署完毕了，下面就让我们开始启动Hadoop吧。

启动之前，我们先要格式化namenode，先进入~/hadoop/目录，执行下面的命令：

[root@hadoop1 hadoop]# bin/hadoop namenode -format

不出意外，应该会提示格式化成功。如果不成功，就去hadoop/logs/目录下去查看日志文件。如果之前你格式化过了，再想格式化一次，必须删除/tmp和/data目录下的文件才可以。

下面就该正式启动hadoop啦，在bin/下面有很多启动脚本，可以根据自己的需要来启动。

* start-all.sh 启动所有的Hadoop守护。包括namenode, datanode, jobtracker, tasktrack

* stop-all.sh 停止所有的Hadoop

* start-mapred.sh 启动Map/Reduce守护。包括Jobtracker和Tasktrack

* stop-mapred.sh 停止Map/Reduce守护

* start-dfs.sh 启动Hadoop DFS守护.Namenode和Datanode

* stop-dfs.sh 停止DFS守护

在这里，简单启动所有守护：

[root@hadoop1 hadoop]# bin/start-all.sh

启动的时候hadoop1上会有2个java进程，用jps命令查看进程，分别是NameNode，JobTracker。

hadoop2和hadoop3上面应该是datanode、tasktracker进程。而hadoop4上面是datanode、tasktracker、secondarynamenode三个进程。

查看集群的状态

[root@hadoop1 ~]# hadoop/bin/hadoop dfsadmin -report

Warning: $HADOOP_HOME is deprecated.

Configured Capacity: 3242369060864 (2.95 TB)

Present Capacity: 2914902978560 (2.65 TB)

DFS Remaining: 2890176589824 (2.63 TB)

DFS Used: 24726388736 (23.03 GB)

DFS Used%: 0.85%

Under replicated blocks: 4

Blocks with corrupt replicas: 0

Missing blocks: 0

-------------------------------------------------

Datanodes available: 3 (3 total, 0 dead)

Name: 192.168.3.64:50010

Decommission Status : Normal

Configured Capacity: 1960094191616 (1.78 TB)

DFS Used: 8242106368 (7.68 GB)

Non DFS Used: 156155813888 (145.43 GB)

DFS Remaining: 1795696271360(1.63 TB)

DFS Used%: 0.42%

DFS Remaining%: 91.61%

Last contact: Tue Jun 26 15:21:44 CST 2012

Name: 192.168.3.67:50010

Decommission Status : Normal

Configured Capacity: 713072295936 (664.1 GB)

DFS Used: 8242180096 (7.68 GB)

Non DFS Used: 53200564224 (49.55 GB)

DFS Remaining: 651629551616(606.88 GB)

DFS Used%: 1.16%

DFS Remaining%: 91.38%

Last contact: Tue Jun 26 15:21:44 CST 2012

Name: 192.168.3.66:50010

Decommission Status : Normal

Configured Capacity: 569202573312 (530.11 GB)

DFS Used: 8242102272 (7.68 GB)

Non DFS Used: 118109704192 (110 GB)

DFS Remaining: 442850766848(412.44 GB)

DFS Used%: 1.45%

DFS Remaining%: 77.8%

Last contact: Tue Jun 26 15:21:44 CST 2012

还可以查看http://192.168.3.65:50030或者http://192.168.3.65:50070通过网页查看集群的状态。这里就不说了！

同样，如果要停止hadoop，则执行如下命令：

[root@hadoop1 hadoop]# bin/stop-all.sh

还有一些hdfs文件系统使用的方法我就不多介绍了。网上很多文档，大家去google吧！

转载自：http://blog.chinaunix.net/uid-23916356-id-3254578.html

K8S学习之基础四十三：k8s中部署elasticsearch 云上艺旅 K8S学习 kubernetes 学习 elasticsearch 云原生
在Kubernetes(k8s)中部署Elasticsearch通常涉及创建一些Kubernetes资源，如StatefulSet、Service、ConfigMap和PersistentVolume。以下是一个简单的步骤指南，帮助你在Kubernetes集群中部署Elasticsearch。1.创建命名空间首先，你可以为Elasticsearch创建一个单独的命名空间。yaml复制apiVers
K8S-集群添加worker节点脚本卡亦克 kubernetes 容器云原生
挂载磁盘可能已经有/export了那就先停止docker:1、systemctlrestartdocker2、systemctlstopdockersystemctlstatusdocker4、执行下面的查看磁盘使用情况#df-hFilesystemSizeUsedAvailUse%Mountedon/dev/vdb2.0T81M1.9T1%/export如果磁盘没挂载，需要挂载/exportDI
k8s集群添加一个新GPU节点 thinkerCoder kubernetes 容器云原生 gpu算力
前提现在是已经搭建好一个GPU集群，需要添加一个新的节点（3090卡），用来分担工作，大致可以分为以下几个部分：1，安装GPU驱动2，安装docker3，安装cri-dockerd4，离线安装Nvidia-container-toolkit5，二进制安装k8s组件以及密钥下面分别介绍。1，安装GPU驱动详情可见：https://blog.csdn.net/m0_62464865/article/d
Node.js 性能优化：从异步 I/O 到多进程集群，提升应用响应速度与并发能力全栈探索者chen node node.js 性能优化开发语言程序人生前端 javascript I/O
Node.js性能优化：从异步I/O到多进程集群，提升应用响应速度与并发能力目录前言Node.js性能瓶颈解析2.1.事件循环与异步I/O2.2.CPU密集型与I/O密集型任务2.3.Node.js单线程架构的局限性常见的性能优化策略3.1.优化I/O操作3.2.优化CPU密集型任务3.3.集群模式与负载均衡3.4.缓存机制与数据库优化3.5.异步操作优化与并行执行工具与技术支持4.1.性能分析工
docker-compose实战手册定格我的天空 Docker容器 docker 容器微服务
docker-composedocker-compose简介Docker-Compose项目是Docker官方的开源项目，负责实现对Docker容器集群的快速编排Docker-Compose项目由Python编写，调用Docker服务提供的API来对容器进行管理。因此，只要所操作的平台支持DockerAPI，就可以在其上利用Compose来进行编排管理Docker-Compose用来实现Docke
linux使用docker + docker compose 本地搭建redis cluster集群 BanFS Linux redis docker redis linux
背景项目用到一个redis库，对于里面的集群相关功能要自己测试（就像《代码简洁之道》中说的，使用第三方库需要自己有测试用例，这样即使第三方库更新了，直接用原来的测试用例，也知道是否能兼容）。所以需要自己本地搭建redis集群测试。搭建是使用docker搭建的，一下需要启动很多个container，所以使用docker-compose作为容器编排我的环境已经有了，没有的自己下载直接上redis-cl
云原生CI/CD | Argo CD 详细介绍（一）元气满满的热码式云原生 ci/cd 运维 kubernetes 容器
什么是ArgoCD?ArgoCD是以KubernetesController的形式来实现的，它会对运行在Kubernetes集群上的应用程序进行监听，并将实际运行状态和期望状态（在部署清单文件中指定，且存储在版本控制系统中）进行对比，当两者状态不一致的时候，则提示OutOfSync，此时可以通过自动或者手动的方式来完成同步操作，以让两者状态再次保持一致。存储在Git仓库中的任何变更都会被自动同步至
istio 介绍-01-一个用于连接、管理和保护微服务的开放平台概览老马啸西风 sofa istio 微服务云原生
istioistio一个用于连接、管理和保护微服务的开放平台。介绍Istio是一个开放平台，用于提供统一的方式来集成微服务、管理跨微服务的流量、执行策略和聚合遥测数据。Istio的控制平面在底层集群管理平台（例如Kubernetes）上提供了一个抽象层。Istio由以下组件组成：Envoy-每个微服务的Sidecar代理，用于处理集群中服务之间以及从服务到外部服务的入口/出口流量。这些代理形成了一
Tomcat相关的面试题努力的搬砖人. java 后端面试 tomcat 经验分享
以下是150道Tomcat相关的面试题，涵盖了Tomcat的基础概念、配置管理、部署运行、性能调优、安全机制、日志管理、集群与负载均衡、与其他技术的结合等方面，希望对你有所帮助。Tomcat基础概念1.什么是Tomcat？它的主要功能和特点是什么？Tomcat是Apache软件基金会开发的一款开源的Servlet容器，它实现了JavaServlet和JavaServerPages(JSP)技术规范
基于Redis geo地理位置的导航APP实时避堵系统实现方案 xiyubaby.17 缓存 redis
导航APP实时避堵系统完整实现方案一、系统架构图+-------------------++-------------------++-----------------+|移动客户端||业务服务层||数据基础设施||-定位服务|-->|-路线规划引擎|-->|-RedisGEO集群||-导航界面||-实时避堵决策||-交通事件数据库||-用户交互||-路线动态调整||-历史路况存储|+------
【负载均衡系列】HAProxy yunqi1215 Basic 负载均衡运维
HAProxy（HighAvailabilityProxy）是一款高性能的TCP/HTTP负载均衡器，专注于提供高可用性、灵活性和可靠性。以下是关于HAProxy的详细解析，涵盖其工作原理、工作机制、工作模式等核心方面：一、HAProxy工作原理HAProxy的核心职责是将客户端请求高效、可靠地分发到后端服务器集群，同时提供健康检查、故障转移、流量控制等功能。其工作原理可分为以下关键步骤：接收请求
SSH项目负载均衡中的Session一致性解决方案‌ hellotutu ssh 负载均衡运维
SSH项目负载均衡中的Session一致性解决方案‌1.粘性会话（SessionSticky）‌2.Session复制（集群同步）‌3.集中式Session存储‌4.客户端存储（Cookie加密）‌方案选型建议‌注意事项‌1.粘性会话（SessionSticky）‌通过负载均衡器将同一用户的请求固定分发到同一后端服务器，确保Session数据本地存储有效。实现方式‌：Nginx‌：使用ip_has
Cloud 组件负载均衡Ribbon 大番薯_y cloud 组件负载均衡 ribbon spring cloud
ribbon两种负载均衡当系统面临大量的用户访问，负载过高的时候，通常会增加服务器数量来进行横向扩展（集群），多个服务器的负载需要均衡，以免出现服务器负载不均衡，部分服务器负载较大，部分服务器负载较小的情况。通过负载均衡，使得集群中服务器的负载保持在稳定高效的状态，从而提高整个系统的处理能力。软件负载均衡：nginx,lvs硬件负载均衡：F5我们只关注软件负载均衡，第一层可以用DNS，配置多个A记
2024年河南省职业院校技能大赛高职组 “大数据分析与应用” 赛项任务书（四）落寞的魚丶大数据应用开发赛项数据分析数据挖掘高职组 2024年河南职业技能大赛大数据分析与应用
2024年河南省职业院校技能大赛高职组“大数据分析与应用”赛项任务书（四））背景描述：任务一：Hadoop完全分布式安装配置（25分）任务二：离线数据处理（25分）子任务一：数据抽取任务三：数据采集与实时计算（20分）任务一：实时数据采集任务四：数据可视化（10分）子任务一：用柱状图展示各省份消费额的中位数任务五：综合分析（20分）子任务一：Kafka中的数据如何保证不丢失？子任务二：请描述HBa
云原生周刊丨CIO 洞察：Kubernetes 解锁 AI 新纪元云计算
开源项目推荐DRANETDRANET是由谷歌开发的K8s网络驱动程序，利用K8s的动态资源分配（DRA）功能，为高吞吐量和低延迟应用提供高性能网络支持。它旨在优化资源管理，确保K8s集群中的网络资源能够按需高效分配。DRANET采用Apache-2.0开源许可，鼓励社区贡献与扩展，是云原生环境下提升网络性能的创新解决方案。LazyjournalLazyjournal是一个用Go语言编写的终端用户界
K8S-Demo集群实践13：部署集群CoreDNS jasonhe2018 k8s-demo kubernetes
K8S-Demo集群实践13：部署集群CoreDNS一、下载CoreDNS二、修改部署脚本deploy.sh三、部署CoreDNS并测试1、生成coredns.yaml并部署2、查看服务状态3、创建一个busyboxPod4、进入busybox容器测试CoreDNS，执行nslookup四、问题参考附：K8s-Demo集群版本信息附：专栏链接先说本实践案例遇到的问题和答案，k8s集群中遇到Core
【大数据入门核心技术-Hive】（二十一）Hive中double和decimal的区别 forest_long 大数据技术入门到21天通关大数据 hive hadoop elasticsearch 人工智能搜索引擎 embedding
一、集群环境部署1、Hive环境安装部署参考【大数据入门核心技术-Hive】（三）Hive3.1.2非高可用集群搭建【大数据入门核心技术-Hive】（四）Hive3.1.2高可用集群搭建二、HiveDouble和Decimal的区别在Hive中，Double和Decimal是两种不同的数据类型，用于存储和处理浮点数。虽然它们都可以表示小数，但在内部实现和使用方式上有一些重要的区别。本
大数据（2）Hadoop架构深度拆解：HDFS与MapReduce企业级实战与高阶调优一个天蝎座白勺程序猿大数据开发从入门到实战合集大数据 hadoop 架构
目录一、分布式系统的设计哲学演进1.1从Google三驾马车到现代数据湖二、企业级HDFS架构全景图2.1联邦架构的深度实践2.2生产环境容灾设计2.3性能压测方法论三、MapReduce引擎内核解密3.1Shuffle机制全链路优化3.2资源调度革命：从MRv1到YARN3.3企业级编码规范四、千亿级数据分析实战：运营商信令数据挖掘4.1场景描述4.2优化后的MR作业链4.3性能对比数据五、云原
Kubernetes集群中部署SonarQube服务 demonlg0112 DevOps技术分享 kubernetes 容器云原生 jenkins devops 运维开发
以下是在Kubernetes集群中部署SonarQube服务的分步指南，包含持久化存储、数据库配置和高可用性建议：1.前置条件已部署Kubernetes集群（版本≥1.19）安装kubectl和helm工具配置StorageClass（如NFS、Ceph、EBS等）2.部署PostgreSQL数据库创建PersistentVolumeClaim（PVC）#postgres-pvc.yamlapiV
spring+k8s 功能说明 LCY133 spring后端 spring kubernetes java
以下是一个结合Kubernetes（k8s）和SpringBoot的完整实例，涵盖应用开发、容器化、部署到Kubernetes集群的全流程。1.创建SpringBoot应用1.1项目初始化使用SpringInitializr生成一个简单的RESTAPI项目：•依赖项：SpringWeb、Actuator（用于健康检查）•示例代码：@RestControllerpublicclassHelloCon
FlinkCDC实战：将 MySQL 数据同步至 ES java15655057970 面试阿里巴巴 mysql elasticsearch android
??当前需要处理的业务场景:将订单表和相关联的表(比如:商品表、子订单表、物流信息表)组织成宽表,放入到ES中,加速订单数据的查询.同步数据到es.概述1.什么是CDC2.什么是FlinkCDC3.FlinkCDCConnectors和Flink的版本映射实战1.宽表查询1.1创建mysql表1.2启动Flink集群和FlinkSQLCLI1.3在FlinkSQLCLI中使用FlinkDDL创建表
ARM-V9 RME(Realm Management Extension)系统架构之功耗管理安全二次方 ARM V9 RME 领域管理扩展 CCA 功耗管理低功耗机密计算
安全之安全(security²)博客目录导读目录一、系统功耗管理1、功耗状态2、PE功耗管理3、系统和PE集群功耗管理4、系统功耗状态二、RME组件功耗管理本节规定了RME系统的功耗管理规则。功耗管理流程定义了系统及其组件如何在各种电源状态之间进行转换，以及如何执行与此相关的操作，如切断电源域和管理上下文。本章节描述的RME电源管理要求包括以下内容：防止通过电源管理操作（例如，由于上下文丢失）破坏
Elasticsearch快速上手与深度进阶：一站式实战教程 LCG元前端 elasticsearch 大数据搜索引擎
目录1.Elasticsearch简介2.安装与启动方式1：Docker快速安装（推荐）方式2：手动安装3.基础操作3.1创建索引3.2插入文档3.3查询文档3.4更新文档3.5删除文档4.高级查询4.1布尔查询4.2范围查询4.3通配符查询5.聚合分析5.1统计年龄分布5.2计算平均值6.自定义分析器6.1创建分词器6.2应用分析器到索引7.集群管理7.1启用集群发现7.2添加节点8.安全配置（
《CKA/CKAD应试指南/从docker到kubernetes 完全攻略》学习笔记第3章部署kubernets集群 Aphelios· docker kubernetes 学习
目录3.1了解kubernetes3.2安装kubernetes3.2.1实验拓扑图及环境及准备设置3.2.3安装master3.2.4配置work加入集群3.2.5安装calico网络3.3安装后的设置3.3.1删除节点及重新加入3.3.2常见一些命令3.4设置metric-server监控pod及节点的负载3.5命名空间namespace3.6管理命名空间3.7安装一套v1.20.1版本的集群
Kubernetes(K8S)学习笔记（2）：Kubernetes架构徐卷分布式与并行计算 kubernetes 学习笔记云计算
注：该笔记整理自Kubernetes官方文档中的内容，笔记中使用的观点与资源均来源于官方文档以及我个人的理解，如果涵盖其它来源的观点，会额外标明引用。1、相关概念Kubernetes集群由一个控制平面与一组用于运行容器化应用的工作机器组成，我们把这些工作机器称之为节点（Node）。工作节点托管着组成工作负载的Pod，控制平面负责管理工作节点以及Pod，以下为Kubernetes集群组件的逻辑关系图
YashanDB yasrman恢复数据库
本文内容来自YashanDB官网，原文内容请见https://doc.yashandb.com/yashandb/23.3/zh/%E6%95%B0%E6%8D%AE%...操作说明执行恢复操作的数据库版本需与生成备份集的数据库版本完全一致。恢复语法详细说明请参考工具手册yasrman。分布式部署模式下，需要保证待恢复的集群部署状态与备份前节点部署状态一致，包括节点类型、节点监听IP、节点个数、节
hadoop-HDFS操作 wenying_44323744 hadoop hdfs eclipse
1.使用的是hadoop的用户登录到系统，那么cd~是跳转到/home/hadoop下。2.在操作hdfs时，需要在hadoop用户下的/usr/local/hadoop，此时是在根目录下。cd/usr/local/hadoop或者cd/cdusr/local/hadoop3.回到Linux的操作目录我们把安装包放在了linux系统下的Downloads文件下，可以sudotar-zxf~/Dow
Hadoop安装 Cindy_0124 hadoop 大数据分布式
Hadoop的安装方式有三种，分别是单机模式，伪分布式模式，分布式模式。单机模式：单机模式：Hadoop默认模式为非分布式模式（本地模式），无需进行其他配置即可运行。非分布式即单Java进程，方便进行调试。伪分布式模式：Hadoop可以在单节点上以伪分布式的方式运行，Hadoop进程以分离的Java进程来运行，节点既作为NameNode也作为DataNode，同时，读取的是HDFS中的文件。分布式
k8s故障排查一 zuo84526076
问题一：报错cannotallocatememory或者nospaceleftondevice，修复K8S内存泄露问题问题描述一.当k8s集群运行日久以后，有的node无法再新建pod，并且出现如下错误，当重启服务器之后，才可以恢复正常使用。查看pod状态的时候会出现以下报错。applyingcgroup…caused:mkdir…nospaceleftondevice或者在describepod
RocketMQ新消费者加入后的队列一致性保障机制详解慢德分布式设计 rocketmq
RocketMQ新消费者加入后的队列一致性保障机制详解RocketMQ作为一个高性能的分布式消息中间件，其消费者负载均衡机制是保障系统可扩展性和稳定性的关键。当新消费者加入消费组时，如何保证各个消费者之间的队列分配一致性是一个核心问题。下面将深入解析其详细原理和运作机制。消费模式与队列分配基础首先需要明确的是，在RocketMQ中，队列一致性问题主要出现在集群消费模式下。在这种模式中，一条消息只会
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，Django@Python2.x 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

hadoop集群搭建

你可能感兴趣的:(hadoop,集群)