黄丕理

[零基础]用docker搭建Hadoop集群

前言：为什么要用docker搭建Hadoop集群？

准备：下载VMware、VMwareTools（或Xftp、Xshell）、Ubuntu或者CentOS映像文件、Hadoop和jdk压缩包

一、创建虚拟机

（1）点击新建虚拟机

（2）下一步

（3）下一步

（4）选择映像文件

（5）自定义信息

（6）自定义信息，位置最好放在非C盘

（7）设置处理器内核总数

（8）后面五步都选下一步即可。

（9）设置磁盘大小

（10）点击下一步，再点击完成

（11）自动加载默认配置

二、安装docker并生成相关的镜像

（1）安装docker

（2）拉取CentOS镜像（Ubuntu镜像也行）

（3）通过build Dockfile生成带ssh功能的centos镜像

1、MAINTAINER hadoop

2、root:a123456

（4）将下载的文件上传虚拟机

1、在主机下载ssh，在终端输入：

2、查看ip地址，在终端输入：

3、用Xshell和Xftp连接虚拟机主机

4、解压文件（把目录和文件名改成你自己的）

（5）生成带有ssh、hadoop和jdk环境的CentOS镜像

三、创建网桥，并启动docker容器

（1）创建网桥，在终端输入：

（2）查看网桥，在终端输入：

（3）启动三个容器并指定网桥

四、登录容器，配置ip地址映射和ssh免密登录

(1)登录容器（Hadoop服务器）

（2）在每个hadoop服务器中配置ip地址映射

(3)在每台hadoop服务器中配置ssh免密登录

（4）测试是否成功配置ssh免密登录，ssh + hadoop服务器名：

五、修改Hadoop配置文件

（1）创建文件夹，配置时要用

（2）编辑hadoop_env.sh，修改下面三个参数，按照你自己的改

（3）编辑core-site.xml

(4)编辑mapred-site.xml

（5）编辑hdfs-site.xml

（6）编辑yarn-site.xml

（7）编辑workers,把原先的默认值localhost删除

（8）配置环境变量，在终端输入：

（9）把文件拷贝到hadoop2和hadoop3上

（10）给文件赋权

六、启动Hadoop集群

（1）在hadoop1上执行以下命令：

1、格式化hdfs

2、一键启动Hadoop集群

（2）测试Hadoop集群

（3）磁盘空间占用

前言：为什么要用docker搭建Hadoop集群？

1、磁盘空间的占用

docker搭建的集群占用电脑磁盘空间较小，对电脑的硬件要求也不高，搭建一个Hadoop集群（一主两从）只需要17GB左右的磁盘空间，而常规的开启多台虚拟机搭建的方法，可能搭建一台Hadoop服务器就需要将近20GB的磁盘空间。

2、稳定性

docker搭建的Hadoop集群不容易宕机，用常规的方法搭建的话，可能会有一台或者多台虚拟机宕机，稳定性较差。

准备：下载VMware、VMwareTools（或Xftp、Xshell）、Ubuntu或者CentOS映像文件、Hadoop和jdk压缩包

给大家准备了Ubuntu映像文件、Hadoop和jdk压缩包，点击链接下载即可。没有Xftp和Xshell的同学可以用VMwareTools替代，只要把压缩包添加到虚拟机主机上即可。

链接：Ubuntu、jdk、Hadoop
提取码：2v56

一、创建虚拟机

用VMware创建一台新的虚拟机(CentOS或Ubuntu都可以）

（1）点击新建虚拟机

（2）下一步

（3）下一步

（4）选择映像文件

选择自己的映像文件（CentOS或者Ubuntu都可以），后面第11步开启虚拟机时可能要加载20分钟左右，不想等待加载的话，可以选择稍后安装操作系统，自定义安装可以快一点，不过很多东西得自己配置和下载，后续使用可能麻烦一点。

（5）自定义信息

（6）自定义信息，位置最好放在非C盘

（7）设置处理器内核总数

处理器数量 x 每个处理器的内核数量 = 处理器内核总数，依据自己电脑的配置设定，在任务管理器的性能页面中可以查看自己电脑的处理器数量，我的是8个，直接设置最大值，防止后续使用虚拟机时卡顿。

（8）后面五步都选下一步即可。

（9）设置磁盘大小

设置磁盘大小为50GB，只搭建Hadoop集群的话20GB就足够了，但后面还需要搭建其他集群所以设置磁盘大小为50GB，可以根据自己的需求设定。将虚拟磁盘拆分成多个文件。

（10）点击下一步，再点击完成

（11）自动加载默认配置

这个过程可能需要二十分钟左右。如果不想等待加载，可以在第4步选择自己的映像文件那里选择稍后安装操作系统，不过很多东西得自己配置和下载，后续使用可能麻烦一点。成功开启虚拟机页面如下所示：

二、安装docker并生成相关的镜像

（1）安装docker

CentOS：在 CentOS | 上安装 Docker 引擎码头工人文档

Ubuntu: 在 Ubuntu | 上安装 Docker 引擎码头工人文档

只要在终端输入：sudo docker run hello-world，后出现如下图的内容就证明安装docker成功了

（2）拉取CentOS镜像（Ubuntu镜像也行）

在终端输入：sudo docker pull centos

在终端输入：sudo docker images，可以看到刚刚拉取的两个镜像

每次执行docker语句都要在前面加sudo，比较麻烦，直接将hadoop用户加入docker用户组，就不用再输入sudo了。

sudo gpasswd -a $USER docker     #将当前用户加入到docker用户组中
newgrp docker     #重新加载docker用户组

一般安装时会自动创建docker用户组，如果docker用户组不存在的话，在终端输入：

sudo groupadd docker #创建docker用户组

注意，此时只有执行上述两条命令行的终端可以不用输入sudo，其他终端仍要输入，得重启虚拟机后所有终端才不用输入sudo。

（3）通过build Dockfile生成带ssh功能的centos镜像

先创建Dockfile文件，在终端输入：

vi Dockerfile

在Dockfile文件中添加以下内容：

FROM centos
MAINTAINER hadoop

RUN cd /etc/yum.repos.d/
RUN sed -i 's/mirrorlist/#mirrorlist/g' /etc/yum.repos.d/CentOS-*
RUN sed -i 's|#baseurl=http://mirror.centos.org|baseurl=http://vault.centos.org|g' /etc/yum.repos.d/CentOS-*
RUN yum makecache
RUN yum update -y
RUN yum install -y openssh-server sudo
RUN sed -i 's/UsePAM yes/UsePAM no/g' /etc/ssh/sshd_config
RUN yum install -y openssh-clients

RUN echo "root:a123456" | chpasswd
RUN echo "root   ALL=(ALL)       ALL" >> /etc/sudoers
RUN ssh-keygen -t dsa -f /etc/ssh/ssh_host_dsa_key
RUN ssh-keygen -t rsa -f /etc/ssh/ssh_host_rsa_key

RUN mkdir /var/run/sshd
EXPOSE 22
CMD ["/usr/sbin/sshd", "-D"]

Dockfile文件的内容解释：基于centos镜像，生成带有spenssh-server、openssh-clients的镜像，用户为root，密码为a123456，镜像维护者（作者）为hadoop。为了防止出现Error: Failed to download metadata for repo 'appstream': Cannot prepare internal mirrorlist: No URLs in mirrorlist
错误，我更改了yum下载依赖的镜像baseurl。注意：如果拉取的镜像是Ubuntu的话，得修改下载spenssh-server、openssh-clients的命令行。

你可能需要修改的地方：

1、MAINTAINER hadoop

MAINTAINER+空格+作者的信息，用于指定镜像作者的信息，我的用户名是hadoop，改成你自己的

2、root:a123456

设置镜像的密码，改成你自己的

建好Dockerfile文件后，生成镜像，在终端输入：

docker build -t="centos7-ssh" .
查看生成的centos7-ssh镜像，在终端输入：

docker images

（4）将下载的文件上传虚拟机

没有Xftp和Xshell的同学可以用VMwareTools替代，只要把压缩包添加到虚拟机主机上即可。安装VMwareTools后，复制本地主机的文件粘贴到虚拟机主机指定目录下。下面演示的是Xftp和Xshell的操作。

1、在主机下载ssh，在终端输入：

sudo apt-get install -y openssh-server
下载完后，查看ssh进程的运行状态，在终端输入：

ps -e|grep ssh

再查看ssh的运行状态，在终端输入：

systemctl status sshd

2、查看ip地址，在终端输入：

ip a

我的ip地址是：192.168.237.131

3、用Xshell和Xftp连接虚拟机主机

Xshell(测试是否能正常连接，其实只需要用Xftp传输文件）：

用户名填hadoop（换成你自己的），root可能会登不上，如果ssh运行状态没问题，还连接不上的话，可能是防火墙没关。

Xftp：

将压缩包上传到/home/hadoop（有Dockerfile的目录），如果上传失败，可能是目录没有传输文件的权限，在终端输入：chmod 777 /home/hadoop/

4、解压文件（把目录和文件名改成你自己的）

在终端输入：

tar -zxvf /home/hadoop/hadoop-3.1.3.tar.gz -C /home/hadoop

tar -zxvf /home/hadoop/jdk-8u212-linux-x64.tar.gz -C /home/hadoop

（5）生成带有ssh、hadoop和jdk环境的CentOS镜像

移除原有的Dockerfile文件，在终端输入：

mv Dockerfile Dockerfile.bak

再重新创建一个Dockerfile文件，在终端输入：

vi Dockerfile

或者直接在Xftp上用记事本编辑原来的Dockerfile文件，更加方便（推荐）

将下面内容填入Dockerfile文件(记得保存)

FROM centos7-ssh

COPY jdk1.8.0_212 /usr/local/jdk
ENV JAVA_HOME /usr/local/jdk
ENV PATH $JAVA_HOME/bin:$PATH

COPY hadoop-3.1.3 /usr/local/hadoop
ENV HADOOP_HOME /usr/local/hadoop
ENV PATH $HADOOP_HOME/bin:$PATH

构建Dockerfile,在终端输入：

docker build -t="hadoop" .

成功生成名字为hadoop的镜像。

三、创建网桥，并启动docker容器

因为集群的服务器之间需要通信，而且每次虚拟机给集群分配的ip地址都不一样，所以需要创建网桥，给每台服务器分配固定的ip映射，这样就可以通过使用服务器名进行通信了，而且ip地址也不会变动。

（1）创建网桥，在终端输入：

docker network create hadoop

（2）查看网桥，在终端输入：

docker network ls

其他三个网桥是安装docker时自带的，hadoop是刚刚创建的。

（3）启动三个容器并指定网桥

依次在终端执行下面三条命令行：

docker run -itd --network hadoop --name hadoop1 -p 50070:50070 -p 8088:8088 hadoop

docker run -itd --network hadoop --name hadoop2 hadoop

docker run -itd --network hadoop --name hadoop3 hadoop

参数解释：

-itd：在后台运行交互式容器

--network：指定网桥

--name：指定生成的容器名

-p：指定端口映射，主机端口号：容器端口号，第一个是hdfs服务，第二个是yarn 服务

末尾的hadoop是运行的镜像名

查看生成的容器，在终端输入：

docker ps -a

查看网桥使用情况，在终端输入：

docker network inspect hadoop

记录每台服务器的ip地址，后面要用，每个人的可能不一样，换成你自己的

172.18.0.2 hadoop1

172.18.0.3 hadoop2

172.18.0.4 hadoop3

四、登录容器，配置ip地址映射和ssh免密登录

(1)登录容器（Hadoop服务器）

开启三个终端，在每个终端分别输入：

docker exec -it hadoop1 bash
docker exec -it hadoop2 bash
docker exec -it hadoop3 bash

（2）在每个hadoop服务器中配置ip地址映射

在每台hadoop服务器的终端输入：

vi /etc/hosts

然后填入刚刚记录的ip地址

每台Hadoop服务器都配置好后，可以互相ping一下（ctrl + c停止ping），看看是否配置成功。hadoop1 ping hadoop2 如下图所示：

(3)在每台hadoop服务器中配置ssh免密登录

在每台hadoop服务器终端输入：

ssh-keygen

然后一直回车即可，再在每台hadoop服务器终端中输入：

ssh-copy-id -i /root/.ssh/id_rsa -p 22 root@hadoop1
填yes后，输入第二（3）步时设置的密码，a123456
ssh-copy-id -i /root/.ssh/id_rsa -p 22 root@hadoop2
填yes后，输入第二（3）步时设置的密码，a123456
ssh-copy-id -i /root/.ssh/id_rsa -p 22 root@hadoop3
填yes后，输入第二（3）步时设置的密码，a123456

（4）测试是否成功配置ssh免密登录，ssh + hadoop服务器名：

ssh hadoop1

ssh hadoop2

ssh hadoop3

五、修改Hadoop配置文件

在hadoop1中，进入Hadoop配置目录，我的是：/usr/local/hadoop/etc/hadoop，查看目录下的文件，不同版本的Hadoop可能文件数量和名字会不同，在终端输入：

（1）创建文件夹，配置时要用

mkdir /home/hadoop
mkdir /home/hadoop/tmp /home/hadoop/hdfs_name /home/hadoop/hdfs_data

（2）编辑hadoop_env.sh，修改下面三个参数，按照你自己的改

（3）编辑core-site.xml


    
        fs.defaultFS
        hdfs://hadoop1:9000
    
    
        hadoop.tmp.dir
        file:/home/hadoop/tmp
    
    
        io.file.buffer.size
        131702

(4)编辑mapred-site.xml


    
        mapreduce.framework.name
        yarn
    
    
        mapreduce.jobhistory.address
        hadoop1:10020
    
    
        mapreduce.jobhistory.webapp.address
        hadoop1:19888

（5）编辑hdfs-site.xml


    
        dfs.namenode.name.dir
        file:/home/hadoop/hdfs_name
    
    
        dfs.datanode.data.dir
        file:/home/hadoop/hdfs_data
    
    
        dfs.replication
        2
    
    
        dfs.namenode.http-address
        hadoop1:9001
    
    
        dfs.namenode.secondary.http-address
        hadoop2:9002
    
    
        dfs.webhdfs.enabled
        true

Hadoop的Web UI界面访问地址：1、namenode：hadoop1:9001（会自动跳转到9000端口，如果直接访问9000端口号可能会访问异常）2、secondarynamenode：hadoop2:9002

（6）编辑yarn-site.xml




 
        yarn.nodemanager.aux-services
        mapreduce_shuffle
    
    
        yarn.nodemanager.auxservices.mapreduce.shuffle.class
        org.apache.hadoop.mapred.ShuffleHandler
    
    
        yarn.resourcemanager.address
        hadoop1:8032
    
    
        yarn.resourcemanager.scheduler.address
        hadoop1:8030
    
    
        yarn.resourcemanager.resource-tracker.address
        hadoop1:8031
    
    
        yarn.resourcemanager.admin.address
        hadoop1:8033
    
    
        yarn.resourcemanager.webapp.address
        hadoop1:8088

（7）编辑workers,把原先的默认值localhost删除

hadoop2
hadoop3

（8）配置环境变量，在终端输入：

vi /etc/profile

在文件尾部添加配置

export JAVA_HOME=/usr/local/jdk
export PATH=$JAVA_HOME/bin:$PATH
export HADOOP_HOME=/usr/local/hadoop
export PATH=$HADOOP_HOME/bin:$PATH
export PATH=$HADOOP_HOME/sbin:$PATH
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

保存退出后，再输入下面的命令行使配置生效：

source /etc/profile

（9）把文件拷贝到hadoop2和hadoop3上

依次执行以下命令：

scp -r $HADOOP_HOME/ hadoop2:/usr/local/
scp -r $HADOOP_HOME/ hadoop3:/usr/local/

scp -r /home/hadoop hadoop2:/
scp -r /home/hadoop hadoop3:/

scp -r /etc/profile hadoop2:/
scp -r /etc/profile hadoop3:/

（10）给文件赋权

在每台hadoop服务器的终端执行下面两条命令行：

chmod -R 777 /usr/local/hadoop

chmod -R 777 /usr/local/jdk

六、启动Hadoop集群

（1）在hadoop1上执行以下命令：

1、格式化hdfs

hdfs namenode -format

2、一键启动Hadoop集群

start-all.sh

（2）测试Hadoop集群

每台服务器都输入：

jps
hadoop1：

hadoop2：

hadoop3：

hadoop1是名称结点，hadoop2是第二名称节点和数据节点，hadoop3是数据节点。网上很多人把名称节点和第二名称节点配置在同一台服务器上，我觉得这样配置是错的，这样配置根本发挥不了第二名称节点的作用：作为名称节点的检查点，定期合并日志和镜像。

（3）磁盘空间占用

现在hadoop集群已经搭建好了，我们看看磁盘空间占用了多少。前面是剩余磁盘空间，后面是总磁盘空间，可以得出只用了17GB左右。

参考：使用docker部署hadoop集群_upupfeng的博客-CSDN博客

感谢浏览！如果搭建过程中出现问题，欢迎评论，一起讨论一起进步！

你可能感兴趣的:(集群搭建,docker,hadoop,大数据)

接口测试中遇到的最大的困难是什么？Java接口测试中用到的框架有哪些？海姐软件测试接口测试测试工具
接口测试中的最大困难环境依赖与数据准备接口测试常依赖外部服务或数据库，测试环境不稳定（如第三方接口延迟）会导致测试结果不可靠。解决方案：使用Mock技术（如Mockito）模拟外部依赖，或通过Docker容器化测试环境，确保数据隔离。参数与逻辑复杂度复杂接口可能涉及多参数组合、加密签名（如Token、OAuth）或动态参数（如时间戳），手工构造请求容易出错。示例：电商接口需同时验证商品库存、用户优
Hive在大数据集群下的部署正在绘制中大数据大数据 hive
hive安装1）把apache-hive-3.1.3-bin.tar.gz上传到Linux的/opt/software目录下2）解压apache-hive-3.1.3-bin.tar.gz到/opt/module/目录下面tar-zxvf/opt/software/apache-hive-3.1.3-bin.tar.gz-C/opt/module/3）修改apache-hive-3.1.3-bin
搭建分布式Hive集群逸曦玥泱大数据运维分布式 hive hadoop
title:搭建分布式Hive集群date:2024-11-2923:39:00categories:-服务器tags:-Hive-大数据搭建分布式Hive集群本次实验环境：Centos7-2009、Hadoop-3.1.4、JDK8、Zookeeper-3.6.3、Mysql-5.7.38、Hive-3.1.2功能规划方案一（本地运行模式）Master主节点（Mysql+Hive）192.168
Hadoop、Spark和 Hive 的详细关系夜行容忍 hadoop spark hive
Hadoop、Spark和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架，用于分布式存储和处理大规模数据集。核心组件：HDFS(HadoopDistributedFileSystem)：分布式文件系统，提供高吞吐量的数据访问。YARN(YetAnotherResourceNegotiator)：集群资源管理和作业调度系统。MapReduce：基于YARN的并行处理框架，用
Windows系统下解压".tar"文件出错，提示：无法创建符号链接，可能需要以管理器身份运行winrar ruangaoyan
1、解压文件出错，如下信息：D:\tools\hadoop-3.1.2.tar.gz:无法创建符号链接D:\tools\hadoop-3.1.2\hadoop-3.1.2\lib\native\libhadoop.so您可能需要以管理器身份运行WinRAR!客户端没有所需的特权。2、解决方式如下：WIN+R快捷的打开命令窗口，输入CMD输入：cd/dD:\tools\hadoop-3.1.2这是我
斐波拉契数列 RichardK. c++学习
题目描述给定正整数n，求斐波那契数列的第n项F(n)。令F(n)表示斐波那契数列的第n项，它的定义是：当n=1时，F(n)=1；当n=2时，F(n)=1；当n>2时，F(n)=F(n−1)+F(n−2)。大数据版：斐波拉契数列-大数据版输入描述一个正整数n（1≤n≤104）。输出描述斐波那契数列的第n项F(n)。由于结果可能很大，因此将结果对10007取模后输出。样例1输入1输出1解释边界定义：F
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系雨中徜徉的思绪漫溢大数据 hadoop hive
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系在大数据领域中，Hadoop、Hive和Spark是三个常用的开源技术，它们在大数据处理和分析方面发挥着重要作用。虽然它们都是为了处理大规模数据集而设计的，但它们在功能和使用方式上存在一些区别。本文将详细介绍Hadoop、Hive和Spark的区别和关系，并提供相应的源代码示例。Hadoop：Hadoop是一个用于分布式存储和处理大规
flink+kafka实现流数据处理学习上海研博数据 java
在应用系统的建设过程中，通常都会遇到需要实时处理数据的场景，处理实时数据的框架有很多，本文将以一个示例来介绍flink+kafka在流数据处理中的应用。1、概念介绍flink：是一个分布式、高可用、高可靠的大数据处理引擎，提供了一种高效、可靠、可扩展的方式来处理和分析实时数据。kafka：是用于构建实时数据管道和流应用程序并具有横向扩展，容错，wickedfast（变态快）等优点的一种消息中间件。
大数据面试之路 (一) 数据倾斜愿与狸花过一生大数据面试职场和发展
记录大数据面试历程数据倾斜大数据岗位，数据倾斜面试必问的一个问题。一、数据倾斜的表现与原因表现某个或某几个Task执行时间过长，其他Task快速完成。Spark/MapReduce作业卡在某个阶段（如reduce阶段），日志显示少数Task处理大量数据。资源利用率不均衡（如CPU、内存集中在某些节点）。常见场景Key分布不均：如某些Key对应的数据量极大（如用户ID为空的记录、热点事件）。数据分区
ZooKeeper学习总结（1）——ZooKeeper入门介绍一杯甜酒 ZooKeeper学习总结 Zookeeper
1.概述Zookeeper是Hadoop的一个子项目，它是分布式系统中的协调系统，可提供的服务主要有：配置服务、名字服务、分布式同步、组服务等。它有如下的一些特点：简单Zookeeper的核心是一个精简的文件系统，它支持一些简单的操作和一些抽象操作，例如，排序和通知。丰富Zookeeper的原语操作是很丰富的，可实现一些协调数据结构和协议。例如，分布式队列、分布式锁和一组同级别节点中的“领导者选举
Zookeeper+kafka学习笔记 CHR_YTU Zookeeper
Zookeeper是Apache的一个java项目，属于Hadoop系统，扮演管理员的角色。配置管理分布式系统都有好多机器，比如我在搭建hadoop的HDFS的时候，需要在一个主机器上（Master节点）配置好HDFS需要的各种配置文件，然后通过scp命令把这些配置文件拷贝到其他节点上，这样各个机器拿到的配置信息是一致的，才能成功运行起来HDFS服务。Zookeeper提供了这样的一种服务：一种集
麒麟arm架构系统_安装nginx-1.27.0_访问500 internal server error nginx解决_13: Permission denied---Linux工作笔记072 添柴程序猿 java nginx-1.27.0 nginx最新版安装麒麟v10 arm架构麒麟v10 安装nginx
[[email protected]]#wget-chttp://nginx.org/download/nginx-1.27.0.tar.gz--2024-07-0509:47:00--http://nginx.org/download/nginx-1.27.0.tar.gzResolvingnginx.org(nginx.org)...3.125.197.172,52.58.19
Zookeeper与Kafka学习笔记上海研博数据 zookeeper kafka 学习
一、Zookeeper核心要点1.核心特性分布式协调服务，用于维护配置/命名/同步等元数据采用层次化数据模型（Znode树结构），每个节点可存储<1MB数据典型应用场景：HadoopNameNode高可用HBase元数据管理Kafka集群选举与状态管理2.设计限制内存型存储，不适合大数据量场景数据变更通过版本号（Version）控制，实现乐观锁机制采用ZAB协议保证数据一致性二、Kafka核心架构
一文理清：阿里系数据中台-数据治理工具集(傻傻也能分清楚） Debug_Snail Hadoop Big Data 技术工具人工智能 hadoop 数据仓库
阿里云提供的大数据与数据分析产品种类较多，各产品的定位和核心功能有所不同。以下是对DataWorks、MaxCompute、Dataphin、AnalyticDBforMySQL（ADB）、QuickBI、EMR的详细梳理。一、核心产品定位与功能DataWorks定位：一站式大数据开发治理平台，提供数据集成、开发、调度、治理、服务等全链路能力。核心功能：数据集成：支持异构数据源（如数据库、OSS、
Docker高级应用-限制容器的cpu和内存云原生的爱好者 docker 容器运维
一、为什么要用docker限制容器的cpu和内存1.资源隔离与公平分配防止资源争用：在多容器环境中，限制CPU和内存可以避免某个容器占用过多资源，影响其他容器的运行。确保公平性：通过限制资源，确保每个容器都能获得所需的计算能力，避免资源被少数容器独占。2.提高系统稳定性防止内存泄漏：限制内存可以避免容器因内存泄漏耗尽主机内存，导致系统崩溃。避免CPU过载：限制CPU使用可以防止容器过度占用CPU，
docker命令实战运用部署服务云原生的爱好者 docker 容器运维
1.接上篇博文，先讲一下如何利用docker来对容器进行一个守护进程的启动，以及如何进入日期，如下：[root@cjr~]#dockerimagesREPOSITORYTAGIMAGEIDCREATEDSIZEcentoslatest5d0da3dc97643yearsago231MB[root@cjr~]#dockerrun-td--nametestcentos:latest1b0cfe7658
使用LangChain访问个人数据第一章-简介明志刘明大模型学习手册 langchain
需要学习提示词工程的同学请看面向开发者的提示词工程需要学习ChatGPT的同学请查看搭建基于ChatGPT的问答系统需要学习LangChian开发的同学请查看基于LangChain开发应用程序正文在大数据时代，数据价值逐渐凸显，打造定制化、个性化服务，个人数据尤为重要。要开发一个具备较强服务能力、能够充分展现个性化智能的应用程序，大模型与个人数据的对齐是一个重要步骤。作为针对大模型开发应运而生的框
docker运行容器命令 redis 指定端口 big maom~~ docker redis eureka 容器运维
我整理的一些关于【Docker】的项目学习资料（附讲解～～）和大家一起分享、学习一下：https://edu.51cto.com/surl=QsXoR2使用Docker运行Redis容器并指定端口的详细指南本文旨在帮助初学者理解如何使用Docker来运行Redis容器，并指定端口。Docker是一个开源平台，允许开发者将应用和其依赖打包成一个标准的单元——容器。通过使用Docker，开发者可以确保
Docker Compose国内镜像一键部署dify llody_55 GPT docker 容器运维 ai AI编程
克隆代码gitclonehttps://github.com/langgenius/dify.git进入docker目录cddocker修改.env部分#将环境模版文件变量重命名cp.env.example.env#修改.env,修改nginx的host和端口,避免端口冲突NGINX_SERVER_NAME=192.168.1.223NGINX_PORT=1880NGINX_SSL_PORT=14
ARM64环境部署EFK8.15.3收集K8S集群容器日志 llody_55 kubernetes 容器云原生运维 es java elasticsearch
环境规划主机IP系统部署方式ES版本CPU架构用户名密码192.168.1.225Ubuntu22.04.4LTSdockerelasticsearch:8.15.3ARM64elasticllodyi4TMmZDES集群部署创建持久化目录(所有节点)mkdir-p/data/es/{data,certs,logs,plugins}mkdir-p/data/es/certs/{ca,es01}服务
如何在 Dockerfile 中使用 if-else 条件表达式？ docker
Docker是容器化应用程序的必要工具，使它们可移植和隔离。Dockerfile是Docker生态系统中的一个关键组件，它允许开发人员指定他们的应用程序应该如何被容器化。通常在Dockerfiles中需要条件逻辑，就像您在编程脚本中发现的那样。但是Dockerfile语法不直接支持if-else条件表达式。在本文中，我们将探讨如何在Dockerfiles中有效地使用条件逻辑，特别是使用外部参数。A
统信uos20：利用docker部署python+jupyterlab开发环境阆遤 docker python jupyter github actions workflow 统信uos20
很多统信uos20计算机没有联网安装python开发环境的条件，但是工作中需要对数据进行分析处理，因而产生了离线部署python开发环境的想法。我首先下载了python3.11的源代码包，在uos中编译居然正常通过。但后续的麻烦来了：需要安装的库没法安装。尝试了一天，最终放弃。改用Docker方式部署，理由就不多解释了。一、在uos中安装docker。我的系统是uos20linux4.19.0-a
架构生命周期（演进史）技术应服务于业务 Limbo1213 java架构生命周期演进史
架构生命周期简介本篇幅主要讲述架构的各阶段出现的需求问题、业务问题、性能问题以及相应的解决方案。1、web1.0时代（1996年左右）2、web2.0时代（2006年左右）3、互联网时代（2012年左右）–》互联网±-》智慧城市。滴滴打车。饿了么（工商局）4、大数据+云计算5、AI未来以来时代…第一时期单一应用架构allinone。所有的模块和代码都在一起。技术也不分层。(2000年左右)网站的初
MySQL-关于如何保存“大数据” 赵师的工作日 mysql 大数据数据库
作者：赵师的工作日（赵明中）现役OracleACE、MySQL8.0ocp、TiDBPCTA\PCTP、ElasticsearchCertifiedEngineer微信号：mzzhao23微信公众号：赵师的工作日墨天轮社区：赵师的工作日CSND：赵师的工作日数据库的种类有很多，各类数据库充分发挥各自的优势从而保证业务稳定运行，mysql轻量级、关键数据，redis缓存、快，ES搜索，Mongodb
Docker部署SVN服务器并使用：从基础到高级 ivwdcwso 运维 SVN 代码管理运维
目录引言Docker部署SVN服务器SVN基础使用SVN高级使用最佳实践和注意事项结语1.引言Subversion(SVN)是一个开源的版本控制系统,广泛用于管理和追踪软件项目的源代码。本文将详细介绍如何使用Docker快速部署SVN服务器,以及SVN的基础和高级使用方法。无论你是SVN新手还是有经验的用户,本文都将为你提供有价值的信息。2.Docker部署SVN服务器2.1安装Docker如果你
PIPCA个人信息保护合规审计师认证介绍！熙丫 13381482386 大数据
个人信息保护合规审计师"（PersonalInformationProtectionComplianceAuditor-CCRC）是中国网络安全审查认证中心与市场监管大数据中心为深入贯彻实施《个人信息保护法》，推动个人信息处理者切实履行合规审计职责，针对企事业单位及第三方机构中从事个人信息保护合规审计（简称“个保审计”）的专业人员，依据《个人信息保护法》、《网络安全从业人员能力基本要求》
Apache Doris 实现毫秒级查询响应随风九天匠心数据库服务 java apache Apache Doris
1.引言1.1数据分析的重要性随着大数据时代的到来，企业对实时数据分析的需求日益增长。快速、准确地获取数据洞察成为企业在竞争中脱颖而出的关键。传统的数据库系统在处理大规模数据时往往面临性能瓶颈，难以满足实时分析的需求。例如，一个电商公司需要实时监控销售数据以调整库存和营销策略，而传统的数据库可能需要数分钟甚至数小时才能生成报表，这显然无法满足业务需求。1.2ApacheDoris简介ApacheD
使用docker安装elk 吴传逞 docker elk 运维
配置要求：一台Linux服务器，内存不少于2g，centos7以上系统1.安装docker安装教程：CentOSDocker安装|菜鸟教程分以下几个步骤（我只写我使用过的方式）：curl-fsSLhttps://get.docker.com|bash-sdocker--mirrorAliyun安装DockerEngine-Communityyuminstall-yyum-utils\device-
基于Linux环境部署和使用ElasticSearch搜索引擎探模之翼数据库搜索引擎 linux elasticsearch 向量数据库多模态检索
目录一.Elasticsearch基础介绍二.Docker部署单节点ElasticSearch1.环境配置2.创建数据目录3.创建ES自定义配置文件4.启动ElasticSearch服务5.验证服务三.DockerCompose部署单节点ElasticSearch1.环境配置2.创建docker-compose.yml3.创建配置文件elasticsearch.yml4.启动ElasticSear
ClickHouse Keeper 源码解析阿里云云栖号云栖号技术分享 java 开发语言后端
简介：ClickHouse社区在21.8版本中引入了ClickHouseKeeper。ClickHouseKeeper是完全兼容Zookeeper协议的分布式协调服务。本文对开源版本ClickHousev21.8.10.19-lts源码进行了解析。作者简介：范振（花名辰繁），阿里云开源大数据-OLAP方向负责人。内容框架背景架构图核心流程图梳理内部代码流程梳理Nuraft关键配置排坑结论关于我们R
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交

[零基础]用docker搭建Hadoop集群

前言：为什么要用docker搭建Hadoop集群？

准备：下载VMware、VMwareTools（或Xftp、Xshell）、Ubuntu或者CentOS映像文件、Hadoop和jdk压缩包

一、创建虚拟机

（1）点击新建虚拟机

（2）下一步

（3）下一步

（4）选择映像文件

（5）自定义信息

（6）自定义信息，位置最好放在非C盘

（7）设置处理器内核总数

（8） 后面五步都选下一步即可。

（9）设置磁盘大小

（10）点击下一步，再点击完成

（11）自动加载默认配置

二、安装docker并生成相关的镜像

（1）安装docker

（2）拉取CentOS镜像（Ubuntu镜像也行）

（3）通过build Dockfile生成带ssh功能的centos镜像

1、MAINTAINER hadoop

2、root:a123456

（4）将下载的文件上传虚拟机

1、在主机下载ssh，在终端输入：

2、 查看ip地址，在终端输入：

3、用Xshell和Xftp连接虚拟机主机

4、解压文件（把目录和文件名改成你自己的）

（5）生成带有ssh、hadoop和jdk环境的CentOS镜像

三、创建网桥，并启动docker容器

（1）创建网桥，在终端输入：

（2）查看网桥，在终端输入：

（3）启动三个容器并指定网桥

四、登录容器，配置ip地址映射和ssh免密登录

(1)登录容器（Hadoop服务器）

（2）在每个hadoop服务器中配置ip地址映射

(3)在每台hadoop服务器中配置ssh免密登录

（4）测试是否成功配置ssh免密登录，ssh + hadoop服务器名：

五、修改Hadoop配置文件

（1）创建文件夹，配置时要用

（2）编辑hadoop_env.sh，修改下面三个参数，按照你自己的改

（3）编辑core-site.xml

(4)编辑mapred-site.xml

（5）编辑hdfs-site.xml

（6）编辑yarn-site.xml

（7）编辑workers,把原先的默认值localhost删除

（8）配置环境变量，在终端输入：

（9）把文件拷贝到hadoop2和hadoop3上

（10）给文件赋权

六、启动Hadoop集群

（1）在hadoop1上执行以下命令：

1、格式化hdfs

2、一键启动Hadoop集群

（2）测试Hadoop集群

（3）磁盘空间占用

你可能感兴趣的:(集群搭建,docker,hadoop,大数据)

（8）后面五步都选下一步即可。

2、查看ip地址，在终端输入：