pier～呀

Hadoop分布式集群的安装(图解)

全局统筹

前言
安装前的检查
开始安装虚拟机
Linux的网络配置步骤
虚拟机内部设置
进入虚拟机
安装其他东西
克隆虚拟机
开始搭建分布式集群
集群配置
启动集群
jps查看进程
常见问题

前言

这里的笔记仅供参考使用，你可以从买来一台新的电脑就可以开始照着安装。我目前在虚拟机里面仅仅安装jdk和Hadoop，作为我们集群最基础需要的东西，有需要学习其他的东西的小伙伴可以等待我的后续更新，和其他博主不一样的是，每个人都有不一样的地方，但目的肯定是一样的。话不多说，开干！

注：小小的提示，本实验因为涉及到网络服务的连接，建议各位在学习期间关闭你的防火墙，否则，一旦出现连接时错误时，找找你的防火墙问题。

安装前的检查

1、电脑是否虚拟化
可能有很少的一部分同学在我们打开VMware时出现过这种情况

这个问题出现的原因就是我们的电脑未进行虚拟化的开启，这时候我们打开我们的任务管理器(鼠标放到最下边的任务栏，右击就会出现，快捷键：笔记本：ctrl+shift+esc，台式电脑，ctrl+alt+.),如果出现
这个时候我们点开详细信息就可以了，再点击性能，如果你能看到
下面这个虚拟化三个字，应该时处于已禁用的状态(已启动不用管)，这时候我们就需要开启虚拟化。下面这个开启虚拟化，我就不测试了，不能截图，偷偷偷个懒，没人发现吧。
开启虚拟化详情链接

2、安装VMWare
因为这里主要就是有安装包了之后，一次一次下一步基本上就可以了。
vmware安装详情链接

VMware16百度网盘下载链接：https://pan.baidu.com/s/1ZZK53T18sc72xsTU355GYg
提取码：078m

3、准备centos下载
centOS7.5.1804官网下载地址链接
这里因为超过4个G了，百度网盘都存不下了。

开始安装虚拟机

使用的配置

安装平台：VMware16
适用系统：window10，windows11(其他系统你们的博主没钱尝试了，win11都是升级后才尝试的。)
映像文件：CentOS-7.5-x86_64-DVD-1804.iso

具体安装步骤
1、新建虚拟机

2、选择自定义

3、无脑下一步

4、选择映像方式

5、继续无脑下一步

6、设置虚拟机名称

7、设置虚拟机处理器内核大小

8、设置虚拟机内存大小

9、设置网络类型，学习使用NAT模式

三种模式的区别

网络模型	交换机名称
桥接模式	VMnet0
NAT模式	VMnet8
仅主机模式	VMnet1

NAT、桥接模式(Briged模式)均可与外网进行通信，仅主机模式(Host-Only)一般只能在内网进行通信。
1、NAT（网络地址转换模式）–多用于家庭环境
安装好虚拟机后，它的默认网络模式就是NAT模式。
原理：通过宿主机的网络来访问公网。虚拟局域网内的虚拟机在对外访问时，使用的则是宿主机的IP地址，这样从外部网络来看，只能看到宿主机，完全看不到新建的虚拟局域网。
优势：虚拟系统接入互联网非常简单，只需宿主机器能访问互联网即可, 不需要进行任何手工配置。
2、Bridged(桥接模式）–多用于办公环境
类似局域网中的一台独立的主机，它可以访问内网任何一台机器，但是它要和宿主机器处于同一网段，这样虚拟系统才能和宿主机器进行通信【主机防火墙开启会导致ping不通】
设置：
（1）默认存在自动获取ip机制，只需要将虚拟机设置为Bridged(桥接模式），虚拟机会自动获取新的ip，保证ip地址与宿主机在同一个网段。
（2）如果是手工配置机制，那么为了保持虚拟机与宿主机在同一个网段，其中涉及人工配置ip，比较麻烦。
使用场景：如果想利用VMWare在局域网内新建一个虚拟服务器，为局域网用户提供网络服务，就应该选择桥接模式。
3、Host-only(主机模式) – 用得比较少
在某些特殊的网络环境中，要求将真实环境和虚拟环境隔离开，这时你就可采用host-only模式。在这种模式下宿主机上的所有虚拟机是可以相互通信的，但虚拟机和真实的网络（物理机网络）是被隔离开的。
10、连续两个下一步到达这里，选择磁盘

11、选择磁盘大小以及磁盘格式

12、选择你保存的位置，不要出现中文

13、别着急点完成

14、最后的配置

这里我们以后也可以在这个界面更改

选择映像文件，前面选择这里就不用选择了

选择NAT模式

配置完毕后点击关闭完成。启动虚拟机下面这个界面请等待就可以了。
等他安装时我们可以去做一个事，打开我们的网络配置，这么查找控制面板\网络和 Internet\网络连接

Linux的网络配置步骤

对于网络的配置，我们希望IP是相对固定了，这样才能确保集群的所有服务器之间通信的正常，达到协同合作的目的，因此再配置Linux网络时要考虑到局域网和Internet网都可以适配，在这里我们选用虚拟网卡配合NAT模式的方式达到此目的。反正一句话:网要通还很稳定。

步骤如下
1、给当前Linux主机设置VMnet8虚拟网卡，在VMWare中选择虚拟机，在选择设置

最后确定保存。
2、配置网关

子网IP不要和之前win配置的IP地址冲突

这里的网关一定要和之前的保持一致。主要是更改框里面的东西

确定保存后，打开虚拟机。

虚拟机内部设置

选择安装

在下面搜索ch,就可以选择中文，当然你也可以选择其他的，随意，选择

继续下一步。
选择时区和最小化安装

时区自己选择，最小化安装在下面

配置磁盘

第一个分区

设置第一个分布格式

第二个分区

格式

第三个分区

最终的分区设置

点击完成，接受更改
关闭KDUMP

设置root密码
在上面完成后点击下一步

设置密码，一定要记着，更改不太方便

完成配置

这里慢慢等待别着急

等待几分钟后

进入虚拟机

登录界面

配置网络

sudo vi /etc/sysconfig/network-scripts/ifcfg-ens33

重启网络服务

service network restart

检查ping

当我们做好这一步了之后，我们就可以做远程连接了，当然如果你要修改主机名，建议下一步做了之后再做远程连接。这里我们采用xshell做远程连接。这里因为版本基本上都大同小异，使用起来体验差不多，就不指定版本号了。因为有的小伙伴可能需要修改主机名，我们就把远程连接放在后面了。
xshell下载地址
修改主机名

#查看虚拟机现有名字
hostname

如果你觉得这个虚拟机的名字不好看，我们就改名

sudo vi /etc/hostname

把里面的东西删除，更改成你想要的名字，重启虚拟机就可以了。这里我们最基本的虚拟机就安装好了，但是我们因为采取的是最小化安装，我们就还需要安装一些其他的东西。

XShell远程连接
在上面的配置完成后，我们的ping能够搞定三端后(本机，你的win，外网【百度之类】),可以做远程连接了。
打开下xshell后，右击左上角的新建

连接

然后就可以点击确定，或者在用户身份验证哪里输入你的用户名和密码，不输入，每次都需要输入的。也可以在外观哪里选择其他的页面设置。

安装其他东西

下载相应工具组件

[root@localhost ~]# yum install -y epel-release
[root@localhost ~]# yum install -y psmisc nc net-tools rsync vim lrzsz ntp libzstd openssl-static tree iotop git

永久关闭防火墙

临时关闭防火墙
- 查看防火墙状态systemctl status firewalld
- 临时关闭防火墙 systemctl stop firewalld
开机启动时关闭防火墙
- 查看防火墙开机启动状态systemctl enable firewalld.service
- 设置开机时关闭防火墙systemctl disable firewalld.service

还可以创建一个用户pier，并设置密码

#添加用户
[root@localhost ~]# useradd pier    
#设置用户密码
[root@localhost ~]# passwd pier
更改用户 pier 的密码 。
新的 密码：
无效的密码： 密码少于 8 个字符  #这里的提示不用管，自己随意
重新输入新的 密码：
passwd：所有的身份验证令牌已经成功更新。

给用户增加root权限

[root@localhost ~]# vim /etc/sudoers

添加下面这一行语句，位置不影响，主要是方便复制。

pier    ALL=(ALL)       NOPASSWD:ALL

/opt下创建文件夹

[root@localhost ~]# mkdir /opt/sofeware /opt/module

修改文件权限以及所属用户组

[root@localhost opt]# chown pier:pier /opt/module /opt/sofeware/
[root@localhost opt]# ll
总用量 8
drwxr-xr-x. 2 pier pier 4096 1月   7 00:39 module
drwxr-xr-x. 2 pier pier 4096 1月   7 00:39 sofeware

，至此我们做好了我们最重要的一步，做了一台救命机，这台机器我们不做其他的东西，只是为了我们以后多台服务器使用时方便克隆。不安装jdk以及其他包的原因是，救命的，肯定越纯粹越好，后期大不了就复杂一点，不至于每一台都要这么安装了呀。

克隆虚拟机

克隆虚拟机是需要先关闭这一台虚拟机的关机命令：shutdown -h now，这里我们克隆三台虚拟机，分别为改名为Hadoop105，Hadoop106，Hadoop107，对应的IP地址分别为192.168.40.105、192.168.40.106、192.168.40.107。
再提示一下，更改主机名命令为sudo vi /etc/hostname，修改IP地址的命令为sudo vi /etc/sysconfig/network-scripts/ifcfg-ens33

前面两步直接下一步即可，在下面这里一定要点创建完整克隆。

继续下一步即可。完成后，记得克隆三台虚拟机。并完成改名和ip地址的修改。做好远程连接。

开始搭建分布式集群

已经创建好了三台虚拟机。

安装jdk和Hadoop可以参考这篇文章jdk和Hadoop的安装
我们可以在其中一台机器上面安装jdk和Hadoop的安装，之后我们不是做好网络服务的配置了嘛，我们可以分发给其他主机即可。
可以先将虚拟机切换到pier用户su pier,输入设置的pier密码就可以了
scp分发文件

#基本语法
scp    -r          $pdir/$fname              $user@hadoop$host:$pdir/$fname

例：

[pier@hadoop105 ~]# scp -r /opt/module/jdk1.8.0_212/pier@hadoop106:/opt/module/

rsync远程同步工具
rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。
（1）基本语法
rsync -av $p d i r /$ fname $u s e r @ h a d o o p$ host: $p d i r /$ fname
命令选项参数要拷贝的文件路径/名称目的用户@主机:目的路径/名称

选项参数说明

选项	功能
-a	归档拷贝
-v	显示复制过程

（2）案例实操

把hadoop105机器上的/opt/software目录同步到hadoop106服务器的/opt/software目录下

[pier@hadoop105 ~]# rsync -av /opt/software/* pier@hadoop106:/opt/software

当我们一个一个文件发的太累了怎们办呢？自己写一个脚本吧，嘻嘻，我觉得可。说干就干

[pier@hadoop105 opt]$ cd /home/pier
[pier@hadoop105 ~]$ mkdir bin
[pier@hadoop105 ~]$ cd bin
[pier@hadoop105 bin]$ vim my

my_xsync.sh 编辑文件

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
  echo Not Enough Arguement!
  exit;
fi
#2. 遍历集群所有机器
for host in hadoop106 hadoop107
do
  echo ====================  $host  ====================
  #3. 遍历所有目录，挨个发送
  for file in $@
  do
    #4. 判断文件是否存在
    if [ -e $file ]
    then
      #5. 获取父目录
      pdir=$(cd -P $(dirname $file); pwd)
      #6. 获取当前文件的名称
      fname=$(basename $file)
      ssh $host "mkdir -p $pdir"
      rsync -av $pdir/$fname $host:$pdir
    else
      echo $file does not exists!
    fi
  done
done

保存退出wq
修改文件执行权限

[pier@hadoop105 bin]$ chmod +x my_xsync.sh

将脚本复制到/bin中，以便全局调用

[pier@hadoop105 bin]$ sudo cp my_xsync.sh/bin/

测试脚本

[pier@hadoop105 bin]$ my_xsync.sh /home/pier/bin
[pier@hadoop105 bin]$ sudo my_xsync.sh /bin/xsync

这里就使用下面这条命令把Hadoop和jdk分发过去吧

[pier@hadoop105 bin]$ my_xsync.sh /opt/module/* 
[pier@hadoop105 bin]$ my_xsync.sh /etc/profile.d/my_env.sh

，那我们来一起测试一下吧。可以偷个懒使用这个工具哟，超好用。

检查环境命令

[pier@hadoop105 bin]$ java -version
[pier@hadoop105 bin]$ hadoop version

ssh免密登录
不知道你们分发文件时是不是有个和我不一样的地方，哈哈哈我不用输密码，你们需要输入密码呢，接下来我们就来一起设置一下免密登录。全部设置哟，先看一下免密登录原理：

生成公钥和私钥

[pier@hadoop105 bin]$ ssh-keygen -t rsa

输入上面这个命令后三个回车搞定。
将公钥拷贝到要免密登录的目标机器上

[pier@hadoop105 bin]$ ssh-copy-id hadoop105
[pier@hadoop105 bin]$ ssh-copy-id hadoop106
[pier@hadoop105 bin]$ ssh-copy-id hadoop107

使用时需要输入目标机器的密码，你输入就行，首次使用或许还要选择yes或者no你选择yes即可。

目录	功能
known_hosts	记录ssh访问过计算机的公钥(public key)
id_rsa	生成的私钥
id_rsa.pub	生成的公钥
authorized_keys	存放授权过的无密登录服务器公钥

集群配置

哇，写了这么久终于到集群配置了，开始开始！！！
正所谓无规矩不成方圆，我们先来规划规划，说一些注意事项

集群规划

注意：NameNode和SecondaryNameNode不要安装在同一台服务器
注意：ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上。

	hadoop105	hadoop106	hadoop107
HDFS	NameNode DataNode	DataNode	SecondaryNameNode DataNode
YARN	NodeManager	ResourceManager NodeManager	NodeManager

注：下面这些配置文件，可以选择性更改，我这里更改主要是因为你的个人电脑应该负荷不起它的默认配置。
默认配置文件

要获取的默认文件	文件存放在Hadoop的jar包中的位置
[core-default.xml]	hadoop-common-3.1.3.jar/ core-default.xml
[hdfs-default.xml]	hadoop-hdfs-3.1.3.jar/ hdfs-default.xml
[yarn-default.xml]	hadoop-yarn-common-3.1.3.jar/ yarn-default.xml
[mapred-default.xml]	hadoop-mapreduce-client-core-3.1.3.jar/ mapred-default.xml

自定义配置文件

core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上，用户可以根据项目需求重新进行修改配置。

核心配置文件
配置core-site.xml

[pier@hadoop105 ~]$ cd $HADOOP_HOME/etc/hadoop

[pier@hadoop105 hadoop]$ vim core-site.xml

文件内容如下：

"1.0" encoding="UTF-8"?>
-stylesheet type="text/xsl" href="configuration.xsl"?>

  <!-- 指定NameNode的地址 -->
  
    fs.defaultFS</name>
    hdfs://hadoop102:9820</value>
</property>
<!-- 指定hadoop数据的存储目录 -->
  
    hadoop.tmp.dir</name>
    /opt/module/hadoop-3.1.3/data</value>
</property>
<!-- 配置HDFS网页登录使用的静态用户为atguigu -->
     
    hadoop.http.staticuser.user</name>
    atguigu</value>
  </property>
<!-- 配置该atguigu(superUser)允许通过代理访问的主机节点 -->
  
    hadoop.proxyuser.atguigu.hosts</name>
    *</value>
</property>
<!-- 配置该atguigu(superUser)允许通过代理用户所属组 -->
  
    hadoop.proxyuser.atguigu.groups</name>
    *</value>
</property>
<!-- 配置该atguigu(superUser)允许通过代理的用户-->
  
    hadoop.proxyuser.atguigu.groups</name>
    *</value>
</property>
</configuration>

HDFS配置文件
配置hdfs-site.xml

[pier@hadoop105 hadoop]$ vim hdfs-site.xml

文件内容如下：

"1.0" encoding="UTF-8"?>

-stylesheet type="text/xsl" href="configuration.xsl"?>

  <!-- nn web端访问地址-->
  
    dfs.namenode.http-address</name>
    hadoop102:9870</value>
  </property>
  <!-- 2nn web端访问地址-->
  
    dfs.namenode.secondary.http-address</name>
    hadoop104:9868</value>
  </property>
</configuration>

YARN配置文件

配置yarn-site.xml

[pier@hadoop105 hadoop]$ vim yarn-site.xml

文件内容如下：

"1.0" encoding="UTF-8"?>

-stylesheet type="text/xsl" href="configuration.xsl"?>

  <!-- 指定MR走shuffle -->
  
    yarn.nodemanager.aux-services</name>
    mapreduce_shuffle</value>
</property>
<!-- 指定ResourceManager的地址-->
  
    yarn.resourcemanager.hostname</name>
    hadoop103</value>
</property>
<!-- 环境变量的继承 -->
  
  yarn.nodemanager.env-whitelist</name>    JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>
<!-- 这下面的内容可以选择性添加 -->
<!-- yarn容器允许分配的最大最小内存 -->
  
    yarn.scheduler.minimum-allocation-mb</name>
    512</value>
    </property>
  
  yarn.scheduler.maximum-allocation-mb</name>
   4096</value>
</property>
<!-- yarn容器允许管理的物理内存大小 -->
  
    yarn.nodemanager.resource.memory-mb</name>
    4096</value>
</property>
<!-- 关闭yarn对物理内存和虚拟内存的限制检查 -->
  
    yarn.nodemanager.pmem-check-enabled</name>
    false</value>
  </property>
  
    yarn.nodemanager.vmem-check-enabled</name>
    false</value>
  </property>
</configuration>

MapReduce配置文件
配置mapred-site.xml

[pier@hadoop105 hadoop]$ vim mapred-site.xml

文件内容如下：

"1.0" encoding="UTF-8"?>
-stylesheet type="text/xsl" href="configuration.xsl"?>

  <!-- 指定MapReduce程序运行在Yarn上 -->
  
    mapreduce.framework.name</name> 
    yarn</value>
  </property>
</configuration>

在集群上分发配置好的Hadoop配置文件

[pier@hadoop105 hadoop]$ my_xsync.sh /opt/module/hadoop-3.1.3/etc/hadoop/

去106和107上查看文件分发情况

[pier@hadoop106 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml
[pier@hadoop107 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml

配置works

[pier@hadoop105 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/workers

添加下面内容

hadoop105
hadoop106
hadoop107

分发works文件

[pier@hadoop105 bin]$ my_xsync.sh /opt/module/hadoop-3.1.3/etc/hadoop/workers

启动集群

如果集群是第一次启动，需要在hadoop102节点格式化NameNode（注意格式化NameNode，会产生新的集群id，导致NameNode和DataNode的集群id不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化NameNode的话，一定要先停止namenode和datanode进程，并且要删除所有机器的data和logs目录，然后再进行格式化。

格式化集群

[pier@hadoop105 hadoop]$ hdfs namenode -format

启动HDFS(hadoop105上)

[pier@hadoop105 hadoop-3.1.3]$ cd /opt/module/hadoop-3.1.3/
[pier@hadoop105 hadoop-3.1.3]$ sbin/start-dfs.sh

启动yarn(hadoop106)

[pier@hadoop106 hadoop-3.1.3]$ sbin/start-yarn.sh

Web端查看HDFS的NameNode
- 浏览器中输入：http://hadoop102:9870
- 查看HDFS上存储的数据信息
Web端查看YARN的ResourceManager
- 浏览器中输入：http://hadoop103:8088
- 查看YARN上运行的Job信息

jps查看进程

到这里我们的分布式集群搭建完毕了，当然我们后续还会在里面安装zookeeper等其他工具包，后续再说。

常见问题

1、 ping三端ping不通

解决方式：

查看自己的外网是否连通
检查/etc/sysconfig/network-scripts/ifcfg-ens33是否配置正确
是否生效环境变量，source无效，试试重启虚拟机。

2、jdk安装完毕后，Hadoop version失败。

解决方式：

这里出现的可能性不大，但是假如出现了，你可以尝试先将Hadoop和jdk删除，并卸载系统自带openjdkrpm -qa | grep -i java | xargs -n1 rpm -e --nodeps，再重启过后重新安装jdk和Hadoop。

3、jps出现有问题

解决方式：

这是一种很常见的的问题，常见的问题有，你的虚拟机配置文件有问题，自我进行排除查找。
第二种就是你重启服务器过后结点启动失败，这时候我们需要$HADOOP_HOME/sbin/stop-all.sh把所有节点关闭，再把$HADOOP_HOME下面的data和logs文件删掉，重新进行格式化，再启动节点。

4、出现下面这种情况

解决方式：
按住win+x选择计算机管理

选择服务

找到VMware开头的服务全部启动

之后退出关闭，再重启一下VMware就可以了。

这一章的图片太多了，大家搭建完了，给大家来个小奖励吧

如果大家又遇到什么其他问题，可以评论区告诉我，或者私信我哟，我看到了也可以添加进入我的博客哈哈。

你可能感兴趣的:(大数据,hadoop,分布式,big,data)

TCP和UDP协议区别+应用场景+优缺点+常用协议马拉萨的春天一天一读基础知识点 tcp/ip udp 网络
文章目录1.TCP协议特点应用场景优点缺点运行于TCP协议之上的协议2.UDP协议特点应用场景优点缺点运行于UDP协议之上的协议TCP（TransmissionControlProtocol）和UDP（UserDatagramProtocol）是两种常用的传输层协议，它们在网络通信中扮演不同的角色，各有优缺点。1.TCP协议特点提供面向连接的、可靠的数据传输服务。使用三次握手建立连接，四次挥手断开
将多个小型YOLO数据集合并为一个大型数据集梦实学习室 YOLO python YOLO python 机器学习
一、将多个小型YOLO数据集合并为一个大型数据集importosimportshutilimportargparsedefmerge_data(source_dir,target_dir,images_dir,labels_dir):images_target=os.path.join(target_dir,images_dir)labels_target=os.path.join(target_
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
MySQL数据库访问（C/C++）敲上瘾 MySQL数据库 mysql 数据库 c++c语言数据库开发数据库架构
访问数据库的方式：命令行：使用命令行输入SQL指令直接访问。需记忆命令和SQL语法，对新手不友好。正因如此推荐新手使用该方式访问，能倒逼学习者对SQL语法的记忆，并对MySQL更深入理解。图形化界面访问：使用图形化界面工具，如：DBeaver、DataGrip、Navicat、HeidiSQL（MySQL）、MySQLWorkbench。特点：有语法提示，可以直接对数据手动增删改。编程接口：在编写
分布式选举算法＜一＞ Bully算法
分布式选举算法详解：Bully算法引言在分布式系统中，节点故障是不可避免的。当主节点（Leader）发生故障时，系统需要快速选举出新的主节点来保证服务的连续性。Bully算法是一种经典的分布式选举算法，以其简单高效的特点被广泛应用于各种分布式系统中。什么是Bully算法？Bully算法是一种基于优先级的分布式选举算法。每个节点都有一个唯一的ID，ID值越大的节点优先级越高。当主节点故障时，优先级最
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink 2.0 DataStream算子全景 Edingbrugh.南空大数据 flink flink 人工智能
在实时流处理中，ApacheFlink的DataStreamAPI算子是构建流处理pipeline的基础单元。本文基于Flink2.0，聚焦算子的核心概念、分类及高级特性。一、算子核心概念：流处理的"原子操作1.数据流拓扑（StreamTopology）每个Flink应用可抽象为有向无环图（DAG），由源节点（Source）、算子节点（Operator）和汇节点（Sink）构成，算子通过数据流（S
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
Flink DataStream API详解（一） bxlj_jcj Flink flink 大数据
一、引言Flink的DataStreamAPI，在流处理领域大显身手的核心武器。在很多实时数据处理场景中，如电商平台实时分析用户购物行为以实现精准推荐，金融领域实时监控交易数据以防范风险，DataStreamAPI都发挥着关键作用，能够对源源不断的数据流进行高效处理和分析。接下来，就让我们一起深入探索FlinkDataStreamAPI。二、DataStream编程基础搭建在开始使用FlinkDa
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Flink DataStream API详解（二）
一、引言咱两书接上回，上一篇文章主要介绍了DataStreamAPI一些基本的使用，主要是针对单数据流的场景下，但是在实际的流处理场景中，常常需要对多个数据流进行合并、拆分等操作，以满足复杂的业务需求。Flink的DataStreamAPI提供了一系列强大的多流转换算子，如union、connect和split等，下面我们来详细了解一下它们的功能和用法。二、多流转换2.1union算子union算
docker常见问题解决方法小王聊技术 docker
目录迁移至其他服务器清理Docker占用的磁盘空间常见问题：迁移至其他服务器1.将docker容器导出dockerexport-o保存路径/xxx.tar容器id2.将容器tar远程拷贝到新的服务器(从新的服务器上向老服务器上请求复制)scproot@服务器地址:/data/xxx.tar/root3.将导入的tar包转为镜像dockerimport-cxxx.tarimage_name:tag
vue如何实现Cascader 级联选择器(二级全部选中只展示一级，三级全部选中只展示二级) 小周同学: vue vue.js
select提交重置级联exportdefault{data(){return{ruleForm:{selectLabel:[],idList:[],},citiesList:[],rules:{selectLabel:[{type:'array',required:true,message:'多选不能为空',trigger:'change'}],},props:{multiple:true,va
Python爬虫实战：基于最新技术的定时签到系统开发全解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言人工智能自动化知识图谱
摘要本文详细介绍了如何使用Python开发一个功能完善的定时签到爬虫系统。文章从爬虫基础知识讲起，逐步深入到高级技巧，包括异步请求处理、浏览器自动化、验证码破解、分布式架构等最新技术。我们将通过一个完整的定时签到项目案例，展示如何构建一个稳定、高效且具有良好扩展性的爬虫系统。文中提供了大量可运行的代码示例，涵盖requests、aiohttp、selenium、playwright等多种技术方案，
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
Redis第五讲：详解 Redis 中 BigKey、HotKey 的发现与处理程序员 jet_qi 深入理解数据库 redis 数据库缓存大key 热点key
简介：在Redis的使用过程中，我们经常会遇到BigKey（下文将其称为“大key”）及HotKey（下文将其称为“热key”）。大Key与热Key如果未能及时发现并进行处理，很可能会使服务性能下降、用户体验变差，甚至引发大面积故障。本文详解Redis中BigKey、HotKey的发现与处理。文章目录1、大Key与热Key的定义1.1、什么是大Key1.2、什么是热Key2、大Key与热Key带来
如何发现Redis中的bigkey？代码中の快捷键 redis 数据库缓存
如何发现Redis中的bigkey？我主要用这几个方法：redis-cli--bigkeys(最常用，最省事)：直接在命令行敲这个命令：redis-cli-h你的redis地址-p端口--bigkeys作用：它会自动扫描整个数据库。结果：告诉你每种数据类型（String,Hash,List,Set,ZSet）里最大的那个key是什么，有多大（比如String多大，List有多少元素）。优点：简单、
pandas销售数据分析
pandas销售数据分析数据保存在data目录消费者数据：customers.csv商品数据：products.csv交易数据：transactions.csvcustomers.csv数据结构：字段描述customer_id客户IDgender性别age年龄region地区membership_date会员日期products.csv数据结构：字段描述product_id产品IDcategory
MyBatis-Plus 使用wrapper自定义SQL
MyBatis-Plus使用wrapper自定义SQL，以下是单表查询。官方文档官方的例子：//mapper接口@Select("select*frommysql_data${ew.customSqlSegment}")ListgetAll(@Param(Constants.WRAPPER)Wrapperwrapper);//xmlListgetAll(Wrapperew);SELECT*FROM
web3中的ipfs 财神爷首席大弟子 web3 去中心化区块链
什么是web3：是基于区块链技术的分布式网络，主要目标是建立一个去中心化与信任化的互联网去中心化以及是信任化区块链：将所有的交易记录和什么护具存储在分布式网络中，每一个node都有完整的数据副本任何一个node修改都需要得到其他节点的认可，确保数据的真实性和和可信度web3有一些关键技术和标准，例如以太坊，IPFS，ENS，ERC标准等以太坊：以太币是一个开源的有智能合约功能的公共区块链平台，通过
使用ceph-ansible部署分布式存储Ceph-octopus版本降世神童云计算技术专栏分布式 ceph ansible
使用ceph-ansible部署分布式存储Ceph-octopus版本1.Ceph基础概念及部署方式1.1.Ceph基本概念1.2.Ceph部署方式2.系统初始化配置3.Ceph集群部署3.1.Ansible安装与配置3.2.ceph-ansible安装与配置3.2.1.下载ceph-ansible3.2.2.安装ceph-ansible依赖3.2.3.修改ceph配置文件3.3.开始部署ceph
Mysql数据库可以使用命令行msyql -u root -p连接，但是Navicat连不上 2501_92753117 数据库 mysql
1.Mysql服务启动1.1输入命令回车输入密码可以正常连接msyql-uroot-p1.1.2Navicat连不上2.解决方案2.1连接mysqlmsyql-uroot-p1.2.2查询所有数据库showdatabases;1.2.3切换到mysql数据库usemysql;1.2.4查询hostSELECThost,userFROMuserWHEREuser='root';1.2.5更新任意ip
2024年运维最新分布式存储ceph osd 常用操作_ceph查看osd对应硬盘(1)，2024年最新Linux运维编程基础教程 2401_83944328 程序员运维分布式 ceph
最全的Linux教程，Linux从入门到精通======================linux从入门到精通(第2版)Linux系统移植Linux驱动开发入门与实战LINUX系统移植第2版Linux开源网络全栈详解从DPDK到OpenFlow第一份《Linux从入门到精通》466页====================内容简介====本书是获得了很多读者好评的Linux经典畅销书**《Linu
【赵渝强老师】基于PostgreSQL的分布式数据库：Citus
由于PostgreSQL具有强大的功能和良好的可扩展性，因此基于PostgreSQL很容易就可以实现分布式架构。Citus便是具体的一种实现方式。它以扩展的插件形式与PostgreSQL进行集成，且独立于PostgreSQL内核，部署也比较简单。Citus是现在非常流行的基于PostgreSQL的分布式解决方案。一、Citus基础下面是百度百科中对分布式数据库的定义：分布式数据库系统通常使用较小的
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
python把竖着的变成横着的数_python – Reportlab：如何切换纵向和横向？ weixin_39524703
我正在使用reportlab从动态数据自动生成pdf报告.由于内容有时太大,无法以纵向显示,所以我正在为大量内容切换到景观.以下是我的报告生成工作原理：主功能：doc=DocTemplate(...)//DoctemplateisacustomedBaseDocTemplateclassarray=[]some_data="Hereissomedatadisplayedinportrait"arr
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
使用HarmonyOS 5和CodeGenie辅助工具开发鸿蒙运动健康类应用的项目总结哼唧唧_ CodeGenie 运动健康 Harmony OS5 harmonyos 华为
一、项目背景与目标随着鸿蒙生态在穿戴设备、智能家居领域的快速扩展，我团队基于HarmonyOS5操作系统，开发了一款面向运动健康场景的智能应用——“Harmony健康伴侣”。项目采用华为官方推出的智能编程助手CodeGenie进行辅助开发，旨在验证CodeGenie在提升鸿蒙应用开发效率与质量方面的实际效果。二、核心功能实现该应用深度融合HarmonyOS分布式能力，支持跨设备无缝协同，主要功能包
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &