wuxian98

大数据技术之Hadoop概述集群环境搭建常见错误解决等

Hadoop概述

文章目录

Hadoop概述
- 1. Hadoop是什么
- 2. Hadoop发展历史
- 4. Hadoop的优势
- 5. Hadoop组成
- 6. 大数据技术生态体系
- 7. 推荐系统框架图略图
Hadoop运行环境搭建
- 模板虚拟机环境准备
- 克隆虚拟机
- 在hadoop102安装JDK
- 在hadoop102安装Hadoop
- Hadoop目录结构
Hadoop运行模式
- 本地运行模式（官方WordCount）
- 完全分布式运行模式⭐⭐⭐
- SSH无密登录配置
- 集群配置
- 群起集群
- 配置历史服务器
- 配置日志的聚集
- 集群启动/停止方式总结
- 编写Hadoop集群常用脚本
- 常用端口号说明
- 集群时间同步(注意：如果能连接外网则可直接省略)
常见错误及解决方案

1. Hadoop是什么

① Hadoop是由apache基金会所开发的分布式系统基础架构
② 主要解决，海量数据的存储和海量数据的分析计算问题
③ 广义上来说，Hadoop通常是指一个更广泛的概念----Hadoop生态圈

2. Hadoop发展历史

① Hadoop创始人 Doug Cutting,为了实现与Google类似的全文检索功能，他在lucene框架基础上进行优化升级，查询引擎和搜索引擎。
② 2001年年底lucene成为apache基金会的一个子项目
③ 对于海量的数据场景，lucene框架面对与Google同样的困难，存储海量数据困难，检索海量数据速度慢！
④ 学习和模仿Google解决这些问题的办法：微型版Nutch
⑤ 可以说Google是Hadoop的思想之源（Google在大数据方面的三篇论文）
GFS --> HDFS Map-Reduce --> MR BigTable–>HBase
有偿下载Google的三篇论文，中文版
⑥ 2003-2004年，Google公开了部分GFS和MR思想的细节，为此基础 Doug Cutting 等人用了2年业余时间实现了DFS和MR机制。使Nutch性能飙升
⑦ 2005年Hadoop作为lucene的子项目，Nutch的一部分正式引入apache基金会。
⑧ 2006年3月份，MR和NDFS分别被纳入到Hadoop项目中，Hadoop就此正式诞生，标志着大数据时代的来临。
⑨ Hadoop的标志来源于Doug Cutting儿子的玩具大象。简介亦拼写这方面小朋友可是高手！

Hadoop三大发行版本：Apache、Cloudera、Hortonworks。

Apache Hadoop：
Apache版本最原始（最基础）的版本，对于入门学习最好。2006 Cloudera内部集成了很多大数据框架，对应产品CDH。2008
官网地址：http://hadoop.apache.org
下载地址：https://hadoop.apache.org/releases.html

Cloudera Hadoop：
Hortonworks文档较好，对应产品HDP。2011
官网地址：https://www.cloudera.com/downloads/cdh
下载地址：https://docs.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_cdh_6_download.html

Hortonworks Hadoop：
Hortonworks现在已经被Cloudera公司收购，推出新的品牌CDP。
官网地址：https://hortonworks.com/products/data-center/hdp/
下载地址：https://hortonworks.com/downloads/#data-platform

4. Hadoop的优势

5. Hadoop组成

5.1 HDFS架构概述
Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。

① NameNode(nn)：存储文件的元数据，如文件名，文件目录结构，文件属性(生成时间，副本信息，文件权限)，以及每个文件块列表和块所在的DataNode等
② DataNode(dn)：本地文件系统存储文件块数据，以及块数据校验和
③ SecondaryNameNode(2nn)：每隔一段时间对Name Node元数据备份

5.2 YARN架构概述
Yet Another Resource Negotiator简称YARN ，另一种资源协调者，是Hadoop的资源管理器。

① Resouce Manager(MR): 整个集群资源（cpu\内存）的话事人 >>>MR只有一个，协调多个NM
② Node Manager（NM）: 单个节点服务器资源的老大 >>>一个NM可以有多个Countalner
③ Application Master（AM）: 单个任务运行的老大 >>>am是跑在Countalner里面的
④Countalner：容器，相当于一台独立的服务器，里面封装了任务运行所需要的资源，如内存、cpu、磁盘、网络等

5.3 MapReduce架构概述

MapReduce将计算过程分为两个阶段：Map和Reduce
1阶段）Map阶段并行处理输入数据
2阶段）Reduce阶段对Map结果进行汇总

5.4 HDFS、YARN、MapReduce三者关系

6. 大数据技术生态体系

图中涉及的技术名词解释如下：
1）Sqoop：Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库（MySQL）间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。
2）Flume：Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；
3）Kafka：Kafka是一种高吞吐量的分布式发布订阅消息系统；
4）Spark：Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。
5）Flink：Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。
6）Oozie：Oozie是一个管理Hadoop作业（job）的工作流程调度管理系统。
7）Hbase：HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。
8）Hive：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。
9）ZooKeeper：它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。

7. 推荐系统框架图略图

Hadoop运行环境搭建

模板虚拟机环境准备

2.1 模板虚拟机环境准备
① 安装模板虚拟机，IP地址192.168.10.100、主机名称hadoop100、内存4G、硬盘50G
② hadoop100虚拟机配置要求如下（本文Linux系统全部以CentOS-7.5-x86-1804为例）
（1）使用yum安装需要虚拟机可以正常上网，yum安装前可以先测试下虚拟机联网情况

[root@hadoop100 ~]# ping www.baidu.com PING www.baidu.com
(14.215.177.39) 56(84) bytes of data. 64 bytes from 14.215.177.39
(14.215.177.39): icmp_seq=1 ttl=128 time=8.60 ms 64 bytes from
 14.215.177.39 (14.215.177.39): icmp_seq=2 ttl=128 time=7.72 ms

（2）安装epel-release
注：Extra Packages for Enterprise Linux是为“红帽系”的操作系统提供额外的软件包，适用于RHEL、CentOS和Scientific Linux。相当于是一个软件仓库，大多数rpm包在官方 repository 中是找不到的）

 [root@hadoop100 ~]# yum install -y epel-release

（3）注意：如果Linux安装的是最小系统版，还需要安装如下工具；如果安装的是Linux桌面标准版，不需要执行如下操作
→ net-tool：工具包集合，包含ifconfig等命令

[root@hadoop100 ~]# yum install -y net-tools

→ vim：编辑器

[root@hadoop100 ~]# yum install -y vim

③关闭防火墙，关闭防火墙开机自启

[root@hadoop100 ~]# systemctl stop firewalld 
[root@hadoop100 ~]# systemctl disable firewalld.service
注意：在企业开发时，通常单个服务器的防火墙时关闭的。公司整体对外会设置非常安全的防火墙

④创建wuxian用户，并修改wuxian用户的密码
注意：此处用户为自己所创建的用户，可换成自己的

[root@hadoop100 ~]# useradd wuxian
[root@hadoop100 ~]# passwd wuxian

⑤配置wuxian用户具有root权限，方便后期加sudo执行root权限的命令

[root@hadoop100 ~]# vim /etc/sudoers

修改/etc/sudoers文件，在%wheel这行下面添加一行，如下所示：

## Allow root to run any commands anywhere
root    ALL=(ALL)     ALL
## Allows people in group wheel to run all commands
%wheel  ALL=(ALL)       ALL
## 注意：wuxian 是我的用户，换成你自己的
wuxian  ALL=(ALL)     NOPASSWD:ALL

注意：wuxian 这一行不要直接放到root行下面，因为所有用户都属于wheel组，你先配置了wuxian 具有免密功能，但是程序执行到%wheel行时，该功能又被覆盖回需要密码。所以wuxian 要放到%wheel这行下面。

⑥在/opt目录下创建文件夹，并修改所属主和所属组
（1）在/opt目录下创建module、software文件夹

[root@hadoop100 ~]# mkdir /opt/module
[root@hadoop100 ~]# mkdir /opt/software

（2）修改module、software文件夹的所有者和所属组均为wuxian 用户

[root@hadoop100 ~]# chown wuxian:wuxian /opt/module 
[root@hadoop100 ~]# chown wuxian:wuxian /opt/software

（3）查看module、software文件夹的所有者和所属组

[root@hadoop100 ~]# cd /opt/
[root@hadoop100 opt]# ll
总用量 12
drwxr-xr-x. 2 wuxian wuxian 4096 5月  28 17:18 module
drwxr-xr-x. 2 wuxian wuxian 4096 5月  28 17:18 software

⑦卸载虚拟机自带的JDK

注意：如果你的虚拟机是最小化安装不需要执行这一步。
[root@hadoop100 ~]# rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps

rpm -qa：查询所安装的所有rpm软件包
grep -i：忽略大小写
xargs -n1：表示每次只传递一个参数
rpm -e –nodeps：强制卸载软件

⑧重启虚拟机

[root@hadoop100 ~]# reboot

克隆虚拟机

①注意：克隆你自己已经安装的自己的虚拟机。
克隆三台虚拟机：hadoop102 hadoop103 hadoop104

注意：克隆时，要先关闭自己的虚拟机

②修改克隆机IP，以下以克隆第一台hadoop102举例说明
（1）修改克隆虚拟机的静态IP

[root@hadoop100 ~]# vim /etc/sysconfig/network-scripts/ifcfg-ens33

改成

DEVICE=ens33
TYPE=Ethernet
ONBOOT=yes
BOOTPROTO=static
NAME=“ens33”
IPADDR=192.168.10.102
PREFIX=24
GATEWAY=192.168.10.2
DNS1=192.168.10.2

（2）查看Linux虚拟机的虚拟网络编辑器，编辑->虚拟网络编辑器->VMnet8

（3）查看Windows系统适配器VMware Network Adapter VMnet8的IP地址

（4）保证Linux系统ifcfg-ens33文件中IP地址、虚拟网络编辑器地址和Windows系统VM8网络IP地址相同。

③修改克隆机主机名，以下以hadoop102举例说明
（1）修改主机名称

[root@hadoop100 ~]# vim /etc/hostname
hadoop102

（2）配置Linux克隆机主机名称映射hosts文件，打开/etc/hosts

[root@hadoop100 ~]# vim /etc/hosts

添加如下内容

192.168.10.100 hadoop100
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104

④重启克隆机hadoop102

[root@hadoop100 ~]# reboot

⑤修改windows的主机映射文件（hosts文件）
（a）进入C:\Windows\System32\drivers\etc路径
（b）打开hosts文件并添加如下内容，然后保存

192.168.10.100 hadoop100
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104

在hadoop102安装JDK

① 卸载现有JDK
注意：安装JDK前，一定确保提前删除了虚拟机自带的JDK。如果没有做请查看如下内容↓

Linux下安装卸载jdk8.x版本

② 用XShell传输工具将JDK导入到opt目录下面的software文件夹下面

③在Linux系统下的opt目录中查看软件包是否导入成功

[wuxian@hadoop102 ~]$ ls /opt/software/

看到如下结果：

jdk-8u212-linux-x64.tar.gz

④ 解压JDK到/opt/module目录下

[wuxain@hadoop102 software]$ tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/

⑤ 配置JDK环境变量
（1）新建/etc/profile.d/my_env.sh文件

[wuxian@hadoop102 ~]$ sudo vim /etc/profile.d/my_env.sh

添加如下内容
注意：JAVA_HOME=/opt/module/jdk1.8.0_212 此路径是我刚解压的路径

#JAVA_HOME 
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin

（2）保存后退出

:wq

（3）source一下/etc/profile文件，让新的环境变量PATH生效

[wuxian@hadoop102 ~]$ source /etc/profile

⑥测试JDK是否安装成功

[wuxian@hadoop102 ~]$ java -version

如果能看到以下结果，则代表Java安装成功。

java version "1.8.0_212"
#注意：重启（如果java -version可以用就不用重启，不需要执行如下命令）
[wuxain@hadoop102 ~]$ sudo reboot

在hadoop102安装Hadoop

hadoop下载地址

1）用XShell文件传输工具将hadoop-3.1.3.tar.gz导入到opt目录下面的software文件夹下面

2）进入到Hadoop安装包路径下

[wuxain@hadoop102 ~]$ cd /opt/software/

3）解压安装文件到/opt/module下面

[wuxian@hadoop102 software]$ tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/

4）查看是否解压成功

[wuxian@hadoop102 software]$ ls /opt/module/
hadoop-3.1.3

5）将Hadoop添加到环境变量
（1）获取Hadoop安装路径

[wuxain@hadoop102 hadoop-3.1.3]$ pwd
/opt/module/hadoop-3.1.3

（2）打开/etc/profile.d/my_env.sh文件

[wuxain@hadoop102 hadoop-3.1.3]$ sudo vim /etc/profile.d/my_env.sh

→ 在my_env.sh文件末尾添加如下内容：（shift+g）
注意：HADOOP_HOME=/opt/module/hadoop-3.1.3 此处是我解压的目录

#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

→ 保存并退出： :wq
（3）让修改后的文件生效

[wuxian@hadoop102 hadoop-3.1.3]$ source /etc/profile

6）测试是否安装成功

[wuxain@hadoop102 hadoop-3.1.3]$ hadoop version
Hadoop 3.1.3

7）重启（如果Hadoop命令不能用再重启虚拟机）

[wuxian@hadoop102 hadoop-3.1.3]$ sudo reboot

Hadoop目录结构

1）查看Hadoop目录结构

[wuxain@hadoop102 hadoop-3.1.3]$ ll
总用量 52
drwxr-xr-x. 2 wuxain wuxain  4096 5月  22 2017 bin
drwxr-xr-x. 3 wuxain wuxain  4096 5月  22 2017 etc
drwxr-xr-x. 2 wuxain wuxain  4096 5月  22 2017 include
drwxr-xr-x. 3 wuxain wuxain  4096 5月  22 2017 lib
drwxr-xr-x. 2 wuxain wuxain  4096 5月  22 2017 libexec
-rw-r--r--. 1 wuxain wuxain 15429 5月  22 2017 LICENSE.txt
-rw-r--r--. 1 wuxain wuxain   101 5月  22 2017 NOTICE.txt
-rw-r--r--. 1 wuxain wuxain  1366 5月  22 2017 README.txt
drwxr-xr-x. 2 wuxain wuxain  4096 5月  22 2017 sbin
drwxr-xr-x. 4 wuxain wuxain  4096 5月  22 2017 share

2）重要目录

（1）bin目录：存放对Hadoop相关服务（hdfs，yarn，mapred）进行操作的脚本
（2）etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件
（3）lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）
（4）sbin目录：存放启动或停止Hadoop相关服务的脚本
（5）share目录：存放Hadoop的依赖jar包、文档、和官方案例

Hadoop运行模式

1）Hadoop官方网站：http://hadoop.apache.org/
2）Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式。

本地模式：单机运行，只是用来演示一下官方案例。生产环境不用。
伪分布式模式：也是单机运行，但是具备Hadoop集群的所有功能，一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试，生产环境不用。
完全分布式模式：多台服务器组成分布式环境。生产环境使用。

本地运行模式（官方WordCount）

1）创建在hadoop-3.1.3文件下面创建一个wcinput文件夹

[wuxain@hadoop102 hadoop-3.1.3]$ mkdir wcinput

2）在wcinput文件下创建一个word.txt文件

[wuxain@hadoop102 hadoop-3.1.3]$ cd wcinput

3）编辑word.txt文件

[wuxain@hadoop102 wcinput]$ vim word.txt

在文件中输入如下内容,然后保存退出：:wq

hadoop yarn
hadoop mapreduce
wuxain
wuxian

4）回到Hadoop目录/opt/module/hadoop-3.1.3

[wuxain@hadoop102 wcinput]$ cd /opt/module/hadoop-3.1.3

5）执行程序

[wuain@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput

6）查看结果

[wuxain@hadoop102 hadoop-3.1.3]$ cat wcoutput/part-r-00000

看到如下结果：

wuxian 2
hadoop 2
mapreduce 1
yarn 1

完全分布式运行模式⭐⭐⭐

分析：

1）准备3台客户机（关闭防火墙、静态IP、主机名称）
2）安装JDK
3）配置环境变量
4）安装Hadoop
5）配置环境变量
6）配置集群
7）单点启动
8）配置ssh
9）群起并测试集群
编写集群分发脚本xsync
1）scp（secure copy）安全拷贝
（1）scp定义

scp可以实现服务器与服务器之间的数据拷贝。

（2）基本语法

#命令   递归       要拷贝的文件路径/名称   	  目的地用户@主机:目的地路径/名称
scp    -r        $pdir/$fname             $user@$host:$pdir/$fname

（3）案例实操
前提：在hadoop102、hadoop103、hadoop104都已经创建好的/opt/module、 /opt/software两个目录，并且已经把这两个目录修改为wuxian:wuxian

[wuxian@hadoop102 ~]$ sudo chown wuxian:wuxian -R /opt/module

（a）在hadoop102上，将hadoop102中/opt/module/jdk1.8.0_212目录拷贝到hadoop103上。

[wuxian@hadoop102 ~]$ scp -r /opt/module/jdk1.8.0_212  wuxian@hadoop103:/opt/module

（b）在hadoop103上，将hadoop102中/opt/module/hadoop-3.1.3目录拷贝到hadoop103上。

[wuxian@hadoop103 ~]$ scp -r wuxain@hadoop102:/opt/module/hadoop-3.1.3 /opt/module/

（c）在hadoop103上操作，将hadoop102中/opt/module目录下所有目录拷贝到hadoop104上。

[wuxian@hadoop103 opt]$ scp -r wuxain@hadoop102:/opt/module/* wuxain@hadoop104:/opt/module

2）rsync远程同步工具
rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。
（1）基本语法

#命令   选项参数     要拷贝的文件路径/名称       目的地用户@主机:目的地路径/名称
rsync    -av       $pdir/$fname             $user@$host:$pdir/$fname

选项参数说明

选项	功能
-a	归档拷贝
-v	显示复制过程

（2）案例实操
（a）删除hadoop103中/opt/module/hadoop-3.1.3/wcinput

[wuxian@hadoop103 hadoop-3.1.3]$ rm -rf wcinput/

（b）同步hadoop102中的/opt/module/hadoop-3.1.3到hadoop103

[wuxian@hadoop102 module]$ rsync -av hadoop-3.1.3/ wuxian@hadoop103:/opt/module/hadoop-3.1.3/

3）xsync集群分发脚本
（1）需求：循环复制文件到所有节点的相同目录下
（2）需求分析：
（a）rsync命令原始拷贝：

rsync  -av     /opt/module  		 wuxain@hadoop103:/opt/

（b）期望脚本： xsync要同步的文件名称
（c）期望脚本在任何路径都能使用（脚本放在声明了全局环境变量的路径）

[wuxian@hadoop102 ~]$ echo $PATH
/usr/local/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/home/wuxian/.local/bin:/home/wuxian/bin:/opt/module/jdk1.8.0_212/bin

（3）脚本实现
（a）在/home/wuxian/bin目录下创建xsync文件

[wuxian@hadoop102 opt]$ cd /home/wuxian
[wuxian@hadoop102 ~]$ mkdir bin
[wuxian@hadoop102 ~]$ cd bin
[wuxian@hadoop102 bin]$ vim xsync

在该文件中编写如下代码

#!/bin/bash

#1. 判断参数个数
if [ $# -lt 1 ]
then
    echo Not Enough Arguement!
    exit;
fi

#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
    echo ====================  $host  ====================
    #3. 遍历所有目录，挨个发送

    for file in $@
    do
        #4. 判断文件是否存在
        if [ -e $file ]
            then
                #5. 获取父目录
                pdir=$(cd -P $(dirname $file); pwd)

                #6. 获取当前文件的名称
                fname=$(basename $file)
                ssh $host "mkdir -p $pdir"
                rsync -av $pdir/$fname $host:$pdir
            else
                echo $file does not exists!
        fi
    done
done

（b）修改脚本 xsync 具有执行权限

[wuxian@hadoop102 bin]$ chmod +x xsync

（c）测试脚本

[wuxian@hadoop102 bin]$ xsync /home/wuxian/bin

（d）将脚本复制到/bin中，以便全局调用

[wuxian@hadoop102 bin]$ sudo cp xsync /bin/

（e）同步环境变量配置（root所有者）

[wuxian@hadoop102 bin]$ sudo ./bin/xsync /etc/profile.d/my_env.sh

注意：如果用了sudo，那么xsync一定要给它的路径补全。

让环境变量生效

[wuxian@hadoop103 bin]$ source /etc/profile

[wuxian@hadoop104 opt]$ source /etc/profile

SSH无密登录配置

1）配置ssh
（1）基本语法

ssh另一台电脑的IP地址

（2）ssh连接时出现Host key verification failed的解决方法

[wuxain@hadoop102 ~]$ ssh hadoop103

如果出现如下内容

Are you sure you want to continue connecting (yes/no)?

输入yes，并回车

（3）退回到hadoop102

[wuxain@hadoop103 ~]$ exit

2）无密钥配置
（1）免密登录原理

（2）生成公钥和私钥

[wuxian@hadoop102 .ssh]$ pwd
/home/wuxian/.ssh
[wuxian@hadoop102 .ssh]$ ssh-keygen -t rsa

然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）

（3）将公钥拷贝到要免密登录的目标机器上

[wuxian@hadoop102 .ssh]$ ssh-copy-id hadoop102
[wuxian@hadoop102 .ssh]$ ssh-copy-id hadoop103
[wuxian@hadoop102 .ssh]$ ssh-copy-id hadoop104

注意：
还需要在hadoop103上采用wuxian账号配置一下无密登录到hadoop102、hadoop103、hadoop104服务器上。
还需要在hadoop104上采用wuxian账号配置一下无密登录到hadoop102、hadoop103、hadoop104服务器上。
还需要在hadoop102上采用wuxian账号，配置一下无密登录到hadoop102、hadoop103、hadoop104；

3）.ssh文件夹下（~/.ssh）的文件功能解释

集群配置

1）集群部署规划
注意：
NameNode和SecondaryNameNode不要安装在同一台服务器
ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上。

2）配置文件说明
Hadoop配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值。
（1）默认配置文件：

（2）自定义配置文件：

core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上，用户可以根据项目需求重新进行修改配置。

3）配置集群
（1）核心配置文件
配置core-site.xml

[wuxain@hadoop102 ~]$ cd $HADOOP_HOME/etc/hadoop
[wuxain@hadoop102 hadoop]$ vim core-site.xml

文件内容如下：




<configuration>
    
    <property>
        <name>fs.defaultFSname>
        <value>hdfs://hadoop102:8020value>
    property>

    
    <property>
        <name>hadoop.tmp.dirname>
        <value>/opt/module/hadoop-3.1.3/datavalue>
    property>

    
    <property>
        <name>hadoop.http.staticuser.username>
        <value>wuxainvalue>
    property>
configuration>

（2）HDFS配置文件
配置hdfs-site.xml

[wuxian@hadoop102 hadoop]$ vim hdfs-site.xml

文件内容如下：




<configuration>
	
	<property>
        <name>dfs.namenode.http-addressname>
        <value>hadoop102:9870value>
    property>
	
    <property>
        <name>dfs.namenode.secondary.http-addressname>
        <value>hadoop104:9868value>
    property>
configuration>

（3）YARN配置文件
配置yarn-site.xml

[wuxain@hadoop102 hadoop]$ vim yarn-site.xml

文件内容如下：




<configuration>
    
    <property>
        <name>yarn.nodemanager.aux-servicesname>
        <value>mapreduce_shufflevalue>
    property>

    
    <property>
        <name>yarn.resourcemanager.hostnamename>
        <value>hadoop103value>
    property>

    
    <property>
        <name>yarn.nodemanager.env-whitelistname>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOMEvalue>
    property>
configuration>

（4）MapReduce配置文件
配置mapred-site.xml

[wuxian@hadoop102 hadoop]$ vim mapred-site.xml

文件内容如下：




<configuration>
	
    <property>
        <name>mapreduce.framework.namename>
        <value>yarnvalue>
    property>
configuration>

4）在集群上分发配置好的Hadoop配置文件

[wuxain@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc/hadoop/

5）去103和104上查看文件分发情况

[wuxian@hadoop103 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml
[wuxian@hadoop104 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml

群起集群

1）配置workers

[wuxain@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/workers

在该文件中增加如下内容：注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。

hadoop102
hadoop103
hadoop104

同步所有节点配置文件

[wuxain@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc

2）启动集群
（1）如果集群是第一次启动，需要在hadoop102节点格式化NameNode（注意：格式化NameNode，会产生新的集群id，导致NameNode和DataNode的集群id不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化NameNode的话，一定要先停止namenode和datanode进程，并且要删除所有机器的data和logs目录，然后再进行格式化。）

[wuxain@hadoop102 hadoop-3.1.3]$ hdfs namenode -format

（2）启动HDFS

[wuxain@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh

（3）在配置了ResourceManager的节点（hadoop103）启动YARN

[wuxain@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh

（4）Web端查看HDFS的NameNode

（a）浏览器中输入：http://hadoop102:9870
（b）查看HDFS上存储的数据信息

（5）Web端查看YARN的ResourceManager

（a）浏览器中输入：http://hadoop103:8088
（b）查看YARN上运行的Job信息

3）集群基本测试
（1）上传文件到集群
上传小文件：注意 $HADOOP_HOME/wcinput/word.txt 此目录下我是有这个文件的

[wuxian@hadoop102 ~]$ hadoop fs -mkdir /input
[wuxian@hadoop102 ~]$ hadoop fs -put $HADOOP_HOME/wcinput/word.txt /input

上传大文件：注意 /opt/software/jdk-8u212-linux-x64.tar.gz 此目录下我是有这个文件的

[wuxain@hadoop102 ~]$ hadoop fs -put  /opt/software/jdk-8u212-linux-x64.tar.gz  /

（2）上传文件后查看文件存放在什么位置
查看HDFS文件存储路径：注意此处需要一步一步的进到Hadoop对应的目录下面去

[wuxain@hadoop102 subdir0]$ pwd
/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-1436128598-192.168.10.102-1610603650062/current/finalized/subdir0/subdir0

查看HDFS在磁盘存储文件内容

[wuxian@hadoop102 subdir0]$ cat blk_1073741825
hadoop yarn
hadoop mapreduce 
wuxain
wuxain

（3）拼接（可略过）

-rw-rw-r--. 1 wuxain wuxain 134217728 5月  23 16:01 blk_1073741836
-rw-rw-r--. 1 wuxain wuxain 1048583 5月  23 16:01 blk_1073741836_1012.meta
-rw-rw-r--. 1 wuxian wuxain 63439959 5月  23 16:01 blk_1073741837
-rw-rw-r--. 1 wuxain wuxain 495635 5月  23 16:01 blk_1073741837_1013.meta
[wuxain@hadoop102 subdir0]$ cat blk_1073741836>>tmp.tar.gz
[wuxain@hadoop102 subdir0]$ cat blk_1073741837>>tmp.tar.gz
[wuxain@hadoop102 subdir0]$ tar -zxvf tmp.tar.gz

（4）下载

[wuxian@hadoop104 software]$ hadoop fs -get /jdk-8u212-linux-x64.tar.gz ./

（5）执行wordcount程序 注意：自己所在的目录

[wuxain@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

配置历史服务器

为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下：
1）配置mapred-site.xml

[wuxain@hadoop102 hadoop]$ vim mapred-site.xml

在该文件里面增加如下配置。


<property>
    <name>mapreduce.jobhistory.addressname>
    <value>hadoop102:10020value>
property>


<property>
    <name>mapreduce.jobhistory.webapp.addressname>
    <value>hadoop102:19888value>
property>

2）分发配置

[wuxain@hadoop102 hadoop]$ xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml

3）在hadoop102启动历史服务器

[wuxain@hadoop102 hadoop]$ mapred --daemon start historyserver

4）查看历史服务器是否启动

[wuxain@hadoop102 hadoop]$ jps

5）查看JobHistory

http://hadoop102:19888/jobhistory

配置日志的聚集

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到HDFS系统上。

注意：开启日志聚集功能，需要重新启动NodeManager 、ResourceManager和HistoryServer。

开启日志聚集功能具体步骤如下
1）配置yarn-site.xml

[wuxain@hadoop102 hadoop]$ vim yarn-site.xml

在该文件里面增加如下配置。


<property>
    <name>yarn.log-aggregation-enablename>
    <value>truevalue>
property>

<property>  
    <name>yarn.log.server.urlname>  
    <value>http://hadoop102:19888/jobhistory/logsvalue>
property>

<property>
    <name>yarn.log-aggregation.retain-secondsname>
    <value>604800value>
property>

2）分发配置

[wuxian@hadoop102 hadoop]$ xsync $HADOOP_HOME/etc/hadoop/yarn-site.xml

3）关闭NodeManager 、ResourceManager和HistoryServer 注意：此处需重启配置才能生效

[wuxian@hadoop103 hadoop-3.1.3]$ sbin/stop-yarn.sh
[wuxian@hadoop103 hadoop-3.1.3]$ mapred --daemon stop historyserver

4）启动NodeManager 、ResourceManage和HistoryServer

[wuxain@hadoop103 ~]$ start-yarn.sh
[wuxain@hadoop102 ~]$ mapred --daemon start historyserver

5）删除HDFS上已经存在的输出文件

[wuxain@hadoop102 ~]$ hadoop fs -rm -r /output

6）执行WordCount程序

[wuxain@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

7）查看日志
（1）历史服务器地址

http://hadoop102:19888/jobhistory

（2）历史任务列表

（3）查看任务运行日志

（4）运行日志详情

集群启动/停止方式总结

1）各个模块分开启动/停止（配置ssh是前提）常用
（1）整体启动/停止HDFS

start-dfs.sh/stop-dfs.sh

（2）整体启动/停止YARN

start-yarn.sh/stop-yarn.sh

2）各个服务组件逐一启动/停止
（1）分别启动/停止HDFS组件

hdfs --daemon start/stop namenode/datanode/secondarynamenode

（2）启动/停止YARN

yarn --daemon start/stop  resourcemanager/nodemanager

编写Hadoop集群常用脚本

1）Hadoop集群启停脚本（包含HDFS，Yarn，Historyserver）：myhadoop.sh

[wuxain@hadoop102 ~]$ cd /home/wuxian/bin
[wuxain@hadoop102 bin]$ vim myhadoop.sh

输入如下内容

#!/bin/bash

if [ $# -lt 1 ]
then
    echo "No Args Input..."
    exit ;
fi

case $1 in
"start")
        echo " =================== 启动 hadoop集群 ==================="

        echo " --------------- 启动 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
        echo " --------------- 启动 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
        echo " --------------- 启动 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")
        echo " =================== 关闭 hadoop集群 ==================="

        echo " --------------- 关闭 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"
        echo " --------------- 关闭 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
        echo " --------------- 关闭 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
    echo "Input Args Error..."
;;
esac

保存后退出，然后赋予脚本执行权限

[wuxain@hadoop102 bin]$ chmod +x myhadoop.sh

2）查看三台服务器Java进程脚本：jpsall

[wuxain@hadoop102 ~]$ cd /home/wuxian/bin
#注意：此处会新建一个jpsall文件
[wuxain@hadoop102 bin]$ vim jpsall

在文件中复制如下内容

#!/bin/bash

for host in hadoop102 hadoop103 hadoop104
do
        echo =============== $host ===============
        ssh $host jps 
done

保存后退出，然后赋予脚本执行权限

[wuxian@hadoop102 bin]$ chmod +x jpsall

3）分发/home/wuxian/bin目录，保证自定义脚本在三台机器上都可以使用

[wuxain@hadoop102 ~]$ xsync /home/wuxian/bin/

常用端口号说明

集群时间同步(注意：如果能连接外网则可直接省略)

如果服务器在公网环境（能连接外网），可以不采用集群时间同步，因为服务器会定期和公网时间进行校准；
如果服务器在内网环境，必须要配置集群时间同步，否则时间久了，会产生时间偏差，导致集群执行任务时间不同步。
1）需求
找一个机器，作为时间服务器，所有的机器与这台集群时间进行定时的同步，生产环境根据任务对时间的准确程度要求周期同步。测试环境为了尽快看到效果，采用1分钟同步一次。

2）时间服务器配置（必须root用户）
（1）查看所有节点ntpd服务状态和开机自启动状态

[wuxain@hadoop102 ~]$ sudo systemctl status ntpd
[wuxain@hadoop102 ~]$ sudo systemctl start ntpd
[wuxain@hadoop102 ~]$ sudo systemctl is-enabled ntpd

（2）修改hadoop102的ntp.conf配置文件

[wuxain@hadoop102 ~]$ sudo vim /etc/ntp.conf

修改内容如下
（a）修改1（授权192.168.10.0-192.168.10.255网段上的所有机器可以从这台机器上查询和同步时间）

restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap

为

restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap

（b）修改2（集群在局域网中，不使用其他互联网上的时间）

server 0.centos.pool.ntp.org iburst
server 1.centos.pool.ntp.org iburst
server 2.centos.pool.ntp.org iburst
server 3.centos.pool.ntp.org iburst

为

#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst

（c）添加3（当该节点丢失网络连接，依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步）

server 127.127.1.0
fudge 127.127.1.0 stratum 10

（3）修改hadoop102的/etc/sysconfig/ntpd 文件

[wuxian@hadoop102 ~]$ sudo vim /etc/sysconfig/ntpd

增加内容如下（让硬件时间与系统时间一起同步）

SYNC_HWCLOCK=yes

（4）重新启动ntpd服务

[wuxain@hadoop102 ~]$ sudo systemctl start ntpd

（5）设置ntpd服务开机启动

[wuxian@hadoop102 ~]$ sudo systemctl enable ntpd

3）其他机器配置（必须root用户）
（1）关闭所有节点上ntp服务和自启动

[wuxian@hadoop103 ~]$ sudo systemctl stop ntpd
[wuxian@hadoop103 ~]$ sudo systemctl disable ntpd
[wuxian@hadoop104 ~]$ sudo systemctl stop ntpd
[wuxian@hadoop104 ~]$ sudo systemctl disable ntpd

（2）在其他机器配置1分钟与时间服务器同步一次

[wuxain@hadoop103 ~]$ sudo crontab -e

编写定时任务如下：

*/1 * * * * /usr/sbin/ntpdate hadoop102

（3）修改任意机器时间

[wuxain@hadoop103 ~]$ sudo date -s "2021-9-11 11:11:11"

（4）1分钟后查看机器是否与时间服务器同步

[wuxain@hadoop103 ~]$ sudo date

常见错误及解决方案

1）防火墙没关闭、或者没有启动YARN
INFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:8032

2）主机名称配置错误

3）IP地址配置错误

4）ssh没有配置好

5）root用户和wuxian两个用户启动集群不统一

6）配置文件修改不细心

7）不识别主机名称
java.net.UnknownHostException: hadoop102: hadoop102
at java.net.InetAddress.getLocalHost(InetAddress.java:1475)
at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:146)
at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1290)
at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1287)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
解决办法：
（1）在/etc/hosts文件中添加192.168.10.102 hadoop102
（2）主机名称不要起hadoop hadoop000等特殊名称

8）DataNode和NameNode进程同时只能工作一个。

9）执行命令不生效，粘贴Word中命令时，遇到-和长–没区分开。导致命令失效
解决办法：尽量不要粘贴Word中代码。

10）jps发现进程已经没有，但是重新启动集群，提示进程已经开启。
原因是在Linux的根目录下/tmp目录中存在启动的进程临时文件，将集群相关进程删除掉，再重新启动集群。

11）jps不生效
原因：全局变量hadoop java没有生效。解决办法：需要source /etc/profile文件。

12）8088端口连接不上
[wuxian@hadoop102 桌面]$ cat /etc/hosts
注释掉如下代码
#127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
#::1 hadoop102

你可能感兴趣的:(BigData,hadoop,大数据,分布式)

分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
RocketMQ 之死信队列 firepation RocketMQ rocketmq
在分布式消息系统中，消息的可靠传递和处理至关重要。然而，由于各种原因（如消息处理失败、消费超时等），一些消息可能无法被正常消费。这些无法被消费的消息如果不加以处理，会影响系统的稳定性和数据一致性。为了解决这一问题，RocketMQ提供了死信队列（DeadLetterQueue，DLQ）机制。本文将深入探讨RocketMQ的死信队列，包括其实现原理、应用场景以及使用示例。什么是死信队列？死信队列是一
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
ZooKeeper架构及应用场景详解走过冬季学习笔记 zookeeper 架构分布式
ZooKeeper是一个开源的分布式协调服务，由Apache软件基金会维护。它旨在为分布式应用提供高性能、高可用、强一致性的基础服务，解决分布式系统中常见的协调难题（如配置管理、命名服务、分布式锁、服务发现、领导者选举等）。核心软件架构ZooKeeper的架构设计围绕其核心目标（协调）而优化，主要包含以下关键组件：集群模式(Ensemble):ZooKeeper通常部署为集群（称为ensemble
zookeeper etcd区别 sun007700 zookeeper etcd 分布式
ZooKeeper与etcd的核心区别体现在设计理念、数据模型、一致性协议及适用场景等方面。‌ZooKeeper基于ZAB协议实现分布式协调，采用树形数据结构和临时节点特性，适合传统分布式系统；而etcd基于Raft协议，以高性能键值对存储为核心，专为云原生场景优化，是Kubernetes等容器编排系统的默认存储组件。‌‌1‌‌2‌架构与设计目标差异‌‌ZooKeeper‌。‌设计定位‌:专注于分
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
分布式选举算法＜一＞ Bully算法
分布式选举算法详解：Bully算法引言在分布式系统中，节点故障是不可避免的。当主节点（Leader）发生故障时，系统需要快速选举出新的主节点来保证服务的连续性。Bully算法是一种经典的分布式选举算法，以其简单高效的特点被广泛应用于各种分布式系统中。什么是Bully算法？Bully算法是一种基于优先级的分布式选举算法。每个节点都有一个唯一的ID，ID值越大的节点优先级越高。当主节点故障时，优先级最
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Python爬虫实战：基于最新技术的定时签到系统开发全解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言人工智能自动化知识图谱
摘要本文详细介绍了如何使用Python开发一个功能完善的定时签到爬虫系统。文章从爬虫基础知识讲起，逐步深入到高级技巧，包括异步请求处理、浏览器自动化、验证码破解、分布式架构等最新技术。我们将通过一个完整的定时签到项目案例，展示如何构建一个稳定、高效且具有良好扩展性的爬虫系统。文中提供了大量可运行的代码示例，涵盖requests、aiohttp、selenium、playwright等多种技术方案，
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
web3中的ipfs 财神爷首席大弟子 web3 去中心化区块链
什么是web3：是基于区块链技术的分布式网络，主要目标是建立一个去中心化与信任化的互联网去中心化以及是信任化区块链：将所有的交易记录和什么护具存储在分布式网络中，每一个node都有完整的数据副本任何一个node修改都需要得到其他节点的认可，确保数据的真实性和和可信度web3有一些关键技术和标准，例如以太坊，IPFS，ENS，ERC标准等以太坊：以太币是一个开源的有智能合约功能的公共区块链平台，通过
使用ceph-ansible部署分布式存储Ceph-octopus版本降世神童云计算技术专栏分布式 ceph ansible
使用ceph-ansible部署分布式存储Ceph-octopus版本1.Ceph基础概念及部署方式1.1.Ceph基本概念1.2.Ceph部署方式2.系统初始化配置3.Ceph集群部署3.1.Ansible安装与配置3.2.ceph-ansible安装与配置3.2.1.下载ceph-ansible3.2.2.安装ceph-ansible依赖3.2.3.修改ceph配置文件3.3.开始部署ceph
2024年运维最新分布式存储ceph osd 常用操作_ceph查看osd对应硬盘(1)，2024年最新Linux运维编程基础教程 2401_83944328 程序员运维分布式 ceph
最全的Linux教程，Linux从入门到精通======================linux从入门到精通(第2版)Linux系统移植Linux驱动开发入门与实战LINUX系统移植第2版Linux开源网络全栈详解从DPDK到OpenFlow第一份《Linux从入门到精通》466页====================内容简介====本书是获得了很多读者好评的Linux经典畅销书**《Linu
【赵渝强老师】基于PostgreSQL的分布式数据库：Citus
由于PostgreSQL具有强大的功能和良好的可扩展性，因此基于PostgreSQL很容易就可以实现分布式架构。Citus便是具体的一种实现方式。它以扩展的插件形式与PostgreSQL进行集成，且独立于PostgreSQL内核，部署也比较简单。Citus是现在非常流行的基于PostgreSQL的分布式解决方案。一、Citus基础下面是百度百科中对分布式数据库的定义：分布式数据库系统通常使用较小的
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
使用HarmonyOS 5和CodeGenie辅助工具开发鸿蒙运动健康类应用的项目总结哼唧唧_ CodeGenie 运动健康 Harmony OS5 harmonyos 华为
一、项目背景与目标随着鸿蒙生态在穿戴设备、智能家居领域的快速扩展，我团队基于HarmonyOS5操作系统，开发了一款面向运动健康场景的智能应用——“Harmony健康伴侣”。项目采用华为官方推出的智能编程助手CodeGenie进行辅助开发，旨在验证CodeGenie在提升鸿蒙应用开发效率与质量方面的实际效果。二、核心功能实现该应用深度融合HarmonyOS分布式能力，支持跨设备无缝协同，主要功能包
万物智联时代启航：鸿蒙OS重塑全场景开发新生态黑巧克力可减脂鸿蒙开发鸿蒙系统
目录HarmonyOS简介：分布式操作系统，开启万物智联新时代HarmonyOS发展历程：从破局到引领核心特性：分布式技术三支柱应用场景：全场景覆盖的鸿蒙生态什么选择鸿蒙开发？技术红利与市场蓝海结语：拥抱鸿蒙，赢在万物智联起点HarmonyOS简介：分布式操作系统，开启万物智联新时代什么是鸿蒙？HarmonyOS（鸿蒙操作系统）是华为自主研发的面向全场景的分布式操作系统，其核心使命是打破设备孤岛，
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
HIVE（二） 2301_78012738 hive 数据仓库
目录访问HIVE的三种方式DDLDML数据操作向表中装载数据数据导出常用函数Like和RLike分组Join排序分区表和分桶表访问HIVE的三种方式启动Hive命令，CtrlC退出客户端，执行测试语句，与sql一致[wyc@hadoop102hive]$bin/hive经验小结：在hive中执行语句报错：ExecutionError,returncode2fromorg.apache.hadoop
redis锁java实现 brave_zhao redis java 数据库
以下是几种常见的Redis分布式锁的Java实现方式：1.基于SETNX命令的实现SETNX命令（对应Java中的setIfAbsent方法）是实现Redis分布式锁的基础。以下是实现代码：importredis.clients.jedis.Jedis;publicclassRedisLock{privateJedisjedis;publicRedisLock(Jedisjedis){this.j
服务实现99.99%高可用的核心措施
在分布式系统中，高可用性（HA）是衡量服务可靠性的核心指标。99.99%的可用性意味着系统每年的停机时间不超过约52.6分钟，这对金融交易、电信服务等关键业务至关重要。一、冗余设计与故障转移原理：通过冗余部署消除单点故障，确保部分节点故障时服务仍可用。故障转移机制自动将流量切换至健康节点，缩短服务中断时间。Java服务实现：集群部署：使用SpringCloudAlibaba或Dubbo构建微服务集
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http