_七七

Hadoop集群入门配置

文章目录

Hadoop概述
- Hadoop组成
- HDFS架构概述
- YARN架构概述
- MapReduce架构概述
一、模板虚拟机环境准备
- 1、hadoop100虚拟机配置要求如下
- - 1、安装epel-release
  - 2、net-tool：工具包集合
  - 3、关闭防火墙，关闭防火墙开机自启
  - 4、创建用户并修改密码
  - 5、（可选）配置liyuhao用户具有root权限，方便后期加sudo执行root权限的命令
  - 6、在/opt目录下创建文件夹，并修改所属主和所属组
  - 7、卸载虚拟机自带的JDK
二、克隆虚拟机
- - 1）利用模板机hadoop100，克隆三台虚拟机：hadoop102 hadoop103 hadoop104
  - 2）修改克隆机IP，以下以hadoop102举例说明
  - 3）在hadoop102安装JDK
  - 4）在hadoop102安装Hadoop
  - 5）hadoop 的目录结构
三、Hadoop运行模式
- 1、本地运行模式（官方WordCount）
- 2、完全分布式运行模式（开发重点）
- - 1、编写集群分发脚本
  - - 1）scp（secure copy）安全拷贝
    - 2）rsync远程同步工具
    - 3）xsync集群分发脚本
    - （a）创建xsync文件
    - （b）修改脚本 xsync 具有执行权限
    - （c）将脚本复制到/bin中，以便全局调用
    - （d）目标文件分发使用
- 3、SSH无密登录配置
- - 1、配置ssh
  - 2、生成公钥和私钥
  - 3、.ssh文件夹下（~/.ssh）的文件功能解释
- 4、集群配置
- - 1）集群部署规划
  - 2）配置文件
  - 3）配置集群
  - - （1）核心配置文件
    - （2）HDFS配置文件
    - （3）YARN配置文件
    - （4）MapReduce配置文件
  - 4）在集群上分发配置好的Hadoop配置文件
  - 5）去103和104上查看文件分发情况
- 5、群起集群
- - 1）配置workers
  - 2）启动集群
  - 3）集群基本测试
  - - （1）上传文件到集群
    - （2）查看HDFS文件存储路径
    - （3）查看HDFS在磁盘存储文件内容
    - （4）下载文件
    - （5）执行wordcount程序
- 6、配置历史服务器
- - 1）配置mapred-site.xml
  - 2）分发
  - 3）在hadoop102启动历史服务器
  - 4）查看进程
- 7、配置日志的聚集
- - 1）配置yarn-site.xml
  - 2）分发
  - 3）关闭NodeManager 、ResourceManager和HistoryServer
  - 4）进行测试、删除HDFS上已经存在的输出文件
  - 5）执行wordcount
  - 6）查看日志
- 8、集群启动/停止方式总结
- 9、编写Hadoop集群常用脚本
- 10、常用端口号说明
- 11、集群时间同步

Hadoop概述

Hadoop组成

HDFS架构概述

Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。

NameNode (nn)︰存储文件的元数据。如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限)，以及每个文件的块列表和块所在的DataNode等。
DataNode(dn):在本地文件系统存储文件块数据。以及块数据的校验和。

3 ) Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。

YARN架构概述

MapReduce架构概述

MapReduce将计算过程分为两个阶段：Map和Reduce

1）Map阶段并行处理输入数据

2）Reduce阶段对Map结果进行汇总

一、模板虚拟机环境准备

安装模板虚拟机，IP地址192.168.10.100、主机名称hadoop100

1、hadoop100虚拟机配置要求如下

1、安装epel-release


[root@hadoop100 ~]# yum install epel-release

2、net-tool：工具包集合


[root@hadoop100 ~]# yum install -y net-tools

3、关闭防火墙，关闭防火墙开机自启


[root@hadoop100 ~]# systemctl stop firewalld
[root@hadoop100 ~]# systemctl disable firewalld.service
Removed symlink /etc/systemd/system/multi-user.target.wants/firewalld.service.
Removed symlink /etc/systemd/system/dbus-org.fedoraproject.FirewallD1.service.

4、创建用户并修改密码


[root@hadoop100 ~]# useradd liyuhao
[root@hadoop100 ~]# passwd liyuhao

5、（可选）配置liyuhao用户具有root权限，方便后期加sudo执行root权限的命令

[root@hadoop100 ~]# vim /etc/sudoers

注意：liyuhao这一行不要直接放到root行下面，因为所有用户都属于wheel组，你先配置了liyuhao具有免密功能，但是程序执行到%wheel行时，该功能又被覆盖回需要密码。所以liyuhao要放到%wheel这行下面。

6、在/opt目录下创建文件夹，并修改所属主和所属组

（1）在/opt目录下创建module、software文件夹

[root@hadoop100 ~]# mkdir /opt/module
[root@hadoop100 ~]# mkdir /opt/software
[root@hadoop100 ~]# ll /opt
总用量 12
drwxr-xr-x. 2 root root 4096 2月  17 11:32 module
drwxr-xr-x. 2 root root 4096 10月 31 2018 rh
drwxr-xr-x. 2 root root 4096 2月  17 11:32 software

[root@hadoop100 ~]# chown liyuhao:liyuhao /opt/module
[root@hadoop100 ~]# chown liyuhao:liyuhao /opt/software
[root@hadoop100 ~]# ll /opt/
总用量 12
drwxr-xr-x. 2 liyuhao liyuhao 4096 2月  17 11:32 module
drwxr-xr-x. 2 root    root    4096 10月 31 2018 rh
drwxr-xr-x. 2 liyuhao liyuhao 4096 2月  17 11:32 software

7、卸载虚拟机自带的JDK

[root@hadoop100 ~]# rpm -qa | grep -i java
java-1.8.0-openjdk-headless-1.8.0.222.b03-1.el7.x86_64
python-javapackages-3.4.1-11.el7.noarch
tzdata-java-2019b-1.el7.noarch
java-1.7.0-openjdk-headless-1.7.0.221-2.6.18.1.el7.x86_64
javapackages-tools-3.4.1-11.el7.noarch
java-1.8.0-openjdk-1.8.0.222.b03-1.el7.x86_64
java-1.7.0-openjdk-1.7.0.221-2.6.18.1.el7.x86_64

[root@hadoop100 ~]# rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps
[root@hadoop100 ~]# rpm -qa | grep -i java
[root@hadoop100 ~]#

rpm -qa：查询所安装的所有rpm软件包
grep -i：忽略大小写
xargs -n1：表示每次只传递一个参数
rpm -e –nodeps：强制卸载软件

8、重启虚拟机

reboot

二、克隆虚拟机

1）利用模板机hadoop100，克隆三台虚拟机：hadoop102 hadoop103 hadoop104

注意：克隆时，要先关闭hadoop100

2）修改克隆机IP，以下以hadoop102举例说明

[root@hadoop100 ~]# vim /etc/sysconfig/network-scripts/ifcfg-ens33

改成

BOOTPROTO=static
IPADDR=192.168.10.102
GATEWAY=192.168.10.2
DNS1=192.168.10.2

（1）修改克隆机主机名

[root@hadoop100 ~]# vim /etc/hostname
hadoop102

主机名称映射hosts文件
[root@hadoop100 ~]# vim /etc/hosts

（2）reboot

3）在hadoop102安装JDK

1）卸载JDK

[root@hadoop100 ~]# rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps
[root@hadoop100 ~]# rpm -qa | grep -i java

2）官网下载

https://www.java.com/zh-CN/download/manual.jsp

用XShell传输工具将JDK导入到opt目录下面的software文件夹下面

3）在Linux系统下的opt目录中查看软件包是否导入成功

[root@hadoop102 ~]# ls /opt/software/
jre-8u321-linux-x64.tar.gz

4）解压JDK到/opt/module目录下

[root@hadoop102 software]# tar -zxvf jre-8u321-linux-x64.tar.gz -C /opt/module/

5）配置JDK环境变量
（1）新建/etc/profile.d/my_env.sh文件

[root@hadoop102 software]# vim /etc/profile.d/my_env.sh

#JAVA_HOME
export JAVA_HOME=/opt/module/jre1.8.0_321
export PATH=$PATH:$JAVA_HOME/bin

（2）source一下/etc/profile文件，让新的环境变量PATH生效

[root@hadoop102 software]# source /etc/profile

（3）测试JDK是否安装成功

[root@hadoop102 software]# java -version
java version "1.8.0_321"
Java(TM) SE Runtime Environment (build 1.8.0_321-b07)
Java HotSpot(TM) 64-Bit Server VM (build 25.321-b07, mixed mode)

4）在hadoop102安装Hadoop

Hadoop下载地址：https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/

（1）解压安装文件到/opt/module下面


[root@hadoop102 module]# tar -cxvf hadoop-3.1.3.tar.gz -C /opt/module/

[root@hadoop102 module]# cd hadoop-3.1.3/
[root@hadoop102 hadoop-3.1.3]# ll
总用量 200
drwxr-xr-x. 2 lyh lyh   4096 9月  12 2019 bin
drwxr-xr-x. 3 lyh lyh   4096 9月  12 2019 etc
drwxr-xr-x. 2 lyh lyh   4096 9月  12 2019 include
drwxr-xr-x. 3 lyh lyh   4096 9月  12 2019 lib
drwxr-xr-x. 4 lyh lyh   4096 9月  12 2019 libexec
-rw-rw-r--. 1 lyh lyh 147145 9月   4 2019 LICENSE.txt
-rw-rw-r--. 1 lyh lyh  21867 9月   4 2019 NOTICE.txt
-rw-rw-r--. 1 lyh lyh   1366 9月   4 2019 README.txt
drwxr-xr-x. 3 lyh lyh   4096 9月  12 2019 sbin
drwxr-xr-x. 4 lyh lyh   4096 9月  12 2019 share

（2）将Hadoop添加到环境变量

获取Hadoop安装路径

[root@hadoop102 hadoop-3.1.3]# pwd
/opt/module/hadoop-3.1.3

打开/etc/profile.d/my_env.sh文件

[root@hadoop102 hadoop-3.1.3]# sudo vim /etc/profile.d/my_env.sh

#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin


[root@hadoop102 hadoop-3.1.3]# source /etc/profile
[root@hadoop102 hadoop-3.1.3]# hadoop version
Hadoop 3.1.3
Source code repository https://gitbox.apache.org/repos/asf/hadoop.git -r ba631c436b806728f8ec2f54ab1e289526c90579
Compiled by ztang on 2019-09-12T02:47Z
Compiled with protoc 2.5.0
From source with checksum ec785077c385118ac91aadde5ec9799
This command was run using /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-common-3.1.3.jar

5）hadoop 的目录结构

[root@hadoop102 hadoop-3.1.3]# ll
总用量 200
drwxr-xr-x. 2 lyh lyh   4096 9月  12 2019 bin
drwxr-xr-x. 3 lyh lyh   4096 9月  12 2019 etc
drwxr-xr-x. 2 lyh lyh   4096 9月  12 2019 include
drwxr-xr-x. 3 lyh lyh   4096 9月  12 2019 lib
drwxr-xr-x. 4 lyh lyh   4096 9月  12 2019 libexec
-rw-rw-r--. 1 lyh lyh 147145 9月   4 2019 LICENSE.txt
-rw-rw-r--. 1 lyh lyh  21867 9月   4 2019 NOTICE.txt
-rw-rw-r--. 1 lyh lyh   1366 9月   4 2019 README.txt
drwxr-xr-x. 3 lyh lyh   4096 9月  12 2019 sbin
drwxr-xr-x. 4 lyh lyh   4096 9月  12 2019 share

重要目录

（1）bin目录：存放对Hadoop相关服务（hdfs，yarn，mapred）进行操作的脚本

（2）etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件

（3）lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）

（4）sbin目录：存放启动或停止Hadoop相关服务的脚本

（5）share目录：存放Hadoop的依赖jar包、文档、和官方案例

三、Hadoop运行模式

Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式。

本地模式：单机运行，只是用来演示一下官方案例。生产环境不用。数据存储LINUX本地。
伪分布式模式：也是单机运行，但是具备Hadoop集群的所有功能，一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试，生产环境不用。数据存储HDFS。
完全分布式模式：多台服务器组成分布式环境。生产环境使用。数据存储HDFS，多台服务器。

1、本地运行模式（官方WordCount）

1）创建在hadoop-3.1.3文件下面创建一个wcinput文件夹

[root@hadoop102 ~]# cd /opt/module/hadoop-3.1.3/
[root@hadoop102 hadoop-3.1.3]# mkdir wcinput
[root@hadoop102 hadoop-3.1.3]# cd wcinput/
[root@hadoop102 wcinput]# vim word.txt

[root@hadoop102 wcinput]# cat word.txt 
hadoop yarn
hadoop mapreduce
liyuhao
liyuhao

2）回到Hadoop目录/opt/module/hadoop-3.1.3

[root@hadoop102 hadoop-3.1.3]# hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput


[root@hadoop102 hadoop-3.1.3]# cat wcoutput/part-r-00000
hadoop	2
liyuhao	2
mapreduce	1
yarn	1

2、完全分布式运行模式（开发重点）

1、编写集群分发脚本

1）scp（secure copy）安全拷贝

（1）scp定义

scp可以实现服务器与服务器之间的数据拷贝。（from server1 to server2）

（2）基本语法

scp    -r        $pdir/$fname             $user@$host:$pdir/$fname
命令   递归     要拷贝的文件路径/名称   目的地用户@主机:目的地路径/名称

案例实操

前提：在hadoop102、hadoop103、hadoop104都已经创建好的/opt/module、/opt/software两个目录，并且已经把这两个目录修改为root:root

sudo chown root:root -R /opt/module

（a）在hadoop102上，将hadoop102中/opt/module/jdk1.8.0_212目录拷贝到hadoop103上。

[root@hadoop102 ~]$ scp -r /opt/module/jdk1.8.0_212 root@hadoop103:/opt/module

（b）在hadoop103上，将hadoop102中/opt/module/hadoop-3.1.3目录拷贝到hadoop103上。

[root@hadoop103 ~]$ scp -r root@hadoop102:/opt/module/hadoop-3.1.3 /opt/module/

（c）在hadoop103上操作，将hadoop102中/opt/module目录下所有目录拷贝到hadoop104上。

[root@hadoop103 opt]$ scp -r root@hadoop102:/opt/module/* root@hadoop104:/opt/module

2）rsync远程同步工具

rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。

（1）基本语法

rsync    -av       $pdir/$fname             $user@$host:$pdir/$fname
命令   选项参数   要拷贝的文件路径/名称   目的地用户@主机:目的地路径/名称

选项参数说明
选项	功能
-a	归档拷贝
-v	显示复制过程

（2）案例实操

（a）删除hadoop103中/opt/module/hadoop-3.1.3/wcinput

hadoop103

[root@hadoop103 hadoop-3.1.3]# ll
总用量 208
drwxr-xr-x. 2 lyh  lyh    4096 9月  12 2019 bin
drwxr-xr-x. 3 lyh  lyh    4096 9月  12 2019 etc
drwxr-xr-x. 2 lyh  lyh    4096 9月  12 2019 include
drwxr-xr-x. 3 lyh  lyh    4096 9月  12 2019 lib
drwxr-xr-x. 4 lyh  lyh    4096 9月  12 2019 libexec
-rw-rw-r--. 1 lyh  lyh  147145 9月   4 2019 LICENSE.txt
-rw-rw-r--. 1 lyh  lyh   21867 9月   4 2019 NOTICE.txt
-rw-rw-r--. 1 lyh  lyh    1366 9月   4 2019 README.txt
drwxr-xr-x. 3 lyh  lyh    4096 9月  12 2019 sbin
drwxr-xr-x. 4 lyh  lyh    4096 9月  12 2019 share
drwxr-xr-x. 2 root root   4096 2月  17 16:45 wcinput
drwxr-xr-x. 2 root root   4096 2月  17 16:47 wcoutput

[root@hadoop103 hadoop-3.1.3]# rm -rf wcinput/

[root@hadoop103 hadoop-3.1.3]# ll
总用量 204
drwxr-xr-x. 2 lyh  lyh    4096 9月  12 2019 bin
drwxr-xr-x. 3 lyh  lyh    4096 9月  12 2019 etc
drwxr-xr-x. 2 lyh  lyh    4096 9月  12 2019 include
drwxr-xr-x. 3 lyh  lyh    4096 9月  12 2019 lib
drwxr-xr-x. 4 lyh  lyh    4096 9月  12 2019 libexec
-rw-rw-r--. 1 lyh  lyh  147145 9月   4 2019 LICENSE.txt
-rw-rw-r--. 1 lyh  lyh   21867 9月   4 2019 NOTICE.txt
-rw-rw-r--. 1 lyh  lyh    1366 9月   4 2019 README.txt
drwxr-xr-x. 3 lyh  lyh    4096 9月  12 2019 sbin
drwxr-xr-x. 4 lyh  lyh    4096 9月  12 2019 share
drwxr-xr-x. 2 root root   4096 2月  17 16:47 wcoutput

（b）同步hadoop102中的/opt/module/hadoop-3.1.3到hadoop103

hadoop102

[root@hadoop102 module]#  rsync -av hadoop-3.1.3/ root@hadoop103:/opt/module/hadoop-3.1.3/
The authenticity of host 'hadoop103 (192.168.10.103)' can't be established.
ECDSA key fingerprint is SHA256:01MEqjbUTtlwu/eeW4s/lw5f3Rg+IQfuc43NMVLqckk.
ECDSA key fingerprint is MD5:ac:a2:7c:97:22:44:ba:31:1d:73:f2:67:28:cf:ba:a8.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added 'hadoop103,192.168.10.103' (ECDSA) to the list of known hosts.
root@hadoop103's password: 
sending incremental file list
./
wcinput/
wcinput/word.txt

sent 683,973 bytes  received 2,662 bytes  16,953.95 bytes/sec
total size is 844,991,426  speedup is 1,230.63

hadoop103

[root@hadoop103 hadoop-3.1.3]# ll
总用量 208
drwxr-xr-x. 2 lyh  lyh    4096 9月  12 2019 bin
drwxr-xr-x. 3 lyh  lyh    4096 9月  12 2019 etc
drwxr-xr-x. 2 lyh  lyh    4096 9月  12 2019 include
drwxr-xr-x. 3 lyh  lyh    4096 9月  12 2019 lib
drwxr-xr-x. 4 lyh  lyh    4096 9月  12 2019 libexec
-rw-rw-r--. 1 lyh  lyh  147145 9月   4 2019 LICENSE.txt
-rw-rw-r--. 1 lyh  lyh   21867 9月   4 2019 NOTICE.txt
-rw-rw-r--. 1 lyh  lyh    1366 9月   4 2019 README.txt
drwxr-xr-x. 3 lyh  lyh    4096 9月  12 2019 sbin
drwxr-xr-x. 4 lyh  lyh    4096 9月  12 2019 share
drwxr-xr-x. 2 root root   4096 2月  17 16:45 wcinput
drwxr-xr-x. 2 root root   4096 2月  17 16:47 wcoutput

3）xsync集群分发脚本

期望脚本在任何路径都能使用（需要把脚本放在声明了全局环境变量的路径）

rsync命令原始拷贝：

rsync -av /opt/module root@hadoop103:/opt/

（a）创建xsync文件

查看全局变量

[root@hadoop102 home]# echo $PATH
/usr/local/bin:/usr/local/sbin:/usr/bin:/usr/sbin:/bin:/sbin:/opt/module/jre1.8.0_321/bin:/opt/module/hadoop-3.1.3/bin:/opt/module/hadoop-3.1.3/sbin:/root/bin:/opt/module/jre1.8.0_321/bin:/opt/module/hadoop-3.1.3/bin:/opt/module/hadoop-3.1.3/sbin

创建xsync脚本

[root@hadoop102 bin]# vim xsync

#!/bin/bash

#1. 判断参数个数
if [ $# -lt 1 ]
# 如果 参数 个数小于 1 ：未传参
then
    echo Not Enough Arguement!
    exit;
fi

#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
    echo ====================  $host  ====================
    #3. 遍历所有目录，挨个发送
    for file in $@
    do
        #4. 判断文件是否存在
        if [ -e $file ]
        then
            #5. 获取 当前 父目录 -P：软连接希望同步到到根目录
            # 软连接 ln s aaa bbb    cd -P bbb -> 进入aaa路径
            pdir=$(cd -P $(dirname $file); pwd)
            
            #6. 获取当前文件的名称
            fname=$(basename $file)
            ssh $host "mkdir -p $pdir" # 到目标host创建文件  -p：无论是否存在文件名都创建
            rsync -av $pdir/$fname $host:$pdir
        else
            echo $file does not exists!
        fi
    done
done

（b）修改脚本 xsync 具有执行权限

[root@hadoop102 bin]# ll xsync 
-rw-r--r--. 1 root root 948 2月  18 10:39 xsync

[root@hadoop102 bin]# chmod +x xsync 

[root@hadoop102 bin]# ll xsync 
-rwxr-xr-x. 1 root root 948 2月  18 10:39 xsync

（c）将脚本复制到/bin中，以便全局调用

[root@hadoop102 bin]# cp xsync /bin

[root@hadoop102 bin]# cd /bin/

[root@hadoop102 bin]# ll | grep xsync
-rwxr-xr-x. 1 root root        948 2月  18 11:00 xsync

（d）目标文件分发使用

[root@hadoop102 bin]# xsync /bin/xsync 
==================== hadoop102 ====================
root@hadoop102's password: 
root@hadoop102's password: 
sending incremental file list

sent 43 bytes  received 12 bytes  22.00 bytes/sec
total size is 948  speedup is 17.24
==================== hadoop103 ====================
root@hadoop103's password: 
root@hadoop103's password: 
sending incremental file list
xsync

sent 1,038 bytes  received 35 bytes  429.20 bytes/sec
total size is 948  speedup is 0.88
==================== hadoop104 ====================
root@hadoop104's password: 
root@hadoop104's password: 
sending incremental file list
xsync

sent 1,038 bytes  received 35 bytes  429.20 bytes/sec
total size is 948  speedup is 0.88

（e）分发环境变量

[root@hadoop102 bin]# sudo /bin/xsync /etc/profile.d/my_env.sh 
==================== hadoop102 ====================
root@hadoop102's password: 
root@hadoop102's password: 
sending incremental file list

sent 48 bytes  received 12 bytes  24.00 bytes/sec
total size is 215  speedup is 3.58
==================== hadoop103 ====================
root@hadoop103's password: 
root@hadoop103's password: 
sending incremental file list

sent 48 bytes  received 12 bytes  24.00 bytes/sec
total size is 215  speedup is 3.58
==================== hadoop104 ====================
root@hadoop104's password: 
root@hadoop104's password: 
sending incremental file list

sent 48 bytes  received 12 bytes  24.00 bytes/sec
total size is 215  speedup is 3.58

让环境变量生效

[root@hadoop103 bin]# source /etc/profile
[root@hadoop104 bin]# source /etc/profile

3、SSH无密登录配置

1、配置ssh

基本语法

ssh 另一台电脑的IP地址

ssh连接:

[root@hadoop102 bin]# ssh hadoop103
root@hadoop103's password: 
Last login: Fri Feb 18 09:41:23 2022
[root@hadoop103 ~]# exit
登出
Connection to hadoop103 closed.

2、生成公钥和私钥

现在想要hadoop102 免密登录 103 104

[root@hadoop102 .ssh]# pwd
/root/.ssh

[root@hadoop102 .ssh]# ll
总用量 4
-rw-r--r--. 1 root root 558 2月  18 11:16 known_hosts

.ssh目录下 ssh-keygen -t rsa，

然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）

[root@hadoop102 .ssh]# ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa): 
Enter passphrase (empty for no passphrase): 
Enter same passphrase again: 
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
SHA256:TFAcmwMOZ9pCsjsFiBFyFgcI8Qdo5uk17+flzOQEd+ root@hadoop102
The key's randomart image is:
+---[RSA 2048]----+
|OBOo+ =oo.       |
|** B B o.o       |
|+ + = o =        |
| o * . o .  .    |
|. + o  .S. . .   |
| . . .  o . .    |
|    .    +   E   |
|     . .O        |
+----[SHA256]-----+

[root@hadoop102 .ssh]# ll
总用量 12
-rw-------. 1 root root 1675 2月  18 13:45 id_rsa
-rw-r--r--. 1 root root  396 2月  18 13:45 id_rsa.pub
-rw-r--r--. 1 root root  558 2月  18 11:16 known_hosts

（3）将hadoop102公钥拷贝到要免密登录的目标机器上

[root@hadoop102 .ssh]# ssh-copy-id hadoop103
/usr/bin/ssh-copy-id: INFO: attempting to log in with the new key(s), to filter out any that are already installed
/usr/bin/ssh-copy-id: INFO: 1 key(s) remain to be installed -- if you are prompted now it is to install the new keys
root@hadoop103's password: 

Number of key(s) added: 1

Now try logging into the machine, with:   "ssh 'hadoop103'"
and check to make sure that only the key(s) you wanted were added.

[root@hadoop102 .ssh]# ssh hadoop103
Last login: Fri Feb 18 13:38:22 2022 from hadoop102
[root@hadoop103 ~]# exit
登出
Connection to hadoop103 closed.

（4）分发数据

[root@hadoop102 bin]# xsync test.txt 
==================== hadoop102 ====================
root@hadoop102's password: 
sending incremental file list

sent 46 bytes  received 12 bytes  16.57 bytes/sec
total size is 0  speedup is 0.00
==================== hadoop103 ====================
sending incremental file list
test.txt

sent 89 bytes  received 35 bytes  82.67 bytes/sec
total size is 0  speedup is 0.00
==================== hadoop104 ====================
sending incremental file list
test.txt

sent 89 bytes  received 35 bytes  82.67 bytes/sec
total size is 0  speedup is 0.00

3、.ssh文件夹下（~/.ssh）的文件功能解释

known_hosts	记录ssh访问过计算机的公钥（public key）
id_rsa	生成的私钥
id_rsa.pub	生成的公钥
authorized_keys	存放授权过的无密登录服务器公钥

4、集群配置

1）集群部署规划

注意：

1、NameNode和SecondaryNameNode不要安装在同一台服务器

2、ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上。

		hadoop102 		hadoop103			hadoop104
HDFS	 NameNode	 					SecondaryNameNode
		
YARN				 ResourceManager

2）配置文件

core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上，用户可以根据项目需求重新进行修改配置。

[root@hadoop102 hadoop]# pwd
/opt/module/hadoop-3.1.3/etc/hadoop

[root@hadoop102 hadoop]# ll | grep site.xml
-rw-r--r--. 1 lyh lyh   774 9月  12 2019 core-site.xml
-rw-r--r--. 1 lyh lyh   775 9月  12 2019 hdfs-site.xml
-rw-r--r--. 1 lyh lyh   620 9月  12 2019 httpfs-site.xml
-rw-r--r--. 1 lyh lyh   682 9月  12 2019 kms-site.xml
-rw-r--r--. 1 lyh lyh   758 9月  12 2019 mapred-site.xml
-rw-r--r--. 1 lyh lyh   690 9月  12 2019 yarn-site.xml

3）配置集群

（1）核心配置文件

配置core-site.xml，在中添加内容

[root@hadoop102 hadoop]# cd $HADOOP_HOME/etc/hadoop
[root@hadoop102 hadoop]# vim core-site.xml


?xml version="1.0" encoding="UTF-8"?>





<configuration>
    
    <property>
        <name>fs.defaultFSname>
        <value>hdfs://hadoop102:8020value>
    property>

    
    <property>
        <name>hadoop.tmp.dirname>
        <value>/opt/module/hadoop-3.1.3/datavalue>
    property>

    
    <property>
        <name>hadoop.http.staticuser.username>
        <value>rootvalue>
    property>
configuration>

（2）HDFS配置文件

[root@hadoop102 hadoop]# vim hdfs-site.xml






<configuration>
        
	<property>
        <name>dfs.namenode.http-addressname>
        <value>hadoop102:9870value>
    property>
        
	<property>
		<name>dfs.namenode.secondary.http-addressname>
		<value>hadoop104:9868value>
	property>
configuration>

（3）YARN配置文件

注意 value的值千万不能有空格或缩进！！！

[root@hadoop102 hadoop]# vim yarn-site.xml




<configuration>
	
	<property>
		<name>yarn.nodemanager.aux-servicesname>
		<value>mapreduce_shufflevalue>
	property>
	
	<property>
		<name>yarn.resourcemanager.hostnamename>
		<value>hadoop103value>
	property>
	
	<property>
		<name>yarn.nodemanager.env-whitelistname>
		<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOMEvalue>
	property>
configuration>

（4）MapReduce配置文件

配置mapred-site.xml

[root@hadoop102 hadoop]# vim mapred-site.xml 
[root@hadoop102 hadoop]# cat mapred-site.xml







<configuration>
	
	<property>
		<name>mapreduce.framework.namename>
		<value>yarnvalue>
	property>
    
    <property>
		<name>yarn.app.mapreduce.am.envname>
		<value>HADOOP_MAPRED_HOME=/opt/module/hadoop-3.1.3value>
	property>
	<property>
		<name>mapreduce.map.envname>
		<value>HADOOP_MAPRED_HOME=/opt/module/hadoop-3.1.3value>
	property>
	<property>
		<name>mapreduce.reduce.envname>
		<value>HADOOP_MAPRED_HOME=/opt/module/hadoop-3.1.3value>
	property>
    
configuration>

4）在集群上分发配置好的Hadoop配置文件

[root@hadoop102 hadoop]# xsync /opt/module/hadoop-3.1.3/etc/hadoop/
==================== hadoop102 ====================
root@hadoop102's password: 
root@hadoop102's password: 
sending incremental file list

sent 989 bytes  received 18 bytes  402.80 bytes/sec
total size is 107,799  speedup is 107.05
==================== hadoop103 ====================
sending incremental file list
hadoop/
hadoop/core-site.xml
hadoop/hdfs-site.xml
hadoop/mapred-site.xml
hadoop/yarn-site.xml

sent 3,633 bytes  received 139 bytes  2,514.67 bytes/sec
total size is 107,799  speedup is 28.58
==================== hadoop104 ====================
sending incremental file list
hadoop/
hadoop/core-site.xml
hadoop/hdfs-site.xml
hadoop/mapred-site.xml
hadoop/yarn-site.xml

sent 3,633 bytes  received 139 bytes  7,544.00 bytes/sec
total size is 107,799  speedup is 28.58

5）去103和104上查看文件分发情况

[root@hadoop103 ~]# cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml 
[root@hadoop104 ~]# cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml

5、群起集群

1）配置workers

[root@hadoop102 hadoop]# vim /opt/module/hadoop-3.1.3/etc/hadoop/workers

在该文件中增加如下内容：

hadoop102
hadoop103
hadoop104

注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。

同步所有节点配置文件

[root@hadoop102 hadoop]# xsync /opt/module/hadoop-3.1.3/etc/
==================== hadoop102 ====================
sending incremental file list

sent 1,014 bytes  received 19 bytes  2,066.00 bytes/sec
total size is 107,829  speedup is 104.38
==================== hadoop103 ====================
sending incremental file list
etc/hadoop/
etc/hadoop/workers

sent 1,104 bytes  received 51 bytes  2,310.00 bytes/sec
total size is 107,829  speedup is 93.36
==================== hadoop104 ====================
sending incremental file list
etc/hadoop/
etc/hadoop/workers

sent 1,104 bytes  received 51 bytes  2,310.00 bytes/sec
total size is 107,829  speedup is 93.36


[root@hadoop102 hadoop]# ssh hadoop103
Last login: Mon Feb 21 14:58:42 2022 from hadoop102
[root@hadoop103 ~]# cat /opt/module/hadoop-3.1.3/etc/hadoop/workers 
localhost
hadoop102
hadoop103
hadoop104
[root@hadoop103 ~]# exit
登出
Connection to hadoop103 closed.
[root@hadoop102 hadoop]# ssh hadoop104
Last login: Mon Feb 21 14:59:14 2022 from hadoop102
[root@hadoop104 ~]# cat /opt/module/hadoop-3.1.3/etc/hadoop/workers 
localhost
hadoop102
hadoop103
hadoop104

2）启动集群

（1）如果集群是第一次启动，需要在hadoop102节点格式化NameNode（注意：格式化NameNode，会产生新的集群id，导致NameNode和DataNode的集群id不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化NameNode的话，一定要先停止namenode和datanode进程，并且要删除所有机器的data和logs目录，然后再进行格式化。）

[root@hadoop102 hadoop]# cd /opt/module/hadoop-3.1.3/
[root@hadoop102 hadoop-3.1.3]# hdfs namenode -format

（2）启动HDFS

[root@hadoop102 hadoop-3.1.3]# sbin/start-dfs.sh

Web端查看HDFS的NameNode

（a）浏览器中输入：http://hadoop102:9870

（b）查看HDFS上存储的数据信息

（3）在配置了ResourceManager的节点（hadoop103）启动YARN

[root@hadoop103 hadoop-3.1.3]# cd /opt/module/hadoop-3.1.3/
[root@hadoop103 hadoop-3.1.3]# sbin/start-yarn.sh

Web端查看YARN的ResourceManager

（a）浏览器中输入：http://hadoop103:8088

（b）查看YARN上运行的Job信息

3）集群基本测试

（1）上传文件到集群

上传小文件

[root@hadoop102 ~]# hadoop fs -mkdir /input

[root@hadoop102 ~]# vim test.txt
[root@hadoop102 ~]# hadoop fs -put /root/test.txt /input
2022-02-22 10:30:05,347 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false

（2）查看HDFS文件存储路径


[root@hadoop102 ~]# cd /opt/module/hadoop-3.1.3/data/dfs/data/current/BP-2009643016-192.168.10.102-1645427829115/current/finalized/subdir0/subdir0

[root@hadoop102 subdir0]# ll
总用量 8
-rw-r--r--. 1 root root  5 2月  22 10:30 blk_1073741825
-rw-r--r--. 1 root root 11 2月  22 10:30 blk_1073741825_1001.meta

（3）查看HDFS在磁盘存储文件内容


[root@hadoop102 subdir0]# cat blk_1073741825
test

（4）下载文件

[root@hadoop102 ~]# ll
总用量 40
-rw-------. 1 root root 1685 2月  17 10:28 anaconda-ks.cfg
...

[root@hadoop102 ~]# hadoop fs -get /input/test.txt
2022-02-22 10:55:07,798 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false

[root@hadoop102 ~]# ll
总用量 44
-rw-------. 1 root root 1685 2月  17 10:28 anaconda-ks.cfg
-rw-r--r--. 1 root root    5 2月  22 10:55 test.txt
...

（5）执行wordcount程序

[root@hadoop102 hadoop-3.1.3]# hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

[root@hadoop102 wcoutput]# hadoop fs -get /output
2022-02-23 11:04:39,586 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false

[root@hadoop102 wcoutput]# cd output/

[root@hadoop102 output]# ll
总用量 4
-rw-r--r--. 1 root root 7 2月  23 11:04 part-r-00000
-rw-r--r--. 1 root root 0 2月  23 11:04 _SUCCESS

[root@hadoop102 output]# cat part-r-00000 
test	1

6、配置历史服务器

为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下：

1）配置mapred-site.xml

[root@hadoop102 hadoop-3.1.3]# vim etc/hadoop/mapred-site.xml

添加历史服务器内容


<property>
    <name>mapreduce.jobhistory.addressname>
    <value>hadoop102:10020value>
property>


<property>
    <name>mapreduce.jobhistory.webapp.addressname>
    <value>hadoop102:19888value>
property>

2）分发

[root@hadoop102 hadoop-3.1.3]# xsync etc/hadoop/mapred-site.xml 
==================== hadoop102 ====================
sending incremental file list

sent 64 bytes  received 12 bytes  152.00 bytes/sec
total size is 1,554  speedup is 20.45
==================== hadoop103 ====================
sending incremental file list
mapred-site.xml

sent 969 bytes  received 47 bytes  677.33 bytes/sec
total size is 1,554  speedup is 1.53
==================== hadoop104 ====================
sending incremental file list
mapred-site.xml

sent 969 bytes  received 47 bytes  677.33 bytes/sec
total size is 1,554  speedup is 1.53

3）在hadoop102启动历史服务器

[root@hadoop102 hadoop-3.1.3]# mapred --daemon start historyserver

4）查看进程

[root@hadoop102 hadoop]# jps
111254 Jps
110649 JobHistoryServer
46056 NameNode
109448 NodeManager
46237 DataNode

5）查看JobHistory
http://hadoop102:19888/jobhistory

7、配置日志的聚集

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到HDFS系统上。

日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。

注意：开启日志聚集功能，需要重新启动NodeManager 、ResourceManager和HistoryServer。

1）配置yarn-site.xml

[root@hadoop102 hadoop]# vim yarn-site.xml

添加日志聚集功能

    
    <property>
        <name>yarn.log-aggregation-enablename>
        <value>truevalue>
    property>
    
    <property>  
        <name>yarn.log.server.urlname>  
        <value>http://hadoop102:19888/jobhistory/logsvalue>
    property>
    
    <property>
        <name>yarn.log-aggregation.retain-secondsname>
        <value>604800value>
    property>

2）分发

[root@hadoop102 hadoop]# xsync yarn-site.xml 
==================== hadoop102 ====================
sending incremental file list

sent 62 bytes  received 12 bytes  148.00 bytes/sec
total size is 2,097  speedup is 28.34
==================== hadoop103 ====================
sending incremental file list
yarn-site.xml

sent 814 bytes  received 53 bytes  1,734.00 bytes/sec
total size is 2,097  speedup is 2.42
==================== hadoop104 ====================
sending incremental file list
yarn-site.xml

sent 814 bytes  received 53 bytes  1,734.00 bytes/sec
total size is 2,097  speedup is 2.42

3）关闭NodeManager 、ResourceManager和HistoryServer

[root@hadoop103 sbin]# stop-yarn.sh
[root@hadoop102 hadoop]# mapred --daemon stop historyserver

[root@hadoop103 sbin]# start-yarn.sh
[root@hadoop102 hadoop]# mapred --daemon start historyserver

4）进行测试、删除HDFS上已经存在的输出文件

hadoop fs -rm -r /output

5）执行wordcount

hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

6）查看日志

（1）历史服务器地址
http://hadoop102:19888/jobhistory

8、集群启动/停止方式总结

1）各个模块分开启动/停止（配置ssh是前提）常用
（1）整体启动/停止HDFS

start-dfs.sh
stop-dfs.sh

（2）整体启动/停止YARN

start-yarn.sh
stop-yarn.sh

2）各个服务组件逐一启动/停止

（1）分别启动/停止HDFS组件

hdfs --daemon start namenode/datanode/secondarynamenode
hdfs --daemon stop namenode/datanode/secondarynamenode

（2）启动/停止YARN

yarn --daemon start resourcemanager/nodemanager
yarn --daemon stop resourcemanager/nodemanager

9、编写Hadoop集群常用脚本

1）Hadoop集群启停脚本（包含HDFS，Yarn，Historyserver）：myhadoop.sh

放入/bin/目录

#!/bin/bash

if [ $# -lt 1 ]
then
    echo "No Args Input..."
    exit ;
fi

case $1 in
    "start")
        echo " =================== 启动 hadoop集群 ==================="
        
        echo " --------------- 启动 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
        echo " --------------- 启动 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
        echo " --------------- 启动 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
    ;;
    "stop")
        echo " =================== 关闭 hadoop集群 ==================="
        
        echo " --------------- 关闭 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"
        echo " --------------- 关闭 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
        echo " --------------- 关闭 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
    ;;
    *)
        echo "Input Args Error..."
    ;;
esac

10、常用端口号说明

端口名称					Hadoop2.x			Hadoop3.x
NameNode内部通信端口		8020 / 9000			8020 / 9000/9820
NameNode HTTP UI			50070				9870
MapReduce查看执行任务端口		8088				8088
历史服务器通信端口			19888				19888

11、集群时间同步

如果服务器在公网环境（能连接外网），可以不采用集群时间同步，因为服务器会定期和公网时间进行校准；

如果服务器在内网环境，必须要配置集群时间同步，否则时间久了，会产生时间偏差，导致集群执行任务时间不同步。

1）需求
找一个机器，作为时间服务器，所有的机器与这台集群时间进行定时的同步，生产环境根据任务对时间的准确程度要求周期同步。测试环境为了尽快看到效果，采用1分钟同步一次。

2）时间服务器配置（必须root用户）
（1）查看所有节点ntpd服务状态和开机自启动状态

[root@hadoop102 ~]$ sudo systemctl status ntpd
[root@hadoop102 ~]$ sudo systemctl start ntpd
[root@hadoop102 ~]$ sudo systemctl is-enabled ntpd

（2）修改hadoop102的ntp.conf配置文件

[root@hadoop102 ~]$ sudo vim /etc/ntp.conf

（a）修改1（授权192.168.10.0-192.168.10.255网段上的所有机器可以从这台机器上查询和同步时间）

#restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap
为
restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap

（b）修改2（集群在局域网中，不使用其他互联网上的时间）

server 0.centos.pool.ntp.org iburst
server 1.centos.pool.ntp.org iburst
server 2.centos.pool.ntp.org iburst
server 3.centos.pool.ntp.org iburst
为
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst

（c）添加3（当该节点丢失网络连接，依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步）

server 127.127.1.0
fudge 127.127.1.0 stratum 10

（3）修改hadoop102的/etc/sysconfig/ntpd 文件

[root@hadoop102 ~]$ sudo vim /etc/sysconfig/ntpd

增加内容如下（让硬件时间与系统时间一起同步）

SYNC_HWCLOCK=yes

（4）重新启动ntpd服务

[root@hadoop102 ~]$ sudo systemctl start ntpd

（5）设置ntpd服务开机启动

[root@hadoop102 ~]$ sudo systemctl enable ntpd

3）其他机器配置（必须root用户）

（1）关闭所有节点上ntp服务和自启动

[root@hadoop103 ~]$ sudo systemctl stop ntpd
[root@hadoop103 ~]$ sudo systemctl disable ntpd
[root@hadoop104 ~]$ sudo systemctl stop ntpd
[root@hadoop104 ~]$ sudo systemctl disable ntpd

（2）在其他机器配置1分钟与时间服务器同步一次

[root@hadoop103 ~]$ sudo crontab -e

编写定时任务如下：

*/1 * * * * /usr/sbin/ntpdate hadoop102

（3）修改任意机器时间

[root@hadoop103 ~]$ sudo date -s "2021-9-11 11:11:11"

（4）1分钟后查看机器是否与时间服务器同步

[root@hadoop103 ~]$ sudo date

$ sudo vim /etc/ntp.conf


（a）修改1（授权192.168.10.0-192.168.10.255网段上的所有机器可以从这台机器上查询和同步时间）

```shell
#restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap
为
restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap

（b）修改2（集群在局域网中，不使用其他互联网上的时间）

server 0.centos.pool.ntp.org iburst
server 1.centos.pool.ntp.org iburst
server 2.centos.pool.ntp.org iburst
server 3.centos.pool.ntp.org iburst
为
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst

（c）添加3（当该节点丢失网络连接，依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步）

server 127.127.1.0
fudge 127.127.1.0 stratum 10

（3）修改hadoop102的/etc/sysconfig/ntpd 文件

[root@hadoop102 ~]$ sudo vim /etc/sysconfig/ntpd

增加内容如下（让硬件时间与系统时间一起同步）

SYNC_HWCLOCK=yes

（4）重新启动ntpd服务

[root@hadoop102 ~]$ sudo systemctl start ntpd

（5）设置ntpd服务开机启动

[root@hadoop102 ~]$ sudo systemctl enable ntpd

3）其他机器配置（必须root用户）

（1）关闭所有节点上ntp服务和自启动

[root@hadoop103 ~]$ sudo systemctl stop ntpd
[root@hadoop103 ~]$ sudo systemctl disable ntpd
[root@hadoop104 ~]$ sudo systemctl stop ntpd
[root@hadoop104 ~]$ sudo systemctl disable ntpd

（2）在其他机器配置1分钟与时间服务器同步一次

[root@hadoop103 ~]$ sudo crontab -e

编写定时任务如下：

*/1 * * * * /usr/sbin/ntpdate hadoop102

（3）修改任意机器时间

[root@hadoop103 ~]$ sudo date -s "2021-9-11 11:11:11"

（4）1分钟后查看机器是否与时间服务器同步

[root@hadoop103 ~]$ sudo date

你可能感兴趣的:(大数据数仓,hadoop,hdfs,mapreduce)

数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
HIVE（二） 2301_78012738 hive 数据仓库
目录访问HIVE的三种方式DDLDML数据操作向表中装载数据数据导出常用函数Like和RLike分组Join排序分区表和分桶表访问HIVE的三种方式启动Hive命令，CtrlC退出客户端，执行测试语句，与sql一致[wyc@hadoop102hive]$bin/hive经验小结：在hive中执行语句报错：ExecutionError,returncode2fromorg.apache.hadoop
如何通过YashanDB优化企业大数据处理流程数据库
在当今数据驱动的商业环境中，企业面临着巨大的数据处理挑战。性能瓶颈、数据一致性问题和可扩展性需求使得大数据处理成为一项复杂任务。作为一种新兴的数据库管理系统，YashanDB以其独特的架构设计和强大的数据处理能力，在解决这些挑战方面提供了有效的手段。本文旨在探讨如何利用YashanDB优化大数据处理流程，为企业提供高效、可靠的解决方案。YashanDB的体系架构与部署形态YashanDB支持多种部
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
如何通过YashanDB提升客户体验数据库
如何优化查询速度？这是许多企业在使用数据库技术时常常会遇到的问题。查询速度的快慢直接影响到用户的体验，尤其是在大数据量和高并发的使用场景中。顾客期望迅速获取信息，若响应时间过长，可能导致客户流失。因此，优化数据库的性能成为提升客户体验的关键举措之一。YashanDB作为一种高性能的数据库技术架构，提供了多种优化机制，以提升系统的查询速度和整体处理能力。多种部署架构YashanDB支持多种部署架构，
如何通过YashanDB数据库实现企业级数据分区管理？数据库
在当今大数据时代，企业面临着海量数据的管理和优化访问的问题。如何有效地组织和划分庞大的数据集，以提升查询性能和运维效率，成为数据库系统设计的核心挑战。数据分区技术作为解决大规模数据处理的关键手段，能够显著减少无关数据的访问，优化资源利用率。本文聚焦于YashanDB数据库，详细解析其数据分区管理的实现机制及应用，为企业级应用提供高效、灵活的数据分区解决方案。YashanDB中的数据分区基础Yash
国产开源高性能对象存储RustFS保姆级上手指南光爷不秃对象存储 rust 国产开源软件 rust 云计算开源软件 github 开源数据仓库 database
在云计算与大数据爆发的时代，企业和开发者对存储方案的要求愈发严苛——不仅要能扛住海量数据的读写压力，还得兼顾安全性、可扩展性和兼容性。今天给大家介绍一款基于Rust语言开发的开源分布式对象存储系统——RustFS，它不仅是MinIO的国产化优秀替代方案，更是AI、大数据和云原生场景的理想之选。本文将从基础介绍到实战操作，带大家快速上手这款"优雅的存储解决方案"。一、RustFS核心特性解析Rust
通过YashanDB提升大数据处理能力的指南数据库
数据的急剧增长给数据库技术领域带来了诸多挑战，包括性能瓶颈、数据一致性问题及处理效率低下等。为了应对这些挑战，企业需采取有效的技术手段来提升大数据处理能力。YashanDB作为一款高性能的数据库产品，通过其先进的体系架构、优化的数据存储形式以及强大的并发控制能力，有效地提升了大数据环境下的处理性能。本文旨在为技术人员和决策者提供深入的技术分析和可操作的建议，通过YashanDB的功能特性来实现大数
Java多线程实战指南：从基础到高并发的核心技术解析添砖Java中 java python 开发语言 spring boot spring cloud spring
一、为什么必须掌握多线程？在单核CPU时代，多线程主要用于提高程序响应速度；在如今的多核处理器时代，多线程已成为榨干硬件性能的必备技能。无论是高并发Web服务器、实时数据处理系统，还是游戏引擎，都离不开多线程技术的支撑。典型案例：电商秒杀系统：1秒内处理10万+请求大数据处理：并行计算TB级数据金融交易系统：毫秒级订单撮合二、线程创建的四大核心方式1.继承Thread类（不推荐）classMyTh
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
3D 可视化技术开启污水治理全新发展阶段广州华锐视点 3d
3D可视化大屏展示技术在污水厂的应用，已然开启了污水处理的全新篇章。它不仅为污水厂解决了当下管理和展示的难题，更如同一座灯塔，照亮了未来污水处理领域的发展道路。随着科技的持续进步，3D可视化大屏展示技术必将迎来更加辉煌的发展。一方面，其与人工智能、大数据、物联网等前沿技术的融合将愈发紧密。借助人工智能算法，大屏系统将具备更强大的自主学习和分析能力，能够根据实时数据和历史经验，自动优化污水处理工艺参
UI前端大数据可视化实战策略：如何设计交互式数据探索界面？ UI前端开发工作室 ui 前端信息可视化
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“被动观看”到“主动探索”的可视化革命传统大数据可视化常陷入“图表堆砌”的困境：企业dashboard上布满折线图、饼图，却难以回答“销售额下降的核心区域是哪里”“用户流失与哪个行为强相关”等深度问题。
【HTML网页】智能健康监测——全方位健康管理专家（包含网页源代码）
智能健康监测分析系统智能健康监测分析系统是一种基于物联网、大数据、人工智能等技术的综合性健康管理解决方案。它具有以下六大核心功能：实时监测系统通过智能传感器和可穿戴设备，实时采集用户的生理数据，例如心率、血压、血氧饱和度、血糖水平和睡眠质量等，确保用户随时掌握自己的身体状况。健康数据分析利用人工智能和大数据分析技术，系统对采集到的数据进行处理和分析，提取有价值的健康信息，如心率变异性、呼吸频率等，
ftp文件服务器有连接数限制,查看ftp服务器连接数命令赵承铭 ftp文件服务器有连接数限制
查看ftp服务器连接数命令内容精选换一换本章节适用于MRS3.x之前版本。Loader支持以下多种连接，每种连接的配置介绍可根据本章节内容了解。obs-connectorgeneric-jdbc-connectorftp-connector或sftp-connectorhbase-connector、hdfs-connector或hive-connectorOBS连接是Loa“数据导入”章节适用于
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S

Hadoop集群入门配置

文章目录

Hadoop概述

Hadoop组成

HDFS架构概述

YARN架构概述

MapReduce架构概述

一、模板虚拟机环境准备

1、hadoop100虚拟机配置要求如下

1、安装epel-release

2、net-tool：工具包集合

3、关闭防火墙，关闭防火墙开机自启

4、创建用户 并修改密码

5、（可选）配置liyuhao用户具有root权限，方便后期加sudo执行root权限的命令

6、在/opt目录下创建文件夹，并修改所属主和所属组

7、卸载虚拟机自带的JDK

二、克隆虚拟机

1）利用模板机hadoop100，克隆三台虚拟机：hadoop102 hadoop103 hadoop104

2）修改克隆机IP，以下以hadoop102举例说明

3）在hadoop102安装JDK

4）在hadoop102安装Hadoop

5）hadoop 的目录结构

三、Hadoop运行模式

1、本地运行模式（官方WordCount）

2、完全分布式运行模式（开发重点）

1、编写集群分发脚本

1）scp（secure copy）安全拷贝

2）rsync远程同步工具

3）xsync集群分发脚本

（a）创建xsync文件

（b）修改脚本 xsync 具有执行权限

（c）将脚本复制到/bin中，以便全局调用

（d）目标文件分发使用

3、SSH无密登录配置

1、配置ssh

2、生成公钥和私钥

3、.ssh文件夹下（~/.ssh）的文件功能解释

4、集群配置

1）集群部署规划

2）配置文件

3）配置集群

（1）核心配置文件

（2）HDFS配置文件

（3）YARN配置文件

（4）MapReduce配置文件

4）在集群上分发配置好的Hadoop配置文件

5）去103和104上查看文件分发情况

5、群起集群

1）配置workers

2）启动集群

3）集群基本测试

（1）上传文件到集群

（2）查看HDFS文件存储路径

（3）查看HDFS在磁盘存储文件内容

（4）下载文件

（5）执行wordcount程序

6、配置历史服务器

1）配置mapred-site.xml

2）分发

3）在hadoop102启动历史服务器

4）查看进程

7、配置日志的聚集

1）配置yarn-site.xml

2）分发

3）关闭NodeManager 、ResourceManager和HistoryServer

4）进行测试、删除HDFS上已经存在的输出文件

5）执行wordcount

6）查看日志

8、集群启动/停止方式总结

9、编写Hadoop集群常用脚本

10、常用端口号说明

11、集群时间同步

你可能感兴趣的:(大数据数仓,hadoop,hdfs,mapreduce)

4、创建用户并修改密码