雨诺风

基于Hadoop生态的相关框架与组件的搭建

一、前言

安装包

二、linux配置

1、配置网络参数

2、永久关闭防火墙

3、添加IP地址配置映射表

4、SSH免密登录设置

5、配置时间同步

三、准备工作

四、jdk安装

五、Zookeeper集群部署

1、Zookeeper集群启动脚本编写

六、Hadoop高可用集群部署

1、安装配置

2、修改配置文件

（1）修改 hadoop-env.sh 文件

（2）修改 core-site.xml 文件

（3）修改 hdfs-site.xml 文件

（4）修改 mapred-site.xml 文件

（5）修改 yarn-site.xml 文件

（6）修改 slaves 文件

（7）分发节点

3、启用Hadoop高可用集群

七、Spark高可用集群部署

1、安装部署

2、配置文件

（1）配置spark-env.sh

（2）配置Workers文件

（3）配置spark-defaults.conf文件

注意事项

3、分发文件

4、启动Spark HA集群

脚本编写

5、Scala安装

八、Hbase高可用集群部署

1、安装配置

2、文件配置

（1）修改hbase-site.xml文件

（2）修改hbase-env.sh文件

（3）修改regionservers文件

（4）配置备用HMaster

（5）复制hadoop配置文件

（6）修改hbase-env.sh文件

3、分发文件

4、启动集群

5、Phoenix安装

九、Kafa集群部署

1、安装配置

2、修改配置文件

（1）修改server.properties配置文件

3、分发节点

4、启动集群

十、Hive数据仓库部署

1、安装配置

2、Mysql安装和配置

3、修改配置文件

（1）修改hive-env.sh文件

（2）修改hive-site.xml文件

（3）初始化数据仓库hive

注意事项

4、分发文件

5、设置 hadoop 的代理用户，以便 root 用户能够远程登录访问Hive

6、Hive启动

十一、Sqoop数据转移工具部署

1、安装配置

2、修改文件配置

（1）修改sqoop-env.sh文件

3、分发文件

十二、Flume日志采集系统部署

1、安装配置

2、文件配置

3、分发文件

十三、Azkban工作流管理器部署

1、解压安装

2、数据库配置

3、Azkaban Web 服务配置

（1）SSL创建

（2）Azkaban Web 服务器配置

（3）配置azkaban.properties

（4）配置azkaban-users.xml

（5）配置log4j.properties

4、azkaban-exec-server配置

5、Azkzban启动测试

一、前言

本篇文章，着重与Hadoop生态的相关框架与组件的搭建，以及不同框架或组件之间的依赖配置，使读者能够熟悉与掌握Hadoop集群的搭建，对于Hadoop生态有一定的认识。本次搭建三台虚拟机为hadoop01.bgd01、hadoop02.bgd01、hadoop03.bgd01，hadoop01.bgd01为主节点，其中所需的素材，笔者已放入网盘中，有需要的的可自行下载。

关于虚拟机的搭建，可参考笔者之前的系列文章，这里只对虚拟机的一些配置进行描述。

https://blog.csdn.net/weixin_63507910/article/details/128495937https://blog.csdn.net/weixin_63507910/article/details/128495937

安装包

http://链接: https://pan.baidu.com/s/1WBv0FRS8p8baMmEDf8e6UA?pwd=kk3a 提取码: kk3a

二、linux配置

1、配置网络参数

分别在三台虚拟机上修改配置
根据实际情况，修改文件的最后6行参数值即可。
vi /etc/sysconfig/network-scripts/ifcfg-ens33

NAME=ens33
UUID=f8e4ef31-ed55-4b0a-af1e-90cba2287b72
DEVICE=ens33
ONBOOT=yes                 #是否开机启用
HWADDR=00:0C:29:B4:C8:38
BOOTPROTO=static           #使用静态IP地址
IPADDR=192.168.8.121      #IP地址
PREFIX=24                  #子网掩码：255.255.255.0
GATEWAY=192.168.8.1       #网关
DNS1=172.16.1.2            #域名服务器1
DNS2=8.8.8.8               #域名服务器2

执行如下命令，重启网络服务：
systemctl restart network

2、永久关闭防火墙

执行如下命令关闭防火墙：
systemctl stop firewalld

执行如下命令关闭防火墙开机启动：
systemctl disable firewalld
执行命令成功后，会出现如下2行信息。
Removed symlink /etc/systemd/system/multi-user.target.wants/firewalld.service.
Removed symlink /etc/systemd/system/dbus-org.fedoraproject.FirewallD1.service.

3、添加IP地址配置映射表

在第一台虚拟机上打开终端，执行如下命令，编辑文件：
vi /etc/hosts
在文件尾部追加3行，文件内容如下：

127.0.0.1   localhost localhost.hugs localhost4 localhost4.localdomain4
::1         localhost localhost.hugs localhost6 localhost6.localdomain6
#三台虚拟的IP地址加主机名，按照下面格式
192.168.8.121 hadoop01.bgd01
192.168.8.122 hadoop02.bgd01
192.168.8.123 hadoop03.bgd01

4、SSH免密登录设置

(1) 利用ssh-keygen生成密钥对。
    在hadoop01.bgd01上，进入root用户主目录 /root，执行如下命令，生成 .ssh 目录和密匙对及免密登录授权文件：
    执行如下命令，生成密匙对：
    ssh-keygen -t rsa 

    下面是生成密匙对的过程：
    Generating public/private rsa key pair. #提示生成 公/私 密匙对
    Enter file in which to save the key (/root/.ssh/id_rsa):    #提示保存私匙的目录路径及文件名，按回车
    Created directory '/root/.ssh'.  #在“/root”下创建了“.ssh”目录
    Enter passphrase (empty for no passphrase):  #提示输入密码短语，如果不需要，按回车
    Enter same passphrase again:    #提示再次输入相同密码短语，如果不需要，按回车
    Your identification has been saved in /root/.ssh/id_rsa.  #生成了密匙文件id_rsa
    Your public key has been saved in /root/.ssh/id_rsa.pub.  #生成了公匙文件id_rsa.pub

    分别在hadoop02.bgd01、在hadoop03.bgd01上，执行相同的操作，生成密匙对。

(2) 将公钥合并到hadoop01.bgd01上的authorized_keys文件中。
    分别在hadoop01.bgd01、hadoop02.bgd01、hadoop03.bgd01上执行如下命令：
    ssh-copy-id hadoop01.bgd01
    出现如下提示时，按#提示操作：
    Are you sure you want to continue connecting (yes/no)?   #输入"yes"
    [email protected]'s password:    #输入hadoop01.hugs的root账号密码

    这样就完成了对公匙的合并。hadoop01.bgd01的“/root/.ssh”目录下会产生公匙授权文件 authorized_keys。其实该步操作是将三台主机上id_rsa.pub中的内容合并添加到authorized_keys中。

(3) 实现hadoop01、hadoop02、hadoop03之间的相互免密码登录。
    在hadoop01上执行如下命令，将hadoop01上的公匙授权文件 authorized_keys 同步分发给hadoop02到hadoop03 ：
    scp /root/.ssh/authorized_keys hadoop02.bgd01:/root/.ssh/
    执行该命令时，会提示输入hadoop02.hugs的root登录密码，输入相应密码即可。

    scp /root/.ssh/authorized_keys hadoop03.bgd01:/root/.ssh/
    执行该命令时，会提示输入hadoop03.hugs的root登录密码，输入相应密码即可。

    以后三台主机之间，相互登录其它主机就不需要输入密码了。登录命令如下：
    ssh 主机名称

(4) 使用ssh命令，测试免密登录。
    在任意一台主机上执行命令：
    ssh localhost
    发现不需要输入密码就登录到本地主机了。
    此时因为我们使用的就是root账户，目标登陆账户也是root，所以登陆之后用户没有变化，会造成没有反应的感觉。
然后，输入命令exit退出刚才的SSH，就回到了原先的终端窗口。

    将上述命令中的localhost换成hadoop01.bgd01、hadoop02.bgd01或hadoop03.bgd01，无需输入密码就可以免密登录相应主机了。

5、配置时间同步

安装Chrony
在三台主机上在线安装时间同步Chrony
yum install chrony -y

启动Chrony服务
在三台虚拟机上启动时间同步工具Chrony服务
systemctl start chronyd

启动报错
可能是下载的版本是最新版，与Linux内核起冲突
可以尝试以下指令
yum -y update

配置Chrony信息
vi /etc/chrony.conf

在主节点，hadoop01.bgd01配置如下
#不使用网络服务器作为时间同步源
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst
#添加时间同步器，将主节点的虚拟机作为时间服务同步时间
#这里填写自己虚拟机的主机名或IP地址
server hadoop01.bgd01 iburst

# Allow NTP client access from local network.
#允许192.168.8.0网段的客户端可以与时间服务器同步时间
allow 192.168.8.0/16

# Serve time even if not synchronized to a time source.
#即使时间服务器不能获取网络时间，也会将本地时间做为标准时间赋予其他客户端
local stratum 10

在另外两台虚拟机hadoop02.bgd01、hadoop03.bgd01配置如下
#不使用网络服务器作为时间同步源
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst
#添加时间同步器，将主节点的虚拟机作为时间服务同步时间
server hadoop01.bgd01 iburst

重启Chrony服务
分别在三台虚拟机重启Chrony服务，使配置生效
systemctl restart chronyd

查看时间同步源状态
chronyc sources -v

210 Number of sources = 1

  .-- Source mode  '^' = server, '=' = peer, '#' = local clock.
 / .- Source state '*' = current synced, '+' = combined , '-' = not combined,
| /   '?' = unreachable, 'x' = time may be in error, '~' = time too variable.
||                                                 .- xxxx [ yyyy ] +/- zzzz
||      Reachability register (octal) -.           |  xxxx = adjusted offset,
||      Log2(Polling interval) --.      |          |  yyyy = measured offset,
||                                \     |          |  zzzz = estimated error.
||                                 |    |           \
MS Name/IP address         Stratum Poll Reach LastRx Last sample               
===============================================================================
^* hadoop01.bgd01               11   7   377   227    +30us[  +40us] +/- 8251us

三、准备工作

在根目录“/”下创建3个目录
/export/data/ :存放数据类文件
/export/servers/ :存放服务类文件
/export/software/ :存放安装包文件

将所有压缩包上传到/export/software/目录下
预备工作-在主机hadoop01.bgd01上安装上传文件工具rz软件
yum install lrzsz -y

rz

四、jdk安装

用tar命令将jdk安装到 /export/servers/ 目录下。
tar -zvxf jdk-8u161-linux-x64.tar.gz -C /export/servers/

为简便起见，进入/export/servers/目录，执行如下指令重命名“jdk1.8.0_161”为“jdk”：
mv jdk1.8.0_333/ jdk
 
在/etc/profile文件中配置 JDK 系统环境变量(如果不是使用root用户登录，使用 sudo vim /etc/profile 命令打开

export JAVA_HOME=/export/servers/jdk
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

保存后退出。然后执行 "source /etc/profile"指令使配置文件生效。
使用如下命令验证JDK安装是否成功，如果成功，会出现版本等信息。
java -version

五、Zookeeper集群部署

安装Zookeeper
执行解压命令：
tar -zvxf apache-zookeeper-3.4.10-bin.tar.gz -C /export/servers/

/export/servers/下会出现 apache-zookeeper-3.4.10-bin 目录

修改安装目录名称 apache-zookeeper-3.4.10-bin 为 zookeeper
mv /export/servers/apache-zookeeper-3.4.10-bin /export/servers/zookeeper

配置环境变量
在/etc/profile文件中配置Zookeeper环境变量。执行如下命令：
vi /etc/profile
添加如下2行：
export ZK_HOME=/export/servers/zookeeper
export PATH=$PATH:$ZK_HOME/bin

保存后退出。
执行如下命令，使配置文件生效：
source /etc/profile

配置Zookeeper的相关参数
修改Zookeeper的配置文件
进入Zookeeper配置目录：
cd /export/servers/zookeeper/conf

执行如下命令，复制文件
cp zoo_sample.cfg zoo.cfg

编辑文件 zoo.cfg
vi zoo.cfg
    
将行 “dataDir=/tmp/zookeeper” 修改为：
dataDir=/export/data/zookeeper/zkdata
dataLogDir=/export/data/zookeeper/zklog

在文件末尾添加如下几行：
#配置Zookeeper集群的服务其编号及对应的主机名、通信端口号（心跳端口号）和选举端口号
server.1=hadoop01.bgd01:2888:3888
server.2=hadoop02.bgd01:2888:3888
server.3=hadoop03.bgd01:2888:3888
保存后退出。

创建myid文件
创建目录 /export/data/zookeeper/zkdata、/export/data/zookeeper/zklog
mkdir -p /export/data/zookeeper/zkdata
mkdir -p /export/data/zookeeper/zklog

进入 /export/data/zookeeper/zkdata 目录
cd /export/data/zookeeper/zkdata

执行如下命令，创建myid文件（服务器hadoop01对应编号1、服务器hadoop02对应编号2、服务器hadoop03对应编号3）：
echo 1 > myid

将配置文件分发到其他虚拟机
scp -r /export/servers/ hadoop02.bgd01:/export/
scp -r /export/servers/ hadoop03.bgd01:/export/

scp -r /export/data/ hadoop02.bgd01:/export/
scp -r /export/data/ hadoop03.bgd01:/export/

scp -r /etc/profile hadoop02.bgd01:/etc/
scp -r /etc/profile hadoop03.bgd01:/etc/

分别在hadoop02.bgd01、hadoop03.bgd01执行以下命令对myid进行修改
vi /export/data/zookeeper/zkdata/myid 
其中hadoop02.bgd01配置为2,hadoop03.bgd01配置为3

然后执行在三台虚拟机"source /etc/profile"指令使配置文件生效。

测试
在三台虚拟机上启动Zookeeper集群
zkServer.sh start

查看集群的状态
zkServer.sh status

hadoop01
ZooKeeper JMX enabled by default
Using config: /export/servers/zookeeper/bin/../conf/zoo.cfg
Mode: follower

hadoop02
ZooKeeper JMX enabled by default
Using config: /export/servers/zookeeper/bin/../conf/zoo.cfg
Mode: leader

hadoop03
ZooKeeper JMX enabled by default
Using config: /export/servers/zookeeper/bin/../conf/zoo.cfg
Mode: follower

关闭集群
zkServer.sh stop

1、Zookeeper集群启动脚本编写

在Zookeeper的bin目录下创建三个脚本，分别为start-zkServer.sh、stop-zkServer.sh、status-zkServer.sh

启动集群
start-zkServer.sh
内容如下
#! /bin/sh
for host in hadoop01.bgd01 hadoop02.bgd01 hadoop03.bgd01
do
        ssh $host "source /etc/profile;zkServer.sh start"
        echo "$host zk is running"
done
保存退出

关闭集群
stop-zkServer.sh
内容如下
#! /bin/sh
for host in hadoop01.bgd01 hadoop02.bgd01 hadoop03.bgd01
do
        ssh $host "source /etc/profile;zkServer.sh stop"
        echo "$host zk is stopping"
done
保存退出

查看集群状态
status-zkServer.sh
内容如下
#! /bin/sh
for host in hadoop01.bgd01 hadoop02.bgd01 hadoop03.bgd01
do
        ssh $host "source /etc/profile;zkServer.sh status"
        echo "$host zk is status"
done
保存退出
因为之前在安装zookeeper的时候，已经将bin目录添加进环境变量中，这里可以在任何目录下执行Shell脚本

操作如下
sh start-zkServer.sh

ZooKeeper JMX enabled by default
Using config: /export/servers/zookeeper/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED
hadoop01.bgd01 zk is running
ZooKeeper JMX enabled by default
Using config: /export/servers/zookeeper/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED
hadoop02.bgd01 zk is running
ZooKeeper JMX enabled by default
Using config: /export/servers/zookeeper/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED
hadoop03.bgd01 zk is running

sh status-zkServer.sh

ZooKeeper JMX enabled by default
Using config: /export/servers/zookeeper/bin/../conf/zoo.cfg
Mode: follower
hadoop01.bgd01 zk is status
ZooKeeper JMX enabled by default
Using config: /export/servers/zookeeper/bin/../conf/zoo.cfg
Mode: leader
hadoop02.bgd01 zk is status
ZooKeeper JMX enabled by default
Using config: /export/servers/zookeeper/bin/../conf/zoo.cfg
Mode: follower
hadoop03.bgd01 zk is status

sh stop-zkServer.sh

ZooKeeper JMX enabled by default
Using config: /export/servers/zookeeper/bin/../conf/zoo.cfg
Stopping zookeeper ... STOPPED
hadoop01.bgd01 zk is stopping
ZooKeeper JMX enabled by default
Using config: /export/servers/zookeeper/bin/../conf/zoo.cfg
Stopping zookeeper ... STOPPED
hadoop02.bgd01 zk is stopping
ZooKeeper JMX enabled by default
Using config: /export/servers/zookeeper/bin/../conf/zoo.cfg
Stopping zookeeper ... STOPPED
hadoop03.bgd01 zk is stopping

六、Hadoop高可用集群部署

1、安装配置

用tar命令将hadoop安装到 /export/servers/ 目录下
tar -zxvf /export/software/hadoop-2.7.4.tar.gz -C /export/servers/

在/etc/profile文件中, 配置 Hadoop 系统环境变量
    执行如下命令：
    vi /etc/profile
    添加如下2行：
    export HADOOP_HOME=/export/servers/hadoop-2.7.4
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    保存后退出。
    执行如下命令，使配置文件生效：
    source /etc/profile
    
使用如下命令验证hadoop安装是否成功，如果成功，会出现版本等信息。
    hadoop version

2、修改配置文件

cd /export/servers/hadoop-2.7.4/etc/hadoop/

（1）修改 hadoop-env.sh 文件

vi hadoop-env.sh
#将这一行该成自己jdl安装的路径
export JAVA_HOME=/export/servers/jdk

（2）修改 core-site.xml 文件


   
      fs.defaultFS
      hdfs://ns1
   

   
   
      hadoop.tmp.dir
      /export/servers/hadoop-2.7.4/tmpha  #为了便于同伪分布和分布式集群之间切换
   

   
         
      ha.zookeeper.quorum
      hadoop01.bgd01:2181,hadoop02.bgd01:2181,hadoop03.bgd01:2181
   

   
   
       hadoop.zk.address
       hadoop01.bgd01:2181,hadoop02.bgd01:2181,hadoop03.bgd01:2181
   

   
   
       ha.zookeeper.parent-znode
       /hadoop-ha

（3）修改 hdfs-site.xml 文件

    
    
        dfs.replication
        3
    

    
    
        dfs.namenode.name.dir
        /export/data/hadoop/namenode
    

    
    
        dfs.datanode.data.dir
        /export/data/hadoop/datanode
    

    
    
        dfs.webhdfs.enabled
        true
    

    
    
        dfs.nameservices
        ns1
    

    
    
        dfs.ha.namenodes.ns1
        nn1,nn2
    

    
    
        dfs.namenode.rpc-address.ns1.nn1
        hadoop01.bgd01:9000
    

    
    
        dfs.namenode.http-address.ns1.nn1
        hadoop01.bgd01:50070
    

    
    
        dfs.namenode.rpc-address.ns1.nn2
        hadoop02.bgd01:9000
    

    
    
        dfs.namenode.http-address.ns1.nn2
        hadoop02.bgd01:50070
    

    
    
        dfs.namenode.shared.edits.dir
        qjournal://hadoop01.bgd01:8485;hadoop02.bgd01:8485;hadoop03.bgd01:8485/ns1
    

    
    
        dfs.journalnode.edits.dir
        /export/data/hadoop/journaldata
    

    
         ipc.client.connect.max.retries
         30ide
    

    
    
        dfs.ha.automatic-failover.enabled
        true
    

    
    
        dfs.client.failover.proxy.provider.ns1
        org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
    

    
    
        dfs.ha.fencing.methods
        
        sshfence
        shell(/bin/true)
        
    

    
    
        dfs.ha.fencing.ssh.private-key-files
        /root/.ssh/id_rsa 
    

    
    
        dfs.ha.fencing.ssh.connect-timeout
        3000

（4）修改 mapred-site.xml 文件

 先将mapred-site.xml.template 复制到 mapred-site.xml
  
    
    
       mapreduce.framework.name
       yarn

（5）修改 yarn-site.xml 文件

      
           
           yarn.scheduler.maximum-allocation-mb
           8192
      

      
           
           yarn.nodemanager.resource.memory-mb
           8192
      

      
           
           yarn.nodemanager.resource.cpu-vcores
           8
      

      
      
           yarn.resourcemanager.ha.enabled
           true
      

      
      
           yarn.resourcemanager.cluster-id
           yrc
      

      
      
           yarn.resourcemanager.ha.rm-ids
           rm1,rm2
      

      
      
           yarn.resourcemanager.hostname.rm1
           hadoop01.bgd01
      
      
           yarn.resourcemanager.hostname.rm2
           hadoop02.bgd01
      

      
      
           yarn.resourcemanager.zk-address
           hadoop01.bgd01:2181,hadoop02.bgd01:2181,hadoop03.bgd01:2181
      

      
      
           yarn.resourcemanager.recovery.enabled
           true
      

      
      
           yarn.resourcemanager.ha.automatic-failover.enabled
           true
      

      
      
           yarn.resourcemanager.webapp.address.rm1
           ${yarn.resourcemanager.hostname}:8088
      

      
           yarn.resourcemanager.webapp.address.rm2
           ${yarn.resourcemanager.hostname}:8088
      

      
           yarn.nodemanager.aux-services
           mapreduce_shuffle
      

      
      
           yarn.resourcemanager.store.class
           org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore
      

      
      
           yarn.log-aggregation-enable
           true

（6）修改 slaves 文件

hadoop01.bgd01
hadoop02.bgd01
hadoop03.bgd01

（7）分发节点

scp -r /export/servers/hadoop-2.7.4 hadoop02.bgd01:/export/servers/
scp -r /export/servers/hadoop-2.7.4 hadoop03.bgd01:/export/servers/

scp -r /etc/profile hadoop02.bgd01:/etc/
scp -r /etc/profile hadoop02.bgd01:/etc/

执行完上述命令后，还需在hadoop02、hadoop03上分别执行"source /etc/profile"指令立即刷新配置文件。

3、启用Hadoop高可用集群

1、启动集群各个节点上的Zookeeper服务
    zkServer.sh start

2、启动集群各个节点监控NameNode的管理日志的JournalNode
   hadoop-daemons.sh start journalnode
   注：只需在第一次初始化启动集群时运行一次。以后每次启动集群，journalnode会在步骤 5、start-dfs.sh中启动。

3、在hadoop01格式化NameNode,并将格式化后的目录复制到hadoop02中
    hdfs namenode -format
   （执行格式化指令后必须出现 successfulluy formatted 才表示格式化成功。）
    scp -r /export/data/hadoop hadoop02.bgd01:/export/data/

4、在hadoop01格式化ZKFC
   hdfs zkfc -formatZK

5、在Hadoop01上启动所有HDFS服务进程
    start-dfs.sh

6、在Hadoop01上启动所有YARN服务进程
    start-yarn.sh

7、查看服务进程
集群启动后，如果正常，执行命令
    JPS
查看进程。
hadoop01上可以查看到如下进程：
   NameNode
   DFSZKFailoverController
   ResourceManager
   DataNode
   Jps
   JournalNode
   NodeManager
   QuorumPeerMain

hadoop02上可以查看到如下进程：
   NameNode
   DFSZKFailoverController
   DataNode
   Jps
   JournalNode
   NodeManager
   QuorumPeerMain

hadoop03上可以查看到如下进程：
   DataNode
   Jps
   JournalNode
   NodeManager
   QuorumPeerMain

在浏览器中查看和管理集群。
1、Hadoop状态查看
http://hadoop01.bgd01:50070/dfshealth.html

2、HDFS状态查看
http://hadoop01.bgd01:50070/explorer.html

3、YARN状态查看
http://hadoop01.bgd01:8088/cluster

六、关闭Hadoop集群
1、在Hadoop01上关闭所有YARN服务进程
    stop-yarn.sh

2、在Hadoop01上关闭所有HDFS服务进程
    stop-dfs.sh

3、在集群各个节点上的关闭Zookeeper服务
    zkServer.sh stop

七、Spark高可用集群部署

1、安装部署

解压Spark压缩包到/export/servers/目录下，并进行重名命名
tar -zxvf spark-2.3.2-bin-hadoop2.7.tgz -C /export/servers/
mv /export/servers/spark-2.3.2-bin-hadoop2.7 /export/servers/spark

配置环境变量
vi /etc/profile
export SPARK_HOME=/export/servers/spark
export PATH=$PATH:$SPARK_HOME/bin

使环境变量生效
source /etc/profile

2、配置文件

进入Spark安装目录conf/目录下，进行相关配置
cd /export/servers/spark/conf/

（1）配置spark-env.sh

复制spark-env.sh.template文件，重命名为spark-env.sh
cp spark-env.sh.template spark-env.sh

进入spark-env.sh，添加如下配置
vi spark-env.sh

#Java的安装路径
export JAVA_HOME=/export/servers/jdk
#Hadoop配置文件的路径
export HADOOP_CONF_DIR=/export/servers/hadoop-2.7.4/etc/hadoop/
#Spark高可用配置
#设置Zookeeper去启动备用Master模式
#spark.deploy.recoveryMode：设置Zookeeper去启动备用Master模式
#spark.deploy.zookeeper.url：指定Zookeeper的Server地址
#spark.deploy.zookeeper.dir：保存集群元数据信息的文件和目录
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER
-Dspark.deploy.zookeeper.url=hadoop01.bgd01:2181,hadoop02.bgd01:2181,hadoop03.bgd01:2181
-Dspark.deploy.zookeeper.dir=/spark"
#Spark主节点的端口号
export SPARK_MASTER_PORT=7077
#工作（Worker）节点能给予Executor的内存大小
export SPARK_WORKER_MEMORY=512m
#每个节点可以使用的内核数
export SPARK_WORKER_CORES=1
#每个Executor的内存大小
export SPARK_EXECUTOR_MEMORY=512m
#Executor的内核数
export SPARK_EXECUTOR_CORES=1
#每个Worker进程数
export SPARK_WORKER_INSTANCES=1

（2）配置Workers文件

复制workers.template文件，重命名为 workers，删除原有内容，添加如下配置
cp slaves.template slaves
vi slaves

#每行代表一个子节点主机名
hadoop02.bgd01
hadoop03.bgd01

（3）配置spark-defaults.conf文件

复制spark-defaults.conf.template文件，重命名为spark-defaults.conf，添加如下配置
cp spark-defaults.conf.template spark-defaults.conf
vi spark-defaults.conf

#Spark主节点所在机器及端口号，默认写法是spark://
spark.master                    spark://hadoop01.bgd01:7077
#是否打开任务日志功能，默认为flase，即不打开
spark.eventLog.enabled          true
#任务日志默认存放位置，配置为一个HDFS路径即可
spark.eventLog.dir              hdfs://ns1/spark-logs
#存放历史应用日志文件的目录
spark.history.fs.logDirectory   hdfs://ns1/spark-logs

注意事项

这里需要注意，hadoop的各个端口号的区别：
8020是默认rpc的端口号，一般用于IDE远程使用Hadoop集群，是程序和程序之间的连接。
9000端口：是HDFS默认的端口号，提供文件系统的端口供client角色寻找namenode角色的端口号，是进程之间的调用。
但是在core-site.xml文件的配置当中，如果hdfs://ns1:9000改为hdfs://ns1，则默认端口号为8020

        fs.defaultFS
        hdfs://ns1:9000


50070：namenode提供给操作者使用Web访问的端口号，是操作者和程序之间的端口号

  dfs.namenode.http-address.mycluster.nn1
  hadoop01.bgd01:50070


50090：secondarynamenode的端口号，这个也是Web访问的端口号

   dfs.namenode.secondary.http-address
    hadoop02.bgd01:50090


hdfs有下面几种角色：namenode，datanode，secondarynamenode，client等

3、分发文件

scp -r /export/servers/spark hadoop02.bgd01:/export/servers/
scp -r /export/servers/spark hadoop03.bgd01:/export/servers/

scp -r /etc/profile hadoop02.bgd01:/etc/
scp -r /etc/profile hadoop03.bgd01:/etc/

在各个节点刷新环境变量
source /etc/profile

4、启动Spark HA集群

启动前在hdfs上创建Spark的日志目录
hadoop fs -mkdir /spark-logs
hadoop fs -ls /
drwxr-xr-x   - root supergroup          0 2023-03-02 23:21 /spark-logs

启动Zookeeper服务
这里使用脚本一键启动
sh start-zkServer.sh

启动Spark集群
在hadoop01主节点使用一键启动脚本启动
/export/servers/spark/sbin/start-all.sh 

单独启动Master节点
在hadoop02节点上再次启动Master服务
/export/servers/spark/sbin/start-master.sh

通过访问http://hadoop02.bgd01:8080可以查看Master节点的状态

脚本编写

由于spark与hadoop的启动指令相似，这里提供一个简单的脚本

在spark的bin目录下编辑两个Shell的脚本，名为start-spark.sh和stop-spark.sh

start-spark.sh
内容如下
#! /bin/sh
for host in hadoop01.bgd01
do
        ssh $host "source /etc/profile;/export/servers/spark/sbin/start-all.sh"
        echo "$host Spark is running"
done

stop-spark.sh
内容如下
#! /bin/sh
for host in hadoop01.bgd01
do
        ssh $host "source /etc/profile;/export/servers/spark/sbin/stop-all.sh"
        echo "$host Spark is stopping"
done

5、Scala安装

将scala-2.12.15.tgz解压至/export/servers目录下，并重命名
tar -zxvf scala-2.11.12.tgz -C /export/servers/
cd /export/servers/
mv scala-2.11.12 scala

配置环境变量
vi /etc/profile
export SCALA_HOME=/export/servers/scala
export PATH=$PATH:$SCALA_HOME/bin
source /etc/profile

运行
scala

退出
:quit

scala体验
scala> 3*3+3
res0: Int = 12

scala> :paste
// Entering paste mode (ctrl-D to finish)

object add{
 def addInt(a:Int,b:Int):Int={
         var sum:Int=0
         sum=a+b
         return sum
 }
}

// Exiting paste mode, now interpreting.

defined object add

scala> import add.addInt;
import add.addInt

scala> addInt(2,3);
res2: Int = 5

八、Hbase高可用集群部署

1、安装配置

将Hbase压缩包解压至/export/servers目录上，并重命名
cd /export/software
tar -zxvf hbase-1.2.1-bin.tar.gz -C /export/servers/
mv /export/servers/hbase-1.2.1 /export/servers/hbase

配置环境变量
vi /etc/profile
export HBASE_HOME=/export/servers/hbase
export PATH=$PATH:$HBASE_HOME/bin

刷新环境变量，使配置生效
source /etc/profile

2、文件配置

修改Hbase配置文件
cd /export/servers/hbase/conf/

（1）修改hbase-site.xml文件

vi hbase-site.xml


 
    hbase.cluster.distributed
    true
  
  
    hbase.tmp.dir
    /export/data/hbasedata
  
  
    hbase.master.maxclockskew
    180000
  

  
    hbase.rootdir
    hdfs://ns1/hbase
  
  
    hbase.zookeeper.property.dataDir
    /export/data/zookeeper/zkdata
  

  
    hbase.zookeeper.quorum
    hadoop01.bgd01:2181,hadoop02.bgd01:2181,hadoop03.bgd01:2181
  
  
    hbase.unsafe.stream.capability.enforce
    false
  

  
    hbase.master.info.port
    16010
  


创建hbase的日志存储目录
mkdir -p /export/data/hbasedata

（2）修改hbase-env.sh文件

vi hbase-env.sh
#配置jdk环境变量
export JAVA_HOME=/export/servers/jdk
#配置hbase使用外部环境变量
export HBASE_MANAGES_ZK=false

（3）修改regionservers文件

hadoop02.bgd01
hadoop03.bgd01

（4）配置备用HMaster

vi backup-masters

hadoop02.bgd01
hadoop03.bgd01

（5）复制hadoop配置文件

将Hadoop的配置文件复制到Hbase的conf/目录下
cd /export/servers/hadoop-2.10.1/etc/hadoop/
cp -r core-site.xml hdfs-site.xml /export/servers/hbase/conf/

（6）修改hbase-env.sh文件

在hadoop-env.sh里添加以下内容，方便后续hadoop加载hbase的jar包

export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:/export/servers/hbase/lib/*

执行hadoop classpath，可以看到以及导入了hbase的jar包
/export/servers/hadoop-2.7.4/etc/hadoop:/export/servers/hadoop-2.7.4/share/hadoop/common/lib/*:/export/servers/hadoop-2.7.4/share/hadoop/common/*:/export/servers/hadoop-2.7.4/share/hadoop/hdfs:/export/servers/hadoop-2.7.4/share/hadoop/hdfs/lib/*:/export/servers/hadoop-2.7.4/share/hadoop/hdfs/*:/export/servers/hadoop-2.7.4/share/hadoop/yarn/lib/*:/export/servers/hadoop-2.7.4/share/hadoop/yarn/*:/export/servers/hadoop-2.7.4/share/hadoop/mapreduce/lib/*:/export/servers/hadoop-2.7.4/share/hadoop/mapreduce/*:/export/servers/hadoop-2.7.4/contrib/capacity-scheduler/*.jar:/export/servers/hbase/lib/*

3、分发文件

scp -r /export/servers/hbase hadoop02.bgd01:/export/servers/
scp -r /export/servers/hbase hadoop03.bgd01:/export/servers/

scp -r /export/data/hbasedata hadoop02.bgd01:/export/data/
scp -r /export/data/hbasedata hadoop03.bgd01:/export/data/

scp -r /etc/profile hadoop02.bgd01:/etc/
scp -r /etc/profile hadoop03.bgd01:/etc/

在hadoop02、hadoop03上刷新环境变量
source /etc/profile

4、启动集群

启动zookeeper集群
sh shart-zkServer.sh

启动hadoop集群
start-all.sh

启动hbase集群
start-hbase.sh

查看进程
hadoop01
10370 HMaster
9603 DFSZKFailoverController
10502 HRegionServer
9272 DataNode
10874 Jps
9884 NodeManager
9165 NameNode
9773 ResourceManager
5807 QuorumPeerMain
9471 JournalNode

hadoop02
6098 HMaster
5716 JournalNode
3957 QuorumPeerMain
5621 DataNode
5783 DFSZKFailoverController
5928 NodeManager
6235 Jps
5548 NameNode

hadoop03
3472 QuorumPeerMain
4421 Jps
[root@hadoop03 ~]# jps
3472 QuorumPeerMain
4688 NodeManager
4976 Jps
4849 HMaster
4587 JournalNode
4492 DataNode

登录Hbase的Web界面
http://hadoop01.bgd01:16010

5、Phoenix安装

解压
tar -zxvf apache-phoenix-4.14.1-HBase-1.2-bin.tar.gz -C /export/servers/

重命名
mv /export/servers/apache-phoenix-4.14.1-HBase-1.2-bin /export/servers/phoenix

配置环境变量
vi /etc/profile
export PHOENIX_HOME=/export/servers/phoenix
export PATH=$PATH:$PHOENIX_HOME/bin

刷新
source /etc/profile

分发至其他节点
scp -r /etc/profile hadoop02.bgd01:/etc/
scp -r /etc/profile hadoop03.bgd01:/etc/

source /etc/profile


将phoenix下的所有jar包复制到hbase的lib目录下
cp /export/servers/phoenix/phoenix-*.jar /export/servers/hbase/lib/

分发jar包至hbase的每个节点
cd /export/servers/hbase/lib/

scp phoenix-*.jar hadoop02.bgd01:$PWD
scp phoenix-*.jar hadoop03.bgd01:$PWD

修改配置文件
vi /export/servers/hbase/conf/hbase-site.xml 

# 添加以下内容


        phoenix.schema.isNamespaceMappingEnabled
        true




        hbase.regionserver.wal.code
        org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCode


启动
cd /export/servers/phoenix/bin/
./sqlline.py hadoop01.bgd01:2181
这里需要注意，hadoop01.bgd01:2181是主机名或IP地址加上zookeeper的端口号

退出!quit

将配置分发到其他节点
scp -r /export/servers/hbase/conf/hbase-site.xml hadoop02.bgd01:/export/servers/hbase/conf/

scp -r /export/servers/hbase/conf/hbase-site.xml hadoop03.bgd01:/export/servers/hbase/conf/

将配置后的hbase-site.xml拷贝到phoenix的bin目录下

九、Kafa集群部署

1、安装配置

解压 
tar -zxvf kafka_2.11-2.0.0.tgz -C /export/servers/

重命名
mv /export/servers/kafka_2.11-2.0.0 /export/servers/kafka

配置环境变量
vi /etc/profile
export KAFKA_HOME=/export/servers/kafka
export PATH=$PATH:$KAFKA_HOME/bin

刷新环境变量，使配置生效
source /etc/profile

2、修改配置文件

cd /export/servers/kafka/config/

（1）修改server.properties配置文件

vi server.properties

#broker的全局唯一编号,不能重复 
broker.id=0
#用来监听链接的端口，producer或consumer将在此端口建立连接 
port=9092
#处理网络请求的线程数量
num.network.threads=3 
#用来处理磁盘I/O的现成数量 
num.io.threads=8
#发送套接字的缓冲区大小
socket.send.buffer.bytes-102400#接受套接字的缓冲区大小
socket.receive.buffer.bytes=102400
#请求套接字的缓冲区大小
socket.request.max.bytes104857600
#kafka运行日志存放的路径
log.dirs=/export/data/kafka/ 
#topic在当前broker上的分片个数 
num.partitions=2
#用来恢复和清理data下数据的线程数量 
num.recovery.threads.per.data.dir=1
#segment文件保留的最长时间，超时将被删除 
log.retention.hours=1
#滚动生成新的segment文件的最大时间 
log.roll.hours=1
#日志文件中每个sement的大小,默认为1GB 
log.segment.bytes=1073741824
#周期性检查文件大小的时间
log.retention.check.interval.ms=300000
#日志清理是否打开
log.cleaner.enable=true
#broker需要使用zookeeper保存meta数据
zokeeperconnect=hadoop01.bgd01:2181,hadoop02.bgd01:2181,hadoop03.bgd01:218133 zookeeper链接超时时间
zokeeper.connection.timeout.ms=6000
#partionbuffer中,消息的条数达到阈值时,将触发flush磁盘操作 
log.flush.interval.messages=10000
#消息缓冲的时间,达到阈值时，将触发flush到磁盘的操作 
log.flush.interval.ms=3000
#删除topic
delete.topic.enable=true 
#设置本机IP
host.name=hadoop01.bgd01


创建存放kafka日志的目录
mkdir -p /export/data/kafkadata

3、分发节点

scp -r /export/servers/kafka/ hadoop02.bgd01:/export/servers/
scp -r /export/servers/kafka/ hadoop02.bgd01:/export/servers/

scp -r /etc/profile hadoop02.bgd01:/etc/
scp -r /etc/profile hadoop03.bgd01:/etc/

scp -r /export/data/kafkadata/ hadoop02.bgd01:/export/data/
scp -r /export/data/kafkadata/ hadoop03.bgd01:/export/data/

分别在hadoop02和hadoop03的server.properties进行修改
hadoop02
broker.id=1

hadoop03
broker.id=2

在hadoop02、hadoop03上刷新环境变量
source /etc/profile

4、启动集群

在kafka的根部录下启动集群，这里需要注意启动的终端不能关闭，一旦关闭kafka服务就会停止，可以克隆一个会话可能打开新的终端，查看进程
bin/kafka-server-start.sh config/server.properties 

jps
10370 HMaster
9603 DFSZKFailoverController
12116 Kafka
10502 HRegionServer
9272 DataNode
12536 Jps
9884 NodeManager
9165 NameNode
9773 ResourceManager
5807 QuorumPeerMain
9471 JournalNode

十、Hive数据仓库部署

1、安装配置

解压
tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /export/servers/

重命名
mv /export/servers/apache-hive-1.2.1-bin /export/servers/hive

配置环境变量
vi /etc/profile
export HIVE_HOME=/export/servers/hive
export PATH=$PATH:$HIVE_HOME/bin

刷新环境变量
source /etc/profile

复制 mysql 数据库的 JDBC 驱动包到 /export/servers/hive/lib 下
mysql-connector-java-8.0.20.jar

2、Mysql安装和配置

查看本地的数据库
rpm -qa | grep mariadb

yum install mariadb-server
yum install mariadb-devel
yum install mariadb -y

rpm -qa | grep mariadb
出现这四个
mariadb-5.5.68-1.el7.x86_64
mariadb-server-5.5.68-1.el7.x86_64
mariadb-libs-5.5.68-1.el7.x86_64
mariadb-devel-5.5.68-1.el7.x86_64

设置开机启动
systemctl enable mariadb
启动数据库
systemctl start mariadb
查看数据库状态
systemctl status mariadb
打开数据库
mysql

mysql>use mysql;
mysql>update user set Password=PASSWORD('123456') where user='root';
mysql>grant all PRIVILEGES on *.* to 'root'@'% ' identified by '123456' with grant option;
mysql>FLUSH PRIVILEGES;
mysql>quit

    修改密码后，数据库的登录命令如下：
mysql -uroot -p123456

3、修改配置文件

cd /export/servers/hive/conf

（1）修改hive-env.sh文件

    复制文件 
    cp hive-env.sh.template hive-env.sh

    修改hive-env.sh配置文件，添加Hadoop环境变量，具体内容如下：
    export JAVA_HOME=/export/servers/jdk
    export HADOOP_HOME=/export/servers/hadoop-2.7.4
    #由于部署 Hadoop 时已经配置了全局 Hadoop 环境变量，因此可以不设置上面2行参数。

    export HIVE_HOME=/export/servers/hive
    export HIVE_CONF_DIR=/export/servers/hive/conf
    export HIVE_AUX_JARS_PATH=/export/servers/hive/lib

（2）修改hive-site.xml文件

vi hive-site.xml

  
    javax.jdo.option.ConnectionURL
    jdbc:mysql://hadoop01.bgd01:3306/hive?createDatabaseIfNotExist=true
    JDBC connect string for a JDBC metastore
  
  
    javax.jdo.option.ConnectionDriverName
    com.mysql.cj.jdbc.Driver
    Driver class name for a JDBC metastore
  
  
    javax.jdo.option.ConnectionUserName
    root
    Username to use against metastore database
  
  
    javax.jdo.option.ConnectionPassword
    123456
    password to use against metastore database
  

  
    hive.execution.engine
    mr
    
      Expects one of [mr, tez, spark].
      Chooses execution engine. Options are: mr (Map reduce, default), tez, spark. While MR
      remains the default engine for historical reasons, it is itself a historical engine
      and is deprecated in Hive 2 line. It may be removed without further warning.

（3）初始化数据仓库hive

在hive根目录下，执行如下命令进行初始化：
bin/schematool -dbType mysql -initSchema
    
出现如下信息表示安装正常：
Metastore connection URL:	 jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=TRUE
Metastore Connection Driver :	 com.mysql.cj.jdbc.Driver
Metastore connection User:	 root
Starting metastore schema initialization to 2.3.0
Initialization script hive-schema-2.3.0.mysql.sql
Initialization script completed
schemaTool completed

注意事项

ls: 无法访问/export/servers/spark/lib/spark-assembly-*.jar: 没有那个文件或目录
Metastore connection URL:	 jdbc:mysql://hadoop01.hugs:3306/hive?createDatabaseIfNotExist=true
Metastore Connection Driver :	 com.mysql.cj.jdbc.Driver
Metastore connection User:	 root
org.apache.hadoop.hive.metastore.HiveMetaException: Failed to load driver
*** schemaTool failed ***

这里是因为spark更新后，原来文件存放路径变更，需要在hive的bin目录下对hive文件进行修改
cd /export/servers/hive/bin/
cp -r hive hive.xml
vi hive
 
找到以下这个位置，进行编辑
# add Spark assembly jar to the classpath
if [[ -n "$SPARK_HOME" ]]
then
  sparkAssemblyPath=`ls ${SPARK_HOME}/lib/spark-assembly-*.jar`
  CLASSPATH="${CLASSPATH}:${sparkAssemblyPath}"
fi
 
将“sparkAssemblyPath=`ls ${SPARK_HOME}/lib/spark-assembly-*.jar`”修改成以下内容
sparkAssemblyPath=`ls ${SPARK_HOME}/jars/*.jar`
退出保存

4、分发文件

1. 将 hadoop01 上安装的 Hive 程序分别复制到hadoop02、hadoop03服务器上
scp -r /export/servers/hive/ hadoop02.bgd01:/export/servers/
scp -r /export/servers/hive/ hadoop03.bgd01:/export/servers/

2. 同步全局环境配置文件
scp /etc/profile hadoop02.bgd01:/etc/
scp /etc/profile hadoop03.bgd01:/etc/

在hadoop02、hadoop03上刷新环境变量
source /etc/profile

5、设置 hadoop 的代理用户，以便 root 用户能够远程登录访问Hive

修改Hadoop配置文件 core-site.xml


    
        
        hadoop.proxyuser.root.groups
        *
    
    
    
        
        hadoop.proxyuser.root.hosts
        *

6、Hive启动

本地CLI方式
启动Hive
执行如下命令：
hive
显示如下：
hive>

退出
hive>exit;
hive>quit;

查看数据仓库中的数据库
hive>show databases;

查看数据仓库中的表
hive>show tables;

查看数据仓库中的内置函数
hive>show functions;

清屏
hive>!clear

远程服务模式
在hadoop01上启动 Hiveserver2服务
hiveserver2

注意, 执行上述命令后, 没有任何显示. 但是,重新打开一个终端,用jps查询,会多出一个RunJar进程.

在hadoop02服务器的Hive安装包下, 执行远程连接命令连接到 Hive数据仓库服务器
(如果只有一台服务器,可以在本地打开另外一个终端进行操作演示)
//输入远程连接命令
bin/beeline
//出现如下显示信息
Beeline version 2.3.9 by Apache Hive
beeline> 

//如下输入连接协议
beeline> !connect jdbc:hive2://hadoop01.bgd01:10000
//显示正在连接信息
Connecting to jdbc:hive2://hadoop01.bgd01:10000

//根据提示输入 Hive服务器 hadoop01 的用户名和密码
Enter username for jdbc:hive2://hadoop01.bgd01:10000: root
Enter password for jdbc:hive2://hadoop01.bgd01:10000: ********
//显示已经连接到Hive服务器
Connected to: Apache Hive (version 2.3.9)
Driver: Hive JDBC (version 2.3.9)
Transaction isolation: TRANSACTION_REPEATABLE_READ
0: jdbc:hive2://hadoop01.bgd01:10000> 

操作数据仓库
现在可以像 CLI方式一样操作数据仓库命令．
查看数据仓库中的数据库
0: jdbc:hive2://hadoop01.bgd01:10000> show databases;


查看数据仓库中的表
0: jdbc:hive2://hadoop01.bgd01:10000> show tables;

查看数据仓库中的内置函数
hive>show functions;

退出
0: jdbc:hive2://hadoop01.bgd01:10000>!exit
或
0: jdbc:hive2://hadoop01.bgd01:10000>!quit

十一、Sqoop数据转移工具部署

1、安装配置

    解压安装
    tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /export/servers/

    重命名为
    mv /export/servers/sqoop-1.4.6.bin__hadoop-2.0.4-alpha /export/servers/sqoop

    复制hive的相关jar包
    cp $HIVE_HOME/lib/hive-common-1.2.2.jar /export/servers/sqoop-1.4.7/lib
    cp $HIVE_HOME/lib/hive-shims*.jar /export/servers/sqoop-1.4.7/lib

    重命名生成 sqoop-env.sh 配置文件，添加Hadoop环境变量
    cd /export/servers/sqoop-1.4.7/conf 
    mv sqoop-env.sh.template sqoop-env.sh

    添加环境变量
    vi /etc/profile
    添加如下2行：
    export SQOOP_HOME=/export/servers/sqoop
    export PATH=$PATH:$SQOOP_HOME/bin

    刷新环境变量
    source /etc/profile

2、修改文件配置

（1）修改sqoop-env.sh文件

    cd /export/servers/conf 
    cp sqoop-env.sh.template sqoop-env.sh

    修改sqoop-env.sh配置文件，添加Hadoop环境变量，具体内容如下：
    export HADOOP_COMMON_HOME=/export/servers/hadoop-2.7.4
    export HADOOP_MAPRED_HOME=/export/servers/hadoop-2.7.4
    export HIVE_HOME=/export/servers/hive
    export ZOOKEEPER_HOME=/export/servers/zookeeper
    export ZOOCFGDIR=/export/servers/zookeeper/conf

    复制 mysql 数据库的 JDBC 驱动包到 /export/servers/sqoop/lib 下
    mysql-connector-java-8.0.20.jar

    验证安装是否成功
    sqoop version

3、分发文件

scp -r /export/servers/sqoop/ hadoop02.bgd01:/export/servers/
scp -r /export/servers/sqoop/ hadoop03.bgd01:/export/servers/

scp -r /etc/profile hadoop02.bgd01:/etc/
scp -r /etc/profile hadoop03.bgd01:/etc/

在hadoop02、hadoop03上刷新环境变量
source /etc/profile

十二、Flume日志采集系统部署

1、安装配置

解压
进入目录/export/software/，执行命令
tar -zxvf apache-flume-1.8.0-bin.tar.gz -C /export/servers/

将安装目录apache-flume-1.8.0-bin 重命名为flume
进入目录/export/servers/，执行命令
mv apache-flume-1.8.0-bin flume

2、文件配置

配置Flume环境
1、配置 flume-env.sh
cd /export/servers/flume/conf
cp flume-env.sh.template flume-env.sh

vi flume-env.sh #编辑文件，增加如下行
export JAVA_HOME=/export/servers/jdk

2、配置 /etc/profile
vi /etc/profile #编辑文件，增加如下行
export FLUME_HOME=/export/servers/flume
export PATH=$PATH:$FLUME_HOME/bin

3、分发文件

在hadoop01上，将Flume同步到hadoop02、hadoop03上
scp -r /export/servers/flume hadoop02.bgd01:/export/servers/
scp -r /export/servers/flume hadoop03.bgd01:/export/servers/

scp /etc/profile hadoop02.bgd01:/etc/profile
scp /etc/profile hadoop03.bgd01:/etc/profile

分别在hadoop02、hadoop03上执行如下命令，立即刷新配置
source /etc/profile

十三、Azkban工作流管理器部署

1、解压安装

在/export/software目录下对 Azkaban 的源文件进行解压
tar -zxvf azkaban-3.50.0.tar.gz
 
进入解压后的Azkaban目录，进行编译
cd azkaban-3.50.0
./gradlew build -x test
 
这里需要注意，上述指令会跳过 Azkaban 源文件的测试类部分进行自动编译构建(使用 ./gradlew mild 指令会对整个源文件全部进行编译)，整个过程需要联网,如果网络不好会非常耗时连接中断时需要多次重试。执行上述指令进行编译,经过一段时间后必须看到 BUILD SUCCESSFUL 信息才可确定 Azkaban 源文件编译成功,

编译成功后 压缩包在各个组件的build/distributions目录里：
azkaban-db/build/distributions
azkaban-web-server/build/distributions
azkaban-exec-server/build/distributions
azkaban-solo-server/build/distributions
 
分别在/export/servers/ 目录下创建 azkaban 子目录
mkdir -p /export/servers/azkaban
 
解压安装包
执行如下命令，将上面4个安装包解压到 /export/servers/azkaban/ 目录下
cd /export/servers/azkaban/
 
tar -zxvf /export/software/azkaban-3.50.0/azkaban-db/build/distributions/azkaban-db-0.1.0-SNAPSHOT.tar.gz -C ./
 
tar -zxvf /export/software/azkaban-3.50.0/azkaban-web-server/build/distributions/azkaban-web-server-0.1.0-SNAPSHOT.tar.gz -C ./
 
tar -zxvf /export/software/azkaban-3.50.0/azkaban-exec-server/build/distributions/azkaban-exec-server-0.1.0-SNAPSHOT.tar.gz -C ./
 
tar -zxvf /export/software/azkaban-3.50.0/azkaban-solo-server/build/distributions/azkaban-solo-server-0.1.0-SNAPSHOT.tar.gz -C ./
 
修改目录名称
为了以后操作方便，将解压安装包产生的4个目录名字中的版本号去掉。
mv azkaban-db-0.1.0-SNAPSHOT azkaban-db
mv azkaban-solo-server-0.1.0-SNAPSHOT azkaban-solo-server
mv azkaban-exec-server-0.1.0-SNAPSHOT azkaban-exec-server
mv azkaban-web-server-0.1.0-SNAPSHOT azkaban-web-server

2、数据库配置

创建Azkaban数据库及用户
mysql -uroot -p123456 
MariaDB>CREATE DATABASE azkaban;
 
Azkaban数据库表初始化
连接azkaban数据库
MariaDB>use azkaban;
 
创建数据库表
MariaDB[azkaban]>source /export/servers/azkaban/azkaban-db/create-all-sql-0.1.0-SNAPSHOT.sql;
 
显示创建的所有对象
MariaDB[azkaban]>show tables
 
这时可以看到刚才创建的所有azkaban数据库表。
 
退出数据库
MariaDB[azkaban]>quit

3、Azkaban Web 服务配置

（1）SSL创建

在目录 /export/servers/azkaban/azkaban-web-server 下执行如下命令，生成 SSL 密匙库文件
keytool -keystore keystore -alias jetty -genkey -keyalg RSA

输入密钥库口令:  123456
再次输入新口令: 123456
您的名字与姓氏是什么?
  [Unknown]:  回车
您的组织单位名称是什么?
  [Unknown]:  回车
您的组织名称是什么?
  [Unknown]:  回车
您所在的城市或区域名称是什么?
  [Unknown]:  回车
您所在的省/市/自治区名称是什么?
  [Unknown]:  回车
该单位的双字母国家/地区代码是什么?
  [Unknown]:  cn
CN=Unknown, OU=Unknown, O=Unknown, L=Unknown, ST=Unknown, C=Unknown是否正确?
  [否]:  是
 
输入  的密钥口令
	(如果和密钥库口令相同, 按回车):  
 
Warning:
JKS 密钥库使用专用格式。建议使用 "keytool -importkeystore -srckeystore keystore -destkeystore keystore -deststoretype pkcs12" 迁移到行业标准格式 PKCS12。

（2）Azkaban Web 服务器配置

进入azkaban-web-server目录
cd /export/servers/azkaban/azkaban-web-server
 
创建子目录 extlib、logs
mkdir extlib
mkdir logs
 
复制子目录 plugins、conf
cp -r /export/servers/azkaban/azkaban-solo-server/plugins ./ 
cp -r /export/servers/azkaban/azkaban-solo-server/conf ./

（3）配置azkaban.properties

cd /export/servers/azkaban/azkaban-web-server/conf
vi azkaban.properties

# Azkaban Personalization Settings
azkaban.name=Test
azkaban.label=My Local Azkaban
azkaban.color=#FF3601
azkaban.default.servlet.path=/index
web.resource.dir=/export/servers/azkaban/azkaban-web-server/web/
default.timezone.id=Asia/Shanghai
# Azkaban UserManager class
user.manager.class=azkaban.user.XmlUserManager
user.manager.xml.file=/export/servers/azkaban/azkaban-web-server/conf/azkaban-users.xml
# Loader for projects
executor.global.properties=/export/servers/azkaban/azkaban-web-server/conf/global.properties
azkaban.project.dir=projects
database.type=MariaDB
mysql.port=3306
mysql.host=192.168.8.201
mysql.database=azkaban
mysql.user=root
mysql.password=123456
mysql.numconnections=100
h2.path=./h2
h2.create.tables=true
# Velocity dev mode
velocity.dev.mode=false
# Azkaban Jetty server properties.
jetty.use.ssl=true
jetty.maxThreads=25
jetty.port=8081
jetty.ssl.port=8443
jetty.keystore=keystore
jetty.password=123456
jetty.keypassword=123456
jetty.truststore=keystore
jetty.trustpassword=123456
# Azkaban Executor settings
executor.port=12321
# mail settings
mail.sender=
mail.host=
# User facing web server configurations used to construct the user facing server URLs. They are useful when there is a reverse proxy between Azkaban web servers and users.
# enduser -> myazkabanhost:443 -> proxy -> localhost:8081
# when this parameters set then these parameters are used to generate email links. 
# if these parameters are not set then jetty.hostname, and jetty.port(if ssl configured jetty.ssl.port) are used.
# azkaban.webserver.external_hostname=myazkabanhost.com
# azkaban.webserver.external_ssl_port=443
# azkaban.webserver.external_port=8081
job.failure.email=
job.success.email=
lockdown.create.projects=false
cache.directory=cache
# JMX stats
jetty.connector.stats=true
executor.connector.stats=true
# Azkaban plugin settings
azkaban.jobtype.plugin.dir=/export/servers/azkaban/azkaban-web-server/plugins/jobtypes

（4）配置azkaban-users.xml

（5）配置log4j.properties

vi log4j.properties
 
具体配置如下
log4j.rootLogger=INFO, Console
log4j.logger.azkaban=INFO, server
log4j.appender.server=org.apache.log4j.RollingFileAppender
log4j.appender.server.layout=org.apache.log4j.PatternLayout
log4j.appender.server.File=logs/azkaban-webserver.log
log4j.appender.server.layout.ConversionPattern=%d{yyyy/MM/dd HH:mm:ss.SSS Z} %5p [%c{1}] [%t] [Azkaban] %m%n
log4j.appender.server.MaxFileSize=102400MB
log4j.appender.server.MaxBackupIndex=2
log4j.appender.Console=org.apache.log4j.ConsoleAppender
log4j.appender.Console.layout=org.apache.log4j.PatternLayout
log4j.appender.Console.layout.ConversionPattern=%d{yyyy/MM/dd HH:mm:ss.SSS Z} %5p [%c{1}] [%t] [Azkaban] %m%n

4、azkaban-exec-server配置

创建子目录 logs
mkdir logs
 
这里可以从刚配置好azkaban-web-server下将conf、plugins、extlib拷贝过来
cd /export/servers/azkaban/azkaban-exec-server/
 
cp -r /export/servers/azkaban/azkaban-web-server/conf/ ./
cp -r /export/servers/azkaban/azkaban-web-server/plugins/ ./
cp -r /export/servers/azkaban/azkaban-web-server/extlib/ ./
 
配置azkaban.properties
cd /export/servers/azkaban/azkaban-exec-server/conf
vi azkaban.properties
 
这里只需要将jetty移除，参照以下代码
# Azkaban Jetty server properties.
jetty.use.ssl=false
jetty.maxThreads=25
jetty.port=8081
 
然后在末尾添加以下代码
# Azkaban Executor settings
executor.port=12321
executor.maxThreads=50
executor.flow.threads=30
azkaban.executor.runtimeProps.override.eager=false


完整配置如下
# Azkaban Personalization Settings
azkaban.name=Test
azkaban.label=My Local Azkaban
azkaban.color=#FF3601
azkaban.default.servlet.path=/index
web.resource.dir=/export/servers/azkaban/azkaban-web-server/web/
default.timezone.id=Asia/Shanghai
# Azkaban UserManager class
user.manager.class=azkaban.user.XmlUserManager
user.manager.xml.file=/export/servers/azkaban/azkaban-exec-server/conf/azkaban-users.xml
# Loader for projects
executor.global.properties=/export/servers/azkaban/azkaban-exec-server/conf/global.properties
azkaban.project.dir=projects
database.type=MariaDB
mysql.port=3306
mysql.host=localhost
mysql.database=azkaban
mysql.user=root
mysql.password=123456
mysql.numconnections=100
# Velocity dev mode
velocity.dev.mode=false
# Azkaban Jetty server properties.
jetty.use.ssl=false
jetty.maxThreads=25
jetty.port=8081
# Azkaban Executor settings
executor.port=12321
# mail settings
mail.sender=
mail.host=
# User facing web server configurations used to construct the user facing server URLs. They are useful when there is a reverse proxy between Azkaban web servers and users.
# enduser -> myazkabanhost:443 -> proxy -> localhost:8081
# when this parameters set then these parameters are used to generate email links.
# if these parameters are not set then jetty.hostname, and jetty.port(if ssl configured jetty.ssl.port) are used.
# azkaban.webserver.external_hostname=myazkabanhost.com
# azkaban.webserver.external_ssl_port=443
# azkaban.webserver.external_port=8081
job.failure.email=
job.success.email=
lockdown.create.projects=false
cache.directory=cache
# JMX stats
jetty.connector.stats=true
executor.connector.stats=true
# Azkaban plugin settings
azkaban.jobtype.plugin.dir=/export/servers/azkaban/azkaban-exec-server/plugins/jobtypes
# Azkaban Executor settings
executor.port=12321
executor.maxThreads=50
executor.flow.threads=30
azkaban.executor.runtimeProps.override.eager=false

5、Azkzban启动测试

启动azkaban-exec-server
cd /export/servers/azkaban/azkaban-exec-server
启动
bin/start-exec.sh 
关闭
bin/shutdown-exec.sh

启动azkaban-web-server
cd /export/servers/azkaban/azkaban-web-server
启动
bin/start-web.sh
关闭
bin/shutdown-web.sh

访问Azkaban UI
https://localhost:8443/

你可能感兴趣的:(Hbase基础,大数据技术之Hadoop学习,hadoop,hive,hbase,zookeeper,kafka)

咳嗽篇条文及大青龙汤医案-90天加强学习-周丹经方临证经验录
咳而上气，咽喉不利，脉数者，麦门冬汤主之。麦门冬汤方麦门冬七升半夏一升人参二两甘草二两（炙）粳米三合大枣十二枚右六味，以水一斗二升，煮取六升，去滓，温服一升，日三服，夜三服。半夏厚朴汤，这个咽中好像吞着烤肉，那个感觉也是咽喉不利，只是半夏厚朴汤它不是咳嗽，他这个东西，半夏厚朴汤他这个感觉是在食道里面，不牵涉到气管。那麦门冬汤这个感觉呢就有牵涉到气管了，那牵涉到气管的咳嗽而咽喉不利，就代表你这个人呢
黄厚江谈作文教学的基本定位水墨青花_7e78
今日阅读《用语文的方法教语文》第四部分——《把作文课上成作文课》之“作文教学的基本定位”：黄老师先引用了王荣生教授的调查发现——不少中学语文教师是没有作文教学的，指出“没有作文教学”，一是指没有正常的作文课，二是指没有明确清晰的作文教学思路，三是指对学生写作能力的提高没有有效的做法。（这三点每一条都切中时弊，正是我们身边的教学常态。）中学作文教学的基本定位要从不同角度来回答：1.从课程目标的角度看
TensorFlow为AI人工智能航空航天领域带来变革 AI原生应用开发人工智能 tensorflow python ai
TensorFlow为AI人工智能航空航天领域带来变革关键词：TensorFlow、人工智能、航空航天、机器学习、深度学习、神经网络、自主系统摘要：本文探讨了TensorFlow这一强大的机器学习框架如何推动航空航天领域的创新。我们将从基础概念入手，逐步深入分析TensorFlow在航天器导航、卫星图像处理、飞行器自主决策等关键应用场景中的实现原理。通过实际代码示例和架构图解，展示TensorFl
多语言文本分类在AI应用中的实践 AI原生应用开发人工智能分类数据挖掘 ai
多语言文本分类在AI应用中的实践关键词：多语言文本分类、自然语言处理、机器学习、深度学习、BERT、迁移学习、跨语言模型摘要：本文深入探讨多语言文本分类在AI领域的应用实践。我们将从基础概念出发，逐步讲解其核心原理、技术架构和实现方法，并通过实际案例展示如何构建一个高效的多语言文本分类系统。文章将涵盖从传统机器学习方法到最先进的深度学习技术，特别关注跨语言迁移学习在实际业务场景中的应用。背景介绍目
职场上，这三种员工不会被辞退，但永远不会被升职加薪！云学科技
在职场上，每个人都希望通过自己的努力实现升职加薪的梦想。但不是所有人都能达成愿望，有这么几类人工作很多年都没能实现升职加薪1、办公室文员无论是在一二线的高大上的写字楼里，还是各种中小企业的办公室里，都存在一些基础性的工作，技术含量及要求不高，但是又不得不安排人去做的工作，这就是办公室文员。因为办公室文员的工作环境好，而且清闲安逸，好多年轻的女孩子都喜欢这个职业。小张毕业后就一直从事行政的考勤、请假
职场乾坤之坤卦人生百态千悟
乾卦对应着天、男性、阳刚等，强调自强不息。坤卦对应着地、女性、阴柔等，强调厚德载物。坤卦为64卦中的第二卦，有了乾、坤这第一、第二卦，才有了后续的62卦。也因为有了天、地，便有了顶天立地创业的空间。图一01地位初爻为“履霜，坚冰至”。作为新入职的员工，为了尽快掌握公司的制度、工作内容，适应其节奏及方式等，必须要有举一反三的能力。当脚踩到初现的霜冻，那么就应该知道，很快深冬就要来临，厚厚的积冰即将出
《喋血双雄》2024吴宇森美版电影[1080p中文字幕]未删减完整版在线观看夸克迅雷网盘百度云资源（下载）链接全网优惠分享君
《喋血双雄》作为吴宇森导演的经典之作，其1989年的港版曾一度成为香港动作电影的标杆，其独特的暴力美学风格和深刻的兄弟情谊让无数影迷为之倾倒。然而，时隔三十五年，吴宇森亲自操刀翻拍的2024美版《喋血双雄》却引发了诸多争议与讨论。本文将从剧情、角色、风格以及观众反响等方面，对这部新作进行全面点评。提示：文章排版原因，喋血双雄资源链接地址放在文章结尾，往下翻就行提示：文章排版原因，喋血双雄资源链接地
Selenium 处理表单、弹窗与文件上传：从基础到实战二向箔reverse selenium 爬虫自动化
在Web自动化领域，表单交互、弹窗处理和文件上传是最常见也最容易踩坑的场景。想象一下：你编写的脚本明明定位到了输入框，却无法输入文字；点击按钮后弹出的对话框让脚本瞬间“卡壳”；好不容易找到文件上传按钮，却发现Selenium无法直接操作系统文件选择框……这些问题往往让新手头疼不已。本文将系统讲解Selenium在这三类场景中的解决方案，结合实战案例帮你突破瓶颈。一、表单处理：搞定输入、选择与提交网
摩根士丹利：到2028年，AI投资将推动科技巨头新增1.5万亿美元债务——信贷市场如何填补这一缺口？在美的苦命程序员人工智能科技
在AI技术快速发展与全球数字化转型的推动下，AI基础设施建设正成为一项巨大的资本需求。摩根士丹利最新的报告指出，到2028年，全球数据中心建设的投资将需要接近2.9万亿美元，其中大部分资金将集中在AI计算与云基础设施的建设上。而最引人注目的是，尽管超大规模云服务商（如亚马逊AWS、微软Azure等）已将大部分资金投入到AI技术基础设施中，但依然存在1.5万亿美元的融资缺口。1️⃣全球AI基础设施的
宋朝真的不杀士大夫吗？南瓜南瓜ice
宋太祖赵匡胤在宋代立国之初就立下了“不杀大臣”的誓约。这个誓约据说藏于太庙，秘而不宣，只有皇帝才能知道。宋代为了防止五代时期蕃镇割据，主要实行的是“防弊”原则，即“事为之防，曲为之制”。“防”也主要是对大臣的防范，实行的是“皇帝与士大夫共治天下”的统治政策，对武将严加防范。宋朝是对士大夫最为优待的朝代，随着士大夫群体势力的日益强大，甚至可以左右皇帝的决策，但是在宋太祖、钦宗、高宗时期还是有诛杀大臣
悟医道真（六百六十七）妙手柯楠
达乎道则明于理。“是故多食咸，则脉凝泣而变色；多食苦，则皮槁而毛拔；多食辛，则筋急而爪枯；多食酸，则肉胝䐢而唇揭；多食甘，则骨痛而发落，此五味之所伤也。”心合脉，其荣色，咸益肾，胜于心，心不胜，故脉凝泣而颜色变易也。肺合皮，其荣毛，苦益心，胜于肺，肺不胜，故皮枯槁而毛拔去也。脾合肉，其荣唇，酸益肝，胜于脾，脾不胜，故肉胝䐢，而唇皮揭举也。肾合骨，其荣发，甘益脾，胜于肾，肾不胜，故骨痛而发堕落。五味
趣侃红楼237：坚持睡熏笼，晴雯无欲无求，被骂跑解马，麝月诅咒成真君笺雅侃红楼
副标题：袭人不在家，晴雯晚上不睡床，被骂“跑解马”，究竟什么意思？副标题：袭人不在家，晴雯晚上不睡床，被骂“跑解马”趣侃红楼237：坚持睡熏笼，晴雯无欲无求，被骂跑解马，麝月诅咒成真袭人母亲病重，王熙凤奉王夫人之命，亲自安排她回家。排场堪称贵妇省亲，凸显王夫人半公开袭人“姨娘”身份之意。袭人不在，王熙凤不放心贾宝玉，就派人去怡红院吩咐嬷嬷，安排人晚上接替袭人上夜。怡红院中袭人属于“内管事”，照顾贾
无需安装的小巧C盘清理工具合集：从一键清理到深度优化，包括更小的.bat文件清理工具 xiaopengbc 软件系统清理垃圾清理文件清理
一、一键清理批处理工具（.bat文件）功能特点双击直接运行，自动扫描并清理C盘系统垃圾文件（如临时文件、缓存等）。无需安装，仅需下载.bat脚本文件即可使用。操作步骤下载文件后双击运行，脚本自动执行清理任务。适用场景适合追求极简操作的用户，尤其对命令行无基础的小白用户。文件下载地址：一键清理批处理工具（.bat文件）二、SpaceSniffer（可视化磁盘分析工具）扫描与空间分析选择分区：启动软件
短篇虐心《他的致命深情》宋安冉周晨安李泽浩(优质小说)全文免费阅读神书阁
短篇虐心《他的致命深情》宋安冉周晨安李泽浩(优质小说)全文免费阅读主角：宋安冉周晨安李泽浩简介：老公的白月光流产了，他咬定是我害的，逼我交出女儿。「要不是你，冉冉怎么会流产？孩子是你活该赔给她的！她的丧子之痛，你要百倍偿还！」我哀求反抗，挣扎着拒绝，却被他拽着头发一脚踹在了刚生产完的肚子上。怕我出逃，他将奄奄一息的我绑在地下室里，落下大锁，美曰其名：「你小气善妒，还冉冉害得这么惨，一点都不知悔改，
抄书真的能赚钱吗？头条号抄书赚钱攻略，附带操作方法氧惠全网优惠
最近有很多人分享，有人在今日头条靠“抄书赚钱”的办法，而且一天一两百元，效果那是相当的不错，经过仔细研究才知道，原来是真抄书，把书中的精华内容，手抄下来。看到效果还不错，而且门槛相当的低，所以今天今天跟大家分享两个低门槛赚钱的方法，这个两个赚钱玩法也是比较适合零基础的宝妈、学生党、上班族利用闲暇的时间去做，一个月多赚小几千轻轻松松。一、淘宝客赚钱无需成本的淘客平台，高省APP就是最好的选择。不需要
共学《诗经》第230天顺其自然蕾
共学《诗经》第230天，2021年10月9日小雅·緜蛮⑴緜蛮黄鸟⑵，止于丘阿⑶。道之云远⑷，我劳如何⑸。饮之食之，教之诲之。命彼后车⑹，谓之载之⑺。绵蛮黄鸟，止于丘隅⑻。岂敢惮行⑼，畏不能趋⑽。饮之食之，教之诲之。命彼后车，谓之载之。绵蛮黄鸟，止于丘侧⑾。岂敢惮行，畏不能极⑿。饮之食之，教之诲之。命彼后车，谓之载之。【注释】⑴小雅：《诗经》中“雅”部分，分为大雅、小雅，合称“二雅”。雅，雅乐，即正
鼓象短剧下载app安卓版的邀请码是多少？鼓象短剧官网首页邀请码是什么？鼓象邀请码怎么填写？知行导师
智能海图科技成果不断涌现，而想要增强海洋科技的自主创造能力，就要从“造外壳”走向“做大脑”，可以说海洋装备制造正在迎来前所未有的发展机遇。洋装备如果真的喜欢海洋，报考智能海洋装备专提到这个专业，顾名思义，一定得了解智能海洋装备是什么。常见的说法是指用于海洋资源开发，CA与这也是它仅有一所学校开设的局限方面。我国近年一直重视海洋装备制造的发展，自主创新D，工程力学基础，船舶与海工装备概论，海工装备结
开局就被虐——《对男人一次心软换我碎尸万段》沈行之孟颖小说阅读全文☞对男人一次心软换我碎尸万段！妞妞爱读书1
前世我暗恋沈行之4年，做他女朋友4年。整整8年都抵不过小青梅回头，他主动跟我提了分手。我不吵不闹，坦然接受这一切。没过几天他却在我家楼下，直播下跪求复合。他说即使真的要分开，也希望最后给我过一次生日，再抱一下我。在网友的劝和中，我还是心软下楼。可见面后他关闭了直播，拿出一把斧头。一下一下地砍在我身上，嘴里不停喊着。“你不是要分开吗，现在我就把你分开。”我奋力挣扎想要逃走，却还是被放进了两个麻袋里。
【Web安全】逻辑漏洞之支付漏洞：原理、场景与防御介一笔记 #Web安全基础 web安全安全支付漏洞逻辑漏洞安全性测试安全威胁分析
文章目录前言一、漏洞本质二、攻击原理正常支付流程漏洞触发流程三、抓包的时机选择：生成订单时四、风险场景1.隐藏商品购买（开发人员预留的测试商品）2.付费功能免费使用（添加付费参数：JS中查询、先买个会员抓包查看）3.修改订单类型（0改成-1、1、2、3）4.修改通用参数（自动计算最终折扣）五、检测方式1.黑盒测试：模拟攻击流程2.白盒审计：代码层校验逻辑排查六、防御方案1.严格校验关键参数2.订单
数据分析全攻略：从基础概念到实战应用的完整指南 SickeyLee 产品经理人工智能大数据信息可视化
数据分析全攻略：从基础概念到实战应用的完整指南数据分析已成为现代商业决策的核心驱动力，但很多人在面对数据时，常常陷入“不知道看什么、怎么分析、如何应用”的困境。本文将系统梳理数据分析的核心知识，从数据的本质到分析流程，从方法工具到实战指标，帮你搭建一套完整的数据分析思维框架，让数据真正为业务服务。一、数据是什么？不止于数字的“信息载体”提到数据，很多人会首先想到数字，但实际上数据的范畴远更广阔。数
数据呈现进阶：漏斗图与雷达图的实战指南 SickeyLee 信息可视化 python 数据分析
数据可视化的魅力在于，不同的图表能解锁不同的业务洞察。当你需要分析用户转化路径，或对比多维度性能差异时，基础的柱状图、折线图往往力不从心。本文将聚焦两种进阶图表——漏斗图和雷达图，详解它们的适用场景、分析逻辑和实战案例，帮你掌握“用图表解决复杂问题”的技能。一、漏斗图：追踪转化路径，定位流失“重灾区”漏斗图以“上宽下窄”的形状，直观展示了用户在固定流程中的转化与流失情况。它就像业务流程的“X光片”
班级规划助力班级发展刘嘉琪
康磊班级规划助力班级发展内容一、什么是规划二、什么是班级发展规划开学之初，做好班级发展规划，找到做班主任乐趣与职业规划！三、怎么样做班级发展规划A.依据1.依据《中国儿童发展纲要》《中小学生发展核心素养》《日常行为规范》《中小学生守则》2.现实情况小学与中学不同；初始年级与中、高年级不同；接手新班与中途接班不同3.班主任个性特长（远足骑行）B.流程1.过去基础：研究现在状况：认清未来发展：规划2.
【CTF】青少年CTF擂台挑战赛 2024 #Round 1 部分WriteUp_青少年ctf训练平台追光者(1)
给大家的福利零基础入门对于从来没有接触过网络安全的同学，我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。同时每个成长路线对应的板块都有配套的视频提供：因篇幅有限，仅展示部分资料网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以点击这里获取一个人可以走的很
渗透测试工程师(NISP-PT) 网安世纪小鹅NISP_CISP 网络网络安全安全
第一阶段：网络安全基础知识（2周）【学生可掌握的核心能力】1、能够根据企业办公环境和信息点数，为企业组建中小型企业网络，并能指导实施;2、能够根据网络拓扑图，根据企业需求，配置路由器与交换机，实现企业网络全网互通;3、按照正确的操作方法和顺序，监控设备和网络的运行状态，维护设备和网络传输媒介的正常工作;完成设备的升级、配置文件的备份和还原等;完成网络的日常维护。【学习价值】具备市场网络中级水平，能
Python Pandas 实践学习笔记（1）
PythonPandas教程Pandas是一个开源的、BSD许可证的Python库，为Python编程语言提供高性能、易于使用的数据结构和数据分析工具。Python与Pandas在学术和商业领域都被广泛应用，包括金融、经济、统计学、分析等领域。在本教程中，我们将学习PythonPandas的各种特性以及如何在实践中使用它们。教程对象本教程适用于那些想要学习Pandas基础知识和各种函数的人。对于从
常用电缆型号及对比 D-海漠其他
一、电力电缆（主电路输电）YJV中文全称：交联聚乙烯绝缘聚氯乙烯护套电力电缆功能：耐高温（90℃）、绝缘性强、载流量大场景：室内配电、变电站、工厂动力系统（替代VV电缆的趋势产品）YJV22中文全称：交联聚乙烯绝缘钢带铠装聚氯乙烯护套电力电缆功能：在YJV基础上增加钢带铠装，抗压、防啮咬场景：直埋地下、隧道、有机械损伤风险的场所VV中文全称：聚氯乙烯绝缘聚氯乙烯护套电力电缆功能：基础型电力传输，成
读懂易经读懂中华文化（72）明夷卦爻辞有庆也
明夷卦爻辞及小象传：初九，明夷于飞，垂其翼。君子于行，三日不食，有攸往，主人有言。象曰：君子于行，义不食也。六二，明夷，夷于左股，用拯马壮，吉。象曰：六二之吉，顺以则也。九三，明夷于南狩，得其大首，不可疾贞。象曰：南狩之志，乃大得也。六四，入于左腹，获明夷之心，出于门庭。象曰：入于左腹，获心意也。六五，箕子之明夷，利贞。象曰：箕子之贞，明不可息也。上六，不明晦，初登于天，后入于地。象曰：初登于天，
首席数据官CDO：企业数据资产的“首席架构师
一、CDO岗位的重要性解读：从数据爆炸到企业战略核心总的来说，CDO的诞生是技术、商业与监管三重驱动的结果。技术方面：21世纪初，随着互联网、移动设备和物联网（IoT）的普及，企业数据呈现爆炸式增长。传统IT部门难以兼顾基础设施运维与数据价值挖掘，企业开始意识到需要专职角色统筹数据管理，确保数据从“成本负担”变为“战略资产”。商业方面：2010年代，企业加速数字化转型，但数据孤岛、低质量数据等问题
2022.02.13 每日一省刘畅然
今天醒的很准时，没起来，看了一会儿手机。整体作息比前几天早了两个小时。下午连上了两节瑜伽小班课，累瘫了。天天看手机上，人家健身很轻松，没点基础，很多动作根本坚持不住。总结下来，跳绳这种轻健身运动比较适合我。才没多久，最明显的就是背部和腹部，看得见得效果。我真的不想夏天的时候穿衣服胳膊胖，肚子大，腿粗，我要坚持挑战自己。晚上听一个微课说，音乐可以刺激孩子右脑的开发，于是给闺女放着全脑音乐，陪着她一起
JAVA反序列化深入学习（三）：CommonsCollections1 Neolock 漏洞原理 JAVA反序列化 java 网络安全反序列化
ApacheCommonsCollections是一个扩展了Java标准库里的Collection结构的第三方基础库，它提供了很多强有力的数据结构类型并实现了各种集合工具类。作为Apache开源项目的重要组件，被广泛运用于各种Java应用的开发。目录JAVA环境依赖版本检查依赖配置资源下载前置知识AbstractMapDecoratorTransformedMapdecoratetransform
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

基于Hadoop生态的相关框架与组件的搭建

一、前言

安装包

二、linux配置

1、配置网络参数

2、永久关闭防火墙

3、添加IP地址配置映射表

4、SSH免密登录设置

5、配置时间同步

三、准备工作

四、jdk安装

五、Zookeeper集群部署

1、Zookeeper集群启动脚本编写

六、Hadoop高可用集群部署

1、安装配置

2、修改配置文件

（1） 修改 hadoop-env.sh 文件

（2）修改 core-site.xml 文件

（3） 修改 hdfs-site.xml 文件

（4） 修改 mapred-site.xml 文件

（5） 修改 yarn-site.xml 文件

（6）修改 slaves 文件

（7）分发节点

3、启用Hadoop高可用集群

七、Spark高可用集群部署

1、安装部署

2、配置文件

（1） 配置spark-env.sh

（2） 配置Workers文件

（3）配置spark-defaults.conf文件

注意事项

3、分发文件

4、启动Spark HA集群

脚本编写

5、Scala安装

八、Hbase高可用集群部署

1、安装配置

2、文件配置

（1）修改hbase-site.xml文件

（2）修改hbase-env.sh文件

（3） 修改regionservers文件

（4）配置备用HMaster

（5）复制hadoop配置文件

（6） 修改hbase-env.sh文件

3、分发文件

4、启动集群

5、Phoenix安装

九、Kafa集群部署

1、安装配置

2、修改配置文件

（1）修改server.properties配置文件

3、分发节点

4、启动集群

十、Hive数据仓库部署

1、安装配置

2、Mysql安装和配置

3、修改配置文件

（1）修改hive-env.sh文件

（2）修改hive-site.xml文件

（3）初始化数据仓库hive

注意事项

4、分发文件

5、设置 hadoop 的代理用户，以便 root 用户能够远程登录访问Hive

6、Hive启动

十一、Sqoop数据转移工具部署

1、安装配置

2、修改文件配置

（1）修改sqoop-env.sh文件

3、分发文件

十二、Flume日志采集系统部署

1、安装配置

2、文件配置

3、分发文件

十三、Azkban工作流管理器部署

1、解压安装

2、数据库配置

3、Azkaban Web 服务配置

（1）SSL创建

（2）Azkaban Web 服务器配置

（3）配置azkaban.properties

（1）修改 hadoop-env.sh 文件

（3）修改 hdfs-site.xml 文件

（4）修改 mapred-site.xml 文件

（5）修改 yarn-site.xml 文件

（1）配置spark-env.sh

（2）配置Workers文件

（3）修改regionservers文件

（6）修改hbase-env.sh文件