bmyyyyyy

【大数据集群搭建-Apache】Apache版本进行大数据集群各组件环境部署

1）大数据环境统一
- 1.1.设置主机名和域名映射
- 1.2.关闭服务器防火墙和Selinux
- 1.3.服务器免密登陆
- 1.4.所有机器时钟同步
- 1.5.JDK安装
2）MySQL
- 2.1.将MySQL的rpm文件导入服务器中
- 2.2.安装rpm文件
- 2.3.卸载mariadb
- 2.4.启动MySQL
- 2.5.登录MySQL
- 2.6.设置MySQL权限
3）Zookeeper
- 3.1.下载
- 3.2.上传与解压
- 3.3.修改配置文件
- 3.4.添加myid配置
- 3.5.安装包分发并修改myid的值
- 3.6.所有机器启动ZK服务
4）Hadoop
- 4.1.下载
- 4.2.解压
- 4.3.分发hadoop
- 4.4.配置/etc/profile
- 4.5.准备目录
- 4.6.配置Hadoop配置文件
- 4.7.准备native-lib
- 4.8.启动Hadoop
- 4.9.验证
5）Hive
- 5.1.下载
- 5.2.解压并重命名
- 5.3.修改Hive的配置文件
- 5.4.Hive的交互方式
6）Sqoop
- 6.1.解压安装并更改名字
- 6.2.拷贝mysql的jdbc驱动包到lib目录下
- 6.3.配置文件
- 6.4.测试
- 6.5.语句
7）HBase
- 7.1.上传解压HBase安装包
- 7.2.修改HBase配置文件
- 7.3.配置环境变量
- 7.4.复制jar包到lib
- 7.5.修改regionservers文件
- 7.6.分发安装包与配置文件
- 7.7.搭建HBase高可用
- 7.8.解决hbase/filter错误
- 7.9.解决sqoop的lib库中没有hbase的相应jar包
- 7.10.启动HBase
- 7.11.验证Hbase是否启动成功
- 7.12.WebUI
8）Elasticsearch
- 8.1.创建普通用户
- 8.2.为普通用户itcast添加sudo权限
- 8.3.上传压缩包并压缩
- 8.4.修改配置文件
- 8.5.将安装包分发到其他服务器上面
- 8.6.其他节点修改es配置文件
- 8.7.修改系统配置，解决启动时候的问题
- 8.8.启动ES服务
- 8.9.Elasticsearch-head插件
- - 8.9.1.安装nodejs
  - 8.9.2.本地安装
9）Spark
- 9.1.下载
- 9.2.Local安装
- 9.3.Standalone集群安装
- 9.4.Standalone HA 搭建
- 9.5.Spark On Yarn
- 9.6.启动
- 9.7.WebUI
10.Kafka
- 10.1.准备如下目录
- 10.2.下载
- 10.3.上传压缩包并解压
- 10.4.配置环境变量
- 10.5.分发安装包
- 10.6.修改Kafka配置文件
- - 10.6.1.目录重命名
  - 10.6.2.修改配置文件
  - 10.6.3.配置详解
- 10.7.启动
11）Flink
- 11.1.下载
- 11.2.Local安装
- 11.3.Standalone集群安装
- 11.4.Standalone HA搭建
- 11.5.Flink On Yarn
- 11.6.WebUI

1）大数据环境统一

1.1.设置主机名和域名映射

1、配置每台虚拟机主机名:

vim /etc/hostname

第一台主机主机名为:5gcsp-bigdata-svr1

第二台主机主机名为:5gcsp-bigdata-svr2

第三台主机主机名为:5gcsp-bigdata-svr3

第四台主机主机名为:5gcsp-bigdata-svr4

第五台主机主机名为:5gcsp-bigdata-svr5

2、配置每台服务器域名映射

vim /etc/hosts
#ip hostname/域名

1.2.关闭服务器防火墙和Selinux

1、关闭每台机器的防火墙

systemctl stop firewalld.service          #停止firewall
systemctl disable firewalld.service       #禁止firewall开机启动
systemctl status firewalld.service  	  #关闭之后,查看防火墙状态

2、关闭每台机器的Selinux

vim /etc/selinux/config

#改成如下:
SELINUX=disabled

重启:

#如果更改了Selinux一定要重启机器
reboot

1.3.服务器免密登陆

1、在所有机器执行以下命令，生成公钥与私钥，敲三下回车

ssh-keygen -t rsa

2、所有机器将拷贝公钥到第一台机器，所有机器执行命令

ssh-copy-id 5gcsp-bigdata-svr1

3、将第一台机器的公钥拷贝到其他机器上，在第一台机器上指行以下命令，执行时需要输入yes和对方密码

scp /root/.ssh/authorized_keys 5gcsp-bigdata-svr1:/root/.ssh
scp /root/.ssh/authorized_keys 5gcsp-bigdata-svr2:/root/.ssh
scp /root/.ssh/authorized_keys 5gcsp-bigdata-svr4:/root/.ssh
scp /root/.ssh/authorized_keys 5gcsp-bigdata-svr5:/root/.ssh

4、测试一下，可以在任何一台主机上通过ssh 主机名命令去远程登录到该主机，输入exit退出登录

ssh node1
exit

1.4.所有机器时钟同步

启动定时任务

crontab -e

随后在输入界面键入以下内容，每隔一分钟就去连接阿里云时间同步服务器，进行时钟同步

*/1 * * * * /usr/sbin/ntpdate -u ntp4.aliyun.com;

1.5.JDK安装

1、每个服务器上创建好目录

mkdir -p /export/software    软件包放置的目录
mkdir -p /export/servers      软件安装的目录

2、进入 /export/software 目录, 上传jdk的安装包: jdk-8u241-linux-x64.tar.gz

3、解压压缩包到/export/servers目录下

tar -zxvf jdk-8u241-linux-x64.tar.gz -C /export/servers

4、配置 jdk 环境变量，export 命令用于将 shell 变量输出为环境变量

第一步: vi /etc/profile
第二步: 通过键盘上下键 将光标拉倒最后面
第三步: 然后输入 i, 将一下内容输入即可
注意：具体的文件目录要根据自己的文件目录进行修改

#set java environment 
JAVA_HOME=/export/servers/jdk1.8.0_241 
CLASSPATH=.:$JAVA_HOME/lib 
PATH=$JAVA_HOME/bin:$PATH 
export JAVA_HOME CLASSPATH PATH

第四步: esc键 然后 :wq  保存退出即可

5、重新加载环境变量

source /etc/profile

6、配置jdk是否安装成功

java -version
或者
javac -version

2）MySQL

2.1.将MySQL的rpm文件导入服务器中

cd /export/software

2.2.安装rpm文件

依次执行下面命令

rpm -ivh mysql-community-common-5.7.26-1.el7.x86_64.rpm
rpm -ivh mysql-community-libs-5.7.26-1.el7.x86_64.rpm --nodeps --force
rpm -ivh mysql-community-client-5.7.26-1.el7.x86_64.rpm
rpm -ivh mysql-community-server-5.7.26-1.el7.x86_64.rpm --nodeps --force

2.3.卸载mariadb

cnetos7集成了mariadb，而安装mysql的话会和mariadb的冲突，所以需要先卸载掉mariadb，以下为卸载mariadb

查看是否安装过MySQL其他的包,如果有也可以按照下面命令删除,然后重新安装新的MySQL
rpm -qa|grep -i mysql

查看是否有mariadb,如果有的话可以删除,防止和mysql冲突
rpm -qa | grep mariadb
rpm -e  mariadb包名 --nodeps

#再次查看发现消失
rpm -qa | grep mariadb

2.4.启动MySQL

service mysqld status //查看是否启动
service mysqld start //启动
service mysqld status //查看是否启动

2.5.登录MySQL

1、查看密码

grep "password" /var/log/mysqld.log  K3-JrYp5S2)7

2、登录mysql

mysql -uroot -p

3、修改密码

#取消mysql密码规范限制
set global validate_password_policy=0;
set global validate_password_length=1;

#重设密码
alter user 'root'@'localhost' identified by '123456';
flush privileges;

2.6.设置MySQL权限

create database scm DEFAULT CHARACTER SET utf8;
#如果由于数据库更新导致下面命令报错,输入如下命令
#mysql_upgrade -u root -p 123456

grant all PRIVILEGES on *.* TO 'root'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION;
grant all PRIVILEGES on *.* TO 'root'@'localhost' IDENTIFIED BY '123456' WITH GRANT OPTION;
grant all PRIVILEGES on *.* TO 'root'@'5gcsp-bigdata-svr1' IDENTIFIED BY '123456' WITH GRANT OPTION;
flush privileges;

3）Zookeeper

3.1.下载

http://archive.apache.org/dist/zookeeper/

3.2.上传与解压

解压zookeeper的压缩包到/export/servers路径下去，然后准备进行安装

cd /export/software
tar -zxvf zookeeper-3.4.6.tar.gz -C /export/servers/

3.3.修改配置文件

cd /export/servers/zookeeper-3.4.6/conf/
cp zoo_sample.cfg zoo.cfg
mkdir -p /export/servers/zookeeper-3.4.6/zkdatas/
vim  zoo.cfg

修改以下内容:

#Zookeeper的数据存放目录
dataDir=/export/servers/zookeeper-3.4.6/zkdatas
# 保留多少个快照
autopurge.snapRetainCount=3
# 日志多少小时清理一次
autopurge.purgeInterval=1
# 集群中服务器地址
server.1=5gcsp-bigdata-svr1:2888:3888
server.2=5gcsp-bigdata-svr2:2888:3888
server.3=5gcsp-bigdata-svr3:2888:3888
server.4=5gcsp-bigdata-svr4:2888:3888
server.5=5gcsp-bigdata-svr5:2888:3888

server.1=node1:2888:3888
server.2=node2:2888:3888
server.3=node3:2888:3888

3.4.添加myid配置

在第一台服务器上的/export/servers/zookeeper-3.4.6/zkdatas/这个路径下创建一个文件，文件名为myid

echo 1 > /export/servers/zookeeper-3.4.6/zkdatas/myid

3.5.安装包分发并修改myid的值

1、第一台机器上面执行以下命令

scp -r  /export/servers/zookeeper-3.4.6/ 5gcsp-bigdata-svr2:/export/servers/
scp -r  /export/servers/zookeeper-3.4.6/ 5gcsp-bigdata-svr3:/export/servers/
scp -r  /export/servers/zookeeper-3.4.6/ 5gcsp-bigdata-svr4:/export/servers/
scp -r  /export/servers/zookeeper-3.4.6/ 5gcsp-bigdata-svr5:/export/servers/

2、第二台机器上修改myid的值为2

echo 2 > /export/servers/zookeeper-3.4.6/zkdatas/myid

3、第三台机器上修改myid的值为3

echo 3 > /export/servers/zookeeper-3.4.6/zkdatas/myid

4、第四台机器上修改myid为4

echo 4 > /export/servers/zookeeper-3.4.6/zkdatas/myid

5、第五台机器上修改myid为5

echo 2 > /export/servers/zookeeper-3.4.6/zkdatas/myid

3.6.所有机器启动ZK服务

1、这个命令三台机器都要执行

/export/servers/zookeeper-3.4.6/bin/zkServer.sh start

2、三台主机分别查看启动状态

/export/servers/zookeeper-3.4.6/bin/zkServer.sh status

4）Hadoop

4.1.下载

链接：https://pan.baidu.com/s/154nyt3GBOTon_shvJ_DUlg

提取码：kyun

4.2.解压

在5gcsp-bigdata-svr1节点上执行：

# 解压Hadoop到/export/servers内
tar -zxvf hadoop-2.7.5.tar.gz -C /export/servers/

4.3.分发hadoop

在5gcsp-bigdata-svr1执行：

scp -r /export/servers/hadoop-2.7.5 5gcsp-bigdata-svr2:/export/servers/
scp -r /export/servers/hadoop-2.7.5 5gcsp-bigdata-svr3:/export/servers/
scp -r /export/servers/hadoop-2.7.5 5gcsp-bigdata-svr4:/export/servers/
scp -r /export/servers/hadoop-2.7.5 5gcsp-bigdata-svr5:/export/servers/

4.4.配置/etc/profile

1、在5gcsp-bigdata-svr1将如下内容追加写入到/etc/profile内：

export JAVA_HOME=/usr/local/jdk1.8.0_191
export HADOOP_HOME=/export/servers/hadoop-2.7.5
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_LOG_DIR=$HADOOP_HOME/logs/yarn
export HADOOP_LOG_DIR=$HADOOP_HOME/logs/hdfs
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=${HADOOP_HOME}/lib/native"
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH

2、将这个文件分发到每台机器：

scp /etc/profile 5gcsp-bigdata-svr2:/etc/
scp /etc/profile 5gcsp-bigdata-svr3:/etc/
scp /etc/profile 5gcsp-bigdata-svr4:/etc/
scp /etc/profile 5gcsp-bigdata-svr5:/etc/

3、每台机器均执行：

source /etc/profile

4.5.准备目录

在5gcsp-bigdata-svr1执行：

mkdir -p /data/namenode-data
mkdir -p /data/nm-local
mkdir -p /data/nm-log

4.6.配置Hadoop配置文件

在5gcsp-bigdata-svr1机器上配置

1、hadoop-env.sh文件

添加如下内容：

export JAVA_HOME=/usr/local/jdk1.8.0_191
export HADOOP_HOME=/export/servers/hadoop-2.7.5
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_LOG_DIR=$HADOOP_HOME/logs/yarn
export HADOOP_LOG_DIR=$HADOOP_HOME/logs/hdfs

2、core-site.xml

在configuration块内添加：

  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://5gcsp-bigdata-svr1:8020</value>
  </property>

  <property>
    <name>io.file.buffer.size</name>
    <value>131072</value>
  </property>

3、hdfs-site.xml

    <property>
        <name>dfs.datanode.data.dir.perm</name>
        <value>700</value>
    </property>

  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/data/namenode-data</value>
    <description>Path on the local filesystem where the NameNode stores the namespace and transactions logs persistently.</description>
  </property>

  <property>
    <name>dfs.namenode.hosts</name>
    <value>5gcsp-bigdata-svr2,5gcsp-bigdata-svr3,5gcsp-bigdata-svr4,5gcsp-bigdata-svr5</value>
    <description>List of permitted DataNodes.</description>
  </property>

  <property>
    <name>dfs.blocksize</name>
    <value>268435456</value>
    <description></description>
  </property>


  <property>
    <name>dfs.namenode.handler.count</name>
    <value>100</value>
    <description></description>
  </property>

  <property>
    <name>dfs.datanode.data.dir</name>
	<value>/data/dn-data-1,/data/dn-data-2,/data/dn-data-3,/data/dn-data-4,/data/dn-data-5,/data/dn-data-6,/data/dn-data-7,/data/dn-data-8</value>
	<description>DataNode data dir</description>
  </property>

4、yarn-env.sh文件

添加：

export JAVA_HOME=/usr/local/jdk1.8.0_191
export HADOOP_HOME=/export/servers/hadoop-2.7.5
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_LOG_DIR=$HADOOP_HOME/logs/yarn
export HADOOP_LOG_DIR=$HADOOP_HOME/logs/hdfs

5、yarn-site.xml文件

在configuration块中添加：

<property>
    <name>yarn.log.server.url</name>
    <value>http://5gcsp-bigdata-svr1:19888/jobhistory/logs</value>
    <description></description>
</property>

  <property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
    <description>Configuration to enable or disable log aggregation</description>
  </property>

  <property>
    <name>yarn.nodemanager.remote-app-log-dir</name>
    <value>/tmp/logs</value>
    <description>Configuration to enable or disable log aggregation IN HDFS</description>
  </property>

<!-- Site specific YARN configuration properties -->
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>5gcsp-bigdata-svr1</value>
    <description></description>
  </property>

  <property>
    <name>yarn.resourcemanager.scheduler.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>
    <description></description>
  </property>

  <property>
    <name>yarn.nodemanager.local-dirs</name>
    <value>/data/nm-local</value>
    <description>Comma-separated list of paths on the local filesystem where intermediate data is written.</description>
  </property>

  <property>
    <name>yarn.nodemanager.log-dirs</name>
    <value>/data/nm-log</value>
    <description>Comma-separated list of paths on the local filesystem where logs are written.</description>
  </property>

  <property>
    <name>yarn.nodemanager.log.retain-seconds</name>
    <value>10800</value>
    <description>Default time (in seconds) to retain log files on the NodeManager Only applicable if log-aggregation is disabled.</description>
  </property>

  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
    <description>Shuffle service that needs to be set for Map Reduce applications.</description>
  </property>

6、maprd-env.sh文件

增加：

export JAVA_HOME=/usr/local/jdk1.8.0_191

7、mapred-site.xml文件

在configuration块中添加：

  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
    <description></description>
  </property>

  <property>
    <name>mapreduce.jobhistory.address</name>
    <value>5gcsp-bigdata-svr1:10020</value>
    <description></description>
  </property>


  <property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>5gcsp-bigdata-svr1:19888</value>
    <description></description>
  </property>


  <property>
    <name>mapreduce.jobhistory.intermediate-done-dir</name>
    <value>/tmp/mr-history/tmp</value>
    <description></description>
  </property>


  <property>
    <name>mapreduce.jobhistory.done-dir</name>
    <value>/tmp/mr-history/done</value>
    <description></description>
  </property>

8、slave文件

修改为：

5gcsp-bigdata-svr2
5gcsp-bigdata-svr3
5gcsp-bigdata-svr4
5gcsp-bigdata-svr5

9、分发配置

将这些编辑好的配置文件分发到每个机器上：

scp -r /export/servers/hadoop-2.7.5/etc/hadoop/* 5gcsp-bigdata-svr2:/export/servers/hadoop-2.7.5/etc/hadoop/
scp -r /export/servers/hadoop-2.7.5/etc/hadoop/* 5gcsp-bigdata-svr3:/export/servers/hadoop-2.7.5/etc/hadoop/
scp -r /export/servers/hadoop-2.7.5/etc/hadoop/* 5gcsp-bigdata-svr4:/export/servers/hadoop-2.7.5/etc/hadoop/
scp -r /export/servers/hadoop-2.7.5/etc/hadoop/* 5gcsp-bigdata-svr5:/export/servers/hadoop-2.7.5/etc/hadoop/

4.7.准备native-lib

上传hadoop-2.6.0+cdh5.14.4+2785-1.cdh5.14.4.p0.4.el6.x86_64.rpm，并在每个节点均执行：

# 找到 hadoop-2.6.0+cdh5.14.4+2785-1.cdh5.14.4.p0.4.el6.x86_64.rpm，执行：
rpm2cpio hadoop-2.6.0+cdh5.14.4+2785-1.cdh5.14.4.p0.4.el6.x86_64.rpm | cpio -div

# 如果其他节点没有这个rpm文件可以scp复制过去

# 进入解压后的路径 usr/lib/hadoop/lib/native，执行：
cp -d * $HADOOP_HOME/lib/native/

4.8.启动Hadoop

1、第一台机器（namenode节点所在机器）格式化NameNode

hadoop namenode -format

2、启动HDFS与Yarn

/export/servers/hadoop-2.7.5/sbin/start-dfs.sh
/export/servers/hadoop-2.7.5/sbin/start-yarn.sh

3、或者直接启动所有

start-all.sh

4、启动历史服务

mr-jobhistory-daemon.sh start historyserver

4.9.验证

# HDFS WEB页面
http://IP:50070
http://IP:8088

5）Hive

5.1.下载

http://archive.apache.org/dist/hive/

5.2.解压并重命名

cd /export/software
tar -zxvf apache-hive-2.1.0-bin.tar.gz  -C /export/servers
cd /export/servers
mv apache-hive-2.1.0-bin hive-2.1.0

5.3.修改Hive的配置文件

1、hive-env.sh

cd  /export/servers/hive-2.1.0/conf
cp hive-env.sh.template hive-env.sh
vim hive-env.sh

修改内容如下：

HADOOP_HOME=/export/servers/hadoop-2.7.5
export HIVE_CONF_DIR=/export/servers/hive-2.1.0/conf

2、hive-site.xml

cd  /export/servers/hive-2.1.0/conf
vim hive-site.xml

在该文件中添加以下内容

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
      <name>javax.jdo.option.ConnectionUserName</name>
      <value>root</value>
  </property>
  <property>
      <name>javax.jdo.option.ConnectionPassword</name>
      <value>123456</value>
  </property>
  <property>
      <name>javax.jdo.option.ConnectionURL</name>
      <value>jdbc:mysql://5gcsp-bigdata-svr1:3306/hive?createDatabaseIfNotExist=true&amp;useSSL=false</value>
  </property>
  <property>
      <name>javax.jdo.option.ConnectionDriverName</name>
      <value>com.mysql.jdbc.Driver</value>
  </property>
  <property>
      <name>hive.metastore.schema.verification</name>
      <value>false</value>
  </property>
  <property>
    <name>datanucleus.schema.autoCreateAll</name>
    <value>true</value>
 </property>
 <property>
	<name>hive.server2.thrift.bind.host</name>
	<value>5gcsp-bigdata-svr1</value>
   </property>
</configuration>

3、上传MySQL的lib驱动包

将mysql的lib驱动包上传到hive的lib目录下

cd /export/servers/hive-2.1.0/lib

将mysql-connector-java-5.1.38.jar 上传到这个目录下

4、拷贝相关jar包

将hive-2.1.0/jdbc/目录下的hive-jdbc-2.1.0-standalone.jar 拷贝到hive-2.1.0/lib/目录

cp /export/servers/hive-2.1.0/jdbc/hive-jdbc-2.1.0-standalone.jar /export/servers/hive-2.1.0/lib/

5、配置Hive环境变量

Hive节点执行以下命令配置hive的环境变量

vim /etc/profile

添加以下内容:

export HIVE_HOME=/export/servers/hive-2.1.0
export PATH=:$HIVE_HOME/bin:$PATH

5.4.Hive的交互方式

1、bin/hive

cd /export/servers/hive-2.1.0/
bin/hive

创建一个数据库

create database  mytest;
show databases;

此处需要注意: 如果启动后在mysql中没有发现构建hive库及其相关的表, 建议执行一下操作:

schematool -dbType mysql -initSchema		#手动初始化元数据信息

2、使用sql语句或者sql脚本进行交互

不进入hive的客户端直接执行hive的hql语句

cd /export/servers/hive-2.1.0/
bin/hive -e "create database mytest"

或者我们可以将我们的hql语句写成一个sql脚本然后执行

cd /export/servers
vim  hive.sql

脚本内容如下:

create database mytest2;
use mytest2;
create table stu(id int,name string);

通过hive -f 来执行我们的sql脚本

bin/hive -f /export/server/hive.sql

3、BeelineClient

hive经过发展，推出了第二代客户端beeline，但是beeline客户端不是直接访问metastore服务的，而是需要单独启动hiveserver2服务。在hive运行的服务器上，首先启动metastore服务，然后启动hiveserver2服务。

nohup /export/servers/hive-2.1.0/bin/hive --service metastore &
nohup /export/servers/hive-2.1.0/bin/hive --service hiveserver2 &

在Hive的安装节点上使用beeline客户端进行连接访问。

/export/servers/hive-2.1.0/bin/beeline

根据提醒进行以下操作:

[root@node3 ~]# /export/server/hive-2.1.0/bin/beeline
which: no hbase in (:/export/server/hive-2.1.0/bin::/export/server/hadoop-2.7.5/bin:/export/server/hadoop-2.7.5/sbin::/export/server/jdk1.8.0_241/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/export/server/mysql-5.7.29/bin:/root/bin)
Beeline version 2.1.0 by Apache Hive
beeline> !connect jdbc:hive2://5gcsp-bigdata-svr1:10000
Connecting to jdbc:hive2://node3:10000
Enter username for jdbc:hive2://node3:10000: root
Enter password for jdbc:hive2://node3:10000:123456

注意: 如果报出以下, 请修改 hadoop中 core-site.xml文件

错误信息为: User: root is not allowed to impersonate root

解决方案: 在node1的 hadoop的 core-site.xml文件中添加一下内容:

<property> 
<name>hadoop.proxyuser.root.hosts</name>
<value>*</value> 
</property> 
<property> 
<name>hadoop.proxyuser.root.groups</name> 
<value>*</value> 
</property>

添加后, 将 core-site.xml 发送到其他两台机子:

cd /export/servers/hadoop-2.7.5/etc/hadoop
scp core-site.xml 5gcsp-bigdata-svr2:$PWD
scp core-site.xml 5gcsp-bigdata-svr3:$PWD
scp core-site.xml 5gcsp-bigdata-svr4:$PWD
scp core-site.xml 5gcsp-bigdata-svr5:$PWD

此时重新启动Hive并连接即可连接成功

6）Sqoop

6.1.解压安装并更改名字

tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /export/servers/
cd /export/servers/
mv sqoop-1.4.6.bin__hadoop-2.0.4-alpha sqoop

6.2.拷贝mysql的jdbc驱动包到lib目录下

cd /export/servers/sqoop/lib

6.3.配置文件

cd /export/servers/sqoop/conf
cp sqoop-env-template.sh  sqoop-env.sh
vim sqoop-env.sh

#修改配置文件
#Set path to where bin/hadoop is available
export HADOOP_COMMON_HOME=/export/servers/hadoop-2.7.5

#Set path to where hadoop-*-core.jar is available
export HADOOP_MAPRED_HOME=/export/servers/hadoop-2.7.5

#set the path to where bin/hbase is available
#export HBASE_HOME=

#Set the path to where bin/hive is available
export HIVE_HOME=/export/servers/hive-2.1.0

#Set the path for where zookeper config dir is
#export ZOOCFGDIR=

6.4.测试

cd /export/servers/sqoop/bin
sqoop-version

6.5.语句

创建和mysql结构相同的hive表
sqoop  create-hive-table \
--connect jdbc:mysql://5gcsp-bigdata-svr1:3306/test \
--table emp \
--username root \
--password 123456 \
--hive-table sqooptohive.emp


将mysql表中的数据导入到hive中
sqoop import \
--connect jdbc:mysql://5gcsp-bigdata-svr1:3306/test \
--username root \
--password 123456 \
--table emp \
--hive-table sqooptohive.emp \
--hive-import \
-m1

7）HBase

7.1.上传解压HBase安装包

tar -zxvf hbase-1.6.0-bin.tar.gz -C /export/servers/

7.2.修改HBase配置文件

1、hbase-env.sh

cd /export/servers/hbase-1.6.0/conf
vim hbase-env.sh
# 第28行
export JAVA_HOME=/usr/local/jdk1.8.0_191
export HBASE_MANAGES_ZK=false

2、hbase-site.xml

vim hbase-site.xml
------------------------------
<configuration>
        <!-- HBase数据在HDFS中的存放的路径 -->
        <property>
            <name>hbase.rootdir</name>
            <value>hdfs://5gcsp-bigdata-svr1:8020/hbase</value>
        </property>
        <!-- Hbase的运行模式。false是单机模式，true是分布式模式。若为false,Hbase和Zookeeper会运行在同一个JVM里面 -->
        <property>
            <name>hbase.cluster.distributed</name>
            <value>true</value>
        </property>
        <!-- ZooKeeper的地址 -->
        <property>
            <name>hbase.zookeeper.quorum</name>

<value>5gcsp-bigdata-svr1,5gcsp-bigdata-svr2,5gcsp-bigdata-svr3,5gcsp-bigdata-svr4,5gcsp-bigdata-svr5</value>
        </property>
        <!-- ZooKeeper快照的存储位置 -->
        <property>
            <name>hbase.zookeeper.property.dataDir</name>
            <value>/export/servers/zookeeper-3.4.6/zkdatas</value>
        </property>
        <!--  V2.1版本，在分布式情况下, 设置为false -->
        <property>
            <name>hbase.unsafe.stream.capability.enforce</name>
            <value>false</value>
        </property>
</configuration>

7.3.配置环境变量

# 配置Hbase环境变量
vim /etc/profile
export HBASE_HOME=/export/servers/hbase-1.6.0
export PATH=$PATH:${HBASE_HOME}/bin:${HBASE_HOME}/sbin

#加载环境变量
source /etc/profile

7.4.复制jar包到lib

根据版本来决定此步骤，到lib目录下看看有没有htrace-core-3.1.0-incubating.jar，如果有跳过此步骤

cp $HBASE_HOME/lib/client-facing-thirdparty/htrace-core-3.1.0-incubating.jar $HBASE_HOME/lib/

7.5.修改regionservers文件

vim regionservers 
5gcsp-bigdata-svr1
5gcsp-bigdata-svr2
5gcsp-bigdata-svr3
5gcsp-bigdata-svr4
5gcsp-bigdata-svr5

7.6.分发安装包与配置文件

cd /export/servers
scp -r hbase-1.6.0/ 5gcsp-bigdata-svr2:$PWD
scp -r hbase-1.6.0/ 5gcsp-bigdata-svr3:$PWD
scp -r hbase-1.6.0/ 5gcsp-bigdata-svr4:$PWD
scp -r hbase-1.6.0/ 5gcsp-bigdata-svr5:$PWD

在其余节点配置加载环境变量
# 配置Hbase环境变量
vim /etc/profile
export HBASE_HOME=/export/servers/hbase-1.6.0
export PATH=$PATH:${HBASE_HOME}/bin:${HBASE_HOME}/sbin

#加载环境变量
source /etc/profile

7.7.搭建HBase高可用

1、在hbase的conf文件夹中创建 backup-masters 文件

cd /export/servers/hbase-1.6.0/conf/
touch backup-masters

2、将备份节点添加到该文件中

vim backup-masters
5gcsp-bigdata-svr2
5gcsp-bigdata-svr3

3、将backup-masters文件分发到所有的服务器节点中

scp backup-masters 5gcsp-bigdata-svr2:$PWD
scp backup-masters 5gcsp-bigdata-svr3:$PWD
scp backup-masters 5gcsp-bigdata-svr4:$PWD
scp backup-masters 5gcsp-bigdata-svr5:$PWD

7.8.解决hbase/filter错误

后面hbase与sqoop合作是用时如果报Exception in thread “main” java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/filter/Filter的错误的话就按照如下方式进行解决

1、关闭所有Hadoop进程

7.9.解决sqoop的lib库中没有hbase的相应jar包

ERROR tool.ImportTool: Error during import: HBase jars are not present in classpath, cannot import to HBase!

原因是：sqoop的lib库中没有hbase的相应jar包

解决办法 : 将hbase中的lib文件夹下的hbase-hbase-annotations.jar、hbase-common.jar、hbase-protocol.jar复制到sqoop的lib文件夹中，如果还是不能解决问题，则把hbase中lib文件夹的所有jar包都复制到sqoop的lib文件夹中。

cd /export/servers/hbase-1.6.0/lib
cp * /export/servers/sqoop/lib

#如有覆盖提醒选择n即可

7.10.启动HBase

cd /export/servers
# 启动ZK
./start-zk.sh
# 启动hadoop
start-dfs.sh
# 启动hbase
start-hbase.sh

7.11.验证Hbase是否启动成功

# 启动hbase shell客户端
hbase shell
# 输入status

[root@node1 onekey]# hbase shell
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/export/server/hadoop-2.7.5/share/hadoop/common/lib/slf4j-log4j12-1.7.10.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/export/server/hbase-1.6.0/lib/client-facing-thirdparty/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]
HBase Shell
Use "help" to get list of supported commands.
Use "exit" to quit this interactive shell.
Version 2.1.0, re1673bb0bbfea21d6e5dba73e013b09b8b49b89b, Tue Jul 10 17:26:48 CST 2018
Took 0.0034 seconds                                                                                                                                           
Ignoring executable-hooks-1.6.0 because its extensions are not built. Try: gem pristine executable-hooks --version 1.6.0
Ignoring gem-wrappers-1.4.0 because its extensions are not built. Try: gem pristine gem-wrappers --version 1.4.0
2.4.1 :001 > status
1 active master, 0 backup masters, 3 servers, 0 dead, 0.6667 average load
Took 0.4562 seconds                                                                                                                                           
2.4.1 :002 >

7.12.WebUI

http://5gcsp-bigdata-svr1:16010/master-status

8）Elasticsearch

8.1.创建普通用户

使用root用户在所有机器下执行

useradd itcast
passwd itcast

8.2.为普通用户itcast添加sudo权限

所有机器使用root用户执行visudo命令然后为es用户添加权限

visudo
# 第100行
itcast      ALL=(ALL)       ALL

8.3.上传压缩包并压缩

以下操作使用root用户进行es的相关操作,所有机器都需要创建

mkdir -p /export/servers/es
chown -R itcast:itcast /export/servers/es

将es的安装包下载并上传到5gcsp-bigdata-svr1服务器的/export/software路径下，然后进行解压，使用itcast用户来执行以下操作，将es安装包上传到5gcsp-bigdata-svr1服务器，并使用es用户执行以下命令解压

# 解压Elasticsearch
cd /export/software/ 
tar -zvxf elasticsearch-7.6.1-linux-x86_64.tar.gz -C /export/servers/es/

8.4.修改配置文件

1、修改elasticsearch.yml

5gcsp-bigdata-svr1服务器使用itcast用户来修改配置文件

cd /export/servers/es/elasticsearch-7.6.1/config
mkdir -p /export/servers/es/elasticsearch-7.6.1/log
mkdir -p /export/servers/es/elasticsearch-7.6.1/data
rm -rf elasticsearch.yml

vim elasticsearch.yml
cluster.name: itcast-es
node.name: 5gcsp-bigdata-svr1
path.data: /export/servers/es/elasticsearch-7.6.1/data
path.logs: /export/servers/es/elasticsearch-7.6.1/log
network.host: 5gcsp-bigdata-svr1
http.port: 9200
discovery.seed_hosts: ["5gcsp-bigdata-svr1", "5gcsp-bigdata-svr2", "5gcsp-bigdata-svr3", "5gcsp-bigdata-svr4", "5gcsp-bigdata-svr5"]
cluster.initial_master_nodes: ["5gcsp-bigdata-svr1", "5gcsp-bigdata-svr2"]
bootstrap.system_call_filter: false
bootstrap.memory_lock: false
http.cors.enabled: true
http.cors.allow-origin: "*"

2、修改jvm.option

使用itcast用户执行以下命令调整jvm堆内存大小，每个人根据自己服务器的内存大小来进行调整。

cd /export/servers/es/elasticsearch-7.6.1/config
vim jvm.options
-Xms2g
-Xmx2g

8.5.将安装包分发到其他服务器上面

使用itcast用户将安装包分发到其他服务器上面去

cd /export/servers/es/
scp -r elasticsearch-7.6.1/ 5gcsp-bigdata-svr2:$PWD
scp -r elasticsearch-7.6.1/ 5gcsp-bigdata-svr3:$PWD
scp -r elasticsearch-7.6.1/ 5gcsp-bigdata-svr4:$PWD
scp -r elasticsearch-7.6.1/ 5gcsp-bigdata-svr5:$PWD

8.6.其他节点修改es配置文件

使用itcast用户执行以下命令修改es配置文件，更改node.name和network.host，以此类推

cd /export/servers/es/elasticsearch-7.6.1/config
mkdir -p /export/servers/es/elasticsearch-7.6.1/log
mkdir -p /export/servers/es/elasticsearch-7.6.1/data
rm -rf elasticsearch.yml

vim elasticsearch.yml
cluster.name: itcast-es
node.name: 5gcsp-bigdata-svr2
path.data: /export/servers/es/elasticsearch-7.6.1/data
path.logs: /export/servers/es/elasticsearch-7.6.1/log
network.host: 5gcsp-bigdata-svr2
http.port: 9200
discovery.seed_hosts: ["5gcsp-bigdata-svr1", "5gcsp-bigdata-svr2", "5gcsp-bigdata-svr3", "5gcsp-bigdata-svr4", "5gcsp-bigdata-svr5"]
cluster.initial_master_nodes: ["5gcsp-bigdata-svr1", "5gcsp-bigdata-svr2"]
bootstrap.system_call_filter: false
bootstrap.memory_lock: false
http.cors.enabled: true
http.cors.allow-origin: "*"

8.7.修改系统配置，解决启动时候的问题

1、普通用户打开文件的最大数限制

所有机器使用itcast用户执行

sudo vi /etc/security/limits.conf

添加如下内容：
* soft nofile 65536
* hard nofile 131072
* soft nproc 2048
* hard nproc 4096

2、普通用户启动线程数限制

所有机器使用itcast用户执行

Centos6
sudo vi /etc/security/limits.d/90-nproc.conf
Centos7
sudo vi /etc/security/limits.d/20-nproc.conf

找到如下内容：
* soft nproc 1024
#修改为
* soft nproc 4096

3、普通用户调大虚拟内存

所有机器使用itcast用户执行

第一种调整: 临时调整, 退出会话 重新登录 就会失效的 (测试环境下配置)
sudo  sysctl -w vm.max_map_count=262144    

第二种: 永久有效  (生产中配置)
sudo vim /etc/sysctl.conf
在最后添加一行
vm.max_map_count=262144

备注：以上三个问题解决完成之后，重新连接secureCRT或者重新连接xshell生效

8.8.启动ES服务

nohup /export/servers/es/elasticsearch-7.6.1/bin/elasticsearch 2>&1 &

启动成功之后jsp即可看到es的服务进程，并且访问页面

http://5gcsp-bigdata-svr1:9200/?pretty

注意：如果哪一台机器服务启动失败，那么就到哪一台机器的/export/server/es/elasticsearch-7.6.1/log这个路径下面去查看错误日志

8.9.Elasticsearch-head插件

8.9.1.安装nodejs

1、第一台机器执行以下命令下载安装包，然后进行解压

cd ~
wget https://npm.taobao.org/mirrors/node/v8.1.0/node-v8.1.0-linux-x64.tar.gz
tar -zxvf node-v8.1.0-linux-x64.tar.gz -C /export/servers/es/

2、创建软连接

执行以下命令创建软连接

sudo ln -s /export/servers/es/node-v8.1.0-linux-x64/lib/node_modules/npm/bin/npm-cli.js /usr/local/bin/npm
sudo ln -s /export/servers/es/node-v8.1.0-linux-x64/bin/node /usr/local/bin/node

3、修改环境变量

服务器添加环境变量

sudo vim /etc/profile
export NODE_HOME=/export/servers/es/node-v8.1.0-linux-x64
export PATH=:$PATH:$NODE_HOME/bin

#修改完环境变量使用source生效
source /etc/profile

5、验证安装成功

执行以下命令验证安装生效

node -v
npm -v

8.9.2.本地安装

1、上传压缩包

将我们的压缩包 elasticsearch-head-compile-after.tar.gz 上传到node1.itcast.cn机器的/export/software 路径下面去

2、解压安装包

执行以下命令解压安装包

cd ~
tar -zxvf elasticsearch-head-compile-after.tar.gz -C /export/servers/es/

3、node1机器修改Gruntfile.js

修改Gruntfile.js这个文件

cd /export/servers/es/elasticsearch-head
vim Gruntfile.js

找到代码中的93行：hostname: '192.168.100.100', 修改为：当前主机的hostname

4、node1机器修改app.js

第一台机器修改app.js

cd /export/servers/es/elasticsearch-head/_site
vim app.js

在Vim中输入「:4354」，定位到第4354行
修改 http://localhost:9200为http://5gcsp-bigdata-svr1:9200

5、解决未连接问题

打开路径 "…\elasticsearch\config\ " 下的 elasticsearch.yml 文件，在文件末尾添加如下代码：

cd /export/servers/es/elasticsearch-7.6.1/config
vim elasticsearch.yml

#在文件末尾添加如下代码:
http.cors.allow-methods: OPTIONS, HEAD, GET, POST, PUT, DELETE
http.cors.allow-headers: "X-Requested-With, Content-Type, Content-Length, X-User"

6、启动head服务

启动elasticsearch-head插件

cd /export/servers/es/elasticsearch-head/node_modules/grunt/bin/
进程前台启动命令
./grunt server
进程后台启动命令
nohup ./grunt server >/dev/null 2>&1 &

访问端口号9100

6、如何停止：elasticsearch-head进程

执行以下命令找到elasticsearch-head的插件进程，然后使用kill -9 杀死进程即可

netstat -nltp | grep 9100
kill -9 8328

9）Spark

9.1.下载

https://github.com/apache/spark/releases

http://spark.apache.org/downloads.html

http://archive.apache.org/dist/spark/spark-2.4.5/

9.2.Local安装

解压软件包
tar -zxvf spark-2.4.7-bin-hadoop2.7.tgz -C /export/servers
创建软连接，方便后期升级
ln -s /export/servers/spark-2.4.7-bin-hadoop2.7 /export/servers/spark
如果有权限问题，可以修改为root，方便学习时操作，实际中使用运维分配的用户和权限即可
chown -R root /export/servers/spark-2.4.7-bin-hadoop2.7
chgrp -R root /export/servers/spark-2.4.7-bin-hadoop2.7

9.3.Standalone集群安装

1、修改配置并分发

#修改slaves
#进入配置目录
cd /export/servers/spark/conf
#修改配置文件名称
mv slaves.template slaves

vim slaves
#内容如下：
5gcsp-bigdata-svr2
5gcsp-bigdata-svr3

2、修改spark-env.sh

进入配置目录
cd /export/servers/spark/conf
修改配置文件名称
mv spark-env.sh.template spark-env.sh
修改配置文件
vim spark-env.sh

修改内容如下：

## 设置JAVA安装目录
JAVA_HOME=/usr/local/jdk1.8.0_191
## HADOOP软件配置文件目录，读取HDFS上文件和运行YARN集群
HADOOP_CONF_DIR=/export/servers/hadoop-2.7.5/etc/hadoop
YARN_CONF_DIR=/export/servers/hadoop-2.7.5/etc/hadoop

## 指定spark老大Master的IP和提交任务的通信端口
export SPARK_MASTER_HOST=5gcsp-bigdata-svr1
export SPARK_MASTER_PORT=7077

SPARK_MASTER_WEBUI_PORT=8080
SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=1g

3、分发

cd /export/servers/
scp -r spark-2.4.7-bin-hadoop2.7 root@5gcsp-bigdata-svr2:$PWD
scp -r spark-2.4.7-bin-hadoop2.7 root@5gcsp-bigdata-svr3:$PWD
scp -r spark-2.4.7-bin-hadoop2.7 root@5gcsp-bigdata-svr4:$PWD
scp -r spark-2.4.7-bin-hadoop2.7 root@5gcsp-bigdata-svr5:$PWD

##分别创建软连接
ln -s /export/servers/spark-2.4.7-bin-hadoop2.7 /export/servers/spark

9.4.Standalone HA 搭建

1、主节点上配置

vim /export/servers/spark/conf/spark-env.sh

注释或删除MASTER_HOST内容：

# SPARK_MASTER_HOST=node1

增加如下配置：

SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=5gcsp-bigdata-svr1:2181,5gcsp-bigdata-svr2:2181,5gcsp-bigdata-svr3:2181,5gcsp-bigdata-svr4:2181,5gcsp-bigdata-svr5:2181 -Dspark.deploy.zookeeper.dir=/spark-ha"

2、将spark-env.sh分发集群

cd /export/servers/spark/conf
scp -r spark-env.sh root@5gcsp-bigdata-svr2:$PWD
scp -r spark-env.sh root@5gcsp-bigdata-svr3:$PWD
scp -r spark-env.sh root@5gcsp-bigdata-svr4:$PWD
scp -r spark-env.sh root@5gcsp-bigdata-svr5:$PWD

9.5.Spark On Yarn

1、修改spark-env.sh

cd /export/servers/spark/conf
vim /export/servers/spark/conf/spark-env.sh

## 添加内容
## HADOOP软件配置文件目录，读取HDFS上文件和运行YARN集群
HADOOP_CONF_DIR=/export/servers/hadoop-2.7.5/etc/hadoop
YARN_CONF_DIR=/export/servers/hadoop-2.7.5/etc/hadoop

同步：

cd /export/servers/spark/conf
scp -r spark-env.sh root@5gcsp-bigdata-svr2:$PWD
scp -r spark-env.sh root@5gcsp-bigdata-svr3:$PWD
scp -r spark-env.sh root@5gcsp-bigdata-svr4:$PWD
scp -r spark-env.sh root@5gcsp-bigdata-svr5:$PWD

2、整合Yarn历史服务器并关闭资源检查

在主节点上修改

cd /export/servers/hadoop/etc/hadoop
vim /export/servers/hadoop/etc/hadoop/yarn-site.xml

添加内容：

<!-- 设置yarn集群的内存分配方案 -->
    <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>20480</value>
    </property>
    <property>
        <name>yarn.scheduler.minimum-allocation-mb</name>
        <value>2048</value>
    </property>
    <property>
        <name>yarn.nodemanager.vmem-pmem-ratio</name>
        <value>2.1</value>
    </property>
    <!-- 设置聚合日志在hdfs上的保存时间 -->
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
    </property>
    <!-- 关闭yarn内存检查 -->
    <property>
        <name>yarn.nodemanager.pmem-check-enabled</name>
        <value>false</value>
    </property>
    <property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
    </property>

3、在yarn-site.xml 中添加proxyserver的配置

	<property>
		<name>yarn.web-proxy.address</name>
		<value>5gcsp-bigdata-svr1:8089</value>
	</property>

同步：

cd /export/server/hadoop2.7.5/etc/hadoop
scp -r yarn-site.xml root@5gcsp-bigdata-svr2:$PWD
scp -r yarn-site.xml root@5gcsp-bigdata-svr3:$PWD
scp -r yarn-site.xml root@5gcsp-bigdata-svr4:$PWD
scp -r yarn-site.xml root@5gcsp-bigdata-svr5:$PWD

4、配置spark历史服务器

## 进入配置目录
cd /export/servers/spark/conf
## 修改配置文件名称
mv spark-defaults.conf.template spark-defaults.conf
vim spark-defaults.conf

添加内容：

spark.eventLog.enabled                  true
spark.eventLog.dir                      hdfs://5gcsp-bigdata-svr1:8020/sparklog/
spark.eventLog.compress                 true
spark.yarn.historyServer.address        5gcsp-bigdata-svr1:18080

5、修改spark-env.sh

进入配置目录
cd /export/servers/spark/conf
修改配置文件
vim spark-env.sh

增加如下内容

## 配置spark历史服务器地址
SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://5gcsp-bigdata-svr1:8020/sparklog/ -Dspark.history.fs.cleaner.enabled=true"

注意:sparklog需要手动创建

hadoop fs -mkdir -p /sparklog

6、设置日志级别

## 进入目录
cd /export/servers/spark/conf
## 修改日志属性配置文件名称
mv log4j.properties.template log4j.properties
## 改变日志级别
vim log4j.properties

修改INFO为WARN

同步

cd /export/servers/spark/conf
scp -r spark-env.sh root@5gcsp-bigdata-svr2:$PWD
scp -r spark-env.sh root@5gcsp-bigdata-svr3:$PWD
scp -r spark-env.sh root@5gcsp-bigdata-svr4:$PWD
scp -r spark-env.sh root@5gcsp-bigdata-svr5:$PWD

scp -r spark-defaults.conf root@5gcsp-bigdata-svr2:$PWD
scp -r spark-defaults.conf root@5gcsp-bigdata-svr3:$PWD
scp -r spark-defaults.conf root@5gcsp-bigdata-svr4:$PWD
scp -r spark-defaults.conf root@5gcsp-bigdata-svr5:$PWD

scp -r log4j.properties root@5gcsp-bigdata-svr2:$PWD
scp -r log4j.properties root@5gcsp-bigdata-svr3:$PWD
scp -r log4j.properties root@5gcsp-bigdata-svr4:$PWD
scp -r log4j.properties root@5gcsp-bigdata-svr5:$PWD

7、配置SparkJar包

## hdfs上创建存储spark相关jar包目录
hadoop fs -mkdir -p /spark/jars/
## 上传$SPARK_HOME/jars所有jar包
hadoop fs -put /export/servers/spark/jars/* /spark/jars/

在spark-defaults.conf中增加Spark相关jar包位置信息：

vim /export/servers/spark/conf/spark-defaults.conf

spark.yarn.jars  hdfs://5gcsp-bigdata-svr1:8020/spark/jars/*

同步

cd /export/servers/spark/conf
scp -r spark-defaults.conf root@5gcsp-bigdata-svr2:$PWD
scp -r spark-defaults.conf root@5gcsp-bigdata-svr3:$PWD
scp -r spark-defaults.conf root@5gcsp-bigdata-svr4:$PWD
scp -r spark-defaults.conf root@5gcsp-bigdata-svr5:$PWD

9.6.启动

注意:Spark依赖于Hadoop,所以要先启动Hadoop才可以启动Spark

## 启动HDFS和YARN服务
start-all.sh
## 启动MRHistoryServer服务，在node1执行命令
mr-jobhistory-daemon.sh start historyserver
## 启动Spark HistoryServer服务，，在node1执行命令
/export/servers/spark/sbin/start-history-server.sh
## 启动Yarn的ProxyServer服务
/export/servers/hadoop-2.7.5/sbin/yarn-daemon.sh start proxyserver

9.7.WebUI

http://5gcsp-bigdata-svr1:18080/

10.Kafka

10.1.准备如下目录

安装包存放的目录：/export/software
安装程序存放的目录：/export/servers
数据目录：/export/data
日志目录：/export/logs

如果没有需要创建:
mkdir -p /export/servers/
mkdir -p /export/software/
mkdir -p /export/data/
mkdir -p /export/logs/

10.2.下载

http://archive.apache.org/dist/kafka/

https://www.apache.org/dyn/closer.cgi?path=/kafka/1.0.0/kafka_2.11-1.0.0.tgz

10.3.上传压缩包并解压

tar -zxvf kafka_2.11-1.0.0.tgz -C  /export/servers/
cd /export/servers/
mv kafka_2.11-1.0.0 kafka

10.4.配置环境变量

vim /etc/profile

#KAFKA_HOME
export KAFKA_HOME=/export/servers/kafka
export PATH=$PATH:$KAFKA_HOME/bin
source /etc/profile

10.5.分发安装包

scp -r /opt/dtstack/kafka  5gcsp-bigdata-svr2:/opt/dtstack/kafka
scp -r /export/servers/kafka  5gcsp-bigdata-svr3:/export/servers
scp -r /export/servers/kafka  5gcsp-bigdata-svr4:/export/servers
scp -r /export/servers/kafka  5gcsp-bigdata-svr5:/export/servers

scp /etc/profile 5gcsp-bigdata-svr2:/etc/profile
scp /etc/profile 5gcsp-bigdata-svr3:/etc/profile
scp /etc/profile 5gcsp-bigdata-svr4:/etc/profile
scp /etc/profile 5gcsp-bigdata-svr5:/etc/profile

source /etc/profile

10.6.修改Kafka配置文件

10.6.1.目录重命名

mv   /export/servers/kafka/config/server.properties  /export/servers/kafka/config/server.properties.bak
vim  /export/servers/kafka/config/server.properties

10.6.2.修改配置文件

主要修改以下6个地方:

1) broker.id 需要保证每一台kafka都有一个独立的broker

2) log.dirs 数据存放的目录

3) zookeeper.connect zookeeper的连接地址信息

4) delete.topic.enable 是否直接删除topic

5) host.name 主机的名称

6) 修改: listeners=PLAINTEXT://5gcsp-bigdata-svr1:9092

1、第一台机器修改kafka配置文件servers.properties

vim /export/servers/kafka/config/server.properties

#删除所有：
ggdG或者:%d

#添加如下内容：
broker.id=0
num.network.threads=3
num.io.threads=8
socket.send.buffer.bytes=102400
socket.receive.buffer.bytes=102400
socket.request.max.bytes=104857600
log.dirs=/export/data/kafka/kafka-logs
num.partitions=4
num.recovery.threads.per.data.dir=1
offsets.topic.replication.factor=1
transaction.state.log.replication.factor=1
transaction.state.log.min.isr=1
log.flush.interval.messages=10000
log.flush.interval.ms=1000
log.retention.hours=168
log.segment.bytes=1073741824
log.retention.check.interval.ms=300000
zookeeper.connect=5gcsp-bigdata-svr1:2181,5gcsp-bigdata-svr2:2181,5gcsp-bigdata-svr3:2181,5gcsp-bigdata-svr4:2181,5gcsp-bigdata-svr5:2181
zookeeper.connection.timeout.ms=6000
group.initial.rebalance.delay.ms=0
delete.topic.enable=true
host.name=5gcsp-bigdata-svr1

2、第二台机器修改kafka配置文件servers.properties

vim  /export/servers/kafka/config/server.properties

#删除所有
ggdG或者:%d

#添加如下内容
broker.id=1
num.network.threads=3
num.io.threads=8
socket.send.buffer.bytes=102400
socket.receive.buffer.bytes=102400
socket.request.max.bytes=104857600
log.dirs=/export/data/kafka/kafka-logs
num.partitions=4
num.recovery.threads.per.data.dir=1
offsets.topic.replication.factor=1
transaction.state.log.replication.factor=1
transaction.state.log.min.isr=1
log.flush.interval.messages=10000
log.flush.interval.ms=1000
log.retention.hours=168
log.segment.bytes=1073741824
log.retention.check.interval.ms=300000
zookeeper.connect=5gcsp-bigdata-svr1:2181,5gcsp-bigdata-svr2:2181,5gcsp-bigdata-svr3:2181,5gcsp-bigdata-svr4:2181,5gcsp-bigdata-svr5:2181
zookeeper.connection.timeout.ms=6000
group.initial.rebalance.delay.ms=0
delete.topic.enable=true
host.name=5gcsp-bigdata-svr2

3、第三台机器修改kafka配置文件servers.properties

vim  /export/servers/kafka/config/server.properties

#删除所有
ggdG或者:%d

#添加如下内容
broker.id=2
num.network.threads=3
num.io.threads=8
socket.send.buffer.bytes=102400
socket.receive.buffer.bytes=102400
socket.request.max.bytes=104857600
log.dirs=/export/data/kafka/kafka-logs
num.partitions=4
num.recovery.threads.per.data.dir=1
offsets.topic.replication.factor=1
transaction.state.log.replication.factor=1
transaction.state.log.min.isr=1
log.flush.interval.messages=10000
log.flush.interval.ms=1000
log.retention.hours=168
log.segment.bytes=1073741824
log.retention.check.interval.ms=300000
zookeeper.connect=5gcsp-bigdata-svr1:2181,5gcsp-bigdata-svr2:2181,5gcsp-bigdata-svr3:2181,5gcsp-bigdata-svr4:2181,5gcsp-bigdata-svr5:2181
zookeeper.connection.timeout.ms=6000
group.initial.rebalance.delay.ms=0
delete.topic.enable=true
host.name=5gcsp-bigdata-svr3

第四台和第五台以此类推，注意修改关键内容即可

10.6.3.配置详解

＃设置Kafka 节点唯一ID
broker.id=O
＃ 开启删除Kafka 主题属性
delete.topic.enable=true
＃设置网络请求处理线程数
num.network.threads=10
＃设置磁盘IO 请求线程数
num.io.threads=20
＃设置发送buffer字节数
socket.send.buffer.bytes=1024000
＃设置收到buffer字节数
socket.receive.buffer.bytes=l024000
＃设置最大请求字节数
socket.request.max.bytes=l048576000
＃设置消息记录存储路径
log.dirs=/export/data/kafka/kafka-logs
＃设置Kafka 的主题分区数
num.partitions=4
＃设置主题保留时间
log.retention.hours=l68
＃设置Zookeeper 的连接地址
zookeeper.connect=5gcsp-bigdata-svr1:2181,node2:2181,node3:2181
＃设置Zookeeper连接起时时间
zookeeper.connection.timeout.ms=60000

10.7.启动

先启动ZK

再在三台机器上分别启动

#前台启动
/export/servers/kafka/bin/kafka-server-start.sh /export/servers/kafka/config/server.properties

#后台启动
nohup /export/servers/kafka/bin/kafka-server-start.sh /export/servers/kafka/config/server.properties >/dev/null 2>&1 &

nohup /opt/dtstack/kafka/bin/kafka-server-start.sh /opt/dtstack/kafka/config/server.properties >/dev/null 2>&1 &

11）Flink

11.1.下载

https://archive.apache.org/dist/flink/

11.2.Local安装

1、上传到5gcsp-bigdata-svr1的指定目录

2、解压

tar -zxvf flink-1.12.0-bin-scala_2.12.tgz

3、如果出现权限问题，需要修改权限

chown -R root:root /export/servers/flink-1.12.0

4、改名或创建软链接

mv flink-1.12.0 flink
ln -s /export/servers/flink-1.12.0 /export/servers/flink

11.3.Standalone集群安装

1、修改flink-conf.yaml

vim /export/servers/flink/conf/flink-conf.yaml

jobmanager.rpc.address: 5gcsp-bigdata-svr1
taskmanager.numberOfTaskSlots: 2
web.submit.enable: true

#历史服务器
jobmanager.archive.fs.dir: hdfs://5gcsp-bigdata-svr1:8020/flink/completed-jobs/
historyserver.web.address: 5gcsp-bigdata-svr1
historyserver.web.port: 8082
historyserver.archive.fs.dir: hdfs://5gcsp-bigdata-svr1:8020/flink/completed-jobs/

2、修改masters

vim /export/servers/flink/conf/masters

5gcsp-bigdata-svr1:8081

3、修改slaves

vim /export/servers/flink/conf/workers

5gcsp-bigdata-svr1
5gcsp-bigdata-svr2
5gcsp-bigdata-svr3
5gcsp-bigdata-svr4
5gcsp-bigdata-svr5

4、添加HADOOP_CONF_DIR环境变量

vim /etc/profile
export HADOOP_CONF_DIR=/export/servers/hadoop/etc/hadoop

5、分发

 cd /export/servers

 scp -r /export/servers/flink 5gcsp-bigdata-svr2:/export/servers/flink
 scp -r /export/servers/flink 5gcsp-bigdata-svr3:/export/servers/flink
 scp -r /export/servers/flink 5gcsp-bigdata-svr4:/export/servers/flink
 scp -r /export/servers/flink 5gcsp-bigdata-svr5:/export/servers/flink
 
 scp  /etc/profile 5gcsp-bigdata-svr2:/etc/profile
 scp  /etc/profile 5gcsp-bigdata-svr3:/etc/profile
 scp  /etc/profile 5gcsp-bigdata-svr4:/etc/profile
 scp  /etc/profile 5gcsp-bigdata-svr5:/etc/profile
 
 source /etc/profile

11.4.Standalone HA搭建

1、启动ZooKeeper

zkServer.sh status

zkServer.sh stop

zkServer.sh start

2、启动HDFS

/export/servers/hadoop/sbin/start-dfs.sh

3、停止Flink集群

/export/servers/flink/bin/stop-cluster.sh

4、修改flink-conf.yaml

vim /export/servers/flink/conf/flink-conf.yaml

#增加如下内容G
state.backend: filesystem
state.backend.fs.checkpointdir: hdfs://5gcsp-bigdata-svr1:8020/flink-checkpoints
high-availability: zookeeper
high-availability.storageDir: hdfs://5gcsp-bigdata-svr1:8020/flink/ha/
high-availability.zookeeper.quorum: 5gcsp-bigdata-svr1:2181,5gcsp-bigdata-svr2:2181,5gcsp-bigdata-svr3:2181,5gcsp-bigdata-svr4:2181,5gcsp-bigdata-svr5:2181

配置解释

#开启HA，使用文件系统作为快照存储
state.backend: filesystem

#启用检查点，可以将快照保存到HDFS
state.backend.fs.checkpointdir: hdfs://5gcsp-bigdata-svr1:8020/flink-checkpoints

#使用zookeeper搭建高可用
high-availability: zookeeper

# 存储JobManager的元数据到HDFS
high-availability.storageDir: hdfs://5gcsp-bigdata-svr1:8020/flink/ha/

# 配置ZK集群地址
high-availability.zookeeper.quorum: 5gcsp-bigdata-svr1:2181,5gcsp-bigdata-svr2:2181,5gcsp-bigdata-svr3:2181

5、修改masters

vim /export/servers/flink/conf/masters

5gcsp-bigdata-svr1:8081
5gcsp-bigdata-svr2:8081

6、同步

scp -r /export/servers/flink/conf/flink-conf.yaml 5gcsp-bigdata-svr2:/export/servers/flink/conf/
scp -r /export/servers/flink/conf/flink-conf.yaml 5gcsp-bigdata-svr3:/export/servers/flink/conf/
scp -r /export/servers/flink/conf/flink-conf.yaml 5gcsp-bigdata-svr4:/export/servers/flink/conf/
scp -r /export/servers/flink/conf/flink-conf.yaml 5gcsp-bigdata-svr5:/export/servers/flink/conf/

scp -r /export/servers/flink/conf/masters 5gcsp-bigdata-svr2:/export/servers/flink/conf/
scp -r /export/servers/flink/conf/masters 5gcsp-bigdata-svr3:/export/servers/flink/conf/
scp -r /export/servers/flink/conf/masters 5gcsp-bigdata-svr4:/export/servers/flink/conf/
scp -r /export/servers/flink/conf/masters 5gcsp-bigdata-svr5:/export/servers/flink/conf/

7、修改5gcsp-bigdata-svr2上的flink-conf.yaml

vim /export/servers/flink/conf/flink-conf.yaml

jobmanager.rpc.address: 5gcsp-bigdata-svr2

8、重新启动Flink集群,5gcsp-bigdata-svr1上执行

/export/servers/flink/bin/stop-cluster.sh

/export/servers/flink/bin/start-cluster.sh

9、查看日志发现报错

cat /export/servers/flink/log/flink-root-standalonesession-0-5gcsp-bigdata-svr1.log

10、下载jar包并在Flink的lib目录下放入该jar包并分发使Flink能够支持对Hadoop的操作

下载地址：https://flink.apache.org/downloads.html

放入lib目录：

cd /export/servers/flink/lib

11、分发

scp flink-shaded-hadoop-2-uber-2.7.5-10.0.jar 5gcsp-bigdata-svr2:/export/servers/flink/lib
scp flink-shaded-hadoop-2-uber-2.7.5-10.0.jar 5gcsp-bigdata-svr3:/export/servers/flink/lib
scp flink-shaded-hadoop-2-uber-2.7.5-10.0.jar 5gcsp-bigdata-svr4:/export/servers/flink/lib
scp flink-shaded-hadoop-2-uber-2.7.5-10.0.jar 5gcsp-bigdata-svr5:/export/servers/flink/lib

12、重新启动Flink集群,5gcsp-bigdata-svr1上执行

/export/servers/flink/bin/start-cluster.sh

jps查看发现成功

11.5.Flink On Yarn

1、关闭yarn的内存检查

vim /export/servers/hadoop-2.7.5/etc/hadoop/yarn-site.xml

#添加
<!-- 关闭yarn内存检查 -->
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
</property>
<property>
     <name>yarn.nodemanager.vmem-check-enabled</name>
     <value>false</value>
</property>

2、同步

scp -r /export/servers/hadoop/etc/hadoop/yarn-site.xml 5gcsp-bigdata-svr2:/export/servers/hadoop/etc/hadoop/yarn-site.xml
scp -r /export/servers/hadoop/etc/hadoop/yarn-site.xml 5gcsp-bigdata-svr3:/export/servers/hadoop/etc/hadoop/yarn-site.xml
scp -r /export/servers/hadoop/etc/hadoop/yarn-site.xml 5gcsp-bigdata-svr4:/export/servers/hadoop/etc/hadoop/yarn-site.xml
scp -r /export/servers/hadoop/etc/hadoop/yarn-site.xml 5gcsp-bigdata-svr5:/export/servers/hadoop/etc/hadoop/yarn-site.xml

3、重启yarn

/export/servers/hadoop/sbin/stop-yarn.sh
/export/servers/hadoop/sbin/start-yarn.sh

11.6.WebUI

http://5gcsp-bigdata-svr1:8081/#/overview

【其他相关文章】

【大数据集群搭建-Apache】Apache版本进行大数据集群各组件环境部署

【大数据集群搭建-CDH-（1）虚拟机基础环境配置】CDH版本进行大数据集群各组件环境部署-（1）虚拟机基础环境配置

【大数据集群搭建-CDH-（2）ClouderManager相关介绍】CDH版本进行大数据集群各组件环境部署-（2）ClouderManager相关介绍

【大数据集群搭建-CDH-（3）VMware-Linux磁盘扩容】CDH版本进行大数据集群各组件环境部署-（3）VMware-Linux磁盘扩容

【大数据集群搭建-CDH-（4）CDH部署前的环境准备】CDH版本进行大数据集群各组件环境部署-（4）CDH部署前的环境准备

【大数据集群搭建-CDH-（5）CDH环境搭建】CDH版本进行大数据集群各组件环境部署-（5）CDH环境搭建

你可能感兴趣的:(大数据集群搭建,大数据,apache)

AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
Angular中`trackBy`函数的独特性与性能优化 t0_54program 编程问题解决手册 angular.js 前端 javascript 个人开发
在Angular项目中，优化性能是每一个开发者都需要考虑的问题。特别是在处理大数据量或动态变化的列表时，Angular的trackBy函数成为了我们手中的利器。然而，当我们面对多个列表使用相同trackBy函数时，可能会产生一些疑问：如果这些列表中的项有相同的ID，是否会影响Angular的变更检测？本文将详细探讨trackBy函数在这种情境下的表现及其带来的性能优化。trackBy函数简介tra
石油储运生产 2D 可视化，组态应用赋能工业智慧发展智慧园区智慧城市 big data 人工智能大数据物联网网络
当前，国际油价低位徘徊导致各国石油化工行业投资大幅缩减，石油化工建设行业竞争环境日趋严峻，施工企业的利润空间也被不断压缩。内外交困的环境下，促使企业采取更有效的管理手段来提高效率和降低成本。石油工业大数据具有无限潜力与价值，将大数据与数据挖掘技术应用其中，不仅可以提升石油行业工业化水平，而且对其智慧化发展起到强有力的推动作用。图扑软件-构建先进2D和3D可视化所需要的一切图扑软件采用自主研发的HT
人民日报报道，华为云赋能智能制造助力图扑软件构造数字孪生场景智慧园区华为人工智能物联网
2021年12月22日，《人民日报》头版头条刊登了《华为云赋能智能制造，助力图扑软件构造数字孪生场景》一文，聚焦数据可视化建设发展。报道指出，数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神;高效便捷管控的背后，是云端平台各大企业的互助共赢;高质精准2D、3D数据可视图的背后，是专注于数据可视化Web组态开发的厦门图扑软件科技有限公司。并对厦门图扑软件科技有限公司进
华为云赋能智能制造，助力图扑软件构造数字孪生场景 36Kr网科技华为云制造 big data
出行手机查看交通方案、物业管理的智能可视勘察管控、疫情地图提前预知危害……这些曾经存在于科幻片中的高科技场景一一在现代生活得到了应用与普及，其背后的数据可视化应用，正贯穿于当今大数据时代的各行各业，成为人们洞察数据内涵的有力工具，推动数字经济发展驶入“快车道”。数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神；高效便捷管控的背后，是云端平台各大企业的互助共赢；高质精
rocketmq-client 4.3.0 在springboot中的使用 Myueye JAVA java
rocketmq-client4.3.0在springboot中的使用1、导入依赖2、配置文件属性3、编写配置类4、使用测试5、结果5.1RocketMQ后台显示5.2前端页面5.3后端后台1、导入依赖org.apache.rocketmqrocketmq-client4.3.02、配置文件属性mq.nameserverAdd=ip地址:9876mq.topic=top1(topic名称)mq.p
langchain4j+Tika小试牛刀 llm
序本文主要研究一下langchain4j结合ApacheTika进行文档解析步骤pom.xmldev.langchain4jlangchain4j-document-parser-apache-tika1.0.0-beta1examplepublicclassTikaTest{publicstaticvoidmain(String[]args){Stringpath=System.getPrope
【Spark】查询优化中分区（Partitioning）和分桶（Bucketing）是什么关系？什么时候应当分区，什么时候应当分桶？ petrel2015 spark 大数据分布式数据库
在学习Spark的过程中，分区和分桶乍一看很像，都能为了计算加速，但是仔细一想，一查还是有些差异的，甚至说差异很大。那么具体有什么差异点，有什么相同点。我做出了如下的整理，供大家参考，欢迎指正。相同点分区（Partitioning）和分桶（Bucketing）在很多方面具有相似性，它们都是用于优化大数据查询性能的技术数据划分的目的：优化查询性能分区和分桶的核心目标是通过将数据分割成更小的逻辑单元来
数据湖Iceberg、Hudi和Paimon比较_数据湖框架对比(1) 2301_79098963 程序员知识图谱人工智能
4.Schema变更支持对比项ApacheIcebergApacheHudiApachePaimonSchemaEvolutionALLback-compatibleback-compatibleSelf-definedschemaobjectYESNO(spark-schema)NO（我理解，不准确）SchemaEvolution：指schema变更的支持情况，我的理解是hudi仅支持添加可选列
SpringBoot集成Flink-CDC，实现对数据库数据的监听 rkmhr_sef 面试学习路线阿里巴巴 spring boot flink 数据库
一、什么是CDC？CDC是ChangeDataCapture（变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入、更新以及删除等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。二、Flink-CDC是什么？CDCConnectorsforApacheFlink是一组用于ApacheFlink的源连接器，使用变更数据捕获(CDC)从
大数据技术实战---项目中遇到的问题及项目经验一个“不专业”的阿凡大数据
问题导读：1、项目中遇到过哪些问题？2、Kafka消息数据积压，Kafka消费能力不足怎么处理？3、Sqoop数据导出一致性问题？4、整体项目框架如何设计？项目中遇到过哪些问题7.1Hadoop宕机（1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
【Hive】-- hive 3.1.3 伪分布式部署（单节点） oo寻梦in记 Apache Paimon 大数据服务部署 hive 分布式 hadoop
1、环境准备1.1、版本选择apachehive3.1.3apachehadoop3.1.0oraclejdk1.8mysql8.0.15操作系统：Macos10.151.2、软件下载https://archive.apache.org/dist/hive/https://archive.apache.org/dist/hadoop/1.3、解压tar-zxvfapache-hive-4.0.0-
Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
Tenacity（Python的坚韧重试库） ftpeak Python python 开发语言网络爬虫
概述Tenacity是一个基于Apache2.0协议的通用重试库，用Python编写，旨在简化向任何代码添加重试逻辑的过程。它起源于已停止维护的retrying库的分叉版本。Tenacity不兼容retrying的API，但新增了大量功能并修复了长期存在的错误。文档：Tenacity—Tenacitydocumentation主页：https://github.com/jd/tenacity核心功
自动化配置管理工具 SaltStack-03 Mr.Ron linux 自动化服务器运维
一、Jinja模板应用案例1、需求描述给之前通过saltstack安装好的lamp环境的apache修改配置文件，要求每个主机监听自己ip的80端口。2、实现思路如果通过单纯的修改配置文件根本无法实现，所以我们需要用到模板，将配置文件作为模板，通过定义模板中的变量来实现，并且需要引用grians参数。#编辑state配置文件[root@server~]#vim/srv/salt/prod/apac
使用LangGraph迁移MapReduceDocumentsChain进行长文档的摘要 dgay_hua python
在大数据处理和文本分析领域，MapReduce是一种非常重要的策略，用于处理和分析大型数据集。具体到文本处理方面，MapReduceDocumentsChain구현了一种map-reduce策略，可以有效地处理长文本。本文将介绍如何从MapReduceDocumentsChain迁移到LangGraph，并探讨LangGraph在流处理、检查点恢复等方面的优势。技术背景介绍MapReduceDoc
jmeter安装和jmeter历史版本下载 weixin_30432007 java
一、jmete下载：1、最新版本下载地址：http://jmeter.apache.org/download_jmeter.cgi2、历史版本下载地址：https://archive.apache.org/dist/jmeter/binaries/二、软件安装及设置环境变量1、JDK安装目录在D:\ProgramFiles\Java，其环境变量设置为：JAVA_HOME值为：D:\ProgramF
找不到Jmeter历史版本下载的同学看这里（内附使用阿里镜像和腾讯镜像下载开源软件的地址）测试开发Kevin jmeter 测试工具 jmeter
最近需要在jmeter4上验证一个问题，于是就在网上各种找jmeter不同版本的下载地址，比较麻烦。为了让大家不踩坑，在这里汇总一下下载地址：下载jmeter地址汇总jmeter最新版本官网下载地址：ApacheJMeter-DownloadApacheJMeterhttps://jmeter.apache.org/download_jmeter.cgijmeter历史版本下载地址（建议收藏）In
Python用Bokeh处理大规模数据可视化的最佳实践一键难忘 Bokeh python 开发语言
用Bokeh处理大规模数据可视化的最佳实践在大规模数据处理和分析中，数据可视化是一个至关重要的环节。Bokeh是一个在Python生态中广泛使用的交互式数据可视化库，它具有强大的可扩展性和灵活性。本文将介绍如何使用Bokeh处理大规模数据可视化，并提供一些最佳实践和代码实例，帮助你高效地展示大数据集中的重要信息。1.为什么选择Bokeh？Bokeh是一个专为浏览器呈现而设计的可视化库，它支持高效渲
分页优化之——游标分页 PhilipJ0303 Java面试 java 数据库优化游标分页分页查询
游标分页（Cursor-basedPagination）是一种高效的分页方式，特别适用于大数据集和无限滚动的场景。与传统的基于页码的分页（如page=1&size=10）不同，游标分页通过一个唯一的游标（通常是时间戳或唯一ID）来标记分页的位置，避免了传统分页在数据变动时的重复或遗漏问题。以下是游标分页在前后端的实现方式：1.游标分页的核心概念游标（Cursor）：游标是一个唯一标识符，通常是数据
Hadoop 集群规划与部署最佳实践 AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2009年2月2日，ApacheHadoop项目诞生。它是一个开源的分布式系统基础架构，用于存储、处理和分析海量的数据。Hadoop具有高容错性、可靠性、可扩展性、适应性等特征，因而广泛应用于数据仓库、日志分析、网络流量监测、推荐引擎、搜索引擎等领域。由于Hadoop采用“分而治之”的架构设计理念，因此可以轻松应对数据量、计算能力和存储成本的增长。2013年底，
轻松入门Apache SeaTunnel：数据集成利器窝窝和牛牛 SeaTunnel ETL 数据集成
文章目录轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnel基本原理运行流程SeaTunnelvsDataX：两大数据集成工具对比实战场景：MySQL数据同步至ElasticsearchSeaTunnel实现方案DataX实现方案实现原理对比底层依赖环境方案优缺点分析快速上手环境准备简单示例总结轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnelAp
HBase的架构介绍，安装及简单操作 pk_xz123456 大数据 hbase 架构数据库
一、HBase安装1.环境准备Java环境：确保系统中已经安装了Java8或更高版本。可以通过在命令行中输入java-version来检查Java版本。Hadoop环境：HBase依赖于Hadoop，需要先安装并配置好Hadoop集群。确保Hadoop的相关服务（如HDFS、YARN等）已经正常启动。2.下载HBase从HBase官方网站（https://hbase.apache.org/）下载适
springboot使用kafka自定义JSON序列化器和反序列化器 zhou_zhao_xu Kafka spring
1.序列化器packagecom.springboot.kafkademo.serialization;importcom.alibaba.fastjson.JSON;importcom.alibaba.fastjson.JSONObject;importorg.apache.kafka.common.serialization.Serializer;importjava.util.Map;/**
通过启用Ranger插件的Hive审计日志同步到Doris做分析 fzip Doris Hive doris 审计 hive
以下是基于ApacheDoris的RangerHive审计日志同步方案详细步骤，结合审计日志插件与数据导入策略实现：一、Doris环境准备1.创建审计日志库表参考搜索结果的表结构设计，根据Ranger日志字段调整建表语句：CREATEDATABASEIFNOTEXISTSranger_audit;CREATETABLEIFNOTEXISTSranger_audit_hive_log(repoTyp
kafka生产消息失败 ...has passed since batch creation plus linger time Lichenpar #记录BUG解决 kafka 网络安全 java
背景：公司要使用华为云的kafka服务，我负责进行技术预研，后期要封装kafka组件。从华为云下载了demo，完全按照开发者文档来进行配置文件配置，但是会报以下错误。org.apache.kafka.common.errors.TimeoutException:Expiring10record(s)fortopic-0:30015mshaspassedsincebatchcreationplusl
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key