小崔编码

大数据平台安装部署（适用虚拟机级真实服务器，亲测）

大数据集群搭建

一、基础环境准备

（虚拟环境or服务器环境）

1. 虚拟环境准备（服务器安装跳过此步骤）

1.1 安装vmware

注意：安装centos8系统及以上需要高版本vmware,实测vmware12.x会出现错误

1.2 安装centos

选择稍后安装操作系统【或者傻瓜式安装选择安装程序光盘映像文件(iso)，选择镜像，直接安装成功】：

选择Linux，版本选择CentOS 7 64位：

输入虚拟机名称和位置：

磁盘容量推荐设置更大一些(并不会安装后就占用这么多)，否则随着集群内容增多，会出现磁盘不足情况：建议100G:

配置虚拟机镜像路径，点击编辑虚拟机设置：

选择CD/DVD(IDE)，右侧连接中选择使用ISO映像文件(M)，选择CentOS的镜像位置，点击确定。

1.3 安装配置虚拟机

点击开启此虚拟机：

等待检查镜像文件完整，达到100%后自动安装：

黄色感叹号的选项必须配置，如下：SYSTEM中INSTALLATION DESTINATION 配置磁盘分区规划。

新手建议选择默认磁盘分区即可，点击Done。

选择 SOFTWARE下的SOFTWARE SELECTION ，根据需求选择图形化界面安装还是最小化安装，点击Done：

点击Begin Installation安装：

配置root用户密码和添加新的用户：

配置完成后，点击Finish configuration。

点击Reboot重启机器。

重启过程中会遇到没有接受许可证的状况：

按1->2->c->c选择接受许可证，继续启动即可。

配置启动向导

启动之后，可以设置向导为汉语，点击前进，以及键盘选择英语美国就行：

系统到此基本安装完成。

2. 配置网络环境

2.1 配置VMware网络环境（服务器跳过）

通常虚拟机网络会用两种模式：桥接模式、和net模式，具体区别google,两种配置亲测都可用，配置也比较简单

集群多人一起用的话推荐桥接，net模式会存在他人访问不到的问题，

2.1.1 NAT模式：

net模式是在物理机基础上重新搭建一层网络，记住子网ip网段，子网掩码

同时在你物理机上会出现Vmnet8，你的nat上网模式就是依靠这个的，可以看下它的ip和上面ip在一个网段

进入/etc/sysconfig/network-scripts中，修改文件ifcfg-eno16777736，如下配置好之后，wq保存：

TYPE=Ethernet
BOOTPROTO=static   #使用static配置
DEFROUTE=yes
PEERDNS=yes
PEERROUTES=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_PEERDNS=yes
IPV6_PEERROUTES=yes
IPV6_FAILURE_FATAL=no
NAME=eno16777736
UUID=e8def32b-2132-4b8c-9733-e1de92a2a522
DEVICE=eno16777736
ONBOOT=yes   #开机启用本配置
IPADDR=192.168.179.100  #静态IP
GATEWAY=192.168.179.2  #默认网关
NETMASK=255.255.255.0  #子网掩码
DNS1=192.168.179.2    #DNS配置 可以与默认网关相同

重启网络服务：

systemctl restart network.service

检查ip是否修改，ip addr 查看静态ip,也可以使用ifconfig查看：

Ip addr

ping 外网测试网络：

2.1.2 桥接模式

桥接模式是与真是主机共享网络，所以要在同一个网络，选择桥接模式，注意ip，子网就好，其他配置和NAT模式一样，在此省略。

3. 集群节点属性配置

3.1配置主机名

配置主机名可以代替容易混淆的ip，在后面配置使用更加方便

修改/etc/hostname文件中的主机名称，vim /etc/hostname：

3.2关闭防火墙

检查防火墙的状态 firewall-cmd --state：

临时关闭防火墙，开机又会启动。

systemctl stop firewalld 或者systemctl stop firewalld.service：

开启防火墙 systemctl start firewalld 或者 systemctl start firewalld.service：

设置开机不启动防火墙 systemctl disable firewalld:

3.3 配置阿里云yum源（闭网环境跳过）

阿里云开源镜像网站：https://mirrors.aliyun.com/

网站有详细步骤，建议访问

下面给出详细的步骤：

#安装wget，wget是linux最常用的下载命令(有些系统默认安装，可忽略)

yum -y install wget

#下载阿里云的yum源配置

wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo

#备份当前的yum源

mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup

#清除原来文件缓存，构建新加入的repo结尾文件的缓存

yum clean all

yum makecache

3.4 设置语言

#查看当前语言

echo $LANG

#查看安装包

locale

如有zh cn 表示已经安装了中文语言，如果没有，可以通过命令安装中文语言包：

yum groupinstall chinese-support

修改系统语言为中文【如果想修改成英文，设置LANG=“en_US.UTF-8”】：

如果想临时修改Linux系统的语言环境，重启之后消失，可以直接设置：

LANG="zh_CN.UTF-8"

如果想永久修改系统默认语言，需要创建/修改文件：

vim /etc/locale.conf

修改完成之后，记得重启机器

LANG="zh_CN.UTF-8"

3.5设置自动更新时间

修改本地时区及ntp服务：

yum -y install ntp

rm -rf /etc/localtime

ln -s /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

/usr/sbin/ntpdate -u pool.ntp.org

自动同步时间：

#设置定时任务，每10分钟同步一次，配置/etc/crontab文件，实现自动执行任务

#建议直接crontab -e 来写入定时任务即可。

*/10 * * * * /usr/sbin/ntpdate -u pool.ntp.org >/dev/null 2>&1

#重启定时任务

service crond restart

#查看日期

date

3.6 清除节点mac地址（服务器跳过）

清除/etc/udev/rules.d/ 70-persistent-ipoib.rules文件，这个文件记录了这台机器的MAC地址，虚拟机在第一次启动时候会在这个文件中自动生成MAC地址，下面我们要克隆虚拟机，需要将这个文件删除，如果不删除，克隆出来的虚拟机也是这个MAC地址，那么就会有冲突，导致新克隆的机器ip不可使用。

3.7 保存快照，克隆

关机

克隆虚拟机节点

点击克隆

依赖这个基础的快照克隆出来其他3台虚拟机，每台机器克隆好之后，都保存一个basic快照即可。

3.8 给每台克隆的节点配置ip

在每台节点的/etc/sysconfig/network-scripts/ ifcfg-eno16777736中修改ip:

192.168.1.238
192.168.1.239
192.168.1.240

3.9 配置每台节点ip映射，可以使用host代替ip来互相访问

vim /etc/hosts

测试 ping node1

3.10 配置节点间免密登录

注意：此免密是针对用户的，也就是使用不同用户需要单独配置

在每个节点上执行如下命令生成密钥对，一直回车就可以：

ssh-keygen -t rsa -P ''

在每个节点上执行如下命令将公钥文件写入授权文件中，并赋予权限：

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

chmod 600 ~/.ssh/authorized_keys

节点到节点之间的无密码访问【想登录哪台机器，就把当前机器的公钥copy追加写入到登录哪台机器的授权文件中即可】：

以 node01无密码登录所有的节点为例，如果要实现所有节点之间免密登录，就每个节点都执行如下命令一次即可。：

\#在node1节点中执行命令，需要输入密码：

scp ~/.ssh/id_rsa.pub root@node2:~

scp ~/.ssh/id_rsa.pub root@node3:~

#在每个从节点中执行

cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

chmod 600 ~/.ssh/authorized_keys

rm -rf ~/id_rsa.pub

二、 zookeeper安装

1.下载zk:

http://archive.apache.org/dist/zookeeper/

2.将下载好的zk上传到服务器/opt/software/，解压

tar -zxvf zookeeper-3.4.13.tar.gz -C /software/ --no-same-owner

(使用 --no-same-owner 会指定操作用户作为解压后文件的所有者)

3.配置zookeeper的环境变量：

#进入vim /etc/profile，在最后加入：

export ZOOKEEPER_HOME=/opt/software/zookeeper

export PATH=$PATH:$ZOOKEEPER_HOME/bin

#使配置生效

source /etc/profile

4.配置zk:

进入conf下

cp zoo_sample.cfg zoo.cfg

vim zoo.cfg 加入如下配置：

dataDir=/opt/data/zookeeper
clientPort=2181
server.1=node1:2888:3888
server.2=node2:2888:3888
server.3=node3:2888:3888

5，将zookeeper目录同步到另外两个节点，配置环境变量

6.在node1,node2,node3节点分别创建/opt/data/zookeeper

mkdir -p /opt/data/zookeeper

`#创建节点ID,在每台节点配置的dataDir路径/opt/data/zookeeper中添加myid文件`

\#在node1的/opt/data/zookeeper中创建myid文件写入1

\#在node2的/opt/data/zookeeper中创建myid文件写入2

\#在node3的/opt/data/zookeeper中创建myid文件写入3

7.启动
在每台节点中启动zk
zkServer.sh start
查看状态
zkServer.sh status
其他关闭，重启
zkServers.sh stop | restart

三、 hadoop安装

完全分布式（高可用）

1.节点划分

分布式应用作用在多台服务器上，同时拥有很多进程程序，需要合理划分，使性能资源利用到最大

节点	NN	DN	ZK	ZKFC	JN	RM	NM
node1	★	★	★	★	★	★	★
node2	★	★	★	★	★	★	★
node3		★	★	★	★		★

（因为了适配线上环境，搭建高可用，如果真实环境中只有三台环境，一般情况没有必要安装高可用）

2.配置jdk

查看删除存在的openjdk:

rpm -aq |grep jdk

下载jdk8:

上传解压：

tar -zxvf ./jdk-8u181-linux-x64.tar.gz -C /opt/software/

增加环境变量：

vim /etc/profile

#在文件最后加入如下,保存：

#如果安装过jdk,这么写：export PATH= $JAVA_HOME/bin:$ PATH`

export JAVA_HOME=/software/jdk1.8.0_181
export PATH=$PATH:$JAVA_HOME/bin

#使修改生效

source /etc/profile

3.hadoop安装，环境变量配置

上传解压，编辑vim /etc/profile 增加环境变量

#编辑 vim /etc/profile,添加下面内容：
export HADOOP_HOME=/opt/software/Hadoop-2.6.5
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:
#使配置生效
source /etc/profile

4.配置高可用的hdfs和yarn文件

4.1配置hadoop-env.sh

加入JAVA_HOME:

export JAVA_HOME=/software/jdk1.8.0_181

4.2 hdfs-site.xml


    
        
        dfs.nameservices
        mycluster
    
    
        
        dfs.permissions.enabled
        false
    
    
        
        dfs.ha.namenodes.mycluster
        nn1,nn2
    
    
        
        dfs.namenode.rpc-address.mycluster.nn1
        node1:8020
    
    
        
        dfs.namenode.rpc-address.mycluster.nn2
        node2:8020
    
    
        
        dfs.namenode.http-address.mycluster.nn1
        node1:50070
    
    
        
        dfs.namenode.http-address.mycluster.nn2
        node2:50070
    

    
        
        dfs.namenode.shared.edits.dir
        qjournal://node1:8485;node2:8485;node3:8485/mycluster
    

    
        
        dfs.client.failover.proxy.provider.mycluster
        org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
    

    
        
        dfs.ha.fencing.methods
        sshfence
    

    
        dfs.ha.fencing.ssh.private-key-files
        /root/.ssh/id_rsa
    

    
        
        dfs.journalnode.edits.dir
        /opt/data/journal/node/local/data
    

    
        
        dfs.ha.automatic-failover.enabled
        true

4.3 core-site.xml


    
        
        fs.defaultFS
        hdfs://mycluster
    
    
        
        hadoop.tmp.dir
        /opt/data/hadoop/
    

    
        
        ha.zookeeper.quorum
        node1:2181,node2:2181,node:2181

4.4 yarn-site.xml


    
        yarn.nodemanager.aux-services
        mapreduce_shuffle
    
    
        yarn.nodemanager.env-whitelist
        JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME
    

    
        
        yarn.resourcemanager.ha.enabled
        true
    
    
        
        yarn.resourcemanager.cluster-id
        mycluster
    
    
        
        yarn.resourcemanager.ha.rm-ids
        rm1,rm2
    
    
        
        yarn.resourcemanager.hostname.rm1
        node1
    
        
        
        yarn.resourcemanager.hostname.rm2
        node2
    
    
        
        yarn.resourcemanager.webapp.address.rm1
        node1:8088
    
    
        
        yarn.resourcemanager.webapp.address.rm2
        node2:8088
    
    
        
        yarn.resourcemanager.zk-address
        node1:2181,node2:2181,node3:2181
    

	
    
    
        yarn.nodemanager.resource.memory-mb
        22528
        每个节点可用内存,单位MB
    
    
    
        yarn.scheduler.minimum-allocation-mb
        1500
        单个任务可申请最少内存，默认1024MB
    
    
    
        yarn.scheduler.maximum-allocation-mb
        16384
        单个任务可申请最大内存，默认8192MB

4.5 mapred-site.xml


    
        mapreduce.framework.name
        yarn
    
    
       mapreduce.map.memory.mb
       1500
       每个Map任务的物理内存限制
   
   
   
       mapreduce.reduce.memory.mb
       3000
       每个Reduce任务的物理内存限制
   
   
   
       mapreduce.map.java.opts
       -Xmx1200m
   
   
   
       mapreduce.reduce.java.opts
       -Xmx2600m

4.6 slaves

配置datanode节点

#在vim /software/hadoop/etc/hadoop/slaves中配置
node1
node2
node3

5.将配置好的hadoop分发到每一个节点

scp -r /hadoop node2:`pwd`

分别配置环境变量

6.初始化和启动

先启动zookeeper,时间同步
在其中一个namenode中格式化zookeeper:
```
hdfs zkfc -formatZK
```
在每台journalnode中启动所有的journalnode:
```
sbin/hadoop-daemon.sh start journalnode
```
其中一个namenode节点上执行初始化生成元数据，并启动该namenode。
```
bin/hdfs namenode -format
sbin/hadoop-daemon.sh start namenode
```
#高可用模式配置namenode,使用下列命令来同步namenode(在需要同步的namenode中执行):
```
hdfs namenode -bootstrapStandby
sbin/hadoop-daemon.sh start namenode
```
启动hdfs,启动yarn
```
start-dfs.sh
start-yarn.sh
```

四、hive安装

1.安装mysql

安装mysql用于存储hive元数据

mysql可以通过多种方式安装，离线环境下，这里通过二进制压缩包方式安装：

下载网址

将下载好的文件解压，

一般默认将mysql安装到/usr/local/mysql中，也可以指定某些特定的路径，但是mysql在liunx中默认会找/usr/local/路径，如果更改路径比较麻烦。这里就选择安装在这个路径/usr/local/mysql下。

将以上mysql-8.0.12-linux-glibc2.12-x86_64.tar包上传到/usr/local/mysql中目录中：

#创建路径/usr/local/mysql
mkdir /usr/local/mysql
\#创建mysql数据存放目录
mkdir /usr/local/mysql/mysqldb 
\#将mysql-8.0.12-linux-glibc2.12-x86_64.tar解压到/usr/local/mysql中：
tar -xvf /usr/local/mysql/mysql-8.0.12-linux-glibc2.12-x86_64.tar -C /usr/local/mysql
rm -rf /usr/local/mysql/mysql-8.0.12-linux-glibc2.12-x86_64.tar
\#将解压的目录下的所有目录放在/usr/local/mysql下：
cp -rf /usr/local/mysql/mysql-8.0.12-linux-glibc2.12-x86_64/* /usr/local/mysql/ 
rm -rf /usr/local/mysql/mysql-8.0.12-linux-glibc2.12-x86_64

\#创建mysql用户组
groupadd mysql
\#创建MySQL用户但该用户不能登陆(-s /bin/false参数指定mysql用户仅拥有所有权，而没有登录权限)
useradd -r -g mysql -s /bin/false mysql
\#将创建的mysql用户加入到mysql组下,更改/usr/local/mysql下文件的拥有者为mysql
chown -R mysql:mysql /usr/local/mysql/

创建MySQL初始化配置文件，vim /etc/my.cnf，把[mysql-safe去掉]：

[mysqld]# 设置3306端口
port=3306
# 设置mysql的安装目录
basedir=/usr/local/mysql
# 设置mysql数据库的数据的存放目录
datadir=/usr/local/mysql/mysqldb
# 允许最大连接数max_connections=10000
# 允许连接失败的次数。这是为了防止有人从该主机试图攻击数据库系统
max_connect_errors=10
# 服务端使用的字符集默认为
UTF8character-set-server=utf8
# 创建新表时将使用的默认存储引擎
default-storage-engine=INNODB
# 默认使用“mysql_native_password”插件认证
default_authentication_plugin=mysql_native_password
[mysql]
# 设置mysql客户端默认字符集
default-character-set=utf8
[client]
# 设置mysql客户端连接服务端时默认使用的端口
port=3306
default-character-set=utf8

初始化MySQL，启动MySQL:

#进入/usr/local/mysql/bin/目录
cd /usr/local/mysql/bin/

#初始化MySQL,记住初始密码！！！
./mysqld --initialize --console

#启动MySQL服务：
cd /usr/local/mysql/support-files/
#更改/usr/local/mysql下所有文件的执行权限
chmod -R 777 /usr/local/mysql
#启动MySQL
./mysql.server start
#修改随机登录密码，设置允许远程登录
/usr/local/mysql/bin/mysql -u root -p

alter user  'root'@'localhost' IDENTIFIED WITH mysql_native_password BY '123456';

use mysql;
update user set host = '%' where user = 'root';
flush privileges;

设置MySQL开机启动:

#将MySQL加入系统进程中：
cp /usr/local/mysql/support-files/mysql.server /etc/init.d/mysqld
#重启MySQL
service mysqld restart
#赋予可执行权限
chmod +x /etc/init.d/mysqld
#添加服务
chkconfig --add mysqld
#显示服务列表，如果看到mysql的服务，并且3,4,5都是on的话则成功，如果是off，则键入：chkconfig --level 345 mysqld on
chkconfig  --list

配置MySQL环境变量：

#配置环境变量 vim /etc/profile 最后加入：
export PATH=$PATH:/usr/local/mysql/bin
#使配置生效
source /etc/profile

2.安装hive

节点划分：

节点	Hive服务端	Hive客户端	MySQL管理原数据
node1	★
node2			★
node3		★

将Hive的安装包上传到c7node1节点的/software下：

#上传/opt/software/下，解压
tar -zxvf ./apache-hive-1.2.1-bin.tar.gz -C /opt/software/
rm -rf ./apache-hive-3.0.0-bin.tar.gz
scp发送到其他节点
  scp -r ./apache-hive-1.2.1-bin/ node1:`pwd`

配置三台机器hive的环境变量：

vim /etc/profile
export HIVE_HOME=/software/hive
export PATH=$PATH:$HIVE_HOME/bin
#每台节点中使配置生效：
source /etc/profile

在服务端节点node1节点中创建/software/hive/conf/hive-site.xml,写入：

#创建hive-site.xml
cp ./hive-default.xml.template hive-site.xml
#配置

 
  hive.metastore.warehouse.dir
  /user/hive/warehouse
 
 
  javax.jdo.option.ConnectionURL
  jdbc:mysql://node3:3306/hive?createDatabaseIfNotExist=true
 
 
  javax.jdo.option.ConnectionDriverName
  com.mysql.jdbc.Driver
 
 
  javax.jdo.option.ConnectionUserName
  root
 
 
  javax.jdo.option.ConnectionPassword
  123456

客户端节点node2 node3中创建/software/hive/conf/hive-site.xml,写入：

cp ./hive-default.xml.template hive-site.xml
#配置

 
  hive.metastore.warehouse.dir
  /user/hive/warehouse
 
 
  hive.metastore.local
  false
 
 
  hive.metastore.uris
  thrift://node2:9083

初始化hive:

#需要将mysql-connector-java-8.0.12.jar 包上传到c7node1节点的/software/hive/lib下
#初始化hive,hive2.x版本后都需要初始化
schematool -dbType mysql -initSchema
#在c7node1节点中启动hive 测试
hive
#创建表test 
create table if not exists test (name string comment 'String Column',age int comment 'Integer Column') row format delimited fields terminated by '\t';

#插入一条数据
insert into test values ("zhangsan",18);

#查询

3. 问题

问题1.

客户端启动时：ERROR,Terminal initialization failed;falling back to unsupported

解决：这是由于hadoop的jline.jar和hive的版本不一致，将hive中的jline复制到hadoop中 cp ./lib/jline-2.12.jar /opt/software/hadoop-2.6.5/share/hadoop/yarn/lib

问题2.

启动hive之后，一大串的警告：Establishing SSL connection without server's identity verification is not recommended… ...

这是由于MySQL库的原因，解决：使用JDBC连接MySQL服务器时设置useSSL参数：设置useSSL=false即可。

这里注意，一般在连接数据库路径后面加上****&useSSL=false****即可：

jdbc:mysql://c7node2:3306/hive?createDatabaseIfNotExist=true&useSSL=false

但是在hive中 & 符号使用 & 来表示，即在hive-site.xml中修改配置即可

#需要在服务端启动Metastore 服务,在node1节点中：
hive --service metastore &
#在node2节点中使用hive，查询到的表和node1中一样:
 hive

注意：在Hive服务端安装路径下的lib下要放有连接Mysql的包：mysql-connector-java-8.0.12.jar

五、spark安装

1.节点划分

根据资源分配合适的节点

节点	Master	Worker	Worker
node1			★
node2		★
node3	★

2.上传解压

#将安装包spark-2.3.1-bin-hadoop2.6.tgz上传，解压
tar -zxvf ./spark-2.3.1-bin-hadoop2.6.tgz -C /software/ --no-same-owner
rm -rf ./spark-2.3.1-bin-hadoop2.6.tgz
mv spark-2.3.1-bin-hadoop2.6 spark-2.3.1

3.配置spark

#配置Worker节点
cp /software/spark/conf/slaves.template slaves
vim /software/spark/conf/slaves
添加worker节点：
  node2
  node3
#配置Master节点
  cp /software/spark/conf/spark-env.sh.template spark-env.sh
  vim /software/spark/conf/spark-env.sh
  添加配置：
export SPARK_MASTER_HOST=node3
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=2
export SPARK_WORKER_MEMORY=3g
#将配置好的spark包发送到其他节点，其他两个节点
  node1: scp -r /software/spark-2.3.1 node2:`pwd`

4.启动spark

#进入c7node1节点的/software/spark/sbin/start-all.sh 启动Spark集群
cd /software/spark/sbin/
./start-all.sh

5 . 配置spark运行在yarn上

#software/spark/conf中
vim /software/spark/conf/spark-env.sh
添加：
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

6. 验证提交spark任务

#基于Standalone提交SparkPi任务
  ./spark-submit \
--master spark://c7node1:7077   \
--class org.apache.spark.examples.SparkPi  \
 ../examples/jars/spark-examples_2.11-2.3.1.jar  100

#基于Yarn提交SparkPi任务,需要启动Yarn
  ./spark-submit  \ 
--master yarn  \
--class org.apache.spark.examples.SparkPi  \
../examples/jars/spark-examples_2.11-2.3.1.jar 10000

7.问题

六、hbase安装

1.节点分配

哪台节点启动哪台就是主节点

2.上传解压配置

ssh免密、网络正常、时间同步，jdk环境

上传压缩包，解压，配置环境变量

3.修改配置

hbase-env.sh

export JAVA_HOME=/opt/software/jdk1.8.0_181
export HBASE_MANAGES_ZK=false

hbase-site.xml


		hbase.rootdir
		hdfs://mycluster:8020/hbase
		
		
		hbase.cluster.distributed
		true
		
		
		hbase.zookeeper.quorum
		node1,node2,node3

配置regionservers

node1
node2
node3

4.加载配置文件

拷贝hdfs-site.xml到hbase/conf/（hdfs配置了高可用）

5.启动

先启动zk,hdfs.

去mastr节点启动start-base.sh（在哪台节点启动，哪台就是master）

七、ElasticSearch安装

1. 下载安装包

2. 解压配置

config/elastcsearch.yml

cluster.name: myes
node.name: node1
network.host: 0.0.0.0
http.port: 9200
discovery.seed_hosts: ["node1", "node2","node3"]
cluster.initial_master_nodes: ["node1"]

3. 分发，创建普通用户es，

useradd es

4.修改目录用户

chown -R es:es  es目录

5.启动es

注意：不能使用root用户启动

./bin/elasticsearch

6. 启动可能出现问题：

（1）max number of threads [3818] for user [es] is too low, increase to at least [4096]
解决方案：

修改 /etc/security/limits.conf

在文件末尾增加以下两行：

es  soft nproc  4096

es  hard nproc  4096

（3）最大虚拟内存太小，解决办法切换到root用户修改配置sysctl.conf：

　　　vi /etc/sysctl.conf 

　　添加下面配置：

　　　　vm.max_map_count=655360

　　最后记得执行：

　　　　sysctl -p

八、dolphinscheduler 安装

cluster安装

建议参考官网，官网有详细的中文安装文档https://dolphinscheduler.apache.org/zh-cn/docs/1.3.4/user_doc/cluster-deployment.html

1. 基础环境软件安装

PostgreSQL (8.2.15+) or MySQL (5.7系列) : 两者任选其一即可, 如MySQL则需要JDBC Driver 5.1.47+
·JDK (1.8+) : 必装，请安装好后在/etc/profile下配置 JAVA_HOME 及 PATH 变量
ZooKeeper (3.4.6+) ：必装
·Hadoop (2.6+) or MinIO ：选装，如果需要用到资源上传功能，可以选择上传到Hadoop or MinIO上

注意：DolphinScheduler本身不依赖Hadoop、Hive、Spark,仅是会调用他们的Client，用于对应任务的提交。

2、下载二进制tar.gz包

· 请下载最新版本的后端安装包至服务器部署目录,比如创建 /opt/dolphinscheduler 做为安装部署目录，下载地址：下载，下载后上传tar包到该目录中，并进行解压

*#* 创建部署目录,部署目录请不要创建在/root、/home等高权限目录

mkdir -p /opt/dolphinscheduler;

cd /opt/dolphinscheduler;****#**** 解压缩

tar -zxvf apache-dolphinscheduler-incubating-1.3.4-dolphinscheduler-bin.tar.gz -C /opt/dolphinscheduler;

mv apache-dolphinscheduler-incubating-1.3.4-dolphinscheduler-bin dolphinscheduler-bin

3、创建部署用户和hosts映射

· 在****所有****部署调度的机器上创建部署用户，并且一定要配置sudo免密。假如我们计划在ds1,ds2,ds3,ds4这4台机器上部署调度，首先需要在每台机器上都创建部署用户

*#* 创建用户需使用root登录，设置部署用户名，请自行修改，后面以dolphinscheduler为例

useradd dolphinscheduler;

*#* 设置用户密码，请自行修改，后面以dolphinscheduler123为例

echo “dolphinscheduler123” | passwd --stdin dolphinscheduler

*#* 配置sudo免密

echo ‘dolphinscheduler ALL=(ALL) NOPASSWD: NOPASSWD: ALL’ >> /etc/sudoers

sed -i ‘s/Defaults requirett/#Defaults requirett/g’ /etc/sudoers

注意：

- 因为是以 sudo -u {linux-user} 切换不同linux用户的方式来实现多租户运行作业，所以部署用户需要有 sudo 权限，而且是免密的。

- 如果发现/etc/sudoers文件中有"Default requiretty"这行，也请注释掉

- 如果用到资源上传的话，还需要在HDFS或者MinIO上给该部署用户分配读写的权限

4、配置hosts映射和ssh打通及修改目录权限

以第一台机器(hostname为ds1)作为部署机，在ds1上配置所有待部署机器的hosts, 在ds1以root登录

vi /etc/hosts

****#****add ip hostname

192.168.xxx.xxx ds1

192.168.xxx.xxx ds2

192.168.xxx.xxx ds3

192.168.xxx.xxx ds4

注意：请删掉或者注释掉127.0.0.1这行

同步ds1上的/etc/hosts到所有部署机器

for ip in ds2 ds3; #请将此处ds2 ds3替换为自己要部署的机器的hostname

sudo scp -r /etc/hosts $ip:/etc/ #在运行中需要输入root密码

done

备注：当然通过sshpass -p xxx sudo scp -r /etc/hosts $ip:/etc/就可以省去输入密码了

centos下sshpass的安装：

先安装epel

yum install -y epel-release

yum repolist

安装完成epel之后，就可以按照sshpass了

yum install -y sshpass

在ds1上，切换到部署用户并配置ssh本机免密登录

su dolphinscheduler;

ssh-keygen -t rsa -P ‘’ -f ~/.ssh/id_rsa

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

chmod 600 ~/.ssh/authorized_keys

注意：正常设置后，dolphinscheduler用户在执行命令ssh localhost 是不需要再输入密码的

在ds1上，配置部署用户dolphinscheduler ssh打通到其他待部署的机器

su dolphinscheduler;

for ip in ds2 ds3; #请将此处ds2 ds3替换为自己要部署的机器的hostname

ssh-copy-id $ip #该操作执行过程中需要手动输入dolphinscheduler用户的密码

done****#**** 当然通过 sshpass -p xxx ssh-copy-id $ip 就可以省去输入密码了

在ds1上，修改目录权限，使得部署用户对dolphinscheduler-bin目录有操作权限

sudo chown -R dolphinscheduler:dolphinscheduler dolphinscheduler-bin

5、数据库初始化

· 进入数据库，默认数据库是PostgreSQL，如选择MySQL的话，后续需要添加mysql-connector-java驱动包到DolphinScheduler的lib目录下，这里以MySQL为例

mysql -h192.168.xx.xx -P3306 -uroot -p

· 进入数据库命令行窗口后，执行数据库初始化命令，设置访问账号和密码。****注: {user} 和 {password} 需要替换为具体的数据库用户名和密码****

mysql> CREATE DATABASE dolphinscheduler DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;

mysql> GRANT ALL PRIVILEGES ON dolphinscheduler.* TO ‘{user}’@’%’ IDENTIFIED BY ‘{password}’;

mysql> GRANT ALL PRIVILEGES ON dolphinscheduler.* TO ‘{user}’@‘localhost’ IDENTIFIED BY ‘{password}’;

mysql> flush privileges;

创建表和导入基础数据

o 修改 conf 目录下 datasource.properties 中的下列配置

vi conf/datasource.properties

o 如果选择 MySQL，请注释掉 PostgreSQL 相关配置(反之同理), 还需要手动添加 [ mysql-connector-java 驱动 jar ] 包到 lib 目录下，这里下载的是mysql-connector-java-5.1.47.jar，然后正确配置数据库连接相关信息

#postgre #spring.datasource.driver-class-name=org.postgresql.Driver #spring.datasource.url=jdbc:postgresql://localhost:5432/dolphinscheduler # mysql

****spring.datasource.driver-class-name****=com.mysql.jdbc.Driver

****spring.datasource.url****=jdbc:mysql://xxx:3306/dolphinscheduler?useUnicode=true&characterEncoding=UTF-8&allowMultiQueries=true 需要修改ip

****spring.datasource.username****=xxx 需要修改为上面的{user}值

****spring.datasource.password****=xxx 需要修改为上面的{password}值

o 修改并保存完后，执行 script 目录下的创建表及导入基础数据脚本

sh script/create-dolphinscheduler.sh

注意: 如果执行上述脚本报 ”/bin/java: No such file or directory“ 错误，请在/etc/profile下配置 JAVA_HOME 及 PATH 变量

6、修改运行参数

修改 conf/env 目录下的 dolphinscheduler_env.sh 环境变量(以相关用到的软件都安装在/opt/soft下为例)

export HADOOP_HOME=/opt/soft/hadoop

export HADOOP_CONF_DIR=/opt/soft/hadoop/etc/hadoop

#export SPARK_HOME1=/opt/soft/spark1

export SPARK_HOME2=/opt/soft/spark2

export PYTHON_HOME=/opt/soft/python

export JAVA_HOME=/opt/soft/java

export HIVE_HOME=/opt/soft/hive

export FLINK_HOME=/opt/soft/flink

export DATAX_HOME=/opt/soft/datax/bin/datax.py

export PATH= $HADOOP_HOME/bin:$ SPARK_HOME2/bin: $PYTHON_HOME:$ JAVA_HOME/bin: $HIVE_HOME/bin:$ PATH: $FLINK_HOME/bin:$ DATAX_HOME:$PATH

```

注: 这一步非常重要,例如 JAVA_HOME 和 PATH 是必须要配置的，没有用到的可以忽略或者注释掉

将jdk软链到/usr/bin/java下(仍以 JAVA_HOME=/opt/soft/java 为例)

sudo ln -s /opt/soft/java/bin/java /usr/bin/java

修改一键部署配置文件 conf/config/install_config.conf中的各参数，特别注意以下参数的配置

*#* 这里填 mysql or postgresql

dbtype=“mysql”

*#* 数据库连接地址

dbhost=“192.168.xx.xx:3306”

*#* 数据库名

dbname=“dolphinscheduler”

*#* 数据库用户名，此处需要修改为上面设置的{user}具体值

username=“xxx”

*#* 数据库密码, 如果有特殊字符，请使用\转义，需要修改为上面设置的{password}具体值

password=“xxx”

****#****Zookeeper地址

zkQuorum=“192.168.xx.xx:2181,192.168.xx.xx:2181,192.168.xx.xx:2181”

****#****将DS安装到哪个目录，如: /opt/soft/dolphinscheduler，不同于现在的目录

installPath="/opt/soft/dolphinscheduler"

****#****使用哪个用户部署，使用第3节创建的用户

deployUser=“dolphinscheduler”

*#* 邮件配置，以qq邮箱为例****#**** 邮件协议

mailProtocol=“SMTP”

*#* 邮件服务地址

mailServerHost=“smtp.qq.com”

*#* 邮件服务端口

mailServerPort=“25”

*#* mailSender和mailUser配置成一样即可****#**** 发送者

mailSender=“[email protected]”

*#* 发送用户

mailUser=“[email protected]”

*#* 邮箱密码

mailPassword=“xxx”

*#* TLS协议的邮箱设置为true，否则设置为false

starttlsEnable=“true”

*#* 开启SSL协议的邮箱配置为true，否则为false。注意: starttlsEnable和sslEnable不能同时为true

sslEnable=“false”

*#* 邮件服务地址值，参考上面 mailServerHost

sslTrust=“smtp.qq.com”

*#* 业务用到的比如sql等资源文件上传到哪里，可以设置：HDFS,S3,NONE，单机如果想使用本地文件系统，请配置为HDFS，因为HDFS支持本地文件系统；如果不需要资源上传功能请选择NONE。强调一点：使用本地文件系统不需要部署hadoop

resourceStorageType=“HDFS”

****#****如果上传资源保存想保存在hadoop上，hadoop集群的NameNode启用了HA的话，需要将hadoop的配置文件core-site.xml和hdfs-site.xml放到安装路径的conf目录下，本例即是放到/opt/soft/dolphinscheduler/conf下面，并配置namenode cluster名称；如果NameNode不是HA,则只需要将mycluster修改为具体的ip或者主机名即可

defaultFS=“hdfs://mycluster:8020”

*#* 如果没有使用到Yarn,保持以下默认值即可;如果ResourceManager是HA，则配置为ResourceManager节点的主备ip或者hostname,比如"192.168.xx.xx,192.168.xx.xx";如果是单ResourceManager请配置yarnHaIps=""即可

yarnHaIps=“192.168.xx.xx,192.168.xx.xx”

*#* 如果ResourceManager是HA或者没有使用到Yarn保持默认值即可；如果是单ResourceManager，请配置真实的ResourceManager主机名或者ip

singleYarnIp=“yarnIp1”

*#* 资源上传根路径,主持HDFS和S3,由于hdfs支持本地文件系统，需要确保本地文件夹存在且有读写权限

resourceUploadPath="/data/dolphinscheduler"

*#* 具备权限创建resourceUploadPath的用户

hdfsRootUser=“hdfs”

****#****在哪些机器上部署DS服务，本机选localhost

ips=“ds1,ds2,ds3,ds4”

****#****ssh端口,默认22

sshPort=“22”

****#****master服务部署在哪台机器上

masters=“ds1,ds2”

****#****worker服务部署在哪台机器上,并指定此worker属于哪一个worker组,下面示例的default即为组名

workers=“ds3:default,ds4:default”

****#****报警服务部署在哪台机器上

alertServer=“ds2”

****#****后端api服务部署在在哪台机器上

apiServers=“ds1”

特别注意：

o 如果需要用资源上传到Hadoop集群功能，并且Hadoop集群的NameNode 配置了 HA的话，需要开启 HDFS类型的资源上传，同时需要将Hadoop集群下的core-site.xml和hdfs-site.xml复制到/opt/dolphinscheduler/conf，非NameNode HA跳过次步骤

7、一键部署

切换到部署用户dolphinscheduler，然后执行一键部署脚本

sh install.sh

注意：

第一次部署的话，在运行中第3步3,stop server出现5次以下信息，此信息可以忽略

sh: bin/dolphinscheduler-daemon.sh: No such file or directory

脚本完成后，会启动以下5个服务，使用jps命令查看服务是否启动(jps为java JDK自带)

MasterServer ----- master服务

WorkerServer ----- worker服务

LoggerServer ----- logger服务

ApiApplicationServer ----- api服务

AlertServer ----- alert服务

如果以上服务都正常启动，说明自动部署成功

部署成功后，可以进行日志查看，日志统一存放于logs文件夹内

logs/

├── dolphinscheduler-alert-server.log

├── dolphinscheduler-master-server.log

|—— dolphinscheduler-worker-server.log

|—— dolphinscheduler-api-server.log

|—— dolphinscheduler-logger-server.log

8、登录系统

访问前端页面地址,接口ip(自行修改) http://192.168.xx.xx:12345/dolphinscheduler

9、启停服务

一键停止集群所有服务

sh ./bin/stop-all.sh

一键开启集群所有服务

sh ./bin/start-all.sh

启停Master

sh ./bin/dolphinscheduler-daemon.sh start master-server

sh ./bin/dolphinscheduler-daemon.sh stop master-server

· 启停Worker

sh ./bin/dolphinscheduler-daemon.sh start worker-server

sh ./bin/dolphinscheduler-daemon.sh stop worker-server

· 启停Api

sh ./bin/dolphinscheduler-daemon.sh start api-server

sh ./bin/dolphinscheduler-daemon.sh stop api-server

· 启停Logger

sh ./bin/dolphinscheduler-daemon.sh start logger-server

sh ./bin/dolphinscheduler-daemon.sh stop logger-server

· 启停Alert

sh ./bin/dolphinscheduler-daemon.sh start alert-server

sh ./bin/dolphinscheduler-daemon.sh stop alert-server

九、sqoop安装

1.下载解压

下载地址：

上传解压到指定路径，配置环境变量

2.修改配置文件

Sqoop 的配置文件与大多数大数据框架类似，在 sqoop 根目录下的 conf 目录中。

mv sqoop-env-template.sh sqoop-env.sh

#sqoop-env.sh
export HADOOP_COMMON_HOME=/opt/module/hadoop-2.7.2 export HADOOP_MAPRED_HOME=/opt/module/hadoop-2.7.2 export HIVE_HOME=/opt/module/hive export ZOOKEEPER_HOME=/opt/module/zookeeper-3.4.10 export ZOOCFGDIR=/opt/module/zookeeper-3.4.10 export HBASE_HOME=/opt/module/hbase

3.拷贝jdbc驱动

拷贝 jdbc 驱动到 sqoop 的 lib 目录下

mysql ,oracle

4.验证sqoop

$ bin/sqoop help

#验证连接mysql,输出mysql所有数据库
bin/sqoop list-databases --connect jdbc:mysql://node3:3306/ --username root --password 123456

├── dolphinscheduler-master-server.log

|—— dolphinscheduler-worker-server.log

|—— dolphinscheduler-api-server.log

|—— dolphinscheduler-logger-server.log

8、登录系统

访问前端页面地址,接口ip(自行修改) http://192.168.xx.xx:12345/dolphinscheduler

9、启停服务

一键停止集群所有服务

sh ./bin/stop-all.sh

一键开启集群所有服务

sh ./bin/start-all.sh

启停Master

sh ./bin/dolphinscheduler-daemon.sh start master-server

sh ./bin/dolphinscheduler-daemon.sh stop master-server

· 启停Worker

sh ./bin/dolphinscheduler-daemon.sh start worker-server

sh ./bin/dolphinscheduler-daemon.sh stop worker-server

· 启停Api

sh ./bin/dolphinscheduler-daemon.sh start api-server

sh ./bin/dolphinscheduler-daemon.sh stop api-server

· 启停Logger

sh ./bin/dolphinscheduler-daemon.sh start logger-server

sh ./bin/dolphinscheduler-daemon.sh stop logger-server

· 启停Alert

sh ./bin/dolphinscheduler-daemon.sh start alert-server

sh ./bin/dolphinscheduler-daemon.sh stop alert-server

九、sqoop安装

1.下载解压

下载地址：

上传解压到指定路径，配置环境变量

2.修改配置文件

Sqoop 的配置文件与大多数大数据框架类似，在 sqoop 根目录下的 conf 目录中。

mv sqoop-env-template.sh sqoop-env.sh

#sqoop-env.sh
export HADOOP_COMMON_HOME=/opt/module/hadoop-2.7.2 export HADOOP_MAPRED_HOME=/opt/module/hadoop-2.7.2 export HIVE_HOME=/opt/module/hive export ZOOKEEPER_HOME=/opt/module/zookeeper-3.4.10 export ZOOCFGDIR=/opt/module/zookeeper-3.4.10 export HBASE_HOME=/opt/module/hbase

3.拷贝jdbc驱动

拷贝 jdbc 驱动到 sqoop 的 lib 目录下

mysql ,oracle

4.验证sqoop

$ bin/sqoop help

#验证连接mysql,输出mysql所有数据库
bin/sqoop list-databases --connect jdbc:mysql://node3:3306/ --username root --password 123456

你可能感兴趣的:(Hadoop,hadoop,spark,zookeeper,大数据,系统安装)

R 和 Hadoop 大数据分析（一）
原文：annas-archive.org/md5/b7f3a14803c1b4d929732471e0b28932译者：飞龙协议：CCBY-NC-SA4.0前言企业每天获取的数据量呈指数增长。现在可以将这些海量信息存储在像Hadoop这样的低成本平台上。这些组织目前面临的难题是如何处理这些数据，以及如何从中提取关键见解。因此，R就成为了关键工具。R是一个非常强大的工具，它使得在数据上运行高级统计模
Python 大数据分析（二）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/5058e6970bd2a8d818ecc1f7f8fef74a译者：飞龙协议：CCBY-NC-SA4.0第六章：第五章处理缺失值和相关性分析学习目标到本章结束时，你将能够：使用PySpark检测和处理数据中的缺失值描述变量之间的相关性计算PySpark中两个或多个变量之间的相关性使用PySpark创建相关矩阵在本章中，我们将使用Iris数据集处理
Zookeeper 在 Kafka 中的作用详解：分布式协调服务的核心价值 lxb_不卑不亢消息队列 MQ 进阶实战分布式 zookeeper kafka rocketmq
摘要ApacheKafka是一个高吞吐、分布式的流处理平台，广泛应用于大数据和实时系统中。而ApacheZookeeper，则是Kafka背后不可或缺的“隐形英雄”。本文将深入剖析Zookeeper在Kafka架构中的核心作用，帮助开发者全面理解其在分布式协调、元数据管理、故障恢复等方面的关键地位。一、Zookeeper简介Zookeeper是一个开源的分布式协调服务，最初由Hadoop生态发展而
Kafka 控制器（Controller）详解：架构、原理与实战锅锅来了 #Kafka运维实战 kafka 架构分布式
目录Kafka控制器（Controller）详解：架构、原理与实战一、控制器的核心职责1.元数据管理2.分区状态机3.故障恢复4.集群操作协调二、传统ZooKeeper模式下的控制器1.控制器选举机制2.控制器与ZooKeeper的交互3.潜在问题三、KRaft模式下的控制器1.架构革新2.控制器节点配置3.Raft协议实现4.优势Kafka控制器（Controller）详解：架构、原理与实战Ka
2023-08-19 余則徐
2023.8.19.达视津气象2023.8.19.达视津气象阴晴不定朋友们早上好！今天是2023.8.19.星期六，农历七月初四的6:41；这个时间的干支历法是癸卯年庚申月己酉日丁卯时。气象预报不准，是常态；以前不准，现在有了超级计算机进行大数据运算了，还是不准：超级计算机运算，不如老农民抬头看天。而老农民却说，我不但要抬头看天，还要低头看河滩哪里有王八蛋。原来王八是可以预测每年有没有水患的！如果
喜爱购有什么新消息？如何打造百城万店氧惠好物
自2020年10月起，西安喜爱购商贸商贸股份有限公司全力打造的“百城万店”新零售商业模式应运而生。在探索新零售的道路上,通过互联网、大数据、云计算、人工智能等新技术,重构“人、货、场”商业元素,秉持“舍利差赚服务”经营理念,在全国至少一百个城市的“一千户以上的中高端社区”,打造至少两万家“一区一店”社区生活超市。大家好！我是氧惠最大团队&联合创始人氧惠达人导师。氧惠佣金更高，模式更好，终端用户不流
305李03days作业#裂变实验室# 李_d891
A账号大数据里加的人B账号精筛选一遍的客户C账号vip客户深度信任客户今天事情有点多，没有好好学习，明天重新写一个补到新作业里。
Apache Ignite 的并发控制：实现高性能事务处理的关键 AI天才研究院 AI实战 AI人工智能与大数据 LLM大模型落地实战指南大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着大数据时代的到来，数据量的增长和计算能力的提升使得传统的数据库和计算模型已经无法满足业务需求。为了应对这些挑战，分布式计算和存储技术得到了广泛的研究和应用。ApacheIgnite是一款高性能的分布式数据库和计算平台，它可以提供实时性能和高可用性，同时支持事务处理和并发控制。在这篇文章中，我们将深入探讨ApacheIgnite的并发控制机制，以及如何实现高性能事务处理。我们将从以下
DolphinScheduler 如何高效调度 AnalyticDB on Spark 作业？ DolphinScheduler社区 spark 大数据分布式
DolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统，能高效地执行和管理大数据流程。用户可以在DolphinSchedulerWeb界面轻松创建、编辑和调度云原生数据仓库AnalyticDBMySQL版的Spark作业。前提条件AnalyticDBforMySQL集群的产品系列为企业版、基础版或湖仓版。AnalyticDBforMySQL集群中已创建Job型资源组
10分钟搞定 MinIO 单节点多磁盘部署！打造稳定高可用对象存储【二】
MinIO是一个**高性能、开源的对象存储系统**，主要用于存储非结构化数据（如图片、视频、文档、备份等），与AmazonS3完全兼容。它被广泛用于云原生应用、大数据分析、AI模型存储、容器平台（如Kubernetes）等场景。MinIO支持多种部署模式，其中：单节点单磁盘（Single-NodeSingle-Drive）模式适用于开发测试、小规模应用或资源受限的场景。它的部署简单，不依赖集群、分
时序数据库在数据库领域的应用前景数据库管理艺术数据库时序数据库 struts ai
时序数据库在数据库领域的应用前景关键词：时序数据库、时间序列数据、物联网、监控系统、金融分析、大数据、实时分析摘要：本文深入探讨了时序数据库在现代数据管理中的关键作用和应用前景。我们将从时序数据的基本特性出发，分析时序数据库的核心架构和设计原理，比较主流时序数据库产品的技术特点，并通过实际案例展示其在物联网、金融科技、运维监控等领域的应用价值。文章还将提供时序数据库选型指南，探讨未来技术发展趋势，
使用CrewAI创建一个研究团队 AI量化投资 php 开发语言多智能体智能体人工智能
本指导文档将带你一步步完成使用CrewAI框架创建你的第一个AI代理团队的过程。通过这个简单的示例，你将学习如何构建一个研究团队，用于研究和分析指定主题，并生成一份综合报告。本教程基于CrewAI官方文档，适合初学者快速上手。前提条件在开始之前，请确保你已完成以下准备工作：安装Python：确保你的系统安装了Python版本在3.10到3.13之间。你可以通过以下命令检查Python版本：pyth
【软考速通笔记】系统架构设计师⑱——大数据架构设计理论与实践小康师兄系统架构设计师笔记系统架构大数据 Lanbda Kappa 数据湖批处理
文章目录一、前言二、传统数据库遇到的问题2.1问题的根源2.2传统解决方法三、大数据基础3.1大数据处理技术3.2大数据利用过程3.3大数据处理系统面临的挑战3.4大数据具有的属性和特征四、Lanbda架构4.1批处理层4.2加速层4.3服务层五、Kappa架构5.1实时层5.2服务层六、Lambda和Kappa对比七、其他一、前言笔记目录大纲请查阅：【软考速通笔记】系统架构设计师——导读关注【小
阿里P8架构大神分享纯手写“kafka文档”看完直呼太牛！ chenxuyuana kafka java 分布式
什么是KafkaKafka是由Linkedin公司开发的，它是一个分布式的，支持多分区、多副本，基于Zookeeper的分布式消息流平台，它同时也是一款开源的基于发布订阅模式的消息引擎系统。kafka的外在表现很像消息系统，允许发布和订阅消息流，但是它和传统的消息系统有很大的差异：首先，kafka是个现代分布式系统，以集群的方式运行，可以自由伸缩其次，kafka可以按照要求存储数据，保存多久都可以
kafka--基础知识点--14--kafka部署 Chasing__Dreams kafka kafka dockercompose 单机集群
单机部署win10此处使用docker-compose部署，因此前提是安装好docker和docker-compose1单机部署1.1kafka-single----kafka-single ----docker-compose.yml1.2docker-compose.ymlversion:"3"services:zookeeper:image:wurstmeister/zookeeperpo
Shell实现服务检查看门程序 angushine shell
最近在项目中碰到Kafka自己关闭的事件，为保证Kafka的高效可用，因此考虑使用Shell加系统定时任务检查，保证服务的高可用检查Zookeeper#!/bin/bash#配置参数TARGET_PORT=2181#监控端口SERVICE_NAME="zookeeper"#服务名称（用于日志记录）CHECK_INTERVAL=5#检测间隔（秒）LOG_FILE="/data/public/kafk
深入解析Hadoop中的推测执行：原理、算法与策略码字的字节 hadoop布道师 hadoop 算法推测执行
Hadoop推测执行概述在分布式计算环境中，任务执行速度的不均衡是一个普遍存在的挑战。Hadoop作为主流的大数据处理框架，通过引入推测执行（SpeculativeExecution）机制有效缓解了这一问题。该技术本质上是一种乐观的容错策略，当系统检测到某些任务执行明显落后于预期进度时，会自动在其它计算节点上启动相同任务的冗余副本，最终选择最先完成的任务结果作为输出。核心设计动机推测执行的诞生源于
阿里云态势感知和安骑士有什么区别？阿腾云
阿里云态势感知和安骑士均是阿里云云盾安全产品，态势感知属于安全管理类的产品，安骑士数据服务器安全类产品，阿里云百科网来详细说下阿里云态势感知和安骑士之间的区别：态势感知和安骑士的区别简单来说，安骑士是检测云服务器漏洞的，态势感知提供安全类的大数据分析服务。态势感知：安全大数据分析平台，通过机器学习和结合全网威胁情报，发现传统防御软件无法覆盖的网络威胁，溯源攻击手段、并且提供可行动的解决方案。安骑士
大模型软件的多租户架构设计 AI天才研究院 AI人工智能与大数据 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
大模型软件的多租户架构设计关键词：大模型软件、多租户架构、设计、性能优化、安全性摘要：随着大数据和人工智能技术的迅猛发展，大模型软件在各个领域得到了广泛应用。然而，如何在大模型软件中实现高效的多租户架构设计，成为当前技术领域的一个关键挑战。本文将深入探讨大模型软件的多租户架构设计，包括其背景、核心概念、算法原理、系统架构、项目实战以及最佳实践等，旨在为开发者提供一套系统化、全面化的设计指南。设计过
【Spark征服之路-3.7-Spark-SQL核心编程（六）】 qq_46394486 spark sql ajax
数据加载与保存：通用方式：SparkSQL提供了通用的保存数据和数据加载的方式。这里的通用指的是使用相同的API，根据不同的参数读取和保存不同格式的数据，SparkSQL默认读取和保存的文件格式为parquet加载数据：spark.read.load是加载数据的通用方法。如果读取不同格式的数据，可以对不同的数据格式进行设定。spark.read.format("…")[.option("…")].
【原创文集】如果时光会说话 7a82ff5fbe9b
大数据工程学院21计科本2王玉艳1528662159515286621595.如果时光会说话，它会不会知道未来发生的事情然后跟人类讲呢？从2006年的非典到2019年的新冠疫情，发生了太多太多的让人类遭遇苦难的病毒。如果时光会说话，它是否会将即将发生的事与我们一说，让人类避免所遭遇的一切呢？如果时光会说话，不知道它看见这些在它身体里所发生的一切，它会不会感到悲哀呢？如果时光会说话，我会问问它新冠疫
深入解析 Spark：关键问题与答案汇总 ※尘 sql hive spark
在大数据处理领域，Spark凭借其高效的计算能力和丰富的功能，成为了众多开发者和企业的首选框架。然而，在使用Spark的过程中，我们会遇到各种各样的问题，从性能优化到算子使用等。本文将围绕Spark的一些核心问题进行详细解答，帮助大家更好地理解和运用Spark。Spark性能优化策略Spark性能优化是提升作业执行效率的关键，主要可以从以下几个方面入手：首先，资源配置优化至关重要。合理设置Exec
大数据领域如何用好 Eureka 实现服务治理大数据洞察大数据 eureka 云原生 ai
大数据领域Eureka服务治理实践：架构适配与最佳实践元数据框架标题大数据领域Eureka服务治理实践：架构适配、实现机制与最佳实践关键词Eureka；服务治理；大数据分布式系统；服务发现；负载均衡；故障恢复；云原生适配摘要Eureka作为Netflix开源的AP型服务发现组件，以其高可用性、动态适配性和轻量级特性，成为微服务架构的核心工具。然而，大数据领域的超大规模分布式、高并发数据流动、动态资
Eureka在大数据推荐系统中的服务治理实践大数据洞察 eureka 大数据云原生 ai
Eureka在大数据推荐系统中的服务治理实践：从理论到落地的全面解析元数据框架标题：Eureka在大数据推荐系统中的服务治理实践：从理论到落地的全面解析关键词：Eureka；服务治理；大数据推荐系统；分布式架构；服务发现；高可用性；动态扩展摘要：本文结合Eureka的核心特性与大数据推荐系统的需求，从第一性原理推导、架构设计、实现机制到实际应用，全面解析Eureka在推荐系统中的服务治理实践。通过
Eureka 为大数据领域服务治理带来的新思路大数据洞察大数据AI应用大数据与AI人工智能 eureka 大数据云原生 ai
Eureka为大数据领域服务治理带来的新思路关键词：Eureka，大数据，服务治理，分布式系统，微服务摘要：本文深入探讨了Eureka为大数据领域服务治理带来的新思路。首先介绍了大数据领域服务治理的背景和现状，阐述了Eureka的核心概念与工作原理。接着详细分析了Eureka核心算法原理，结合Python代码进行说明，并给出相关数学模型和公式。通过项目实战案例，展示了Eureka在大数据服务治理中
spark on yarn 不辉放弃 pyspark 大数据开发
SparkonYARN是指将Spark应用程序运行在HadoopYARN集群上，借助YARN的资源管理和调度能力来管理Spark的计算资源。这种模式能充分利用现有Hadoop集群资源，简化集群管理，是企业中常用的Spark部署方式。核心角色•Spark应用：包含Driver进程和Executor进程。Driver负责任务调度、逻辑处理；Executor负责执行具体任务并存储数据。•YARN组件：◦
新能源汽车大数据画像：从零到一实现K-means用户分群新能源汽车研发＆测试入门指南学习笔记新星杯+王者杯汽车大数据 kmeans
基于大数据分析的新能源汽车画像研究全攻略：从原理到实战前言在"软件定义汽车"的时代浪潮下，新能源汽车正经历着从交通工具向智能移动终端的进化。本文将带你深入探索如何通过大数据技术构建精准的用户与产品画像，揭秘车企数字化转型的核心技术。全文涵盖完整的技术链路和实战案例，助你快速掌握这一前沿领域。关键词：新能源汽车；用户画像挖掘；大数据分析；K-means聚类目录一、大数据分析技术基石二、新能源汽车画像
Flink在物联网实时大数据处理中的最佳实践大数据洞察大数据AI应用大数据与AI人工智能 flink 物联网 struts ai
Flink在物联网实时大数据处理中的最佳实践关键词：Flink、物联网、实时大数据处理、最佳实践、数据流摘要：本文围绕Flink在物联网实时大数据处理中的最佳实践展开。首先介绍了相关背景知识，接着深入浅出地解释了Flink、物联网和实时大数据处理的核心概念以及它们之间的关系。然后详细阐述了Flink处理物联网数据的核心算法原理、数学模型和公式。通过实际项目案例，展示了开发环境搭建、代码实现和解读。
信小易官网查询入口：信小易大数据信用检测平台！无忧达人
信小易一个全能型的信用软件，信小易在一几年就上线的大数据信用平台，有着专业的大数据信用行业经验，从个人信用到企业信用，车辆大数据信小易全都有涉足，是一个非常完善的平台。信小易官网查询入口，对于想使用信小易的人来说，第一步我们需要找到信小易的查询入口，然后就可以进行大数据信用的查询服务了，可以查询自己的信用情况，查询结果也是非常准确。信小易查询入口放在文末了，划到文章结尾就可以看到查询入口信小易是一
Spark RDD 之 Partition 博弈史密斯
SparkRDD怎么理解RDD的粗粒度模式？对比细粒度模式SparkRDD的task数量是由什么决定的？一份待处理的原始数据会被按照相应的逻辑(例如jdbc和hdfs的split逻辑)切分成n份，每份数据对应到RDD中的一个Partition，Partition的数量决定了task的数量，影响着程序的并行度支持保存点(checkpoint)虽然RDD可以通过lineage实现faultrecove
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修

大数据平台安装部署（适用虚拟机级真实服务器，亲测）

大数据集群搭建

一、基础环境准备

1. 虚拟环境准备（服务器安装跳过此步骤）

1.1 安装vmware

1.2 安装centos

1.3 安装配置虚拟机

2. 配置网络环境

2.1 配置VMware网络环境（服务器跳过）

2.1.1 NAT模式：

2.1.2 桥接模式

3. 集群节点属性配置

3.1配置主机名

3.2关闭防火墙

3.3 配置阿里云yum源（闭网环境跳过）

3.4 设置语言

3.5设置自动更新时间

3.6 清除节点mac地址（服务器跳过）

3.7 保存快照，克隆

3.8 给每台克隆的节点配置ip

3.9 配置***每台***节点ip映射，可以使用host代替ip来互相访问

3.10 配置节点间免密登录

二、 zookeeper安装

三、 hadoop安装

1.节点划分

2.配置jdk

3.hadoop安装，环境变量配置

4.配置高可用的hdfs和yarn文件

4.1配置hadoop-env.sh

4.2 hdfs-site.xml

4.3 core-site.xml

4.4 yarn-site.xml

4.5 mapred-site.xml

4.6 slaves

5.将配置好的hadoop分发到每一个节点

6.初始化和启动

四、hive安装

1.安装mysql

2.安装hive

3. 问题

五、spark安装

1.节点划分

2.上传解压

3.配置spark

4.启动spark

5 . 配置spark运行在yarn上

6. 验证提交spark任务

7.问题

六、hbase安装

1.节点分配

2.上传解压配置

3.修改配置

4.加载配置文件

5.启动

七、ElasticSearch安装

1. 下载安装包

2. 解压配置

3. 分发，创建普通用户es，

4.修改目录用户

5.启动es

6. 启动可能出现问题：

八、dolphinscheduler 安装

1. 基础环境软件安装

2、下载二进制tar.gz包

3、创建部署用户和hosts映射

4、配置hosts映射和ssh打通及修改目录权限

5、数据库初始化

6、修改运行参数

7、一键部署

8、登录系统

9、启停服务

九、sqoop安装

1.下载解压

2.修改配置文件

3.拷贝jdbc驱动

4.验证sqoop

8、登录系统

9、启停服务

九、sqoop安装

1.下载解压

3.9 配置每台节点ip映射，可以使用host代替ip来互相访问