nuc2015

hadoop2.8.0+zookeeper-3.4.10搭建HA(高可用集群)

一、网络及主机名配置

ip地址	主机名	安装软件	j进程
192.168.1.2	master.hadoop	jdk,hadoop,zookeeper	namenode,datanode,ZKFC,ResourceManager,nodemanager
192.168.1.3	slave1.hadoop	jdk.hadoop,zookeeper	namenode,datanode,ZKFC,ResouceManager,nodemanager
192.168.1.4	slave1.hadoop	jdk.hadoop.zookeeper	datanode,nodemanager

1.修改主机名

[root@master /]# vi /etc/hostname

#主机名
 master.hadoop

[root@master ~]# hostname master.hadoop
[root@master ~]# hostname
master.hadoop

其余结点一样的操作
[root@master ~]# cd /etc/hosts

192.168.1.2 master.hadoop
192.168.1.3 slave1.hadoop
192.168.1.4 slave2.hadoop

[root@master ~]# scp /etc/hosts 192.168.1.3:/etc
[root@master ~]# scp /etc/hosts 192.168.1.4:/etc

2.修改网卡配置

硬件配置：取消动态ip地址，使用固定的

[root@master network-scripts]# cd /etc/sysconfig/network-scripts/
[root@master network-scripts]# ll
总用量 244
-rw-r--r--. 1 root root   363 7月   6 08:09 ifcfg-ens33
-rw-r--r--. 1 root root   254 5月   3 2017 ifcfg-lo
lrwxrwxrwx. 1 root root    24 4月  27 06:30 ifdown -> ../../../usr/sbin/ifdown
-rwxr-xr-x. 1 root root   654 5月   3 2017 ifdown-bnep
-rwxr-xr-x. 1 root root  6571 5月   3 2017 ifdown-eth
-rwxr-xr-x. 1 root root  6190 8月   4 2017 ifdown-ib
[root@master network-scripts]# vi ifcfg-ens33 
[root@master network-scripts]#

TYPE=Ethernet
PROXY_METHOD=none
BROWSER_ONLY=no
BOOTPROTO=none
DEFROUTE=yes
IPV4_FAILURE_FATAL=yes
IPV6INIT=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_FAILURE_FATAL=no
IPV6_ADDR_GEN_MODE=stable-privacy
NAME=ens33
UUID=f090a391-d137-4d93-8594-03baeada0d1f
DEVICE=ens33
ONBOOT=yes
IPADDR=192.168.1.2
PREFIX=24
GATEWAY=192.168.1.1
IPV6_PRIVACY=no
DNS1=192.168.1.1

3.重启网卡

[root@master network-scripts]# service network restart
#查看网络配置
[root@master network-scripts]# ifconfig
ens33: flags=4163  mtu 1500
        inet 192.168.1.2  netmask 255.255.255.0  broadcast 192.168.1.255
        inet6 fe80::5d8a:5d86:d69a:1d54  prefixlen 64  scopeid 0x20
        ether 00:0c:29:be:6c:d6  txqueuelen 1000  (Ethernet)
        RX packets 2787  bytes 199847 (195.1 KiB)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 1488  bytes 96410 (94.1 KiB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

lo: flags=73  mtu 65536
        inet 127.0.0.1  netmask 255.0.0.0
        inet6 ::1  prefixlen 128  scopeid 0x10
        loop  txqueuelen 1  (Local Loopback)
        RX packets 1477  bytes 143901 (140.5 KiB)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 1477  bytes 143901 (140.5 KiB)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

virbr0: flags=4099  mtu 1500
        inet 192.168.122.1  netmask 255.255.255.0  broadcast 192.168.122.255
        ether 52:54:00:a0:aa:ad  txqueuelen 1000  (Ethernet)
        RX packets 0  bytes 0 (0.0 B)
        RX errors 0  dropped 0  overruns 0  frame 0
        TX packets 0  bytes 0 (0.0 B)
        TX errors 0  dropped 0 overruns 0  carrier 0  collisions 0

4、centos7关闭防火墙

//临时关闭
systemctl stop firewalld
//禁止开机启动
systemctl disable firewalld
Removed symlink /etc/systemd/system/multi-user.target.wants/firewalld.service.
Removed symlink /etc/systemd/system/dbus-org.fedoraproject.FirewallD1.service.

二、安装JDK

1、下载linux版本的jdk

jdk1.8下载地址

2、解压配置并环境变量

[root@master apps]# tar -zxvf jdk-8u171-linux-x64.tar.gz
[root@master apps]# vi /etc/profile
在其中添加一下内容：
export JAVA_HOME=/apps/jdk1.8.0_171
export JRE_HOME=/apps/jdk1.8.0_171/jre
export CLASS_PATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin

然后更新配置文件
[root@master apps]# source /etc/profile

3、测试安装

[root@master apps]# java -version
java version "1.8.0_171"
Java(TM) SE Runtime Environment (build 1.8.0_171-b11)
Java HotSpot(TM) 64-Bit Server VM (build 25.171-b11, mixed mode)

三、配置SSH免密登录

1、每台机器生成自己的私钥和公钥

[root@master apps]# cd /root/.ssh/
[root@master .ssh]# ssh-keygen -t rsa

然后一直回车什么也不输入，直到结束。

[root@master .ssh]# touch authorized_keys
[root@master .ssh]# ll
总用量 16
-rw-r--r--. 1 root root 2000 7月   4 20:48 authorized_keys
-rw-------. 1 root root 1679 6月  19 15:17 id_rsa
-rw-r--r--. 1 root root  400 6月  19 15:17 id_rsa.pub
-rw-r--r--. 1 root root  935 7月   4 20:54 known_hosts
[root@master .ssh]# cat id_rsa.pub >> authorized_keys

2、将每个节点的公钥都追加到一个名为(authorized_keys)的文件中

在另外两台机器同样的执行以下操作：
[root@slave apps]# cd /root/.ssh/
[root@salve .ssh]# ssh-keygen -t rsa
[root@slave .ssh]# ll
-rw-------. 1 root root 1679 6月  19 15:17 id_rsa
-rw-r--r--. 1 root root  400 6月  19 15:17 id_rsa.pub
-rw-r--r--. 1 root root  935 7月   4 20:54 known_hosts

将自己机器上的id_rsa.pub追加到主节点的authorized_keys文件中。
[root@slave .ssh]# scp id_rsa.pub 192.168.1.2:/
去主节点追加
[root@master .ssh]# cd /
[root@master .ssh]# cat id_rsa.pub >> /root/.ssh/authorized_keys

3、将主节点上的authorized_keys分发给每一个从节点，测试登录

[root@master .ssh]# scp authorized_keys 192.168.1.3:$PWD
[root@master .ssh]# scp authorized_keys 192.168.1.4:$PWD
[root@master .ssh]# ssh 192.168.1.3
Last login: Fri Jul  6 16:02:23 2018
[root@slave1 ~]#

四、hadoop2.8.0+zookeeper-3.4.10搭建HA

1、安装zookeeper

下载zookeeper下载链接

在三台机器上都安装zookeeper

解压到/apps

[root@master apps]# tar -zxvf zookeeper-3.4.10.tar.gz

#删除没用的文件，只留下一下部分
[root@master apps]# cd zookeeper-3.4.10/
[root@master zookeeper-3.4.10]# ll
总用量 1456
drwxr-xr-x. 2 root root     149 3月  23 2017 bin
drwxr-xr-x. 2 root root      91 7月   5 11:28 conf
drwxr-xr-x. 4 root root     267 3月  23 2017 lib
-rw-rw-r--. 1 root root 1456729 3月  23 2017 zookeeper-3.4.10.jar

配置环境变量

[root@master /]# vi /etc/profile

在打开的文件末尾添加如下代码后保存

#set java environment
export JAVA_HOME=/apps/jdk1.8.0_171
export JRE_HOME=/apps/jdk1.8.0_171/jre
export CLASS_PATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib

export ZOOKEEPER_HOME=/apps/zookeeper-3.4.10


export PATH=$PATH:$JAVA_HOME/bin:$ZOOKEEPER_HOME/bin

使配置生效

[root@master /]# source /etc/profile

切换到conf目录，修改zookeepe配置文件：

将zoo_sample.cfg改名为zoo.cfg

[root@master conf]# mv zoo_sample.cfg zoo.cfg

[root@master zookeeper-3.4.10]# cd conf/
[root@master conf]# ll
总用量 40
-rw-rw-r--. 1 root root   535 3月  23 2017 configuration.xsl
-rw-rw-r--. 1 root root  2161 3月  23 2017 log4j.properties
-rw-rw-r--. 1 root root  1019 7月   5 11:19 zoo.cfg

提前建好这两个目录（/apps/zkdata）（/apps/zookeeper-3.4.10/datalog）

dataDir=/apps/zkdata

dataLogDir=/apps/zookeeper-3.4.10/datalog

末尾添加：

server.1=master.hadoop:2888:3888
server.2=slave1.hadoop:2888:3888
server.3=slave2.hadoop:2888:3888

# The number of milliseconds of each tick
tickTime=2000
# The number of ticks that the initial 
# synchronization phase can take
initLimit=10
# The number of ticks that can pass between 
# sending a request and getting an acknowledgement
syncLimit=5
# the directory where the snapshot is stored.
# do not use /tmp for storage, /tmp here is just 
# example sakes.
dataDir=/apps/zkdata
dataLogDir=/apps/zookeeper-3.4.10/datalog
# the port at which the clients will connect
clientPort=2181
# the maximum number of client connections.
# increase this if you need to handle more clients
#maxClientCnxns=60
#
# Be sure to read the maintenance section of the 
# administrator guide before turning on autopurge.
#
# http://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance
#
# The number of snapshots to retain in dataDir
#autopurge.snapRetainCount=3
# Purge task interval in hours
# Set to "0" to disable auto purge feature
#autopurge.purgeInterval=1
server.1=master.hadoop:2888:3888
server.2=slave1.hadoop:2888:3888
server.3=slave2.hadoop:2888:3888

master.hadoop: 在zkdata目录下创建myid文件并添加内容为1

[root@master conf]# cd /apps/zkdata
[root@master zkdata]# echo 1 > myid

slave1.hadoop: 在zkdata目录下创建myid文件并添加内容为2(以此类推)

[root@slave1 conf]# cd /apps/zkdata
[root@slave1 zkdata]# echo 2 > myid

根据以上步骤在slave1.hadoop,slave2.hadoop节点安装好zookeeper

[root@master /]# zkServer.sh start
ZooKeeper JMX enabled by default
Using config: /apps/zookeeper-3.4.10/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED

[root@slave1 ~]# zkServer.sh start
ZooKeeper JMX enabled by default
Using config: /apps/zookeeper-3.4.10/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED

[root@slave2 ~]# zkServer.sh start
ZooKeeper JMX enabled by default
Using config: /apps/zookeeper-3.4.10/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED

分别查看三个节点的状态，可以看到一个leader和两个follower，说明zookeeper安装成功。

[root@master /]# jps
43587 QuorumPeerMain
43871 Jps
[root@master /]# zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /apps/zookeeper-3.4.10/bin/../conf/zoo.cfg
Mode: follower
[root@master /]#

[root@slave1 ~]# jps
2709 QuorumPeerMain
2757 Jps
[root@slave1 ~]# zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /apps/zookeeper-3.4.10/bin/../conf/zoo.cfg
Mode: leader
[root@slave1 ~]#

[root@slave2 ~]# jps
1784 Jps
1759 QuorumPeerMain
[root@slave2 ~]# zkServer.sh status
ZooKeeper JMX enabled by default
Using config: /apps/zookeeper-3.4.10/bin/../conf/zoo.cfg
Mode: follower
[root@slave2 ~]#

分别停止三个节点上的zookeeper

[root@master /]# zkServer.sh stop

[root@slave1 ~]# zkServer.sh stop

[root@slave2 ~]# zkServer.sh stop

2、安装hadoop

下载hadoop安装包

hadoop下载地址

解压安装包，并修改配置文件

[root@master apps]# tar -zxvf hadoop-2.8.0.tar.gz
[root@master apps]# mkdir hdptmp
在两台从节点上建立相同的目录(hdfs初始化的时候会用到)

1）配置hadoop-env.sh

# set java environment（添加jdk环境变量）
export JAVA_HOME=/apps/jdk1.8.0_171

2）配置core-site.xml文件

修改Hadoop核心配置文件core-site.xml，这里配置的是HDFS的地址和端口号。

core-site.xml

 
  
   
       
      fs.defaultFS      
      hdfs://ns      
   
   
   
      hadoop.tmp.dir  
      /apps/hdptmp  
      
   
   
      ha.zookeeper.quorum  
      master.hadoop:21810,slave1.hadoop:21810,slave2.hadoop:21810

3）配置hdfs-site.xml文件

修改Hadoop中HDFS的配置，配置的备份方式默认为3。

  
          
          
        dfs.nameservices      
        ns      
        
      
      
       dfs.ha.namenodes.ns  
       nn1,nn2  
      
      
      
       dfs.namenode.rpc-address.ns.nn1  
       master.hadoop:9000  
      
      
      
        dfs.namenode.http-address.ns.nn1  
        master.hadoop:50070  
      
      
      
        dfs.namenode.rpc-address.ns.nn2  
        slave1.hadoop:9000  
      
      
      
        dfs.namenode.http-address.ns.nn2  
        slave1.hadoop:50070  
      
      
      
         dfs.namenode.shared.edits.dir  
         qjournal://master.hadoop:8485;slave1.hadoop:8485;slave2.hadoop:8485/ns  
      
      
      
          dfs.journalnode.edits.dir  
          /apps/journal  
      
      
      
          dfs.ha.automatic-failover.enabled  
          true  
      
      
      
            dfs.client.failover.proxy.provider.ns  
            org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider  
      
      
      
             dfs.ha.fencing.methods  
             
				sshfence
				shell(/bin/true)
			  
      
      
      
            dfs.ha.fencing.ssh.private-key-files  
            /root/.ssh/id_rsa  
        
          
       dfs.replication      
       2      
         
                                                                          
          
       dfs.webhdfs.enabled      
       true      
          
	      
       dfs.ha.fencing.ssh.connect-timeout      
       10000      
       
	
		dfs.permissions
		false

4）配置mapred-site.xml文件

修改Hadoop中MapReduce的配置文件，配置的是JobTracker的地址和端口。


    
        mapreduce.framework.name
        yarn

5) 配置yran-site.xml文件


  
  
  
  
    yarn.resourcemanager.ha.enabled
    true
  
 
  
  
    yarn.resourcemanager.ha.automatic-failover.enabled
    true
  
 
  
  
    yarn.resourcemanager.cluster-id
    yarncluster
  
 
  
  
    yarn.resourcemanager.ha.rm-ids
    rm1,rm2
  
 
  
  
    yarn.resourcemanager.hostname.rm1
    master.hadoop1
  
  
    yarn.resourcemanager.hostname.rm2
    slave1.hadoop
  
  
  
    yarn.resourcemanager.zk-address
    master.hadoop:2181,slave1.hadoop:2181,slave2.hadoop:2181
  
        
　　　　yarn.nodemanager.aux-services      
　　　　mapreduce_shuffle

6)配置slaves文件

[root@master /]# vi slaves
master.hadoop
slave1.hadoop
slave2.hadoop

7) 配置hadoop环境变量

[root@master /]# vi /etc/profile
#set hadoop enviroment
export HADOOP_HOME=/apps/hadoop-2.8.0/
export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

#生效
[root@master /]# source /etc/profile

启动集群（按照顺序启动）

1.启动zookeeper（三台机器一台一台的启动）

[root@master /]# zkServer.sh start
ZooKeeper JMX enabled by default
Using config: /apps/zookeeper-3.4.10/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED

[root@slave1 ~]# zkServer.sh start
ZooKeeper JMX enabled by default
Using config: /apps/zookeeper-3.4.10/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED

[root@slave2 ~]# zkServer.sh start
ZooKeeper JMX enabled by default
Using config: /apps/zookeeper-3.4.10/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED

2.启动journalnode（三台一台一台启动）

[root@master /]# hadoop-daemon.sh start journalnode
starting journalnode, logging to /apps/hadoop-2.8.0/logs/hadoop-root-journalnode-master.hadoop.out
[root@master /]#

[root@slave1 ~]# hadoop-daemon.sh start journalnode
starting journalnode, logging to /apps/hadoop-2.8.0/logs/hadoop-root-journalnode-slave1.hadoop.out
[root@slave1 ~]#

[root@slave2 ~]# hadoop-daemon.sh start journalnode
starting journalnode, logging to /apps/hadoop-2.8.0/logs/hadoop-root-journalnode-slave2.hadoop.out
[root@slave2 ~]#

3.启动hdfs

[root@master /]# start-dfs.sh 
Starting namenodes on [master.hadoop slave1.hadoop]
slave1.hadoop: starting namenode, logging to /apps/hadoop-2.8.0/logs/hadoop-root-namenode-slave1.hadoop.out
master.hadoop: starting namenode, logging to /apps/hadoop-2.8.0/logs/hadoop-root-namenode-master.hadoop.out
slave2.hadoop: starting datanode, logging to /apps/hadoop-2.8.0/logs/hadoop-root-datanode-slave2.hadoop.out
master.hadoop: starting datanode, logging to /apps/hadoop-2.8.0/logs/hadoop-root-datanode-master.hadoop.out
slave1.hadoop: starting datanode, logging to /apps/hadoop-2.8.0/logs/hadoop-root-datanode-slave1.hadoop.out
Starting journal nodes [master.hadoop slave1.hadoop slave2.hadoop]
slave2.hadoop: journalnode running as process 1870. Stop it first.
slave1.hadoop: journalnode running as process 2842. Stop it first.
master.hadoop: journalnode running as process 45029. Stop it first.
Starting ZK Failover Controllers on NN hosts [master.hadoop slave1.hadoop]
slave1.hadoop: starting zkfc, logging to /apps/hadoop-2.8.0/logs/hadoop-root-zkfc-slave1.hadoop.out
master.hadoop: starting zkfc, logging to /apps/hadoop-2.8.0/logs/hadoop-root-zkfc-master.hadoop.out
[root@master /]#

4.启动yarn

[root@master /]# start-yarn.sh 
starting yarn daemons
starting resourcemanager, logging to /apps/hadoop-2.8.0/logs/yarn-root-resourcemanager-master.hadoop.out
slave1.hadoop: starting nodemanager, logging to /apps/hadoop-2.8.0/logs/yarn-root-nodemanager-slave1.hadoop.out
slave2.hadoop: starting nodemanager, logging to /apps/hadoop-2.8.0/logs/yarn-root-nodemanager-slave2.hadoop.out
master.hadoop: starting nodemanager, logging to /apps/hadoop-2.8.0/logs/yarn-root-nodemanager-master.hadoop.out
[root@master /]#

5.启动单个结点的yarn进程（因为yarn的两个resourcemanager不会同时启动，必须手动启动另一台上的resourcemanager）

去slave1.hadoop上启动

[root@slave1 ~]# yarn-daemon.sh start resourcemanager
starting resourcemanager, logging to /apps/hadoop-2.8.0/logs/yarn-root-resourcemanager-slave1.hadoop.out
[root@slave1 ~]# jps
3489 Jps
2931 NameNode
2709 QuorumPeerMain
2842 JournalNode
3131 DFSZKFailoverController
3451 ResourceManager
3276 NodeManager
3005 DataNode
[root@slave1 ~]#

到此集群搭建完成！！！！！！！！！！！！！！！！！

============================================================================测试高可用

访问 http://slave1.hadoop:50070/

访问 http://master.hadoop:50070/

接下来是一台宕机（关闭slave1.hadoop上的namenode进程）杀掉2931进程

[root@slave1 ~]# jps
2931 NameNode
2709 QuorumPeerMain
3733 Jps
2842 JournalNode
3131 DFSZKFailoverController
3451 ResourceManager
3276 NodeManager
3005 DataNode
[root@slave1 ~]# kill -9 2931
[root@slave1 ~]# jps
2709 QuorumPeerMain
3753 Jps
2842 JournalNode
3131 DFSZKFailoverController
3451 ResourceManager
3276 NodeManager
3005 DataNode
[root@slave1 ~]#

然后访问 http://slave1.hadoop:50070/（无响应）

访问http://master.hadoop:50070/ （变成active）

============================================================================

高可用集群搭建完毕

你可能感兴趣的:(大数据学习笔记)

【大数据学习笔记】最全Python连接各种数据库及对应的CRUD操作伊达大数据 Python python mysql database sql
本文将详细探讨如何在Python中连接全种类数据库以及实现相应的CRUD（创建，读取，更新，删除）操作。我们将逐一解析连接MySQL，SQLServer，Oracle，PostgreSQL，MongoDB，SQLite，DB2，Redis，Cassandra，MicrosoftAccess，ElasticSearch，Neo4j，InfluxDB，Snowflake，AmazonDynamoDB，
【大数据学习笔记】新手学习路线图伊达大数据大数据学习笔记
第1阶段-数据仓库基1.MysQL关系型数据库（MySQL介绍、MySQL安装、MySQL基础语法、MySQL高级语法、MySQL系统架构、MySQL存储引擎、MySQL索引、MySQL备份恢复、MySQL主从、主主复制、MySQL存储过程、MySQL分库分表、MySQL综合案例、MySQL性能优化）2.Python编程技术（Python基础语法、Python循环、Python集合、Python函
大数据学习笔记——数据仓库hive重要的总结新宿一次狼大数据大数据
1、外部表和内部表Hive表分为两类，即内部表和外部表。所谓内部表，即Hive管理的表，Hive内部表的管理既包含逻辑以及语法上的，也包含实际物理意义上的，即创建Hive内部表时，数据将真实存在于表所在的目录内，删除内部表时，物理数据和文件也一并删除。外部表（externaltable）则不然，其管理仅仅是在逻辑和语法意义上的，即新建表仅仅是指向一个外部目录而已。同样，删除时也并不物理删除外部目录
hadoop大数据学习笔记驰宇爱吃鱼学习笔记大数据 hadoop 学习
一、Hadoop的作用本质来说hadoop的作用是在多计算机集群环境中营造一个统一而稳定的存储和计算环境，并能为其他分布式应用服务提供平台支持。或者说将多台计算机组织成了一台计算机，让他们做同一件事，在这其中HDFS就相当于这台计算机的硬盘，而MapReduce就是这台计算机的CPU控制器。二、Hadoop环境部署按着正常来说我们想要部署Hadoop集群需要把相同的软件部署到众多计算机上，实际学习
大数据学习笔记-MapReduce（一）入门基础理论天码村大数据 mapreduce 大数据学习
1、HadoopMapReduce介绍mapreduce的思想：分而治之，先分再和，分而治之，把复杂的问题分解，然后逐个解决，分别计算出结果。拆分求解合并拆分求解合并原问题子问题子问题的解结果子问题子问题的解模拟实现分布式计算：分布式计算和集中式计算相对，有些应用需要非常巨大的算力才能完成，如果采用集中式计算，需要耗费比较长的时间，分布式计算应该将该应用分解成许多小的部分，分配给多台计算机进行处理
大数据学习笔记 Try harder100 Hadoop 大数据尚硅谷笔记总结
大数据技术之大数据概论第1章大数据概念大数据（BigData）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。按顺序给出数据存储单位：bit、Byte、KB、MB、GB、**TB、PB、EB、**ZB、YB、BB、NB、DB。1Byte=8bit1K=1024Byte1MB=10
【大数据学习笔记-1】大数据hadoop平台基本组件工匠小能手相关概念和应用场景大数据
Hadoop是一个由Apache基金会所开发的分布式计算和存储架构。说人话的通俗描述：你在爱奇艺网站看过一次科幻片后，下次再登录爱奇艺，首页会把最新科幻动作片推送给你，目的是要向你多收点会员费。这背后的技术就是叫大数据的技术来自动判断你好什么口味的电影。行业描述：开源的分布式存储和计算框架，广泛用户海量数据的存储和处理，比如淘宝网的商品推送，爱奇艺视频的首页电影推送。Hadoop的主要组件：htt
大数据学习笔记-HDFS（一）天码村大数据数据库 hadoop hdfs
目录1、企业存储系统1.1认识硬盘、RAID1.2存储架构1.3文件系统1.4文件系统的分类（按照位置）1.5海量数据存储面临的问题2、场景案例：如何实现分布式文件存储2.1如何解决海量数据存的下的问题2.2如何解决海量数据文件查询边界问题2.3如何解决大文件传输效率慢的问题2.4如何解决硬件故障导致的数据丢失问题2.5如何解决用户查询视角统一规整问题3、分布式文件系统HDFS入门3.1简介3.2
【基础篇】大数据学习笔记（4）相关名词解释风也醉
RAID：RedundantArraysofIndependentDrives独立冗余磁盘阵列，独立磁盘构成的具有冗余功能的阵列。GFS：GoogleFileSystemGoogle文件系统HDFS：HadoopDsitributedFileSystemHadoop分布式文件系统Zookeeper：分布式应用程序协调服务，是Hadoop和Hbase的重要组件Hadoop：Apache基金会所开发的
2021年全网最细大数据学习笔记（二）：Hadoop 伪分布式安装 Amo Xiang 大数据开发 hadoop 大数据 linux
文章目录一、Linux操作系统的安装二、在Ubuntu20.04.2.0中进行Hadoop伪分布式安装1、Ubuntu20.04.2.0安装jdk2、配置SSH无密码登录3、Hadoop的下载与安装4、Hadoop环境配置5、启动与关闭Hadoop6、查看Hadoop的基本信息6.1、查看HDFSWeb界面6.2、查看YARNWeb界面三、在Centos7中进行Hadoop伪分布式安装一、Linu
华为云hadoop伪分布式安装学习笔记（一）我是夜阑的狗大数据学习笔记 hadoop java eclipse
所属专栏：【大数据学习笔记（华为云）】作者：我是夜阑的狗个人简介：一个正在努力学技术的码仔，专注基础和实战分享，欢迎咨询！欢迎大家：这里是CSDN，我总结知识的地方，喜欢的话请三连，有问题请私信文章目录前言1.购买云ECS主机2.开发环境step1创建hadoop用户step2更新aptstep3安装最新版本的Javastep4配置SSH无密码登陆节点3.安装Hadoopstep1下载step
大数据学习笔记-MapReduce（二）深度天码村 mapreduce 大数据学习
深度了解MapReduce运行流程，通过案例全面了解MR运行过程、涉及的组件、设计的思想。对MapReducePartition、MapreduceCombiner、MapReduce编程技巧掌握，对自定义对象、序列化、排序、分区、分组的实现熟练掌握，掌握MapReduce并行度机制、工作流程和shuffle的机制。1、MapreducePartition、Combiner输出结果文件只有一个。默
大数据学习笔记，学习清单平凡天下大数据学习笔记
大数据目前技术组件有很多，比如有hdfs,hive,spark,flink,kafka,clickhouse,cdh,nifi,streamset等等技术，主流的开发语言有Java，Scala，Python等等开发语言，大数据SQL必须要会，MySQL和hive，clickhouse等等SQL语言都要会，SQL语言必须要会而且要能随时写百行以上的SQL语言下面是我整理的学习笔记和大数据学习的基本路
阿里云大学Apache Flink大数据学习笔记 Jmayday Flink 大数据 flink 学习
之前有看过一些基础的大数据课程，现在又回来发现这里的课程更新还是蛮快的，讲的内容干货也很多，继续学习一下，下面是一些主要内容说明。地址:https://developer.aliyun.com/learning/course/58?spm=a2c6h.17661847.0.0.3b266fb2aXVsbc第一节Flink中文社区发起人开课寄语内容介绍：1.大数据趋势2.ApacheFlink的介绍
大数据学习笔记之flink----流式数据处理引擎 WRichards 大数据大数据 flink
很多人可能都是在2015年才听到Flink这个词，其实早在2008年，Flink的前身已经是柏林理工大学一个研究性项目，在2014被Apache孵化器所接受，然后迅速地成为了ASF（ApacheSoftwareFoundation）的顶级项目之一。Flink的最新版本目前已经更新到了0.10.0了，在很多人感慨Spark的快速发展的同时，或许我们也该为Flink的发展速度点个赞。Flink是一个针
大数据学习笔记1.3 Linux目录操作 zl202111 Linux 大数据 linux 学习运维
Linux目录操作一、常用权限操作(一)、常用权限操作（1）chgrp命令（2）chown命令（3）chmod命令(二)、权限操作1、创建文件，设置其用户组2、修改文件的所有者3、修改文件所有者与用户组4、修改文件操作权限二、常用目录操作(一)、常用目录操作2、目录操作实战1、获取命令帮助信息2、查看当前目录3、显示目录（文件）4、创建目录创建多级目录方法一：采用参数-p直接创建方法二、逐层创建每
北风网大数据学习笔记--java语言基础--初识JAVA--JAVA历史发展(1) lrwliu
1.使用文本编辑器开发JAVA程序。建议刚开始学用文本编辑器，而不用IDE，IDE有补全功能方便很多。2.使用MyEclipse开发JAVA程序,真正用于企业写编程的软件。SUN公司，目前稳定的版本是java7JAVA平台的体系结构基础核心：JAVASEJAVAEEJAVAME-移动端应用–不在有人使用，因为安卓、IOS流行。JavaSE=JavaStandardEditionJavaEE=Jav
大数据学习笔记2：现代数据湖之Iceberg 泊浮目
本文首发于泊浮目的：https://www.jianshu.com/u/204b8aaab8ba版本日期备注1.02021.6.20文章首发最近Iceberg有点小火，在这里也是根据自己看到的资料做个笔记输出一下。数据湖的定义就不说了，不了解的小伙伴可以看我之前做的笔记大数据学习笔记1：数仓、数据湖、数据中台。1.数据湖发展现状从广义上来说数据湖系统主要包括数据湖村处和数据湖分析现有数据湖技术主要
大数据学习笔记-HDFS（三）——集群管理运维天码村大数据大数据 hdfs 学习
1、HDFS数据迁移解决方案1.1迁移方案——数据迁移的使用场景和考量因素场景冷热集群数据同步、分类存储使用频率较高的数据随着时间发展频率变低而迁移集群数据整体搬迁：原A机房搬迁到B机房数据的准实时同步：数据双备份使用考量因素带宽：带宽使用多了影像正常业务，带宽低了迁移慢性能：采用单机程序，还是多线程的分布式程序增量同步：TB\PB级别的数据如何只迁移增量数据数据迁移的同步性：数据迁移的过程需要保
大数据学习笔记：Hadoop之HDFS（上）值得一看的喵
HDFS（HadoopDistributedFileSystem）Hadoop分布式文件系统。是根据google发表的论文翻版的。分布式文件系统（DistributedFileSystem）是指文件系统管理的物理存储资源不一定直接连接在本地节点上，而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。[优点]支持超大文件:超大文件在这里指的是几百M，几百GB，甚至几TB大小的文
黑马大数据学习笔记5-案例蓝净云大数据大数据学习笔记
目录需求分析背景介绍目标需求数据内容DBeaver连接到Hive建库建表加载数据ETL数据清洗数据问题需求实现查看结果扩展指标计算需求需求指标统计可视化展示BIFineBI的介绍及安装FineBI配置数据源及数据准备可视化展示P73~77https://www.bilibili.com/video/BV1WY4y197g7?p=73需求分析背景介绍聊天平台每天都会有大量的用户在线，会出现大量的聊天
黑马大数据学习笔记4-Hive部署和基本操作蓝净云大数据大数据学习笔记
目录思考规划安装MySQL数据库修改root用户密码配置Hadoop下载解压Hive提供MySQLDriver包配置Hive初始化元数据库启动Hive（使用Hadoop用户）Hive体验HiveServer2HiveServer2服务启动Beelinep48、51、52https://www.bilibili.com/video/BV1WY4y197g7/?p=48思考Hive是分布式运行的框架还
大数据学习笔记 smilinggg 大数据 flink spark hadoop
大数据学习笔记一.概念1.传统数据处理架构2.有状态的流处理二.批处理与流处理1.批处理2.流处理三.大数据软件生态1.Hadoop2.Spark3.Flink一.概念大数据（BigData）指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。四个主要特征：Volume（数据量）数据量
大数据学习笔记（一）加油牛牛 big data 学习大数据
一、大数据的概念无法再一定时间范围内用软件工具进行管理与处理的数据集合称之为大数据。大数据技术主要解决存储和分析计算问题.1.4V特征-A.Valume 大量 (KB->MB->GB->TB->PB->EB->ZB)-B.Velocity 高速分布式技术(N台计算机同时运算.)-C.Variety 多样 (存储结构化数据与非结构化数据和半结构化数据)-D.Value 低价值密度2.结构化、
大数据学习笔记-Yarn（二）天码村大数据大数据学习 hadoop
YarnWebUI服务1.1yarnwenUI服务，http://RMHOST:8088打开页面，以列表的形式展示处于各种状态的各种程序以下参数指定UI地址UI页面的参数介绍（图片来源黑马程序员教程）1.2JobHistoryServer服务仅存储已经完成的Mapredyce应用程序的作业历史信息，当启用JHS服务时，建议开启日志聚合功能。配置mapreduce.jobhistory.addres
大数据学习笔记-Yarn（一）天码村大数据大数据学习 hadoop yarn
1、yarn产生和发展历史背景：数据、程序、运算资源三者组合在一起，才能完成数据的处理，单机不存在问题，但是分布式环境如何协调是一个问题。Hadoop早期用户使用Hadoop与众多主机上运行的桌面程序类似：在少了几个节点上建立一个集群、将数据载入HDFS、运行mapreduceHadoop演进阶段：Adhoc集群以单用户的方式建立，随着私人集群的使用实现了HDFS集群的共享，不同于HDFS，共享m
黑马大数据学习笔记3-MapReduce配置和YARN部署以及基本命令蓝净云大数据大数据学习笔记
目录部署说明MapReduce配置文件YARN配置文件分发配置文件集群启动命令开始启动YARN集群查看YARN的WEBUI页面保存快照YARN集群的启停命令一键启动脚本单进程启停提交MapReduce任务到YARN执行提交wordcount示例程序查看运行日志提交求圆周率示例程序p41~43https://www.bilibili.com/video/BV1WY4y197g7/?p=41部署说明H
黑马大数据学习笔记2-HDFS基本操作蓝净云大数据大数据学习笔记
目录进程启停管理一键启停脚本单进程启停文件系统操作命令HDFS文件系统基本信息介绍创建文件夹查看指定目录下内容上传文件到HDFS指定目录查看HDFS文件内容下载HDFS文件拷贝HDFS文件追加数据到HDFS文件HDFS数据移动HDFS数据删除其他命令HDFSWEB浏览HDFS权限修改权限https://www.bilibili.com/video/BV1WY4y197g7?p=26切换到hadoo
黑马大数据学习笔记0-环境配置蓝净云大数据学习笔记
目录设置VMware网络CentOS操作系统三台虚拟机系统配置：主机名、固定IP、SSH免密登录配置主机名映射配置SSH免密登录创建hadoop用户并配置免密登录JDK1.8环境部署防火墙、SELinux、时间同步设置快照视频p3-p5https://www.bilibili.com/video/BV1WY4y197g7?p=3设置VMware网络网段设置为192.168.88.0网关设置为192
黑马大数据学习笔记2-HDFS环境部署蓝净云大数据学习笔记
目录环境部署hadoop-3.3.4.tar.gz构建软链接配置workers文件夹配置hadoop-env.sh文件配置core-site.xml文件配置hdfs-site.xml文件准备数据目录分发Hadoop文件夹将Hadoop的一些脚本、程序配置到PATH中授权为hadoop用户格式化整个文件系统查看HDFSWEBUI保存快照https://www.bilibili.com/video/B
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方