杜保强

部署hadoop集群

Hadoop部署

1. 安装完全分布式Hadoop

1.1 安装准备工作

1.1.1 规划

本安装示例将使用六台服务器(CentOS 6.5 64bit)来实现，其规划如下所示：

     IP地址                主机名            运行的进程或扮演的角色
192.168.40.30  master.dbq168.com        NameNode,JobTracker,Hive,Hbase
192.168.40.31  snn.dbq168.com           SecondaryNameNode
192.168.40.32  datanode-1.dbq168.com    DataNode,TaskTracker,zookeeper,regionserver
192.168.40.33  datanode-2.dbq168.com    DataNode,TaskTracker,zookeeper,regionserver
192.168.40.35  datanode-3.dbq168.com    DataNode,TaskTracker,zookeeper,regionserver
192.168.40.34  mysql.dbq168.com         MySQL

1.1.2 版本说明：

用到的应用程序：

CentOS   release 6.5 (Final)
kernel:  2.6.32-431.el6.x86_64
JDK:     jdk-7u45-linux-x64.gz
Hadoop： hadoop-2.6.1.tar.gz
Hive:    apache-hive-1.2.1-bin.tar.gz
Hbase:   hbase-1.1.2-bin.tar.gz
zookeeper:zookeeper-3.4.6.tar.gz

1.1.3 hosts文件：

设置集群各节点的/etc/hosts文件内容如下：

192.168.40.30   master master.dbq168.com
192.168.40.31   snn     snn.dbq168.com
192.168.40.32   datanode-1 datanode-1.dbq168.com
192.168.40.33   datanode-2 datanode-2.dbq168.com
192.168.40.35   datanode-3 datanode-3.dbq168.com
192.168.40.34   mysql   mysql.dbq168.com

1.1.4 SSH免密码登陆

主要是为了方便管理，或者可以使用自动化管理工具，如ansible等；

[root@master ~]# ssh-keygen -t rsa -P ''
[root@master ~]# ssh-copy-id -i .ssh/id_rsa.pub root@master
[root@master ~]# ssh-copy-id -i .ssh/id_rsa.pub root@snn
[root@master ~]# ssh-copy-id -i .ssh/id_rsa.pub root@datanode-1
[root@master ~]# ssh-copy-id -i .ssh/id_rsa.pub root@datanode-2
[root@master ~]# ssh-copy-id -i .ssh/id_rsa.pub root@datanode-3
[root@master ~]# ssh-copy-id -i .ssh/id_rsa.pub root@mysql

先在集群中的每个节点上建立运行hadoop进程的用户hadoop并给其设定密码。

# useradd hadoop
# echo "hadoop" | passwd --stdin hadoop 
[root@master ~]# for i in 30 31 32 33 35;do ssh 192.168.40.$i "useradd hadoop && echo 'hadoop'|passwd --stdin hadoop";done

而后配置master节点的hadoop用户能够以基于密钥的验正方式登录其它各节点，以便启动进程并执行监控等额外的管理工作。以下命令在master节点上执行即可。

[root@master ~]# su - hadoop
[hadoop@master ~]$ ssh-keygen -t rsa -P '' 
[hadoop@master ~]$ ssh-copy-id -i .ssh/id_rsa.pub hadoop@datanode-1
[hadoop@master ~]$ ssh-copy-id -i .ssh/id_rsa.pub hadoop@datanode-2
[hadoop@master ~]$ ssh-copy-id -i .ssh/id_rsa.pub hadoop@snn
......

测试执行命令：

[hadoop@master ~]$ ssh snn 'ls /home/hadoop/ -la' 
[hadoop@master ~]$ ssh datanode 'ls /home/hadoop/ -la'

1.2 安装JDK

[root@master ~]# for i in 30 31 32 33 35;do scp jdk-7u45-linux-x64.gz 192.168.40.$i:/usr/local/;done
[root@master ~]# for i in 30 31 32 33 35;do ssh 192.168.40.$i 'tar -xf /usr/local/jdk-7u45-linux-x64.gz -C /usr/local/';done
[root@master ~]# for i in 30 31 32 33 35;do ssh 192.168.40.$i 'ln -sv /usr/local/jdk-7u45-linux-x64 /usr/local/java';done

编辑/etc/profile.d/java.sh，在文件中添加如下内容：

JAVA_HOME=/usr/local/java/
PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME PATH

复制变量文件到其他节点：

[root@master ~]# for i in 30 31 32 33 35;do scp /etc/profile.d/java.sh 192.168.40.$i:/etc/profile.d/;done

切换至hadoop用户，并执行如下命令测试jdk环境配置是否就绪。

# su - hadoop
$ java -version
java version "1.7.0_45"
Java(TM) SE Runtime Environment (build 1.7.0_45-b18)
Java HotSpot(TM) 64-Bit Server VM (build 24.45-b08, mixed mode)

1.3 安装Hadoop

Hadoop通常有三种运行模式：本地(独立)模式、伪分布式(Pseudo-distributed)模式和完全分布式(Fully distributed)模式。

本地模式，也是Hadoop的默认模式，此时hadoop使用本地文件系统而非分布式文件系统，而且也不会启动任何hadoop相关进程，map和reduce都作为同一进程的不同部分来执行。因此本地模式下的hadoop仅运行于本机，适合开发调试map reduce应用程序但却避免复杂的后续操作；

伪分布式模式：Hadoop将所有进程运行于同一个主机，但此时Hadoop将使用分布式文件系统，而且各Job也是由Jobtracker服务管理的独立进程；同时伪分布式的hadoop集群只有一个节点，因此HDFS的块复制将限制为单个副本，其中Secondary-master和slave也都将运行于本机。这种模式除了并非真正意义上的分布式以外，其程序执行逻辑完全类似于分布式，因此常用于开发人员测试程序执行；

完全分布式：能真正发挥Hadoop的威力，由于Zookeeper实现高可用依赖于基数法定票数(an odd-numbered quorum),因此，完全分布式环境至少需要三个节点。

本文档采用完全分布式模式安装。

集群中的每个节点均需要安装Hadoop，以根据配置或需要启动相应的进程等，因此，以下安装过程需要在每个节点上分别执行。

# tar xf hadoop-2.6.1.tar.gz -C /usr/local
# for i in 30 31 32 33 35;do ssh 192.168.40.$i 'chown hadoop.hadoop -R /usr/local/hadoop-2.6.1';done
# for i in 30 31 32 33 35;do ssh 192.168.40.$i 'ln -sv /usr/local/hadoop-2.6.1 /usr/local/hadoop';done

Master上执行：

然后编辑/etc/profile，设定HADOOP_HOME环境变量的值为hadoop的解压目录，并让其永久有效。编辑/etc/profile.d/hadoop.sh，添加如下内容：

HADOOP_HOME=/usr/local/hadoop
PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export HADOOP_BASE PATH

切换至hadoop用户，并执行如下命令测试jdk环境配置是否就绪。

$ hadoop version
Hadoop 2.6.1
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r b4d876d837b830405ccdb6af94742f99d49f9c04
Compiled by jenkins on 2015-09-16T21:07Z
Compiled with protoc 2.5.0
From source with checksum ba9a9397365e3ec2f1b3691b52627f
This command was run using /usr/local/hadoop-2.6.1/share/hadoop/common/hadoop-common-2.6.1.jar

1.4 配置Hadoop

集群中的每个节点上Hadoop的配置均相同，Hadoop在启动时会根据配置文件判定当前节点的角色及所需要运行的进程等，因此，下述的配置文件修改需要在每一个节点上运行。

(1) 修改core-site.xml内容如下

[hadoop@master ~]$ cd /usr/local/hadoop/etc/hadoop/
[hadoop@master hadoop]$ vim core-site.xml




    
        fs.default.name
        hdfs://master.dbq168.com:8020
        true
        The name of the default file system. A URI whose scheme and authority determine the FileSystem implimentation.

(2)修改mapred-site.xml文件为如下内容

[hadoop@master ~]$ cd /usr/local/hadoop/etc/hadoop/
[hadoop@master hadoop]$ cp mapred-site.xml.template mapred-site.xml



    
        mapred.job.tracker
        master.dbq168.com:8021
        true
        The host and port that the MapReduce JobTracker runs at.

(3) 修改hdfs-site.xml文件为如下内容

[hadoop@master hadoop]$ cd /usr/local/hadoop/etc/hadoop

    
          dfs.replication
          3
          The actual number of replications can be specified when the file is created.
    
     
        dfs.data.dir
        /hadoop/data
        ture
        The directories where the datanode stores blocks.
    
     
        dfs.name.dir
        /hadoop/name
        ture
        The directories where the namenode stores its persistent matadata.
    
    
        fs.checkpoint.dir
        /hadoop/namesecondary
        ture
        The directories where the secondarynamenode stores checkpoints.

说明：根据此配置，需要事先在各节点上创建/hadoop/，并让hadoop用户对其具有全部权限。也可以不指定最后三个属性，让Hadoop为其使用默认位置。

[root@master ~]# for i in 30 31 32 33 35;do ssh 192.168.40.$i 'mkdir /hadoop/{name,data,namesecondary} -pv; chown -R hadoop.hadoop -R /hadoop';done

(4)指定SecondaryNameNode节点的主机名或IP地址，本示例中为如下内容：

hadoop从2.2.0以后就没有masters文件了，更改需要在hdfs-site.xml里写下本例中的：

    
        dfs.secondary.http.address    
        snn:50090    
        NameNode get the newest fsp_w_picpath via dfs.secondary.http.address

(5)修改/usr/local/hadoop/etc/hadoop/slaves文件，指定各DataNode节点的主机名或IP地址，本示例中只有一个DataNode：

datanode-1
datanode-2
datanode-3

(6)初始化数据节点，在master上执行如下命令

$ hadoop namenode -format

(7)copy文件到两个节点:

[hadoop@master hadoop]$ for i in 30 31 32 33 35;do scp mapred-site.xml core-site.xml slaves yarn-site.xml hdfs-site.xml 192.168.40.$i:/usr/local/hadoop/etc/hadoop/;done

1.5 启动Hadoop

在master节点上执行Hadoop的start-all.sh脚本即可实现启动整个集群。

[hadoop@master ~]$ start-all.sh

其输出内容如下所示：

starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-namenode-master.dbq168.com.out
datanode.dbq168.com: starting datanode, logging to /usr/local/hadoop/logs/hadoop-hadoop-datanode-datanode.dbq168.com.out
snn.dbq168.com: starting secondarynamenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-secondarynamenode-node3.dbq168.com.out
starting jobtracker, logging to /usr/local/hadoop/logs/hadoop-hadoop-jobtracker-master.dbq168.com.out
datanode.dbq168.com: starting tasktracker, logging to /usr/local/hadoop/logs/hadoop-hadoop-tasktracker-datanode.dbq168.com.out

如果要停止Hadoop的各进程，则使用stop-all.sh脚本即可。

不过，在一个较大规模的集群环境中，NameNode节点需要在内在中维护整个名称空间中的文件和块的元数据信息，因此，其有着较大的内在需求；而在运行着众多MapReduce任务的环境中，JobTracker节点会用到大量的内存和CPU资源，因此，此场景中通常需要将NameNode和JobTracker运行在不同的物理主机上，这也意味着HDFS集群的主从节点与MapReduce的主从节点将分属于不同的拓扑。启动HDFS的主从进程则需要在NameNode节点上使用start-dfs.sh脚本，而启动MapReduce的各进程则需要在JobTracker节点上通过start-mapred.sh脚本进行。这两个脚本事实上都是通过hadoop-daemons.sh脚本来完成进程启动的。

1.6 管理JobHistory Server

启动可以JobHistory Server，能够通过Web控制台查看集群计算的任务的信息，执行如下命令：

[hadoop@master logs]$ /usr/local/hadoop/sbin/mr-jobhistory-daemon.sh start historyserver

默认使用19888端口。

通过访问http://master:19888/查看任务执行历史信息。

终止JobHistory Server，执行如下命令：

[hadoop@master logs]$ /usr/local/hadoop/sbin/mr-jobhistory-daemon.sh stop historyserver

1.7 检查

Master:

[hadoop@master hadoop]$ jps
14846 NameNode
15102 ResourceManager
15345 Jps
12678 JobHistoryServer

DataNode：

[hadoop@datanode ~]$ jps
12647 Jps
12401 DataNode
12523 NodeManager

SecondaryNode:

[hadoop@snn ~]$ jps
11980 SecondaryNameNode
12031 Jps

#查看服务器监听端口:
[hadoop@master ~]$ netstat -tunlp |grep java
(Not all processes could be identified, non-owned process info
 will not be shown, you would have to be root to see it all.)
tcp        0      0 192.168.40.30:8020          0.0.0.0:*                   LISTEN      1294/java           
tcp        0      0 0.0.0.0:50070               0.0.0.0:*                   LISTEN      1294/java           
tcp        0      0 ::ffff:192.168.40.30:8088   :::*                        LISTEN      1551/java           
tcp        0      0 ::ffff:192.168.40.30:8030   :::*                        LISTEN      1551/java           
tcp        0      0 ::ffff:192.168.40.30:8031   :::*                        LISTEN      1551/java           
tcp        0      0 ::ffff:192.168.40.30:16000  :::*                        LISTEN      2008/java           
tcp        0      0 ::ffff:192.168.40.30:8032   :::*                        LISTEN      1551/java           
tcp        0      0 ::ffff:192.168.40.30:8033   :::*                        LISTEN      1551/java           
tcp        0      0 :::16010                    :::*                        LISTEN      2008/java

用浏览器打开：

    http://master:8088   #查看、配置集群信息
    http://master:50070  #类似于Hadoop的一个dashboard

1.8 测试Hadoop

Hadoop提供了MapReduce编程框架，其并行处理能力的发挥需要通过开发Map及Reduce程序实现。为了便于系统测试，Hadoop提供了一个单词统计的应用程序算法样例，其位于Hadoop安装目录下${HADOOP_BASE}/share/hadoop/mapreduce/名称类似hadoop-examples-*.jar的文件中。除了单词统计，这个jar文件还包含了分布式运行的grep等功能的实现，这可以通过如下命令查看。

[hadoop@master ~]$ hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.1.jar
An example program must be given as the first argument.
Valid program names are:
aggregatewordcount: An Aggregate based map/reduce program that counts the words in the input files.
aggregatewordhist: An Aggregate based map/reduce program that computes the histogram of the words in the input files.
bbp: A map/reduce program that uses Bailey-Borwein-Plouffe to compute exact digits of Pi.
dbcount: An example job that count the pageview counts from a database.
distbbp: A map/reduce program that uses a BBP-type formula to compute exact bits of Pi.
grep: A map/reduce program that counts the matches of a regex in the input.
join: A job that effects a join over sorted, equally partitioned datasets
multifilewc: A job that counts words from several files.
pentomino: A map/reduce tile laying program to find solutions to pentomino problems.
pi: A map/reduce program that estimates Pi using a quasi-Monte Carlo method.
randomtextwriter: A map/reduce program that writes 10GB of random textual data per node.
randomwriter: A map/reduce program that writes 10GB of random data per node.
secondarysort: An example defining a secondary sort to the reduce.
sort: A map/reduce program that sorts the data written by the random writer.
sudoku: A sudoku solver.
teragen: Generate data for the terasort
terasort: Run the terasort
teravalidate: Checking results of terasort
wordcount: A map/reduce program that counts the words in the input files.
wordmean: A map/reduce program that counts the average length of the words in the input files.
wordmedian: A map/reduce program that counts the median length of the words in the input files.
wordstandarddeviation: A map/reduce program that counts the standard deviation of the length of the words in the input files.

下面我们用wordcount来计算单词显示数量:

在HDFS的wc-in目录中存放两个测试文件，而后运行wordcount程序实现对这两个测试文件中各单词出现次数进行统计的实现过程。首先创建wc-in目录，并复制文件至HDFS文件系统中。

$ hadoop fs -mkdir wc-in
$ hadoop fs -put /etc/rc.d/init.d/functions /etc/profile wc-in

接下来启动分布式任务，其中的WC-OUT为reduce任务执行结果文件所在的目录，此目标要求事先不能存在，否则运行将会报错。

[hadoop@master ~]$ hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.1.jar wordcount wc-in WC-OUT
15/11/05 15:18:59 INFO Configuration.deprecation: session.id is deprecated. Instead, use dfs.metrics.session-id
15/11/05 15:18:59 INFO jvm.JvmMetrics: Initializing JVM Metrics with processName=JobTracker, sessionId=
15/11/05 15:19:00 INFO input.FileInputFormat: Total input paths to process : 2
15/11/05 15:19:00 INFO mapreduce.JobSubmitter: number of splits:2
15/11/05 15:19:01 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_local244789678_0001
15/11/05 15:19:02 INFO mapreduce.Job: The url to track the job: http://localhost:8080/
15/11/05 15:19:02 INFO mapreduce.Job: Running job: job_local244789678_0001
15/11/05 15:19:02 INFO mapred.LocalJobRunner: OutputCommitter set in config null
15/11/05 15:19:02 INFO mapred.LocalJobRunner: OutputCommitter is
org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter
15/11/05 15:19:02 INFO mapred.LocalJobRunner: Waiting for map tasks
15/11/05 15:19:02 INFO mapred.LocalJobRunner: Starting task: attempt_local244789678_0001_m_000000_0
15/11/05 15:19:02 INFO mapred.Task:  Using ResourceCalculatorProcessTree : [ ]
15/11/05 15:19:02 INFO mapred.MapTask: Processing split: hdfs://master.dbq168.com:8020/user/hadoop/wc-in/functions:0+18586
15/11/05 15:19:03 INFO mapreduce.Job: Job job_local244789678_0001 running in uber mode : false
15/11/05 15:19:03 INFO mapreduce.Job:  map 0% reduce 0%
15/11/05 15:19:03 INFO mapred.MapTask: (EQUATOR) 0 kvi 26214396(104857584)
15/11/05 15:19:03 INFO mapred.MapTask: mapreduce.task.io.sort.mb: 100
15/11/05 15:19:03 INFO mapred.MapTask: soft limit at 83886080
15/11/05 15:19:03 INFO mapred.MapTask: bufstart = 0; bufvoid = 104857600
15/11/05 15:19:03 INFO mapred.MapTask: kvstart = 26214396; length = 6553600
15/11/05 15:19:03 INFO mapred.MapTask: Map output collector class = org.apache.hadoop.mapred.MapTask$MapOutputBuffer
15/11/05 15:19:03 INFO mapred.LocalJobRunner: 
15/11/05 15:19:03 INFO mapred.MapTask: Starting flush of map output
15/11/05 15:19:03 INFO mapred.MapTask: Spilling map output
15/11/05 15:19:03 INFO mapred.MapTask: bufstart = 0; bufend = 27567; bufvoid = 104857600
15/11/05 15:19:03 INFO mapred.MapTask: kvstart = 26214396(104857584); kvend = 26203416(104813664); length = 10981/6553600
15/11/05 15:19:04 INFO mapred.MapTask: Finished spill 0
15/11/05 15:19:04 INFO mapred.Task: Task:attempt_local244789678_0001_m_000000_0 is done. And is in the process of committing
15/11/05 15:19:04 INFO mapred.LocalJobRunner: map
15/11/05 15:19:04 INFO mapred.Task: Task 'attempt_local244789678_0001_m_000000_0' done.
15/11/05 15:19:04 INFO mapred.LocalJobRunner: Finishing task: attempt_local244789678_0001_m_000000_0
15/11/05 15:19:04 INFO mapred.LocalJobRunner: Starting task: attempt_local244789678_0001_m_000001_0
15/11/05 15:19:04 INFO mapred.Task:  Using ResourceCalculatorProcessTree : [ ]
15/11/05 15:19:04 INFO mapred.MapTask: Processing split: hdfs://master.dbq168.com:8020/user/hadoop/wc-in/profile:0+1796
15/11/05 15:19:04 INFO mapred.MapTask: (EQUATOR) 0 kvi 26214396(104857584)
15/11/05 15:19:04 INFO mapred.MapTask: mapreduce.task.io.sort.mb: 100
15/11/05 15:19:04 INFO mapred.MapTask: soft limit at 83886080
15/11/05 15:19:04 INFO mapred.MapTask: bufstart = 0; bufvoid = 104857600
15/11/05 15:19:03 INFO mapred.MapTask: Map output collector class = org.apache.hadoop.mapred.MapTask$MapOutputBuffer
15/11/05 15:19:03 INFO mapred.LocalJobRunner: 
15/11/05 15:19:03 INFO mapred.MapTask: Starting flush of map output
15/11/05 15:19:03 INFO mapred.MapTask: Spilling map output
15/11/05 15:19:03 INFO mapred.MapTask: bufstart = 0; bufend = 27567; bufvoid = 104857600
15/11/05 15:19:03 INFO mapred.MapTask: kvstart = 26214396(104857584); kvend = 26203416(104813664); length = 10981/6553600
15/11/05 15:19:04 INFO mapred.MapTask: Finished spill 0
15/11/05 15:19:04 INFO mapred.Task: Task:attempt_local244789678_0001_m_000000_0 is done. And is in the process of committing
15/11/05 15:19:04 INFO mapred.LocalJobRunner: map
15/11/05 15:19:04 INFO mapred.Task: Task 'attempt_local244789678_0001_m_000000_0' done.
15/11/05 15:19:04 INFO mapred.LocalJobRunner: Finishing task: attempt_local244789678_0001_m_000000_0
15/11/05 15:19:04 INFO mapred.LocalJobRunner: Starting task: attempt_local244789678_0001_m_000001_0
15/11/05 15:19:04 INFO mapred.Task:  Using ResourceCalculatorProcessTree : [ ]
15/11/05 15:19:04 INFO mapred.MapTask: Processing split: hdfs://master.dbq168.com:8020/user/hadoop/wc-in/profile:0+1796
15/11/05 15:19:04 INFO mapred.MapTask: (EQUATOR) 0 kvi 26214396(104857584)
15/11/05 15:19:04 INFO mapred.MapTask: mapreduce.task.io.sort.mb: 100
15/11/05 15:19:04 INFO mapred.MapTask: soft limit at 83886080
15/11/05 15:19:04 INFO mapred.MapTask: bufstart = 0; bufvoid = 104857600
15/11/05 15:19:04 INFO mapred.MapTask: kvstart = 26214396; length = 6553600
15/11/05 15:19:04 INFO mapred.MapTask: Map output collector class = org.apache.hadoop.mapred.MapTask$MapOutputBuffer
15/11/05 15:19:04 INFO mapred.LocalJobRunner: 
15/11/05 15:19:04 INFO mapred.MapTask: Starting flush of map output
15/11/05 15:19:04 INFO mapred.MapTask: Spilling map output
15/11/05 15:19:04 INFO mapred.MapTask: bufstart = 0; bufend = 2573; bufvoid = 104857600
15/11/05 15:19:04 INFO mapred.MapTask: kvstart = 26214396(104857584); kvend = 26213368(104853472); length = 1029/6553600
15/11/05 15:19:04 INFO mapreduce.Job:  map 50% reduce 0%
15/11/05 15:19:04 INFO mapred.MapTask: Finished spill 0
15/11/05 15:19:04 INFO mapred.Task: Task:attempt_local244789678_0001_m_000001_0 is done. And is in the process of committing
15/11/05 15:19:04 INFO mapred.LocalJobRunner: map
15/11/05 15:19:04 INFO mapred.Task: Task 'attempt_local244789678_0001_m_000001_0' done.
15/11/05 15:19:04 INFO mapred.LocalJobRunner: Finishing task: attempt_local244789678_0001_m_000001_0
15/11/05 15:19:04 INFO mapred.LocalJobRunner: map task executor complete.
15/11/05 15:19:04 INFO mapred.LocalJobRunner: Waiting for reduce tasks
15/11/05 15:19:04 INFO mapred.LocalJobRunner: Starting task: attempt_local244789678_0001_r_000000_0
15/11/05 15:19:04 INFO mapred.Task:  Using ResourceCalculatorProcessTree : [ ]
15/11/05 15:19:04 INFO mapred.ReduceTask: Using ShuffleConsumerPlugin: org.apache.hadoop.mapreduce.task.reduce.Shuffle@775b8754
15/11/05 15:19:04 INFO reduce.MergeManagerImpl: MergerManager: memoryLimit=363285696, maxSingleShuffleLimit=90821424, mergeThreshold=239768576, ioSortFactor=10, memToMemMergeOutputsThreshold=10
15/11/05 15:19:04 INFO reduce.EventFetcher: attempt_local244789678_0001_r_000000_0 Thread started: EventFetcher for fetching Map Completion Events
15/11/05 15:19:04 INFO reduce.LocalFetcher: localfetcher#1 about to shuffle output of map attempt_local244789678_0001_m_000001_0 decomp: 2054 len: 2058 to MEMORY
15/11/05 15:19:04 INFO reduce.InMemoryMapOutput: Read 2054 bytes from map-output for attempt_local244789678_0001_m_000001_0

命令的执行结果按上面命令的指定存储于WC-OUT目录中：

[hadoop@master ~]$ hadoop fs -ls WC-OUT
Found 2 items
-rw-r--r--   2 hadoop supergroup          0 2015-11-05 15:19 WC-OUT/_SUCCESS
-rw-r--r--   2 hadoop supergroup      10748 2015-11-05 15:19 WC-OUT/part-r-00000

其中的part-r-00000正是其执行结果的输出文件，使用如下命令查看其执行结果。

[hadoop@master ~]$ hadoop fs -cat WC-OUT/part-r-00000
!       3
!=      15
"       7
""      1
"",     1
"$#"    4
"$-"    1
"$1"    21
"$1")"  2
"$2"    5
"$3"    1
"$4"    1
"$?"    2
"$@"    2
"$BOOTUP"       17
"$CONSOLETYPE"  1
"$EUID" 2
"$HISTCONTROL"  1
"$RC"   4
"$STRING        1
"$answer"       4
"$base  1
"$base" 1
"$corelimit     2
"$count"        1
"$dst"  4
"$dst:  1
"$file" 3
"$force"        1
"$fs_spec"      1
"$gotbase"      1
"$have_random"  1
"$i"    3
"$key"  6
"$key"; 3
"$killlevel"    3
"$line" 2
"$makeswap"     2
"$mdir" 4
"$mke2fs"       1
"$mode" 1
"$mount_point"  1
"$mount_point") 1
......

2. Hive 部属：

2.1 环境介绍:

    Hive：1.2.1
    Mysql-connector-jar: Mysql-connector-java-5.1.37
    Hadoop: 2.6.1 
    MySQL: 5.6.36 64

2.1.1 Hive介绍:

Hive, 适用于数据仓库类的应用程序，但其并不是一个全状态的数据库，这主要受限于Hadoop自身设计的缺陷。其最大的缺陷在于Hive不支持行级别的更新、插入和删除操作。其次，Hadoop是面向批处理的系统，其MapReduce job的启动有着很大的开销，因此Hive查询有着很高的延迟，通常在传统数据上可以几秒钟完成的查询操作在Hive需要更长的时间，即使数据集非常小也无法避免。再次，Hive无法支持OLTP(Online Transaction Processing)的关键特性，而是接近于OLAP(Online Analytic Processing)，然而在Online能力方面的表现仍然与期望有着一定的差距。故此，Hive最适用于数据仓库类的应用场景，即通过数据挖掘完成数据分析、生成报告并支持智能决策等。

鉴于Hive本身的限制，如果期望在大数据集上实现OLTP式的特性，就得认真考虑NoSQL数据库了，比如HBase、Cassandra和DynamoDB等。

2.2 Hive 运行模式

与 Hadoop 类似，Hive 也有 3 种运行模式：

2.2.1 内嵌模式

将元数据保存在本地内嵌的 Derby 数据库中，这是使用 Hive 最简单的方式。但是这种方式缺点也比较明显，因为一个内嵌的 Derby 数据库每次只能访问一个数据文件，这也就意味着它不支持多会话连接。

2.2.2 本地模式

这种模式是将元数据保存在本地独立的数据库中（一般是 MySQL），这用就可以支持多会话和多用户连接了。

2.2.3 远程模式

此模式应用于 Hive 客户端较多的情况。把 MySQL 数据库独立出来，将元数据保存在远端独立的 MySQL 服务中，避免了在每个客户端都安装 MySQL 服务从而造成冗余浪费的情况。

2.3 安装 Hive

Hive 是基于 Hadoop 文件系统之上的数据仓库,由Facebook提供。因此，安装Hive之前必须确保 Hadoop 已经成功安装。

2.3.1下载完成后解压：

[root@master src]# wget http://119.255.9.53/mirror.bit.edu.cn/apache/hive/stable/apache-hive-1.2.1-bin.tar.gz

[root@master src]# tar xf apache-hive-1.2.1-bin.tar.gz  -C /usr/local/

# 修改属主属组，hadoop用户已在hadoop集群中添加

[root@master src]# chown hadoop.hadoop -R apache-hive-1.2.1-bin/

# 创建软链接：

[root@master src]# ln -sv apache-hive-1.2.1-bin hive

2.3.2 配置系统环境变量

# vim /etc/profile.d/hive.sh                                  
HIVE_HOME=/usr/local/hive
PATH=$PATH:$HIVE_HOME/bin
export HIVE_HOME

使之立即生效

# .  /etc/profile.d/hive.sh

2.3.3 修改hive配置脚本

# vim /usr/local/hive/bin/hive-config.sh        
export JAVA_HOME=/usr/local/java
export HIVE_HOME=/usr/local/hive
export HADOOP_HOME=/usr/local/hadoop

2.3.4 创建必要目录

前面我们看到 hive-site.xml 文件中有两个重要的路径，切换到 hadoop 用户下查看 HDFS 是否有这些路径：

[hadoop@master conf]$ hadoop fs -ls /
Found 4 items
drwxr-xr-x   - hadoop supergroup          0 2015-11-04 06:38 /hbase
drwxr-xr-x   - hadoop supergroup          0 2015-11-05 09:38 /hive_data
drwx-wx-wx   - hadoop supergroup          0 2015-10-28 17:04 /tmp
drwxr-xr-x   - hadoop supergroup          0 2015-11-02 14:29 /user

没有发现上面提到的路径，需要自己新建这些目录，并且给它们赋予用户写（W）权限。

$ hadoop dfs -mkdir /user/hive/warehouse
$ hadoop dfs -mkdir /tmp/hive
$ hadoop dfs -chmod 777 /user/hive/warehouse
$ hadoop dfs -chmod 777 /tmp/hive

检查是否新建成功 hadoop dfs -ls / 以及 hadoop dfs -ls /user/hive/ ：

[hadoop@master conf]$ hadoop fs -ls /user/hive/
Found 1 items
drwxrwxrwx   - hadoop supergroup          0 2015-11-05 15:57 /user/hive/warehouse

2.4 配置远程模式的数据库MySQL

2.4.1 安装 MySQL：

此处使用的是通用二进制5.6.26版本，mysql安装在/usr/local/mysql，过程略...

2.4.2 创建数据库并授权:

    mysql> CREATE DATABASE `hive` /*!40100 DEFAULT CHARACTER SET latin1 */;
    mysql> GRANT ALL PRIVILEGES ON `hive`.* TO 'hive'@'192.168.40.%' IDENTIFIED BY 'hive';
    mysql> FLUSH PRIVILEGES;

2.4.3 下载jdbc驱动：

下载MySQL 的 JDBC 驱动包。这里使用 mysql-connector-java-5.1.37-bin.jar，将其复制到 $HIVE_HOME/lib 目录下:

下载地址: http://dev.mysql.com/downloads/connector/j/

$ tar xf mysql-connector-java-5.1.37.tar.gz && cd mysql-connector-java-5.1.37
$ cp mysql-connector-java-5.1.37-bin.jar /usr/local/hive/lib/

2.5 修改Hive配置文件

[root@master conf]# su - hadoop
[hadoop@master ~]$ cd /usr/local/hive/conf/
[hadoop@master conf]$ cp hive-site.xml.template hive-site.xml
[hadoop@master conf]$ vim hive-site.xml
[hadoop@master conf]$ cp hive-site.xml.template hive-site.xml
 
    javax.jdo.option.ConnectionPassword
    hive
    password to use against metastore database
  
  
    javax.jdo.option.Multithreaded
    true
    Set this to true if multiple threads access metastore through JDO concurrently.
  
   
    javax.jdo.option.ConnectionURL
    jdbc:mysql://mysql:3306/hive
    JDBC connect string for a JDBC metastore
  
  
    javax.jdo.option.ConnectionDriverName
    com.mysql.jdbc.Driver
    Driver class name for a JDBC metastore
  
  
    javax.jdo.option.ConnectionUserName
    hive     
    Username to use against metastore database

2.6 删除多余文件，启动Hive：

Hive 中的 Jline jar 包和 Hadoop 中的 Jline 冲突了，在路径：$HADOOP_HOME/share/hadoop/yarn/lib/jline-0.9.94.jar 将其删除，不然启动Hive会报错。

[hadoop@master lib]$ mv /usr/local/hadoop/share/hadoop/yarn/lib/jline-0.9.94.jar ~/

2.6.2 启动hive

[hadoop@master conf]$ hive
Logging initialized using configuration in jar:file:/usr/local/apache-hive-1.2.1-bin/lib/hive-common-1.2.1.jar!/hive-log4j.properties
hive> show tables;
OK
gold_log
gold_log_tj1
person
student
Time taken: 2.485 seconds, Fetched: 4 row(s)

3. Hbase安装

3.0.1 环境介绍：

    HBase：1.1.2 
    Zookeeper：3.4.6 
    http://hbase.apache.org/
    http://zookeeper.apache.org/

3.1 解压包设置权限:(以下操作Master上执行)

# tar xf hbase-1.1.2-bin.tar.gz -C /usr/local/
# cd /usr/local
# chown -R hadoop.hadoop hbase-1.1.2/
# ln -sv hbase-1.1.2 hbase

3.2 添加环境变量：

# vim /etc/profile.d/hbase.sh
export HBASE_HOME=/usr/local/hbase
export PATH=$PATH:$HBASE_HOME/bin

3.3 完全分布式模式配置:

主要的修改的配置文件-- hbase-site.xml, regionservers, 和 hbase-env.sh -- 可以在 conf目录

# cd /usr/local/hbase
3.3.1 修改hbase-site.xml

要想运行完全分布式模式，你要进行如下配置，先在 hbase-site.xml, 加一个属性 hbase.cluster.distributed 设置为 true 然后把 hbase.rootdir 设置为HDFS的NameNode的位置。例如，你的namenode运行在master.dbq168.com，端口是8020 你期望的目录是 /hbase,使用如下的配置:


  
    hbase.rootdir
    hdfs://master:8020/hbase
    The directory shared by RegionServers.
    
  
  
    hbase.cluster.distributed
    true
    The mode the cluster will be in. Possible values are
      false: standalone and pseudo-distributed setups with managed Zookeeper
      true: fully-distributed with unmanaged Zookeeper Quorum (see hbase-env.sh)

3.3.2 修改regionservers

完全分布式模式的还需要修改conf/regionservers

$ vim regionservers
datanode-1
datanode-2
datanode-3

3.4 ZooKeeper

一个分布式运行的Hbase依赖一个zookeeper集群。所有的节点和客户端都必须能够访问zookeeper。默认的情况下Hbase会管理一个zookeep集群。这个集群会随着Hbase的启动而启动。当然，你也可以自己管理一个zookeeper集群，但需要配置Hbase。你需要修改conf/hbase-env.sh里面的HBASE_MANAGES_ZK 来切换。这个值默认是true的，作用是让Hbase启动的时候同时也启动zookeeper.

当Hbase管理zookeeper的时候，你可以通过修改zoo.cfg来配置zookeeper，一个更加简单的方法是在 conf/hbase-site.xml里面修改zookeeper的配置。Zookeep的配置是作为property写在 hbase-site.xml里面的。option的名字是 hbase.zookeeper.property. 打个比方， clientPort 配置在xml里面的名字是 hbase.zookeeper.property.clientPort. 所有的默认值都是Hbase决定的，包括zookeeper, “HBase 默认配置”. 可以查找 hbase.zookeeper.property 前缀，找到关于zookeeper的配置。

对于zookeepr的配置，你至少要在 hbase-site.xml中列出zookeepr的ensemble servers，具体的字段是 hbase.zookeeper.quorum. 该这个字段的默认值是 localhost，这个值对于分布式应用显然是不可以的. (远程连接无法使用).

你运行一个zookeeper也是可以的，但是在生产环境中，你最好部署3，5，7个节点。部署的越多，可靠性就越高，当然只能部署奇数个，偶数个是不可以的。你需要给每个zookeeper 1G左右的内存，如果可能的话，最好有独立的磁盘。 (独立磁盘可以确保zookeeper是高性能的。).如果你的集群负载很重，不要把Zookeeper和RegionServer运行在同一台机器上面。就像DataNodes 和 TaskTrackers一样

打个比方，Hbase管理着的ZooKeeper集群在节点 rs{1,2,3,4,5}.dbq168.com, 监听2222 端口(默认是2181)，并确保conf/hbase-env.sh文件中 HBASE_MANAGE_ZK的值是 true ，再编辑 conf/hbase-site.xml 设置 hbase.zookeeper.property.clientPort 和 hbase.zookeeper.quorum。你还可以设置 hbase.zookeeper.property.dataDir属性来把ZooKeeper保存数据的目录地址改掉。默认值是 /tmp ，这里在重启的时候会被操作系统删掉，可以把它修改到 /hadoop/zookeeper.

3.4.1 配置zookeeper

$ vim hbase-site.xml 
    
      hbase.zookeeper.property.clientPort
      2222
      Property from ZooKeeper's config zoo.cfg.The port at which the clients will connect.
                                                                                                                                          
    
      hbase.zookeeper.quorum
      datanode-1,datanode-2,datanode-3
      Comma separated list of servers in the ZooKeeper Quorum.                                                                          
      For example, "host1.mydomain.com,host2.mydomain.com,host3.mydomain.com".
      By default this is set to localhost for local and pseudo-distributed modes
      of operation. For a fully-distributed setup, this should be set to a full
      list of ZooKeeper quorum servers. If HBASE_MANAGES_ZK is set in hbase-env.sh
      this is the list of servers which we will start/stop ZooKeeper on.                                                                             
      
    
    
      hbase.zookeeper.property.dataDir
      /hadoop/zookeeper
      Property from ZooKeeper's config zoo.cfg.
      The directory where the snapshot is stored.

3.4.2 复制包到其他节点:(包括secondarynode、datanode1-3)

[root@master src]# for i in 31 32 33 35;do scp hbase-1.1.2-bin.tar.gz zookeeper-3.4.6.tar.gz 192.168.40.$i:/usr/local/src/;done

3.4.3 datanode三个节点的操作:

# cd /usr/local/src
# tar xf hbase-1.1.2-bin.tar.gz -C ..
# chown hadoop.hadoop -R hbase-1.1.2/
# ln -sv hbase-1.1.2 hbase
# tar xf zookeeper-3.4.6.tar.gz -C ..
# chown hadoop.hadoop zookeeper-3.4.6/ -R
# ln -sv zookeeper-3.4.6/ zookeeper
[root@datanode-1 ~]$ cd /usr/local/zookeeper/conf/ 
[root@datanode-1 ~]$ cp zoo_sample.cfg zoo.cfg
[root@datanode-1 ~]$ vim zoo.cfg

tickTime=2000
initLimit=10
syncLimit=5
dataDir=/hadoop/zookeeper
clientPort=2222
[root@datanode-1 ~]# mkdir /hadoop/zookeeper
[root@datanode-1 ~]# chown hadoop.hadoop -R /hadoop/zookeeper/

以上操作在每个datanode节点上都执行，其余两个节点不再演示。

3.4.4 复制Hbase配置文件到Datanode各节点：

[hadoop@master conf]$ cd /usr/local/hbase/conf
[hadoop@master conf]$ for i in 31 32 33 35;do scp -p hbase-env.sh hbase-site.xml regionservers 192.168.40.$i:/usr/local/hbase/conf/;done

3.5 启动Hbase：

[hadoop@master conf]$ start-hbase.sh 
datanode-2: starting zookeeper, logging to /usr/local/hbase/bin/../logs/hbase-hadoop-zookeeper-datanode-2.cnfol.com.out
datanode-3: starting zookeeper, logging to /usr/local/hbase/bin/../logs/hbase-hadoop-zookeeper-datanode-3.cnfol.com.out
datanode-1: starting zookeeper, logging to /usr/local/hbase/bin/../logs/hbase-hadoop-zookeeper-datanode-1.cnfol.com.out
starting master, logging to /usr/local/hbase/logs/hbase-hadoop-master-master.cnfol.com.out
datanode-3: starting regionserver, logging to /usr/local/hbase/bin/../logs/hbase-hadoop-regionserver-datanode-3.cnfol.com.out
datanode-2: starting regionserver, logging to /usr/local/hbase/bin/../logs/hbase-hadoop-regionserver-datanode-2.cnfol.com.out
datanode-1: starting regionserver, logging to /usr/local/hbase/bin/../logs/hbase-hadoop-regionserver-datanode-1.cnfol.com.out

3.5.1 检验启动情况：

[hadoop@master conf]$ jps
3750 Jps
32515 NameNode
301 ResourceManager
3485 HMaster

[hadoop@datanode-1 ~]$ jps
3575 DataNode
3676 NodeManager
5324 Jps
5059 HQuorumPeer
5143 HRegionServer
[hadoop@datanode-2 ~]$ jps
4512 Jps
3801 NodeManager
4311 HRegionServer
4242 HQuorumPeer
3700 DataNode
[hadoop@datanode-3 ~]$ jps
2128 HRegionServer
2054 HQuorumPeer
1523 DataNode
1622 NodeManager
2289 Jps

3.5.2 查看master上监听的端口：

[hadoop@master conf]$ netstat -tunlp
(Not all processes could be identified, non-owned process info
 will not be shown, you would have to be root to see it all.)
Active Internet connections (only servers)
Proto Recv-Q Send-Q Local Address               Foreign Address             State       PID/Program name   
tcp        0      0 192.168.40.30:8020          0.0.0.0:*                   LISTEN      32515/java          
tcp        0      0 0.0.0.0:50070               0.0.0.0:*                   LISTEN      32515/java          
tcp        0      0 0.0.0.0:22                  0.0.0.0:*                   LISTEN      -                   
tcp        0      0 127.0.0.1:25                0.0.0.0:*                   LISTEN      -                   
tcp        0      0 :::22                       :::*                        LISTEN      -                   
tcp        0      0 ::ffff:192.168.40.30:8088   :::*                        LISTEN      301/java            
tcp        0      0 ::1:25                      :::*                        LISTEN      -                   
tcp        0      0 ::ffff:192.168.40.30:8030   :::*                        LISTEN      301/java            
tcp        0      0 ::ffff:192.168.40.30:8031   :::*                        LISTEN      301/java            
tcp        0      0 ::ffff:192.168.40.30:16000  :::*   
   LISTEN      3485/java           
tcp        0      0 ::ffff:192.168.40.30:8032   :::*                        LISTEN      301/java            
tcp        0      0 ::ffff:192.168.40.30:8033   :::*                        LISTEN      301/java            
tcp        0      0 :::16010                    :::*                        LISTEN      3485/java

3.5.3 通过浏览器访问，查看HBase情况:

http://192.168.40.30:16010/master-status

最后是几张截图：

你可能感兴趣的:(hadoop,hbase,hive,云计算)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
#千锋逆战班郭燕学习的一天开启郭千岁呗
在千锋"逆战"学习云计算第17天加油努力会有好结果复习昨天知识中国加油！武汉加油！千峰加油!我自己加油！
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
信息系统安全相关概念(上) YuanDaima2048 课程笔记基础概念安全信息安全笔记
文章总览：YuanDaiMa2048博客文章总览下篇:信息系统安全相关概念(下)信息系统安全相关概念[上]信息系统概述信息系统信息系统架构信息系统发展趋势：信息系统日趋大型化、复杂化信息系统面临的安全威胁信息系统安全架构设计--以云计算为例信息系统安全需求及安全策略自主访问控制策略DAC强制访问控制策略MAC信息系统概述信息系统用于收集、存储和处理数据以及传递信息、知识和数字产品的一组集成组件。几
【2023年】云计算金砖牛刀小试6 geekgold 云计算服务器网络 kubernetes 容器
第一套【任务1】私有云服务搭建[10分]【题目1】基础环境配置[0.5分]使用提供的用户名密码，登录提供的OpenStack私有云平台，在当前租户下，使用CentOS7.9镜像，创建两台云主机，云主机类型使用4vCPU/12G/100G_50G类型。当前租户下默认存在一张网卡，自行创建第二张网卡并连接至controller和compute节点（第二张网卡的网段为10.10.X.0/24，X为工位号
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
raksmart洛杉矶云服务器全面解析 rak部落服务器 raksmart洛杉矶云服务器
RAKsmart洛杉矶云服务器是一种高性能的云计算解决方案，专为满足不同业务需求而设计。以下是对RAKsmart洛杉矶云服务器的具体介绍，rak小编为您整理发布raksmart洛杉矶云服务器全面解析。1.线路选择：RAKsmart洛杉矶云服务器提供多种网络线路选项，包括大陆优化线路和CN2ONLY线路。这些线路能够提供更稳定和快速的连接速度，特别适合需要高效数据传输和低延迟的业务环境。2.性能表现
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
Docker学习十一：Kubernetes概述爱打羽球的程序猿 Docker学习系列 docker kubernetes 学习
一、Kubernetes简介2006年，Google提出了云计算的概念，当时的云计算领域还是以虚拟机为代表的云平台。2013年，Docker横空出世，Docker提出了镜像、仓库等核心概念，规范了服务的交付标准，使得复杂服务的落地变得更加简单，之后Docker又定义了OCI标准，Docker在容器领域称为事实的标准。但是，Docker诞生只是帮助定义了开发和交付标准，如果想要在生产环境中大批量的使
Presto【基础 01】简介+架构+数据源+数据模型 2401_84254343 程序员架构
一个Catalog包含Schema和Connector。例如，配置JMX的Catalog，通过JXMConnector访问JXM信息。当执行一条SQL语句时，可以同时运行在多个Catalog。Presto处理table时，是通过表的完全限定（fully-qualified）名来找到Catalog。例如，一个表的权限定名是hive.test_data.test，则test是表名，test_data是
为用户都喜欢购买阿里云服务器？阿里云服务器有何优势？阿里云最新优惠和活动汇总
随着企业数字化转型的加速和云计算技术的日益成熟，云服务器已成为企业搭建应用、存储和处理数据的重要基础设施。在众多云服务提供商中，阿里云以其卓越的性能、丰富的产品线、出色的技术支持和强大的生态系统，赢得了众多用户的青睐。那么，阿里云服务器到底有哪些优势？为何如此多的用户选择使用阿里云服务器呢？阿里云服务器优势图.jpg阿里云服务器的优势一、技术领先，性能卓越阿里云作为国内最早涉足云计算领域的企业之一
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
Apache HBase基础（基本概述，物理架构，逻辑架构，数据管理，架构特点，HBase Shell） May--J--Oldhu HBase HBase shell hbase物理架构 hbase逻辑架构 hbase
NoSQL综述及ApacheHBase基础一.HBase1.HBase概述2.HBase发展历史3.HBase应用场景3.1增量数据-时间序列数据3.2信息交换-消息传递3.3内容服务-Web后端应用程序3.4HBase应用场景示例4.ApacheHBase生态圈5.HBase物理架构5.1HMaster5.2RegionServer5.3Region和Table6.HBase逻辑架构-Row7.
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
等保测评中的关键技术挑战与应对策略亿林数据网络安全等保测评
在信息安全领域，等保测评（信息安全等级保护测评）作为确保信息系统安全性的重要手段，其过程中不可避免地会遇到一系列技术挑战。这些挑战不仅考验着企业的技术实力，也对其安全管理水平提出了更高要求。本文将深入探讨等保测评中的关键技术挑战，并提出相应的应对策略。一、等保测评中的关键技术挑战1.复杂系统架构的评估难度随着信息技术的快速发展，企业信息系统的架构日益复杂，包括分布式系统、微服务架构、云计算环境等。
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
边缘计算在现代数据中心的应用 666IDCaaa 边缘计算人工智能
当今数字化时代，数据中心扮演着至关重要的角色，而边缘计算的出现为现代数据中心带来了新的机遇和挑战。一、边缘计算的概念与特点边缘计算是一种将计算和数据存储靠近数据源或用户的分布式计算模式。与传统的集中式云计算相比，边缘计算具有以下特点：低延迟：由于数据处理在靠近数据源的地方进行，减少了数据传输的距离和时间，从而实现了更低的延迟。这对于实时性要求高的应用，如工业自动化、自动驾驶、虚拟现实等至关重要。高
HBase（一）——HBase介绍 weixin_30595035 大数据数据库数据结构与算法
HBase介绍1、关系型数据库与非关系型数据库（1）关系型数据库关系型数据库最典型的数据机构是表，由二维表及其之间的联系所组成的一个数据组织优点：1、易于维护：都是使用表结构，格式一致2、使用方便：SQL语言通用，可用于复杂查询3、复杂操作：支持SQL，可用于一个表以及多个表之间非常复杂的查询缺点：1、读写性能比较差，尤其是海量数据的高效率读写2、固定的表结构，灵活度稍欠3、高并发读写需求，传统关
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
新一代网络研发利器——开物™，让用户每一行代码都贡献在核心创新中科驭数网络云计算大数据人工智能
随着云计算、人工智能、大数据的快速发展，现有的IT系统越来越复杂，传统网络技术难以满足新的业务需求，DPU技术开始崭露头角，越来越多的企业与研究机构认识到高性能网络处理技术带来的巨大价值，并积极开展创新与实践，从而实现更匹配的功能和更高的系统性能。但是，从零开始进行网络系统的搭建，开发人员需要掌握各类创新技术无关的、最底层的技术架构原理，如硬件设计逻辑、API接口、底层IP、硬件驱动等一系列复杂的
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
Ubuntu系统入门指南：常用命令详解像风一样自由2020 ubuntu ubuntu linux 运维
Ubuntu系统入门指南：常用命令详解引言Ubuntu是一个基于Linux内核的开源操作系统，由Canonical公司和社区共同开发和维护。它以易用性、稳定性和广泛的软件支持而著称，广泛应用于个人电脑、服务器和云计算环境。对于新手来说，掌握Ubuntu的基本命令行操作可以大大提高工作效率和系统管理能力。Ubuntu通常每六个月发布一个新版本，每两年会推出一个长期支持（LTS）版本，提供五年的安全更
hive血缘关系之输入表与目标表的解析 zxfBdd hive 大数据治理大数据
接了一个新需求：需要做数据仓库的血缘关系。正所谓兵来将挡水来土掩，那咱就动手吧。血缘关系是数据治理的一块，其实有专门的第三方数据治理框架，但考虑到目前的线上环境已经趋于稳定，引入新的框架无疑是劳民伤财，伤筋动骨，所以就想以最小的代价把这个事情给做了。目前我们考虑做的血缘关系呢只是做输入表和输出表，最后会形成一张表与表之间的链路图。这个东西的好处就是有助于仓库人员梳理业务，后面可能还会做字段之间的血
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http