挡路人

hadoop集群搭建教程

hadoop的配置参看github https://github.com/zhaikaishun/hadoop_cluster
作者: 翟开顺

关键字:
集群环境介绍，Hadoop简介，网络配置，所需软件
SSH免密码登陆配置，java环境安装，卸载原有的JDK，安装jdk17，配置java环境变量，验证是否成功，Hadoop集群安装，安装Hadoop，验证hadoop
hadoop错误分析

集群环境介绍

1. Hadoop简介

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统（HDFS，Hadoop Distributed Filesystem）和MapReduce（Google MapReduce的开源实现）为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。
　　对于Hadoop的集群来讲，可以分成两大类角色：Master和Salve。一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器，管理文件系统的命名空间和客户端对文件系统的访问操作；集群中的DataNode管理存储的数据。MapReduce框架是由一个单独运行在主节点上的JobTracker和运行在每个集群从节点的TaskTracker共同组成的。主节点负责调度构成一个作业的所有任务，这些任务分布在不同的从节点上。主节点监控它们的执行情况，并且重新执行之前的失败任务；从节点仅负责由主节点指派的任务。当一个Job被提交时，JobTracker接收到提交作业和配置信息之后，就会将配置信息等分发给从节点，同时调度任务并监控TaskTracker的执行。
　　从上面的介绍可以看出，HDFS和MapReduce共同组成了Hadoop分布式系统体系结构的核心。HDFS在集群上实现分布式文件系统，MapReduce在集群上实现了分布式计算和任务处理。HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持，MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作，并收集结果，二者相互作用，完成了Hadoop分布式集群的主要任务。

2. 环境说明

本教程为了简单起见只设置两个节点： master为主节点，node01为数据节点，节点之间局域网连接，相互可以ping通，节点IP分布如下

机器名称	IP地址
master	192.168.200.128
node01	192.168.200.129

两个节点都是centos6.5系统，都有同一个用户，用户名叫Hadoop

给hadoop用户赋予root权限

切换到root用户赋予etc/sudoers777权限，然后打开

[root@kaishun etc]# chmod 777 /etc/sudoers
[root@kaishun etc]# vim /etc/sudoers

找到Allows people in group wheel to run all commands，把下面%wheel的#给去掉,在Allow root to run any commands anywhere下，加上hadoop ALL=(ALL) ALL，然后保存

## Allow root to run any commands anywhere
root    ALL=(ALL)       ALL     
hadoop  ALL=(ALL)       ALL

## Allows people in group wheel to run all commands
%wheel        ALL=(ALL)       ALL

把sudoers的权限改回来成440

[root@kaishun etc]# chmod 440 /etc/sudoers

测试是否成功
在普通用户下

[hadoop@kaishun ~]$ sudo mkdir test
输入密码如果可以成功创建文件夹，说明成功

网络配置

1. 查看当前机器名
在root用户下输入，显示

[root@kaishun hadoop]# hostname
显示 kaishun， 与我们规划的master不符合

2. 在root用户下修改当前机器名称

[root@kaishun hadoop]# vim /etc/sysconfig/network

修改HOSTNAME 为 master

HOSTNAME=master

同理，192.168.200.129这台机器修改成node01
修改之后，可能不会立即生效，我是重启后才生效的
3. 在root用户下配置hosts文件, 每台机器都需要配置（必须）

[root@master hadoop]# vim /etc/hosts

添加

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.200.128 master
192.168.200.129 node01

测试是否成功，如果能相互使用ping node01 ping master能成功，说明hosts文件配置成功

[hadoop@master ~]$ ping node01
PING node01 (192.168.200.129) 56(84) bytes of data.
64 bytes from node01 (192.168.200.129): icmp_seq=1 ttl=64 time=0.391 ms
64 bytes from node01 (192.168.200.129): icmp_seq=2 ttl=64 time=0.435 ms
64 bytes from node01 (192.168.200.129): icmp_seq=3 ttl=64 time=0.442 ms

[hadoop@node01 ~]$ ping master
PING master (192.168.200.128) 56(84) bytes of data.
64 bytes from master (192.168.200.128): icmp_seq=1 ttl=64 time=0.379 ms
64 bytes from master (192.168.200.128): icmp_seq=2 ttl=64 time=0.411 ms
64 bytes from master (192.168.200.128): icmp_seq=3 ttl=64 time=0.460 ms

3. 所需软件

JDK版本1.7
hadoop版本hadoop-2.7.1 去官网的华科镜像下载hadoop-2.7.1.tar.gz，地址
数据传输工具FileZilla， ssh连接工具 secureCRT

4. SSH免密码登陆配置

这里介绍的是centos6.5， 7的也差不多，会更简单。其实这些步骤都是可以参考其他网上的
Hadoop运行过程中需要管理远端Hadoop守护进程，在Hadoop启动以后，NameNode是通过SSH（Secure Shell）来启动和停止各个DataNode上的各种守护进程的。这就必须在节点之间执行指令的时候是不需要输入密码的形式，故我们需要配置SSH运用无密码公钥认证的形式，这样NameNode使用SSH无密码登录并启动DataName进程，同样原理，DataNode上也能使用SSH无密码登录到NameNode。
安装CentOS6.5时，我们选择了一些基本安装包，所以我们需要两个服务：ssh和rsync已经安装了。可以通过下面命令查看结果显示如下：

[hadoop@master ~]$ rpm –qa | grep openssh
[hadoop@master ~]$ rpm –qa | grep rsync
如果有相应的提示，说明这两个是装好了的，我这里是系统自带的

4.1 配置master无密码登陆所有的node
原理请百度
在master节点上执行以下命令然后按几次回车键：

[hadoop@master ~]$ ssh-keygen -t rsa

出现下图

我们看到这句话 (图是补的，是root的免密登录)
Your identification has been saved in /home/root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
说明默认目录在 /home/hadoop/.ssh/ 下

接着在master节点上做如下配置，把id_rsa.pub追加到授权的key里面去。

[hadoop@master ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

现在我们进入~/.ssh目录可以看到

[hadoop@master ~]$ cd ~/.ssh/
[hadoop@master .ssh]$ ll
total 12
-rw-rw-r--. 1 hadoop hadoop  395 Apr  2 16:22 authorized_keys
-rw-------. 1 hadoop hadoop 1675 Apr  2 16:17 id_rsa
-rw-r--r--. 1 hadoop hadoop  395 Apr  2 16:17 id_rsa.pub

4.1.1. 修改文件"authorized_keys权限

[hadoop@master .ssh]$ chmod 600 ~/.ssh/authorized_keys

4.1.2. 设置SSH配置
用root用户登录服务器修改SSH配置文件"/etc/ssh/sshd_config"的下列内容。这里找到这些内容，把前面的#去掉即可

[root@master .ssh]# vim /etc/ssh/sshd_config
RSAAuthentication yes # 启用 RSA 认证
PubkeyAuthentication yes # 启用公钥私钥配对认证方式
AuthorizedKeysFile .ssh/authorized_keys # 公钥文件路径（和上面生成的文件同）

重启SSH服务

[root@master .ssh]# /etc/rc.d/init.d/sshd restart
Stopping sshd:                                             [  OK  ]
Starting sshd:                                             [  OK  ]
[root@master .ssh]#

退出root用户，使用hadoop普通用户验证是否成功, ssh localhost, 如果不需要输入密码，那么验证成功

[hadoop@master .ssh]$ ssh localhost
The authenticity of host 'localhost (::1)' can't be established.
RSA key fingerprint is 48:0b:ee:9b:67:85:4c:19:35:10:d1:1d:e1:5d:fa:c4.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added 'localhost' (RSA) to the list of known hosts.
Last login: Sun Apr  2 16:09:39 2017 from 192.168.200.1

4.1.3. 把公钥复制到所有的node机器上
从上图中得知无密码登录本级已经设置完毕，接下来的事儿是把公钥复制所有的node机器上。使用下面的命令格式进行复制公钥
scp ~/.ssh/id_rsa.pub 远程用户名@远程服务器IP:~/
我本地这样使用 scp ~/.ssh/id_rsa.pub [email protected]:~/ ,然后根据提示输入需要复制的远程服务器的密码，最后出现下面的提示说明复制成功

[hadoop@master ~]$ scp ~/.ssh/id_rsa.pub [email protected]:~/
[email protected]'s password:  # 这里输入远程密码
id_rsa.pub                                                                                                                        100%  395     0.4KB/s   00:00    
[hadoop@master ~]$

4.1.4. 对节点机器进行配置
下面就针对IP为"192.168.200.129"的node01的节点进行配置。
4.1 ll -a查看是否有.ssh目录，如果没有，我们需要创建一个.ssh目录，并且赋予这个权限 drwx------. 2 hadoop hadoop 4096 Apr 2 16:40 .ssh 具体权限参照master的机器， centos6.5一般都是默认带有.ssh目录的

[hadoop@node01 ~]$ ll -a 
drwx------.  2 hadoop hadoop 4096 Apr  2 16:40 .ssh

如果有这个目录了，我们把刚才的文件追加到authorized_keys 中去，然后修改authorized_keys文件权限

[hadoop@node01 ~]$ cat ~/id_rsa.pub >> ~/.ssh/authorized_keys
[hadoop@node01 .ssh]$ chmod 600 ~/.ssh/authorized_keys

进入到ssh 目录，ll 看到如下所示说明成功，注意权限是否正确

[hadoop@node01 .ssh]$ ll
total 8
-rw-------. 1 hadoop hadoop 395 Apr  2 16:52 authorized_keys
-rw-r--r--. 1 hadoop hadoop 391 Apr  2 16:40 known_hosts

4.2 用root用户修改/etc/ssh/sshd_config
参考前面的master的修改/etc/ssh/sshd_config的方法
设置SSH配置
用root用户登录服务器修改SSH配置文件"/etc/ssh/sshd_config"的下列内容。这里找到这些内容，把前面的#去掉即可

[root@master .ssh]# vim /etc/ssh/sshd_config
RSAAuthentication yes # 启用 RSA 认证
PubkeyAuthentication yes # 启用公钥私钥配对认证方式
AuthorizedKeysFile .ssh/authorized_keys # 公钥文件路径（和上面生成的文件同）

重启SSH服务

[root@master .ssh]# /etc/rc.d/init.d/sshd restart
Stopping sshd:                                             [  OK  ]
Starting sshd:                                             [  OK  ]
[root@master .ssh]#

最后记得把"/home/hadoop/"目录下的"id_rsa.pub"文件删除掉

到此为止，我们经过的步骤已经实现了从"master"到"node01"SSH无密码登录

验证master到node01的无密码登陆,在master机器上，使用hadoop用户 ssh node01或者ssh 192.168.200.129, 下面是成功的的结果

[hadoop@master ~]$ ssh node01
Last login: Sun Apr  2 17:25:50 2017 from localhost
[hadoop@node01 ~]$ 

[hadoop@node01 ~]$ ssh master
Last login: Sun Apr  2 17:26:04 2017 from node01
[hadoop@master ~]$

5 java安装环境

5.1 卸载原有的JDK

因为有的系统自带有JDK, 安装前先卸载
查看所装的JDK

[hadoop@master ~]$ rpm -qa | grep jdk
出现
java-1.7.0-openjdk-1.7.0.45-2.4.3.3.el6.x86_64
java-1.6.0-openjdk-1.6.0.0-1.66.1.13.0.el6.x86_64

root下卸载前面查出的这两个

[root@master hadoop]#  yum -y remove java-1.7.0-openjdk-1.7.0.45-2.4.3.3.el6.x86_64  
[root@master hadoop]#  yum -y remove java-1.6.0-openjdk-1.6.0.0-1.66.1.13.0.el6.x86_64  
成功后会出现一个complete

5.2 安装jdk1.7

首先用root身份登录master后在/usr/local下创建java文件夹

[root@master hadoop]# mkdir -p /usr/local/java

我们把FTP传来的jdk-7u79-linux-x64.tar.gz复制到/usr/local/java 文件夹下

[root@master Downloads]# cp jdk-7u79-linux-x64.tar.gz /usr/local/java/

解压并且

[root@master java]# tar zxvf jdk-7u79-linux-x64.tar.gz 
解压完成后出现
[root@master java]# ll
total 149920
drwxr-xr-x. 8 uucp  143      4096 Apr 11  2015 jdk1.7.0_79
-rw-r--r--. 1 root root 153512879 Apr  2 18:17 jdk-7u79-linux-x64.tar.gz

给所有者权限

[root@master java]# chown hadoop:hadoop jdk1.7.0_79/ -R

5.3 配置java环境变量

编辑"/etc/profile"文件

[root@master java]#  vim /etc/profile

在尾部加入

# set java environment
export JAVA_HOME=/usr/local/java/jdk1.7.0_79
export JRE_HOME=/usr/local/java/jdk1.7.0_79/jre
export PATH=$PATH:/usr/local/java/jdk1.7.0_79/bin
export CLASSPATH=./:/usr/local/java/jdk1.7.0_79/lib:/usr/local/java/jdk1.7.0_79/jre/lib

使配置生效

[root@master java]# source /etc/profile

5.4 验证是否成功

java -version  出现 java version "1.7.0_79"
javac  有提示
java  有提示

确保是按照我上面的步骤，权限不能有错，否则可能会有问题, 同样，在另外的节点上也安装好jdk

6. Hadoop集群安装

所有的机器上都要安装hadoop，现在就先在Master服务器安装，然后其他服务器按照步骤重复进行即可。安装和配置hadoop需要以"root"的身份进行。

6.1 安装Hadoop

6.1.1 建立一个目录，用来存放hadoop

[root@master Downloads]#  mkdir -p /home/hadoop/MyCloudera/APP/hadoop/

6.1.2 把下载好得hadoop-2.7.1.tar.gz 复制到这个目录下，解压并且命名为hadoop

复制到我们建立得目录
[root@master Downloads]# cp hadoop-2.7.1.tar.gz  /home/hadoop/MyCloudera/APP/hadoop/
进入到我们复制得目录
[root@master Downloads]# cd /home/hadoop/MyCloudera/APP/hadoop  
对此tar.gz解压
[root@master hadoop]# tar zxvf hadoop-2.7.1.tar.gz 
改名为hadoop
[root@master hadoop]# mv hadoop-2.7.1 hadoop

6.1.3 将文件夹得读写权限赋予给hadoop用户

[root@master APP]# chown -R hadoop:hadoop hadoop  
ll 查看权限，是这样得
[root@master APP]# ll
total 4
drwxr-xr-x. 3 hadoop hadoop 4096 Apr  2 23:29 hadoop

6.1.4 配置/etc/profile

[root@master APP]# vim /etc/profile

在末尾加上如下配置，其中HADOOP_HOME填写前面得hadoop存放得位置

# set hadoop path
export HADOOP_HOME=/home/hadoop/MyCloudera/APP/hadoop/hadoop 
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoop

让配置生效

[root@master APP]# source /etc/profile

6.2 配置hadoop

Hadoop配置文件在conf目录下，之前的版本的配置文件主要是Hadoop-default.xml和Hadoop-site.xml。由于Hadoop发展迅速，代码量急剧增加，代码开发分为了core，hdfs和map/reduce三部分，配置文件也被分成了三个core-site.xml、hdfs-site.xml、mapred-site.xml。core-site.xml和hdfs-site.xml是站在HDFS角度上配置文件；core-site.xml和mapred-site.xml是站在MapReduce角度上配置文件。

6.2.1 配置hadoop-env.sh

该hadoop-env.sh文件位于/home/hadoop/MyCloudera/APP/hadoop/hadoop/etc/hadoop目录下
在文件的末尾添加下面内容

# The java environment
export JAVA_HOME=/usr/local/java/jdk1.7.0_79

6.2.2 配置core-site.xml文件

我们先在本地建立几个目录，用来存放一些hadoop得文件
在根目录下，建立一个data

根目录路径
[root@master /]# pwd
/
创建一个data目录
[root@master /]# mkdir data
创建/data/tmpdata/hadoop/data/tmp目录
[root@master /]# mkdir -p /data/tmpdata/hadoop/data/tmp

然后对core-site.xml做如下配置, 具体得hadoop.tmp.dir和fs.default.name得功能参看百度google

<configuration>
  <property>
      <name>hadoop.tmp.dirname>
      <value>/data/tmpdata/hadoop/data/tmpvalue>
  property>

  <property>
      <name>fs.default.namename>
      <value>hdfs://master:9000value>
  property>
configuration>

6.2.3 配置hdfs-site.xml文件

我这里配置的比较完整，如果想简单点，有的其实可以默认设置，具体参看其他文章
1. 创建namenode和datanode的存放目录,然后对/data目录赋予权限。注意权限不能有错

[root@master /]# mkdir -p /data/hadoop/data/name
[root@master data]# mkdir -p /data/hadoop/data/data

[root@master /]#  chown hadoop:hadoop data/ -R
[root@master /]# chmod 777 data/ -R

2. 创建SecondaryNameNode的目录
在根目录下创建hadoop目录，然后创建/hadoop/SecondaryNameNode/目录，最后赋予hadoop目录权限

[root@master /]# mkdir hadoop  
[root@master /]# mkdir -p /hadoop/SecondaryNameNode/  

[root@master /]# chown hadoop:hadoop hadoop/ -R 
[root@master /]#  chmod 777 hadoop/ -R

hdfs-site.xml配置

<configuration>
     <property>
            <name>dfs.namenode.name.dirname>
            <value>/data/hadoop/data/name/value>
     property>
     <property>
            <name>dfs.datanode.data.dirname>
            <value>/data/hadoop/data/data/value>
     property>
     <property>
           <name>dfs.replicationname>
           <value>2value>
     property>
     <property>
            <name>dfs.namenode.checkpoint.dirname>
            <value>/hadoop/SecondaryNameNode/value>
     property>
    
     <property>
            <name>dfs.http.addressname>
            <value>master:50070value>
     property>
    
     <property>
            <name>dfs.secondary.http.addressname>
            <value>master:50090value>
     property>


    <property>
    <name>dfs.datanode.du.reservedname>
    <value>0value>
    <description> 每个卷预留的空闲空间数量 description>
    property>
    
    <property>
    <name>dfs.datanode.max.xcieversname>
    <value>32768value>
    property>
    
    
    <property>
    <name>dfs.datanode.socket.write.timeoutname>
    <value>0value>
    property>
    <property>
    <name>dfs.socket.timeoutname>
    <value>180000value>
    <description>socket通讯超时时间description>
    property>

configuration>

6.2.3 配置mapred-site.xml文件

我这里配置的比较完整，网上大多数都是用的默认，具体其中的一些参数可以百度
这里先建立几个文件

[root@master /]# mkdir -p /hadoop/mapreduce/jobhistory/history/done
[root@master /]# mkdir -p /hadoop/mapreduce/jobhistory/history/done_intermediate
[root@master /]# mkdir -p /hadoop/hadoop-yarn/staging  

赋予权限
[root@master /]# chown hadoop:hadoop hadoop/ -R 
[root@master /]#  chmod 777 hadoop/ -R

复制一份 mapred-site.xml

[root@master hadoop]# cp mapred-site.xml.template mapred-site.xml

<configuration>

<property>
<name>mapreduce.framework.namename>
<value>yarnvalue>
property>

<property>
<name>mapreduce.jobtracker.addressname>
<value>master:9001value>
property>

<property>
<name>mapreduce.jobtracker.http.addressname>
<value>master:50030value>
property>

<property>
<name>mapreduce.jobhistory.addressname>
<value>master:10020value>
property>


<property>
<name>mapreduce.jobhistory.webapp.addressname>
<value>master:19888value>
property>


<property>
<name>mapreduce.jobhistory.done-dirname>
<value>/hadoop/mapreduce/jobhistory/history/donevalue>
property>

<property>
<name>mapreduce.jobhistory.intermediate-done-dirname>
<value>/hadoop/mapreduce/jobhistory/history/done_intermediatevalue>
property>

<property>
<name>yarn.app.mapreduce.am.staging-dirname>
<value>/hadoop/hadoop-yarn/stagingvalue>
property>

<property>
<name>mapred.hosts.excludename>
<value>/home/hadoop/MyCloudera/APP/hadoop/hadoop/etc/hadoop/excludesvalue>
<final>truefinal>
property>




<property>
<name>mapreduce.tasktracker.map.tasks.maximumname>
<value>32value>
<description> 同一时间允许运行的最大map任务数 description>
property>
<property>
<name>mapreduce.tasktracker.reduce.tasks.maximumname>
<value>16value>
<description> 同一时间允许运行的最大reduce任务数 description>
property>



<property>
<name>yarn.nodemanager.resource.memory-mbname>
<value>1000value>
property>
<property>
<name>mapreduce.map.memory.mbname>
<value>512value>
<description>map阶段申请的container的内存的大小description>
property>


<property>
<name>mapreduce.reduce.memory.mbname>
<value>512value>
<description>reduce阶段申请的container的内存的大小description>
property>


<property>
<name>mapreduce.map.java.optsname>
<value>-Xmx512Mvalue>
<description>用户设定的map/reduce阶段申请的container的JVM参数。最大堆设定要比申请的内存少一些，用于JVM的非堆部分使用。 description>
property>
<property>
<name>mapreduce.reduce.java.optsname>
<value>-Xmx1024Mvalue>
property>
<property>
<name>mapreduce.task.io.sort.mbname>
<value>1024value>
property>
<property>
<name>mapreduce.reduce.shuffle.parallelcopiesname>
<value>16value>

configuration>

6.2.3 配置yarn-site.xml文件

创建一些文件夹，并且赋予权限

[root@master /]# clear
[root@master /]# mkdir -p /data/nodemanager/tmp/
[root@master /]# mkdir -p /hadoop/nodemanager/remote
[root@master /]# mkdir -p /data/hadoop/data/nodemanager/logs
[root@master /]# chown hadoop:hadoop hadoop/ -R
[root@master /]# chmod 777 hadoop/ -R
[root@master /]# chown hadoop:hadoop data/ -R
[root@master /]# chmod 777 data/ -R

<configuration>


    <property>
         <name>yarn.nodemanager.aux-servicesname>
          <value>mapreduce_shufflevalue>
    property>

    <property>
          <name>yarn.nodemanager.aux-services.mapreduce.shuffle.classname>
          <value>org.apache.hadoop.mapred.ShuffleHandlervalue>
     property>

    <property>
            <name>yarn.resourcemanager.scheduler.addressname>
            <value>master:8030value>
     property>

    <property>
            <name>yarn.resourcemanager.resource-tracker.addressname>
            <value>master:8031value>
            property>

    <property>
            <name>yarn.resourcemanager.addressname>
            <value>master:8032value>
     property>

    <property>
            <name>yarn.resourcemanager.admin.addressname>
             <value>master:8033value>
    property>

    <property>
            <name>yarn.nodemanager.addressname>
            <value>master:9999value>
    property>

    <property>
            <name>yarn.nodemanager.webapp.addressname>
            <value>master:8042value>
    property>
    
     <property>
            <name>yarn.resourcemanager.webapp.addressname>
            <value>master:8088value>
    property>

    <property>
            <name>yarn.nodemanager.local-dirsname>
            <value>/data/nodemanager/tmp/value>
            property>

    <property>
            <name>yarn.nodemanager.remote-app-log-dirname>
            <value>/hadoop/nodemanager/remotevalue>
    property>

    <property>
          <name>yarn.nodemanager.log-dirsname>
           <value>/data/hadoop/data/nodemanager/logsvalue>
     property>

    <property>
            <name>yarn.nodemanager.log.retain-secondsname>
            <value>604800value>
    property>

    <property>
            <name>yarn.nodemanager.resource.cpu-vcoresname>
            <value>24value>
    property>

    <property>
            <name>yarn.nodemanager.resource.memory-mbname>
            <value>1024value>
    property>

    <property>
            <name>yarn.nodemanager.vmem-pmem-rationame>
            <value>2value>
    property>

    <property>
            <name>yarn.scheduler.minimum-allocation-mbname>
            <value>256value>
    property>

    <property>
            <name>yarn.scheduler.maximum-allocation-mbname>
            <value>1024value>
    property>

    <property>
            <name>yarn.scheduler.minimum-allocation-vcoresname>
            <value>1value>
    property>

    <property>
            <name>yarn.scheduler.maximum-allocation-vcoresname>
            <value>24value>
    property>

    <property>
            <name>yarn.log-aggregation-enablename>
            <value>truevalue>
    property>

configuration>

6.2.3 配置slaves文件

这个配置主要记录数据节点的列表，假如集群有3个数据节点，如：node001，node002，node003
那么在slave文件里面就可以设置为：
node001
node002
node003

我这里为两个节点，配置如下

master
node01

到此，master的hadoop的配置已经完成，对于其他节点，我们建立好相关的目录，复制过去，稍作配置即可了

需要建立的目录总结

[root@node01 /]# mkdir -p /home/hadoop/MyCloudera/APP/hadoop/
[root@node01 /]# mkdir data
[root@node01 /]# mkdir -p /data/tmpdata/hadoop/data/tmp
[root@node01 /]# mkdir -p /data/hadoop/data/name
[root@node01 /]# mkdir -p /data/hadoop/data/data
[root@node01 /]# mkdir hadoop
[root@node01 /]# mkdir -p /hadoop/SecondaryNameNode/  
[root@node01 /]# chown hadoop:hadoop hadoop/ -R 
[root@node01 /]# chmod 777 hadoop/ -R
[root@node01 /]# mkdir -p /hadoop/mapreduce/jobhistory/history/done
[root@node01 /]# mkdir -p /hadoop/mapreduce/jobhistory/history/done_intermediate
[root@node01 /]# mkdir -p /hadoop/hadoop-yarn/staging  
[root@node01 /]# mkdir -p /data/nodemanager/tmp/
[root@node01 /]# mkdir -p /hadoop/nodemanager/remote
[root@node01 /]# mkdir -p /data/hadoop/data/nodemanager/logs
[root@node01 /]# chown hadoop:hadoop hadoop/ -R
[root@node01 /]# chmod 777 hadoop/ -R
[root@node01 /]# chown hadoop:hadoop data/ -R
[root@node01 /]# chmod 777 data/ -R
[root@node01 /]#

为了确保 hadoop目录权限没有问题，每台机器在hadoop目录下再次执行一下以下命令

chown -R hadoop:hadoop hadoop
## 为了保险起见，我给了777的权限， 下面的这一步貌似不做也可以
chmod 777 hadoop/ -R

6.3 启动与验证

6.3.1 格式化HDFS文件系统

在master上使用普通用户hadoop进行操作
如果第一次启动需要对hadoop平台进行格式化，记得第一次，假如原来有数据就不需要格式化：

hdfs namenode -format

如果经过多次format之后，一定要把/data/hadoop/data/data /data/hadoop/data/name目录下的文件删除

6.3.2 启动hadoop

在启动前关闭集群中所有机器的防火墙，不然会出现datanode开后又自动关闭。
记得永久的关闭防火墙chkconfig iptables off

chkconfig iptables off

开始启动,在master的普通用户 hadoop下进行操作

start-all.sh

验证hadoop: 输入jps命令，会出现以下进程说明成功

[hadoop@master hadoop]$ jps
[hadoop@master hadoop]$ jps
4197 ResourceManager
3851 DataNode
4602 Jps
4013 SecondaryNameNode
4308 NodeManager
3739 NameNode

6.3.3 测试以下hdfs

创建一个目录

[hadoop@node01 ~]$ hadoop fs -mkdir -p /hive/warehouse

传一个文件

[hadoop@master hadoop]$ hadoop fs -put slaves /hive/warehouse

查看文件

[hadoop@master hadoop]$ hadoop fs -cat /hive/warehouse/slaves
显示
master
node01

经过上面的测试，说明我们集群安装成功

6.4 网页查看集群

查看hdfs
http://192.168.200.128:50070
能显示正常

验证hadoop
http://192.168.200.128:8088/cluster/nodes
显示
能看到节点显示正常就算成功

7. hadoop 集群碰到错误的解决办法

这里的错误，一般都分为几大类，一类是某些文件夹没有创建，一类是某些文件或者文件夹权限不够，一类就是配置错误
这些错误都可以去logs目录下查看，我的logs目录在 /home/hadoop/MyCloudera/APP/hadoop/hadoop/logs
哪里有问题就对应哪个文件去查看错误，例如resourcemanager没起来或者出问题，就去yarn-hadoop-resourcemanager-master.log

-rwxrwxrwx. 1 hadoop hadoop 921348 Apr  3 13:19 hadoop-hadoop-datanode-master.log
-rw-rw-r--. 1 hadoop hadoop   1434 Apr  3 13:18 hadoop-hadoop-datanode-master.out
-rw-rw-r--. 1 hadoop hadoop      0 Apr  3 13:18 hadoop-hadoop-datanode-master.out.1
-rw-rw-r--. 1 hadoop hadoop   1434 Apr  3 12:52 hadoop-hadoop-datanode-master.out.2
-rwxrwxrwx. 1 hadoop hadoop   1434 Apr  3 12:45 hadoop-hadoop-datanode-master.out.3
-rwxrwxrwx. 1 hadoop hadoop   1434 Apr  3 12:42 hadoop-hadoop-datanode-master.out.4
-rwxrwxrwx. 1 hadoop hadoop   1434 Apr  3 12:35 hadoop-hadoop-datanode-master.out.5
-rwxrwxrwx. 1 hadoop hadoop 371773 Apr  3 13:26 hadoop-hadoop-namenode-master.log
-rw-rw-r--. 1 hadoop hadoop    717 Apr  3 13:18 hadoop-hadoop-namenode-master.out
-rw-rw-r--. 1 hadoop hadoop    717 Apr  3 13:09 hadoop-hadoop-namenode-master.out.1
-rw-rw-r--. 1 hadoop hadoop    717 Apr  3 12:52 hadoop-hadoop-namenode-master.out.2
-rwxrwxrwx. 1 hadoop hadoop    717 Apr  3 12:44 hadoop-hadoop-namenode-master.out.3
-rwxrwxrwx. 1 hadoop hadoop    717 Apr  3 12:42 hadoop-hadoop-namenode-master.out.4
-rwxrwxrwx. 1 hadoop hadoop    717 Apr  3 12:35 hadoop-hadoop-namenode-master.out.5
-rwxrwxrwx. 1 hadoop hadoop      0 Apr  3 01:43 SecurityAuth-hadoop.audit
-rwxrwxrwx. 1 hadoop hadoop 618506 Apr  3 13:19 yarn-hadoop-nodemanager-master.log
-rw-rw-r--. 1 hadoop hadoop   1402 Apr  3 13:19 yarn-hadoop-nodemanager-master.out
-rw-rw-r--. 1 hadoop hadoop      0 Apr  3 13:19 yarn-hadoop-nodemanager-master.out.1
-rw-rw-r--. 1 hadoop hadoop   1402 Apr  3 13:09 yarn-hadoop-nodemanager-master.out.2
-rw-rw-r--. 1 hadoop hadoop   1402 Apr  3 12:52 yarn-hadoop-nodemanager-master.out.3
-rwxrwxrwx. 1 hadoop hadoop   1402 Apr  3 12:36 yarn-hadoop-nodemanager-master.out.4
-rwxrwxrwx. 1 hadoop hadoop   1402 Apr  3 12:30 yarn-hadoop-nodemanager-master.out.5
-rwxrwxrwx. 1 hadoop hadoop 343209 Apr  3 13:19 yarn-hadoop-resourcemanager-master.log
-rw-rw-r--. 1 hadoop hadoop    701 Apr  3 13:19 yarn-hadoop-resourcemanager-master.out
-rw-rw-r--. 1 hadoop hadoop    701 Apr  3 13:09 yarn-hadoop-resourcemanager-master.out.1
-rw-rw-r--. 1 hadoop hadoop    701 Apr  3 12:52 yarn-hadoop-resourcemanager-master.out.2
-rwxrwxrwx. 1 hadoop hadoop    701 Apr  3 12:45 yarn-hadoop-resourcemanager-master.out.3
-rwxrwxrwx. 1 hadoop hadoop    701 Apr  3 12:36 yarn-hadoop-resourcemanager-master.out.4
-rwxrwxrwx. 1 hadoop hadoop    701 Apr  3 12:30 yarn-hadoop-resourcemanager-master.out.5

你可能感兴趣的:(大数据相关)

大数据分析与安全分析 Zh&&Li 网络安全运维数据分析安全数据挖掘运维数据库
大数据分析一、大数据安全威胁与需求分析1.1大数据相关概念发展大数据：是指非传统的数据处理工具的数据集大数据特征：海量的数据规模、快速的数据流转、多样的数据类型和价值密度低等大数据的种类和来源非常多，包括结构化、半结构化和非结构化数据有关大数据的新兴网络信息技术应用不断出现，主要包括大规模数据分析处理、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和存储系统1.2大数据安全威胁分析“数
pyflink 滚动窗口实例菜鸟社长菜鸟的大数据进阶之路大数据进阶之路 kafka big data python flink
写在前头：更多大数据相关精彩内容请进我的知识星球，每周定期更新正篇技术路线：模拟kafka生产者发送数据——>flink对kafka数据实时计算处理——>处理后的数据发送到kafka1、模拟客流数据的生产者，参考https://blog.csdn.net/qq_22611181/article/details/1199002502、flink聚合操作原理介绍，参考https://blog.csdn
Python自动化：Python操作Excel的多种方式Pandas+openpyxl+xlrd 长风清留扬 Python excel python pandas 自动化 Python办公自动化数据分析开发语言
在Python中，操作Excel数据通常可以通过几个流行的库来实现，比如pandas、openpyxl、xlrd等。下面会分别介绍这三个流行库来实现对Excel的操作。博客主页：长风清留扬-CSDN博客每天更新大数据相关方面的技术，分享自己的实战工作经验和学习总结，尽量帮助大家解决更多问题和学习更多新知识，欢迎评论区分享自己的看法感谢大家点赞收藏⭐评论推荐阅读：Python入门最全基础Python
高校为什么需要AIGC大数据实验室？泰迪智能科技01 AIGC AIGC 大数据
AIGC大数据实验室是一个专注于人工智能生成内容（AIGC）和大数据相关技术研究、开发与应用的创新实验平台。AIGC主要研究方向包括：AIGC技术创新、大数据处理与分析、AIGC与大数据融合应用。AIGC技术创新：探索如何利用人工智能算法，如深度学习中的生成对抗网络（GAN）、变分自编码器（VAE）、基于Transformer架构的语言模型（如GPT系列）等，来高效地生成高质量的文本、图像、音频、
php案例分析百度云_基于阿里云平台的大数据教学案例 —— B站弹幕数据分析 weixin_39892311 php案例分析百度云
简介：实验基于所学的大数据处理知识，结合阿里云大数据相关产品，分组完成一个大数据分析项目，数据集可以使用开源数据集或自行爬取，最终完成一个完整的实验报告：1、能够使用阿里云大数据相关产品完成数据分析、数据建模与模型优化2、能够基于分析结构构建可视化门户或可视化大屏，分析和呈现不少于5个3、分析案例有实用价值并能够形成有效结论4、能够将开源技术与阿里云产品结合，综合利用提升开发效率，降低成本5、能够
Hbase集群搭建超详细教程笑看风云路集群搭建系列 hbase hbase hadoop 大数据
Hbase集群搭建前言详细步骤1、下载安装包2、解压3、修改配置文件3.1修改hbase-env.sh文件3.2修改hbase-site.xml3.3修改regionservers文件4、分发hbase目录5、启动HBase集群6、查看HBaseWebUI大家好，我是风云，欢迎大家关注我的博客，在未来的日子里我们一起来学习大数据相关的技术，一起努力奋斗，遇见更好的自己！前言HBase是一个开源的、
魔法王国的故事——档案馆的危机健鑫. 数据仓库大数据 hadoop
❝这是一个连续的专栏,在这里,我将用一个奇幻的魔法王国的故事,来向你介绍大数据相关内容，希望在这里可以帮助你学到有用的知识第一章：档案馆的危机在一个遥远的魔法王国，有一个叫做档案馆的地方，那里存放着王国的所有重要的文件，比如法律、历史、魔法、地理等等。这些文件是王国的智慧之源，也是王国的秘密之宝，它们记录着王国的过去、现在和未来。档案馆由一位叫做档案大臣的人负责管理，他是王国最聪明也最忙碌的人之一
西安-腾讯云-Python面试经验--一面凉经 jiet07 腾讯云面试
自我介绍手撕链表排序操作系统a.线程和进程区别b.线程安全c.如何保证线程安全d.线程崩溃，会不会影响所在的进程e.什么是守护进程，僵尸进程，孤儿进程f.如何产生一个守护进程g.如何避免僵尸进程或者孤儿进程redisa.持久化方式有哪些，区别是什么b.redis集群有了解么c.rediszset()—底层如何实现（哈希表+跳跃表）和大数据相关的操作a.请求有多少，数据有多少b.Gbp/s负载均衡a
报表任务治理计划 liujianhuiouc
背景介绍近些年来，大数据技术得到了很广的应用，支撑了业务的快速发展。作为大数据的平台部门，提供了大数据相关的基础能力，业务同学借助于大数据的底层赋能完成更偏向业务的需求开发。报表是大数据支撑最早最广的功能形态。先给大家介绍我们我们公司的报表产出组件图：报表产出图底层平台由HDFS、Yarn分别提供存储和计算支持在这之上我们提供了一套支持MR、Spark任务开发、依赖执行的调度系统BI业务同学利用调
大数据相关技术 ssttIsme
1数据获取方式爬虫:分布式爬虫java的jsoup(操作方式基于选择器)，pythoon,八爪鱼日志收集:log4j(可以控制级别和放置的位置)(可以输出数据到flume)(可以输出到mq),flume(分布式日志收集系统)(收集用户ip，访问了哪个方法)(例如三大运营商的日志分析能根据用户71个字段，拿到谁在什么时间什么地点用什么手机什么浏览器哪个版本访问了什么网站访问了多长时间网站内容是什么)
大数据从何学起？大数据脑图+学习路线清晰的告诉你！ yoku酱
近些年，大数据的火热可谓是技术人都知道啊，很多人呢，也想学习大数据相关，但是又不知道从何下手，所以今天柠檬这里分享几个大数据脑图，希望可以让你清楚明白从哪里入门大数据，知道该学习以及掌握哪些知识点；当然还有自学教程分享哦！【大数据开发学习资料领取方式】：加入大数据技术学习交流扣扣群458345782，点击加入群聊，私信管理员即可免费领取第一阶段linux+搜索+hadoop体系Linux基础→sh
想学大数据？先看完这几本书再说 yoku酱
真正的数据爱好者有很多需要阅读的内容：大数据，机器学习，数据科学，数据挖掘等。除了这些技术领域，还有一些特定的技术和语言需要你继续研究：Hadoop，Spark，Python，和R等等，还有无数实现自动化的工具等等，这些工具几乎每天都会用到，这就需要你不断的学习。幸运的是，以上提到的这些都不缺关于它们的书籍。本文首先帮大家盘点几本大数据相关的书籍，这些书都是亚马逊上的畅销排行榜上的：关于大数据1、
2019-03-07 bigtian
早七点半起床。今天写了大量代码，最近一周的编码状态越来越好，代码也写得越来越顺手，今天把我的数据服务写了一个客户端调用程序，感觉质量还是比较满意的。公司做数据，但是我一个架构师对大数据相关技术却了解很浅，实在是惭愧。以后需要大力加强这一块的技能。对同事要善良，今天同事工作不开心闹了情绪，我主动将活揽过来，做好之后再跟他解释一遍我的思路，感觉这样他会更容易理解也更好的成长，只要一个人是积极向上的，就
做大数据需要学习哪些东西啊 kuntoria
文章来源：科多大数据做大数据需要学习哪些东西啊，相信不少对大数据职位感兴趣的人都会有这样的疑问。科多大数据老师结合同学们的疑问，为大家整理了做大数据需要学习哪些东西，下面随着科多大数据老师一起来看看吧，希望可以帮助到大家。Linux：因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些，学好Linux对你快速掌握大数据相关技术会有很大的帮助，能让你更好的理解hadoop、hi
大数据技术之Hadoop 我走之後大数据 hadoop 分布式
相关导论大数据相关导论首先我们要知道一切皆数据数据的作用从海量数据中提取出有效的价值信息,实现数据的商业化,价值化,给企业的决策者或者运营人员提供数据支持或者分析性报告.更好的了解事与物的运行规律,给生活赋能.什么是大数据数据的体量比较大,2000年全球互联的概念提出及普及后,数据量开始快速增长....数据单位:bit,byte,kb,mb,gb,tb,pb,eb,zb,yb,bb,nb,db大数
从 Greenplum 到 Databend，万全网络数据库平台架构演进 Databend 网络数据库架构
作者：代城万全网络高级工程师，负责万全网络数据平台整体架构研发工作，拥有超过7年的大数据相关技术研发经验，一直关注着开源和云技术的发展。万全网络科技有限公司是一家专注于B端电商物流供应链的公司。致力于为客户提供全面的供应链解决方案，涵盖从产品采购到最终配送的全程服务。公司的服务包括但不限于：供应链管理，仓储与配送，信息技术支持。迁移背景在不断发展的科技环境中，企业往往需要不断调整和优化其技术基础设
程序人生系列1-2021年通过私活累积收益1.5w 只是甲程序人生程序员接单私活留学生课程作业
博主在B站更新了接私活的视频，感兴趣的可以移步到我的B站:博主私活记录一.个人介绍 2011年毕业，计算机专业科班出身，10年及以上金融信贷、通信行业数据库运维管理、数据仓库及大数据相关工作经验，持有OracleOCP和LinuxRHCE认证证书。毕业第一份工作很幸运的成为了一个OracleDBA，刚毕业就开始维护TB级的数据。在知道自身实力不足的情况下，报名培训机构，相继考了OracleO
面试整理 qq_20962187
数据分析/hadoop/机器学习面试题集锦，可能是最全的了…发表于：2017-09-2115:17阅读：178评论：0无论你是想从事大数据相关职位的职场小白，还是准备往高处走的牛牛。小白有了这些在校招中过关斩将，牛牛们温故知新跨过业务壁垒。B格高的HR，或者想要个助理的大数据工作者也可以了解下同行是怎么筛选人。非主流的可以拿来撩HR妹纸，折腾面试的小鲜肉…………………………数据分析1、提前想好答案
高校科研管理系统源代码_教育领域各大高校如何建设智慧校园？你的学校够数字化吗？... weixin_39714835 高校科研管理系统源代码
11月26日，作为数据分析&BI领域领导企业的永洪科技与知名高校东北财经大学数据科学与人工智能学院在北京举行了战略合作签约仪式，共建大数据教学、科研、管理模式顶层设计方案，服务智慧校园建设。双方以教学和科研为中心，以产业为导向，实现与大数据发展实际接轨的发展方向，共同服务高校大数据相关技术与应用的发展。这是永洪科技在教育领域校企合作的又一标杆案例。国务院印发的《促进大数据发展行动纲要》指出，要加强
python爬取可视化html_教你用Python爬网站数据，并用BI可视化分析！ weixin_39824834 python爬取可视化html
作为一名在数据行业打拼了两年多的数据分析师，虽然目前收入还算ok，但每每想起房价，男儿三十还未立，内心就不免彷徨不已~两年时间里曾经换过一份工作，一直都是从事大数据相关的行业。目前是一家企业的BI工程师，主要工作就是给业务部门出报表和业务分析报告。回想自己过去的工作成绩也还算是不错的，多次通过自己分析告，解决了业务的疑难杂症，领导们各种离不开。但安逸久了总会有点莫名的慌张，所以我所在的这个岗位未来
程序员必备的面试技巧——大数据工程师面试必备技能 Francek Chen 话题征文面试职场和发展大数据
目录前言一、不同工程师的职责和技能要求1、数仓开发工程师2、算法挖掘工程师3、大数据平台开发工程师4、大数据前端开发工程师二、大数据技术架构图三、大数据相关的技术内容四、大数据面试经验1、大数据开发岗位2、大数据分析岗位总结前言“程序员必备的面试技巧，就像是编写一段完美的代码一样重要。在面试战场上，我们需要像忍者一样灵活，像侦探一样聪明，还要像无敌铁金刚一样坚定。只有掌握了这些技巧，我们才能在面试
【个人笔记】由浅入深分析 ClickHouse garagong 大数据 clickhouse 数据库大数据列式存储分布式数据库分布式数据仓库
项目中不少地方使用到ClickHouse，就对它做了一个相对深入一点的了解和研究。并对各种知识点及整理过程中的一些理解心得进行了汇总并分享出来，希望对其他同学能有帮助。本文主要讲解ClickHouse的特点、读写过程、存储形式、索引、引擎、物化视图等特性。适合入门和进阶大牛可直接跳过。信息主要来自于互联网以及组内同学的讨论讲解。如有理解错误的地方，欢迎批评指正。大家想了解更多大数据相关内容请移驾我
一站式大数据平台XSailboat简介--Hadoop、Hive、Flink、DataStudio、数据服务、API网关、认证中心、数据可视化、离线分析、实时计算、应用引擎等 OkGogooXSailboat 大数据平台开发技术大数据
1.引言从2021年年底开始，笔者带领一个微型团队开始开发我们的大数据平台XSailboat，目前已经初步具备实用化条件，产品将持续性地开发、完善、迭代升级。在接下来的一段时间，笔者将陆续编写一些关于大数据平台实现相关的技术文档，有兴趣的从事大数据相关的同学，可以关注收藏一下，交流一下开发技术。如果对我们的大数据平台XSailboat感兴趣的同学比较多，希望将其应用于学习或商业项目中，我们可以在条
【个人笔记】ClickHouse 查询优化 garagong 大数据 clickhouse 大数据数据仓库 OLAP 分布式数据库 java
ClickHouse是OLAP（Onlineanalyticalprocessing）数据库，以速度见长。ClickHouse为什么能这么快？有两点原因：架构优越列式存储索引数据压缩向量化执行资源利用关注底层细节但是，数据库设计再优越也拯救不了错误的使用方式，本文以MergeTree引擎家族为例讲解如何对查询优化。大家想了解更多大数据相关内容请移驾我的课堂：大数据相关课程剖析及实践企业级大数据数据
mysql 解析json字符串、数组字符串、json数组字符串扫地增 sql mysql json 数据库
背景：笔者使用mysql5.7进行了一次json字符串的解析，因为一直在搞大数据相关的数据库、olap等，太久没有用mysql5.x的版本，一些函数已经不知道支不支持，我的同事建议我使用like、rlike模糊匹配的方式，身为数据人我不太喜欢用这种手段，因为他们比较低效。于是我想这里总结一下，做一下备忘，希望也对大家有帮助。json字符串解析MySQL解析JSON字符串，可以使用MySQL的JSO
Hadoop基础之初识大数据与Hadoop 林尧彬数据库操作系统大数据
前言从今天起，我将一步一步的分享大数据相关的知识，其实很多程序员感觉大数据很难学，其实并不是你想象的这样，只要自己想学，还有什么难得呢？学习Hadoop有一个8020原则，80%都是在不断的配置配置搭建集群，只有20%写程序！一、引言（大数据时代）1.1、从数据中得到信息我们看一张图片：我们知道这个图片上的人叫张小妹，年龄20岁，职业模特。但是如果只有数据没有图片的话，就没有意义的数据了。所以数据
Spark避坑系列（三）（Spark Core-RDD 依赖关系&持久化&共享变量） garagong 大数据 spark 大数据 hadoop 分布式数据处理
大家想了解更多大数据相关内容请移驾我的课堂：大数据相关课程剖析及实践企业级大数据数据架构规划设计大厂架构师知识梳理：剖析及实践数据建模PySpark入坑系列第三篇，该篇章主要介绍spark的编程核心RDD的其他概念，依赖关系，持久化，广播变量，累加器等一、RDD依赖关系1、血缘关系（Lineage）在spark中，数据的处理和计算都是通过RDD的转换进行的。由于RDD是不可变的，在转换的过程中就会
Spark避坑系列一（基础知识） garagong 大数据 spark 大数据分布式
大家想了解更多大数据相关内容请移驾我的课堂：大数据相关课程剖析及实践企业级大数据数据架构规划设计大厂架构师知识梳理：剖析及实践数据建模剖析及实践数据资产运营平台Spark作为大数据领域离线计算的王者，在分布式数据处理计算领域有着极高的处理效率，而Python作为Spark支持的开发的重要语言之一，特别对各类机器学习算法的支持，使得有着极高的使用率，本系列文章将通过介绍Spark的基础使用，带大伙入
Spark避坑系列二（Spark Core-RDD编程） garagong 大数据 spark 大数据分布式
大家想了解更多大数据相关内容请移驾我的课堂：大数据相关课程剖析及实践企业级大数据数据架构规划设计大厂架构师知识梳理：剖析及实践数据建模PySpark避坑系列第二篇，该篇章主要介绍spark的编程核心RDD，RDD的概念，基础操作一、什么是RDD1.1概念RDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面
个人笔记：分布式大数据技术原理（一）Hadoop 框架 garagong 大数据分布式大数据 mapreduce hadoop
大家想了解更多大数据相关内容请移驾我的课堂：大数据相关课程剖析及实践企业级大数据数据架构规划设计大厂架构师知识梳理：剖析及实践数据建模剖析及实践数据资产运营平台ApacheHadoop软件库是一个框架，它允许使用简单的编程模型，实现跨计算机集群的大型数据集的分布式处理。它最初的设计目的是为了检测和处理应用程序层的故障，从单个机器扩展到数千台机器（这些机器可以是廉价的），每个机器提供本地计算和存储，
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc