Hadoop2.2.0安装过程记录

1   安装环境
1.1   客户端
1.2   服务端
1.3   安装准备
2   操作系统安装
2.1.1   BIOS打开虚拟化支持
2.1.2   关闭防火墙
2.1.3   安装VNC
3   JAVA安装
3.1   配置目的
3.2   配置过程
3.3   结果验证
4   主机名配置
4.1   配置目的
4.2   配置过程
4.3   结果验证
5   增加hadoop用户
5.1   配置目的
5.2   配置过程
5.3   结果验证
6   Hadoop用户无密码访问配置
6.1   配置目的
6.2   配置过程
6.3   结果验证
7   Hadoop文件安装
7.1   配置目的
7.2   配置过程
7.3   结果验证
8   Hadoop配置文件更改
8.1   hadoop-env.sh
8.2   yarn-env.sh
8.3   core-site.xml
8.3.1   配置结果
8.3.2   参数解释
8.4   hdfs-site.xml
8.4.1   配置结果
8.4.2   参数解释
8.5   mapred-site.xml
8.5.1   配置结果
8.5.2   参数解释
8.6   yarn-site.xml
8.6.1   配置结果
8.6.2   参数解释
8.7   capacity-scheduler.xml
8.7.1   配置结果
8.7.2   参数解释
8.8   slaves
8.9   Hadoop文件从Master拷贝至所有Slave
8.10   命令行结果验证
8.11   HTTP结果验证
9   HDFS文件分布式存储位置查看
9.1   上传文件
9.2   NameNode存储信息
9.3   DataNode存储信息

1   安装环境
1.1   客户端
一台Windows XP作为客户端，IP地址为192.168.1.100，由于客户端为HTTP访问，因此配置十分简单，只需要在下面的文件中加入主机名配置即可：
C:\WINDOWS\system32\drivers\etc\Hosts：
192.168.1.254 Master
192.168.1.253 Slave1
192.168.1.252 Slave2
另外，最好有Secure CRT、VNC Viewer等作为客户端操作各台服务器。
1.2   服务端
三台Linux（虚拟机）作为Hadoop服务器，操作系统均为：
rhel-server-6.4-x86_64-dvd[ED2000.COM].iso
服务器IP地址分别为：
192.168.1.254为主控节点，运行NameNode、SecondaryNameNode、ResourceManager；
192.168.1.253运行DataNode、NodeManager
192.168.1.252运行DataNode、NodeManager
1.3   安装准备
需要以下软件：
VMware-workstation-full-9.0.2-1031769.exe；
rhel-server-6.4-x86_64-dvd[ED2000.COM].iso；
jdk-7-linux-x64.rpm.rpm：JDK 1.7.0_55版本；
hadoop-2.2.0.tar.gz：官网下载；
eclipse-standard-kepler-SR2-linux-gtk-x86_64.tar.gz：用于开发（开发需要下载Hadoop源代码：hadoop-2.2.0-src.tar.gz）；
Winscp：用于Windows和Linux之间互传文件；
VNC服务端相关：远程桌面
tigervnc-1.1.0-5.el6.x86_64.rpm
tigervnc-server-1.1.0-5.el6.x86_64.rpm
xorg-x11-fonts-misc-7.2-9.1.el6.noarch.rpm
VNC客户端相关：vnc-E4_5_1-x86_x64_win32.exe，远程桌面客户端
SecureCRT ：HAP_SecureCRT_5.1.3.exe，远程登录

2   操作系统安装
2.1.1   BIOS打开虚拟化支持
利用虚拟机方式安装，安装时需要注意的问题是需要在BIOS中打开Intel CPU的虚拟化支持。不同的主板其位置不同，如：

其原因是，Intel CPU 要求芯片和 BIOS 支持 EM64T 和 VT（Virtualization Technology，虚拟化技术），以运行 64 位虚拟机。

2.1.2 关闭防火墙
Redhat使用了SELinux来增强安全，关闭的办法为：
（1）永久有效：修改 /etc/selinux/config 文件中的 SELINUX="" 为 disabled ，然后重启。
（2）即时生效：setenforce 0
（3）永久性关闭：chkconfig iptables off
（4）即时生效，重启后失效：service iptables stop

安装好操作系统后，最好保证SSH存在、VNC存在、防火墙关闭。

2.1.3 安装VNC
如果对VI操作不够熟悉，也可以使用界面形式，需要在Linux上启动VNC服务器，在Windows上安装VNC客户端。
VNC服务器有的Linux存在，在RedHat如果不存在，需要在安装光盘中找出三个rpm文件：
xorg-x11-fonts-misc-7.2-9.1.el6.noarch.rpm
tigervnc-1.1.0-5.el6.x86_64.rpm
tigervnc-server-1.1.0-5.el6.x86_64.rpm
由于存在依赖特性，先安装xorg-x11-fonts-misc-7.2-9.1.el6.noarch.rpm，再安装剩下两个。
启动VNC的前提是防火墙关闭，命令为vncserver即可，多敲几个vncserver可以打开多个远程桌面终端。

客户端访问：

1表示当前的远程桌面终端号。

3   JAVA安装
3.1   配置目的
Hadoop本身是JAVA开发的，因此需要安装JAVA虚拟机以支持其运行。如果只是线上部署，可以安装JRE，如果还需要开发，则安装JDK，建议安装JDK，因为其包含了JRE。并且建议安装7.0以上版本。
3.2   配置过程
由于操作系统本身为64位，因此下载的JDK版本为基于Linux的64位。三台机器均安装JDK，版本为1.7.0_55，64位。
oracle网站下载：jdk-7-linux-x64.rpm.rpm
拷贝至各台机器后，运行rpm –ivh jdk-7-linux-x64.rpm.rpm即可完成安装。
安装路径默认为：/usr/java/jdk1.7.0_55

在/etc/profile配置文件（也可在/etc/profile.d/java.sh中加入，本质是一样的，只是profile.d是目录）后面加入：
export JAVA_HOME=/usr/java/jdk1.7.0_55
export PATH=$PATH:$JAVA_HOME/jre/bin:$JAVA_HOME/bin

并使用source /etc/profile使之立即生效（这是一个很有用的命令）。

如图：

理论上，不配置JAVA_HOME也可以，在Hadoop的配置文件再具体指定也可以保证Hadoop启动，但设置好一些常用的环境变量要方便很多。

3.3 结果验证
测试JAVA是否安装成功：
[root@MasterHost ~]# java -version
java version "1.7.0_55"
Java(TM) SE Runtime Environment (build 1.7.0_55-b13)
Java HotSpot(TM) 64-Bit Server VM (build 24.55-b03, mixed mode)
[root@MasterHost ~]#
出现上面的版本信息表示安装成功。如图：

[root@MasterHost ~]# echo $JAVA_HOME
/usr/java/jdk1.7.0_55
出现上述信息表示环境变量设置成功。
如图为配置结果查看：

4   主机名配置
4.1   配置目的
实际上就是类似于DNS的作用，使得各台机器之间通过主机名访问，而不是IP地址直接访问。这主要是为了在写Hadoop配置文件时无需写IP地址，直接写主机名即可，防止IP地址变化出现问题。
4.2   配置过程
在三台机器的/etc/hosts文件中都加入以下内容：
192.168.1.254 Master
192.168.1.253 Slave1
192.168.1.252 Slave2
如图为配置结果：

同时，在各自的/etc/sysconfig/network文件中的HOSTNAME改为相应内容，如192.168.1.254中需要修改为：
[root@MasterHost CYX]# cat /etc/sysconfig/network
NETWORKING=yes
#HOSTNAME=localhost.localdomain
HOSTNAME=Master
重启网络服务后主机名更改生效：service network restart
如图：

4.3 结果验证
Master、Slave1、Slave2之间互相能ping通，如：

5   增加hadoop用户
5.1   配置目的
不在root下进行安装的目的是防止对操作系统进行的某些改动，可能影响了服务器上其它的服务，起到隔离作用。并且在删除Hadoop服务时较为方便。
5.2   配置过程
增加用户组：groupadd hadoop
增加用户（放置hadoop用户组中）：useradd -g hadoop hadoop
利用root 用户修改hadoop用户密码：passwd hadoop
如图：

5.3 结果验证
可以查看/home文件夹下面是否创建了hadoop用户，默认情况下，创建的用户位于/home目录下：

如果该用户要操作其它目录的文件，需要root用户进行权限分配，后面可以看出这一点。
6   Hadoop用户无密码访问配置
6.1   配置目的
需求是每个机器都可以无密码SSH到其他的机器（当然可以是root，也可以是其他的用户，此处用户是hadoop）。因此，这一步的前提是所有机器的hadoop已经正确创建。
6.2   配置过程
1、各个机器都进入到hadoop用户中，进入根目录：
su hadoop（切换进hadoop用户）
cd ~（进入用户根目录，即/home/hadoop）
2.所有机器各自生成私钥、公钥：
ssh-keygen -t rsa
直接打Enter就可以，如果提示覆盖就选择Y
如图所示：

进入.ssh目录：
cd .ssh
在这个目录下面就可以看到以下两个文件
id_dsa id_dsa.pub
如图所示：

其中，id_rsa是本机的私钥，id_rsa.pub是本机的公钥（公钥是给其它机器使用的，私钥是自己保留的，两者匹配表明验证通过，但理论上也可以反过来？），需要将公钥拷贝到其它要访问本机的机器上。

为了方便拷贝，这里采用的策略是：先将所有公钥拷贝至Master机器，之后再全部复制至其它机器。
三台机器都生成了以上的公钥后：
在Master的hadoop用户下的.ssh目录创建Slave1和Slave2文件夹：

到Slave1和Slave2机器上分别将各自的公钥拷贝至Master的Slave1和Slave2文件夹：
Slave1机器的.ssh目录中操作：
scp id_rsa.pub [email protected]:/home/hadoop/.ssh/Slave1
Slave2机器的.ssh目录中操作：
scp id_rsa.pub [email protected]:/home/hadoop/.ssh/Slave2
如图为Slave1的拷贝：

如图为Slave2的拷贝：

到Master机器上查看结果：

scp是Linux机器之间拷贝文件的很有用的一个命令。
du –a可以查看所有文件夹及子文件夹下面的所有文件（这是另一个很有用的命令）。
还可以查看确认是否拷贝正确：

下面就是将上面的三部分内容拷贝至文件authorized_keys：
[hadoop@master .ssh]$ touch authorized_keys （创建新文件）
[hadoop@master .ssh]$ cat id_rsa.pub >> authorized_keys （>>表示追加至文件尾部）
[hadoop@master .ssh]$ cat Slave1/id_rsa.pub >> authorized_keys
[hadoop@master .ssh]$ cat Slave2/id_rsa.pub >> authorized_keys

修改authorized_keys的权限：
chmod 600 authorized_keys
这句话的含义是要保证authorized_keys只有用户自己有写权限，否则验证无效，防止出现系统漏洞。
注意：文件和目录的权限别设置成chmod 777（所有用户都可以任意访问），这个权限太大了，不安全。

再将authorized_keys拷贝至Slave1和Slave2机器上：
[hadoop@master .ssh]$ scp authorized_keys hadoop@Slave1:/home/hadoop/.ssh
[hadoop@master .ssh]$ scp authorized_keys hadoop@Slave2:/home/hadoop/.ssh

同样，都要改变访问权限：chmod 600 authorized_keys

此时即可以实现无密码访问：

6.3   结果验证
在hadoop用户下，3台机器上互相进行ssh能够无密码直接登录，如：
[hadoop@master .ssh]$ ssh Slave1
Last login: Sun Jul 6 16:03:37 2014 from slave2
[hadoop@slave1 ~]$ exit
logout
Connection to Slave1 closed.
[hadoop@master .ssh]$ ssh Slave2
Last login: Sun Jul 6 01:03:11 2014 from slave1
[hadoop@slave2 ~]$ exit
logout
Connection to Slave2 closed.
注意，测试时登录后需要exit退出，否则就相当于进入了另一台机器了。

7   Hadoop文件安装
7.1   配置目的
在三台机器上安装Hadoop。
7.2   配置过程
实质上只要将hadoop-2.2.0.tar.gz释放至某个地方即可。但考虑到三台机器都需要进行后续的配置文件更改，并且各个机器的配置文件几乎一样，因此这里可以先在Master机器上进行安装和配置，之后只需要拷贝过去即可。

这里计划安装于/usr目录下，但因为/usr目录下默认hadoop用户无法操作，因此先切换回root用户：
su –
然后将hadoop-2.2.0.tar.gz拷贝至/usr目录下：
cp hadoop-2.2.0.tar.gz /usr
释放：
[root@master usr]# tar -xzvf hadoop-2.2.0.tar.gz
赋予hadoop用户操作该文件夹的权利：
chown -R hadoop:hadoop /usr/hadoop-2.2.0/

7.3 结果验证
切换回hadoop用户，查看hadoop-2.2.0文件夹是否属于hadoop用户：

Yarn介绍 - 大数据框架 why do not 大数据 hadoop
YARN的概述YARN是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序YARN是Hadoop2.x版本中的一个新特性。它的出现其实是为了解决第一代MapReduce编程框架的不足，提高集群环境下的资源利用率，这些资源包括内存，磁盘，网络，IO等。Hadoop2.X版本中重新设计的这个YARN集群
大数据知识总结（三）：Hadoop之Yarn重点架构原理 Lansonli 大数据大数据 hadoop 架构 Yarn
文章目录Hadoop之Yarn重点架构原理一、Yarn介绍二、Yarn架构三、Yarn任务运行流程四、Yarn三种资源调度器特点及使用场景Hadoop之Yarn重点架构原理一、Yarn介绍ApacheHadoopYarn(YetAnotherReasourceNegotiator，另一种资源协调者)是Hadoop2.x版本后使用的资源管理器，可以为上层应用提供统一的资源管理平台。二、Yarn架构Y
《Hadoop系列》Docker安装Hadoop DATA数据猿 Hadoop Docker docker hadoop
文章目录Docker安装Hadoop1安装docker1.1添加docker到yum源1.2安装docker2安装Hadoop2.1使用docker自带的hadoop安装2.2免密操作2.2.1master节点2.2.2slave1节点2.2.3slave2节点2.2.4将三个容器中的authorized_keys拷贝到本地合并2.2.5将本地authorized_keys文件分别拷贝到3个容器中
Spark整合hive（保姆级教程）万家林 spark hive spark hadoop
准备工作：1、需要安装配置好hive，如果不会安装可以跳转到Linux下编写脚本自动安装hive2、需要安装配置好spark，如果不会安装可以跳转到Spark安装与配置（单机版）3、需要安装配置好Hadoop，如果不会安装可以跳转到Linux安装配置Hadoop2.6操作步骤：1、将hive的conf目录下的hive-site.xml拷贝到spark的conf目录下（也可以建立软连接）cp/opt
hadoop-yarn资源分配介绍-以及推荐常用优化参数 Winhole hadoop Linux
根据网上的学习，结合工作进行的一个整理。如果有什么不正确的欢迎大家一起交流学习~Yarn前言作为Hadoop2.x的一部分，YARN采用MapReduce中的资源管理功能并对其进行打包，以便新引擎可以使用它们。这也简化了MapReduce，使其能够做到最好，处理数据。使用YARN，您现在可以在Hadoop中运行多个应用程序，所有应用程序都共享一个公共资源管理。那资源是有限的，YARN如何识别资源并
Hadoop手把手逐级搭建第二阶段: Hadoop完全分布式(full) 郑大能
前置步骤:1).第一阶段：Hadoop单机伪分布(single)0.步骤概述1).克隆4台虚拟机2).为完全分布式配置ssh免密3).将hadoop配置修改为完全分布式4).启动完全分布式集群5).在完全分布式集群上测试wordcount程序1.克隆4台虚拟机1.1使用hadoop0克隆4台虚拟机hadoop1,hadoop2,hadoop3,hadoop41.1.0克隆虚拟机hadoop11.1
【解决方案】pyspark 初次连接mongo 时报错Class not found exception:com.mongodb.spark.sql.DefaultSource 能白话的程序员♫ Spark spark
部分报错如下：Traceback(mostrecentcalllast): File"/home/cisco/spark-mongo-test.py",line7,in df=spark.read.format("com.mongodb.spark.sql.DefaultSource").load() File"/home/cisco/spark-2.4.1-bin-hadoop2.
Hadoop-Yarn-ResourceManagerHA 隔着天花板看星星 hadoop 大数据分布式
在这里先给屏幕面前的你送上祝福，祝你在未来一年：技术步步高升、薪资节节攀升，身体健健康康，家庭和和美美。一、介绍在Hadoop2.4之前，ResourceManager是YARN集群中的单点故障ResourceManagerHA是通过Active/Standby体系结构实现的，在任何时候其中一个RM都是活动的，并且一个或多个RM处于备用模式，等待在活动发生任何事情时接管。二、架构官网的架构图如下：
java大数据hadoop2.9.2 hive操作 crud-boy java大数据大数据 hive hadoop
1、创建常规数据库表（1）创建表createtablet_stu2(idint,namestring,hobbymap)rowformatdelimitedfieldsterminatedby','collectionitemsterminatedby'-'mapkeysterminatedby':';（2）创建文件student.txt1,zhangsan,唱歌:非常喜欢-跳舞:喜欢-游泳:一般
java大数据hadoop2.9.2 Flume安装&操作 crud-boy java大数据大数据 flume
1、flume安装（1）解压缩tar-xzvfapache-flume-1.9.0-bin.tar.gzrm-rfapache-flume-1.9.0-bin.tar.gzmv./apache-flume-1.9.0-bin//usr/local/flume（2）配置cd/usr/local/flume/confcp./flume-env.sh.template./flume-env.shvifl
Hadoop2.7配置不会吐丝的蜘蛛侠。 Hadoop hadoop 大数据 hdfs
core-site.xmlfs.defaultFShdfs://bigdata/ha.zookeeper.quorum192.168.56.70:2181,192.168.56.71:2181,192.168.56.72:2181-->hadoop.tmp.dir/export/data/hadoop/tmpfs.trash.interval1440io.file.buffer.size13107
现成Hadoop安装和配置，图文手把手交你叫我小唐就好了一些好玩的事 hadoop 大数据分布式课程设计运维
为了可以更加快速的可以使用Hadoop，便写了这篇文章，想尝试自己配置一下的可以参考从零开始配置Hadoop，图文手把手教你，定位错误资源1.两台已经配置好的hadoop2.xshell+Vmware链接：https://pan.baidu.com/s/1oX35G8CVCOzVqmtjdwrfzQ?pwd=3biz提取码：3biz--来自百度网盘超级会员V4的分享两台虚拟机用户名和密码均为roo
如何对HDFS进行节点内(磁盘间)数据平衡格格巫 MMQ!! hadoop hdfs hdfs hadoop 大数据
1.文档编写目的当HDFS的DataNode节点挂载多个磁盘时，往往会出现两种数据不均衡的情况：1.不同DataNode节点间数据不均衡；2.挂载数据盘的磁盘间数据不均衡。特别是这种情况：当DataNode原来是挂载了几个数据盘，当磁盘占用率很高之后，再挂载新的数据盘。由于Hadoop2.x版本并不支持HDFS的磁盘间数据均衡，因此，会造成老数据磁盘占用率很高，新挂载的数据盘几乎很空。在这种情况下
spark运维问题记录 lishengping_max Spark spark
环境：spark-2.1.0-bin-hadoop2.71.Spark启动警告：neitherspark.yarn.jarsnotspark.yarn.archiveisset，fallingbacktouploadinglibrariesunderSPARK_HOME原因：如果没设置spark.yarn.jars，每次提交到yarn，都会把$SPARK_HOME/jars打包成zip文件上传到H
大数据组件部署下载链接运维道上奔跑者大数据 zookeeper hbase kafka hadoop hive
Hadoop2.7下载连接:https://archive.apache.org/dist/hadoop/core/hadoop-2.7.6/Hive2.3.2下载连接：http://archive.apache.org/dist/hive/hive-2.3.2/Zookeeper下载连接：https://archive.apache.org/dist/zookeeper/zookeeper-3.
【大数据开发运维解决方案】Hadoop+Hive+HBase+Kylin 伪分布式安装指南运维道上奔跑者大数据 hadoop 分布式
Hadoop2.7.6+Mysql5.7+Hive2.3.2+Hbase1.4.9+Kylin2.4单机伪分布式安装文档注意：####################################################################本文档已经有了最新版本，主要改动地方为：1、zookeeper改为使用安装的外置zookeeper而非hbase自带zookeeper，新
Hadoop2.7.6+Mysql5.7+Hive2.3.2+zookeeper3.4.6+kafka2.11+Hbase1.4.9+Sqoop1.4.7+Kylin2.4单机伪分布式安装及官方案例测运维道上奔跑者分布式 hbase zookeeper hadoop
####################################################################最新消息：关于spark和Hudi的安装部署文档，本人已经写完，连接：Hadoop2.7.6+Spark2.4.4+Scala2.11.12+Hudi0.5.1单机伪分布式安装注意：本篇文章是在本人写的Hadoop+Hive+HBase+Kylin伪分布式安装指南
hadoop2.0之环境搭建详细流程 hhf_Engineer
1、在安装hadoop2.0之前，需要准备好以下软件（如下图1）图1：然后将这两个软件共享到centos上（如下图2红箭头指向和图3红箭头指向所示）在vm这上面有个虚拟机，点击虚拟机后有个硬件和选项，点选项，下面有个共享文件夹。图2：点击虚拟机那个地方图3：添加上去以后按确定按钮即可！2、为了有个集群的概念，我们把一台linux机器复制成有三份！如下图4所示：注：在复制前，必须要把linux的机器
apache hadoop 2.4.0 64bit 在windows8.1下直接安装指南（无需虚拟机和cygwin）夜魔009 技术 windows8 hadoop 64bit 库 hdfs
工作需要，要开始搞hadoop了，又是大数据，自己感觉大数据、云，只是ERP、SOAP风潮之后与智能地球一起诞生的概念炒作。不过Apache是个神奇的组织，Java如果没有它也不会现在如火中天。言归正传：首先需要下载Apachehadoop2.4.0的tar.gz包，到本地解压缩到某个盘下，注意路径里不要带空格。否则你配置文件里需要用windows8.3格式的路径！第二确保操作系统是64bit，已
docker搭建单机hadoop 阿桔是只猫大数据 hadoop docker 大数据
docker搭建单机hadoop前言一、docker是什么？二、hadoop是什么？三、使用步骤1.下载jdkhadoop2.编写Dockerfile3.构建镜像4.运行镜像5.创建客户端前言在华为云上使用docker搭建一个简单的hadoop单机环境。一、docker是什么？Docker是一个开源的应用容器引擎。开发者将需要的东西整理成镜像文件，然后再容器化这些镜像文件，容器之前相互隔离，互不影
Hadoop-生产调优(更新中) OnePandas Hadoop hadoop 大数据分布式
第1章HDFS-核心参数1.1NameNode内存生产配置1）NameNode内存计算每个文件块大概占用150byte，一台服务器128G内存为例，能存储多少文件块呢？128*1024*1024*1024/150byte≈9.1亿GMBKBByte2）Hadoop2.x系列，配置NameNode内存NameNode内存默认2000m，如果内存服务器内存4G，NameNode内存可以配置3g。在ha
大数据-Hadoop概论 Mr.史 Hadoop hadoop 大数据
文章目录大数据概论1、大数据概念2、大数据特点1、Volume(大量)2、Velocity(高速)3、Variety(多样)4、Value(低价值密度)3、大数据应用场景4、大数据部门业务流程分析5、大数据部门组织机构Hadoop1、Hadoop是什么？2、Hadoop发展史3、Hadoop三大发行版本1、ApacheHadoop2、ClouderaHadoop3、HortonworksHadoo
Elk运维-Elastic7.6.1集群安装部署消逝的bug 运维 elk 数据库
集群安装结果说明实例配置安装软件安装账号hadoop12C4G磁盘：50G云服务器elasticsearchkibanardhadoop22C4G磁盘：50G云服务器elasticsearchrdhadoop32C4G磁盘：50G云服务器elasticsearchrd整个安装过程使用的账号：root、rd(自己新建的账号)安装包下载：下载包中包含esfilebeatkibanaik等相关软件链接：
记一次Flink自带jar包与第三方jar包依赖冲突解决一枚小刺猬 flink flink jar hadoop
flink版本1.14.5hadoop2.6.0为了实现flink读取hive数据写入第三方的数据库，写入数据库需要调用数据库的SDK，当前SDK依赖的protobuf-java-3.11.0.jar，guava-29.0-android.jar与flink中lib下的部分jar包冲突，flink与hadoop、hive编译的jar中使用的guava，protobuf都要低于第三方sdk，因此会遇
[SparkSQL] Rdd转化DataFrame 通过StructType为字段添加Schema 林沐之森
1、开发环境spark-2.1.0-bin-hadoop2.62、Rdd转换成DataFrame，为字段添加列信息参数nullable说明：Indicatesifvaluesofthisfieldcanbenullvaluesvalschema=StructType(List(StructField("name",StringType,nullable=false),StructField("ag
YARN 工作原理无羡爱诗诗
1、Hadoop2新增了YARN，YARN的引入主要有两个方面的变更：其一、HDFS的NameNode可以以集群的方式部署，增强了NameNode的水平扩展能力和高可靠性，水平扩展能力对应HDFSFederation，高可靠性对应HA。其二、MapReduce将Hadoop1时代的JobTracker中的资源管理及任务生命周期管理拆分成两个独立的组件，资源管理对应ResourceManager，任
Hadoop2.0架构及其运行机制，HA原理 Toner_唐纳大数据
文章目录一、Hadoop2.0架构1.架构图2.HA1)NameNode主备切换2)watcher监听3)脑裂问题3.组件1.HDFS2.MapReduce3.Yarn1.组件2.调度流程一、Hadoop2.0架构1.架构图以上是hadoop2.0的架构图，根据hadoop1.0的不足，改进而来。1.NameNode节点，由原先的一个变成两个,解决单点故障问题2.JournalNode集群，处理E
idea上搭建pyspark开发环境 jackyan163
1环境版本说明python版本：Anaconda3.6.5spark版本：spark-2.4.8-bin-hadoop2.7idea版本：2019.32环境变量配置2.1python环境变量配置将python.exe所在的目录配置到path环境变量中2.2spark环境变量配置下载spark安装包，我下载的是spark-2.4.8-bin-hadoop2.7.tgz将安装包解压到一个非中文目录配置
指导手册05：MapReduce编程入门 weixin_30655219 大数据
指导手册05：MapReduce编程入门Part1:使用Eclipse创建MapReduce工程操作系统：Centos6.8,hadoop2.6.4情景描述：因为Hadoop本身就是由Java开发的，所以通常也选用Eclipse作为MapReduce的编程工具，本小节将完成Eclipse安装，MapReduce集成环境配置。1．下载与安装Eclipse（1）在官网下载Eclipse安装包“Ecli
Hadoop-HDFS高可用隔着天花板看星星 hadoop hdfs 大数据
一、说明在我的博客中已经包含了HDFS高可用的搭建，这里描述下它的原理。原理参考官网介绍：ApacheHadoop3.3.6–HDFSHighAvailabilityUsingtheQuorumJournalManager二、背景在Hadoop2.0.0之前，NameNode是HDFS集群中的单点故障（SPOF）。每个集群只有一个NameNode，如果NameNode节点发生故障会导致整个集群不可
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S

Hadoop2.2.0安装过程记录

你可能感兴趣的:(hadoop2)