大数据
——hadoop
——基本安装、hadoop伪分布
熟练掌握java基础,具备java基础开发能力
内存:8G以上,推荐12G
磁盘:150G以上空闲磁盘
操作系统:ubuntu-14.04.1-desktop-amd64.iso
Jdk:
jdk-8u111-linux-x64.tar.gz
jdk-8u111-windows-x64.exe
hadoop:
hadoop-2.7.2.tar.gz
hadoop-2.7.2-src.tar.gz
[/etc/hostname]
namenode
[/etc/hosts]
127.0.0.1 localhost
10.204.111.139 namenode
10.204.111.133 secondarynamenode
10.204.111.148 datanode1
10.204.111.157 datanode2
10.204.111.158 datanode3
10.204.111.147 namenode2
-------------------
[C:\Windows\System32\drivers\etc\hosts]
----------------------------
1、ctrl + alt + f6 // 文本模式
2、ctrl + alt + f7 // 桌面模式
修改/etc/default/grub文件
1、sudo nano/etc/default/grub
GRUB_CMDLINE_LINUX_DEFAULT="text"
GRUB_TERMINAL=console
2、sudoupdate-grub // 让改动生效
3、startx //在文本模式下启动图形界面
1、使用sudo apt-get installvsftp命令安装vsftp,安装软件需要root权限
2、安装好ftp后默认是会自动创建ftp用户的,然后我们设置ftp用户的密码,输入
sudopasswd ftp,然后输入密码,再确认密码hadoop
3、创建ftp用户的家目录,使用sudomkdir /home/ftp命令
4、设置ftp家目录的权限,我这里为方便直接使用sudo chmod 777 /home/ftp命令将权限设置为777
5、对/etc/vsftpd.conf配置文件进行一定的修改
将配置文件中”anonymous_enable=YES“改为“anonymous_enable=NO”(是否允许匿名ftp,若不允许选NO)
取消如下配置前的注释符号:
local_enable=YES(是否允许本地用户登录)
write_enable=YES(是否允许本地用户写的权限)
chroot_local_user=YES(是否将所有用户限制在主目录)
chroot_list_enable=YES(是否启动限制用户的名单)
chroot_list_file=/etc/vsftpd.chroot_list(可在文件中设置多个账号)
6、然后重启ftp服务,使用命令sudoservice vsftpd restart重启ftp服务。
7、如果登录ftp总是出现密码错误,可以将/etc/vsftpd.conf配置文件的pam_service_name=vsftpd改为pam_service_name=ftp,即可解决。
1、禁用wifi
2、关闭防火墙
3、client能够访问外网
4、修改ubuntu的软件源
[/etc/apt/sources.list]
5、安装ssh
apt-getinstall ssh
6、检查进程,是否启动了sshd服务
7、生成密钥对(防止权限过大)
ssh-keygen-t rsa -P '' -f ~/.ssh/id_rsa(在A机器生成密钥文件和私钥文件)
8、导入公钥到授权文件
cat~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys(把A机器生成密钥文件拷贝到B机器并执行命令)
9、测试
sshlocalhost
10、ssh 删除缓存ssh-keygen –r ...
11、添加ssh免密登录,在各自账号下登录
解压tar -xzvf jdk-8u111-linux-x64.tar.gz
移动解压的jdk移动到/soft目录mv jdk1.8.0_111/ /soft
进入/soft目录创建jdk链接ln -s jdk1.8.0_111/ jdk
使用root账号创建环境变量[/etc/environment][/etc/profile]
PATH=$PATH:/soft/jdk/bin
JAVA_HOME=/soft/jdk/
使环境变量生效source /etc/profile
检查java安装情况java –version。如下图所示,说明安装成功
0、分布式
由分布在不同主机上的进程协同在一起,才能构成整个应用
1、海量数据
1byte=8bit
1024B=1M2^10
1024M=1G2^10
1024G=1T2^10
1024T=1P2^10
1024P=1E2^10
1024E=1Z2^10
1024Z=1Y2^10
1024Y=1N2^10
2、存储
分布式存储
3、计算
分布式计算
4、hadoop(一头大象)
dougcutting
https://www.apache.org
0、可靠、可伸缩、分布式计算的开源软件
hadoop是分布式计算大规模数据集框架,使用简单编程模型,可从单个服务器扩展到几千台主机,每台主机都提供了本地计算和存储,不需要使用硬件来获取高可用性,类库在应用层处理检测并处理故障,因此在集群之上获取HA服务
99.999%
1、hdfs
hadoopdistributed file system .gfs
2、去IOE
IBM+ Oracle + EMC
3、MapReduce
MR// 映射和化简,编程模型
4、概况
facebook// 1400台/1.12万cpu/15PB
baidu//上万台/存储100PB
Volumn// 体量大
Variaty// (样式多,结构化、半结构化、非结构化)
Velocity// 速度快(电商等产生速度快)
Valueless// 价值密度低
1.hadoop common // 公共类库,支持其他模块
2.HDFS
namenode// 名称节点
datanode// 数据节点
secondarynamenode// 辅助名称节点
3.hadoop yarn // yet another resource, 作业调度和资源管理的框架
resourcemanager// 资源管理器
nodemanager//节点管理器
4.hadoop mapreduce // 基于yarn系统的大数据集并行处理技术
1、解压tar -xzvfhadoop-2.7.2.tar.gz
2、移动解压文件到/soft
mvhadoop-2.7.2 /soft
3、创建连接
cd/soft
ln-s hadoop-2.7.2/ hadoop
4、环境变量
[/etc/environment]
PATH=”...:/soft/hadoop/bin:/soft/hadoop/sbin”
HADOOP_HOME=/soft/hadoop
[etc/profile]
PATH=...:/soft/hadoop/bin:/soft/hadoop/sbin
HADOOP_HOME=/soft/hadoop
5、使环境变量生效
source/etc/environment
source/etc/profile
6、测试
hadoopversion // 如果找不到jdk,重启机器
Hadoop三种模式本地、伪分布、全分布
1、Standalone | local
独立/本地模式,使用的是本地文件系统
nothing!
a.没有守护进程,所有程序允许在同一JVM中,利于test和debug
b.查看文件系统
$>hadoop fs -ls / 查看本地文件系统
2、Pseudo distributedMode // 伪分布模式
a、把hadoop-2.7.2分成3份,放在/soft/hadoop_etc目录中。
b、分别名称成hadoop_fully、hadoop_local、hadoop_pseudo,如下图:
c、重新创建hadoop链接指定到hadoop_etc/hadoop_pseudo
ln -s hadoop_etc/hadoop_pseudo/ hadoop
d、修改/soft/hadoop_etc/hadoop_pseudo/etc/hadoop中的配置文件
3、Fully DistributedMode
后面详细介绍
1、查看hadoop进程个数(5)
$>jps
nn
dn
2nn
rm
nm
2、启动所有进程
$>start-all.sh
3、如果进程不对,杀死所有进程
$>stop-all.sh
4、重新格式化系统
$>hadoopnamenode -format // 重启需要格式化,因为在/tmp
1.hdfs webui
http://localhost:50070
2.datanode
http://localhost:50075
3.2nn
http://localhost:50090
hadoop fs
hadoop fs -mkdir -p /usr/hadoop/data //创建目录
hadoop fs -put hello.txt /usr/hadoop/data//上传
hdfs整体控制文件的思路如下图所示:
HADOOP_HOME=E:\gxf\学习\hadoop\tools\hadoop-2.7.2
注意:如果配置之后,eclipse中找不到,可以重启eclipse进行查找
Path=...;E:\gxf\学习\hadoop\tools\hadoop-2.7.2\bin