fseast

虚拟机上的Hadoop伪分布式和完全分布式的搭建

一、Hadoop

1.Hadoop的组成

简单了解一下Hadoop2.x时代的组成：
HDFS 负责数据存储
Yarn 负责资源调度
MapReduce 负责计算
Common 辅助工具

1.1HDFS架构概述

HDFS(Hadoop Distributed File System)
（1）NameNode (nn)：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的快列表和块所在的DataNode等。
（2）DataNode (dn)：在本地文件系统存储文件块数据，以及块数据的校验和。
（3）Secondary NameNode (2nn)：用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。

1.2YARN架构概述

ResourceManager（RM）主要作用如下：
（1）处理客户端请求
（2）监控NodeManager
（3）启动或监控ApplicationMaster
（4）资源的分配与调度
NodeManger（NM）主要作用如下：
（1）管理单个节点上的资源
（2）处理来自ResourceManager的命令
（3）处理来自ApplicationMaster的命令
ApplicationMaster（AM）作用如下：
（1）负责数据的切分
（2）为应用程序申请资源并分配给内部的任务。
（3）任务的监控与容错。
Container
Container是YARN中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等。

1.3MapReduce架构概述

MapReduce 将计算过程分为两个阶段：Map和Reduce：
（1）Map阶段并行处理输入数据。
（2）Reduce阶段对Map结果进行汇总

二、Hadoop的搭建

1.运行环境

前期准备这一部分看需求进行配置

   修改 vim /etc/udev/rules.d/70-persistent-net.rules , 拷贝mac地址
   修改 vim /etc/sysconfig/network-scripts/ifcfg-eth0 , 修改mac地址以及IP地址
   修改 vim /etc/sysconfig/network  修改主机名
   修改 vim /etc/hosts ,配置 IP与主机名的映射.

修改主机名

 vim /etc/sysconfig/network

配置IP与主机名的映射：

vim /etc/hosts

添加如下内容：

192.168.17.101 hadoop101
192.168.17.102 hadoop102
192.168.17.103 hadoop103
192.168.17.104 hadoop104

关闭防火墙
查看防火墙状态：

service iptables status

临时关闭防火墙：

service iptables stop

开机时关闭防火墙：

chkconfig iptables off

创建Linux用户
这里添加了名为 fseast 的新用户：

useradd fseast
passwd fseast

配置Linux用户具有root权限
对/etc/sudoers文件添加：

fseast ALL=(ALL)       NOPASSWD:ALL

NOPASSWD是普通用户sudo的时候不需要密码。
接下来的操作都将使用fseast用户操作

创建文件夹
在/opt下创建 software 和 module 两个目录，一个存放软件包，一个放解压后的文件。（使用fseast用户创建要使用sudo）
改变这两个目录所有者：

 chown fseast:fseast 目录

关闭图形化界面：
修改 /etc/inittab

id:3:initdefault:

1.1安装JDK

这里使用的Linux版本是Centos6.8，
JDK版本是1.8，
Hadoop版本是2.7.2

安装JDK
先把软件包上传到software 目录
解压：

tar -zxvf jdk-8u144-linux-x64.tar.gz -C /opt/module/

配置环境变量：
在/etc/profile文件加上：

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin

使其生效：

source /etc/profile

测试jdk是否安装成功：

java -version

1.2安装Hadoop

Hadoop下载地址：
https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/

上传安装包到software，解压：

tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module/

解压后查看目录结构：

（1）bin目录：存放对Hadoop相关服务（HDFS,YARN）进行操作的脚本
（2）etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件
（3）lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）
（4）sbin目录：存放启动或停止Hadoop相关服务的脚本
（5）share目录：存放Hadoop的依赖jar包、文档、和官方案例

将Hadoop添加到环境变量：
在/etc/profile文件添加：

export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

使其生效：

source /etc/profile

测试是否安装成功：

 hadoop version

2.伪分布式运行模式

2.1配置文件说明

Hadoop配置文件分为两类：默认配置文件和自定义配置文件，只有用户想修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值。
（1）默认配置文件：

（2）自定义配置文件:
core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上，用户可以根据项目需求重新进行修改配置。

2.2启动HDFS并运行MapReduce程序

(1). 修改配置文件：
进入/opt/module/hadoop-2.7.2/etc/hadoop 目录
（a）配置：hadoop-env.sh
修改改配置文件的JAVA_HOME路径（其实单台节点不配JAVA_HOME也可以读的到该变量）：

export JAVA_HOME=/opt/module/jdk1.8.0_144

（b）配置：core-site.xml

<configuration>

<property>
<name>fs.defaultFSname>
    <value>hdfs://hadoop101:9000value>
property>


<property>
	<name>hadoop.tmp.dirname>
	<value>/opt/module/hadoop-2.7.2/data/tmpvalue>
property>
configuration>

（c）配置：hdfs-site.xml

<configuration>

<property>
        <name>dfs.replicationname>
        <value>1value>
property>
configuration>

(2). 启动集群
（a）格式化NameNode（第一次启动时格式化，以后就不要总格式化，原因下面说）

bin/hdfs namenode -format

（b）启动NameNode

hadoop-daemon.sh start namenode

（c）启动DataNode

hadoop-daemon.sh start datanode

(3). 查看集群
（a）查看是否启动成功

[fseast@hadoop101 hadoop-2.7.2]$ jps
5203 DataNode
5353 Jps
5102 NameNode

（b）web端查看HDFS文件系统
http://hadoop101:50070/
使用hadoop101的话需要配置Windows的hosts文件。
成功进入：
（c）查看产生的Log日志
要习惯根据日志提示信息去分析问题、解决Bug。
这里日志文件目录为：/opt/module/hadoop-2.7.2/logs

(4). 操作集群：
（a）在HDFS文件系统上创建一个input文件夹

hdfs dfs -mkdir -p /user/fseast/input

（b）将测试文件内容上传到文件系统上
先在本地创建一个文件wc.input，并写入一些单词，然后上传到文件系统上：

hdfs dfs -put wc.input /user/fseast/input

（c）运行MapReduce程序

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/fseast/input/ /user/fseast/output

这个 /user/fseast/output目录不用提前在HDFS创建。

（d）查看输出结果

hdfs dfs -cat /user/fseast/output/*

浏览器查看：

【为什么不能重复格式化NameNode？】
Hadoop的NameNode和DataNode有对应的clusterID，NameNode的cID在/opt/module/hadoop-2.7.2/data/tmp/dfs/name/current/VERSION文件中，DataNode的cID在/opt/module/hadoop-2.7.2/data/tmp/dfs/data/current/VERSION文件中，正常情况下这NameNode和DataNode的cID要一致。当重复格式化NameNode的时候，会导致NameNode的clusterID与DataNode的clusterID不一致。启动的时候便会出现问题。
所以，以后一定要格式化的时候，先关闭进程，删除/opt/module/hadoop-2.7.2下的data和logs这两个目录。
我截了NameNode的clusterID与DataNode的clusterID：

2.3启动YARN并运行MapReduce程序

（1）配置集群
（a）配置yarn-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

（b）配置yarn-site.xml


<property>
 		<name>yarn.nodemanager.aux-servicesname>
 		<value>mapreduce_shufflevalue>
property>


<property>
<name>yarn.resourcemanager.hostnamename>
<value>hadoop101value>
property>

（c）配置：mapred-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

（d）配置： (对mapred-site.xml.template复制一份并重新命名为) mapred-site.xml


<property>
		<name>mapreduce.framework.namename>
		<value>yarnvalue>
property>

切记上面的配置都要在内

（2）启动集群
（a）启动前必须保证NameNode和DataNode已经启动
（b）启动ResourceManager

yarn-daemon.sh start resourcemanager

（c）启动NodeManager

yarn-daemon.sh start nodemanager

截图：

（3）集群操作
（a）YARN的浏览器页面查看：http://hadoop101:8088
如图所示：
（b）删除文件系统上的output文件

hdfs dfs -rm -R /user/fseast/output

（c）执行MapReduce程序

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/fseast/input /user/fseast/output

执行MapReduce程序的时候，如果你一直刷新页面，就可以看的到变化：

2.4配置历史服务器

为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下：

配置mapred-site.xml:


<property>
<name>mapreduce.jobhistory.addressname>
<value>hadoop101:10020value>
property>

<property>
    <name>mapreduce.jobhistory.webapp.addressname>
    <value>hadoop101:19888value>
property>

启动历史服务器

mr-jobhistory-daemon.sh start historyserver

查看历史服务器是否启动：
查看JobHistory：http://hadoop101:19888/jobhistory
如图所示：
点击上方圈起来的位置：
再点击圈起来的地方：
他说没有开启聚集，那就开启一下日志的聚集：

2.5配置日志的聚集

配置yarn-site.xml:


<property>
<name>yarn.log-aggregation-enablename>
<value>truevalue>
property>


<property>
<name>yarn.log-aggregation.retain-secondsname>
<value>604800value>
property>

关闭NodeManager 、ResourceManager和HistoryServer

[fseast@hadoop101 hadoop]$ yarn-daemon.sh stop resourcemanager
[fseast@hadoop101 hadoop]$ yarn-daemon.sh stop nodemanager
[fseast@hadoop101 hadoop]$ mr-jobhistory-daemon.sh stop historyserver

启动NodeManager 、ResourceManager和HistoryServer

[fseast@hadoop101 hadoop]$ yarn-daemon.sh start resourcemanager
[fseast@hadoop101 hadoop]$ yarn-daemon.sh start nodemanager
[fseast@hadoop101 hadoop]$ mr-jobhistory-daemon.sh start historyserver

删除HDFS上已经存在的输出文件

hdfs dfs -rm -R /user/fseast/output

执行WordCount程序

[fseast@hadoop101 hadoop-2.7.2]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/fseast/input /user/fseast/output

再按照上面，查看日志，
先进JobHistory，http://hadoop101:19888/jobhistory

3.完全分布式运行模式

3.1虚拟机准备

再准备三台虚拟机：hadoop102、hadoop103、hadoop104，修改主机名，IP地址，配置/etc/hosts文件，

3.2编写集群分发脚本

scp（secure copy）安全拷贝
把上面安装好的jdk和Hadoop发送到新建的三台虚拟机(记得先停掉hadoop的那些进程)：

[fseast@hadoop101 opt]$ scp -r /opt/module root@hadoop102:/opt/
[fseast@hadoop101 opt]$ scp -r /opt/module root@hadoop103:/opt/
[fseast@hadoop101 opt]$ scp -r /opt/module root@hadoop104:/opt/

改变传过去目录的所有者：

[fseast@hadoop102 opt]$ sudo chown fseast:fseast -R module/

rsync 远程同步工具
rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。

实例：
把hadoop101机器上的/opt/software目录同步到hadoop102服务器的root用户下的/opt/目录：

[fseast@hadoop101 opt]$ sudo rsync -av /opt/software/ hadoop102:/opt/software

拷贝环境变量配置文件：

[fseast@hadoop101 etc]$ sudo rsync -av /etc/profile hadoop102:/etc/profile

使环境变量生效：source /etc/profile

脚本实现：
目的：后面在hadoop102节点上修改了某些文件时，不需要一个个传到另外两个节点，启动 shell 脚本时加上参数即可：
（a）在/home/fseast目录下创建bin目录，并在bin目录下xsync创建文件，文件内容如下：

[fseast@hadoop102 ~]$ mkdir bin
[fseast@hadoop102 ~]$ cd bin/
[fseast@hadoop102 bin]$ touch xsync
[fseast@hadoop102 bin]$ vim xsync

在该文件中编写如下代码：

#!/bin/bash
#1 获取输入参数个数，如果没有参数，直接退出
pcount=$#
if ((pcount==0)); then
echo no args;
exit;
fi

#2 获取文件名称
p1=$1
fname=`basename $p1`
echo fname=$fname

#3 获取上级目录到绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir

#4 获取当前用户名称
user=`whoami`

#5 循环
for((host=103; host<105; host++)); do
        echo ------------------- hadoop$host --------------
        rsync -av $pdir/$fname $user@hadoop$host:$pdir
done

（b）修改脚本 xsync 具有执行权限

[fseast@hadoop102 bin]$ chmod 777 xsync

（c）调用脚本形式：xsync 文件名称
如：
把/home/fseast/bin同步到其他两台节点：

[fseast@hadoop102 bin]$ xsync /home/fseast/bin

注意：如果将xsync放到/home/fseast/bin目录下仍然不能实现全局使用，可以将xsync移动到/usr/local/bin目录下。出现不能使用的情况，大多是全局变量PATH没有/home/fseast/bin路径。

3.3集群配置

以下的完全分布式配置是完整的配置，也就是默认没有配置伪分布式情况下的。

配置文件三个.env结尾的文件都只是配了 JAVA_HOME ，所以也可不配，只需要在/home/fseast/.bashrc文件中加上 source /etc/profile

NameNode，ResourceManager，SecondaryNameNode三个节点比较耗资源，最好不要放在同一台机器。

集群部署规划
SSH免密登录配置
(1) 生成公钥和私钥：

[fseast@hadoop102 ~]$ ssh-keygen -t rsa

然后按三次回车，就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）

(2) 将公钥拷贝到要免密登录的目标机器上

[fseast@hadoop102 .ssh]$ ssh-copy-id hadoop102
[fseast@hadoop102 .ssh]$ ssh-copy-id hadoop103
[fseast@hadoop102 .ssh]$ ssh-copy-id hadoop104

在hadoop103也要做相同操作，这里hadoop104可以操作也可以不做。

配置集群
配置集群的文件在hadoop102节点配置，配置完后再使用上面的脚本同步就好。
这里是按照没有配伪分布式情况下的配置文件，在前面配过伪分布式那么有些配过了那就不需要重复配了。
所用需要配置的文件都在目录：
/opt/module/hadoop-2.7.2/etc/hadoop/slaves

（1）核心配置文件
配置core-site.xml（伪分布式配过，只需要修改NameNode的节点名即可。）：


<property>
		<name>fs.defaultFSname>
      <value>hdfs://hadoop102:9000value>
property>


<property>
		<name>hadoop.tmp.dirname>
		<value>/opt/module/hadoop-2.7.2/data/tmpvalue>
property>

（2）HDFS配置文件
配置hadoop-env.sh（伪分布式配过）：

export JAVA_HOME=/opt/module/jdk1.8.0_144

配置hdfs-site.xml（副本数量伪分布式配过，不过需要修改）：


<property>
		<name>dfs.replicationname>
		<value>3value>
property>


<property>
      <name>dfs.namenode.secondary.http-addressname>
      <value>hadoop104:50090value>
property>

（3）YARN配置文件
配置yarn-env.sh（伪分布式配过）：

export JAVA_HOME=/opt/module/jdk1.8.0_144

配置yarn-site.xml（伪分布式配过，需要修改ResourceManager的地址，前面配的日志聚集也可保留）：


<property>
<name>yarn.log-aggregation-enablename>
<value>truevalue>
property>


<property>
<name>yarn.log-aggregation.retain-secondsname>
<value>604800value>
property>


<property>
		<name>yarn.nodemanager.aux-servicesname>
		<value>mapreduce_shufflevalue>
property>


<property>
		<name>yarn.resourcemanager.hostnamename>
		<value>hadoop103value>
property>

（4）MapReduce配置文件
配置mapred-env.sh（伪分布式配过）：

export JAVA_HOME=/opt/module/jdk1.8.0_144

配置mapred-site.xml（伪分布配过，没配过的需要复制mapred-site.xml.template文件并改名为mapred-site.xml再配置）：


<property>
<name>mapreduce.jobhistory.addressname>
<value>hadoop102:10020value>
property>

<property>
    <name>mapreduce.jobhistory.webapp.addressname>
    <value>hadoop102:19888value>
property>


<property>
		<name>mapreduce.framework.namename>
		<value>yarnvalue>
property>

（5）配置slaves（没有配过）：
为了群起集群的时候，知道哪台节点是从节点

hadoop102
hadoop103
hadoop104

在集群上分发配置好的Hadoop配置文件

[fseast@hadoop102 hadoop]$ xsync /opt/module/hadoop-2.7.2/

群起集群
（1）如果集群是第一次启动，需要格式化NameNode（注意格式化之前，一定要先停止上次启动的所有namenode和datanode进程，然后再删除data和log数据）

hdfs namenode -format

（2）启动HDFS
在hadoop102（NameNode）执行：

start-dfs.sh

（3）启动YARN
在hadoop103（ResourceManager）执行：

start-yarn.sh

（4）Web端查看SecondaryNameNode：
http://hadoop104:50090

集群启动/停止方式总结

各个服务组件逐一启动/停止
（1）分别启动/停止HDFS组件
hadoop-daemon.sh start / stop namenode / datanode / secondarynamenode
hadoop-daemon.sh start / stop datanode
hadoop-daemon.sh start / stop secondarynamenode
（2）启动/停止YARN
yarn-daemon.sh start / stop resourcemanager
yarn-daemon.sh start / stop nodemanager
各个模块分开启动/停止（配置ssh是前提）
（1）整体启动/停止HDFS

start-dfs.sh   /  stop-dfs.sh

（2）整体启动/停止YARN

 start-yarn.sh  /  stop-yarn.sh

下一篇：阿里云服务器上的Hadoop伪分布式和完全分布式的搭建

你可能感兴趣的:(Hadoop)

浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现程序员-石头山大数据实战案例大数据 hadoop 毕业设计毕设
博主介绍：✌全平台粉丝5W+,高级大厂开发程序员，博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来，同学门有不懂的毕设选题，项目以及论文编写等相关问题都可以和学长沟通，希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展，电商平台积累了海量的数据资源，这些数据不仅包括用户的基本信息、购物记录，还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
Hadoop常见面试题整理及解答叶青舟 Linux hdfs 大数据 hadoop linux
Hadoop常见面试题整理及解答一、基础知识篇：1.把数据仓库从传统关系型数据库转到hadoop有什么优势？答：（1）关系型数据库成本高，且存储空间有限。而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。（2）关系型数据库仅支持标准结构化数据格式，Hadoop不仅支持标准结构化数据格式
2025毕业设计指南：如何用Hadoop构建超市进货推荐系统？大数据分析助力精准采购计算机编程指导师 Java实战集 Python实战集大数据实战集课程设计 hadoop 数据分析 spring boot java 进货 python
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程序/安卓实战项目大数据实战项目⚡⚡文末获取源码文章目录⚡⚡文末获取源码基于hadoop的超市进货推荐系
Hadoop Common 之序列化机制小解猫君之上 #Apache Hadoop
1.JavaSerializable序列化该序列化通过ObjectInputStream的readObject实现序列化，ObjectOutputStream的writeObject实现反序列化。这不过此种序列化虽然跨病态兼容性强，但是因为存储过多的信息，但是传输效率比较低，所以hadoop弃用它。（序列化信息包括这个对象的类，类签名，类的所有静态，费静态成员的值，以及他们父类都要被写入）publ
深入理解hadoop(一)----Common的实现----Configuration maoxiao_jsd 深入理解----hadoop
属本人个人原创，转载请注明,希望对大家有帮助！！一,hadoop的配置管理a,hadoop通过独有的Configuration处理配置信息Configurationconf=newConfiguration();conf.addResource("core-default.xml");conf.addResource("core-site.xml");后者会覆盖前者中未final标记的相同配置项b
hadoop 0.22.0 部署笔记 weixin_33701564 大数据 java 运维
为什么80%的码农都做不了架构师？>>>因为需要使用hbase，所以开始对hbase进行学习。hbase是部署在hadoop平台上的NOSql数据库，因此在部署hbase之前需要先部署hadoop。环境：redhat5、hadoop-0.22.0.tar.gz、jdk-6u13-linux-i586.zipip192.168.1.128hostname：localhost.localdomain（
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(4) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！org.apache.hadoophadoop-com
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(3) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！xmlns:xsi="http://www.w3.or
深入解析HDFS：定义、架构、原理、应用场景及常用命令 CloudJourney hdfs 架构 hadoop
引言Hadoop分布式文件系统（HDFS，HadoopDistributedFileSystem）是Hadoop框架的核心组件之一，它提供了高可靠性、高可用性和高吞吐量的大规模数据存储和管理能力。本文将从HDFS的定义、架构、工作原理、应用场景以及常用命令等多个方面进行详细探讨，帮助读者全面深入地了解HDFS。1.HDFS的定义1.1什么是HDFSHDFS是Hadoop生态系统中的一个分布式文件系
Hadoop的搭建流程 lzhlizihang hadoop 大数据分布式
文章目录一、配置IP二、配置主机名三、配置主机映射四、关闭防火墙五、配置免密六、安装jdk1、第一步：2、第二步：3、第三步：4、第四步：5、第五步：七、安装hadoop1、上传2、解压3、重命名4、开始配置环境变量5、刷新配置文件6、验证hadoop命令是否可以识别八、全分布搭建7、修改配置文件core-site.xml8、修改配置文件hdfs-site.xml9、修改配置文件hadoop-en
hive搭建 -----内嵌模式和本地模式 lzhlizihang hive hadoop
文章目录一、内嵌模式（使用较少）1、上传、解压、重命名2、配置环境变量3、配置conf下的hive-env.sh4、修改conf下的hive-site.xml5、启动hadoop集群6、给hdfs创建文件夹7、修改hive-site.xml中的非法字符8、初始化元数据9、测试是否成功10、内嵌模式的缺点二、本地模式（最常用）1、检查mysql是否正常2、上传、解压、重命名3、配置环境变量4、修改c
Hadoop之mapreduce -- WrodCount案例以及各种概念 lzhlizihang hadoop mapreduce 大数据
文章目录一、MapReduce的优缺点二、MapReduce案例--WordCount1、导包2、Mapper方法3、Partitioner方法（自定义分区器）4、reducer方法5、driver（main方法）6、Writable（手机流量统计案例的实体类）三、关于片和块1、什么是片，什么是块？2、mapreduce启动多少个MapTask任务？四、MapReduce的原理五、Shuffle过
IAAS: IT公司去IOE-Alibaba系统构架解读 wishchin 心理学/职业 BigDataMini Spark PaaS
从Hadoop到自主研发，技术解读阿里去IOE后的系统架构原地址：......................云计算阿里飞天摘要：从IOE时代，到Hadoop与飞天并行，再到飞天单集群5000节点的实现，阿里一直摸索在技术衍变的前沿。这里，我们将从架构、性能、运维等多个方面深入了解阿里基础设施。【导读】互联网的普及，智能终端的增加，大数据时代悄然而至。在这个数据为王的时代，数十倍、数百倍的数据给各
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交