Swt_BigData

Hadoop 集群搭建伪分布式、集群/分布式

阅读本章需把笔者的如下两章做好才可进行

虚拟机VMware中安装linux系统CentOS

CentOS7设置静态IP以及windows下ping不通虚拟机、虚拟机ping不通外网解决方案

本教程适用于在 CentOS7 系统中安装 Hadoop2，详细介绍了从系统环境配置、Java环境配置到 Hadoop 安装及 Hadoop 集群配置，包括：单机、伪分布式以及分布式，步骤详细，辅以适当说明。相信按照步骤来，都能顺利搭建一个属于自己的 Hadoop 集群。

一：设置主机名及IP映射

在我们的实际工作中，Hadoop集群服务器不可能只有一台，两台，上百台也有可能，那么每台机器都有自己的IP的话容易太混淆，可以通过设置主机名对对服务器进行标识。

删除原有的内容，添加Master，并将此服务器作为集群中的主服务器，保存并退出(wq)

# vi /etc/hostname

使用vi编辑器编辑host文件，设置IP映射和主机名，在文件内容的尾部添加即可

至此我们主机的网络环境就已经配置好了，为了以后做Hadoop集群分布式我们需要再装一个CentOS7,我们直接从主机克隆内容过来在进行修改为从机就好。

出现以上内容，就是被克隆的机器没用关机，需要关机后克隆。

一直下一步直到出现选择怎样克隆，选择完整克隆。

填写虚拟机名称和路径

填写后点击完成稍等即可

克隆完成后，你的从机会出现在左栏中，启动即可

那么克隆下来后再次需要更改配置，你会发现克隆后是把你克隆的那个机器的内容全部克隆，只需修改此机的静态IP、主机名、和IP映射即可

输入:vi /etc/hosts 主机名和IP映射

输入：vi /etc/hostname 配置主机名

目前两个系统Master和Slave1的网络配置就完成了，Master和Slave1互相ping通自己的主机名和IP也能Ping通对方，也能ping通外网,那么再windos中呢个ping通Master和Slave1的主机名和IP吗，那么来试一下咯

还真能ping通IP 那么ping一下主机名试一下

可以ping通ip，但是windows下不能直接使用ping Master或ping Slave1来ping，因为windows下并没有对它们做主机名及IP的映射。那么我们就来做一下吧！

找到这个路径下的hosts文件，如果你是windows10的话需要剪贴到桌面进行修改，修改后再粘贴回这个文件

在文件内容尾部添加即可

那么配置完后我们再去试一下ping主机名

如图已经配置成功了，是不是感觉很简单！好那么我们继续往下走

创建hadoop用户

以上都是在虚拟机里的CentOS系统中操作，由于我们的网络配置都已配置完成，接下来笔者将使用xshell远程连接工具来操作（如果没有去百度要一个），在主机Master和从机Slave1中分别创建一个hadoop用户并授予管理员权限

1.创建用户并设置密码

执行如下命令即可:

# useradd -m hadoop -G root -s /bin/bash

# passwd

2.为hadoop授予管理员权限

# visudo

按ESC键盘，输入英文冒号，并输入98，找到 root ALL=(ALL) ALL

为了保险起见建议大家把 root这一行复制粘贴到下一行，把root改为hadoop即可，然后再次按ESC键，输入英文冒号wq保存并退出

配置SSH无密登陆

1：查看是否安装了SSH

不论是集群、还是单节点都需要SSH登陆(类似与一种远程链接，你可以任意登陆某台linux主机，并在上面执行命令)，但是CentOS都默认安装了SSH client、SSH server，那么使用Hadoop用户登陆并执行下列命令检测一下吧

$ rpm -qa | grep ssh

如图所说，检测到已经安装了 SSH server和 SSH clients，那么就不需要我们再去安装了，但如果未安装的话需要执行以下命令安装即可,其他依赖包yum会自动检测安装

$ sudo yum install openssh-clients

$ sudo yum install openssh-server

2：配置SSH无密登陆

目的:可以再Master中登陆到任意一台从机进行操作,无需输入密码

操作步骤:

1：在主机Master中生成密钥

$ cd ~/.ssh/ #切换到hadoop中的ssh目录下，如果没用这个目录，执行命令 hadoop localhost

$ ssh-keygen -t rsa # 会有提示，都按回车就可以

2：将Master中生成的密钥授权（authorized_keys）

$ cat id_rsa.pub # 查看生成的公钥

$ cat id_rsa.pub >> authorized_keys # 加入授权

$ chmod 600 authorized_keys # 修改文件权限，如果不修改文件权限，那么其它用户就能查看该授权文件，然后使用该密钥也能进行登录，不安全

3：将刚刚在Master中生成的密钥文件 authorized_keys拷贝到Slave1从机下.ssh文件中

当然你要先用hadoop用户登陆你的从机，看看从机是否有.ssh这个文件，如果没有，也要在主目录下输入ssh localhost（别忘了一定要在hadoop用户下操作，不然你就装在root或者别的用户下咯！）

4：在Master主机中进行拷贝,命令如下：

$ scp authorized_keys hadoop@Slave1:~/.ssh/

看到如上图就应该成功了，但为了保险起见我们要去从机(Slave1)进这个目录看一下这个授权文件在不在

那么从机已经有这个文件了，我们就要去主机去无密登陆以下从机，测一下我们的无密登陆,看到下图不需要输入密码就进入从机就成功了

安装JDK

在Master和Slave1中分别安装JDK，教程按照Master为例，Slave1仿照即可。

使用Hadoop登陆

1.下载安装包

从官网下载JDK的rpm包，笔者下载的是jdk1.8的rpm包

官网：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

2.安装JDK

我们在安装CentOS7时使用的是最小安装，所以系统就不会安装默认JDK了，但出于保险，我们还是使用命令检查是否安装了默认JDK

我们在安装CentOS的时候都是默认最小安装，应该不会有JDK，但是为了保险起见，我们还是要用命令查看一下

1：rpm -qa | grep java

2：rpm -qa | grep jdk

以上两种命令选择其一执行就可以，执行后如果有jdk的安装的话，使用以下命令依次写在即可

$ rpm -e --nodeps java包名

在Hadoop主题目录下新建文件夹installPkgs，用于我们存储安装包，使用rz命令将安装包上传到这个文件夹中

mkdir installpkgs #在home/hadoop/目录下新建

rz #将本地的文件上传到服务器中

上传完后的文件如下，文件只有读写权限，没有执行权限。

给安装包赋予运行权限

chmod 755 jdk-8u171-linux-x64.rpm

执行如下命令进行安装即可

rpm -ivh jdk-8u171-linux-x64.rpm

使用Vim编辑器打开.bashrc文件，配置变量

$ vim ~/.bashrc # linux中所有的隐藏文件前面都会有一个点.，bashrc就是一个隐藏文件

# ~的含义:表示用户的主题目录，Linux中每创建一个用户都会在home文件下创建一个与用户名相同名字的文件,由于我们刚才

创建一个Hadoop用户，那么主题目录就在/home/hadoop

配置环境变量

java安装成功后会默认放在/usr/java目录下，要想查看目录的地址而不想关闭正在编辑的bashrc文件如图下:

在新复制的渠道内如图查询地址右键复制

$ cd /usr/java/jdk（按Tab键自动补齐）

$ pwd # 查看当前目录

将路径复制好后在bashrc文件尾部添加环境变量

export JAVA_HOME=/usr/java/jdk1.8.0_171-amd64（路径选择你自己安装的jdk路径）

export PATH=$PATH:$JAVA_HOME/bin（追加到Path中）

环境变量配置好后，重新加载bashrc文件，让环境变量生效

source ~/.bashrc

输入如下命令查看环境变量是否成功，如图就表示已经成功了

$ echo $JAVA_HOME

$ java -version

安装Hadoop

1：hadoop简介： hadoop是一个开源可用于大规模集群上的分布式并行框架,核心：MapReduce和HDFS。基于Hadoop你可以轻松的编写处理海量数据的可处理海量数据和分布式并行程序，并将运行于成百上千个节点组成的大规模计算机集群中

HDFS：Hadoop Distributed File System 的缩写，Hadoop中的分布式文件系统，它是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，适合那些有着超大数据集（large data set）的应用程序。

MapResuce：MapReduce是一套从海量·源数据提取分析元素最后返回结果集的编程模型，将文件分布式存储到硬盘是第一步，从海量数据中提取分析我们需要的内容就是MapReduce做的事.

官网：http://hadoop.apache.org/

下载Hadoop

笔者下载的是2.8.3

2.安装Hadoop

将下载的Hadoop压缩文件tar.gz使用命令rz上传到installPkgs目录下

将hadoop解压文件解压到/usr/local/路径下，执行如下命令即可

sudo tar -zxf hadoop-2.8.3.tar.gz -C /usr/local/

修改文件名，将hadoop-2.8.3修改为hadoop，执行如下命令即可

sudo mv ./hadoop-2.8.3/ ./hadoop

更改hadoop用户的所属者及所属组。只让hadoop用户可以操作hadoop目录及子目录下的所有文件，执行如下命令即可

# chown -hR hadoop /usr/local/hadoop/ # 修改所有者为hadoop

# chgrp -hR hadoop /usr/local/hadoop/ # 修改所属组为hadoop

hadoop解压后即可使用，现在可以用命令来检测下是否可用

#cd/usr/local/hadoop/ #进入hadoop安装目录

#./bin/hadoop version #查看hadoop的版本号

如上图所致即为成功

配置环境变量

$ vim ~/.bashrc # 打开 bashrc 文件

添加如下内容，保存退出。

# Hadoop Environment Variables
export HADOOP_HOME=/usr/local/hadoop        # hadoop的安装目录，替换为你的hadoop的安装目录
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

在PATH追加Hadoop的环境变量

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin # JDK 是之前我们安装时配置的

重新加载bashrc文件，使配置的Hadoop环境生效

$ source ~/.bashrc

输入如下命令查看环境变量是否生效

$ echo $PATH

$ hadoop version # 成功会显示hadoop的版本信息

到此Hadoop已经安装完成，环境变量已经完成配置

现在我们要操作Hadoop了，但是之前我们需要关闭防火墙和selinxu守护进程,如果不关闭，hadoop在启动的时候可能报错既启动失败,主机从机都需要关闭。

$ systemctl status firewalld # 查看防火墙状态

$ systemctl stop firewalld # 关闭防火墙

关闭selinux守护线程：使用root用户

$ su root # 切换到rot用户

$ getenforce # 查看selinux守护线程的状态

$ setenforce 0 # 关闭selinux守护线程

$ exit # 回到原来的终端

Hadoop 伪分布式

Hadoop可以在单节点上以伪分布式的方式运行,Hadoop进程以分离的Java进程来运行，节点即为NameNode也作为DataNode,同时，读取的是HDFS文件中的文件

Hadoop的伪分布式的配置需要设置环境变量，伪分布式我们仍然使用主机Master即可，因为Master即为NameNode，同时也是DataNode

NameNode：主节点。存储文件的元数据如文件名，文件目录结构，文件属性，以及每个文件块列表以及块所在的DataNode等，因此这是一个核心节点。

DataNode：数据节点，每台从服务器节点都运行一个，负责把HDFS数据块读写到本地文件系统

Hadoop伪分布式配置

Hadoop的配置文件位于/usr/local/hadoop/etc/hadoop，hadoop的配置文件都是XML格式的，每个声明property的name和value的方式来实现

Hadoop的伪分布式需要修改两个XML文件： core-site.xml和 hdfs-site.xml

core-site.xml：此文件是hadoop的核心文件

hdfs-site.xml：用于配置NameNode的URL以及NameNode和DataNode的存放位置

先使用远程工具，将这两个XML文件拿到本地中修改，在本地修改完后再上传到服务器覆盖即可

笔者这里使用的远程工具是SSH，直接拖拉到桌面，修改保存后再拖进去即可(路径:/usr/local/hadoop/etc/hadoop)

修改core-site.xml文件,添加如下内容

configuration>

hadoop.tmp.dir
file:/usr/local/hadoop/tmp

fs.defaultFS
hdfs://Master:9000

修改hdfs-site.xml文件，添加内容如下：

dfs.namenode.secondary.http-address
Master:50090

dfs.replication
1

dfs.namenode.name.dir
file:/usr/local/hadoop/tmp/dfs/name

dfs.datanode.data.dir
file:/usr/local/hadoop/tmp/dfs/data

确认修改无误后，将文件保存拖进服务器刚才拿出的地址覆盖即可

注意:这里要注意的一点是yarn-site.xml文件不需要更改，默认为localhost，表示服务器即为NameNode也为DataNode，也就是我们现在做的伪分布式

启动 Hadoop

配置完成后我们需要输入如下命令将NameNode格式化

$ hdfs namenode -format

成功的话会看到 “successfully formatted” 和 “Exitting with status 0” 的提示，若为 “Exitting with status 1” 则是出错

启动Hadoop的命令：

$ start-dfs.sh #开启 NameNode 和 DataNode 守护进程

启动成功后,通过输入命令jps来判断是否启动成功，如启动成功后会出现如下进程：NameNode、DataNode、SecondaryNameNode

启动成功后我们在浏览器输入http://Master:50070来查看NameNode和DateNode的相关信息，还可以在线查看HDFS的文件

停止Hadoop的命令：

$ stop-dfs.sh

到这里我们的伪分布式就已经搭建成功了，是不是觉得很简单呢，但是有些朋友会有疑问了，为什么不启动yarn呢,因为到此我们做的是伪分布式，

不需要启动yarn,不会影响程序执行的。

Hadoop 集群/分布式

Master和Slave1都需要做如下配置，我们以Master为例子，Slave1将Master配置好的文件拿过来覆盖即可。

集群/分布式都需要改cd /usr/local/hadoop/etc/hadoop/路径下的五个xml文件，分别为：

core-site.xml、hdfs-site.xml、mapred-site.xml.template、yarn-site.xml、slaves.

yarn-site.xml 、slaves，更多设置项可点击查看官方说明，Hadoop 集群搭建官方文档，这里仅设置了正常启动所必须的设置项。

core-site.xml:Hadoop的核心配置文件

hdfs-site.xml:用于配置NameNode的URL和NameNode、DataNode的存放位置

mapred-site.xml.template:MapReduce相关配置

yarn-site.xml:配置资源管理系统yarn

slaves:配置DataNode主机名

1).修改 core-site.xml 文件

参考伪分布式中的配置

2).修改 hdfs-site.xml 文件

参考伪分布式中的配置

3).修改 mapred-site.xml 文件

mapreduce.framework.name
yarn
Hadoop YARN

mapreduce.jobhistory.address
Master:10020
Master

mapreduce.jobhistory.webapp.address
Master:19888
Master

4).修改 yarn-site.xml 文件

yarn.resourcemanager.hostname
Master
Master

yarn.nodemanager.aux-services
mapreduce_shuffle
Shuffle service

5).修改 slaves文件

Slave文件存放的是DataNode的主机名，一行一个，默认是localhost，伪分布式没有删掉的原因是让Master节点即作为NameNode，也作为DataNode

本教程只让Master节点仅作为NameNode，所以把localhost删掉换成Slave1

启动 Hadoop 集群

$ start-dfs.sh

$ start-yarn.sh

$ mr-jobhistory-daemon.sh start historyserver

启动后，查看进程是否都启动成功，并SSH登陆到从机查看DataNode有没有启动成功

成功后在浏览器中输入http://Master:50070查看 DataNode 和 NameNode 的状态

停止Hadoop集群：

$ stop-dfs.sh
$ stop-yarn.sh
$ mr-jobhistory-daemon.sh stop historyserver

OK，至此我们Hadoop的伪分布式、集群分布式已全部完成，其实还是很简单的嘛，加油！

你可能感兴趣的:(Hadoop集群)

不同hive集群中基于表的数据一致性比对 AA赵师傅 hadoop数据管理 hive 数据验证数据迁移 hadoop
前阵子博主遇到一个需求，因对hadoop集群进行数据迁移，数据迁移完毕后进行两个hive库的数据一致性的比对，不仅对源表数据进行比对，而且要同时使用两个集群加工相同数据，对加工后的数据进行数据一致性比对。博主已知的数据迁移方法有两种，第一种就是hadoopdistcp功能来进行集群间数据的复制，那么基本就不用做源表的数据验证了，集群间数据复制失败会报错提示。第二种方法就是数据的导入导出了，把原集群
Hadoop、Hive、Hbase集群间的数据迁移这个操蛋的人生！！！
一、hadoop集群间拷贝数据：迁移之前需要把两个集群的所有节点都互通/etc/hosts文件（重要，包括各个数据节点）两个集群版本不相同hadoopdistcphftp://192.168.57.73:50070/hive3/20171008/hive3/如果两个集群的版本相同，则可以使用hdfs协议，命令如下：hadoopdistcphdfs://namenodeip:9000/foohdfs
hive电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设计算机毕业设计 hive spring boot 爬虫
hive电影数据分析Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档]【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Hive汇总处理,将Hive处理的结果数据保存到本地Mysql数据库中5.Springboot+Vu
hadoop电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 计算机毕业设计毕业设计大数据毕设 hadoop spring boot 爬虫
全套视频教程全套开发文档hadoop电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示【Hadoop项目】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.data.csv数据清洗4.MR数据汇总处理,将Reduce的结果数据保存到本地Mysql数据库中5.Springboot
spark电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设计算机毕业设计 spark spring boot 爬虫大数据电影推荐电影分析
spark电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Spark汇总处理,将Spark处理的结果数据保存到本地Mysql数据库中5.Springboo
大数据学习笔记——zookeeper在hadoop集群中的作用鹅鹅鹅呢 java hadoop 大数据学习 tcp/ip tomcat
zookeeper主要是用来搭建高可用的Hadoop集群，即HighAvailability，简称(HA)测试中集群是可以不需要高可用的，即使用一个namenode即可。但是在生产环境中为了提高集群的可靠性，需要增加一个namenode备用，当active的namenode挂了之后，系统会启动standby的namenode。这就需要zookeeper监控namenode的状态。
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(4) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！org.apache.hadoophadoop-com
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(3) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！xmlns:xsi="http://www.w3.or
hive搭建 -----内嵌模式和本地模式 lzhlizihang hive hadoop
文章目录一、内嵌模式（使用较少）1、上传、解压、重命名2、配置环境变量3、配置conf下的hive-env.sh4、修改conf下的hive-site.xml5、启动hadoop集群6、给hdfs创建文件夹7、修改hive-site.xml中的非法字符8、初始化元数据9、测试是否成功10、内嵌模式的缺点二、本地模式（最常用）1、检查mysql是否正常2、上传、解压、重命名3、配置环境变量4、修改c
基于分布式计算的电商系统设计与实现【系统设计、模型预测、大屏设计、海量数据、Hadoop集群】王小王-123 hadoop 大数据分布式电商系统分析分布式计算
文章目录==有需要本项目的代码或文档以及全部资源，或者部署调试可以私信博主==项目展示项目介绍目录摘要Abstract1引言1.1研究背景1.2国内外研究现状1.3研究目的1.4研究意义2关键技术理论介绍2.1Hadoop相关组件介绍2.2分布式集群介绍2.3Pyecharts介绍2.4Flask框架3分布式集群搭建及数据准备3.1Hadoop全套组件搭建3.2数据集介绍3.3数据预处理4分布式计
Hive 运行在 Tez 上爱吃酸梨大数据
Tez介绍Tez是一种基于内存的计算框架，速度比MapReduce要快解释：浅蓝色方块表示Map任务，绿色方块表示Reduce任务，蓝色边框的云朵表示中间结果落地磁盘。Tez下载Tez官网Tez在Hive上的运用前提要有Hadoop集群上传Tez压缩包到Hive节点上tar-zxvfapache-tez-0.9.1-bin.tar.gz-C/opt/module/tez-0.9.1修改$HIVE_
基于Hadoop的高校教学管理平台设计与实现这是辰辰啊 hadoop hadoop 大数据
摘要：随着信息化的推进，高校已经建设了很多信息化系统，积累了大量的数据。如何从海量数据中，挖掘有用、有价值的信息，支撑智慧校园的建设，成为需要迫切解决的问题。文中就高校大数据平台的关键技术和架构进行阐述，结合高校实际情况，设计高校大数据平台架构，通过搭建Hadoop集群环境，以业务系统和平台之间的数据交互验证平台设计的可行性和优势。通过研究，文中以高校建设大数据平台提出一种设计方案，为高校信息化建
Ubuntu下部署Hadoop集群+Hive（三）岩屿 hadoop ubuntu hive
Hive部署准备环境apache-hive-4.0.0-bin.tar.gz、mysql-connector-j-8.1.0.jar如果是离线安装的话，使用mysql-8.0.34-1.el7.x86_64.rpm-bundle.tar，在线安装的话则不用；hive下载地址：Indexof/hive(apache.org)mysqlconnector下载地址：MySQL::DownloadConn
Hadoop入门基础（五）：Hadoop 常用 Shell 命令一网打尽，提升你的大数据技能！ william.zhang(张) 大数据 Hadoop 容器大数据 hadoop 分布式
1.Hadoop基本命令1.1查看版本信息hadoopversion用于检查Hadoop的版本信息以及编译信息。1.2启动和停止Hadoop集群start-dfs.shstart-yarn.shstop-dfs.shstop-yarn.shstart-dfs.sh和stop-dfs.sh分别用于启动和停止HDFS，而start-yarn.sh和stop-yarn.sh用于管理YARN服务。1.3格
Hadoop入门基础（二）：Hadoop集群安装与部署详解（超详细教程） william.zhang(张) hadoop 大数据分布式
一、环境准备1.集群规划首先，需要为集群中的每台机器设置角色和网络配置。在此示例中，我们使用三台机器：角色主机名IP地址NameNodemaster192.168.1.101DataNode1slave1192.168.1.102DataNode2slave2192.168.1.1032.软件要求操作系统：CentOS7或Ubuntu20.04JavaJDK：Hadoop需要JDK8或更高版本安装
Ubuntu下部署Hadoop集群+Hive（一）岩屿 hadoop ubuntu hive 大数据
准备环境：3台Ubuntu服务器（版本20.04），自建的虚拟机也可以；推荐内存：8GB以上；部署也支持Ubuntu20.04以上版本，或是Centos也可以。配置主机Host在三台服务器上添加主机名与IP的映射，以方便在局域网内进行主机间的快速访问和后续的文件配置；配置方法：vi/etc/hosts为方便配置：我的三台主机取名为HadoopMaster、HadoopSlave01、HadoopS
Ubuntu下部署Hadoop集群+Hive（二）岩屿 hadoop hive
Hadoop集群搭建准备环境hadoop-3.3.6.tar.gz，jdk-8u421-linux-x64.tar.gz根据自己的使用下载对的hadoop和jdk版本hadoop下载地址：ApacheHadoopJDK下载地址：JavaDownloads|Oracle在3台服务器上的/opt/目录下新建module和software文件夹，其中software文件夹用来存放软件包，module用来
(17)Hive ——MR任务的map与reduce个数由什么决定？爱吃辣条byte #Hive hive 数据仓库
一、MapTask的数量由什么决定？MapTask的数量由以下参数决定文件个数文件大小blocksize一般而言，对于每一个输入的文件会有一个mapsplit，每一个分片会开启一个map任务，很容易导致小文件问题（如果不进行小文件合并，极可能导致Hadoop集群资源雪崩）hive中小文件产生的原因及解决方案见文章：(14)Hive调优——合并小文件-CSDN博客文章浏览阅读779次，点赞10次，收
记一次 Flink 作业启动缓慢卢说 Hadoop 大数据 Flink flink 大数据 hadoop hdfs
记一次Flink作业启动缓慢背景应用发现，Hadoop集群的hdfs较之前更加缓慢，且离线ELT任务也以前晚半个多小时才能跑完。此前一直没有找到突破口所以没有管他，推测应该重启一下Hadoop集群就可以了。今天突然要重启一个Flink作业，发现有一个过程卡了五分钟。现象由上图可知09:36到09:41这两个过程中间花了五分钟，这两条都是Flink的日志，所以推测中间是Flink的某些过程卡住了。那
Sqoop 入门基础香菜的开发日记 sqoop hadoop hive
简介Sqoop（SQLtoHadoop）是一个开源工具，用于在关系型数据库和Hadoop之间传输数据。它提供了一种快速高效的方式，将数据从关系型数据库导入到Hadoop集群进行分析，并支持将Hadoop集群中的数据导出到关系型数据库中。本篇教程将详细介绍Sqoop的全部用法，包括基本概念、使用方法和实例代码。我们将创建一个示例数据表，并使用Sqoop来导入和导出数据。一、准备工作在开始之前，请确保
Hadoop搭建之 start-yarn.sh 报错万里长江雪 java hadoop hdfs 大数据运维网络
在搭建伪分布式的Hadoop集群环境时，在配置基础环境了并成功开启了HDFS组件后，jps查看已运行的名称节点和数据节点进程，[hadoop@masterhadoop]$jps8994NameNode10396Jps9087DataNode9279SecondaryNameNode然后尝试开启YARN组件，但是报错：[hadoop@masterhadoop]$start-yarn.shstarti
MapReduce 诺冰1314 大数据 haoop MapReduce hadoop mapreduce 大数据
MapReduce定义mapReduce是一个分布式运算程序的编程框架，是用户开发基于hadoop的数据分析应用的核心框架。mapreduce的核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并运行在一个hadoop集群上。MapReduce的优缺点优点：易于编程良好的扩展性高容错性适合tb/pb级以上海量数据的离线处理缺点：不擅长实时计算不擅长流式计算不擅长DAG
Hive入门，Hive是什么？ JayGboy hive hadoop 数据仓库
1.1Hive是什么？Hive是一个开源的数据仓库工具，主要用于处理大规模数据集。它是建立在Hadoop生态系统之上的，利用Hadoop的分布式存储和计算能力来处理和分析数据。Hive的本质是一个数据仓库基础设施，它提供了一种类似于SQL的查询语言，称为HiveQL，用于处理和分析存储在Hadoop集群中的数据。HiveQL允许用户使用类似于传统关系型数据库的查询语法来查询和分析数据，而无需编写复
MapReduce的uber运行模式盗梦者_56f2
背景在有些情况下，运行于Hadoop集群上的一些mapreduce作业本身的数据量并不是很大，如果此时的任务分片很多，那么为每个map任务或者reduce任务频繁创建Container，势必会增加Hadoop集群的资源消耗，并且因为创建分配Container本身的开销，还会增加这些任务的运行时延。如果能将这些小任务都放入少量的Container中执行，将会解决这些问题。Uber运行模式就是解决此类
CentOS7虚拟机 enss33没有ip地址我想吃新疆炒米粉！ tcp/ip hadoop 网络协议
参考链接：CentOS7虚拟机enss33没有ip地址的解决方法_ens33没有ip地址_weixin_45307968的博客-CSDN博客在搭建Hadoop集群时，需要修改ip地址，但是当我查看时发现并没有显示ip地址根据作者的方法修改成功了以下是命令行需要输入的命令1、查询ip地址ipaddr2、发现不存在ip地址，分别输入命令，每次输入命令都会提示需要输入密码systemctlstopNet
数据中台 pdf_数据中台到底怎么建设，有人把他说清楚了 weixin_39699121 数据中台 pdf
各位朋友，大家晚上好，我给大家分享的是《关于数据中台建设之思考》。本人断断续续从事数据仓库约有五六年经验，在移动公司前三年是负责数据仓库项目实施，后四年开发搞大数据平台，见证了从传统数据仓库转型到大数据平台的全历程，见证了大数据平台从0到1的全部过程，包括第一个MPP数据集市、第一个Hadoop集群项目、第一个流式数据处理项目，第一个完整的大数据平台的融合和构建，混搭式大数据平台的融合构建，大数据
Hadoop集群所有进程查看脚本在下区区俗物 hadoop 大数据 linux
1、在/home/atguigu/bin目录下创建脚本xcall.shcd/home/atguigu/binvimxcall.sh脚本编写如下内容#!/bin/bashforiinhadoop102hadoop103hadoop104doecho---------$i----------ssh$i"$*"done2、赋予文件运行权限chmod+xxcall.sh3、使用案例xcall.shjps相
HDFS执行balance报错：hdfs balance java.io.IOException: Another Balancer is running.. Exiting 不会吐丝的蜘蛛侠。 Hadoop hdfs hadoop java
现象：1、大数据Hadoop集群，HDFS扩容后，为了使各节点数据均衡，执行balance操作。2、启动hdfsbalance时，一直出现其他的balance在执行中，其实并没有执行。java.io.IOException:AnotherBalancerisrunning…Exiting…解决方法：网上的思路：①HDFS在运行Balancer的时候，会将运行Balancer的主机名写入到balan
CentOS7搭建Hadoop集群在下区区俗物 Hadoop集群安装部署 hadoop eclipse java
准备工作1、准备三台虚拟机，参考：CentOS7集群环境搭建（3台）-CSDN博客2、配置虚拟机之间免密登录，参考：CentOS7集群配置免密登录-CSDN博客3、虚拟机分别安装jdk，参考：CentOS7集群安装JDK1.8-CSDN博客4、下载Hadoop安装包，下载地址：链接：https://pan.baidu.com/s/1f1DmqNNFBvBDKi5beYl3Jg?pwd=6666搭建
hadoop集群搭建踩坑实录温文尔雅的流氓 Hadoop
由于不可控以及不可知的原因我搭建的hadoop集群突然显示虚拟机出现了问题导致某一个DataNode数据丢失并且无法通过Xshell远程访问其他的DataNode主机和虚拟机无法互相ping通网上能找的解决办法基本都找了依然无法解决因此我能想到的是只能删除虚拟机重新克隆一台机器然而还是无法通过远程连接无奈之下我重启电脑发现又可以通过Xshell远程访问了具体原因尚不知晓克隆成功后发现集群先格式化集
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&