♂燃烧吧ˇ小宇宙、

Hadoop学习笔记01

官方文档：

https://hadoop.apache.org/docs/r2.10.0/hadoop-project-dist/hadoop-common/ClusterSetup.html

1 编译

一些软件的官网提供了 source 和 binary 两个版本
source是源码，需要手动编译成可执行文件
binary是可执行版，是已经编译好的

以hadoop2.7来说，官网的可执行版不支持snappy和bzip2两种压缩算法，且没有提供带C程序访问的接口。所以这里对source版本重新编译。

编译所需准备：
版本：Hadoop 2.7.5
Linux环境
jdk1.7
maven3.x
findbugs
依赖包
protobuf
snappy

可以通过以下命令检查本地库

# 检查本地库
bin/hadoop checknative

2 安装

2.0 免密登录

通过ssh命令生成公私密钥对，公钥加密，私钥解密，实现免密登录。

2.1 解压

# 解压安装包
tar -zxvf hadoop-2.7.5.tar.gz -C /export/soft

# 创建软连接，方便使用
ln -s hadoop-2.7.5 hadoop

2.2 修改配置文件

配置文件位于hadoop/etc/hadoop中。
方便起见，可以通过editplus、notepad++或者其他Windows宿主机的软件，通过ftp的方式远程修改这些配置文件。
注意，utf-8编码。

2.2.1 core-site.xml

<configuration>

	<!-- 指定集群的文件系统类型:分布式文件系统 -->
	<property>
		<name>fs.default.name</name>
		<value>hdfs://node01:8020</value>
	</property>
 
	<!-- 指定临时文件存储目录 -->
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/export/soft/hadoop-2.7.5/hadoopDatas/tempDatas</value>
	</property>
 
	<!-- 缓冲区大小，实际工作中根据服务器性能动态调整 -->
	<property>
		<name>io.file.buffer.size</name>
		<value>4096</value>
	</property>

	<!-- 开启hdfs的垃圾桶机制，删除掉的数据可以从垃圾桶中回收，单位分钟 -->
	<property>
		<name>fs.trash.interval</name>
		<value>10080</value>
	</property>
 
</configuration>

2.2.2 hdfs-site.xml

<configuration>

	<property>
		<name>dfs.namenode.secondary.http-address</name>
		<value>node01:50090</value>
	</property>

	<!-- 指定namenode的访问地址和端口 -->
	<property>
		<name>dfs.namenode.http-address</name>
		<value>node01:50070</value>
	</property>

	<!-- 指定namenode元数据的存放位置 -->
	<property>
		<name>dfs.namenode.name.dir</name>
		<value>file:///export/soft/hadoop-2.7.5/hadoopDatas/namenodeDatas,file:///export/soft/hadoop-2.7.5/hadoopDatas/namenodeDatas2</value>
	</property>

	<!-- 定义dataNode数据存储的节点位置，实际工作中，一般先确定磁盘的挂载目录，然后多个目录用，进行分割  -->
	<property>
		<name>dfs.datanode.data.dir</name>
		<value>file:///export/soft/hadoop-2.7.5/hadoopDatas/datanodeDatas,file:///export/soft/hadoop-2.7.5/hadoopDatas/datanodeDatas2</value>
	</property>
	
	<!-- 指定namenode日志文件的存放目录 -->
	<property>
		<name>dfs.namenode.edits.dir</name>
		<value>file:///export/soft/hadoop-2.7.5/hadoopDatas/nn/edits</value>
	</property>
	
	<property>
		<name>dfs.namenode.checkpoint.dir</name>
		<value>file:///export/soft/hadoop-2.7.5/hadoopDatas/snn/name</value>
	</property>

	<property>
		<name>dfs.namenode.checkpoint.edits.dir</name>
		<value>file:///export/soft/hadoop-2.7.5/hadoopDatas/dfs/snn/edits</value>
	</property>

	<!-- 文件切片的副本个数-->
	<property>
		<name>dfs.replication</name>
		<value>3</value>
	</property>

	<!-- 设置HDFS的文件权限-->
	<property>
		<name>dfs.permissions</name>
		<value>false</value>
	</property>

	<!-- 设置一个文件切片的大小：128M-->
	<property>
		<name>dfs.blocksize</name>
		<value>134217728</value>
	</property>

</configuration>

2.2.3 hadoop-env.sh

hadoop2.7.5版本是第25行

export JAVA_HOME=/export/soft/jdk

2.2.4 mapred-site.xml

这一文件目录中没有，有一个mapred-site.xml.template，将它复制改名即可

<configuration>

	<!-- 开启MapReduce小任务模式 -->
	<property>
		<name>mapreduce.job.ubertask.enable</name>
		<value>true</value>
	</property>
	
	<!-- 设置历史任务的主机和端口 -->
	<property>
		<name>mapreduce.jobhistory.address</name>
		<value>node01:10020</value>
	</property>

	<!-- 设置网页访问历史任务的主机和端口 -->
	<property>
		<name>mapreduce.jobhistory.webapp.address</name>
		<value>node01:19888</value>
	</property>

</configuration>

2.2.5 yarn-site.xml

<configuration>

	<!-- 配置yarn主节点的位置 -->
	<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>node01</value>
	</property>

	<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>
	
	<!-- 开启日志聚合功能 -->
	<property>
		<name>yarn.log-aggregation-enable</name>
		<value>true</value>
	</property>

	<!-- 设置聚合日志在hdfs上的保存时间 -->
	<property>
		<name>yarn.log-aggregation.retain-seconds</name>
		<value>604800</value>
	</property>

	<!-- 设置yarn集群的内存分配方案 -->
	<property>    
		<name>yarn.nodemanager.resource.memory-mb</name>    
		<value>20480</value>
	</property>

	<property>  
        <name>yarn.scheduler.minimum-allocation-mb</name>
        <value>2048</value>
	</property>

	<property>
		<name>yarn.nodemanager.vmem-pmem-ratio</name>
		<value>2.1</value>
	</property>

</configuration>

2.2.6 mapred-env.sh

hadoop2.7.5版本是第16行

export JAVA_HOME=/export/soft/jdk

2.2.7 slaves
这个文件是节点的名单
官方的英文说明是：

List all slave hostnames or IP addresses in your etc/hadoop/slaves
file, one per line. Helper scripts (described below) will use the
etc/hadoop/slaves file to run commands on many hosts at once. It is
not used for any of the Java-based Hadoop configuration. In order to
use this functionality, ssh trusts (via either passphraseless ssh or
some other means, such as Kerberos) must be established for the
accounts used to run Hadoop.

翻译一下：

列出etc/hadoop/slaves文件中的所有从属主机名或IP地址，每行一个。Helper脚本（如下所述）将使用etc/hadoop/slaves文件一次在许多主机上运行命令。它不用于任何基于Java的Hadoop配置。为了使用此功能，必须为用于运行Hadoop的帐户建立ssh信任（通过无密码ssh或其他一些方法，如Kerberos）。

由于已经在三台机器上设置了免密登录，且在/etc/hosts文件中设置了主机与ip地址之间的映射关系。
所以，slaves文件如下：

node01
node02
node03

2.2.8 创建需要的目录

需要创建以下目录：

mkdir -p /export/soft/hadoop-2.7.5/hadoopDatas/tempDatas
mkdir -p /export/soft/hadoop-2.7.5/hadoopDatas/namenodeDatas
mkdir -p /export/soft/hadoop-2.7.5/hadoopDatas/namenodeDatas2
mkdir -p /export/soft/hadoop-2.7.5/hadoopDatas/datanodeDatas
mkdir -p /export/soft/hadoop-2.7.5/hadoopDatas/datanodeDatas2
mkdir -p /export/soft/hadoop-2.7.5/hadoopDatas/nn/edits
mkdir -p /export/soft/hadoop-2.7.5/hadoopDatas/snn/name
mkdir -p /export/soft/hadoop-2.7.5/hadoopDatas/dfs/snn/edits

注：这些目录都是前面配置文件时声明的，这里需要手动创建

2.2.9 分发

在第一台机器上做好以上操作后，就可以把整个hadoop文件分发到另外两台机器上了。

cd  /export/soft/
scp -r hadoop-2.7.5 node02:$PWD
scp -r hadoop-2.7.5 node03:$PWD

2.3 配置环境变量

配置环境变量的操作需要在所有的节点上都执行这样的操作

1.路径是：

vim /etc/profile

2.加上前面配置的命令行显示绝对路径、jdk环境变量等，该文件配置了以下内容：

# Command prompt shows absolute path
export PS1='[\u@\h `pwd`]\$'

# jdk
export JAVA_HOME=/export/soft/jdk
export PATH=$PATH:$JAVA_HOME/bin
# mysql
export MySQL_HOME=/export/soft/mysql
export PATH=$PATH:$MySQL_HOME/bin
# hadoop
export HADOOP_HOME=/export/soft/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

3.通过source命令使修改后的环境变量生效：

source /etc/profile

4.接着，可以验证hadoop是否成功：

hadoop version
# 或
hdfs version

2.4 启动集群

首次启动 HDFS 时，必须对其进行格式化操作。本质上是一些清理和准备工作，因为此时的 HDFS 在物理上还是不存在的。
1.进入路径：

cd /export/soft/hadoop-2.7.5/

2.格式化操作：

bin/hdfs namenode -format

3.分别启动hdfs和yarn两个模块：

# 启动hdfs
sbin/start-dfs.sh
# 启动yarn
sbin/start-yarn.sh
# 启动历史记录
sbin/mr-jobhistory-daemon.sh start historyserver

3 HDFS

3.1 介绍

HDFS（Hadoop Distributed File System）：分布式文件系统
适合的应用场景：

存储非常大的文件：这里非常大指的是几百M、G、或者TB级别，需要高吞吐量，对延时没有要求。
采用流式的数据访问方式: 即一次写入、多次读取，数据集经常从数据源生成或者拷贝一次，然后在其上做很多分析工作。
运行于商业硬件上: Hadoop不需要特别贵的机器，可运行于普通廉价机器，可以处节约成本。
需要高容错性。
为数据存储提供所需的扩展能力。
不适合的应用场景：
低延时的数据访问：对延时要求在毫秒级别的应用，不适合采用HDFS。HDFS是为高吞吐数据传输设计的，因此可能牺牲延时。
大量小文件：文件的元数据保存在NameNode的内存中，整个文件系统的文件数量会受限于NameNode的内存大小。
多方读写，需要任意的文件修改：HDFS采用追加（append-only）的方式写入数据。不支持文件任意offset的修改。不支持多个写入器（writer）。
hdfs的架构：
HDFS是一个主/从（Mater/Slave）体系结构。
HDFS由四部分组成，HDFS Client、NameNode、DataNode和Secondary NameNode。
Client：客户端

文件切分。文件上传 HDFS 的时候，Client 将文件切分成一个一个的Block，然后进行存储。
与 NameNode 交互，获取文件的位置信息。
与 DataNode 交互，读取或者写入数据。
Client 提供一些命令来管理和访问HDFS，比如启动或者关闭HDFS。

NameNode：master，它是一个主管、管理者

管理 HDFS 的名称空间。
管理数据块（Block）映射信息。
配置副本策略。
处理客户端读写请求。

DataNode：slave。NameNode 下达命令，DataNode 执行实际的操作

存储实际的数据块。
执行数据块的读/写操作。

Secondary NameNode：并非 NameNode 的热备。当NameNode 挂掉的时候，它并不能马上替换 NameNode 并提供服务。

辅助 NameNode，分担其工作量。
定期合并 fsimage和fsedits，并推送给NameNode。
在紧急情况下，可辅助恢复 NameNode。

文件副本机制
所有的文件都是以 block 块的方式存放在 HDFS 文件系统当中,作用如下：

一个文件有可能大于集群中任意一个磁盘，引入块机制,可以很好的解决这个问题
使用块作为文件存储的逻辑单位可以简化存储子系统
块非常适合用于数据备份进而提供数据容错能力
文件的 block 块大小默认是 128M，可以通过hdfs-site.xml当中的配置文件进行指定：

<property>
    <name>dfs.block.size</name>
    <value>块大小 以字节为单位</value>
</property>

机架感知
HDFS分布式文件系统的内部有一个副本存放策略：以默认的副本数=3为例：

第一个副本块存本机
第二个副本块存跟本机同机架内的其他服务器节点
第三个副本块存不同机架的一个服务器节点上

3.2 命令行使用

格式：hdfs dfs -ls URI
作用：类似于Linux的ls命令，显示文件列表

hdfs dfs -ls /

格式  : hdfs dfs -lsr URI
作用  : 在整个目录下递归执行ls, 与UNIX中的ls-R类似

hdfs dfs -lsr /

mkdir

格式 ：hdfs dfs [-p] -mkdir <paths>
作用 : 以<paths>中的URI作为参数，创建目录。使用-p参数可以递归创建目录

格式 ：hdfs dfs -put <localsrc> ... <dst>
作用 ：将单个的源文件src或者多个源文件srcs从本地文件系统拷贝到目标文件系统中（<dst>对应的路径）。也可以从标准输入中读取输入，写入目标文件系统中

hdfs dfs -put /root/a.txt /dir1

moveFromLocal

格式：hdfs dfs -moveFromLocal <localsrc> <dst>
作用: 和put命令类似，但是源文件localsrc拷贝之后自身被删除

moveToLocal
未实现
get

格式：hdfs dfs -get [-ignorecrc] [-crc] <src> <localdst>
作用：将文件拷贝到本地文件系统。CRC校验失败的文件通过-ignorecrc选项拷贝。文件和CRC校验和可以通过-CRC选项拷贝。

hdfs dfs -mv /dir1/a.txt /dir2

格式：hdfs dfs -mv URI <dest>
作用：将hdfs上的文件从原路径移动到目标路径（移动之后文件删除），该命令不能跨文件系统

hdfs dfs -mv /dir1/a.txt /dir2

格式：hdfs dfs -rm [-r] [-skipTrash] URI [URI 。。。]
作用：删除参数指定的文件，参数可以有多个。此命令只删除文件和非空目录。
如果指定-skipTrash选项，那么在回收站可用的情况下，该选项将跳过回收站而直接删除文件；
否则，在回收站可用时，在HDFS Shell 中执行此命令，会将文件暂时放到回收站中。

hdfs dfs -rm -r /dir1

格式：hdfs dfs -cp URI [URI ...] <dest>
作用：将文件拷贝到目标路径中。如果<dest>为目录的话，可以将多个文件拷贝到该目录下。
-f
选项将覆盖目标，如果它已经存在。
-p
选项将保留文件属性（时间戳、所有权、许可、ACL、XAttr）。

hdfs dfs -cp /dir1/a.txt /dir2/b.txt

格式：hdfs dfs -cat URI [uri  ...]
作用：将参数所指示的文件内容输出到stdout

hdfs dfs -cat /install.log

chmod

格式：hdfs dfs -chmod [-R] URI[URI  ...]
作用：改变文件权限。如果使用-R选项，则对整个目录有效递归执行。使用这一命令的用户必须是文件的所属用户，或者超级用户。

hdfs dfs -chmod -R 777 /install.log

chown

格式：hdfs dfs -chmod [-R] URI[URI  ...]
作用：改变文件的所属用户和用户组。如果使用 -R选项，则对整个目录有效递归执行。用这一命令的用户必须是文件的所属用户，或者超级用户。

hdfs dfs -chown -R hadoop:hadoop /install.log

appendToFile

格式：hdfs dfs -appendToFile <localsrc> ... <dst>
作用：追加一个或者多个文件到hdfs指定文件中。也可以从命令行读取输入。

hdfs dfs -appendToFile a.xml b.xml /big.xml

3.3 高级使用命令

3.3.1 文件限额配置

在多人共用HDFS的环境下，配置设置非常重要。特别是在Hadoop处理大量资料的环境，如果没有配额管理，很容易把所有的空间用完造成别人无法存取。Hdfs的配额设定是针对目录而不是针对账号，可以让每个账号仅操作某一个目录，然后对目录设置配置。
hdfs文件的限额配置允许我们以文件个数，或者文件大小来限制我们在某个目录下上传的文件数量或者文件内容总量，以便达到我们类似百度网盘网盘等限制每个用户允许上传的最大的文件的量。
首先可以查看配额信息：

hdfs dfs -count -q -h /user/root/dir1

-q
表示显示配额信息
-h
以人类可读的格式显示大小

数量限额

# 首先，创建hdfs文件夹
hdfs dfs -mkdir -p /user/root/dir
# 给该文件夹下面设置最多上传两个文件，只能上传一个文件，因为它把文件夹本身算做了一个文件
hdfs dfsadmin -setQuota 2  dir

# 清除文件数量限制
hdfs dfsadmin -clrQuota /user/root/dir

空间大小限额
设置的空间至少是block_size * 3大小。

# 限制空间大小384M
hdfs dfsadmin -setSpaceQuota 384m /user/root/dir

# 生成任意大小文件的命令
# 生成2M的文件
dd if=/dev/zero of=1.txt  bs=1M count=2

# 清除空间配额限制
hdfs dfsadmin -clrSpaceQuota /user/root/dir

3.3.2 安全模式

安全模式是hadoop的一种保护机制，用于保证集群中的数据块的安全性。当集群启动的时候，会首先进入安全模式。当系统处于安全模式时会检查数据块的完整性。
假设我们设置的副本数（即参数dfs.replication）是3，那么在datanode上就应该有3个副本存在，假设只存在2个副本，那么比例就是2/3=0.666。hdfs默认的副本率0.999。我们的副本率0.666明显小于0.999，因此系统会自动的复制副本到其他dataNode，使得副本率不小于0.999。如果系统中有5个副本，超过我们设定的3个副本，那么系统也会删除多于的2个副本。
在安全模式状态下，文件系统只接受读数据请求，而不接受删除、修改等变更请求。当整个系统达到安全标准时，HDFS自动离开安全模式。
安全模式操作命令：

# 查看安全模式状态
hdfs dfsadmin -safemode get
# 进入安全模式
hdfs dfsadmin -safemode enter
# 离开安全模式
hdfs dfsadmin -safemode leave

4 HDFS基准测试

实际生产环境当中，hadoop的环境搭建完成之后，第一件事情就是进行压力测试，测试我们的集群的读取和写入速度，测试我们的网络带宽是否足够等一些基准测试。

4.1 测试写入速度

# 向HDFS文件系统中写入数据，10个文件，每个文件10MB，文件存放到/benchmarks/TestDFSIO中
hadoop jar /export/soft/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.5.jar TestDFSIO -write -nrFiles 10 -fileSize 10MB

查看写入速度结果

hdfs dfs -text  /benchmarks/TestDFSIO/io_write/part-00000
-text
获取源文件并以文本格式输出该文件

也可以通过vim的方式查看生成的log文件，该文件会生成在当前目录下

4.2 测试读取速度

# 在HDFS文件系统中读入10个文件,每个文件10M
hadoop jar /export/soft/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.5.jar TestDFSIO -read -nrFiles 10 -fileSize 10MB

查看读取速度结果

hdfs dfs -text /benchmarks/TestDFSIO/io_read/part-00000

4.3 清除测试数据

hadoop jar /export/soft/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.5.jar TestDFSIO -clean

5 HDFS文件写入过程

Client 发起文件上传请求，通过 RPC 与 NameNode 建立通讯，NameNode 检查目标文件是否已存在，父目录是否存在，返回是否可以上传。
Client 请求第一个 block 该传输到哪些 DataNode 服务器上。
NameNode 根据配置文件中指定的备份数量及机架感知原理进行文件分配，返回可用的 DataNode 的地址如：A, B, C。
- Hadoop 在设计时考虑到数据的安全与高效，数据文件默认在 HDFS 上存放三份，存储策略为本地一份，同机架内其它某一节点上一份，不同机架的某一节点上一份。
Client 请求 3 台 DataNode 中的一台 A 上传数据（本质上是一个 RPC 调用，建立 pipeline ），A 收到请求会继续调用 B，然后 B 调用 C，将整个 pipeline 建立完成，后逐级返回 client。
Client 开始往 A 上传第一个 block（先从磁盘读取数据放到一个本地内存缓存），以 packet 为单位（默认64K），A 收到一个 packet 就会传给 B，B 传给 C。A 每传一个 packet 会放入一个应答队列等待应答。
数据被分割成一个个 packet 数据包在 pipeline 上依次传输，在 pipeline 反方向上，逐个发送 ack（命令正确应答），最终由 pipeline 中第一个 DataNode 节点 A 将 pipelineack 发送给 Client。
当一个 block 传输完成之后，Client 再次请求 NameNode 上传第二个 block 到服务 1。

6 HDFS文件读取过程

Client向NameNode发起RPC请求，来确定请求文件block所在的位置。
NameNode会视情况返回文件的部分或者全部block列表，对于每个block，NameNode 都会返回含有该 block 副本的 DataNode 地址；这些返回的 DN 地址，会按照集群拓扑结构得出 DataNode 与客户端的距离，然后进行排序，排序两个规则：网络拓扑结构中距离 Client 近的排靠前；心跳机制中超时汇报的 DN 状态为 STALE，这样的排靠后。
Client 选取排序靠前的 DataNode 来读取 block，如果客户端本身就是DataNode，那么将从本地直接获取数据(短路读取特性)。
底层上本质是建立 Socket Stream（FSDataInputStream），重复的调用父类 DataInputStream 的 read 方法，直到这个块上的数据读取完毕。
当读完列表的 block 后，若文件读取还没有结束，客户端会继续向NameNode 获取下一批的 block 列表。
读取完一个 block 都会进行 checksum 验证，如果读取 DataNode 时出现错误，客户端会通知 NameNode，然后再从下一个拥有该 block 副本的DataNode 继续读。
read 方法是并行的读取 block 信息，不是一块一块的读取；NameNode 只是返回Client请求包含块的DataNode地址，并不是返回请求块的数据。
最终读取来所有的 block 会合并成一个完整的最终文件。

7 HDFS元数据辅助管理

在 Hadoop 的集群中，NameNode的所有元数据信息都保存在了 FsImage 与 Edits 文件中。
这两个文件就记录了所有的数据的元数据信息，元数据信息的保存目录配置在了hdfs-site.xml中。

<property>
	<name>dfs.namenode.name.dir</name>
	<value>file:///export/soft/hadoop-2.7.5/hadoopDatas/namenodeDatas,file:///export/soft/hadoop-2.7.5/hadoopDatas/namenodeDatas2</value>
</property>
<property>
	<name>dfs.namenode.edits.dir</name>
	<value>file:///export/soft/hadoop-2.7.5/hadoopDatas/nn/edits</value>
</property>

7.1 FsImage和Edits说明

fsimage
- NameNode 中关于元数据的镜像，一般称为检查点，fsimage 存放了一份比较完整的元数据信息。
- 因为 fsimage 是 NameNode 的完整的镜像，如果每次都加载到内存生成树状拓扑结构，这是非常耗内存和CPU, 所以一般开始时对 NameNode 的操作都放在 edits 中。
- fsimage 内容包含了 NameNode 管理下的所有 DataNode 文件及文件 block 及 block 所在的 DataNode 的元数据信息。
- 随着 edits 内容增大，就需要在一定时间点和 fsimage 合并。
edits
- edits 存放了客户端最近一段时间的操作日志。
- 客户端对 HDFS 进行写文件时会首先被记录在 edits 文件中。
- edits 修改时元数据也会更新。

7.2 fsimage中的文件信息查看

首先要进入目录

cd /export/soft/hadoop2.7.5/hadoopDatas/namenodeDatas

再通过oiv进行查看

hdfs oiv -i fsimage_0000000000000000864 -p XML -o hello.xml

注，如果不知道具体命令，可以查看系统中的帮助：

hdfs oiv

7.3 edits中的文件信息查看

同样，首先要进入目录
再通过oev查看

hdfs oev -i edits_0000000000000000865-0000000000000000866 -p XML -o myedit.xml

7.4 SecondaryNameNode 如何辅助管理 fsimage 与 edits 文件

SecondaryNameNode 定期合并 fsimage 和 edits，把 edits 控制在一个范围内。
配置 SecondaryNameNode
{
SecondaryNameNode运行在另外一台机器上：

SecondaryNameNode 在 conf/masters 中指定
在 masters 指定的机器上, 修改hdfs-site.xml：

<property>
    <name>dfs.http.address</name>
    <value>host:50070</value>
</property>

}

修改core-site.xml，这一步不做配置保持默认也可以

<!-- 多久记录一次 HDFS 镜像, 默认1小时 -->
<property>
    <name>fs.checkpoint.period</name>
    <value>3600</value>
</property>
<!-- 一次记录多大, 默认64M -->
<property>
    <name>fs.checkpoint.size</name>
    <value>67108864</value>
</property>

过程：

SecondaryNameNode 通知 NameNode 切换 editlog（即切换为edits.new）
SecondaryNameNode 从 NameNode 中获得 fsimage 和 editlog(通过http方式)
SecondaryNameNode 将 fsimage 载入内存，然后开始合并 editlog，合并之后成为新的 fsimage
SecondaryNameNode 将新的 fsimage 发回给 NameNode
NameNode 用新的 fsimage 替换旧的 fsimage
特点：
完成合并的是 SecondaryNameNode，会请求 NameNode 停止使用 edits，暂时将新写操作放入一个新的文件中edits.new。
SecondaryNameNode 从 NameNode 中通过 Http GET 获得 edits，因为要和 fsimage 合并，所以也是通过 Http Get 的方式把 fsimage 加载到内存，然后逐一执行具体对文件系统的操作，与 fsimage 合并，生成新的 fsimage，然后通过 Http POST 的方式把 fsimage 发送给 NameNode。NameNode 从 SecondaryNameNode 获得了 fsimage 后会把原有的 fsimage 替换为新的 fsimage，把 edits.new 变成 edits。同时会更新 fsimage。
Hadoop 进入安全模式时需要管理员使用 dfsadmin 的 save namespace 来创建新的检查点。
SecondaryNameNode 在合并 edits 和 fsimage 时需要消耗的内存和 NameNode 差不多，所以一般把 NameNode 和 SecondaryNameNode 放在不同的机器上。

8 HDFS的API操作

8.1 配置Windows下的Hadoop环境

以Hadoop2.7.5为例，主要是Hadoop的bin目录，除此之外，还要添加一些文件，winutils等等：
这些文件是在Windows下编译得到的
参考地址：https://github.com/cdarlint/winutils
将hadoop2.7.5文件夹拷贝到一个没有中文没有空格的路径
配置环境变量
把hadoop2.7.5文件夹中bin目录下的hadoop.dll文件放到系统盘：C:\Windows\System32目录

8.2 导入Maven依赖

<dependencies>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-common</artifactId>
        <version>2.7.5</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>2.7.5</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-hdfs</artifactId>
        <version>2.7.5</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-mapreduce-client-core</artifactId>
        <version>2.7.5</version>
    </dependency>
    <!--日志-->
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-log4j12</artifactId>
        <version>2.0.0-alpha1</version>
    </dependency>
    <dependency>
        <groupId>junit</groupId>
        <artifactId>junit</artifactId>
        <version>4.13</version>
    </dependency>
</dependencies>

<build>
    <plugins>
        <plugin>
            <groupId>org.apache.maven.plugins</groupId>
            <artifactId>maven-compiler-plugin</artifactId>
            <version>3.1</version>
            <configuration>
                <source>1.8</source>
                <target>1.8</target>
                <encoding>UTF-8</encoding>
                <!--    <verbal>true</verbal>-->
            </configuration>
        </plugin>
        <plugin>
            <groupId>org.apache.maven.plugins</groupId>
            <artifactId>maven-shade-plugin</artifactId>
            <version>2.4.3</version>
            <executions>
                <execution>
                    <phase>package</phase>
                    <goals>
                        <goal>shade</goal>
                    </goals>
                    <configuration>
                        <minimizeJar>true</minimizeJar>
                    </configuration>
                </execution>
            </executions>
        </plugin>
    </plugins>
</build>

注：
为了不显示日志的警告，可以在resources中加入log4j.properties文件：

# Configure logging for testing: optionally with log file

#log4j.rootLogger=debug,appender
log4j.rootLogger=info,appender  
#log4j.rootLogger=error,appender

#\u8F93\u51FA\u5230\u63A7\u5236\u53F0
log4j.appender.appender=org.apache.log4j.ConsoleAppender  
#\u6837\u5F0F\u4E3ATTCCLayout
log4j.appender.appender.layout=org.apache.log4j.TTCCLayout

8.3 使用url方式访问数据

@Test
public void urlHdfs() throws IOException {
    //1.注册url
    URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());
    //2.获取hdfs文件输入流
    InputStream inputStream = new URL("hdfs://node01:8020/a.txt").openStream();
    //3.获取本地文件输出流
    FileOutputStream fileOutputStream = new FileOutputStream(new File("D:/java2/hello.txt"));
    //4.文件拷贝
    IOUtils.copy(inputStream, fileOutputStream);
    //5.关闭
    IOUtils.closeQuietly(inputStream);
    IOUtils.closeQuietly(fileOutputStream);
}

8.4 使用FileSystem方式访问数据

8.4.1 主要涉及的类

Configuration
- 该类的对象封转了客户端或者服务器的配置，通过set方法设置文件系统类型
FileSystem
- 该类的对象是一个文件系统对象，可以用该对象的一些方法来对文件进行操作, 通过FileSystem的静态方法get获得该对象
  - get 方法从 conf 中的一个参数 fs.defaultFS 的配置值判断具体是什么类型的文件系统
  - 如果我们的代码中没有指定 fs.defaultFS，并且工程 ClassPath 下也没有给定相应的配置，conf 中的默认值就来自于 Hadoop 的 Jar 包中的 core-default.xml
  - 默认值为 file:///，则获取的不是一个 DistributedFileSystem 的实例，而是一个本地文件系统的客户端对象

8.4.2 获取FileSystem的方式

@Test
public void getFileSystem1() throws IOException {
    //1.创建Configuration对象
    Configuration configuration = new Configuration();
    //2.设置文件系统类型
    configuration.set("fs.defaultFS", "hdfs://node01:8020");
    //3.获取指定的文件系统
    FileSystem fileSystem = FileSystem.get(configuration);
    //4.输出
    System.out.println(fileSystem);
}

@Test
public void getFileSystem2() throws IOException, URISyntaxException {
    FileSystem fileSystem = FileSystem.get(new URI("hdfs://node01:8020"), new Configuration());
    System.out.println(fileSystem);
}

@Test
public void getFileSystem3() throws IOException {
    //1.创建Configuration对象
    Configuration configuration = new Configuration();
    //2.设置文件系统类型
    configuration.set("fs.defaultFS", "hdfs://node01:8020");
    //3.获取指定的文件系统
    FileSystem fileSystem = FileSystem.newInstance(configuration);
    //4.输出
    System.out.println(fileSystem);
}

@Test
public void getFileSystem4() throws IOException, URISyntaxException {
    FileSystem fileSystem = FileSystem.newInstance(new URI("hdfs://node01:8020"), new Configuration());
    System.out.println(fileSystem);
}

8.4.3 遍历HDFS所有文件

@Test
public void listFiles() throws URISyntaxException, IOException {
    //1.获取FileSystem实例
    FileSystem fileSystem = FileSystem.get(new URI("hdfs://node01:8020"), new Configuration());
    //2.调用listFiles获取/目录下所有的文件信息
    RemoteIterator<LocatedFileStatus> iterator = fileSystem.listFiles(new Path("/"), true);
    //3.遍历迭代器
    while (iterator.hasNext()) {
        LocatedFileStatus fileStatus = iterator.next();
        //获取文件的绝对路径 hdfs://node01:8020/xxx
        System.out.println(fileStatus.getPath() + "----" + fileStatus.getPath().getName());
        //获取文件的block信息
        BlockLocation[] blockLocations = fileStatus.getBlockLocations();
        System.out.println("block数：" + blockLocations.length);
    }
}

8.4.4 HDFS上创建文件夹

可以创建文件夹、文件
创建文件时，如果目录不存在，则会创建目录

@Test
public void mkdirsTest() throws IOException, URISyntaxException {
    //1.
    FileSystem fileSystem = FileSystem.get(new URI("hdfs://node01:8020"), new Configuration());
    //2.创建文件夹
    /*boolean bl = fileSystem.mkdirs(new Path("/aaa/bbb/ccc"));
    System.out.println(bl);*/
    fileSystem.create(new Path("/aaa/bbb/ccc/a.txt"));
    //3.关闭fs
    fileSystem.close();
}

8.4.5 HDFS下载文件

@Test
public void getFileToLocal() throws URISyntaxException, IOException {
    //1.
    FileSystem fileSystem = FileSystem.get(new URI("hdfs://node01:8020"), new Configuration());
    //2.获取hfds输入流
    FSDataInputStream fsDataInputStream = fileSystem.open(new Path("/a.txt"));
    //3.获取本地路径的输入流
    FileOutputStream fileOutputStream = new FileOutputStream("D:/java2/a.txt");
    //4.文件的拷贝
    IOUtils.copy(fsDataInputStream, fileOutputStream);
    //5.关闭流
    IOUtils.closeQuietly(fsDataInputStream);
    IOUtils.closeQuietly(fileOutputStream);
}

@Test
public void getFileToLocal2() throws IOException, URISyntaxException {
    //1.
    FileSystem fileSystem = FileSystem.get(new URI("hdfs://node01:8020"), new Configuration());
    //2.调用方法，实现文件下载
    fileSystem.copyToLocalFile(new Path("/a.txt"), new Path("D:/java2/a.txt"));
    //3.关闭fs
    fileSystem.close();
}

8.4.6 HDFS上传文件

@Test
public void putFileFromLocal() throws URISyntaxException, IOException {
    //1.
    FileSystem fileSystem = FileSystem.get(new URI("hdfs://node01:8020"), new Configuration());
    //2.调用方法，实现文件上传
    fileSystem.copyFromLocalFile(new Path("D:/java2/123.txt"), new Path("/"));
    //3.关闭fs
    fileSystem.close();
}

8.4.7 HDFS访问权限控制

hdfs访问权限控制由hdfs-site.xml和chmod设置的权限决定
hdfs-site.xml：
如果“真”，则在HDFS中启用权限检查。如果“false”，则关闭权限检查，但所有其他行为不变。从一个参数值切换到另一个参数值不会更改模式、所有者或文件或目录组。

<property>
	<name>dfs.permissions.enabled</name>
	<value>true</value>
</property>

伪装用户
get或newInstance的三参数的方法，第三个参数是String user，这个user可以是任意的

@Test
public void getFileToLocal3() throws IOException, URISyntaxException, InterruptedException {
    //1.
    FileSystem fileSystem = FileSystem.get(new URI("hdfs://node01:8020"), new Configuration(), "root");
    //2.调用方法，实现文件下载
    fileSystem.copyToLocalFile(new Path("/a.txt"), new Path("D:/java2/a.txt"));
    //3.关闭fs
    fileSystem.close();
}

8.4.8 小文件合并

# 将很多的 hdfs 文件合并成一个大文件下载到本地
hdfs dfs -getmerge /config/*.xml ./hello.xml

上传时将小文件合并为一个大文件：

@Test
public void mergeFiles() throws URISyntaxException, IOException, InterruptedException {
    //1.(伪造了一个root用户)
    FileSystem fileSystem = FileSystem.get(new URI("hdfs://node01:8020"), new Configuration(), "root");
    //2.获取hdfs大文件的输出流
    FSDataOutputStream fsDataOutputStream = fileSystem.create(new Path("/bigText.txt"));
    //3.获取一个本地文件系统
    LocalFileSystem localFileSystem = FileSystem.getLocal(new Configuration());
    //4.获取本地文件夹下所有文件的详情
    FileStatus[] fileStatuses = localFileSystem.listStatus(new Path("D:/java2/d0"));
    //5.遍历每个文件，获取每个文件的输入流
    for (FileStatus fileStatus : fileStatuses) {
        FSDataInputStream fsDataInputStream = localFileSystem.open(fileStatus.getPath());
        //6.将小文件的数据复制到大文件
        IOUtils.copy(fsDataInputStream, fsDataOutputStream);
        IOUtils.closeQuietly(fsDataInputStream);
    }
    //7.关闭流
    IOUtils.closeQuietly(fsDataOutputStream);
    localFileSystem.close();
    fileSystem.close();
}

9 HDFS高可用机制

9.1 介绍

在典型的HA集群中，两台独立的机器被配置为NameNode。在工作集群中，NameNode机器中的一个处于Active状态，另一个处于Standby状态。Active NameNode负责群集中的所有客户端操作，而Standby充当从服务器。Standby机器保持足够的状态以提供快速故障切换（如果需要）。

9.2 组件

ZKFailoverController
是基于Zookeeper的故障转移控制器，它负责控制NameNode的主备切换，ZKFailoverController会监测NameNode的健康状态，当发现Active NameNode出现异常时会通过Zookeeper进行一次新的选举，完成Active和Standby状态的切换。
HealthMonitor
周期性调用NameNode的HAServiceProtocol RPC接口（monitorHealth 和 getServiceStatus），监控NameNode的健康状态并向ZKFailoverController反馈。
ActiveStandbyElector
接收ZKFC的选举请求，通过Zookeeper自动完成主备选举，选举完成后回调ZKFailoverController的主备切换方法对NameNode进行Active和Standby状态的切换。
NameNode和DataNode
NameNode包含了HDFS的元数据信息和数据块信息（blockmap），其中数据块信息通过DataNode主动向Active NameNode和Standby NameNode上报。
共享存储系统
共享存储系统负责存储HDFS的元数据（EditsLog），Active NameNode（写入）和 Standby NameNode（读取）通过共享存储系统实现元数据同步，在主备切换过程中，新的Active NameNode必须确保元数据同步完成才能对外提供服务。

10 HDFS的联邦机制

多个NN共用一个集群里的存储资源，每个NN都可以单独对外提供服务。
每个NN都会定义一个存储池，有单独的id，每个DN都为所有存储池提供存储。
DN会按照存储池id向其对应的NN汇报块信息，同时，DN会向所有NN汇报本地存储可用资源情况。

你可能感兴趣的:(Hadoop)

Hadoop（在Linux中安装jdk）錠诗味 linux hadoop 运维
安装之前需准备：1.需要远程连接软件2.需要jdk3.需要准备两个文件夹01/export/software安装包02/export/servers解压文件夹现在正式开始安装1.将压缩包存放在/export/software目录下2.进入到software目录进行解压cd/export/software（切换目录）tar-zxvfjdk-8u202-linux-x64.tar.gz-C/expor
数据仓库和非结构化数据。 weixin_30631587 数据库
数据仓库包含标准化数据。还包含外部数据/非结构化数据如果外部数据量小可以保持数据库内部或者专用服务器。如果量大只能记住地址，在etl加载当然也有需求是实时数据比如股票汇率拿只能etl过程处理非结构化数据包含图片，视频音频如果是传统数据库db2oracle存在里面是不合适的。存储影响性能如果是hadoop无所谓影响不大，但是从使用者的角度非结构化数据只能转换关系使用建一张元数据表存储非结构化存储位置
CentOS 7系统中hadoop的安装和环境配置代码小张z centos hadoop linux
1.创建Hadoop安装解压路径：mkdir-p/usr/hadoop2.进入路径：cd/usr/hadoop3.下载安装包（我这里用的是阿里云镜像压缩包）：wgethttps://mirrors.aliyun.com/apache/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz4.解压安装包到hadoop文件路径：tar-zxvf/usr/hadoo
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
Hadoop 实战笔记（二）-- HDFS 常用 shell 命令总结 dazhong2012 Hadoop hdfs hadoop
一、HDFS命令显示当前目录结构#显示当前目录结构hadoopfs-ls#递归显示当前目录结构hadoopfs-ls-R#显示根目录下内容hadoopfs-ls/创建目录#创建目录hadoopfs-mkdir#递归创建目录hadoopfs-mkdir-p删除操作#删除文件hadoopfs-rm#递归删除目录和文件hadoopfs-rm-R从本地加载文件到HDFS#二选一执行即可hadoopfs-p
How Spark Read Sftp Files from Hadoop SFTP FileSystem IT•轩辕 Cloudy Computation spark hadoop 大数据
GradleDependenciesimplementation('org.apache.spark:spark-sql_2.13:3.5.3'){excludegroup:"org.apache.logging.log4j",module:"log4j-slf4j2-impl"}implementation('org.apache.hadoop:hadoop-common:3.3.4'){exc
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Spark集群启动与关闭陈沐 spark spark hadoop big data
Hadoop集群和Spark的启动与关闭Hadoop集群开启三台虚拟机均启动ZookeeperzkServer.shstartMaster1上面执行启动HDFSstart-dfs.shslave1上面执行开启YARNstart-yarn.shslave2上面执行开启YARN的资源管理器yarn-daemon.shstartresourcemanager(如果nodeManager没有启动(正常情况
Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive hadoop 数据仓库
目录背景‌一、Hive函数分类与核心函数表‌1.内置函数分类‌2.用户自定义函数（UDF）分类二、常用函数详解与实战案例‌1.数学函数‌2.字符串函数‌3.窗口函数‌4.自定义UDF实战‌三、总结与优化建议‌1.核心总结2.性能优化建议‌3.常问问题背景‌Hive作为Hadoop生态中最常用的数据仓库工具，其强大的函数库是高效处理和分析海量数据的核心能力之一。Hive函数分为‌内置函数‌和‌用户自
Hadoop MapReduce 词频统计（WordCount）代码解析教程我不是少爷. Java基础 hadoop mapreduce 大数据
一、概述这是一个基于HadoopMapReduce框架实现的经典词频统计程序。程序会统计输入文本中每个单词出现的次数，并将结果输出到HDFS文件系统。二、代码结构packagecom.bigdata.wc;//Hadoop核心类库导入importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;//数据类型定义
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路 Echo_Wish 大数据大数据 hadoop spark
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路说起大数据技术，Hadoop和Spark可以说是这个领域的两座里程碑。Hadoop曾是大数据的开山之作，而Spark则带领我们迈入了一个高效、灵活的大数据处理新时代。那么，它们的演变过程到底有何深意？背后技术上的取舍和选择，又意味着什么？一、Hadoop：分布式存储与计算的奠基者Hadoop诞生于互联网流量爆发式增长的时代，
hadoop集群关闭命令顺序_启动和关闭Hadoop集群命令步骤氪老师 hadoop集群关闭命令顺序
启动和关闭Hadoop集群命令步骤总结：1.在master上启动hadoop-daemon.shstartnamenode.2.在slave上启动hadoop-daemon.shstartdatanode.3.用jps指令观察执行结果.4.用hdfsdfsadmin-report观察集群配置情况.5.通过http://npfdev1:50070界面观察集群运行情况.(如果遇到问题看https://
在kali linux中配置hadoop伪分布式 we19a0sen 三数据分析分布式 linux hadoop
目录一.配置静态网络二.配置主机名与IP地址映射三.配置SSH免密登录四.配置Java和Hadoop环境五.配置Hadoop伪分布式六.启动与验证一.配置静态网络原因：Hadoop集群依赖稳定的网络通信，动态IP可能导致节点失联。静态IP确保节点始终通过固定地址通信。操作步骤：#修改网络配置文件sudovim/etc/network/interfaces#添加内容（根据实际网络修改）：autoet
Spark任务读取hive表数据导入es 小小小小小小小小小小码农 hive elasticsearch spark java
使用elasticsearch-hadoop将hive表数据导入es，超级简单1.引入pomorg.elasticsearchelasticsearch-hadoop9.0.0-SNAPSHOT2.创建sparkconf//spark参数设置SparkConfsparkConf=newSparkConf();//要写入的索引sparkConf.set("es.resource","");//es集
hive-进阶版-1 数据牧马人 hive hadoop 数据仓库
第6章hive内部表与外部表的区别Hive是一个基于Hadoop的数据仓库工具，用于对大规模数据集进行数据存储、查询和分析。Hive支持内部表（ManagedTable）和外部表（ExternalTable）两种表类型，它们在数据存储、管理方式和生命周期等方面存在显著区别。以下是内部表和外部表的主要区别：1.数据存储位置内部表：数据存储在Hive的默认存储目录下，通常位于HDFS（HadoopDi
大数据手册(Spark)--Spark安装配置 WilenWu 数据分析(Data Analysis)大数据 spark 分布式
本文默认在zsh终端安装配置，若使用bash终端，环境变量的配置文件相应变化。若安装包下载缓慢，可复制链接到迅雷下载，亲测极速～准备工作Spark的安装过程较为简单，在已安装好Hadoop的前提下，经过简单配置即可使用。假设已经安装好了hadoop（伪分布式）和hive，环境变量如下JAVA_HOME=/usr/opt/jdkHADOOP_HOME=/usr/local/hadoopHIVE_HO
虚拟机中Hadoop集群NameNode进程缺失问题解析与解决申朝先生 hadoop 大数据分布式 linux
目录问题概述问题分析解决办法总结问题概述在虚拟机中运行Hadoop集群时，通过执行jps命令检查进程时，发现NameNode进程缺失。这通常会导致Hadoop集群无法正常运行，影响数据的存储和访问。问题分析导致NameNode进程缺失的原因可能有以下几点：集群未正确停止：在关闭虚拟机或重启Hadoop集群之前，未执行stop-all.sh命令正确停止集群，导致Hadoop服务异常退出，留下残留数据
大数据学习（67）- Flume、Sqoop、Kafka、DataX对比 viperrrrrrr 大数据学习 flume kafka sqoop datax
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop间数据同步关系型数据库→Hadoop生态系统（HDFS、Hive、
Kubernetes集群版本升级程序员Realeo Java后端 kubernetes 容器云原生
集群升级注意事项升级集群版本建议逐步升级，比如v1.20.1–>v1.21.1–>v1.22.1–>v1.23.1–>v1.24.1，不能跨度过大，否则会报错。升级步骤查看集群版本[root@hadoop102~]#kubectlgetnodesNAMESTATUSROLESAGEVERSIONhadoop102Ready,SchedulingDisabledcontrol-plane,maste
Kubernetes集群版本升级后端java
集群升级注意事项升级集群版本建议逐步升级，比如v1.20.1–>v1.21.1–>v1.22.1–>v1.23.1–>v1.24.1，不能跨度过大，否则会报错。升级步骤查看集群版本[root@hadoop102~]#kubectlgetnodesNAMESTATUSROLESAGEVERSIONhadoop102Ready,SchedulingDisabledcontrol-plane,maste
Hive高级SQL技巧及实际应用场景小技工丨大数据随笔 sql hive 数据仓库大数据
Hive高级SQL技巧及实际应用场景引言ApacheHive是一个建立在Hadoop之上的数据仓库基础设施，它提供了一个用于查询和管理分布式存储中的大型数据集的机制。通过使用类似于SQL（称为HiveQL）的语言，Hive使得数据分析变得更加简单和高效。本文将详细探讨一些Hive高级SQL技巧，并结合实际的应用场景进行说明。HiveSQL的高级使用技巧1.窗口函数描述：窗口函数允许我们在不使用GR
hive 数字转换字符串_Hive架构及Hive SQL的执行流程解读 weixin_39756416 hive 数字转换字符串
1、Hive产生背景MapReduce编程的不便性HDFS上的文件缺少Schema(表名，名称，ID等，为数据库对象的集合)2、Hive是什么Hive的使用场景是什么？基于Hadoop做一些数据清洗啊(ETL)、报表啊、数据分析可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。Hive是SQL解析引擎，它将SQL语句转译成M/RJob然后在Hadoop执行。由Facebook开源，
在hadoop上运行python_hadoop上运行python程序廷哥带你小路超车
数据来源：http://www.nber.org/patents/acite75_99.zip首先上传测试数据到hdfs：[root@localhost:/usr/local/hadoop/hadoop-0.19.2]#bin/hadoopfs-ls/user/root/test-inFound5items-rw-r--r--1rootsupergroup1012010-10-2414:39/us
ranger集成starrock报错蘑菇丁大数据+机器学习+oracle 大数据
org.apache.ranger.plugin.client.HadoopException:initConnection:UnabletoconnecttoStarRocksinstance,pleaseprovidevalidvalueoffield:{jdbc.driverClassName}..com.mysql.cj.jdbc.Driver.可能的原因JDBC驱动缺失：运行环境中没有安
深入大数据世界：Kontext.TECH的Hadoop之旅钱桦实Emery
深入大数据世界：Kontext.TECH的Hadoop之旅winutils项目地址:https://gitcode.com/gh_mirrors/winut/winutils在大数据的浩瀚宇宙中，Hadoop作为一颗璀璨的星辰，一直扮演着至关重要的角色。对于渴望探索这一领域的开发者和学习者而言，Kontext.TECH提供了一扇独特而便捷的大门，让你的学习之旅更加顺畅。项目介绍Kontext.Ha
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要