[email protected]

Apache Hadoop

一、大数据（Big Data）

引言

1.什么是大数据

体量很大的数据，起步存储当量为TB级或者日均数据增长GB级。
在海量数据下，可以进行分析，挖掘，进而发现数据内在的规律，从而为企业或者国家创造价值。

2.大数据的特点（4v特性）

（1） Volume:体量大
（2）Variety:样式多数据种类多
1.1 结构化数据
1.2.半结构化数据：json、xml
1.3.非结构化数据：图片、音频、视频
（3） Velocity:速度快
（4） Value:低价值密度的数据，挖掘出高价值。

3.大数据处理的核心数据类型-文本数据

4.大数据的数据来源

自己公司系统运行产生的日志（Nginx,Log4j[埋点日志],数据库中的数据）

爬虫

行业大数据电信医疗政府金融

大数据交易（贵州）脱敏

5.分布式及其产生背景

分布式：服务间出现跨机器、跨进程通信同一称为分布式

存储：
1.单机存储-瓶颈：容量限制、扩展性差、数据灾备问题
2.分布式存储：使用存储的集群实现对海量数据的并行化的读写，提升系统写的吞吐能力。目前针对传统业务领域的分布式文件存储方案有：FastDFS/GlusterFS/GridFS、大文本日志存储解决方案：HDFS
分析：
1.单机分析-计算：慢，受限于单机存储的内存、CPU、网络限制。
2.分布式计算：将计算任务交给专门的计算集群负责任务的计算。打破单机计算的瓶颈，实现并行计算，模拟多核CPU的计算能力。可以实现在一定的时间内达到对数据的有效分析。

6.大数据处理技术的起源

2003-2004年，Google公布了部分GFS和MapReduce思想的细节，受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。然后Yahoo招安Doug Gutting及其项目。
2005年：Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。
2006年2月:yahoo加入Nutch工程尝试将Nutch存储和计算分离出来，成为一套完整独立的软件并起名为Hadoop 。

人称Hadoop之父的Doug Cutting，Apache软件基金会主席，是Lucene、Nutch 、Hadoop等项目的发起人。最开始Hadoop只是Apache Lucene的子项目Nutch的一部分。Lucene 是全球第一个开源的全文检索引擎工具包， Nutch基于Lucene，并具有网页抓取和解析的功能，可以实现一个搜索引擎的开发，但是如果投入使用的话就必须在极短时间内做出反应，并且能够实现短时间内对亿级数量的网页进行分析处理，这就需要考虑分布式任务处理、故障恢复、负载均衡这些问题。后来Doug Cutting 借鉴谷歌的Google File System和MapReduce:Simplified Data Processing On Large Clusters两篇论文，移植了其中的技术，并将其命名为：Hadoop。

HDFS:Hadoop 分布式文件存储系统，解决海量数据的存储问题（非常重要）
Map Reduce：Hadoop项目分布式计算框架（老），已经成为大数据计算的标杆。是早期分布式计算解决方案。期间该方案在2010年又被Yahoo团队做了一次升级，主要解决的是MapReduce在大规模计算集群的扩展性问题，但是并没有本质改变MapReduce计算本质。因为MapReduce计算的是通过对数据做磁盘迭代计算。导致计算速度不算太快。2013年下半年出现了Spark是一款基于内存的分布式计算框架，用于替代Hadoop的MapReduce，被人们称为第二代大数据计算引擎。

二、Hadoop框架

（一）引言

1.起源

Doug Cutting是Lucene（全文搜索技术 Solr ES）、Nutch作者，后续设计开发了Hadoop体系。
Hadoop1.x<---------------------------------------------Google
HDFS(Hadoop Distributed File System) <------GFS
MapReduce<-------------------------------------------MapReduce
HBase <-------------------------------------------------BigTable
apache组织正式开源Hadoop,并把Hadoop作为了顶级项目。

2.Hadoop的生态圈

Hadoop Core (HDFS,MR-MapReduce)

Hadoop生态工具（Hive,HBase）

Hadoop辅助工具（Flume,Sqoop,Oozie,Hue）

3.Hadoop的核心技术

HDFS 文件系统（IO）存数据取数据

MapReduce 编程，数据的计算原有的 Java开发区别

Hive 学SQL (HQL Hive Query Lanuage) 类似SQL 95%和SQL语法一致

Hbase （NoSQL) 类比 Redis 存取数据

（二）HDFS

1.基本概念

全称Hadoop Distributed File System，是Hadoop一个基于分布式存储通用的文件系统，该系统特点容易部署、对系统硬件要求低，搭建成本可控。可以使得数据存储大小和集群过程呈现一种线性关系（目前最大已知规模2000台左右规模，实际在生产环境下集群规模一般在10~100台左右）。HDFS文件系统的架构图：

NameNode:使用内存存储集群中的元数据（文件名、权限、位置、大小、创建时间、副本信息、块信息、实际存储数据的datanode信息）

DataNode:HDFS中专门用于存储数据的服务器，负责响应客户端对数据块的读写请求，向NameNode汇报自身状态信息，同时负责对块数据的冗余保存以及存储块数据加密后的校验和。

Block:是HDFS切分文件的尺度，默认是128MB，一个文件最多只有一个不足128MB块

副本因子：HDFS为了防止DataNode宕机导致块的丢失，允许一个块又多个备份，默认备份是3

思考：为什么HDFS不擅长存储小文件？
例：

案例	NameNode	DataNode
1文件128MB	1条数据块映射元数据	128MB磁盘存储*（副本因子）
1000文件总计128MB	1000*1条数据块映射元数据	128MB磁盘存储*（副本因子）

因为Namenode使用单机的内存存储，因此由于小文件会占用更多的内存空间，导致了Namenode内存浪费。

2.Hadoop的伪分布式搭建

安装虚拟器并且安装CentOS-6.5 64位（参考[CentOS 64安装.wmv](./CentOS 64安装.wmv)）
安装jdk-8u171-linux-x64.rpm配置JAVA_HOME环境变量（~/.bashrc）

[root@CentOS ~]# rpm -ivh jdk-8u171-linux-x64.rpm 
[root@CentOS ~]# ls -l /usr/java/
total 4
lrwxrwxrwx. 1 root root   16 Mar 26 00:56 default -> /usr/java/latest
drwxr-xr-x. 9 root root 4096 Mar 26 00:56 jdk1.8.0_171-amd64
lrwxrwxrwx. 1 root root   28 Mar 26 00:56 latest -> /usr/java/jdk1.8.0_171-amd64
[root@CentOS ~]# vi .bashrc 
JAVA_HOME=/usr/java/latest
PATH=$PATH:$JAVA_HOME/bin
CLASSPATH=.
export JAVA_HOME
export PATH
export CLASSPATH

[root@CentOS ~]# source ~/.bashrc # 加载环境变量

配置主机名和IP映射关系

[root@CentOS ~]# vi /etc/hosts # 一定是自己的IP

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.40.128 CentOS

配置ssh免密登录

[root@CentOS ~]# ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa): 
Created directory '/root/.ssh'.
Enter passphrase (empty for no passphrase): 
Enter same passphrase again: 
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
4b:29:93:1c:7f:06:93:67:fc:c5:ed:27:9b:83:26:c0 root@CentOS
The key's randomart image is:
+--[ RSA 2048]----+
|                 |
|         o   . . |
|      . + +   o .|
|     . = * . . . |
|      = E o . . o|
|       + =   . +.|
|        . . o +  |
|           o   . |
|                 |
+-----------------+
[root@CentOS ~]# ssh-copy-id CentOS
The authenticity of host 'centos (192.168.40.128)' can't be established.
RSA key fingerprint is 3f:86:41:46:f2:05:33:31:5d:b6:11:45:9c:64:12:8e.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added 'centos,192.168.40.128' (RSA) to the list of known hosts.
root@centos's password: 
Now try logging into the machine, with "ssh 'CentOS'", and check in:

  .ssh/authorized_keys

to make sure we haven't added extra keys that you weren't expecting.
[root@CentOS ~]# ssh root@CentOS
Last login: Tue Mar 26 01:03:52 2019 from 192.168.40.1
[root@CentOS ~]# exit
logout
Connection to CentOS closed.

关闭防火墙

# 临时关闭服务
[root@CentOS ~]# service iptables stop
iptables: Setting chains to policy ACCEPT: filter [  OK  ]
iptables: Flushing firewall rules: [  OK  ]
iptables: Unloading modules: [  OK  ]
[root@CentOS ~]# service iptables status
iptables: Firewall is not running.
# 关闭开机自动启动
[root@CentOS ~]# chkconfig iptables off
[root@CentOS ~]# chkconfig --list | grep iptables
iptables        0:off   1:off   2:off   3:off   4:off   5:off   6:off

安装配置Hadoop
解压并配置环境变量

[root@CentOS ~]# tar -zxf hadoop-2.6.0_x64.tar.gz -C /usr/
[root@CentOS ~]# ls /usr/hadoop-2.6.0/
bin  etc  include  lib  libexec  LICENSE.txt  NOTICE.txt  README.txt  sbin  share
[root@CentOS ~]# vi ~/.bashrc 
HADOOP_HOME=/usr/hadoop-2.6.0
JAVA_HOME=/usr/java/latest
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
CLASSPATH=.
export JAVA_HOME
export PATH
export CLASSPATH
export HADOOP_HOME
[root@CentOS ~]# source  ~/.bashrc 
[root@CentOS ~]# hadoop version
Hadoop 2.6.0
Subversion Unknown -r Unknown
Compiled by root on 2016-08-01T20:48Z
Compiled with protoc 2.5.0
From source with checksum 18e43357c8f927c0695f1e9522859d6a
This command was run using /usr/hadoop-2.6.0/share/hadoop/common/hadoop-common-2.6.0.jar

配置hadoop配置文件etc/hadoop/{core-site.xml|hdfs-site.xml|slaves}

core-site.xml(配置的是NameNode访问入口，以及服务存储的根目录)


[root@CentOS ~]# vi /usr/hadoop-2.6.0/etc/hadoop/core-site.xml 
<!--nn访问入口-->
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://CentOS:9000</value>
</property>
<!--hdfs工作基础目录-->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/usr/hadoop-2.6.0/hadoop-${user.name}</value>
</property>
[root@CentOS ~]# vi /usr/hadoop-2.6.0/etc/hadoop/hdfs-site.xml 
<!--block副本因子-->
<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>
<!--配置Sencondary namenode所在物理主机-->
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>CentOS:50090</value>
</property>
<!--关闭HDFS权限管理-->
<property>
	<name>dfs.permissions.enabled</name>
    <value>false</value>
</property>
[root@CentOS ~]# vi /usr/hadoop-2.6.0/etc/hadoop/slaves 
CentOS

HDFS初始化

如果是第一次初始化启动HDFS服务，需要创建一个空的fsimage文件，以便Namenode在启动的时候加载

[root@CentOS ~]# hdfs namenode -format # 创建初始化所需的fsimage文件
...
19/03/26 01:31:09 INFO namenode.NNConf: Maximum size of an xattr: 16384
19/03/26 01:31:09 INFO namenode.FSImage: Allocated new BlockPoolId: BP-1143348175-192.168.40.128-1553535069443
19/03/26 01:31:09 INFO common.Storage: Storage directory `/usr/hadoop-2.6.0/hadoop-root/dfs/name has been successfully formatted.`
19/03/26 01:31:09 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0

启动HDFS的服务

[root@CentOS ~]# start-dfs.sh 
Starting namenodes on [CentOS]
CentOS: starting namenode, logging to /usr/hadoop-2.6.0/logs/hadoop-root-namenode-CentOS.out
CentOS: starting datanode, logging to /usr/hadoop-2.6.0/logs/hadoop-root-datanode-CentOS.out
Starting secondary namenodes [CentOS]
CentOS: starting secondarynamenode, logging to /usr/hadoop-2.6.0/logs/hadoop-root-secondarynamenode-CentOS.out
[root@CentOS ~]# jps
2097 SecondaryNameNode
2280 Jps
1993 DataNode
1918 NameNode

#或者访问：http://[IP]:50070/

3.HDFS 垃圾回收站配置

用户可以通过配置core-site.xml，开启NameNode的垃圾回收。NameNode会根据fs.trash.interval配置配置垃圾回收的频率，默认单位是分钟。表示1分钟内，如果用户不处理删除文件，系统会自动删除回收战的内容。该种机制就是为了防止用户的误操作。

<property>
    <name>fs.trash.intervalname>
    <value>1value>
property>

4.Client对HDFS的访问

（1）Shell方式

HDFS Shell(脚本)

[root@CentOS ~]# hdfs dfs -help
Usage: hadoop fs [generic options]
        [-appendToFile <localsrc> ... <dst>]
        [-cat [-ignoreCrc] <src> ...]
        [-checksum <src> ...]
        [-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...]
        [-copyFromLocal [-f] [-p] [-l] <localsrc> ... <dst>]
        [-copyToLocal [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
        [-cp [-f] [-p | -p[topax]] <src> ... <dst>]
        [-get [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
        [-help [cmd ...]]
        [-ls [-d] [-h] [-R] [<path> ...]]
        [-mkdir [-p] <path> ...]
        [-moveFromLocal <localsrc> ... <dst>]
        [-moveToLocal <src> <localdst>]
        [-mv <src> ... <dst>]
        [-put [-f] [-p] [-l] <localsrc> ... <dst>]
        [-rm [-f] [-r|-R] [-skipTrash] <src> ...]
        [-tail [-f] <file>]
        [-text [-ignoreCrc] <src> ...]
        [-touchz <path> ...]

（2）Java代码方式

配置Windows开发环境

①解压hadoop的安装包
②将winutil.exe和hadoop.dll文件拷贝到hadoop安装目录下的bin目录
③在Windows上配置CentOS的主机名和IP的映射关系

192.168.40.128 CentOS

④配置HADOOP_HOME环境变量
⑤重启IDEA开发工具，否则IDAE无法识别HADOOP_HOME，因为windows执行代码程序需要通过HADOOP_HOME定位winutil.exe和hadoop.dll文件。

引入Maven依赖

<dependency>
    <groupId>org.apache.hadoopgroupId>
    <artifactId>hadoop-commonartifactId>
    <version>2.6.0version>
dependency>
<dependency>
    <groupId>org.apache.hadoopgroupId>
    <artifactId>hadoop-hdfsartifactId>
    <version>2.6.0version>
dependency>

HDFS访问过程中核心的API

1. Configuration 配置类，进行core-site.xml hdfs-site.xml 配置信息
的读取，操作
2. FileSystem 代表的就是 HDFS分布式文件系统
3. IOUtils IO操作的工具类

示例代码

public class TestHDFS {
	//从HDFS中读取文件在控制台输出
	@Test
	public void test1() throws Exception{
		Configuration conf = new Configuration();
		conf.set("fs.defaultFS","hdfs://CentOS:8020");
		FileSystem fileSystem = FileSystem.get(conf);
		FSDataInputStream fsDataInputStream = fileSystem.open(new
		Path("/liuh/xiaohei/data"));
		IOUtils.copyBytes(fsDataInputStream, System.out, 1024, true);
	}
	
	
	//添加获取FileSystem对象的工具方法，在以下测试中使用
	private FileSystem getFileSystem() throws Exception{
	Configuration conf = new Configuration();
	conf.set("fs.defaultFS","hdfs://hadoop2.baizhiedu.com:8020");
	FileSystem fileSystem = FileSystem.get(conf);
	return fileSystem;
	}
	//从HDFS中读取文件在控制台输出
	@Test
	public void test2() throws Exception {
		FileSystem fileSystem = getFileSystem();
		FSDataInputStream fsDataInputStream = fileSystem.open(new
		Path("/liuh/xiaohei/data"));
		IOUtils.copyBytes(fsDataInputStream,System.out,1024,true);
	}
	//加载本地配置文件core-site.xml替代伪分布式中配置。从HDFS中读取文件在控制台输出
	@Test
	public void test3()throws Exception {
		Configuration conf = new Configuration();
		conf.addResource(new
	Path("C:\\Users\\Administrator\\IdeaProjects\\hadoop_code\\hadoop-hdfsbaizhiedu\\src\\main\\resources\\core-site.xml"));
		FileSystem fileSystem = FileSystem.get(conf);
		FSDataInputStream fsDataInputStream = fileSystem.open(new
		Path("/liuh/xiaohei/data"));
	IOUtils.copyBytes(fsDataInputStream, System.out, 1024, true);
	}
	//从HDFS中读取文件,输出为文件
	@Test
	public void test4()throws Exception{
		FileSystem fileSystem = getFileSystem();
		FSDataInputStream fsDataInputStream = fileSystem.open(new
		Path("/liuh/xiaohei/data"));
		
		FileOutputStream fileOutputStream = new
		FileOutputStream("f://laolei.txt");
		IOUtils.copyBytes(fsDataInputStream,fileOutputStream,1024,true);
	}
	//从本地文件读取内容，写出到HDFS文件中
	@Test
	public void test5()throws Exception{
		FileInputStream fileInputStream = new
		FileInputStream("f://xiaojr.txt");
		
		FileSystem fileSystem = getFileSystem();
		FSDataOutputStream fsDataOutputStream = fileSystem.create(new
		Path("/liuh/xiaohei/data1"));
		
		IOUtils.copyBytes(fileInputStream,fsDataOutputStream,1024,true);
	}
	//创建删除HDFS目录
	@Test
	public void test6()throws Exception{
		FileSystem fileSystem = getFileSystem();
		boolean isOk = fileSystem.mkdirs(new Path("/xiaojr"));
		System.out.println("创建目录 "+isOk);
		//fileSystem.delete(new Path(""),true);
	}
	
}

5.知识补充

（1）NameNode的安全模式

是对HDFS的一种保护机制，1）正常情况下当系统在加载fsimage的初期会自动进入安全模式，在该模式下系统不接受外界的任何请求，当加载完数据检查系统完毕，系统会自动离开安全模式。2）如果当DataNode/NameNode使用空间不足时,系统会自动进入安全模式。3）.当系统维护时，管理员也可手动的将NameNode切换成安全模式，维护结束再离开。

[root@CentOS ~]# hdfs dfsadmin -safemode get
Safe mode is OFF
[root@CentOS ~]# hdfs dfsadmin -safemode enter
Safe mode is ON
[root@CentOS ~]# hdfs dfs -put /root/install.log /
put: Cannot create file/install.log._COPYING_. Name node is in safe mode.
[root@CentOS ~]# hdfs dfsadmin -safemode leave
Safe mode is OFF
[root@CentOS ~]# hdfs dfs -put /root/install.log /

（2）Hadoop体系下配置文件优先级(由低到高)

1. *-default.xml share jar
core-default.xml HDFS整体设置 设置NameNode入口，namenode持久化，存储位置
hdfs-default.xml 设置与HDFS相关信息 副本数量 块大小 hdfs访问权限
yarn-default.xml 与yarn相关
mapred-default.xml 与mapred相关
2. *-site.xml etc/hadoop
# 如果site.xml对default对应的key进行了覆盖，那么就按照site的设置，进行处理，如果没有覆盖，则按照
default处理
core-site.xml HDFS整体设置 设置NameNode入口，namenode持久化，存储位置
hdfs-site.xml 设置与HDFS相关信息 副本数量 块大小 hdfs访问权限
yarn-site.xml 与yarn相关
mapred-site.xml 与mapred相关
3. 代码 *-site.xml 配置
4. 程序中
Configration.set()

（3）ssh免密登录

原理

操作

#1. 如何生成公私钥对
[root@CentOS ~]# ssh-keygen -t rsa
#2.把client机的公钥，发送给远端主机
[root@CentOS ~]# ssh-copy-id CentOS
#3.测试连接
[root@CentOS ~]# ssh root@CentOS
#4.退出测试连接
[root@CentOS ~]# exit

（4）NameNode的持久化persistent

NameNode在运行时，把重要的元数据放置在内存中，如果内存出现问题，则元数据丢失，为了保证元数据安全，NameNode有对应的持久化机制，把元数据持久化到硬盘存储。
持久化工作原理

fsimage:存储在Namenode服务所在物理主机磁盘上的一个二进制文本文件。记录了元数据信息

edits:存储在Namenode服务所在物理主机磁盘上的一个二进制文本文件，记录了对元数据修改操作。

#fsImage默认存储位置 /opt/install/hadoop-2.5.2/data/tmp/dfs/name
dfs.namenode.name.dir
#editslog默认存储位置
dfs.namenode.edits.dir

#定制FSImage和EditsLog的存储位置hdfs-site.xml
<property>
	<name>dfs.namenode.name.dirname>
	<value>file:///xxx/xxxxvalue>
property>
<property>
	<name>dfs.namenode.edits.dirname>
	<value>file:///xxx/xxxxvalue>
property>

HDFS集群启动经历过程

进入安全模式
1.整合 FSImage和EditsLog 生成新的EditsLog 和 FSImage,由新EditsLog接收用户写操作命令
2.DataNode都需NameNode主动汇报健康情况（心跳）3秒
3.汇报块列表 通过校验和 检查块是否可用，并定期1小时汇报。

（5）Secondary NameNode

当第一次启动Namenode服务的时候，系统会加载fsimage和edits文件进行合并得到最新元数据信息，并且更新fsimage和edits，一旦服务启动成功后，在服务允许期间不再更新fsimage，只是将操作记录在edits中。导致namenode在长期运行之后重启导致namenode启动时间过长，还可能导致edits文件过大。因此Hadoop HDFS引入Secondary Namenode 辅助Namenode在运行期间完成对元数据的备份和整理。
Secondary NameNode工作原理

自定义SecondaryNameNode 拉取数据的周期
hdfs-site.xml
	dfs.namenode.checkpoint.period 3600秒
	dfs.namenode.checkpoint.txns 1000000
	
secondaryNameNode启动方式：sbin/start-dfs.sh
sbin/hadoop-daemon.sh start secondarynamenode

定制secondaryNameNode 启动的节点
hdfs-site.xml
	dfs.namenode.secondary.http-address 0.0.0.0:50090
	dfs.namenode.secondary.https-address 0.0.0.0:50091

6. HDFS分布式集群搭建【简单版】

（1）机器的选型

1. NameNode选择 内存大
2. DataNode选择 硬盘大
# namenode节点同时可以充当datanode，充分利用硬盘资源

（2）各个节点配置

准备3个节点，修改下列信息

ip地址 防火墙 selinux 主机名 主机映射 jdk ssh免密登陆
ssh免密登录：
	1. 生成公私钥对
	ssh-keygen -t rsa 最终放置到 ~/.ssh目录
	2. 如何把client机的公钥，发送给远端主机
   	ssh-copy-id root@ip

配置文件及分布式搭建

1. Hadoop 每个节点都要安装hadoop，并且保证配置文件一致
   注意：老机器化 删除 hadoop_home/data/tmp 内容
2. 按照分布式集群的要求，书写配置文件，同步集群的每一个节点
   hadoop-env.sh
		export JAVA_HOME=/usr/java/jdk1.7.0_71
   core-site.xml
       
        <property>		
           <name>fs.defaultFSname>
           <value>hdfs://CentOSA:8020value>
        property>
       
       
        <property>
	       <name>hadoop.tmp.dirname>
	       <value>/opt/install/hadoop-2.5.2/data/tmpvalue>
         property>
   hdfs-site.xml
         
         <property>
               <name>dfs.permissions.enabledname>
                   <value>falsevalue>
          property>
   yarn-site.xml
		<property>
               <name>yarn.nodemanager.aux-servicesname>
               <value>mapreduce_shufflevalue>
      	 property>	
   mapred-site.xml
	
           <property>	 	        		
              <name>mapreduce.framework.namename>
              <value>yarnvalue>
           property>
   slaves 
       CentOSA
       CentOSB
       CentOSC
4. 格式化【namenode】
   bin/hdfs namenode -format
5. 启动集群【namenode】
   start-dfs.sh
   stop-dfs.sh
   
#shell命令 执行在 namenode所在节点

7.HANameNode集群

（1）原理分析

（2）集群搭建（3个节点）

zookeeper集群

   1.1 解压缩
       tar -zxvf zookeeper-3.4.5.tar.gz -C /opt/install
   1.2 创建数据文件夹
       mdkir  zookeeper安装目录/data
   1.3 conf目录修改zookeeper的配置文件
       修改zoo_sample.cfg 为 zoo.cfg
       		mv zoo_sample.cfg zoo.cfg
       编辑内容 vim zoo.cfg
       dataDir=/opt/install/zookeeper-3.4.5/data

       server.0=CentOSA:2888:3888
       server.1=CentOSB:2888:3888
       server.2=CentOSC:2888:3888
   1.4 在每个节点zookeeper安装目录/data目录下创建myid文件(touch myid),并分别修改vim myid
       CentOSA节点改为0
       CentOSB节点改为1
      CentOSC节点改为2
       可用scp -r 命令 同步集群中所有节点 并 修改对应的myid文件
   1.5 主节点 ssh 其他节点
   	   ssh CentOSA
   	   ssh CentOSB
   	   ssh CentOSC
   	   需要输入yes的节点需要再次ssh
   	   每次ssh完毕后需要exit
   1.6 启动zk服务
       bin/zkServer.sh start | stop | restart
       bin/zkServer.sh status 查看集群状态 【必须集群完整启动完成】
       
       bin/zkCli.sh [leader]

HA-HDFS集群

 ☆☆☆删除 data/tmp 
2.1 core-site.xml

		
	fs.defaultFS
	hdfs://ns



	hadoop.tmp.dir
	/opt/install/hadoop-2.5.2/data/tmp



	ha.zookeeper.quorum
	CentOSA:2181,CentOSB:2181, CentOSC:2181

2.2 hdfs-site.xml 

	dfs.permissions.enabled
	false




	dfs.nameservices
	ns



	dfs.ha.namenodes.ns
	nn1,nn2



	dfs.namenode.rpc-address.ns.nn1
	CentOSA:8020



	dfs.namenode.http-address.ns.nn1
	CentOSA:50070



	dfs.namenode.rpc-address.ns.nn2
	CentOSB:8020



	dfs.namenode.http-address.ns.nn2
	CentOSB:50070




	dfs.namenode.shared.edits.dir
	qjournal://CentOSA:8485;CentOSB:8485;CentOSC:8485/ns



	dfs.journalnode.edits.dir
	/opt/install/hadoop-2.5.2/journal



	dfs.ha.automatic-failover.enabled
	true



dfs.client.failover.proxy.provider.ns
	org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider




	dfs.ha.fencing.methods
	sshfence



	dfs.ha.fencing.ssh.private-key-files
	/root/.ssh/id_rsa


2.3 yarn-env.sh添加如下内容

export JAVA_HOME=/usr/java/jdk1.7.0_71

2.4启动命令

首先启动各个节点的Zookeeper，在各个节点上执行以下命令：（进程名 QuorumPeerMain-zookeeper集群进程）
bin/zkServer.sh start

在某一个namenode节点执行如下命令，创建命名空间
bin/hdfs zkfc -formatZK

在每个journalnode节点用如下命令启动journalnode（进程名JournalNode-同步EditsLog文件进程）
sbin/hadoop-daemon.sh start journalnode

在主namenode节点格式化namenode和journalnode目录
bin/hdfs namenode -format ns

在主namenode节点启动namenode进程（进程名NameNode）
sbin/hadoop-daemon.sh start namenode

在备namenode节点执行第一行命令，这个是把备namenode节点的目录格式化并把元数据从主namenode节点copy过来，并且这个命令不会把journalnode目录再格式化了！然后用第二个命令启动备namenode进程！

bin/hdfs namenode -bootstrapStandby
sbin/hadoop-daemon.sh start namenode（进程名NameNode）

在两个namenode节点都执行以下命令（进程名 DFSZKFailoverController-失败隔离控制进程 ）
sbin/hadoop-daemon.sh start zkfc

在所有datanode节点都执行以下命令启动datanode（进程名 DataNode）
sbin/hadoop-daemon.sh start datanode

日常启停命令
sbin/start-dfs.sh
sbin/stop-dfs.sh

8.Hadoop源码编译

apache官方网站上提供的二进制文件，是基于32为操作系统进行编译的，不适合与64位操作系统，需要自己编译

（1）编译过程

1. hadoop源码
2. maven linux版本
3. 安装相关依赖软件
	1. jdk
	2. maven 并设置 环境变量 (apache-maven-3.0.5-bin.tar.gz)
	/etc/profile
	MAVEN_HOME
	M2_HOME
	PATH
3.linux相关的软件
	yum install wget
	yum install autoconf automake libtool cmake
	yum install ncurses-devel
	yum install openssl-devel
	yum install lzo-devel zlib-devel gcc gcc-c++
4. 安装protobuf
解压：
	tar -zxvf protobuf-2.5.0.tar.gz
编译安装：
进入安装目录，进行配置，执行命令：
	./configure
分别执行安装命令：
	make
	make check
	make install
5.安装findbugs
下载： findbugs-1.3.9.tar.gz
解压：
tar –zxvf findbugs-1.3.9.tar.gz
设置环境变量（/etc/profile）：
	export FINDBUGS_HOME=/opt/modules/findbugs-1.3.9
	export PATH=$PATH:$ FINDBUGS_HOME/bin
执行命令：source /etc/profile
验证：findbugs -version
4. Hadoop源码编译
export MAVEN_OPTS="-Xms256m -Xmx512m"
mvn package -DskipTests -Pdist,native -Dtar 执行在Hadoop2.5.0的源码包中
5. 编译成功 hadoop_src_home/hadoop-dist/target

（2）可能出现的问题

1. maven版本过高
2. 错误
[ERROR] Failed to execute goal org.apache.maven.plugins:maven-antrun-plugin:1.7:run
(dist) on project hadoop-hdfs-httpfs: An Ant BuildException has occured: exec
returned: 2
[ERROR] around Ant part ...... @
10:134 in /home/pory/workplace/hadoop-2.4.1-src/hadoop-hdfs-project/hadoop-hdfshttpfs/target/antrun/build-main.xml
[ERROR] -> [Help 1]
这是因为/home/pory/workplace/hadoop-2.4.1-src/hadoop-hdfs-project/hadoop-hdfshttpfs/downloads目录下的文件没有下载完全，可以手动下一份匹配版本的文件放在下面，在
http://archive.apache.org/dist/tomcat/tomcat-6/v6.0.36/bin/
然后重新执行命令

（3）编译后如何使用

需要应用64为的hadoop替换32位hadoop /opt/install/hadoop-2.5.2/lib/native 的内容
# 替换一定在linux系统中直接替换。

（三）MapReduce

1.概述

Map Reduce是一个 Hadoop 的并行计算框架，借鉴了函数式编程（Scala 编程应用在Spark）思想和矢量编程（任务做阶段化拆分，每个阶段都可以设定并行度）。Hadoop 中是充分利用了存储节点（Data Node）运行所在主机的计算资源（CPU、内存、网络、少许磁盘-存储计算中间结果）完成对任务的并行计算。Map Reduce框架会在所有的DataNode所在的物理主机启动一个计算资源管理者-Node Manager用于管理本地的计算资源，默认系统会将计算资源均分8个等份，每个等份抽象成一个Container。还会再找一些其他的主机启动一个资源管理中心-Resource Manager，用于管理集群的计算资源。

当用户提交一个计算任务给MapReduce框架，框架会将任务拆分成Map阶段和Reduce阶段（矢量编程思想将任务拆分成两个阶段），框架会根据Map/Reduce阶段的任务并行度.在任务提交初期会启动一个任务管理者（每个任务都有自己的任务管理者）-MRAppMaster（该进程会浪费掉1个计算资源）用于管理Map阶段和Reduce阶段任务执行。在任务执行时期，每个阶段会根据阶段任务的并行度分配计算资源（每个计算资源启动一个Yarn Child），由MRAppMaster完成对阶段任务的检测管理。
MapReduce的构建思想

MapReduce的执行过程

ResourceManager:负责任务资源的统一调度，管理NodeManager资源，启动MRAppMaster

NodeManager:用于管理本机上的计算资源，默认会将本机的计算资源拆分为8个等份，每个等份抽象成Container

MRAppMaster:任何一个执行的任务都会有一个MRAppMaster负责YarnChild任务的执行和监测。

YarnChild:是具体执行的MapTask或者是ReduceTask的统称。

任务执行期间系统会启动MRAppmaster和YarnChild负责任务的执行，一旦任务执行结束MRAppMaster和YarnChild会自动退出。

Job作业过程

2.集群准备-启动yarn

1. 配置相关的配置文件 etc/hadoop
yarn-site.xml mapred-site.xml
2. 启动yarn
2.1 伪分布式
	sbin/yarn-daemon.sh start resourcemanager
	sbin/yarn-daemon.sh start nodemanager
2.2 集群方式
mapred-site.xml
<property>
	<name>mapreduce.framework.namename>
	<value>yarnvalue>
property>
yarn-site.xml
<property>
	<name>yarn.nodemanager.aux-servicesname>
	<value>mapreduce_shufflevalue>
property>
 
<property>
	<name>yarn.resourcemanager.hostnamename>
	<value>CentOSB.baizhiedu.comvalue>
property>
slaves
	datanode同时又是nodemanager
同步集群的每一个节点
正常启动hdfs
	namenode格式化
	sbin/start-dfs.sh
集群方式的yarn启动
	建议 namenode 不要和 resourcemanager放置在同一个点
	# ssh相关的机器，避免yes
	在集群环境下，yarn启动的命令，需要在resourcemanager所在的节点执行
		sbin/start-yarn.sh
		sbin/stop-yarn.sh
验证：
	jps看进程
	http://CentOSB:8088

3.入门案例

依赖

<dependency>
    <groupId>org.apache.hadoopgroupId>
    <artifactId>hadoop-mapreduce-client-jobclientartifactId>
    <version>2.6.0version>
dependency>

<dependency>
    <groupId>org.apache.hadoopgroupId>
    <artifactId>hadoop-mapreduce-client-coreartifactId>
    <version>2.6.0version>
dependency>

日志文件格式如下（1TB）：

日志级别 URL 用户ID 日期
INFO /product 001 2019-03-26 10:00:00
INFO /cart 003 2019-03-26 10:00:00
INFO /product 001 2019-03-26 10:00:00
INFO /cart 002 2019-03-26 10:00:00
INFO /order 004 2019-03-26 10:00:00

1.按照URL统计每个板块访问的次数，并且使用柱状图显示？

商品板块 2

购物车 2

订单 1

create table t_click(
   level varchar(32),
   url varchar(128),
   uid varchar(32),
   click_time timestamp 
)
select url，sum(1) from t_click group by url
      reduce（key,values）        map(key,value)
      reduce(url,[1,1,1,...])    map(url,1)

public class ClickMappper  extends Mapper<LongWritable, Text,Text, IntWritable> {
    //INFO /product 001 2019-03-26 10:00:00
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] tokens = value.toString().split(" ");
        context.write(new Text(tokens[1]),new IntWritable(1));
    }
}

Reduce

public class ClickReducer extends Reducer<Text, IntWritable,Text,IntWritable> {
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int total=0;
        for (IntWritable value : values) {
            total=value.get();
        }
        context.write(key,new IntWritable(total));
    }
}

Job任务

public class CustomJobSubmitter extends Configured implements Tool {
    public int run(String[] strings) throws Exception {
        //1.封装Job对象
        Job job=Job.getInstance(getConf());
        //2.设置任务的读取、写出数据格式
        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(TextOutputFormat.class);
        //3.设置数据读入和写出路径
        Path src = new Path("/demo/click");
        TextInputFormat.addInputPath(job,src);
        Path dst = new Path("/demo/result");//必须不存在，否则任务提交失败
        TextOutputFormat.setOutputPath(job,dst);
        //4.设置数据处理逻辑代码片段
        job.setMapperClass(ClickMappper.class);
        job.setReducerClass(ClickReducer.class);
        //5.设置Mapper和Reducer输出key-value类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        //6.任务提交
        //job.submit();
        job.waitForCompletion(true);
        return 0;
    }
    public static void main(String[] args) throws Exception {
        ToolRunner.run(new CustomJobSubmitter(),args );
    }
}

发布任务

远程jar发布

job.setJarByClass(CustomJobSubmitter.class);

hadoop jar xxxxx.jar com.baizhi.CustomJobSubmitter

基于Maven构建


 <plugin>
         <groupId>org.apache.maven.pluginsgroupId>
         <artifactId>maven-jar-pluginartifactId>
         <version>2.3.2version>
         <configuration>
           <outputDirectory>${basedir}outputDirectory>
           <archive>
             <manifest>
               <mainClass>${baizhi-mainClass}mainClass>
             manifest>
           archive>
         configuration>
  plugin>

 <extensions>
      <extension>
        <groupId>org.apache.maven.wagongroupId>
        <artifactId>wagon-sshartifactId>
        <version>2.8version>
      extension>
 extensions>

 <plugin>
         <groupId>org.codehaus.mojogroupId>
         <artifactId>wagon-maven-pluginartifactId>
         <version>1.0version>
         <configuration>
           <fromFile>${project.build.finalName}.jarfromFile>
           <url>scp://root:123456@${target-host}${target-position}url>
           <commands>
             <command>pkill -f ${project.build.finalName}.jarcommand>
             <command>nohup /opt/install/hadoop-2.5.2/bin/yarn jar ${target-position}/${project.build.finalName}.jar > /root/nohup.out 2>&1 &command>
           commands>
           
           <displayCommandOutputs>truedisplayCommandOutputs>
         configuration>
 plugin>

jar:jar wagon:upload wagon:sshexec

本地测试

解决方案
覆盖NativeIO类，修改access实现，将该方法的实现短路。

public static boolean access(String path, NativeIO.Windows.AccessRight desiredAccess) throws IOException {
    return true;
    //return access0(path, desiredAccess.accessRight());
}

跨平台提交
项目添加配置文件（从Linux中Hadoop的配置文件中导出）

提交代码需要添加如下

//设置配置信息
conf.addResource("core-site.xml");
conf.addResource("hdfs-site.xml");
conf.addResource("yarn-site.xml");
conf.addResource("mapred-site.xml");
conf.set("mapreduce.job.jar","file:///jar包路径");

Maven自定义骨架

程序员根据自己的需求，定义Maven Archetype(骨架)，后续选择自定义的骨架，就可以把我们需要的pom,其他配置文件，代码的骨架，自动生成，简化开发与测试

创建一个模板module

  1. 引入相关jar的坐标
  2. 创建Java代码
  
  在本项目的根下：mvn --settings F:\apache-maven-3.3.9\conf\settings.xml archetype:create-from-project

复制骨架的坐标（便于后续的安装）

  com.baizhiedu
   hadoop-test-archetype
   1.0-SNAPSHOT

安装骨架

cd target\generated-sources\archetype
 mvn clean install

创建项目并引入骨架

     需要指定骨架的坐标，来源第二步。

MapReduce程序的调试

建议MR代码中通过Log4进行调试

Logger logger = Logger(xxx.class);
logger.info()

通过上述操作 输出的结果，只能查看job的信息,而Map,Reduce的信息看不到。
需要开启Yarn 历史日志 ，日志归档

yarn集群中如何开启历史日志，日志归档

1. 配置文件
   mapred-site.xml 历史服务
    
        mapreduce.jobhistory.address
       hadoop12.baizhiedu.com:10020
    
     
            mapreduce.jobhistory.webapp.address
            hadoop12.baizhiedu.com:19888
     
   yarn-site.xml 日志聚合
    
        yarn.log-aggregation-enable
        true
    
     
      
         yarn.log-aggregation.retain-seconds
         604800
     
2. 启动进程
 sbin/mr-jobhistory-daemon.sh start historyserver
 sbin/mr-jobhistory-daemon.sh stop historyserver

实战
应用shell脚本解决
关闭日志聚合

etc/hadoop/yarn-env.sh

export YARN_LOG_DIR=~/logs/yarn
export YARN_PID_DIR=~/data/yarn

创建脚本

if [ $# -le 0 ]
then
    echo 缺少参数
    exit 1
fi

logtype=out

if [ $# -ge 1 ]
then
    logtype=${2}
fi 

for n in `cat /opt/install/hadoop-2.5.2/etc/hadoop/slaves`
do
    echo ===========查看节点 $n============
    ssh $n "cat ~/logs/yarn/userlogs/${1}/container_*/*${logtype}|grep com.baizhiedu"
done

运行脚本

1. 修改脚本权限
2. ./scanMRLog.sh application_1558968514803_0001

~~~

4.In/OutputFormat

(1)Split&Record Reader

(2)In/OutputFormat实战

对接文件系统-（读取）：

TextInputFormat: (必须掌握)

切片计算：以文件为单位，对一个文件按照SplitSize计算切片大小（0~140.8 MB）
Key-Value : 行字节偏移量LongWritable | 当前文本行，确定Mapper

NLineInputFormat

切片计算：以文件为单位，对一个文件按照行切割，默认是1行一个切片
Key-Value : 行字节偏移量LongWritable | 当前文本行，确定Mapper
mapreduce.input.lineinputformat.linespermap = 10000

KeyValueTextInputFormat

切片计算：以文件为单位，对一个文件按照SplitSize计算切片大小（0~140.8 MB）
Key-Value : Text \t Text ，确定Mapper
mapreduce.input.keyvaluelinerecordreader.key.value.separator=|

CombineTextInputFormat（小文件计算优化）

切片计算：对N个文件按照SplitSize计算切片大小（0~140.8 MB）,多个文件对应一个切片
Key-Value :行字节偏移量LongWritable | 当前文本行，确定Mapper

MultipleInputs 实现 Join

1、在Map端分别对不同格式的数据定制Mapper和InputFormat
2、所有的Mapper输出KEY-VALUE必须保证一致
3、所有Map输出的KEY必须是 join 字段
4、针对不同的Mapper输出，通过对值做标记，这样才可以在Reduce端区分数据

DBOutputFormat（重点）

//1.配置数据链接参数
DBConfiguration.configureDB(conf,
             "driver",
             "url",
             "username",
             "password"
             );
//2.设置任务的写出数据格式
job.setOutputFormatClass(DBOutputFormat.class);
//3.设置数据写出路径
DBOutputFormat.setOutput(job,"t_user_order","id","name","age","items","price");
//4.Reduce端输出的Key类型必须实现DBWritable接口
job.setOutputKeyClass(Class<? extends DBWritable>);

Writable和DBWritable用法

Writable:当自定义Map端输出Value类型，必须实现Writable接口，因为框架将会对Map的输出做本地磁盘的序列化。如果用户需要自定义Map端输出key类型,和值类型相比较多个排序的需求因此如果用户需要自定map端的输出key类型，必须实现WritableComparable接口。

DBWriteable:当用户使用DBOutputFormat时候，强制要求Reducer端的输出key类型必须实现DBWriteable接口，此时需要用户实现write方法给？赋值。通过使用DBOutputFormat可以获知，Reducer端输出的Key-Value类型所限与用户使用的OutputFormat。因此Reduce端的输出key-value类型和Writable接口没有任何关系。

5.Jar包依赖问题

运行时依赖（Yarn Child依赖）

方案1

要求用户将依赖的jar包拷贝给所有的计算节点（NodeManager运行所在主机）

[root@CentOS ~]# hadoop jar xxx.jar 入口类 -libjars 依赖jar包1,依赖jar包2,…
1

方案2

[root@CentOS ~]# hdfs dfs -mkdir /libs
[root@CentOS ~]# hdfs dfs -put mysql-connector-java-5.1.46.jar /libs

conf.setStrings(“tmpjars”,"/libs/xxx1.jar,/libs/xxx2.jar,…");

提交时依赖（client node）

需要用户配置HADOOP_CLASSPATH环境变量(/root/.bashrc)，通常这种依赖发生在切片计算阶段。

HADOOP_CLASSPATH=/root/mysql-connector-java-5.1.46.jar
export HADOOP_CLASSPATH
[root@CentOS ~]# source .bashrc 
[root@CentOS ~]# hadoop classpath #查看hadoop的类路径
/usr/hadoop-2.6.0/etc/hadoop:/usr/hadoop-2.6.0/share/hadoop/common/lib/*:/usr/hadoop-2.6.0/share/hadoop/common/*:/usr/hadoop-2.6.0/share/hadoop/hdfs:/usr/hadoop-2.6.0/share/hadoop/hdfs/lib/*:/usr/hadoop-2.6.0/share/hadoop/hdfs/*:/usr/hadoop-2.6.0/share/hadoop/yarn/lib/*:/usr/hadoop-2.6.0/share/hadoop/yarn/*:/usr/hadoop-2.6.0/share/hadoop/mapreduce/lib/*:/usr/hadoop-2.6.0/share/hadoop/mapreduce/*:`/root/mysql-connector-java-5.1.46.jar`:/usr/hadoop-2.6.0/contrib/capacity-scheduler/*.jar

案例参考 DBInputFormat案例。

6.任务提交源码追踪

job.waitForCompletion(true);
    submit
    	final JobSubmitter submitter =  getJobSubmitter(fs, yarn);
		submitter.submitJobInternal(Job.this, cluster);
				 checkSpecs(job);//检查输出目录是否为null
 				 JobID jobId = submitClient.getNewJobID();//获取jobid
				 copyAndConfigureFiles(job, submitJobDir);//拷贝代码片段以及依赖jars
 				 int maps = writeSplits(job, submitJobDir);//计算切片
  				 writeConf(conf, submitJobFile);//生成job.xml
				 submitClient.submitJob(jobId, submitJobDir,...);
					 ApplicationSubmissionContext appContext =
      createApplicationSubmissionContext(conf, jobSubmitDir, ts);//构建MR AP所需信息
			         resMgrDelegate.submitApplication(appContext);//任务提交

7.OutputFormat(Redis)-自定义输出类型

RedisOutpoutFormat

public class RedisOutpoutFormat extends OutputFormat<String,String> {
    public RecordWriter<String, String> getRecordWriter(TaskAttemptContext context) throws IOException, InterruptedException {
        Configuration conf = context.getConfiguration();
        RedisConfiguration redisConf = new RedisConfiguration(conf);
        return new RedisHashRecordWriter(redisConf.getHost(),redisConf.getPort(),redisConf.getDescriptKey());
    }

    public void checkOutputSpecs(JobContext context) throws IOException, InterruptedException { }

    public OutputCommitter getOutputCommitter(TaskAttemptContext context) throws IOException, InterruptedException {
        return new FileOutputCommitter(FileOutputFormat.getOutputPath(context),
                context);
    }
}

RedisHashRecordWriter

public class RedisHashRecordWriter extends RecordWriter<String,String> {
    private Jedis jedis;
    private String descriptKey;
    private Pipeline pipeline;

    public RedisHashRecordWriter(String host,int port,String descriptKey) {
        this.jedis = new Jedis(host,port);
        pipeline=jedis.pipelined();
        this.descriptKey=descriptKey;
    }

    public void write(String key, String value) throws IOException, InterruptedException {
        //启用Redis的批处理
        pipeline.hset(descriptKey,key,value);
    }

    public void close(TaskAttemptContext context) throws IOException, InterruptedException {
        pipeline.sync();//批量提交
        jedis.close();//关闭链接
    }
}

RedisConfiguration

public class RedisConfiguration {
    private Configuration conf;

    public RedisConfiguration(Configuration conf) {
        this.conf = conf;
    }

    public static final String REDIS_HOST="redis.host";
    public static final String REDIS_PORT="redis.port";
    public static final String REDIS_DESCRIPT_KEY="redis.descriptKey";

    public static void configRedis(Configuration conf,String host,int port,String descriptKey){
        conf.set(REDIS_HOST,host);
        conf.setInt(REDIS_PORT,port);
        conf.set(REDIS_DESCRIPT_KEY,descriptKey);
    }

    public String getHost(){
        return conf.get(REDIS_HOST);
    }
    public int getPort(){
        return conf.getInt(REDIS_PORT,6379);
    }
    public String getDescriptKey(){
        return conf.get(REDIS_DESCRIPT_KEY);
    }
}

代码中使用如下

public class CustomJobSubmitter extends Configured implements Tool {
    public int run(String[] strings) throws Exception {
        //1.封装Job对象\
        Configuration conf = getConf();
        RedisConfiguration.configRedis(conf,
                                       "CentOS",
                                       6379,
                                       "url_click");
        Job job=Job.getInstance(conf);
        //2.设置任务的读取、写出数据格式
        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(RedisOutpoutFormat.class);
        //3.设置数据读入和写出路径
        Path src = new Path("file:///D:/demo/click");
        TextInputFormat.addInputPath(job,src);
        //4.设置数据处理逻辑代码片段
        job.setMapperClass(ClickMappper.class);
        job.setReducerClass(ClickReducer.class);
        //5.设置Mapper和Reducer输出key-value类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        job.setOutputKeyClass(String.class);
        job.setOutputValueClass(String.class);
        //6.任务提交
        //job.submit();
        job.waitForCompletion(true);
        return 0;
    }
    public static void main(String[] args) throws Exception {
        ToolRunner.run(new CustomJobSubmitter(),args );
    }
}

8.Shuffle&任务调优

NumReduceTask = 0

public class CustomJobSubmitter extends Configured implements Tool {
    public int run(String[] strings) throws Exception {
        //1.封装Job对象
        Job job=Job.getInstance(getConf());

        //2.设置任务的读取、写出数据格式
        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(TextOutputFormat.class);
        //3.设置数据读入和写出路径
        Path src = new Path("file:///D:/demo/click");
        TextInputFormat.addInputPath(job,src);

        Path dst = new Path("file:///D:/demo/result");//必须不存在，否则任务提交失败
        TextOutputFormat.setOutputPath(job,dst);
        //4.设置数据处理逻辑代码片段
        job.setMapperClass(ClickMappper.class);
        //5.设置Mapper和Reducer输出key-value类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(Text.class);

        job.setNumReduceTasks(0);//设置NumReducecTask 0
        //6.任务提交
        //job.submit();
        job.waitForCompletion(true);
        return 0;
    }
    public static void main(String[] args) throws Exception {
        ToolRunner.run(new CustomJobSubmitter(),args );
    }
}

NumReduceTask = 3

如何干预MapReduce分区策略？

job.setPartitionerClass(…)

MapReduce输出特点是什么？

分区内部有序，默认按照Map端输出key的升序

什么是Mapreduce数据倾斜？

是因为选取的Key不合理，到时分区数据分布不均匀。在任务计算第二阶段Reduce计算带来压力。

Reduce并行度是靠什么决定的?和Map端计算区别是什么？

Map端并行度是通过计算任务切片决定的，Reduce端是通过job.setNumReduceTask(n)

MapReduce调优策略

1.避免小文件计算，适当线下合并
2.调整环装缓冲区的参数，减少Map任务的IO操作
3.开启Map段压缩
conf.setBoolean("mapreduce.map.output.compress",true);
conf.setClass("mapreduce.map.output.compress.codec", GzipCodec.class, CompressionCodec.class);
4.如果条件允许，可以考虑在Map端预执行Reduce逻辑-Map端的Combiner

是一种针对Mapshuffle的优化，主要是通过在Map端本地支持局部Reduce操作，该操作可以极大减轻网络IO占用，减少key的排序量，但是并不是所有的操作都支持Combiner：

Combiner默认不会开启，需要程序员编码设置

要求Combiner不可以改变Map端最终的输出key-value类型（Combiner输入和输出类型一致）

必须满足计算支持迭代，例如：求和、最大值、最小值，但是平均值就不适用
job.setCombinerClass(ClickCombiner.class);
public class ClickCombiner extends Reducer<Text, IntWritable,Text,IntWritable> {
       @Override
       protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
           System.out.println("--ClickCombiner---");
           int total=0;
           for (IntWritable value : values) {
               total += value.get() ;
           }
           context.write(key,new IntWritable(total));
       }
}
5.适当调整NodeManager管理Container的个数和内存大小
yarn.nodemanager.resource.cpu-vcores = 8
yarn.nodemanager.resource.memory-mb = 8192 

9.Map Reduce 使用场景

网络日志清洗数据 ETL （Extract Transfer Load），一般这种操作不需要Reduce即可完成
基于大数据数据统计和报表求最大、求最小、求平均使用柱状图、饼状图展示。
画像生成-为后续AI学习提供计算所需数据模型特征向量线性回归|逻辑回归
个性化推荐通过MapReduce 生成算法所需数据样本
基于用户的协同推荐算法
基于物品协同过滤算法（比较多）
数据格式（MapReduce ETL或者统计得来）

userid/itemid/score

1,101,5.0
1,102,3.0
1,103,2.5
2,101,2.0
2,102,2.5
2,103,5.0
2,104,2.0
3,101,2.5
3,104,4.0
3,105,4.5
3,107,5.0
4,101,5.0
4,103,3.0
4,104,4.5
4,106,4.0
5,101,4.0
5,102,3.0
5,103,2.0
5,104,4.0
5,105,3.5
5,106,4.0

安装Mahout（下载Mahout算法库）

[root@CentOS ~]# tar -zxf apache-mahout-distribution-0.13.0.tar.gz -C /usr/

将准备好的数据存储到/recomand
调用Mahout的推荐算法(MapReduce任务实现的算法，该算法分为4个阶段，共计9个MapReduce任务)

[root@CentOS ~]# hadoop jar /usr/apache-mahout-distribution-0.13.0/mahout-mr-0.13.0-job.jar org.apache.mahout.cf.taste.hadoop.item.RecommenderJob --input /recomand --output /recomand-out -s SIMILARITY_LOGLIKELIHOOD

1	[104:2.8088317,106:2.5915816,105:2.5748677]
2	[105:3.5743618,106:3.3991857]
3	[103:4.336442,106:4.0915813,102:4.0915813]
4	[102:3.6903737,105:3.6903737]
5	[107:3.663558]

10.Hadoop HA构建

概述

NameNode HA构建存储
ResourceManager HA构建计算

准备工作

安装三台CentOS-6.5 64 bit操作系统（完成JDK、SSH免密码认证、IP主机名映射、关闭防火墙等工作）
主机和服务启动映射表

主机服务
CentOSA NameNode、zkfc、DataNode、JournalNode、Zookeeper、NodeManager
CentOSB NameNode、zkfc、DataNode、JournalNode、Zookeeper、NodeManager、ResourceManager
CentOSC DataNode、JournalNode、Zookeeper、NodeManager、ResourceManager
主机信息

主机名 IP信息
CentOSA 192.168.40.129
CentOSB 192.168.40.130
CentOSC 192.168.40.131
JDK安装和配置

[root@CentOSX ~]# rpm -ivh jdk-8u171-linux-x64.rpm
[root@CentOSX ~]# vi .bashrc
JAVA_HOME=/usr/java/latest
PATH=$PATH:$JAVA_HOME/bin
CLASSPATH=.
export JAVA_HOME
export CLASSPATH
export PATH
[root@CentOSX ~]# source .bashrc

IP主机名映射

[root@CentOSX ~]# vi /etc/hosts

192.168.40.129 CentOSA
192.168.40.130 CentOSB
192.168.40.131 CentOSC

关闭防火墙

[root@CentOSX ~]# service iptables stop
iptables: Setting chains to policy ACCEPT: filter          [  OK  ]
iptables: Flushing firewall rules:                         [  OK  ]
iptables: Unloading modules:                               [  OK  ]
[root@CentOSX ~]# chkconfig iptables off

SSH免密码认证

[root@CentOSX ~]# ssh-keygen -t rsa
[root@CentOSX ~]# ssh-copy-id CentOSA
[root@CentOSX ~]# ssh-copy-id CentOSB
[root@CentOSX ~]# ssh-copy-id CentOSC

Zookeeper

[root@CentOSX ~]# tar -zxf zookeeper-3.4.6.tar.gz -C /usr/
[root@CentOSX ~]# mkdir /root/zkdata

[root@CentOSA ~]# echo 1 >> /root/zkdata/myid
[root@CentOSB ~]# echo 2 >> /root/zkdata/myid
[root@CentOSC ~]# echo 3 >> /root/zkdata/myid

[root@CentOSX ~]# touch /usr/zookeeper-3.4.6/conf/zoo.cfg
[root@CentOSX ~]# vi /usr/zookeeper-3.4.6/conf/zoo.cfg
tickTime=2000
dataDir=/root/zkdata
clientPort=2181
initLimit=5
syncLimit=2
server.1=CentOSA:2887:3887
server.2=CentOSB:2887:3887
server.3=CentOSC:2887:3887

[root@CentOSX ~]# /usr/zookeeper-3.4.6/bin/zkServer.sh start zoo.cfg
[root@CentOSX ~]# /usr/zookeeper-3.4.6/bin/zkServer.sh status zoo.cfg
JMX enabled by default
Using config: /usr/zookeeper-3.4.6/bin/../conf/zoo.cfg
Mode: `follower|leader`
[root@CentOSX ~]# jps
5879 `QuorumPeerMain`
7423 Jps

搭建Hadoop 集群（HDFS）

解压并配置HADOOP_HOME

[root@CentOSX ~]# tar -zxf hadoop-2.6.0_x64.tar.gz -C /usr/
[root@CentOSX ~]# vi .bashrc
HADOOP_HOME=/usr/hadoop-2.6.0
JAVA_HOME=/usr/java/latest
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
CLASSPATH=.
export JAVA_HOME
export CLASSPATH
export PATH
export HADOOP_HOME
[root@CentOSX ~]# source .bashrc

配置core-site.xml


<property>		
      <name>fs.defaultFSname>		
      <value>hdfs://myclustervalue>	
property>
<property>		
     <name>hadoop.tmp.dirname>		
     <value>/usr/hadoop-2.6.0/hadoop-${user.name}value>    
property>
<property>		
     <name>fs.trash.intervalname>		
     <value>30value>    
property>

<property>		
     <name>net.topology.script.file.namename>		
     <value>/usr/hadoop-2.6.0/etc/hadoop/rack.shvalue>    
property>

<property>   
	<name>ha.zookeeper.quorumname>
	<value>CentOSA:2181,CentOSB:2181,CentOSC:2181value> 
property>

<property>
     <name>dfs.ha.fencing.methodsname>
     <value>sshfencevalue>
property>
<property>
     <name>dfs.ha.fencing.ssh.private-key-filesname>
     <value>/root/.ssh/id_rsavalue>
property>

配置机架脚本

[root@CentOSX ~]# touch /usr/hadoop-2.6.0/etc/hadoop/rack.sh
[root@CentOSX ~]# chmod u+x /usr/hadoop-2.6.0/etc/hadoop/rack.sh
[root@CentOSX ~]# vi /usr/hadoop-2.6.0/etc/hadoop/rack.sh
while [ $# -gt 0 ] ; do
	  nodeArg=$1
	  exec</usr/hadoop-2.6.0/etc/hadoop/topology.data
	  result="" 
	  while read line ; do
		ar=( $line ) 
		if [ "${ar[0]}" = "$nodeArg" ] ; then
		  result="${ar[1]}"
		fi
	  done 
	  shift 
	  if [ -z "$result" ] ; then
		echo -n "/default-rack"
	  else
		echo -n "$result "
	  fi
done
[root@CentOSX ~]# touch /usr/hadoop-2.6.0/etc/hadoop/topology.data
[root@CentOSX ~]# vi /usr/hadoop-2.6.0/etc/hadoop/topology.data
192.168.40.129 /rack01
192.168.40.130 /rack01
192.168.40.131 /rack03

配置hdfs-site.xml

<property>
	<name>dfs.replicationname>
	<value>3value>
property> 

<property>
	<name>dfs.ha.automatic-failover.enabledname>
	<value>truevalue>
property>

<property>
	<name>dfs.nameservicesname>
	<value>myclustervalue>
property>
<property>
	<name>dfs.ha.namenodes.myclustername>
	<value>nn1,nn2value>
property>
<property>
	<name>dfs.namenode.rpc-address.mycluster.nn1name>
	<value>CentOSA:9000value>
property>
<property>
	 <name>dfs.namenode.rpc-address.mycluster.nn2name>
	 <value>CentOSB:9000value>
property>

<property>
  <name>dfs.namenode.shared.edits.dirname>
  <value>qjournal://CentOSA:8485;CentOSB:8485;CentOSC:8485/myclustervalue>
property>

<property>
	<name>dfs.client.failover.proxy.provider.myclustername>
	<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvidervalue>
property>

配置slaves

CentOSA
CentOSB
CentOSC

启动HDFS(集群初始化启动)

[root@CentOSX ~]# hadoop-daemon.sh start journalnode (等待10s钟)
[root@CentOSA ~]# hdfs namenode -format
[root@CentOSA ~]# hadoop-daemon.sh start namenode
[root@CentOSB ~]# hdfs namenode -bootstrapStandby
[root@CentOSB ~]# hadoop-daemon.sh start namenode
#注册Namenode信息到zookeeper中,只需要在CentOSA或者B上任意一台执行一下指令
[root@CentOSA|B ~]# hdfs zkfc -formatZK
[root@CentOSA ~]# hadoop-daemon.sh start zkfc
[root@CentOSB ~]# hadoop-daemon.sh start zkfc
[root@CentOSX ~]# hadoop-daemon.sh start datanode

查看机架信息

[root@CentOSB ~]# hdfs dfsadmin -printTopology
Rack: /rack01
   192.168.40.129:50010 (CentOSA)
   192.168.40.130:50010 (CentOSB)

Rack: /rack03
   192.168.40.131:50010 (CentOSC)

Resource Manager搭建

yarn-site.xml

<property>
    <name>yarn.nodemanager.aux-servicesname>
    <value>mapreduce_shufflevalue>
property>
<property>
    <name>yarn.resourcemanager.ha.enabledname>
    <value>truevalue>
property>
<property>
    <name>yarn.resourcemanager.cluster-idname>
    <value>clustervalue>
property>
<property>
    <name>yarn.resourcemanager.ha.rm-idsname>
    <value>rm1,rm2value>
property>
<property>
    <name>yarn.resourcemanager.hostname.rm1name>
    <value>CentOSBvalue>
property>
<property>
    <name>yarn.resourcemanager.hostname.rm2name>
    <value>CentOSCvalue>
property>
<property>
    <name>yarn.resourcemanager.zk-addressname>
    <value>CentOSA:2181,CentOSB:2181,CentOSC:2181value>
property>

mapred-site.xml

<property>
        <name>mapreduce.framework.namename>
        <value>yarnvalue>
property>

启动|关闭Yarn服务

[root@CentOSB ~]# yarn-daemon.sh start|stop resourcemanager
[root@CentOSC ~]# yarn-daemon.sh start|stop resourcemanager
[root@CentOSX ~]# yarn-daemon.sh start|stop nodemanger

你可能感兴趣的:(Apache Hadoop)

ASP.NET Core与Confluent.Kafka深度整合：构建高性能Kafka生产者与消费者的终极指南墨夶 C#学习资料6 asp.net kafka linq
Kafka在现代微服务架构中的量子跃迁在2025年的分布式系统战场上，ApacheKafka已经超越了传统的消息队列角色，成为微服务架构的神经中枢。本文将通过1200+行代码和深度技术解析，揭秘如何在ASP.NETCore中使用Confluent.Kafka实现工业级的Kafka生产者与消费者。我们将从底层原理到高阶技巧，带你构建可扩展、可观察的Kafka集成方案。第一章：环境准备与核心概念1.1
spark on yarn 不辉放弃 pyspark 大数据开发
SparkonYARN是指将Spark应用程序运行在HadoopYARN集群上，借助YARN的资源管理和调度能力来管理Spark的计算资源。这种模式能充分利用现有Hadoop集群资源，简化集群管理，是企业中常用的Spark部署方式。核心角色•Spark应用：包含Driver进程和Executor进程。Driver负责任务调度、逻辑处理；Executor负责执行具体任务并存储数据。•YARN组件：◦
超简单linux上部署Apache 悟空骑猪看电影 apache linux 运维网络
1.Apache是什么？Apache是世界上最流行的开源Web服务器软件，由Apache软件基金会维护。主要功能：接收客户端（如浏览器）的HTTP请求，返回网页、图片等静态/动态资源。特点：跨平台（Linux、Windows、macOS）模块化设计（按需加载功能）支持多语言扩展（PHP、Python等）高稳定性和安全性2.核心架构与工作原理多进程模型（MPM）Prefork：多进程模式，每个请求由
Apache IoTDB 集群数据迁移指南静默小音箱编程问题解决手册 apache iotdb 个人开发
随着物联网（IoT）设备的普及和数据量的激增，数据存储和管理的需求也随之增加。ApacheIoTDB作为一个专为时序数据设计的数据库系统，提供了从单机到集群的多种部署方案。最近，我将ApacheIoTDB从单机版本扩展到了集群版本，并遇到了一个有趣的问题：如何将一个集群的数据迁移到另一个集群？单机版本与集群版本的迁移对比在单机版本的ApacheIoTDB中，数据迁移非常简单。我们只需要将数据文件夹
时序数据库的工业级对决：对比 Apache IoTDB 和 InfluxDB 时序数据说时序数据库 apache iotdb 数据库大数据开源
在数字化浪潮中，物联网（IoT）与工业大数据领域蓬勃发展，时序数据呈爆发式增长。时序数据库作为管理这类数据的核心工具，其性能、功能和适应性直接影响到整个系统的运行效率与价值实现。ApacheIoTDB和InfluxDB作为时序数据库领域的佼佼者，被广泛应用于各类场景。深入剖析二者区别，对开发者、企业架构师和数据管理者而言，不仅能为项目选型提供科学依据，还能助力挖掘数据的最大价值。一、诞生背景与社区
时序数据库IoTDB与OpenTSDB的对比分析时序数据说时序数据库 iotdb opentsdb 数据库大数据
在物联网与大数据场景下，时序数据库的选择对于系统性能、数据存储与分析能力至关重要。本文将围绕ApacheIoTDB与OpenTSDB这两款开源时序数据库进行对比分析，从分布式架构、部署易用性、分析与计算能力、性能表现以及产品迭代与维护情况五个关键维度展开，旨在为面临海量设备接入和实时数据分析需求的物联网架构师提供客观的技术选型参考。一、分布式架构‌ApacheIoTDB‌：IoTDB原生支持分布式
Apache基础配置 obboda 运维 apache
一、Apache安装#安装apache[root@webserver~]#yuminstallhttpd-y#在防火墙中放行web服务[root@webserver~]#firewall-cmd--permanent--add-service=httpsuccess[root@webserver~]#firewall-cmd--permanent--add-service=httpssuccess
深入解析Hadoop中的Region分裂与合并机制码字的字节 hadoop布道师 hadoop 大数据分布式 Region 分裂合并
Hadoop与Region的基本概念Hadoop的分布式架构基础作为大数据处理的核心框架，Hadoop通过分布式存储和计算解决了海量数据的处理难题。其架构核心由HDFS（HadoopDistributedFileSystem）和MapReduce组成，前者负责数据的分布式存储，后者实现分布式计算。在HDFS中，数据被分割成固定大小的块（默认128MB）分散存储在集群节点上，而MapReduce则通
深入解析Hadoop RPC：技术细节与推广应用码字的字节 hadoop布道师 Hadoop RPC
HadoopRPC框架概述在分布式系统的核心架构中，远程过程调用（RPC）机制如同神经网络般连接着各个计算节点。Hadoop作为大数据处理的基石，其自主研发的RPC框架不仅支撑着内部组件的协同运作，更以独特的工程哲学诠释了分布式通信的本质。透明性：隐形的通信桥梁HadoopRPC最显著的特征是其对通信细节的完美封装。当NameNode接收DataNode的心跳检测，或ResourceManager
深入解析Hadoop：大数据处理的基石学习的锅 hadoop 大数据分布式
随着信息技术的快速发展和互联网的普及，数据的产生速度极具增加。面对如此海量的数据，传统的数据处理工具显得力不从心。在这种背景下，诞生了一系列用于处理大数据的框架与工具，而ApacheHadoop便是其中最为知名和应用最广泛的一个。本文将深入解析Hadoop的基本原理、架构及其在大数据处理中的重要性。1.Hadoop的起源与发展Hadoop起源于Google公司的三篇奠基性论文：GoogleFile
大数据技术关键技术组件
大数据技术是一组用于处理、分析和管理大规模数据集的复杂方法和技术。这些数据集的特点是容量大、增长速度快，且结构多样化，包括结构化、半结构化和非结构化数据。传统数据库管理和分析工具在处理此类数据时效率低下或无法胜任，因此需要专门的大数据技术栈来支持高效的数据处理和智能决策。大数据技术的关键组件通常包括：分布式存储系统：HadoopDistributedFileSystem(HDFS)：一个高度可扩展
大数据领域HDFS的集群资源管理优化大数据洞察大数据与AI人工智能大数据AI应用大数据 hdfs hadoop ai
大数据领域HDFS的集群资源管理优化关键词：HDFS；集群资源管理；存储优化；性能调优；副本策略；负载均衡；NameNode优化摘要：HDFS（Hadoop分布式文件系统）作为大数据领域的基石，承载着海量数据的存储与管理重任。随着数据规模爆炸式增长和业务复杂度提升，HDFS集群的资源管理面临着"存不下、跑不快、管不好"的三重挑战：存储资源浪费与不足并存、计算与存储资源匹配失衡、集群运维效率低下。本
深入探索Hadoop技术：全面学习指南
引言在大数据时代，高效地存储、处理和分析海量数据已成为企业决策与创新的关键驱动力。Hadoop，作为开源的大数据处理框架，以其强大的分布式存储和并行计算能力，以及丰富的生态系统，为企业提供了应对大规模数据挑战的有效解决方案。本文旨在为初学者和进阶者提供一份详尽的Hadoop技术学习指南，涵盖HDFS、MapReduce、YARN等核心组件，以及Hive、Pig、HBase等生态系统工具，助您踏上H
poi html转换成word文档,poi将html转换为word文档天猪飞翔 poi html转换成word文档
如何使用apachepoi将word转化为htmlJava可以使用这个开源框架，对word进行读取合并等操作，ApachePOI是一个开源的利用Java读写Excel、WORD等微软OLE2组件文档的项目。最新的3.5版本有很多改进，加入了对采用OOXML格式的Office2007支持，如xlsx、docx、pptx文档。示例如下：importorg.apache.poi.POITextExtra
Java poi导出word文件辉_哥 Java poi word java word 开发语言
Java在导出word文件时主要对表格中内容垂直居中处理做以记录方便后续碰到类似问题解决。mavenpom.xml中添加poi依赖org.apache.poipoi-ooxml4.1.2下载后查看依赖是否成功此时当在wordutil.java类中CTPageSz报红是因为ooxml-shemas版本不对需要另外下载1.3版本然后添加到本项目依赖中即可下载ooxml-shemas1.4版本的依赖po
Word模板引擎poi-tl（poi template language）使用入门指南 enjoy编程程序员实用工具集合 Word 模板引擎 poi-tl
什么是poi-tlpoi-tl（poitemplatelanguage）是Word模板引擎，使用模板和数据创建很棒的Word文档poi-tl是一个基于ApachePOI的Word模板引擎，也是一个免费开源的Java类库，可以非常方便的集成到项目中，并使用它已经封装好的功能。为什么选择poi-tl?方案移植性功能性易用性Poi-tlJava跨平台Word模板引擎，基于ApachePOI，提供更友好的
JAVA 使用Apache POI合并Word文档并保留批注的实现
一、需求背景在实际工作中，我们经常需要将多个Word文档合并成一个文件。但当文档中包含批注（Comments）时，传统的复制粘贴会导致批注丢失或引用错乱。本文将介绍如何通过Java和ApachePOI库实现保留批注及引用关系的文档合并功能。二、技术选型核心依赖：org.apache.poipoi-ooxml5.3.0org.apache.poipoi-ooxml-full5.3.0三、实现原理详解
Apache Ignite 的 Pages Writes Throttling（页面写入节流） lang20150928 其他 apache
一、什么是Checkpointing（检查点机制）？在ApacheIgnite中：数据是先保存在内存中（RAM），然后异步写入磁盘。当数据被修改时，它首先被更新在内存中的“页”上（称为DirtyPage脏页）。这些脏页最终需要被持久化到磁盘文件中，以确保数据不会因节点宕机而丢失。这个将脏页从内存同步到磁盘的过程就叫做Checkpointing（检查点机制）。简单来说：Checkpointing是把
Apache POI 依赖版本冲突导致 NoSuchFieldError: Factory 报错
>mvndependency:tree-Dincludes=org.apache.poi.....[INFO]+-org.apache.poi:poi:jar:4.1.2:compile[INFO]+-org.apache.poi:poi-ooxml:jar:4.1.2:compile[INFO]+-org.apache.poi:poi-scratchpad:jar:4.1.2:compile[I
✨ Apache Airflow：当你的工作流不再“996”，全靠这个调度大师！
文章目录️先聊聊痛点：工作流调度为啥让人头大？Airflow是谁？你的工作流“总指挥”！Airflow的核心“大脑”：理解几个关键概念Airflow的魔力大招：为什么开发者爱不释手？Airflow是万能药吗？也聊聊它的“小脾气”️哪些场景最适合召唤Airflow？如何开始你的第一次Airflow“飞行”？我的个人碎碎念（真情实感时间）总结：让Airflow做你的“流程指挥官”！还在为凌晨三点被报警
大数据领域 Kafka 入门指南：从安装到基础使用大数据洞察大数据与AI人工智能大数据 kafka linq ai
大数据领域Kafka入门指南：从安装到基础使用关键词：Kafka、消息队列、分布式系统、大数据处理、实时数据流、生产者消费者模型、ZooKeeper摘要：本文是一篇全面介绍ApacheKafka的入门指南，从基本概念到实际应用。我们将详细讲解Kafka的核心架构、工作原理，并提供从安装配置到基础使用的完整实践指导。文章包含Kafka的生产者-消费者模型实现、集群部署策略、性能优化技巧，以及在大数据
HDFS文件系统
HDFS文件系统是hadoop生态系统的核心，主要用于分布式文件存储，它具备高可用，流式读取，文件结构简单，跨平台的特点，它的集群采用的是主从结构，分为命名节点和数据节点，命名节点主要用于元数据管理（例如对目录，文件的创建，数据块与数据节点的关系维护管理）及数据节点管理（例如数据节点之间数据的复制，节点状态的维护，节点间数据的均衡），该文件系统最基本的存储单位是block即数据块，默认大小是64M
Flink-Hadoop实战项目 Dylan_muc hadoop hdfs flink
项目说明文档1.项目概述1.1项目简介本项目是一个基于ApacheFlink的大数据流处理平台，专门用于处理铁路系统的票务和车次信息数据。系统包含两个核心流处理作业：文件处理作业和数据合并作业，采用定时调度机制，支持Kerberos安全认证，实现从文件读取到数据仓库存储的完整数据处理链路。1.2技术栈流处理引擎:ApacheFlink1.18.1存储系统:HDFS(Hadoop分布式文件系统)数据
Zapier 是一个流行的自动化工具，允许用户连接不同的应用程序和服务，以实现自动化工作流程。开源替换n8n、Huginn、ActivePieces和 Apache NiFi skywalk8163 项目实践自动化开源
Zapier是一个流行的自动化工具，允许用户连接不同的应用程序和服务，以实现自动化工作流程。Zapier的主要目标是帮助用户简化工作流程，减少手动操作，提高生产力。官网：Zapier:AutomateAIWorkflows,Agents,andAppsZapier的主要特点连接应用程序：Zapier支持连接超过3,000个不同的应用程序和服务，包括流行的工具如Gmail、Slack、Trello、
大数据技术是解决什么问题的？ @佳瑞大数据
基础知识1TB（太字节）=1024GB1PB（拍字节）=1024TB大数据核心框架HadoopHadoop作为大数据技术生态的核心框架，主要解决了海量数据（TB/PB级）的存储、处理和分析难题，尤其是在传统数据库（如MySQL）和单机计算无法应对的场景下，提供了低成本、高可靠、可扩展的解决方案。其核心解决的问题可归纳为以下几点：海量数据的存储问题传统痛点：单机存储容量有限（如单服务器硬盘通常在TB
Flink：处理有界流数据的wordcount 小易学编程 flink 大数据
数据源：helloworldhelloflinkhelloscala有界流：packagechapter02importorg.apache.flink.streaming.api.scala._/***ClassName:BoundedStreamWordCount*Package:chapter02*Description:**@Author小易日拱一卒*@Create2025-06-272:
Doris实战——拈花云科的数据中台实践吵吵叭火大数据 #Doris 数据仓库大数据
目录前言一、业务背景二、数据中台1.0—Lambda三、新架构的设计目标四、数据中台2.0—ApacheDoris4.1新架构数据流转4.2新架构收益五、新架构的落地实践5.1模型选择5.1.1Unique模型5.1.2Aggregate模型5.2资源管理5.3批量建表5.4计算实现5.4.1实时计算5.4.2准实时计算通过JavaUDF生成增量/全量数据基于Doris的大表优化DorisBork
JAVA反序列化深入学习（三）：CommonsCollections1 Neolock 漏洞原理 JAVA反序列化 java 网络安全反序列化
ApacheCommonsCollections是一个扩展了Java标准库里的Collection结构的第三方基础库，它提供了很多强有力的数据结构类型并实现了各种集合工具类。作为Apache开源项目的重要组件，被广泛运用于各种Java应用的开发。目录JAVA环境依赖版本检查依赖配置资源下载前置知识AbstractMapDecoratorTransformedMapdecoratetransform
Hadoop与图像识别与处理 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Hadoop与图像识别与处理作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在大数据时代，数据的爆炸性增长对数据处理技术提出了新的挑战。图像数据作为一种重要的数据形式，其处理和分析在许多领域中具有重要意义，如医疗影像分析、自动驾驶、安防监控等。然而，传统的图像处理方法在面对海量图像数据时显得力不从心。Hadoop作为一种分
手动搭建PHP环境：步步为营，解锁Web开发奔跑吧邓邓子项目攻略 php 手动搭建php环境
目录一、引言二、准备工作2.1明确所需软件2.2下载软件三、Windows系统搭建步骤3.1安装Apache服务器3.2安装PHP3.3集成Apache与PHP3.4安装MySQL3.5配置PHP连接MySQL四、Linux系统搭建步骤（以Ubuntu为例）4.1更新系统4.2安装Apache4.3安装MySQL或MariaDB4.4安装PHP及其扩展五、macOS系统搭建步骤5.1安装Homeb
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交