TANCHISE

Hadoop 运行模式（本地模式 / 分布式运行模式）

文章目录

Hadoop 运行模式

1、本地运行模式（WordCount）
2、完全分布式运行模式（开发重点）

2.1虚拟机准备
2.2 编写集群分发脚本xsync

3、SSH无密登录配置
4、集群配置
5、群起集群
6、集群启动/停止方式总结
7、配置历史服务器
8、配置日志的聚集
9、编写hadoop集群常用脚本

Hadoop 运行模式

1、本地运行模式（WordCount）

1.1 在 hadoop-3.1.3 文件下面创建一个 fileinput 文件夹

[xiaoxq@hadoop105 hadoop-3.1.3]$ mkdir fileinput

1.2 在 filenput 文件下创建一个word.txt文件

[xiaoxq@hadoop105 hadoop-3.1.3]$ cd fileinput/

1.3 编辑 word.txt 文件

[xiaoxq@hadoop105 fileinput]$ vim word.txt

在文件中输入如下内容
java java
hadoop hadoop
shell shell
idea idea idea
xiao datenode namenode
hdfs yarn mapreduce
保存退出：：wq

1.4 回到 Hadoop 目录 /opt/module/hadoop-3.1.3

[xiaoxq@hadoop105 fileinput]$ cd ..
[xiaoxq@hadoop105 hadoop-3.1.3]$

1.5 执行程序

[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount fileinput fileoutput

1.6 查看结果(如果搭建了集群的话本地模式是报错的—配置文件改动了)

[xiaoxq@hadoop105 hadoop-3.1.3]$ cat fileoutput/part-r-00000

java 2
hadoop 2
shell 2
idea 3
xiao 1
datenode 1 
namenode 1
hdfs 1
yarn 1
mapreduce 1

2、完全分布式运行模式（开发重点）

步骤

1）准备3台客户机（关闭防火墙、修改静态ip、主机名称）

2）安装JDK / Hadoop

3）配置环境变量

4）配置集群

5）单点启动

6）配置ssh

7）群起并测试集群

2.1虚拟机准备

详见 Hadoop运行环境搭建 文章

2.2 编写集群分发脚本xsync

2.2.1 scp（secure copy）安全拷贝

（1）scp 定义：

scp 可以实现服务器与服务器之间的数据拷贝。（from server1 to server2）

（2）基本语法

scp -r pdir / fname user@hadoophost:pdir/fname

命令递归要拷贝的文件路径/名称目的用户@主机:目的路径/名称

[xiaoxq@hadoop105 ~]$  scp -r /opt/module/hadoop-3.1.3 xiaoxq@hadoop106:/opt/module/

（3）案例实操

前提：在 hadoop105 hadoop106 hadoop107 都已经创建好的 /opt/module /opt/software 两个目录，并且已经把这两个目录修改为xiaoxq:xiaoxq

sudo chown xiaoxq:xiaoxq -R /opt/module （权限问题）

2.2.2 rsync远程同步工具

rsync 主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。

（1）基本语法

rsync -av pdir/fname user@hadoophost:pdir/fname

命令选项参数要拷贝的文件路径/名称目的用户@主机:目的路径/名称

选项参数说明

选项	功能
-a	归档拷贝
-v	显示复制过程

2.2.3 xsync 集群分发脚本（重点-具有更新功能）

（1）需求：循环复制文件到所有节点的相同目录下

（2）需求分析：

（a）rsync 命令原始拷贝：

rsync -av /opt/module root@hadoop106:/opt/

（b）期望脚本：

xsync 要同步的文件名称

（c）说明：在/home/xiaoxq/bin这个目录下存放的脚本，xiaoxq 用户可以在系统任何地方直接执行。

（3）脚本实现

（a）在 /home/atguigu/bin 目录下创建 xsync 文件

[xiaoxq@hadoop105 ~]$ cd /home/xiaoxq/
[xiaoxq@hadoop105 ~]$ mkdir bin
[xiaoxq@hadoop105 ~]$ cd bin
[xiaoxq@hadoop105 bin]$ vim xsync

在该文件中编写如下代码

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
  echo Not Enough Arguement!
  exit;
fi
#2. 遍历集群所有机器
for host in hadoop105 hadoop106 hadoop107
do
  echo ====================  $host  ====================

#3. 遍历所有目录，挨个发送
for file in $@
do
	#4. 判断文件是否存在
	if [ -e $file ]
	then

		#5. 获取父目录
		pdir=$(cd -P $(dirname $file); pwd)

		#6. 获取当前文件的名称
		fname=$(basename $file)
		ssh $host "mkdir -p $pdir"
		rsync -av $pdir/$fname $host:$pdir
	else
		echo $file does not exists!
	fi
done
done

（b）修改脚本 xsync 具有执行权限

[xiaoxq@hadoop105 bin]$ chmod +x xsync

（c）将脚本复制到/bin中，以便全局调用

[xiaoxq@hadoop105 bin]$ sudo cp xsync /bin/

（d）测试脚本

[xiaoxq@hadoop105 bin]$ xsync /home/atguigu/bin
[xiaoxq@hadoop105 bin]$ sudo xsync /bin/xsync

3、SSH无密登录配置

3.1 配置 ssh

（1）基本语法

ssh 另一台电脑的ip地址

（2）ssh 连接时出现 Host key verification failed 的解决方法

[xiaoxq@hadoop105 ~]$ ssh hadoop106

出现：

The authenticity of host '192.168.6.106 (192.168.6.106)' can't be established.
RSA key fingerprint is cf:1e:de:d7:d0:4c:2d:98:60:b4:fd:ae:b1:2d:ad:06.
Are you sure you want to continue connecting (yes/no)?

（3）解决方案如下：直接输入yes

3.2 无密钥配置

3.2.1 免密登录原理

3.2.2 生成公钥和私钥：

[xiaoxq@hadoop105 .ssh]$ ssh-keygen -t rsa

然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）

3.2.3 将公钥拷贝到要免密登录的目标机器上

[xiaoxq@hadoop105 .ssh]$ ssh-copy-id hadoop105
[xiaoxq@hadoop105 .ssh]$ ssh-copy-id hadoop106
[xiaoxq@hadoop105 .ssh]$ ssh-copy-id hadoop107

注意：

还需要在hadoop106上采用xiaoxq账号配置一下无密登录到hadoop105、hadoop106、hadoop107服务器上。

还需要在hadoop107上采用xiaoxq账号配置一下无密登录到hadoop105、hadoop106、hadoop107服务器上。

还需要在hadoop105上采用root账号，配置一下无密登录到hadoop105、hadoop106、hadoop107；

3.3 ssh文件夹下(~/.ssh）的文件功能解释

known_hosts	记录ssh访问过计算机的公钥(public key)
id_rsa	生成的私钥
id_rsa.pub	生成的公钥
authorized_keys	存放授权过的无密登录服务器公钥

4、集群配置

4.1 集群部署规划

注意：NameNode 和 SecondaryNameNode 不要安装在同一台服务器

注意：ResourceManager 也很消耗内存，不要和 NameNode、SecondaryNameNode 配置在同一台机器上。

	hadoop105	hadoop106	hadoop107
HDFS	NameNodeDataNode	DataNode	SecondaryNameNodeDataNode
YARN	NodeManager	ResourceManagerNodeManager	NodeManager

4.2 配置文件说明

Hadoop 配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值。

（1）默认配置文件：

要获取的默认文件	文件存放在Hadoop的jar包中的位置
[core-default.xml]	hadoop-common-3.1.3.jar/ core-default.xml
[hdfs-default.xml]	hadoop-hdfs-3.1.3.jar/ hdfs-default.xml
[yarn-default.xml]	hadoop-yarn-common-3.1.3.jar/ yarn-default.xml
[mapred-default.xml]	hadoop-mapreduce-client-core-3.1.3.jar/ mapred-default.xml

（2）自定义配置文件：

core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上，用户可以根据项目需求重新进行修改配置。

（3）常用端口号说明

Daemon	App	Hadoop2	Hadoop3
NameNode Port	Hadoop HDFS NameNode	8020 / 9000	9820
	Hadoop HDFS NameNode HTTP UI	50070	9870
Secondary NameNode Port	Secondary NameNode	50091	9869
	Secondary NameNode HTTP UI	50090	9868
DataNode Port	Hadoop HDFS DataNode IPC	50020	9867
	Hadoop HDFS DataNode	50010	9866
	Hadoop HDFS DataNode HTTP UI	50075	9864

4.3 配置集群

（1）核心配置文件

配置core-site.xml

[xiaoxq@hadoop105 ~]$ cd /opt/module/hadoop-3.1.3/etc/hadoop/
[xiaoxq@hadoop105 hadoop]$ vim core-site.xml

文件内容如下：





	
		fs.defaultFS
		hdfs://hadoop105:9820
	
	

	
		hadoop.tmp.dir
		/opt/module/hadoop-3.1.3/data
	
	

	
		hadoop.http.staticuser.user
		xiaoxq



	
		hadoop.proxyuser.xiaoxq.hosts
		*
	
	

	
		hadoop.proxyuser.xiaoxq.groups
		*
	
	

	
		hadoop.proxyuser.xiaoxq.groups
		*

（2）HDFS配置文件

配置 hdfs-site.xml

[xiaoxq@hadoop105 hadoop]$ vim hdfs-site.xml

文件内容如下：


 


	
		dfs.namenode.http-address
		hadoop105:9870
	

	
		dfs.namenode.secondary.http-address
		hadoop107:9868

（3）YARN配置文件

配置yarn-site.xml

[xiaoxq@hadoop105 hadoop]$ vim yarn-site.xml

文件内容如下：





	
		yarn.nodemanager.aux-services
		mapreduce_shuffle
	
	

	
		yarn.resourcemanager.hostname
		hadoop106
	
	

	
		yarn.nodemanager.env-whitelist      				
JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME
	
	

	
		yarn.scheduler.minimum-allocation-mb
		512
	
	
		yarn.scheduler.maximum-allocation-mb
		4096
	
	

	
		yarn.nodemanager.resource.memory-mb
		4096
	
	

	
		yarn.nodemanager.pmem-check-enabled
		false
	
	
		yarn.nodemanager.vmem-check-enabled
		false
	
	


    yarn.log-aggregation-enable
    true



	  
		yarn.log.server.url  							
		http://hadoop105:19888/jobhistory/logs
	


	
    	yarn.log-aggregation.retain-seconds
    	604800

（4）MapReduce配置文件

配置mapred-site.xml

[xiaoxq@hadoop105 hadoop]$ vim mapred-site.xml

文件内容如下：





	
		mapreduce.framework.name
		yarn

4.4 在集群上分发配置好的Hadoop配置文件

[xiaoxq@hadoop105 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc/hadoop/

4.5 去106和107上查看文件分发情况

[xiaoxq@hadoop106 hadoop]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml

[xiaoxq@hadoop107 hadoop]$  cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml

5、群起集群

5.1 配置 workers

[xiaoxq@hadoop105 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/workers

在该文件中增加如下内容：

hadoop105
hadoop106
hadoop107

注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。

同步所有节点配置文件

[xiaoxq@hadoop105 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc

5.2 启动集群

（1）如果集群是第一次启动，需要在hadoop105节点格式化NameNode（注意格式化NameNode，会产生新的集群id，导致NameNode和DataNode的集群id不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化NameNode的话，一定要先停止namenode和datanode进程，并且要删除所有机器的data和logs目录，然后再进行格式化。）

[xiaoxq@hadoop105 ~ ]$ hdfs namenode -format

（2）启动HDFS

[xiaoxq@hadoop105 hadoop-3.1.3]$ sbin/start-dfs.sh

（3）在配置了 ResourceManager 的节点（hadoop106）启动YARN

[xiaoxq@hadoop106 hadoop-3.1.3]$ sbin/start-yarn.sh

（4）Web 端查看 HDFS 的 NameNode

（a）浏览器中输入：http://hadoop105:9870

（b）查看HDFS上存储的数据信息

（5）Web 端查看 YARN 的 ResourceManager

（a）浏览器中输入：http://hadoop106:8088

（b）查看 YARN 上运行的 Job 信息

5.3 集群基本测试

（1）上传文件到集群

上传小文件

[xiaoxq@hadoop105 ~]$ hadoop fs -mkdir /input
[xiaoxq@hadoop105 ~]$ hadoop fs -put /opt/module/hadoop-3.1.3/fileinput/word.txt /input

上传大文件

[xiaoxq@hadoop105 ~]$ hadoop fs -put  /opt/software/jdk-8u212-linux-x64.tar.gz  /

（2）上传文件后查看文件存放在什么位置

（a）查看HDFS文件存储路径

[xiaoxq@hadoop105 subdir0]$ pwd
/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-758920941-192.168.6.105-1595469797643/current/finalized/subdir0/subdir0

（b）查看HDFS在磁盘存储文件内容

[xiaoxq@hadoop105 subdir0]$ cat blk_1073741826
java java
hadoop hadoop
shell shell
idea idea idea
xiao datenode namenode
hdfs yarn mapreduce

（3）拼接(追加)

[xiaoxq@hadoop105 subdir0]$ hadoop fs -put /opt/module/hadoop-3.1.3/fileinput/word.txt /input2

-rw-rw-r--. 1 xiaoxq xiaoxq        94 7月  23 16:55 blk_1073741826
-rw-rw-r--. 1 xiaoxq xiaoxq        11 7月  23 16:55 blk_1073741826_1002.meta

-rw-rw-r--. 1 xiaoxq xiaoxq        94 7月  23 17:14 blk_1073741829
-rw-rw-r--. 1 xiaoxq xiaoxq        11 7月  23 17:14 blk_1073741829_1005.meta

[xiaoxq@hadoop105 subdir0]$ cat blk_1073741826>>tmp.tar
[xiaoxq@hadoop105 subdir0]$ cat blk_1073741829>>tmp.tar
[xiaoxq@hadoop105 subdir0]$ cat tmp.tar 
java java
hadoop hadoop
shell shell
idea idea idea
xiao datenode namenode
hdfs yarn mapreduce
java java
hadoop hadoop
shell shell
idea idea idea
xiao datenode namenode
hdfs yarn mapreduce

（4）下载

[xiaoxq@hadoop106 software]$ hadoop fs -get /jdk-8u212-linux-x64.tar.gz ./

（5）执行 wordcount 程序

[xiaoxq@hadoop105 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

6、集群启动/停止方式总结

6.1 各个服务组件逐一启动/停止

（1）分别启动/停止 HDFS 组件

hdfs --daemon start/stop namenode/datanode/secondarynamenode

（2）启动/停止 YARN

yarn --daemon start/stop  resourcemanager/nodemanager

6.2 各个模块分开启动/停止（配置ssh是前提）常用

（1）整体启动/停止 HDFS

start-dfs.sh/stop-dfs.sh

（2）整体启动/停止 YARN

start-yarn.sh/stop-yarn.sh

7、配置历史服务器

为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下：

7.1 配置 mapred-site.xml

[xiaoxq@hadoop105 hadoop]$ vim mapred-site.xml

在该文件里面增加如下配置。


    
        mapreduce.jobhistory.address
        hadoop105:10020
    


    
        mapreduce.jobhistory.webapp.address
        hadoop105:19888

7.2 分发配置

[xiaoxq@hadoop105 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc/hadoop/mapred-site.xml

7.3 在 hadoop105 启动历史服务器

[xiaoxq@hadoop105 hadoop]$  mapred --daemon start historyserver

7.4 查看历史服务器是否启动

[xiaoxq@hadoop105 hadoop]$  jps

7.5 查看JobHistory

http://hadoop105:19888/jobhistory

8、配置日志的聚集

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到 HDFS 系统上。

日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。

注意：开启日志聚集功能，需要重新启动 NodeManager 、ResourceManager 和 HistoryServer。

开启日志聚集功能具体步骤如下：

8.1 配置 yarn-site.xml

[xiaoxq@hadoop105 hadoop]$ vim yarn-site.xml

在该文件里面增加如下配置。



    yarn.log-aggregation-enable
    true



	  
		yarn.log.server.url  							
		http://hadoop105:19888/jobhistory/logs
	


	
    	yarn.log-aggregation.retain-seconds
    	604800

8.2 分发配置

[xiaoxq@hadoop105 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml

8.3 关闭 NodeManager 、ResourceManager 和 HistoryServer

[xiaoxq@hadoop106 ~]$ stop-yarn.sh
[xiaoxq@hadoop105 ~]$ mapred --daemon stop historyserver

8.4 启动 NodeManager 、ResourceManage 和 HistoryServer

[xiaoxq@hadoop106 ~]$ start-yarn.sh
[xiaoxq@hadoop105 ~]$ mapred --daemon start historyserver

8.5 删除HDFS上已经存在的输出文件

[xiaoxq@hadoop105 ~]$ hadoop fs -rm -r /output

8.6 执行 WordCount 程序

[xiaoxq@hadoop105 ~]$ hadoop jar  /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

8.7 查看日志

http://hadoop105:19888/jobhistory

							图 Job History

							图 job运行情况

							图 查看日志

9、编写hadoop集群常用脚本

9.1 查看三台服务器 java 进程脚本：jpsall

[xiaoxq@hadoop105 ~]$ cd /home/xiaoxq/bin
[xiaoxq@hadoop105 bin]$ vim jpsall

然后输入

#!/bin/bash
for host in hadoop105 hadoop106 hadoop107
do
	echo =============== $host ===============
	ssh $host jps $@ | grep -v Jps
done

保存 (:wq )后退出，然后赋予脚本执行权限

[xiaoxq@hadoop105 bin]$ chmod +x jpsall

9.2 hadoop集群启停脚本（包含hdfs，yarn，historyserver）：myhadoop.sh

[xiaoxq@hadoop105 ~]$ cd /home/xiaoxq/bin
[xiaoxq@hadoop105 bin]$ vim myhadoop.sh

然后输入

#!/bin/bash
if [ $# -lt 1 ]
then
	echo "No Args Input..."
	exit ;
fi
case $1 in
"start")
	echo " =================== 启动 hadoop集群 ==================="
	echo " --------------- 启动 hdfs ---------------"
	ssh hadoop105 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
	
	echo " --------------- 启动 yarn ---------------"
	ssh hadoop106 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
	
	echo " --------------- 启动 historyserver ---------------"
	ssh hadoop105 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")
	echo " =================== 关闭 hadoop集群 ==================="
	echo " --------------- 关闭 historyserver ---------------"
	ssh hadoop105 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"

	echo " --------------- 关闭 yarn ---------------"
	ssh hadoop106 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"

	echo " --------------- 关闭 hdfs ---------------"
	ssh hadoop105 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
echo "Input Args Error..."
;;
esac

保存 (:wq) 后退出，然后赋予脚本执行权限

[xiaoxq@hadoop105 bin]$ chmod +x myhadoop.sh

9.3 分发 /home/xiaoxq/bin 目录，保证自定义脚本在三台机器上都可以使用

[xiaoxq@hadoop105 bin]$ xsync /home/atguigu/bin/

你可能感兴趣的:(Hadoop)

浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现程序员-石头山大数据实战案例大数据 hadoop 毕业设计毕设
博主介绍：✌全平台粉丝5W+,高级大厂开发程序员，博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来，同学门有不懂的毕设选题，项目以及论文编写等相关问题都可以和学长沟通，希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展，电商平台积累了海量的数据资源，这些数据不仅包括用户的基本信息、购物记录，还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
Hadoop常见面试题整理及解答叶青舟 Linux hdfs 大数据 hadoop linux
Hadoop常见面试题整理及解答一、基础知识篇：1.把数据仓库从传统关系型数据库转到hadoop有什么优势？答：（1）关系型数据库成本高，且存储空间有限。而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。（2）关系型数据库仅支持标准结构化数据格式，Hadoop不仅支持标准结构化数据格式
2025毕业设计指南：如何用Hadoop构建超市进货推荐系统？大数据分析助力精准采购计算机编程指导师 Java实战集 Python实战集大数据实战集课程设计 hadoop 数据分析 spring boot java 进货 python
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程序/安卓实战项目大数据实战项目⚡⚡文末获取源码文章目录⚡⚡文末获取源码基于hadoop的超市进货推荐系
Hadoop Common 之序列化机制小解猫君之上 #Apache Hadoop
1.JavaSerializable序列化该序列化通过ObjectInputStream的readObject实现序列化，ObjectOutputStream的writeObject实现反序列化。这不过此种序列化虽然跨病态兼容性强，但是因为存储过多的信息，但是传输效率比较低，所以hadoop弃用它。（序列化信息包括这个对象的类，类签名，类的所有静态，费静态成员的值，以及他们父类都要被写入）publ
深入理解hadoop(一)----Common的实现----Configuration maoxiao_jsd 深入理解----hadoop
属本人个人原创，转载请注明,希望对大家有帮助！！一,hadoop的配置管理a,hadoop通过独有的Configuration处理配置信息Configurationconf=newConfiguration();conf.addResource("core-default.xml");conf.addResource("core-site.xml");后者会覆盖前者中未final标记的相同配置项b
hadoop 0.22.0 部署笔记 weixin_33701564 大数据 java 运维
为什么80%的码农都做不了架构师？>>>因为需要使用hbase，所以开始对hbase进行学习。hbase是部署在hadoop平台上的NOSql数据库，因此在部署hbase之前需要先部署hadoop。环境：redhat5、hadoop-0.22.0.tar.gz、jdk-6u13-linux-i586.zipip192.168.1.128hostname：localhost.localdomain（
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(4) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！org.apache.hadoophadoop-com
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(3) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！xmlns:xsi="http://www.w3.or
深入解析HDFS：定义、架构、原理、应用场景及常用命令 CloudJourney hdfs 架构 hadoop
引言Hadoop分布式文件系统（HDFS，HadoopDistributedFileSystem）是Hadoop框架的核心组件之一，它提供了高可靠性、高可用性和高吞吐量的大规模数据存储和管理能力。本文将从HDFS的定义、架构、工作原理、应用场景以及常用命令等多个方面进行详细探讨，帮助读者全面深入地了解HDFS。1.HDFS的定义1.1什么是HDFSHDFS是Hadoop生态系统中的一个分布式文件系
Hadoop的搭建流程 lzhlizihang hadoop 大数据分布式
文章目录一、配置IP二、配置主机名三、配置主机映射四、关闭防火墙五、配置免密六、安装jdk1、第一步：2、第二步：3、第三步：4、第四步：5、第五步：七、安装hadoop1、上传2、解压3、重命名4、开始配置环境变量5、刷新配置文件6、验证hadoop命令是否可以识别八、全分布搭建7、修改配置文件core-site.xml8、修改配置文件hdfs-site.xml9、修改配置文件hadoop-en
hive搭建 -----内嵌模式和本地模式 lzhlizihang hive hadoop
文章目录一、内嵌模式（使用较少）1、上传、解压、重命名2、配置环境变量3、配置conf下的hive-env.sh4、修改conf下的hive-site.xml5、启动hadoop集群6、给hdfs创建文件夹7、修改hive-site.xml中的非法字符8、初始化元数据9、测试是否成功10、内嵌模式的缺点二、本地模式（最常用）1、检查mysql是否正常2、上传、解压、重命名3、配置环境变量4、修改c
Hadoop之mapreduce -- WrodCount案例以及各种概念 lzhlizihang hadoop mapreduce 大数据
文章目录一、MapReduce的优缺点二、MapReduce案例--WordCount1、导包2、Mapper方法3、Partitioner方法（自定义分区器）4、reducer方法5、driver（main方法）6、Writable（手机流量统计案例的实体类）三、关于片和块1、什么是片，什么是块？2、mapreduce启动多少个MapTask任务？四、MapReduce的原理五、Shuffle过
IAAS: IT公司去IOE-Alibaba系统构架解读 wishchin 心理学/职业 BigDataMini Spark PaaS
从Hadoop到自主研发，技术解读阿里去IOE后的系统架构原地址：......................云计算阿里飞天摘要：从IOE时代，到Hadoop与飞天并行，再到飞天单集群5000节点的实现，阿里一直摸索在技术衍变的前沿。这里，我们将从架构、性能、运维等多个方面深入了解阿里基础设施。【导读】互联网的普及，智能终端的增加，大数据时代悄然而至。在这个数据为王的时代，数十倍、数百倍的数据给各
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，

Hadoop 运行模式 （本地模式 / 分布式运行模式）

文章目录

Hadoop 运行模式

1、本地运行模式（WordCount）

2、完全分布式运行模式（开发重点）

2.1虚拟机准备

2.2 编写集群分发脚本xsync

3、SSH无密登录配置

4、集群配置

5、群起集群

6、集群启动/停止方式总结

7、配置历史服务器

8、配置日志的聚集

9、编写hadoop集群常用脚本

你可能感兴趣的:(Hadoop)

Hadoop 运行模式（本地模式 / 分布式运行模式）