殷丿grd_志鹏

搭建学习大数据，需要的虚拟机Linux集群环境

网页右边，向下滑有目录索引，可以根据标题跳转到你想看的内容
如果右边没有就找找左边

声明：此文是学习尚硅谷Hadoop3.1.x课程的学习笔记
尚硅谷视频资源地址：https://www.bilibili.com/video/BV1Qp4y1n7EN?p=34&spm_id_from=pageDriver

一、搞3台做实验的虚拟机

1、搭建Linux虚拟机环境

由于篇幅大，我将Linux虚拟机搭建放在这篇文章中：https://blog.csdn.net/grd_java/article/details/115676099

虚拟机搭建完成后，你还需要学会使用远程访问工具：https://blog.csdn.net/grd_java/article/details/107233667
这篇文章中有介绍到

2、给Linux安装epel-release

如果你安装的是桌面标准版，只需要安装epel-release即可

 yum install -y epel-release

解决可能出现进程被占用的情况

kill -9 3030

如果你安装的是最小系统版，还需要安装如下工具

➢ net-tool：工具包集合，包含 ifconfig 等命令
[root@hadoop100 ~]# yum install -y net-tools 
➢ vim：编辑器
[root@hadoop100 ~]# yum install -y vim

3、关闭防火墙

企业中，通常公司会整体对外设置非常安全的防火墙，所以我们关闭linux防火墙

➢ 关闭防火墙
	[root@hadoop100 ~]# systemctl stop firewalld
➢ 关闭防火墙开机自启动
	[root@hadoop100 ~]# systemctl disable firewalld.service

4、为非root用户开启加sudo执行root命令的权限

非root用户是无法使用root命令的，而有些时候我们需要非root用户执行一些命令，就可以为其开启sudo权限

进入sudoers文件

找到如下命令并修改(hadoop100是我linux里面的一个非root用户)

hadoop100 ALL=(ALL) NOPASSWD:ALL

➢ 删除指定文件夹
	sudo rm -rf rh/
➢ 创建文件夹
	[hadoop100@hadoop100 opt]$ sudo mkdir module 
	[hadoop100@hadoop100 opt]$ sudo mkdir software
	[hadoop100@hadoop100 opt]$ ll
	总用量 0
	drwxr-xr-x. 2 root root 6 4月  14 09:49 module
	drwxr-xr-x. 2 root root 6 4月  14 09:52 software
➢ 将文件所属用户改为hadoop100
	[hadoop100@hadoop100 opt]$ sudo chown hadoop100:hadoop100 module/ software/
	[hadoop100@hadoop100 opt]$ ll
	总用量 0
	drwxr-xr-x. 2 hadoop100 hadoop100 6 4月  14 09:49 module
	drwxr-xr-x. 2 hadoop100 hadoop100 6 4月  14 09:52 software

5、卸载虚拟机自带JDK

桌面板默认带一个JDK，我们需要卸载，如果是最小化安装则不需要

进入root用户下，然后卸载

rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps
➢ rpm -qa：查询所安装的所有 rpm 软件包
➢ grep -i：忽略大小写
➢ xargs -n1：表示每次只传递一个参数，就是如果前面查询出来有多个，一个一个卸载，而不是一起卸载，容易死机
➢ rpm -e –nodeps：强制卸载软件

6、重启虚拟机后克隆虚拟机

重启虚拟机（为了让刚才的更改不出差错）

关闭虚拟机

克隆虚拟机

各选项如何选择


克隆3台虚拟机，然后将这3台放在一个文件夹，我们用克隆后的3台虚拟机，而最开始的Hadoop100，我们就不用了，保留着日后继续克隆，因为后续学习中，虚拟机很容易玩坏，那么之后我们只需要再克隆3台就行了


虚拟机如何删除？（这里只是告诉你如何删除，日后虚拟机玩坏方便删除，现在没问题可不要真的给删了）

移除，只是将虚拟机从列表中移除，但在本地上还有，日后可以添加回来

彻底删除（无法恢复）

7、给克隆后的虚拟机配置ip和主机名

打开Hadoop102虚拟机，进入root用户，使用vim编辑ip地址

➢ 注意，当下面的命令敲到ifcfg-ens后，每个虚拟机后面的数字是不同的，你可以按键盘上的TAB键自动补齐，以防出错
vim /etc/sysconfig/network-scripts/ifcfg-ens33

改主机名

映射



重启虚拟机

根据上面的步骤，配置103和104虚拟机，一样将103ip改为103,104ip改为104，主机名改成和自己匹配的即可，然后看各虚拟机是否可以上网

6、通过putty工具远程连接3个虚拟机

二、开发环境

1、给虚拟机安装JDK

只需给Hadoop102安装，然后103和104只需要拷贝即可

首先我们需要获取linux的jdk8和hadoop3.1.x的linux包

JDK https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html

Hadoop https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.1.3/hadoop-3.1.3.tar.gz

通过远程传输工具，将两个包传输给虚拟机

使用WinSCP远程连接虚拟机

把我们刚刚下载的包传输给虚拟机

进虚拟机目录中检查文件是否传输成功

安装JDK

tar -zxvf jdk-8u281-linux-x64.tar.gz -C /opt/module/

配置JDK环境变量

进入/etc/profile.d文件夹（可见有很多sh后缀的文件，当虚拟机启动，会依次加载这些sh文件，将环境变量加载进去）

创建自己的sh文件my_env.sh,意思是我的环境变量,直接用vim创建打开

配置环境变量

➢ #JAVA_HOME ,#表示注释
➢ export 表示全局声明，表示将内容暴露出去
➢ JAVA_HOME=/opt/module/jdk1.8.0_281，配置JAVA_HOME，后面是我们安装JDK的目录
➢ $PATH表示引用PATH，:表示拼接
➢ $PATH:$JAVA_HOME/bin表示在原有$PATH的基础上拼接上JDK环境变量
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_281
export PATH=$PATH:$JAVA_HOME/bin

重新加载环境变量（如果输入java没有出来信息，试着重启一下）

source /etc/profile

安装Hadoop，配置Hadoop环境变量
配置hadoop环境变量需要引入bin和sbin目录
bin目录主要包括yarn等组件
sbing目录主要包括启动yarn等组件的sh文件

安装


配置环境变量

查看是否成功

三、集群分发（此章节主要介绍方便集群管理的常用工具）

1、脚本分发

我们现在只有一台虚拟机上有JDK和hadoop运行环境，我们可以通过脚本分发，将环境分发给另外两个服务器
如果你不想学脚本，可以选择在另外两台虚拟机，使用上面的步骤安装jdk，安装hadoop，配置环境变量

1. scp(secure copy) 安全拷贝

scp
scp 可以实现服务器与服务器之间的数据拷贝

➢ 基本语法：
	scp -r $pdir/$fname $user@$host:$pdir/$fname
	命令 递归 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称
➢ 前提(我下面的命令都是根据下面条件进行操作的，如果你和我的不一样，需要换成你自己的)
	在 hadoop102、hadoop103、hadoop104 都已经创建好的/opt/module和/opt/software 
	两个目录，并且已经把这两个目录修改为相同的非root用户，比如我的都是
	hadoop100
➢ 修改目录为指定用户的命令（我这里改成了hadoop100）
	sudo chown Hadoop100:Hadoop100 -R /opt/module

在hadoop102上，将jdk拷贝到hadoop103

➢ 下面的命令是，使用scp命令通过递归的方式将/opt/module/jdk1.8.0_212目录
	拷贝到，指定ip虚拟机的/opt/module目录下，并且属于hadoop100用户
	@hadoop103是主机地址映射，我们前面介绍过，vim /etc/hostname配置
scp -r /opt/module/jdk1.8.0_212 hadoop100@hadoop103:/opt/module

在hadoop103上，将hadoop102的hadoop安装包拷贝到hadoop103上（其实完全可以用上面传输JDK的命令一起传，这里是为了介绍不同的方式）

➢ 下面的命令是,将指定ip的/opt/module/hadoop-3.1.3（同时指定这个文件的所有者）
	拷贝到当前虚拟机的 /opt/module/目录下，文件所有者为当前用户
scp -r hadoop100@hadoop102:/opt/module/hadoop-3.1.3 /opt/module/

在hadoop103上，将hadoop102中的jdk和hadoop全部拷贝到hadoop104上

➢ 下面的命令是,将指定ip（hadoop102）的指定目录拷贝到另一个指定ip（hadoop104）
	的指定目录下
scp -r hadoop100@hadoop102:/opt/module/* hadoop100@hadoop104:/opt/module

2、 rsync远程同步工具

非常重要的一件事
[hadoop100@hadoop102 ~]：只要看到 ~ 这个路径，表示在当前用户的home目录下，下面代码中，会频繁出现@hadoop102 ~，代表当前用户home下

rsync
主要用于备份和镜像
速度快、避免复制相同内容和支持符号链接
`rsync 和 scp 区别`：用 rsync 做文件的复制要比 scp 的速度快，rsync 只对差异文件做更新。scp 是把所有文件都复制过去。

➢ 基本语法：
	rsync -av $pdir/$fname $user@$host:$pdir/$fname
	命令 选项参数 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称
	其中
		-a 归档拷贝
		-v 显示复制过程

在hadoop103中，如果你执行了前面scp的操作，那么我们就可以对刚拷贝的文件做一些更改，然后通过rsync同步hadoop102的文件进行恢复

➢ 先进入hadoop-3.1.3的目录，然后删除wcinput文件夹
	[hadoop100@hadoop103 hadoop-3.1.3]$ rm -rf wcinput/

在hadoop102中，同步hadoop102的文件到hadoop103中

➢ 先进入hadoop-3.1.3所在目录下
➢ 下面的命令是,通过归档拷贝并且显示复制过程的方式
	将hadoop-3.1.3文件同步到hadoop103的文件中
rsync -av hadoop-3.1.3/ hadoop100@hadoop103:/opt/module/hadoop-3.1.3/

3、集群分发脚本

循环复制文件到所有节点的相同目录下
我们希望脚本在任何路径下都能使用，所以将其放在声明了全局环境变量的路径

在/home/hadoop100/bin目录下创建xsync文件

[hadoop100@hadoop102 opt]$ cd /home/hadoop100
[hadoop100@hadoop102 ~]$ mkdir bin
[hadoop100@hadoop102 ~]$ cd bin
[hadoop100@hadoop102 bin]$ vim xsync

编写代码（直接复制下面代码过去，主要要先按i键进入插入模式，否则遇到复制内容的i字母才开始插入，linux粘贴命令shift+insert）

阅读用，不可直接使用，里面注释太多，想复制执行请复制下面内个版本

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ] # 判断参数是否小于1，$#表示获取参数个数，-lt表示小于
then # 条件为真执行
 echo Not Enough Arguement! # 提示没有参数
 exit; # 退出程序
fi # if结束
#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do # 循环体 do和done是一对，标志循环体开始和结束
 echo ==================== $host ==================== # 打印 $host表示获取当前循环变量host的值
 #3. 遍历所有目录，挨个发送
 for file in $@ # 循环，遍历目录个数，$@表示传入的文件，比如a.txt b.txt挨个遍历
 do # 循环体
 #4. 判断文件是否存在
 if [ -e $file ] # 判断当前文件是否存在，-e表示判断是否存在
	 then #条件成立执行
		 #5. 获取父目录
		 # $file 表示获取当前文件名，$(dirname $file)表示获取执行dirname $file 的结果，保证无论是相对路径还是绝对路径，都获取到父目录
		 #-P表示如果刚刚获取的结果都是软连接，那么定位到真正的目录
		 #cd表示进入前面内容获取的目录
		 #pwd获取当前目录
		 #pdir=$(..)表示获取值给pdir
		 pdir=$(cd -P $(dirname $file); pwd)# 获取到当前文件父目录
		 #6. 获取当前文件的名称
		 fname=$(basename $file)# 获取当前文件名
		 #ssh $host，表示远程连接到当前循环的host主机，
		 #比如当前是hadoop103，那么就连接到hadoop103虚拟机
		 #"mkdir -p $pdir" 表示ssh连接后执行的语句，创建目录
		 ssh $host "mkdir -p $pdir" #远程连接目标主机，创建父目录
		 rsync -av $pdir/$fname $host:$pdir # 通过rsync同步文件
	 else # 条件失败执行
		 echo $file does not exists!
 fi
 done # for循环结束
done # for循环结束

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
 echo Not Enough Arguement!
 exit;
fi
#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
 echo ==================== $host ====================
 #3. 遍历所有目录，挨个发送
 for file in $@
 do
 #4. 判断文件是否存在
 if [ -e $file ]
 then
 #5. 获取父目录
 pdir=$(cd -P $(dirname $file); pwd)
 #6. 获取当前文件的名称
 fname=$(basename $file)
 ssh $host "mkdir -p $pdir"
 rsync -av $pdir/$fname $host:$pdir
 else
 echo $file does not exists!
 fi
 done
done

让脚本xsync具有执行权限

➢ chmod +x表示给执行权限，比如chmod +777就是给所有权限，增删改查等，会发现文件变成绿色
[hadoop100@hadoop102 bin]$ chmod +x xsync

测试脚本

[hadoop100@hadoop102 ~]$ xsync /home/hadoop100/bin

将脚本复制到/bin中，以便全局使用，这个/bin是linux的不是现在home里的

[hadoop100@hadoop102 bin]$ sudo cp xsync /bin/

同步环境变量配置（root所有者）

➢ 注意：如果用了 sudo，那么 xsync 一定要给它的路径补全，
	因为sudo命令是由root来执行的，而我们xsync在hadoop100的home里面，
	root无法直接进去执行，只能通过./来搞一个绝对路径帮他找到
[hadoop100@hadoop102 ~]$ sudo ./bin/xsync /etc/profile.d/my_env.sh

让环境变量生效

[hadoop100@hadoop103 bin]$ source /etc/profile
[hadoop100@hadoop104 opt]$ source /etc/profile

2、 ssh免密登录（解决分发脚本每次都需要输入密码问题）

配置ssh，及其简单，直接介绍命令

➢ 基本语法，远程连接另一台服务器
	ssh 另一台电脑的 IP 地址
➢ ssh 连接时出现 Host key verification failed 的解决方法
	[atguigu@hadoop102 ~]$ ssh hadoop103
➢ 如果出现如下内容
	Are you sure you want to continue connecting (yes/no)?
	输入 yes，并回车
➢ 断开远程连接，回到自己的服务器
	[atguigu@hadoop103 ~]$ exit

无密钥配置

免密登录原理（设置一个私钥一个公钥，我们会把公钥分发给其它人，然后这些人会把公钥保存起来，私钥我们自己保密，我们每次建立连接，我先发给要连接对象一个使用私钥加密的数据，而连接对象，获取到加密数据，只有对应公钥可以解密，如果解密成功，说明可以建立连接，然后使用公钥再加密一份数据发送回去，我们接受到数据后，再用私钥解密，完成连接）

生成公钥和私钥

[hadoop100@hadoop102 .ssh]$ pwd /home/hadoop100/.ssh
[hadoop100@hadoop102 .ssh]$ ssh-keygen -t rsa
然后敲（三个回车），就会生成两个文件 id_rsa（私钥）、id_rsa.pub（公钥）

将公钥拷贝到需要免密登录的目标机器上

[hadoop100@hadoop102 .ssh]$ ssh-copy-id hadoop102
[hadoop100@hadoop102 .ssh]$ ssh-copy-id hadoop103
[hadoop100@hadoop102 .ssh]$ ssh-copy-id hadoop104

hadoop103上使用hadoop100用户，也配置一些无密登录到hadoop102、103、104,同理hadoop104上也需要配置相同命令

.ssh文件夹下（~/.ssh）的文件功能

四、集群配置

hadoop的3中运行模式，我们只介绍完全分布式

完全分布式运行模式要求
我们前面已经做了前5步了

准备 3 台客户机（关闭防火墙、静态 IP、主机名称） 前面已做

安装 JDK 前面已做

配置环境变量 前面已做

安装 Hadoop 前面已做

配置环境变量 前面已做

配置集群

单点启动

配置 ssh

群起并测试集群

集群部署规划

NameNode 和 SecondaryNameNode 不要安装在同一台服务器

ResourceManager 也很消耗内存，不要和 NameNode、SecondaryNameNode 配置在同一台机器上。

如果你的机器非常厉害，可以无视上面两条，配在同一台服务器上

配置文件说明
Hadoop 配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值

1、配置文件

自定义配置文件位置

核心配置core-site.xml

[hadoop100@hadoop102 ~]$ cd $HADOOP_HOME/etc/hadoop
[hadoop100@hadoop102 hadoop]$ vim core-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
 <!-- 指定 NameNode 的地址 -->
 <property>
  <name>fs.defaultFS</name>
  <value>hdfs://hadoop102:8020
 </property>
 <!-- 指定 hadoop 数据的存储目录 -->
 <property>
  <name>hadoop.tmp.dir</name>
  <value>/opt/module/hadoop-3.1.3/data</value>
 </property>
 <!-- 配置 HDFS 网页登录使用的静态用户为 hadoop100 -->
 <property>
  <name>hadoop.http.staticuser.user</name>
  <value>hadoop100</value>
 </property>
</configuration>

HDFS配置hdfs-site.xml

[hadoop100@hadoop102 hadoop]$ vim hdfs-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
 <!-- nn web 端访问地址-->
 <property>
  <name>dfs.namenode.http-address</name>
  <value>hadoop102:9870</value>
 </property>
<!-- 2nn web 端访问地址-->
 <property>
  <name>dfs.namenode.secondary.http-address</name>
  <value>hadoop104:9868</value>
 </property>
</configuration>

YARN配置yarn-site.xml

[hadoop100@hadoop102 hadoop]$ vim yarn-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
 <!-- 指定 MR 走 shuffle -->
 <property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
 </property>
 <!-- 指定 ResourceManager 的地址-->
 <property>
  <name>yarn.resourcemanager.hostname</name>
  <value>hadoop103</value>
 </property>
 <!-- 环境变量的继承 -->
 <property>
  <name>yarn.nodemanager.env-whitelist</name>
  <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
 </property>
</configuration>

MapReduce配置mapred-site.xml

[hadoop100@hadoop102 hadoop]$ vim mapred-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- 指定 MapReduce 程序运行在 Yarn 上 -->
 <property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
 </property>
</configuration>

集群分发配置文件

[hadoop100@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc/hadoop/

103和104中查看文件分发情况

[hadoop100@hadoop103 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml
[hadoop100@hadoop104 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml

2、群起集群（刚刚都配置完了，现在该启动了）

配置workers
workers是告诉hadoop集群有几个节点，我们一共3个，就配置3个

➢ 配置workers
[hadoop100@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/workers
➢ 文件内容如下，注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。
hadoop102
hadoop103
hadoop104

➢ 同步所有节点配置文件
[hadoop100@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc

启动集群

如果集群是第一次启动,需要格式化NameNode

需要在 hadoop102 节点格式化 NameNode（注意：格式化 NameNode，会产生新的集群 id，导致 NameNode 和 DataNode 的集群 id 不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化 NameNode 的话，一定要先停止 namenode 和 datanode 进程，并且要删除所有机器的 data 和 logs 目录，然后再进行格式化。）

[hadoop100@hadoop102 hadoop-3.1.3]$ hdfs namenode -format

启动 HDFS

[hadoop100@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh

在配置了 ResourceManager 的节点（hadoop103）启动 YARN

[hadoop100@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh

Web端查看HDFS的NameNode

浏览器输入http://hadoop102:9870

查看 HDFS 上存储的数据信息

Web 端查看 YARN 的 ResourceManager

浏览器中输入：http://hadoop103:8088

查看 YARN 上运行的 Job 信息

集群基本测试（`只需要跟着把1.上传文件到集群做了即可，其它的还没学的话，不好理解，了解一下就行`）

上传文件到集群

➢ 上传小文件
[hadoop100@hadoop102 ~]$ hadoop fs -mkdir /input
[hadoop100@hadoop102 ~]$ hadoop fs -put $HADOOP_HOME/wcinput/word.txt /input
➢ 上传大文件
[hadoop100@hadoop102 ~]$ hadoop fs -put /opt/software/jdk-8u212-linux-x64.tar.gz /
➢ 删除文件
[hadoop100@hadoop102 ~]$ hadoop fs -rm -r /input

文件上传后存储位置和HDFS 在磁盘存储文件的内容

➢ HDFS 文件存储路径
[hadoop100@hadoop102 subdir0]$ pwd
➢ 结果如下
/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-1436128598-
192.168.10.102-1610603650062/current/finalized/subdir0/subdir0

➢ HDFS 磁盘存储文件内容
[hadoop100@hadoop102 subdir0]$ cat 文件名
➢ 结果如下
hadoop yarn
hadoop mapreduce 
atguigu
atguigu

拼接（了解即可，下面文件是一个大文件的分卷压缩形式，我们通过cat命令拼接，然后tar命令解压就可以获取的原始的文件）

➢ 假设有如下文件
-rw-rw-r--. 1 hadoop100 hadoop100 134217728 5 月 23 16:01 blk_1073741836
-rw-rw-r--. 1 hadoop100 hadoop100 1048583 5 月 23 16:01 blk_1073741836_1012.meta
-rw-rw-r--. 1 hadoop100 hadoop100 63439959 5 月 23 16:01 blk_1073741837
-rw-rw-r--. 1 hadoop100 hadoop100 495635 5 月 23 16:01 blk_1073741837_1013.meta
➢ 拼接
[hadoop100@hadoop102 subdir0]$ cat blk_1073741836>>tmp.tar.gz
[hadoop100@hadoop102 subdir0]$ cat blk_1073741837>>tmp.tar.gz
[hadoop100@hadoop102 subdir0]$ tar -zxvf tmp.tar.gz

下载

[hadoop100@hadoop104 software]$ hadoop fs -get /jdk-8u212-linux-x64.tar.gz ./

执行wordcount程序

[hadoop100@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

3、配置历史服务器

YARN执行后的任务，如果把页面关掉，再想回顾历史任务执行过程时无法回顾的，因为没有保存
为了解决问题，我们需要配置一台历史服务器

配置mapred-site.xml

[hadoop100@hadoop102 hadoop]$ vim mapred-site.xml

➢ 在该文件里面增加如下配置。
<!-- 历史服务器端地址 -->
<property>
 <name>mapreduce.jobhistory.address</name>
 <value>hadoop102:10020</value>
</property>
<!-- 历史服务器 web 端地址 -->
<property>
 <name>mapreduce.jobhistory.webapp.address</name>
 <value>hadoop102:19888</value>
</property>

分发脚本

[hadoop100@hadoop102 hadoop]$ xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml

启动历史服务器

[hadoop100@hadoop102 hadoop]$ mapred --daemon start historyserver

查看是否启动成功

[hadoop100@hadoop102 hadoop]$ jps

查看历史工作记录
http://hadoop102:19888/jobhistory

4、配置日志聚集

日志聚集
应用运行完成以后，将程序运行日志信息上传到 HDFS 系统上

配置 yarn-site.xml

[hadoop100@hadoop102 hadoop]$ vim yarn-site.xml

➢ 在该文件里面增加如下配置。
<!-- 开启日志聚集功能 -->
<property>
 <name>yarn.log-aggregation-enable</name>
 <value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property> 
 <name>yarn.log.server.url</name> 
 <value>http://hadoop102:19888/jobhistory/logs
</property>
<!-- 设置日志保留时间为 7 天 -->
<property>
 <name>yarn.log-aggregation.retain-seconds</name>
 <value>604800</value>
</property>

分发配置

[hadoop100@hadoop102 hadoop]$ xsync $HADOOP_HOME/etc/hadoop/yarn-site.xml

关闭NodeManager、ResourceManager和HistoryServer

[hadoop100@hadoop103 hadoop-3.1.3]$ sbin/stop-yarn.sh
[hadoop100@hadoop103 hadoop-3.1.3]$ mapred --daemon stop historyserver

重启被关闭的进程

[hadoop100@hadoop103 ~]$ start-yarn.sh
[hadoop100@hadoop102 ~]$ mapred --daemon start historyserver

五、集群常用操作总结

1、整体启动和停止

➢ 各个模块分开启动/停止（配置 ssh 是前提）常用
	1）整体启动/停止 HDFS
		start-dfs.sh/stop-dfs.sh
	2）整体启动/停止 YARN
		start-yarn.sh/stop-yarn.sh
➢ 各个服务组件逐一启动/停止（比如HDFS有两个服务，上面命令是一次全启动，这个是启动指定的服务）
	1）分别启动/停止 HDFS 组件
		hdfs --daemon start/stop namenode/datanode/secondarynamenode
	2）启动/停止 YARN
		yarn --daemon start/stop resourcemanager/nodemanager

2、 Hadoop集群常用脚本

1、hadoop集群启停脚本（包含 HDFS，Yarn，Historyserver）

和xsync分发脚本放在一个文件夹

➢ 创建脚本
[hadoop100@hadoop102 ~]$ cd /home/hadoop100/bin
[hadoop100@hadoop102 bin]$ vim myhadoop.sh

➢ 编辑如下内容
#!/bin/bash
if [ $# -lt 1 ]
then
 echo "No Args Input..."
 exit ;
fi
case $1 in
"start")
 echo " =================== 启动 hadoop 集群 ==================="
 echo " --------------- 启动 hdfs ---------------"
 ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
 echo " --------------- 启动 yarn ---------------"
 ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
 echo " --------------- 启动 historyserver ---------------"
 ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")
 echo " =================== 关闭 hadoop 集群 ==================="
 echo " --------------- 关闭 historyserver ---------------"
 ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"
 echo " --------------- 关闭 yarn ---------------"
 ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
 echo " --------------- 关闭 hdfs ---------------"
 ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
 echo "Input Args Error..."
;;
esac

➢ 保存后退出，然后赋予脚本执行权限
[hadoop100@hadoop102 bin]$ chmod +x myhadoop.sh

➢ 执行
[hadoop100@hadoop102 bin]$ myhadoop.sh stop
[hadoop100@hadoop102 bin]$ myhadoop.sh start

2、查看三台服务器 Java 进程脚本：jpsall

[hadoop100@hadoop102 ~]$ cd /home/hadoop100/bin
[hadoop100@hadoop102 bin]$ vim jpsall

#!/bin/bash
for host in hadoop102 hadoop103 hadoop104
do
 echo =============== $host ===============
 ssh $host jps 
done
➢ 保存后退出，然后赋予脚本执行权限
[hadoop100@hadoop102 bin]$ chmod +x jpsall

写完脚本记得同步

[hadoop100@hadoop102 ~]$ xsync /home/hadoop100/bin/

3、常用端口号和配置文件说明

4、集群时间同步（了解即可，不需要跟着配置）

如果服务器在公网环境（能连接外网），可以不采用集群时间同步,，因为服务器会定期和公网时间进行校准；

如果服务器在内网环境，必须要配置集群时间同步，否则时间久了，会产生时间偏差，导致集群执行任务时间不同步。

解决方案

找一个机器，作为时间服务器，所有的机器与这台集群时间进行定时的同步，

生产环境根据任务对时间的准确程度要求周期同步。测试环境为了尽快看到效果，采用 1 分钟同步一次

时间服务器配置（必须root用户配置）

1.查看所有节点 ntpd 服务状态和开机自启动状态

[hadoop100@hadoop102 ~]$ sudo systemctl status ntpd
[hadoop100@hadoop102 ~]$ sudo systemctl start ntpd
[hadoop100@hadoop102 ~]$ sudo systemctl is-enabled ntpd

修改hadoop102的ntp.conf配置文件

[hadoop100@hadoop102 ~]$ sudo vim /etc/ntp.conf

➢ 1：授权 192.168.10.0-192.168.10.255 网段上的所有机器可以从这台机器上查询和同步时间
	修改 #restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap
	为 restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap

➢ 2：集群在局域网中，不使用其他互联网上的时间
	修改
		server 0.centos.pool.ntp.org iburst
		server 1.centos.pool.ntp.org iburst
		server 2.centos.pool.ntp.org iburst
		server 3.centos.pool.ntp.org iburst
	为
		#server 0.centos.pool.ntp.org iburst
		#server 1.centos.pool.ntp.org iburst
		#server 2.centos.pool.ntp.org iburst
		#server 3.centos.pool.ntp.org iburst
➢ 3：当该节点丢失网络连接，依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步
	添加如下内容
		server 127.127.1.0
		fudge 127.127.1.0 stratum 10

修改hadoop102的/etc/sysconfig/ntpd文件

[hadoop100@hadoop102 ~]$ sudo vim /etc/sysconfig/ntpd

➢ 1：让硬件时间与系统时间一起同步
	增加如下内容
		SYNC_HWCLOCK=yes
➢ 2：重启ntpd服务
	[hadoop100@hadoop102 ~]$ sudo systemctl start ntpd
➢ 3：设置 ntpd 服务开机启动
	[hadoop100@hadoop102 ~]$ sudo systemctl enable ntpd

其它机器配置(必须root用户)

➢ 1：关闭所有节点上 ntp 服务和自启动
	[hadoop100@hadoop103 ~]$ sudo systemctl stop ntpd
	[hadoop100@hadoop103 ~]$ sudo systemctl disable ntpd
	[hadoop100@hadoop104 ~]$ sudo systemctl stop ntpd
	[hadoop100@hadoop104 ~]$ sudo systemctl disable ntpd
➢ 2：在其他机器配置 1 分钟与时间服务器同步一次
	[hadoop100@hadoop103 ~]$ sudo crontab -e
	编写定时任务如下：
	*/1 * * * * /usr/sbin/ntpdate hadoop102
➢ 3：修改任意机器时间
	[hadoop100@hadoop103 ~]$ sudo date -s "2021-9-11 11:11:11"
➢ 4：1 分钟后查看机器是否与时间服务器同步
	[hadoop100@hadoop103 ~]$ sudo date

六、常见错误以及解决办法

低级错误

集群id不一致问题

系统因素导致

你可能感兴趣的:(大数据)

智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
9.20其二道左无人
做一家服务公司，为下面的公司提供一些事务性的管理、财务管理、风险管理的服务，粘住一个大圈子的HR，通过下面的公司做掉项目，为HR提供一个稳定的资源变现的渠道；做一家科技公司，提供线上的平台运营，大数据采集，以及基于这个基础上的卖货、信贷等服务做一家连锁企业，每一家门店都是独立的企业，提供招聘、引流以及终端服务所以外部通过众筹绑定大批量的HR，就会有稳定的订单，通过服务公司提供服务，通过终端门店保证
只靠可视化大屏，做不了数字化，数据总监总结3点，你做到了几个大数据的那些事
企业数字化是很多企业热衷的话题。本文的数字化指各行业头的头部企业的端到端数字化解决方案，常见部署于华为专有云、阿里私有云、亚马逊云，项目金额一般百万起步，上不封顶。很多企业投人、投钱数字化，都希望有个酷炫的数据大脑，政府、合作伙伴来参观时，用酷炫的数据大脑让来宾们啧啧称赞。热闹散去后，企业内部的各部门，天天围着数据挖宝，大数据快告诉我，下个月能卖多少，哪几个渠道卖得不好，哪条生产线有问题，哪些货压
你多久没有认真读一本书了我是巴卡
我九岁博览群书，二十岁达到顶峰。我现在都是看社会人文类的书，例如《知音》《故事会》……往前推三百年，往后推三百年，总共六百年没有人超过我。——凤姐引用凤姐的话，没有嘲讽的意思。现在的人，包括我自己，除了刷手机，恐怕连杂志都很少读了，更别说认真读一本书了。1、大数据下，人越读越窄，越读越傻前段时间，埃航波音737MAX8出事，就在网上跟着读了几篇报道。随后的一段时间，基本打开APP都是关于波音和73
注意力才是我们最值钱的东西心守平凡_王慧超
4月10日晚，罗永浩携手国民神车哈弗品牌完成了第二场带货直播。此次直播共售出11357张2777元的优惠券，预估销售额15.65亿元，创造了汽车直播带货的新纪录。流量时代真的已经来临了，随着互联网的高速发展，越来越多的网络用户增加，我们不得不承认，我们已经进入了一个网络时代，进入了一个流量大数据时代。我们所有想获得的东西都可以通过网络获取，资料、信息、购物，网络正在改变人们的生活方式，正在成为人们
六、深度剖析 Hadoop 分布式文件系统（HDFS）的数据存储机制与读写流程
深度剖析Hadoop分布式文件系统（HDFS）的数据存储机制与读写流程在当今大数据领域当中，Hadoop分布式文件系统（HDFS）作为极为关键的核心组件之一，为海量规模的数据的存储以及处理构筑起了坚实无比的根基。本文将会对HDFS的数据存储机制以及读写流程展开全面且深入的探究，通过将原理与实际的实例紧密结合的方式，助力广大读者更加全面地理解HDFS的工作原理以及其具体的应用场景。一、HDFS概述H
养老院管理系统基于SpringBoot的养老院管理系统系统设计与实现（源码+论文+部署讲解等）
博主介绍：✌全网粉丝60W+,csdn特邀作者、Java领域优质创作者、csdn/掘金/哔哩哔哩/知乎/道客/小红书等平台优质作者，计算机毕设实战导师，目前专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌技术栈范围：SpringBoot、Vue、SSM、Jsp、HLMT、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习、单片机
大数据处理技术：分布式文件系统HDFS 茜茜西西CeCe hdfs hadoop 大数据 HDFS-JAVA接口文件头歌 Java
目录1实验名称：2实验目的3实验内容4实验原理5实验过程或源代码5.1HDFS的基本操作5.2HDFS-JAVA接口之读取文件5.3HDFS-JAVA接口之上传文件5.4HDFS-JAVA接口之删除文件6实验结果6.1HDFS的基本操作6.2HDFS-JAVA接口之读取文件6.3HDFS-JAVA接口之上传文件6.4HDFS-JAVA接口之删除文件1实验名称：分布式文件系统HDFS2实验目的1.理
基于用户画像的商品推荐系统 Dush32 机器学习人工智能 python 推荐算法
随着人工智能和大数据技术的进步，产品推荐系统成为了现代广告与电商平台中不可或缺的部分。通过深度挖掘用户的行为数据，能够为广告主提供精准的用户画像，从而更高效地推荐相关产品，提升购买转化率。本项目基于科大讯飞AI营销云大赛的赛题，目的是利用用户画像进行产品推荐，预测用户是否会购买相应商品。我们使用了机器学习的二分类模型，通过分析用户的性别、年龄、常驻地、机型等信息，来判断用户的付费行为。项目目标：本
InfluxDB 数据模型：桶、测量、标签与字段详解（一）计算机毕设定制辅导-无忧 #InfluxDB db
一、引言**在大数据和物联网蓬勃发展的当下，时间序列数据的处理需求呈爆发式增长。InfluxDB作为一款高性能的开源时序数据库，凭借其卓越的特性，在时序数据库领域占据了重要地位，被广泛应用于各种场景。InfluxDB专为时间序列数据设计，拥有高效的存储和查询性能。它采用独特的存储引擎，能够快速写入大量带有时间戳的数据，并支持灵活的查询操作。其核心设计针对时间序列数据的特点进行了优化，包括时间索引、
Kafka 集群架构与高可用方案设计（一）计算机毕设定制辅导-无忧 #Kafka kafka 架构分布式
Kafka集群架构与高可用方案设计的重要性在大数据和分布式系统的广阔领域中，Kafka已然成为了一个中流砥柱般的存在。它最初由LinkedIn开发，后捐赠给Apache软件基金会并成为顶级项目，凭借其卓越的高吞吐量、可扩展性以及持久性，被广泛应用于日志收集、实时数据处理、流计算、数据集成等诸多关键领域。在日志收集场景下，以大型互联网公司为例，每天都会产生海量的日志数据，如用户的访问记录、系统操作日
大数据集成方案对比：Kafka vs Flume vs Sqoop AI天才研究院计算 AI大模型应用入门实战与进阶 Agentic AI 实战大数据 kafka flume ai
大数据集成方案对比：KafkavsFlumevsSqoop关键词：大数据集成、Kafka、Flume、Sqoop、流处理、批量迁移、日志收集摘要：在大数据生态中，数据集成是连接数据源与数据处理平台的关键环节。本文深度对比Kafka、Flume、Sqoop三大主流集成工具，从核心架构、技术原理、适用场景到实战案例展开系统性分析。通过数学模型量化性能差异，结合实际项目经验总结选型策略，帮助开发者根据业
飞算科技：以创新科技引领数字化变革，旗下飞算 JavaAI 成开发利器飞算JavaAI开发助手科技
作为国家级高新技术企业，飞算科技专注于自主创新，在数字科技领域持续深耕，用前沿技术为各行业客户赋能，助力其实现数字化转型升级的飞跃。飞算科技凭借深厚的技术积累，将互联网科技、大数据、人工智能等技术与实际应用紧密融合。公司组建了一支由行业资深专家和技术精英构成的团队，他们在相关领域积累了多年实践经验，深刻理解不同行业客户在数字化进程中面临的痛点与挑战。基于这些洞察，飞算科技推出了一系列具有创新性和实
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用青云交大数据新视界 Java 大视界 java 大数据机器学习情绪分析智能投资多源数据
Java大视界--Java大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用）引言：正文：一、金融情绪数据的立体化采集与治理1.1多模态数据采集架构1.2数据治理与特征工程二、Java机器学习模型的工程化实践2.1情感分析模型的深度优化2.2强化学习驱动的动态投资策略三、顶级机构实战：Java系统的金融炼金术四、技术前沿：Java与金融科技的未来融合4.1量子机器学习集成4.2联邦学习在合
Java 大视界 -- Java 大数据在影视内容推荐与用户兴趣挖掘中的深度实践（183）青云交大数据新视界 Java 大视界 Java+Python 双剑合璧：AI 大数据实战通关秘籍大数据影视内容推荐用户兴趣挖掘协同过滤基于内容推荐数据可视化个性化推荐系统
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！全网（微信公众号/CSDN/抖音/华为/支付宝/微博）：青云交一、欢迎加入【福利社群】点击快速加入1：青云交技术圈福利社群（NEW)点击快速加入2：2025CS
Java 大视界 -- 基于 Java 的大数据分布式文件系统在科研数据存储与共享中的应用优化（187）青云交大数据新视界 Java 大视界 Java+Python 双剑合璧：AI 大数据实战通关秘籍大数据大数据分布式文件系统科研数据存储科研数据共享应用优化 HDFS 数据分区
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！全网（微信公众号/CSDN/抖音/华为/支付宝/微博）：青云交一、欢迎加入【福利社群】点击快速加入1：青云交技术圈福利社群（NEW)点击快速加入2：CSDN博客
Python医疗大数据实战：基于Scrapy-Redis的医院评价数据分布式爬虫设计与实现 Python爬虫项目 python 开发语言爬虫 selenium scrapy
摘要本文将详细介绍如何使用Python构建一个高效的医院评价数据爬虫系统。我们将从爬虫基础讲起，逐步深入到分布式爬虫架构设计，使用Scrapy框架结合Redis实现分布式爬取，并采用最新的反反爬技术确保数据采集的稳定性。文章包含完整的代码实现、性能优化方案以及数据处理方法，帮助读者掌握医疗大数据采集的核心技术。关键词：Python爬虫、Scrapy-Redis、分布式爬虫、医疗大数据、反反爬技术1
flink-sql读写hive-1.13 第一片心意 flink flink sql hive
1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样也是一个数据管理平台，可用于发现，定义，和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog，用户可通
觉察与正念佳佳的宝瓶子
今天因为交电费的事与妈妈沟通。在沟通的过程中，年届八十的母亲一直给我强调着过去怎么怎么。父母家的电费一直是银行代扣的，这样的模式自从可以通过银行代扣便开始了。可见那时候的父母还是蛮新潮的，能接受新事物的。至从有了智能手机，人类便进入了大数据时代。通过微信或支付宝来交电费方便得多。可惜父亲不在了，老母亲是连手机都坚决不用的人。（因为想要掩饰自己的不能、不敢，所以干脆拒绝！不愿意做任何的改变）。今年，
Java大视界：Java大数据在智能医疗电子健康档案数据挖掘与健康服务创新＞ Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
>本文通过完整代码示例，揭秘如何用Java大数据技术挖掘电子健康档案价值，实现疾病预测、个性化健康管理等创新服务。###一、智能医疗时代的数据金矿电子健康档案（EHR）作为医疗数字化的核心载体，包含海量患者全生命周期健康数据。据统计，全球医疗数据量正以每年**48%的速度增长**，单个三甲医院年数据量可达**PB级**。这些数据蕴藏着疾病规律、治疗效能的宝贵知识，但传统技术难以有效挖掘。**Jav
无人值守人工智能智慧系统数据分析：深度洞察与未来展望呆码科技人工智能数据分析数据挖掘
无人值守人工智能智慧系统数据分析：深度洞察与未来展望随着科技的飞速发展，人工智能（AI）技术已逐渐渗透到社会经济的各个领域，其中无人值守人工智能智慧系统作为AI技术应用的前沿阵地，正引领着一场深刻的行业变革。这类系统通过集成高级算法、大数据分析、物联网（IoT）及云计算等先进技术，实现了对复杂环境的自主监控、智能决策与高效管理，极大地提升了运营效率，降低了人力成本，并开启了数据驱动决策的新纪元。本
浮漂式水质监测设备：智能守护水环境的未来之眼柏峰电子人工智能
浮漂式水质监测设备：智能守护水环境的未来之眼柏峰【BF-FBSZ】随着全球水资源短缺和水污染问题日益严峻，水质监测技术正迎来前所未有的发展机遇。作为这一领域的创新突破，浮漂式水质监测设备凭借其实时性、智能化和网络化优势，正在重塑水资源管理的新格局。本文将深入探讨这一技术的原理、特点、应用场景及未来发展趋势。一、技术原理与系统架构浮漂式水质监测设备是一种集成了现代传感器技术、物联网和大数据分析的智能
基于蜣螂算法优化多头注意力机制的卷积神经网络结合双向长短记忆神经网络实现温度预测DBO-CNN-biLSTM-Multihead-Attention附matlab代码 matlab科研助手神经网络算法 cnn
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍温度预测在气象学、农业、能源等领域具有重要的应用价值。随着大数据和人工智能技术的快速发
基于Socket来构建无界数据流并通过Flink框架进行处理每天五分钟玩转人工智能 Flink技术实战 flink 大数据 Flink 分布式无界数据
本文重点随着大数据技术的不断发展，实时数据流处理已成为企业应对海量数据、实现快速决策的关键技术。ApacheFlink是一个开源的流处理框架，它能够对无界数据流进行高效的、精确的处理。本文将介绍如何通过Socket构建无界数据流，并利用Flink框架进行无界流处理。基于Socket构建无界数据无界数据指的是源源不断产生的数据，这些数据通常来自各种实时数据源，如用户行为日志、传感器数据等。Socke
sgg大数据全套技术链接[plus] 原来是大华啊~ 资源大数据
写在开头：感谢尚硅谷，尚硅谷万岁，我爱尚硅谷111个技术栈+43个项目，兄弟们，冲！最近小米又又又火了一把，致敬所有造福人民的企业和伟大的企业家，致敬雷军，小米，致敬马云，致敬尚硅谷，致敬所有为人民谋福的英雄人物和企业，再次献上我诚挚的敬意，致敬！尚硅谷大数据全套111个技术1.Java从入门到精通JDK版链接：https://pan.baidu.com/s/1GAc610SYSMmZBuOX4D
疫情下，我的健康码首次变成了黄码唯我一心
3月中旬，老公在广州白云区接了一单生意，要很久才回来，就在那里租了一间房，带我和孩子一起住。房子在七楼，步梯，因孩子小，自己就很少下楼，都是他买菜回来，4月8号，订单完成，返程回了佛山。过了两天突然接到短信通知，白云区要大规模核酸筛查，又过一天收到短信:通过大数据分析，您近期行程涉及疫情防控重点区域，您的健康码将被赋予2次黄码并需开展2次核酸检测，请注意健康码状态，尽快凭码到附近黄码核酸检测点进行
到底应该怎么抓语文成绩山东董纯
上学期期末考试，全区统一采用网上阅卷的形式。在这个大数据时代，在这个极为透明的数据时代，一旦采用这样网络统一阅卷的形式。那丑媳妇就要真的见公婆了。再这样一个要生源没生源。要学习积极性没有学习积极性的氛围里。想取得好的成绩是真的难上加难。尽管已经预料到跟其他兄弟学校有一定的差距。但是没有想到差距如此之大。领导们坐不住了，反复约谈备课组长。理由是其他科目差距不大，甚至有优势。为什么语文学科会有如此大的
告别内存焦虑！用Dask打开Python大数据并行计算的“任意门“ 小张在编程 python 大数据开发语言
引言当你在Jupyter里用Pandas读取20GB的CSV文件，看到内存占用率从10%飙升到90%，最后弹出"MemoryError"时；当你想对亿级数据做分组聚合，却发现单线程计算要等上半小时——这些场景是不是像极了用小推车搬运万吨货物？Python生态中，Dask库就像一台"并行计算推土机"，能把大数据拆分成小块并行处理，让你的普通电脑也能拥有分布式计算的能力。本文将从原理到实战，带你掌握这
python大数据论文_大数据环境下基于python的网络爬虫技术 weixin_39775976 python大数据论文
软件开发大数据环境下基于python的网络爬虫技术作者/谢克武，重庆工商大学派斯学院软件工程学院摘要：随着互联网的发展壮大，网络数据呈爆炸式增长，传统捜索引擎已经不能满足人们对所需求数据的获取的需求，作为搜索引擎的抓取数据的重要组成部分，网络爬虫的作用十分重要，本文首先介绍了在大数据环境下网络爬虫的重要性，接着介绍了网络爬虫的概念，工作原理，工作流程，网页爬行策略，python在编写爬虫领域的优势
Redis性能测试：工具、参数与实战示例 Seal^_^ 数据库专栏 #数据库--Redis redis 数据库 Redis性能测试
Redis性能测试：工具、参数与实战示例1.Redis性能测试概述2.redis-benchmark基础使用2.1基本语法2.2简单示例3.性能测试参数详解4.实战测试示例4.1基础测试4.2指定命令测试4.3带随机key的测试4.4大数据测试4.5管道测试5.性能测试流程图6.测试结果分析与优化建议6.1结果解读6.2优化建议7.高级测试场景7.1持久化影响测试7.2集群测试7.3长时间稳定性测
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi

搭建学习大数据，需要的虚拟机Linux集群环境

一、搞3台做实验的虚拟机

1、 搭建Linux虚拟机环境

2、 给Linux安装epel-release

3、关闭防火墙

4、为非root用户开启加sudo执行root命令的权限

5、卸载虚拟机自带JDK

6、重启虚拟机后克隆虚拟机

7、给克隆后的虚拟机配置ip和主机名

二、开发环境

1、给虚拟机安装JDK

三、集群分发（此章节主要介绍方便集群管理的常用工具）

1、脚本分发

1. scp(secure copy) 安全拷贝

2、 rsync远程同步工具

3、 集群分发脚本

2、 ssh免密登录（解决分发脚本每次都需要输入密码问题）

四、集群配置

1、 配置文件

2、 群起集群（刚刚都配置完了，现在该启动了）

3、 配置历史服务器

4、配置日志聚集

五、集群常用操作总结

1、整体启动和停止

2、 Hadoop集群常用脚本

1、hadoop集群启停脚本（包含 HDFS，Yarn，Historyserver）

2、 查看三台服务器 Java 进程脚本：jpsall

3、常用端口号和配置文件说明

4、集群时间同步（了解即可，不需要跟着配置）

六、常见错误以及解决办法

你可能感兴趣的:(大数据)

1、搭建Linux虚拟机环境

2、给Linux安装epel-release

3、集群分发脚本

1、配置文件

2、群起集群（刚刚都配置完了，现在该启动了）

3、配置历史服务器

2、查看三台服务器 Java 进程脚本：jpsall