姓余的

Hadoop学习笔记——入门教程（虚拟机安装Linux&Hadoop环境搭建配置）

文章目录

一、Hadoop安装配置文档及注意事项
二、Hadoop概述
- 2.1、Hadoop是什么
- 2.2、Hadoop的发展历史
- 2.3、Hadoop三大发行版本
- - 2.3.1 Apache Hadoop
  - 2.3.2 Cloudera Hadoop
  - 2.3.3 Hortonworks Hadoop
- 2.4、Hadoop优势
- 2.5、Hadoop组成
- - 2.5.1 HDFS架构概述
  - 2.5.2 YARN架构概述
  - 2.5.3 MapReduce架构概述
  - 2.5.4 HDFS、YARN、MapReduce三者关系
- 2.6、大数据技术生态体系
- 2.7、推线系统框架图
三、搭建环境（虚拟机需做前三配置）
- 3.1、虚拟机环境准备
- 3.2、克隆虚拟机
- 3.3、修改主机名
- 3.4、在hadoop102中安装JDK
- - 3.4.1 卸载现有JDK
  - 3.4.2 用XShell传入jdk压缩包
- 3.5、安装Hadoop
- 3.6、Hadoop目录结构
- - 3.6.1 查看hadoop结构
  - 3.6.2 重要目录
四、Hadoop运行模式
- 4.1、本地运行模式（官方WordCount）
- 4.2、完全分布式运行模式（开发重点）
- - 4.2.1 虚拟机准备
  - 4.2.2 编写集群分发脚本xsync
  - - 4.2.2.1 scp（secure copy）安全拷贝
    - 4.2.2.2 rsync远程同步工具
    - 4.2.2.3 xsync 集群分发脚本
  - 4.2.3 SSH免密登录配置
  - 4.2.4 集群配置
  - - 4.2.4.1 进群部署规划
    - 4.2.4.2 配置文件说明
    - 4.2.4.3 配置集群
    - 4.2.4.4 分发配置好的Hadoop配置文件
    - 4.2.4.5 在103、104上查看分发情况
  - 4.2.5 群起集群
  - - 4.2.5.1 配置workers
    - 4.2.5.2 启动集群
    - 4.2.5.3 集群基本测试
  - 4.2.6 配置历史服务器
  - 4.2.7 配置日志的聚集
  - 4.2.8 集群启动、停止方式总结
  - 4.2.9 编写Hadoop集群常用脚本
  - 4.2.10 常用端口号说明
  - 4.2.11 集群时间同步
  - - 4.2.11.1 需求
    - 4.2.11.2 时间服务器配置（必须root用户）
    - 4.2.11.3 其他机器配置（必须root用户）
五、常见错误及解决方案

一、Hadoop安装配置文档及注意事项

hadoop集群安装配置（精简）
hadoop集群安装配置（详细）
尚硅谷Hadoop教学
前两个链接是文本教程都可以用，一个精简一些也可以配置好，但是如果出了什么小问题有时候不好找，看个人所需，前一个所用的时间比较少。视频是尚硅谷hadoop教程，其中有安装与配置教程。
如果途中遇见问题，建议别尝试解决，直接照着视频来配置
本文后面也会有配置教程但是因本人使用的是OpenStack并不是本地虚拟机，但是还是将虚拟机搭建Hadoop方法写上（只是虚拟机需要前置配置）
说一下安装过程中可能遇到的问题以及解决办法：

两篇文章的hadoop版本不一样，第一篇是hadoop2，第二个是hadoop3；所以在配置环境变量时，前者全局变量文件路径为 /root/.bash_profile ，后者为：/etc/profile，本文是基于hadoop3的环境编写
在每次修改完环境变量之后必须使用 source 环境变量PATH 命令来加载环境变量文件
建议使用jdk8版本，避免后续报版本不兼容错误
建议把要操作的文件权限修改为全权限，避免报permission denied错误
Cannot execute /usr/bin/hadoop/libexec/hdfs-config.sh 如果有全局变量就修改全局变量或者直接删除，然后再检查文件内配的环境变量是否有问题
配置好免密登录之后出现登陆失败问题：建议直接把免密登录的文件删除重新来过一次
按照尚硅谷视频配置完成之后后面有一个群体分发脚本文件xsync如果运行报rsync 未找到命令，在所有的主机上使用命令yun -y install rsync命令下载rsync

二、Hadoop概述

2.1、Hadoop是什么

Hadoop是一个由Apache基金会所开发的分布式系统基础结构。
主要解决，海量数据的存储和海量数据的分析计算的问题。
广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态园

2.2、Hadoop的发展历史

如果对一些历史时间比较感兴趣，可以访问腾讯云开发社区的文章“Hadoop的发家简史”链接：Hadoop的发家简史

2.3、Hadoop三大发行版本

Hadoop三大发行版本：Apache、Cloudera、Hortonworks。

Apache版本最原始（最基础）的版本，对于入门学习最好。（2006年）
Cloudera内部集成了很多大数据框架，对应产品CDH。（2008年）
Hortonworks文档较好，对应产品HDP。（2011年）
- Hortonworks现在已经被Cloudera公司收购，推出新的品牌CDP。

2.3.1 Apache Hadoop

官网地址
下载地址

2.3.2 Cloudera Hadoop

官网地址
下载地址

2008年成立的Cloudera是最早将Hadoop商用的公司，为合作伙伴提供Hadoop的商用解决方案，主要是包括支持、咨询服务、培训。
2009年Hadoop的创始人Doug Cutting也加盟Cloudera公司。Cloudera产品主要为CDH，Cloudera Manager，Cloudera Support
CDH是Cloudera的Hadoop发行版，完全开源，比Apache Hadoop在兼容性，安全性，稳定性上有所增强。Cloudera的标价为每年每个节点10000美元。
Cloudera Manager是集群的软件分发及管理监控平台，可以在几个小时内部署好一个Hadoop集群，并对集群的节点及服务进行实时监控。

2.3.3 Hortonworks Hadoop

官网地址
下载地址

2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。
公司成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师，上述工程师均在2005年开始协助雅虎开发Hadoop，贡献了Hadoop80%的代码。
Hortonworks的主打产品是Hortonworks Data Platform（HDP），也同样是100%开源的产品，HDP除常见的项目外还包括了Ambari，一款开源的安装和管理系统。
2018年Hortonworks目前已经被Cloudera公司收购。

2.4、Hadoop优势

高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。
高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。
高效性：在Map Reduce的思想下，Hadoop是并行工作的，以加快任务处理速度。
高容错性：能够自动将失败的任务重新分配。

2.5、Hadoop组成

在Hadoop1.x时代，Hadoop中的Map Reduce同时处理业务逻辑运算和资源的调度，耦合性较大。在Hadoop2.x时代，增加了Yarn。Yarn只负责资源的调度，Map Reduce只负责运算。Hadoop3.x在组成上没有变化。
如果对理论感兴趣，可以点击尚硅谷Hadoop教学

2.5.1 HDFS架构概述

Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。

NameNode（nn）：存储文件的元数据，如文件名、文件目录结构、文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块列表所在的DataNode等。
DataNode（dn）：在本地文件系统存储文件块数据，以及块数据的校验和。
Seconday NameNode（2nn）：每隔一段时间对NameNode元数据备份

2.5.2 YARN架构概述

Yet Another Resource Negotiator 简称YARN，另一种资源协调者，是Hadoop的资源管理器。

ResourceManager（RM）：整个集群资源（内存、CPU等）的老大
NodeManager（NM）：单个节点服务器资源老大
ApplicationMaster（AM）：单个任务运行的老大
Container：容器，相当于一台独立的服务器，里面封装了任务运行所需要的资源，如内存、CPU、磁盘、网络等。

备注：

客户端可以有多个
集群上可以运行多个ApplicationMaster
每个NodeManager上可以有多个Container

2.5.3 MapReduce架构概述

MapReduce将计算过程发呢为：Map和Reduce

Map阶段并行处理输入结果
Reduce阶段对Map结果进行汇总

2.5.4 HDFS、YARN、MapReduce三者关系

2.6、大数据技术生态体系

图中涉及的技术名词解释如下：

Sqoop：Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库（MySQL）间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。
Flume：Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；
Kafka：Kafka是一种高吞吐量的分布式发布订阅消息系统；
Spark：Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。
Flink：Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。
Oozie：Oozie是一个管理Hadoop作业（job）的工作流程调度管理系统。
HBase：HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。
Hive：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。
ZooKeeper：它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。

2.7、推线系统框架图

三、搭建环境（虚拟机需做前三配置）

3.1、虚拟机环境准备

安装虚拟机，IP地址设置为192.168.10.100、主机名称hadoop100、内存4G、硬盘50G
hadoop100虚拟机配置要求如下（本文Linux系统全部以CentOS7为例）
- 使用yum安装需要虚拟机可以正常上网，yum安装前可以先测试一下虚拟机联网情况
  使用ping命令测试当前虚拟机有无网络，若遇到没有网络等问题，VM安装配置以及安装Linux
  该链接可以指导你安装
- 安装epel-release
  - 注：Extra Packages for Enterprise Linux是为“红帽系”的操作系统提供额外的软件包，适用于RHEL、CentOS和Scientific Linux。相当于是一个软件仓库，大多数rpm包在官方 repository 中是找不到的），使用下面的命令来下载包：
  - yum install -y epel-release
- net-tool：工具包集合，包含ifconfig等命令
  - yum install -y net-tooles
- vim：编辑器
  - yum install -y vim

3.2、克隆虚拟机

利用模板（Hadoop100）克隆两台虚拟机注意：克隆时要关闭Hadoop100
修改克隆机IP，因环境问题，以下用Hadoop101举例说明：
修改静态IP

vim /etc/sysconfig/network-scripts/ifcfg-ens33

将文件内容改成（你也可以自己该，这里改了后面配置的时候一起改也一样）：

DEVICE=ens33
TYPE=Ethernet
ONBOOT=yes
BOOTPROTO=static
NAME="ens33"
IPADDR=192.168.10.102
PREFIX=24
GATEWAY=192.168.10.2
DNS1=192.168.10.2

查看Linux虚拟网络，在VM的界面中依次点击 编辑->虚拟网络编辑器->VMnet8

查看Windows系统适配器VMware Network Adapter VMnet8的IP地址（在网络适配器里）

保证Linux系统ifcfg-ens33文件中IP地址、虚拟网络编辑器地址和Windows系统VM8网络IP地址相同。

3.3、修改主机名

以下修改用Hadoop101举例

vim /etc/hostname

输入上例命令，然后将内容修改为 hadoop101（可以根据自己想要的取，在专业角度上建议不要定义无意义名字）
配置Linux主机名映射文件，打开/etc/hosts

vim /etc/hosts

添加如下内容：

192.168.10.100 hadoop100
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
192.168.10.105 hadoop105
192.168.10.106 hadoop106
192.168.10.107 hadoop107
192.168.10.108 hadoop108

这些内容可以不用添加那么多，用多少添加多少就行。如果IP和主机名不一致记得更改
然后使用命令：

reboot

来重启虚拟机。
本地虚拟机还要修改host文件，路径如下：

C:\Windows\System32\drivers\etc

打开之后添加如下内容：

192.168.10.100 hadoop100
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
192.168.10.105 hadoop105
192.168.10.106 hadoop106
192.168.10.107 hadoop107
192.168.10.108 hadoop108

这里的内容要和你上面在Linux中host文件添加的内容一致。
之后的内容都是一致的了

3.4、在hadoop102中安装JDK

3.4.1 卸载现有JDK

注意：安装JDK前，一顶顶确保提前删除了虚拟机或服务器上自带的JDK。

3.4.2 用XShell传入jdk压缩包

其中上传的Linux路径根据自己需求来控制。
首先进入jdk所在的目录：

cd /opt/sotware

在使用命令去解压到另一个文件夹

tar -zxvf jdk-8u212-linux-x64.tar.gz -C /usr/local/src/

该解压路径可以自己改写。
随后配置JDK环境变量：
我在学习的时候看见两种方法，下面只说我尝试的：
已尝试：
使用命令修改环境变量配置文件：
路径是你环境变量的路径，在文章开头有提到

vim /etc/profile

在文件里面添加两行内容：

#JAVA_HOME
export JAVA_HOME=/usr/local/src/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin

在Linux中修改了环境变量文件之后
一定要使用source来更改环境变量
一定要使用source来更改环境变量
一定要使用source来更改环境变量
重要的事情说三遍！命令如下：

source /etc/profile

然后在命令行输入以下命令来检测Java是否安装：

java -version

若返回版本号那jdk就安装完成了。

3.5、安装Hadoop

Hadoop下载地址
利用XShell文件传输工具将hadoop-3.1.3.tar.gz导入到Linux中，文件目录自适应

使用命令进入传入Hadoop的目录

cd /opt/sofftware

然后使用命令解压文件

tar -zxvf hadoop-3.1.3.tar.gz -C /usr/local/src

vim /etc/profile

在将hadoop添加到环境变量

#HADOOP_HOME
export HADOOP_HOME=/usr/local/src/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

记得source一下环境变量文件。
使用以下命令来检测hadoop是否安装成功

hadoop  -version

若返回版本号那么就是安装成功

3.6、Hadoop目录结构

3.6.1 查看hadoop结构

[root@hadoop102 hadoop-3.1.3]$ ll
总用量 52
drwxr-xr-x. 2 root root 4096 5月  22 2017 bin
drwxr-xr-x. 3 root root 4096 5月  22 2017 etc
drwxr-xr-x. 2 root root 4096 5月  22 2017 include
drwxr-xr-x. 3 root root 4096 5月  22 2017 lib
drwxr-xr-x. 2 root root 4096 5月  22 2017 libexec
-rw-r--r--. 1 root root 15429 5月  22 2017 LICENSE.txt
-rw-r--r--. 1 root root 101 5月  22 2017 NOTICE.txt
-rw-r--r--. 1 root root 1366 5月  22 2017 README.txt
drwxr-xr-x. 2 root root 4096 5月  22 2017 sbin
drwxr-xr-x. 4 root root 4096 5月  22 2017 share

3.6.2 重要目录

（1）bin目录：存放对Hadoop相关服务（hdfs，yarn，mapred）进行操作的脚本
（2）etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件
（3）lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）
（4）sbin目录：存放启动或停止Hadoop相关服务的脚本
（5）share目录：存放Hadoop的依赖jar包、文档、和官方案例

四、Hadoop运行模式

Hadoop官方网站
Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式
- 本地模式：单机运行，只是用来演示一下官方案例。生产环境不用。
- 伪分布式模式：也是单机运行，但是具备Hadoop集群的所有功能，一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试，生成环境不用
- 完全分布式模式：多台服务器组成分布式环境。生产环境使用。

4.1、本地运行模式（官方WordCount）

在hadoop-3.1.3文件夹下面创建一个wcinput文件夹

mkdir wcinput

在wcinput文件夹下创建一个word.txt

cd wcinput

编辑word.txt文件

vim word.txt

在文件中输入如下内容：

hadoop yarn
hadoop mapreduce
sherry
sherry

保存退出 :wq

回到目录：hadoop3.1.3
执行程序

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput

因原来的集群所有任务全配置在master，不知道为什么master直接崩溃，所以推到重来，使用vm虚拟机创建hadoop102、hadoop103、hadoop104，从这里开始均使用尚硅谷教程开始
会看见一长串执行，在下面就能看见Map Reduce

执行完成之后输出的文件夹为wcoutput，进入文件夹，并输入命令查看执行结果

cd wcoutput

cat part-r-00000

4.2、完全分布式运行模式（开发重点）

准备3太客户机（关闭防火墙、静态IP、主机名称）
安装 JDK
配置环境变量
安装Hadoop
配置环境变量
配置集群
单点启动
配置ssh
群起并测试集群

4.2.1 虚拟机准备

详见3.1、3.2、3.3节。

4.2.2 编写集群分发脚本xsync

4.2.2.1 scp（secure copy）安全拷贝

scp定义
scp可以实现服务器与服务器之间的数据拷贝。（from server1 to server2）
基本语法

scp   -r        $pdir/$fname              $user@$host:$pdir/$fname

命令递归要拷贝的文件路径/名称目的地用户@主机:目的地路径/名称
上面这一行是对命令的解释
（3）案例实操
前提：在hadoop102、hadoop103、hadoop104都已经创建好的/opt/module、/opt/software两个目录，并且已经把这两个目录修改为sherry:sherry（这个是你的主机名）

sudo chown sherry:sherry -R /opt/module

（a）在hadoop102上，将hadoop102中/opt/module/jdk1.8.0_212目录拷贝到hadoop103上。

scp -r /opt/module/jdk1.8.0_212  sherry@hadoop103:/opt/module

（b）在hadoop103上，将hadoop102中/opt/module/hadoop-3.1.3目录拷贝到hadoop103上。

scp -r sherry@hadoop102:/opt/module/hadoop-3.1.3 /opt/module/

（c）在hadoop103上操作，将hadoop102中/opt/module目录下所有目录拷贝到hadoop104上。

scp -r sherry@hadoop102:/opt/module/* sherry@hadoop104:/opt/module

4.2.2.2 rsync远程同步工具

rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。

基本语法

rsync    -av       $pdir/$fname             $user@$host:$pdir/$fname

命令选项参数要拷贝的文件路径/名称目的地用户@主机:目的地路径/名称
上面这一行是对命令的解释

选项	功能
-a	归档拷贝
-v	显示复制过程

案例实操

删除hadoop103中/opt/module/hadoop-3.1.3/wcinput

rm -rf wcinput/

同步hadoop102中的/opt/module/hadoop-3.1.3到hadoop103

rsync -av hadoop-3.1.3/ sherry@hadoop103:/opt/module/hadoop-3.1.3/

4.2.2.3 xsync 集群分发脚本

需求：循环复制文件到所有节点的相同目录下
需求分析：
（a）rsync命令原始拷贝：

rsync  -av     /opt/module  		 atguigu@hadoop103:/opt/

（b）期望脚本：
xsync要同步的文件名称
（c）期望脚本在任何路径都能使用（脚本放在声明了全局环境变量的路径）

echo $PATH

结果

/usr/local/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/home/sherry/.local/bin:/home/sherry/bin:/opt/module/jdk1.8.0_212/bin:/opt/module/jdk1.8.0_212/bin:/opt/module/hadoop-3.1.3/bin:/opt/module/hadoop-3.1.3/sbin

脚本实现
（a）在/home/atguigu/bin目录下创建xsync文件

cd /home/sherry
mkdir bin
cd bin
vim xsync

在文件中编写如下代码：

#!/bin/bash

#1. 判断参数个数
if [ $# -lt 1 ]
then
    echo Not Enough Arguement!
    exit;
fi

#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
    echo ====================  $host  ====================
    #3. 遍历所有目录，挨个发送

    for file in $@
    do
        #4. 判断文件是否存在
        if [ -e $file ]
            then
                #5. 获取父目录
                pdir=$(cd -P $(dirname $file); pwd)

                #6. 获取当前文件的名称
                fname=$(basename $file)
                ssh $host "mkdir -p $pdir"
                rsync -av $pdir/$fname $host:$pdir
            else
                echo $file does not exists!
        fi
    done
done

（b）修改脚本 xsync 具有执行权限

chmod +x xsync

（c）测试脚本

xsync /home/atguigu/bin

（d）将脚本复制到/bin中，以便全局调用

sudo cp xsync /bin/

（e）同步环境变量配置（root所有者）

sudo ./bin/xsync /etc/profile.d/my_env.sh

注意：如果用了sudo，那么xsync一定要给它的路径补全。
让环境变量生效

source /etc/profile

4.2.3 SSH免密登录配置

配置ssh

（1）基本语法
ssh另一台电脑的IP地址
（2）ssh连接时出现Host key verification failed的解决方法

ssh hadoop103

如果出现如下内容：
Are you sure you want to continue connecting (yes/no)?
输入yes，并回车

（3）退回到hadoop102

exit

无密钥配置

（1）免密登录原理

（2）生成公钥和私钥

pwd
/home/sherry/.ssh

ssh-keygen -t rsa

注意：
还需要在hadoop103上采用sherry账号配置一下无密登录到hadoop102、hadoop103、hadoop104服务器上。
还需要在hadoop104上采用sherry账号配置一下无密登录到hadoop102、hadoop103、hadoop104服务器上。
还需要在hadoop102上采用root账号，配置一下无密登录到hadoop102、hadoop103、hadoop104；

.ssh文件下（~/.ssh）的文件功能解释

known_hosts	记录ssh访问过计算机公钥（public key）
id_rsa	生成的私钥
id_rsa.pub	生成的公钥
authorized_keys	存放受全国的无密登录服务器公钥

4.2.4 集群配置

4.2.4.1 进群部署规划

注意：
> NameNode 和 SecondaryNameNode不要安装在同一服务器
> ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上

	hadoop102	hadoop103	hadoop104
HDFS	NameNode DataNode	DataNode	SecondaryNameNode DataNode
YARN	NodeManager	ResourceManager NodeManager	NodeManager

4.2.4.2 配置文件说明

Hadoop配置文件分两类：默认配置文件和自定义配置文件，只有用户向修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值。

默认配置文件：

要获取的默认文件	文件存放在Hadoop的jar包中的位置
[core-default.xml]	hadoop-common-3.1.3.jar/core-default.xml
[hdfs-default.xml]	hadoop-hdfs-3.1.3.jar/hdfs-default.xml
[yarn-default.xml]	hadoop-yarn-common-3.1.3.jar/yarn-default.xml
[mapred-default.xml]	hadoop-mapreduce-client-core-3.1.3.jar/mapred-default.xml

自定义配置文件：
core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四个配置文件都存放在：$HADOOP_HOME/etc/hadoop这个路径上，用户可以根据项目需求重新进行修改配置。

4.2.4.3 配置集群

核心配置文件
配置core-site.xml

cd $HADOOP_HOME/etc/hadoop

vim core-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
    <!-- 指定NameNode的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop102:8020</value>
    </property>

    <!-- 指定hadoop数据的存储目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-3.1.3/data</value>
    </property>

    <!-- 配置HDFS网页登录使用的静态用户为atguigu -->
    <property>
        <name>hadoop.http.staticuser.user</name>
        <value>atguigu</value>
    </property>
</configuration>

HDFS配置文件
配置hdfs-site.xml

vim hdfs-site.xml

文件内容如下;

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
	<!-- nn web端访问地址-->
	<property>
        <name>dfs.namenode.http-address</name>
        <value>hadoop102:9870</value>
    </property>
	<!-- 2nn web端访问地址-->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop104:9868</value>
    </property>
</configuration>

YARN配置文件

vim yarn-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
    <!-- 指定MR走shuffle -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

    <!-- 指定ResourceManager的地址-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop103</value>
    </property>

    <!-- 环境变量的继承 -->
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

MapReduce配置文件
配置mapred-site.xml

vim mapred-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
	<!-- 指定MapReduce程序运行在Yarn上 -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

4.2.4.4 分发配置好的Hadoop配置文件

xsync /opt/module/hadoop-3.1.3/etc/hadoop/

4.2.4.5 在103、104上查看分发情况

分别在hadoop103、104上输入

cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml

4.2.5 群起集群

4.2.5.1 配置workers

vim /opt/module/hadoop-3.1.3/etc/hadoop/workers

在文件中增加如下内容：

hadoop102
hadoop103
hadoop104

注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行
同步所有节点的配置文件

xsync /opt/module/hadoop-3.1.3/etc

4.2.5.2 启动集群

如果是第一次启动，需要在hadoop102节点格式化NameNode（注意：格式化NameNode，会产生新的id，导致NameNode和DataNode的集群id不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化NameNode的话，需要先停止namenode和datanode进程，并且和删除所有机器的data和logs目录，然后再进行格式化）

hdfs namenode -format

启动HDFS

start-dfs.sh

再配置了ResourceManager的节点（hadoop103）启动YARN

sbin/start-yarn.sh

Web端查看HDFS的NameNode
（a）浏览器中输入：http://hadoop102:9870
（b）查看HDFS上存储的数据信息
Web端查看YARN的ResourceManager
（a）浏览器中输入：http://hadoop103:8088
（b）查看YARN上运行的Job信息
如果配置好了那么上面的链接是可以点的。

4.2.5.3 集群基本测试

上传文件到集群

上传小文件

hadoop fs -mkdir /input
hadoop fs -put $HADOOP_HOME/wcinput/word.txt /input

上传大文件

hadoop fs -put  /opt/software/jdk-8u212-linux-x64.tar.gz  /

上传文件后查看文件存放在什么位置

查看HDFS文件存储路径

pwd
/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-1436128598-192.168.10.102-1610603650062/current/finalized/subdir0/subdir0

查看HDFS再磁盘存储文件的内容

cat blk_1073741825
hadoop yarn
hadoop mapreduce 
sherry
sherry

拼接

-rw-rw-r--. 1 atguigu atguigu 134217728 5月  23 16:01 blk_1073741836
-rw-rw-r--. 1 atguigu atguigu   1048583 5月  23 16:01 blk_1073741836_1012.meta
-rw-rw-r--. 1 atguigu atguigu  63439959 5月  23 16:01 blk_1073741837
-rw-rw-r--. 1 atguigu atguigu    495635 5月  23 16:01 blk_1073741837_1013.meta

cat blk_1073741836>>tmp.tar.gz
cat blk_1073741837>>tmp.tar.gz
tar -zxvf tmp.tar.gz

下载
在hadoop104下载

hadoop fs -get /jdk-8u212-linux-x64.tar.gz ./

执行wordcount程序

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

4.2.6 配置历史服务器

为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下：

配置mapred-site.xml

vim mapred-site.xml

在文件里面增加如下配置：

<!-- 历史服务器端地址 -->

    mapreduce.jobhistory.address</name>
    hadoop102:10020</value>
</property>

<!-- 历史服务器web端地址 -->

    mapreduce.jobhistory.webapp.address</name>
    hadoop102:19888</value>
</property>

分发配置

xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml

在hadoop102启动历史服务器

mapred --daemon start historyserver

查看历史服务器是否启动

jps

查看JobHistory
http://hadoop102:19888/jobhistory

4.2.7 配置日志的聚集

日子聚集概念应用运行完成之后，将程序运行日志信息上传到HDFS系统上。

日志聚集功能好处：可以方便的查看程序运行详情，方便开发调试。
注意：开启日志聚集功能，需要重新启动NodeManager、ResourceManager和HistoryServer。
开启日志聚集功能具体步骤如下：

配置yarn-site.xml

vim yarn-site.xml

在该文件中添加如下配置：

<!-- 开启日志聚集功能 -->

    yarn.log-aggregation-enable</name>
    true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
  
    yarn.log.server.url</name>  
    http://hadoop102:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为7天 -->

    yarn.log-aggregation.retain-seconds</name>
    604800</value>
</property>

分发配置

xsync $HADOOP_HOME/etc/hadoop/yarn-site.xml

关闭NodeManager、ResourceManager和HistoryServer

sbin/stop-yarn.sh

mapred --daemon stop historyserver

启动NodeManager、ResourceManager和HistoryServer

start-yarn.sh

mapred --daemon start historyserver

删除HDFS上已经存在的输出文件

hadoop fs -rm -r /output

执行WordCount

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

查看日志
（1）历史服务器地址
http://hadoop102:19888/jobhistory
（2）历史任务列表

（3）查看任务运行日志

（4）运行日志详情

4.2.8 集群启动、停止方式总结

各个模块分开启动/停止（配置ssh是前提）常用
（1）整体启动/停止HDFS

start-dfs.sh/stop-dfs.sh

（2）整体启动/停止YARN

start-yarn.sh/stop-yarn.sh

各个服务组件逐一启动/停止
（1）分别启动/停止HDFS组件

hdfs --daemon start/stop namenode/datanode/secondarynamenode

（2）启动/停止YARN

yarn --daemon start/stop  resourcemanager/nodemanager

4.2.9 编写Hadoop集群常用脚本

cd /home/atguigu/bin
vim myhadoop.sh

输入以下内容：

#!/bin/bash

if [ $# -lt 1 ]
then
    echo "No Args Input..."
    exit ;
fi

case $1 in
"start")
        echo " =================== 启动 hadoop集群 ==================="

        echo " --------------- 启动 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
        echo " --------------- 启动 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
        echo " --------------- 启动 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")
        echo " =================== 关闭 hadoop集群 ==================="

        echo " --------------- 关闭 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"
        echo " --------------- 关闭 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
        echo " --------------- 关闭 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
    echo "Input Args Error..."
;;
esac

保存后退出，然后赋予脚本执行权限

chmod +x myhadoop.sh

查看三台服务器Java进程脚本：jpsall

cd /home/atguigu/bin

vim jpsall

输入如下内容：

#!/bin/bash

for host in hadoop102 hadoop103 hadoop104
do
        echo =============== $host ===============
        ssh $host jps 
done

保存后退出，然后赋予脚本执行权限

chmod +x jpsall

分发/home/sherry/bin目录，保证自定义脚本在三台机器上都可以使用

xsync /home/atguigu/bin/

4.2.10 常用端口号说明

端口名称	Hadoop2.x	Hadoop3.x
NameNode内部通信端口	8020 / 9000	8020 / 9000 / 9820
NameNode HTTP UI	50070	9870
MapReduce查看执行任务端口	8088	8088
历史服务器通信端口	19888	19888

4.2.11 集群时间同步

如果服务器在公网环境（能连接外网），可以不采用集群时间同步，因为服务器会定期和公网时间进行校准；
如果服务器在内网环境，必须要配置集群时间同步，否则时间久了，会产生时间偏差，导致集群执行任务时间不同步。

4.2.11.1 需求

找一个机器，作为时间服务器，所有的机器与这台集群时间进行定时的同步，生产环境根据任务对时间的准确程度要求周期同步。测试环境为了尽快看到效果，采用1分钟同步一次。

4.2.11.2 时间服务器配置（必须root用户）

查看所有节点ntpd服务状态和开机自启动状态

sudo systemctl status ntpd
sudo systemctl start ntpd
sudo systemctl is-enabled ntpd

修改hadoop102的ntp.conf配置文件

sudo vim /etc/ntp.conf

修改内容如下：
（a）修改1（授权192.168.10.0-192.168.10.255网段上的所有机器人可以从这台机器上查询和同步时间）
在文件中找到：

#restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap

将前面的#去掉变成：

restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap

（b）修改2（集群在局域网中，不适用其他互联网上的时间）
将下面的全部注释掉：

server 0.centos.pool.ntp.org iburst
server 1.centos.pool.ntp.org iburst
server 2.centos.pool.ntp.org iburst
server 3.centos.pool.ntp.org iburst

变为：

#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst

（c）添加3（当该节点丢失忘了链接，依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步）
3) 修改hadoop102的/etc/sysconfig/htpd文件

sudo vim /etc/sysconfig/ntpd

增加内容如下（让硬件时间与系统时间一起同步）

SYNC_HWCLOCK=yes

重新启动ntpd服务

sudo systemctl start ntpd

设置ntpd服务开机

sudo systemctl enable ntpd

4.2.11.3 其他机器配置（必须root用户）

关闭所有系欸但上ntp服务和自启动

sudo systemctl stop ntpd
sudo systemctl disable ntpd
sudo systemctl stop ntpd
sudo systemctl disable ntpd

在其他机器配置1分钟与时间服务器同步一次

sudo crontab -e

编写定时任务如下：

*/1 * * * * /usr/sbin/ntpdate hadoop102

修改任意机器时间

sudo date -s "2021-9-11 11:11:11"

4)1分钟后查看机器是否与时间服务器同步

sudo date

五、常见错误及解决方案

该章节是尚硅谷给出的在搭建hadoop环境中容易出现的问题以及解决方案。

防火墙没关闭、或者没有启动YARN
INFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:8032
主机名称配置错误
IP地址配置错误
ssh没有配置好
root用户和atguigu两个用户启动集群不统一
配置文件修改不细心
不识别主机名称

java.net.UnknownHostException: hadoop102: hadoop102
        at java.net.InetAddress.getLocalHost(InetAddress.java:1475)
        at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:146)
        at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1290)
        at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1287)
        at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)

解决办法：
（1）在/etc/hosts文件中添加192.168.10.102 hadoop102
（2）主机名称不要起hadoop hadoop000等特殊名称

DataNode和NameNode进程同时只能工作一个。
执行命令不生效，粘贴Word中命令时，遇到-和长–没区分开。导致命令失效
解决办法：尽量不要粘贴Word中代码。
jps发现进程已经没有，但是重新启动集群，提示进程已经开启。
原因是在Linux的根目录下/tmp目录中存在启动的进程临时文件，将集群相关进程删除掉，再重新启动集群。
jps不生效
原因：全局变量hadoop java没有生效。解决办法：需要source /etc/profile文件。
8088端口连接不上

[sherry@hadoop102 桌面]$ cat /etc/hosts

注释掉如下代码

#127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
#::1         hadoop102

你可能感兴趣的:(BigData_Study,linux,大数据,hadoop)

android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
linux sdl windows.h,Windows下的SDL安装奔跑吧linux内核 linux sdl windows.h
首先你要下载并安装SDL开发包。如果装在C盘下，路径为C:\SDL1.2.5如果在WINDOWS下。你可以按以下步骤：1.打开VC++，点击"Tools",Options2,点击directories选项3.选择"Includefiles"增加一个新的路径。"C:\SDL1.2.5\include"4，现在选择"Libaryfiles“增加"C:\SDL1.2.5\lib"现在你可以开始编写你的第
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
【华为OD技术面试真题精选 - 非技术题】 -HR面，综合面_华为od hr面一个射手座的程序媛程序员华为od 面试职场和发展
最后的话最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！资料预览给大家整理的视频资料：给大家整理的电子书资料：如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以点击这里获
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
简介Shell、zsh、bash zhaosuningsn Shell zsh bash shell linux bash
Shell是Linux和Unix的外壳，类似衣服，负责外界与Linux和Unix内核的交互联系。例如接收终端用户及各种应用程序的命令，把接收的命令翻译成内核能理解的语言，传递给内核，并把内核处理接收的命令的结果返回给外界，即Shell是外界和内核沟通的桥梁或大门。Linux和Unix提供了多种Shell，其中有种bash，当然还有其他好多种。Mac电脑中不但有bash，还有一个zsh，预装的，据说
Linux MariaDB使用OpenSSL安装SSL证书 Meta39 MySQL Oracle MariaDB Linux Windows ssl linux mariadb
进入到证书存放目录，批量删除.pem证书警告：确保已经进入到证书存放目录find.-typef-iname\*.pem-delete查看是否安装OpenSSLopensslversion没有则安装yuminstallopensslopenssl-devel开启SSL编辑/etc/my.cnf文件（没有的话就创建，但是要注意，在/etc/my.cnf.d/server.cnf配置了datadir的，
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
【从浅识到熟知Linux】Linux发展史 Jammingpro 从浅学到熟知Linux linux 运维服务器
归属专栏：从浅学到熟知Linux个人主页：Jammingpro每日努力一点点，技术变化看得见文章前言：本篇文章记录Linux发展的历史，因在介绍Linux过程中涉及的其他操作系统及人物，本文对相关内容也有所介绍。文章目录Unix发展史Linux发展史开源Linux官网企业应用情况发行版本在学习Linux前，我们可能都会问Linux从哪里来？它是如何发展的。但在介绍Linux之前，需要先介绍一下Un
linux 发展史种树的猴子内核 java 操作系统 linux 大数据
linux发展史说明此前对linux认识模糊一知半解，近期通过学习将自己对于linux的发展总结一下方便大家日后的学习。那Linux是目前一款非常火热的开源操作系统，可是linux是什么时候出现的，又是因为什么样的原因被开发出来的呢。以下将对linux的发展历程进行详细的讲解。目录一、Linux发展背景二、UINIX的诞生三、UNIX的重要分支-BSD的诞生四、Minix的诞生五、GNU与Free
Linux sh命令 fengyehongWorld Linux linux
目录一.基本语法二.选项2.1-c字符串中读取内容，并执行2.1.1基本用法2.1.2获取当前目录下失效的超链接2.2-x每个命令执行之前，将其打印出来2.3结合Here文档使用一.基本语法⏹Linux和Unix系统中用于执行shell脚本或运行命令的命令。sh[选项][脚本文件][参数...]⏹选项-c：从字符串中读取内容，并执行。-x：在每个命令执行之前，将其打印出来。-s：从标准流中读取内容
Linux vi常用命令 fengyehongWorld Linux linux
参考资料viコマンド（vimコマンド）リファレンス目录一.保存系命令二.删除系命令三.移动系命令四.复制粘贴系命令一.保存系命令⏹保存并退出:wq⏹强制保存并退出:wq!⏹退出(文件未编辑):q⏹强制退出(忽略已编辑内容):q!⏹另存为:w新文件名二.删除系命令⏹删除当前行dd⏹清空整个文档gg：移动到文档顶部dG：删除到最后一行ggdG三.移动系命令⏹移动到文档顶部gg⏹移动到文档底部#方式1G
Linux查看服务器日志 TPBoreas 运维 linux 运维
一、tail这个是我最常用的一种查看方式用法如下：tail-n10test.log查询日志尾部最后10行的日志;tail-n+10test.log查询10行之后的所有日志;tail-fn10test.log循环实时查看最后1000行记录(最常用的)一般还会配合着grep用，(实时抓包)例如:tail-fn1000test.log|grep'关键字'（动态抓包）tail-fn1000test.log
笋丁网页自动回复机器人V3.0.0免授权版源码希希分享软希网58soho_cn 源码资源笋丁网页自动回复机器人
笋丁网页机器人一款可设置自动回复，默认消息，调用自定义api接口的网页机器人。此程序后端语言使用Golang，内存占用最高不超过30MB，1H1G服务器流畅运行。仅支持Linux服务器部署，不支持虚拟主机，请悉知！使用自定义api功能需要有一定的建站基础。源码下载：https://download.csdn.net/download/m0_66047725/89754250更多资源下载：关注我。安
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
Linux CTF逆向入门蚁景网络安全 linux 运维 CTF
1.ELF格式我们先来看看ELF文件头，如果想详细了解，可以查看ELF的manpage文档。关于ELF更详细的说明：e_shoff：节头表的文件偏移量（字节）。如果文件没有节头表，则此成员值为零。sh_offset：表示了该section（节）离开文件头部位置的距离+-------------------+|ELFheader|---++--------->+-------------------
NPM私库搭建-verdaccio（Linux） Beam007 npm linux 前端
1、安装nodelinux服务器安装nodea)、官网下载所需的node版本https://nodejs.org/dist/v14.21.0/b)、解压安装包若下载的是xxx.tar.xz文件，解压命令为tar-xvfxxx.tar.xzc)、修改环境变量修改：/etc/profile文件#SETPATHFORNODEJSexportNODE_HOME=NODEJS解压安装的路径exportPAT
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
C++常见知识掌握 nfgo c++开发语言
1.Linux软件开发、调试与维护内核与系统结构Linux内核是操作系统的核心，负责管理硬件资源，提供系统服务，它是系统软件与硬件之间的桥梁。主要组成部分包括：进程管理：内核通过调度器分配CPU时间给各个进程，实现进程的创建、调度、终止等操作。使用进程描述符（task_struct）来存储进程信息，包括状态（就绪、运行、阻塞等）、优先级、内存映射等。内存管理：包括物理内存和虚拟内存管理。通过页表映
linux脚本sed替换变量,sed 命令中替换值为shell变量诺坎普之约 linux脚本sed替换变量
文章目录sed命令中替换值为shell变量替换基本语法sed中替换使用shell变量总结参考文档sed命令中替换值为shell变量替换基本语法大家都是sed有很多用法，最多就应该是替换一些值了。让我们先回忆sed的替换语法。在sed进行替换的时候sed-i's/old/new/g'1.txtecho"hellooldfrank"|sed's/old/new/g'结果如下：hellonewfrank
RK3229_Android9.0_Box 4G模块EC200A调试 suifen_ 网络
0、kernel修改这部分完全可以参考Linux的移植：RK3588EC200A-CN【4G模块】调试_rkec200a-cn-CSDN博客1、修改device/rockchip/rk322xdiff--gita/device.mkb/device.mkindexec6bfaa..e7c32d1100755---a/device.mk+++b/device.mk@@-105,6+105,8@@en
linux 安装Sublime Text 3 hhyiyuanyu Python学习 linux sublime text
方法/步骤打开官网http://www.sublimetext.com/3，选择64位进行下载执行命令wgethttps://download.sublimetext.com/sublime_text_3_build_3126_x64.tar.bz2进行下载3、下载完成进行解压,执行tar-xvvfsublime_text_3_build_3126_x64.tar.bz解压4、解压完成以后，移动到
KVM虚拟机源代码分析【转】 xidianjiapei001 #虚拟化技术
1.KVM结构及工作原理1.1KVM结构KVM基本结构有两部分组成。一个是KVMDriver，已经成为Linux内核的一个模块。负责虚拟机的创建，虚拟内存的分配，虚拟CPU寄存器的读写以及虚拟CPU的运行等。另外一个是稍微修改过的Qemu，用于模拟PC硬件的用户空间组件，提供I/O设备模型以及访问外设的途径。KVM基本结构如图1所示。其中KVM加入到标准的Linux内核中，被组织成Linux中标准
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h