Try harder100

大数据学习笔记

大数据技术之大数据概论

第 1 章大数据概念

大数据（Big Data）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

按顺序给出数据存储单位：bit、Byte、KB、MB、GB、**TB、PB、EB、**ZB、YB、BB、NB、DB。


1Byte = 8bit 

1K = 1024Byte 

1MB = 1024K 

1G = 1024M 

1T = 1024G 

1P = 1024T

第 2 章大数据特点（4V）

Volume (大量)

人类生产的所有印刷材料的数据量是200PB，而历史上全人类总共说过的话的数据量大约是5EB。当前，典型个人计算机硬盘的容量为TB量级，而一些大企业的数据量已经接近EB量级。

Velocity**（高速）**

天猫双十一：2017年3分01秒，天猫交易额超过100亿

2020年96秒，天猫交易额超过100亿

Variety**（多样）**

这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的

以数据库/文本为主的结构化数据，非结构化数据越来越多，包括网络日志、音频、视频、图

片、地理位置信息。

Value**（低价值密度）**

价值密度的高低与数据总量的大小成反比。我们只想提取在大量数据中的有价值的信息。（”提纯“）

第三章大数据的应用场景

抖音推荐你喜欢的视频
电商站内广告推荐：给用户推荐可能喜欢的商品
零售：分析用户消费习惯，为用户购买商品提供方便，从而提升商品销量。经典案例，纸尿布+啤酒。
物流仓储：京东物流，通过大数据分析各地该存储啥物品。
保险，金融，房产等
人工智能 + 5G + 物联网 + 虚拟与现实

第四章大数据发展前景

国家支持
下一个风口
人才缺，需求大，工资高

第五章大数据部门间业务流程分析

第 6 章大数据部门内组织结构

大数据技术之 Hadoop（入门）

学习路线图

一、概念

1.1、Hadoop是什么

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
主要解决，海量数据的存储和海量数据的分析计算问题。
广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。

1.2、Hadoop的发展历史

Hadoop创始人Doug Cutting
名字来源于Doug Cutting儿子的玩具大象

1.3、Hadoop的三大发行版本（了解）

Hadoop 三大发行版本：Apache、Cloudera、Hortonworks。

Apache 版本最原始（最基础）的版本，对于入门学习最好。2006

Cloudera 内部集成了很多大数据框架，对应产品 CDH。2008

Hortonworks 文档较好，对应产品 HDP。2011

Hortonworks 现在已经被 Cloudera 公司收购，推出新的品牌 CDP。

1.4、Hadoop 优势（4高）

高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。

高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。
高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度

高容错性：能够自动将失败的任务重新分配

1.5 Hadoop*组成（面试重点)

1.5.1 HDFS 架构概述

Hadoop Distributed File System，简称 HDFS，是一个分布式文件系统。

1.5.2 YARN架构概述

Yet Another Resource Negotiator 简称 YARN ，另一种资源协调者，是 Hadoop 的资源管理器。

1.5.3 MapReduce 架构概述

MapReduce 将计算过程分为两个阶段：Map 和 Reduce

Map 阶段并行处理输入数据
Reduce 阶段对 Map 结果进行汇总

1.5.4 HDFS、YARN、MapReduce 三者关系

1.6 大数据技术生态体系

图中涉及的技术名词解释如下：

1）Sqoop：Sqoop 是一款开源的工具，主要用于在 Hadoop、Hive 与传统的数据库（MySQL）

间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进

到 Hadoop 的 HDFS 中，也可以将 HDFS 的数据导进到关系型数据库中。

2）Flume：Flume 是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，

Flume 支持在日志系统中定制各类数据发送方，用于收集数据；

3）Kafka：Kafka 是一种高吞吐量的分布式发布订阅消息系统；

4）Spark：Spark 是当前最流行的开源大数据内存计算框架。可以基于 Hadoop 上存储的大数

据进行计算。

5）Flink：Flink 是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。

6）Oozie：Oozie 是一个管理 Hadoop 作业（job）的工作流程调度管理系统。

7）Hbase：HBase 是一个分布式的、面向列的开源数据库。HBase 不同于一般的关系数据库，

它是一个适合于非结构化数据存储的数据库。

8）Hive：Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张

数据库表，并提供简单的 SQL 查询功能，可以将 SQL 语句转换为 MapReduce 任务进行运

行。其优点是学习成本低，可以通过类 SQL 语句快速实现简单的 MapReduce 统计，不必开

发专门的 MapReduce 应用，十分适合数据仓库的统计分析。

9）ZooKeeper：它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、

名字服务、分布式同步、组服务等。

1.7 推荐系统框架图

二、环境准备

用户信息：

账号：lijunjie 密码123456，登录使用

1.模拟虚拟机准备

安装centos7.5镜像

模拟虚拟机准备

配置Ip和主机名配置

1.配置VM的ip

2.修改NAT设置

3.Windows的iP设置

4.修改Hadoop的IP地址，主机名称

[root@Hadoop100 ~]# vim /etc/sysconfig/network-scripts/ifcfg-ens33
TYPE="Ethernet"
PROXY_METHOD="none"
BROWSER_ONLY="no"
BOOTPROTO="static"                     //把ip地址改为静态ip地址，下次登录时ip不变
DEFROUTE="yes"
IPV4_FAILURE_FATAL="no"
IPV6INIT="yes"
IPV6_AUTOCONF="yes"
IPV6_DEFROUTE="yes"
IPV6_FAILURE_FATAL="no"
IPV6_ADDR_GEN_MODE="stable-privacy"
NAME="ens33"
UUID="60915f68-5ac1-4e5c-bfaf-1ad91c02abcd"
DEVICE="ens33"
ONBOOT="yes"
//下面为新加内容
IPADDR=192.168.10.100               //设置ip地址
GATEWAY=192.168.10.2                //设置网关
DNS1=192.168.10.2                   //设置域名解析器

5.修改主机名称

[root@Hadoop100 ~]# vim /etc/hostname

6.主机名称映射

将192.168.10.105的ip映射为为hadoop100,凡是出现192.168.10.105，。用hadoop100代替。
当因升级改变ip时，可以不用大量修改。

[root@Hadoop100 ~]# vim /etc/hosts
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

192.168.10.100 hadoop100         //一下都是添加的
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
192.168.10.105 hadoop105
192.168.10.106 hadoop106
192.168.10.107 hadoop107
192.168.10.108 hadoop108

7.然后重启reboot

查看当前ip(ifconfig)
能否联通外网(ping www.baidu.com)
查看主机名称（hostname）

Xshell远程访问工具

注意问题：
修改 windows 的主机映射文件（hosts 文件）
（1）如果操作系统是 window7，可以直接修改
（a）进入 C:\Windows\System32\drivers\etc 路径
（b）打开 hosts 文件并添加如下内容，然后保存
192.168.10.100 hadoop100
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
192.168.10.105 hadoop105
192.168.10.106 hadoop106
192.168.10.107 hadoop107
192.168.10.108 hadoop108
（2）如果操作系统是 window10，先拷贝出来，修改保存以后，再覆盖即可
（a）进入 C:\Windows\System32\drivers\etc 路径
（b）拷贝 hosts 文件到桌面
（c）打开桌面 hosts 文件并添加如下内容
192.168.10.100 hadoop100
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
192.168.10.105 hadoop105
192.168.10.106 hadoop106
192.168.10.107 hadoop107
192.168.10.108 hadoop108
（d）将桌面 hosts 文件覆盖 C:\Windows\System32\drivers\etc 路径 hosts 文件

hadoop100 虚拟机配置要求如下

使用 yum 安装需要虚拟机可以正常上网
安装 epel-release

[root@hadoop100 ~]# yum install -y epel-release

关闭防火墙，关闭防火墙开机自启

[root@Hadoop100 ~]# systemctl stop firewalld
[root@Hadoop100 ~]# systemctl disable firewalld.service
Removed symlink /etc/systemd/system/multi-user.target.wants/firewalld.service.
Removed symlink /etc/systemd/system/dbus-org.fedoraproject.FirewallD1.service.

创建 ljj 用户，并修改 ljj用户的密码(123456)

配置 ljj 用户具有 root 权限，方便后期加 sudo 执行 root 权限的命令

[root@hadoop100 ~]# vim /etc/sudoers
修改/etc/sudoers 文件，在%wheel 这行下面添加一行，如下所示：
## Allow root to run any commands anywhere
root ALL=(ALL) ALL
## Allows people in group wheel to run all commands
%wheel ALL=(ALL) ALL 尚硅谷大数据技术之 Hadoop（入门） 
ljj ALL=(ALL) NOPASSWD:ALL

在/opt 目录下创建文件夹，并修改所属主和所属组

(1) 在/opt 目录下创建 module、software 文件夹
[ljj@Hadoop100 opt]$ sudo mkdir module
[ljj@Hadoop100 opt]$ sudo mkdir software
（2）修改 module、software 文件夹的所有者和所属组均为 atguigu 用户
[root@hadoop100 ~]# chown ljj:ljj /opt/module 
[root@hadoop100 ~]# chown ljj:ljj /opt/software
(3)
（3）查看 module、software 文件夹的所有者和所属组
[root@hadoop100 ~]# cd /opt/
[root@hadoop100 opt]# ll
总用量 12
[root@Hadoop100 opt]# ll
总用量 0
drwxr-xr-x. 2 ljj ljj 6 4月  24 09:27 module
drwxr-xr-x. 2 ljj ljj 6 4月  24 09:27 software

卸载虚拟机自带的 JDK

[root@hadoop100 ~]# rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps

[root@Hadoop100 opt]# rpm -qa | grep -i java          //查询已经安装的jdk
python-javapackages-3.4.1-11.el7.noarch
java-1.8.0-openjdk-headless-1.8.0.161-2.b14.el7.x86_64
tzdata-java-2018c-1.el7.noarch
java-1.7.0-openjdk-1.7.0.171-2.6.13.2.el7.x86_64
java-1.8.0-openjdk-1.8.0.161-2.b14.el7.x86_64
javapackages-tools-3.4.1-11.el7.noarch
java-1.7.0-openjdk-headless-1.7.0.171-2.6.13.2.el7.x86_64

）重启虚拟机 reboot

2 . 克隆虚拟机

1.利用模板机 hadoop100

克隆三台虚拟机：hadoop102 hadoop103 hadoop104

注意：克隆时，要先关闭 hadoop100

2.修改克隆机 IP

以下以 hadoop102 举例说

1）修改克隆虚拟机的静态 IP
[root@hadoop100 ~]#vim /etc/sysconfig/network-scripts/ifcfg-ens33
改成
DEVICE=ens33
TYPE=Ethernet 
ONBOOT=yes
BOOTPROTO=static
NAME="ens33"
IPADDR=192.168.10.102            //改下IP地址
PREFIX=24
GATEWAY=192.168.10.2
DNS1=192.168.10.2

3.修改克隆机主机名，

以下以 hadoop102 举例说明

(1)修改主机名称
[root@hadoop100 ~]# vim /etc/hostname
hadoop102 
（2）配置 Linux 克隆机主机名称映射 hosts 文件，打开/etc/hosts
[root@hadoop100 ~]# vim /etc/hosts

4.JDK的安装

在Hadoop102上安装jdk,然后复制到其它虚拟机
卸载现有 JDK
用 XShell 传输工具将 JDK 导入到 opt 目录下面的 software 文件夹下面

出现问题：远程登录使用lijunjie用户传输显示失败。

解决方法：改为远程登录使用root,即可成功。

查看是否传输成功
解压 JDK 到/opt/module 目录下

tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/

配置 JDK 环境变量

1）新建/etc/profile.d/my_env.sh 文件
[atguigu@hadoop102 ~]$ sudo vim /etc/profile.d/my_env.sh
添加如下内容
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin
（2）保存后退出
:wq
（3）source 一下/etc/profile 文件，让新的环境变量 PATH 生效
[atguigu@hadoop102 ~]$ source /etc/profile

）测试 JDK 是否安装成功

[ljj@Hadoop102 opt]$ java -version
java version "1.8.0_212"          //出现这个即为成功
Java(TM) SE Runtime Environment (build 1.8.0_212-b10)
Java HotSpot(TM) 64-Bit Server VM (build 25.212-b10, mixed mode)
[ljj@Hadoop102 opt]$

6.在 hadoop102 安装 Hadoop

1）用 XShell 文件传输工具将 hadoop-3.1.3.tar.gz 导入到 opt 目录下面的 software 文件夹
进入到 Hadoop 安装包路径下

 [ljj@hadoop102 software]$ cd /opt/software/

解压安装文件到/opt/module 下面

 [ljj@hadoop102 software]$ tar -zxvf hadoop-3.1.3.tar.gz -C  /opt/module/   (时间有点长)

查看是否解压成功

查看是否解压成功
 [ljj@hadoop102 software]$ ls /opt/module/
 hadoop-3.1.3

将 Hadoop 添加到环境变量

（1）获取 Hadoop 安装路径
[atguigu@hadoop102 hadoop-3.1.3]$ pwd
/opt/module/hadoop-3.1.3
（2）打开/etc/profile.d/my_env.sh 文件
[atguigu@hadoop102 hadoop-3.1.3]$ sudo vim /etc/profile.d/my_env.sh 

➢ 在 my_env.sh 文件末尾添加如下内容：（shift+g）
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
➢ 保存并退出： :wq
（3）让修改后的文件生效
[atguigu@hadoop102 hadoop-3.1.3]$ source /etc/profile

测试是否安装成功

[ljj@Hadoop102 opt]$ hadoop version
Hadoop 3.1.3

重启（如果 Hadoop 命令不能用再重启虚拟机）

[atguigu@hadoop102 hadoop-3.1.3]$ sudo reboot

7.Hadoop 目录结构

[ljj@Hadoop102 module]$ cd hadoop-3.1.3/
[ljj@Hadoop102 hadoop-3.1.3]$ ll       
总用量 176       
drwxr-xr-x. 2 ljj ljj    183 9月  12 2019 bin
drwxr-xr-x. 3 ljj ljj     20 9月  12 2019 etc
drwxr-xr-x. 2 ljj ljj    106 9月  12 2019 include
drwxr-xr-x. 3 ljj ljj     20 9月  12 2019 lib
drwxr-xr-x. 4 ljj ljj    288 9月  12 2019 libexec
-rw-rw-r--. 1 ljj ljj 147145 9月   4 2019 LICENSE.txt
-rw-rw-r--. 1 ljj ljj  21867 9月   4 2019 NOTICE.txt
-rw-rw-r--. 1 ljj ljj   1366 9月   4 2019 README.txt
drwxr-xr-x. 3 ljj ljj   4096 9月  12 2019 sbin
drwxr-xr-x. 4 ljj ljj     31 9月  12 2019 share
[ljj@Hadoop102 hadoop-3.1.3]$ cd bin/

（1）bin 目录：存放对 Hadoop 相关服务（hdfs，yarn，mapred）进行操作的脚本
[ljj@Hadoop102 hadoop-3.1.3]$ cd bin/
[ljj@Hadoop102 bin]$ ll
-rwxr-xr-x. 1 ljj ljj 441936 9月  12 2019 container-executor
-rwxr-xr-x. 1 ljj ljj   8707 9月  12 2019 hadoop
-rwxr-xr-x. 1 ljj ljj  11265 9月  12 2019 hadoop.cmd
-rwxr-xr-x. 1 ljj ljj  11026 9月  12 2019 hdfs
-rwxr-xr-x. 1 ljj ljj   8081 9月  12 2019 hdfs.cmd
-rwxr-xr-x. 1 ljj ljj   6237 9月  12 2019 mapred
-rwxr-xr-x. 1 ljj ljj   6311 9月  12 2019 mapred.cmd
-rwxr-xr-x. 1 ljj ljj 483728 9月  12 2019 test-container-executor
-rwxr-xr-x. 1 ljj ljj  11888 9月  12 2019 yarn
-rwxr-xr-x. 1 ljj ljj  12840 9月  12 2019 yarn.cmd

（2）etc 目录：Hadoop 的配置文件目录，存放 Hadoop 的配置文件
（3）lib 目录：存放 Hadoop 的本地库（对数据进行压缩解压缩功能）
（4）sbin 目录：存放启动或停止 Hadoop 相关服务的脚本
（5）share 目录：存放 Hadoop 的依赖 jar 包、文档、和官方案例

三、Hadoop 运行模式

3.1 三种运行模式基本介绍

Hadoop 官方网站：http://hadoop.apache.org/
Hadoop 运行模式包括：本地模式、伪分布式模式以及完全分布式模式。 ➢ 本地模式：单机运行，只是用来演示一下官方案例。生产环境不用。
伪分布式模式：也是单机运行，但是具备 Hadoop 集群的所有功能，一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试，生产环境不用。
完全分布式模式：多台服务器组成分布式环境。生产环境使用。

3.2 本地运行模式（官方 WordCount案例）

创建在 hadoop-3.1.3 文件下面创建一个 wcinput 文件夹
```
[ljj@Hadoop102 hadoop-3.1.3]$ mkdir wcinput
```
在 wcinput 文件下创建一个 word.txt 文件

 [ljj@hadoop102 hadoop-3.1.3]$ cd wcinput

编辑 word.txt 文件

[ljj@hadoop102 wcinput]$ vim word.txt ➢ 在文件中输入如下内容 
ss ss
cls cls
shaolin
shaomin
wudang
wudang
wudang

➢ 保存退出：:wq

回到 Hadoop 目录/opt/module/hadoop-3.1.3
执行程序

 [ljj@hadoop102 hadoop-3.1.3]$ hadoop jar  share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar  wordcount wcinput wcoutput
 出现一大长串字符
 //可以通过连续两次按tab获取 下一步路径的信息
 [ljj@Hadoop102 hadoop-3.1.3]$ hadoop jar share/
doc/    hadoop/

查看结果

[ljj@Hadoop102 hadoop-3.1.3]$ cd wcoutput/
[ljj@Hadoop102 wcoutput]$ ll
总用量 4
-rw-r--r--. 1 ljj ljj 44 4月  24 20:27 part-r-00000
-rw-r--r--. 1 ljj ljj  0 4月  24 20:27 _SUCCESS
[ljj@Hadoop102 wcoutput]$ cat part-r-00000 
`	1
cls	2
shaolin	1
shaomin	1
ss	2
wudang	3

在文件中输入如下内容
ss ss
cls cls
shaolin
shaomin
wudang
wudang
wudang

➢ 保存退出：:wq


4. 回到 Hadoop 目录/opt/module/hadoop-3.1.3
5. 执行程序

[ljj@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput
出现一大长串字符
//可以通过连续两次按tab获取下一步路径的信息
[ljj@Hadoop102 hadoop-3.1.3]$ hadoop jar share/
doc/ hadoop/


6. 查看结果

[ljj@Hadoop102 hadoop-3.1.3]$ cd wcoutput/
[ljj@Hadoop102 wcoutput]$ ll
总用量 4
-rw-r–r--. 1 ljj ljj 44 4月 24 20:27 part-r-00000
-rw-r–r--. 1 ljj ljj 0 4月 24 20:27 _SUCCESS
[ljj@Hadoop102 wcoutput]$ cat part-r-00000
` 1
cls 2
shaolin 1
shaomin 1
ss 2
wudang 3

3.3 完全分布式运行模式（开发重点）

分析：
1）准备 3 台客户机（关闭防火墙、静态 IP、主机名称）
2）安装 JDK
3）配置环境变量
4）安装 Hadoop
5）配置环境变量
6）配置集群 尚硅谷大数据技术之 Hadoop（入门） 
7）单点启动
8）配置 ssh
9）群起并测试集群

3.3.1虚拟机准备

克隆一下Hadoop102

3.3.2 编写集群分发脚本 xsync

scp（secure copy）安全拷贝

1）scp 定义
scp 可以实现服务器与服务器之间的数据拷贝。（from server1 to server2）
（2）基本语法
scp -r $pdir/$fname $user@$host:$pdir/$fname
命令 递归 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称
（3）案例实操
➢ 前提：在 hadoop102、hadoop103、hadoop104 都已经创建好的/opt/module、 
/opt/software 两个目录，并且已经把这两个目录修改为 atguigu:atguigu
[atguigu@hadoop102 ~]$ sudo chown atguigu:atguigu -R 
/opt/module
（a）在 hadoop102 上，将 hadoop102 中/opt/module/jdk1.8.0_212 目录拷贝到
hadoop103 上。
[atguigu@hadoop102 ~]$ scp -r /opt/module/jdk1.8.0_212 
atguigu@hadoop103:/opt/module
（b）在 hadoop103 上，将 hadoop102 中/opt/module/hadoop-3.1.3 目录拷贝到
hadoop103 上。
[atguigu@hadoop103 ~]$ scp -r 
atguigu@hadoop102:/opt/module/hadoop-3.1.3 /opt/module/
（c）在 hadoop103 上操作，将 hadoop102 中/opt/module 目录下所有目录拷贝到
hadoop104 上。
[atguigu@hadoop103 opt]$ scp -r 
atguigu@hadoop102:/opt/module/*
atguigu@hadoop104:/opt/module

rsync 远程同步工具

rsync 主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync 和 scp 区别：用 rsync 做文件的复制要比 scp 的速度快，rsync 只对差异文件做更
新。scp 是把所有文件都复制过去.

（1）基本语法
rsync -av $pdir/$fname $user@$host:$pdir/$fname
命令 选项参数 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称
 选项参数说明
选项 功能
-a 归档拷贝
-v 显示复制过程
（2）案例实操
（a）删除 hadoop103 中/opt/module/hadoop-3.1.3/wcinput
[atguigu@hadoop103 hadoop-3.1.3]$ rm -rf wcinput/
（b）同步 hadoop102 中的/opt/module/hadoop-3.1.3 到 hadoop103
[atguigu@hadoop102 module]$ rsync -av hadoop-3.1.3/ 
atguigu@hadoop103:/opt/module/hadoop-3.1.3/

xsync 集群分发脚本

（1）需求：循环复制文件到所有节点的相同目录下
（2）需求分析：
（a）rsync 命令原始拷贝：
rsync -av /opt/module atguigu@hadoop103:/opt/
（b）期望脚本：
xsync 要同步的文件名称
（c）期望脚本在任何路径都能使用（脚本放在声明了全局环境变量的路径）
[atguigu@hadoop102 ~]$ echo $PATH
/usr/local/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/home/atgu
igu/.local/bin:/home/atguigu/bin:/opt/module/jdk1.8.0_212/bin

（3）脚本实现
（a）在/home/atguigu/bin 目录下创建 xsync 文件
[atguigu@hadoop102 opt]$ cd /home/atguigu
[atguigu@hadoop102 ~]$ mkdir bin
[atguigu@hadoop102 ~]$ cd bin
[atguigu@hadoop102 bin]$ vim xsync
在该文件中编写如下代码
#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
 echo Not Enough Arguement!
 exit;
fi 

#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104       
do
 echo ==================== $host ====================
 #3. 遍历所有目录，挨个发送
 for file in $@
 do
 #4. 判断文件是否存在
 if [ -e $file ]
 then
 #5. 获取父目录
 pdir=$(cd -P $(dirname $file); pwd)
 #6. 获取当前文件的名称
 fname=$(basename $file)
 ssh $host "mkdir -p $pdir"
 rsync -av $pdir/$fname $host:$pdir
 else
 echo $file does not exists!
 fi
 done
done
（b）修改脚本 xsync 具有执行权限
[atguigu@hadoop102 bin]$ chmod +x xsync
（c）测试脚本
[atguigu@hadoop102 ~]$ xsync /home/lijunjie/bin
（d）将脚本复制到/bin 中，以便全局调用
[atguigu@hadoop102 bin]$ sudo cp xsync /bin/
（e）同步环境变量配置（root 所有者）
[atguigu@hadoop102 ~]$ sudo ./bin/xsync /etc/profile.d/my_env.sh
注意：如果用了 sudo，那么 xsync 一定要给它的路径补全。
让环境变量生效
[atguigu@hadoop103 bin]$ source /etc/profile
[atguigu@hadoop104 opt]$ source /etc/profile

ssh免密登录

免密登录原理

1.生成公钥和私钥

[atguigu@hadoop102 .ssh]$ pwd
/home/atguigu/.ssh
[atguigu@hadoop102 .ssh]$ ssh-keygen -t rsa

然后敲（三个回车），就会生成两个文件 id_rsa（私钥）、id_rsa.pub（公钥）

[lijunjie@Hadoop104 .ssh]$ ll
总用量 12
-rw-------. 1 lijunjie lijunjie 1675 4月  26 18:34   id_rsa
-rw-r--r--. 1 lijunjie lijunjie  400 4月  26 18:34   id_rsa.pub
-rw-r--r--. 1 lijunjie lijunjie  372 4月  26 18:25   known_hosts

2.将公钥拷贝到要免密登录的目标机器上

[atguigu@hadoop102 .ssh]$ ssh-copy-id Hadoop102
[atguigu@hadoop102 .ssh]$ ssh-copy-id Hadoop103
[atguigu@hadoop102 .ssh]$ ssh-copy-id Hadoop104

3.注意

注意：
还需要在 Hadoop103 上采用 lijunjie 账号配置一下无密登录到 hadoop102、hadoop103、
Hadoop104 服务器上。
还需要在 hadoop104 上采用 lijunjie账号配置一下无密登录到 hadoop102、hadoop103、
Hadoop104 服务器上。
还需要在 Hadoop102 上采用 root 账号，配置一下无密登录到 hadoop102、hadoop103、
hadoop104；

4…ssh 文件夹下（~/.ssh）的文件功能解释

known_hosts 记录 ssh 访问过计算机的公钥（public key）
id_rsa 生成的私钥
id_rsa.pub 生成的公钥
authorized_keys 存放授权过的无密登录服务器公钥

集群配置

1.集群部署规划

注意：
➢ NameNode 和 SecondaryNameNode 不要安装在同一台服务器
➢ ResourceManager 也很消耗内存，不要和 NameNode、SecondaryNameNode 配置在
同一台机器上。

需求图：

2.配置文件说明

Hadoop 配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认
配置值时，才需要修改自定义配置文件，更改相应属性值。

默认的配置文件

3.配置集群

核心配置文件

配置 core-site.xml

[lijunjie@Hadoop102 ~]$ cd $HADOOP_HOME/etc/hadoop

[lijunjie@Hadoop102 hadoop]$  vim core-site.xml

文件内容如下：

拷贝之间的内容




 
 
 fs.defaultFS
 hdfs://Hadoop102:8020
 
 
 
 hadoop.tmp.dir          //表示创建的临时文件，一个月后会自动销毁
 /opt/module/hadoop-3.1.3/data      //改成固定文件
 
 
 
 hadoop.http.staticuser.user
 lijunjie

HDFS 配置文件

配置 hdfs-site.xml

[lijunjie@Hadoop102 hadoop]$ vim hdfs-site.xml

文件内容如下：






 dfs.namenode.http-address
 Hadoop102:9870
 

 
 dfs.namenode.secondary.http-address
 Hadoop104:9868

3.YARN 配置文件

配置 yarn-site.xml

[lijunjie@hadoop102 hadoop]$ vim yarn-site.xml

文件内容如下：


 


 
 
 yarn.nodemanager.aux-services
 mapreduce_shuffle
 
 
 
 yarn.resourcemanager.hostname
 Hadoop103
 
 
 
 yarn.nodemanager.env-whitelist
 
JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CO
NF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAP
RED_HOME

4.MapReduce 配置文件

配置 mapred-site.xml

[atguigu@hadoop102 hadoop]$ vim mapred-site.xml

文件内容如下：





 
 mapreduce.framework.name
 yarn

5.在集群上分发配置好的 Hadoop 配置文件

[lijunjie@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc/hadoop/

6.去 103 和 104 上查看文件分发情况

[atguigu@hadoop103 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml
[atguigu@hadoop104 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xm

3.3.3 群起集群

关闭服务命令

[lijunjie@hadoop102 software]$ stop-all.sh
WARNING: Stopping all Apache Hadoop daemons as lijunjie in 10 seconds.
WARNING: Use CTRL-C to abort.
Stopping namenodes on [hadoop102]
Stopping datanodes
Stopping secondary namenodes [hadoop104]
Stopping nodemanagers
hadoop104: WARNING: nodemanager did not stop gracefully after 5 seconds: Trying to kill with kill -9
hadoop103: WARNING: nodemanager did not stop gracefully after 5 seconds: Trying to kill with kill -9
Stopping resourcemanager

1.配置 workers

[lijunjie@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/workers

在该文件中增加如下内容：

hadoop102
hadoop103
hadoop104

注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。

同步所有节点配置文件

[lijunjie@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc

2.启动集群

2.1如果集群是第一次启动

如果集群是第一次启动，需要在 hadoop102 节点格式化 NameNode（注意：格式
化 NameNode，会产生新的集群 id，导致 NameNode 和 DataNode 的集群 id 不一致，集群找
不到已往数据。如果集群在运行过程中报错，需要重新格式化 NameNode 的话，一定要先停
止 namenode 和 datanode 进程，并且要删除所有机器的 data 和 logs 目录，然后再进行格式
化。）
[lijunjie@hadoop102 hadoop-3.1.3]$ hdfs namenode -format

2.2启动 HDFS

       [lijunjie@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh
Starting namenodes on [hadoop102]
Starting datanodes
hadoop104: WARNING: /opt/module/hadoop-3.1.3/logs does not exist. Creating.
hadoop103: WARNING: /opt/module/hadoop-3.1.3/logs does not exist. Creating.
Starting secondary namenodes [hadoop104]
----------------------------------------------
       [lijunjie@hadoop102 hadoop-3.1.3]$ jps
4241 Jps
3977 DataNode
3820 NameNode
---------------------------------
       [lijunjie@hadoop103 ~]$ jps
3072 DataNode
3480 Jps
-------------------------
       [lijunjie@hadoop104 .ssh]$ jps
3030 DataNode
3094 SecondaryNameNode
3210 Jps

2.3启动 YARN

在配置了 ResourceManager 的节点（hadoop103）

[atguigu@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh
     [lijunjie@hadoop103 hadoop-3.1.3]$ jps
3072 DataNode
4069 Jps
3607 ResourceManager
3719 NodeManager
-------------------------
      [lijunjie@hadoop102 hadoop-3.1.3]$ jps
4322 NodeManager
3977 DataNode
3820 NameNode
4447 Jps
-----------------
       [lijunjie@hadoop104 hadoop-3.1.3]$ jps
8160 DataNode
8416 NodeManager
8563 Jps
8284 SecondaryNameNode

2.4 Web 端查看 HDFS 的 NameNode

浏览器中输入：http://hadoop102:9870
查看 HDFS 上存储的数据信息

2.5 Web 端查看 YARN 的 ResourceManager

浏览器中输入：http://hadoop103:8088
查看 YARN 上运行的 Job 信息

3. 集群基本测试

3.1 上传文件到集群

上传小文件
[lijunjie@hadoop102 subdir0]$ hadoop fs -mkdir /input          //上传了一个input空文件夹
[lijunjie@hadoop102 subdir0]$ hadoop fs -put wcinput/word.txt /input      // 把word.txt文件上传到input里面
上传大文件
把jdk上传到/ 下了
[lijunjie@hadoop102 subdir0]$ hadoop fs -put /opt/software/jdk-8u212-linux-x64.tar.gz /

-put 表示上传

3.2上传后看文件存放在哪里

[lijunjie@hadoop102 subdir0]$ pwd
/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-238949251-192.168.10.102-1619877031998/current/finalized/subdir0/subdir0
[lijunjie@hadoop102 subdir0]$ ll
总用量 191944
-rw-rw-r--. 1 lijunjie lijunjie        51 5月   1 22:24 blk_1073741825
-rw-rw-r--. 1 lijunjie lijunjie        11 5月   1 22:24 blk_1073741825_1001.meta
-rw-rw-r--. 1 lijunjie lijunjie 134217728 5月   1 22:31 blk_1073741826
-rw-rw-r--. 1 lijunjie lijunjie   1048583 5月   1 22:31 blk_1073741826_1002.meta
-rw-rw-r--. 1 lijunjie lijunjie  60795424 5月   1 22:31 blk_1073741827
-rw-rw-r--. 1 lijunjie lijunjie    474975 5月   1 22:31 blk_1073741827_1003.meta

[lijunjie@hadoop102 subdir0]$ cat blk_1073741825
ss ss
cls cls
shaolin
shaomin
wudang
wudang
wudang
hadoop fs -get /jdk-8u212-linux-x64.tar.gz ./

3.3下载

hadoop fs -get 要下载的文件  在那个路径
[lijunjie@hadoop104 software]$ hadoop fs -get /jdk-8u212-linux-x64.tar.gz ./
2021-05-01 22:53:26,041 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
[lijunjie@hadoop104 software]$ ll
总用量 190444
-rw-r--r--. 1 lijunjie lijunjie 195013152 5月   1 22:53 jdk-8u212-linux-x64.tar.gz

3.4 执行 wordcount 程序·

[lijunjie@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

在这看进行任务资源调度。表示有一个任务。

4.集群崩溃处理方式

问题：Hadoop102中没有nameNode,或者不小心删除了虚拟机中的date目录等。
原因是：DateNode与NameNode版本不一致导致。新开启的NameNode不能和原先的DataNode匹配。
解决方法：1.先停到服务，各个服务都要停止。
         2.在把每一个虚拟机中的date目录和logs目录全部删除
         3.在格式化 NameNode，$  hdfs namenode -format
         4.在开启服务即可

5.配置历史服务器

为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下：

5.1配置 mapred-site.xml

[lijunjie@hadoop102 hadoop]$ vim mapred-site.xml 
  在该文件里面增加如下配置。


 mapreduce.jobhistory.address
 hadoop102:10020



 mapreduce.jobhistory.webapp.address
 hadoop102:19888

5.2分发配置

[lijunjie@hadoop102 hadoop]$ xsync mapred-site.xml

5.3 在hadoop102中启动历史服务器

[lijunjie@hadoop102 hadoop]$ mapred --daemon start historyserver
[lijunjie@hadoop102 hadoop]$ jps
1973 DataNode
1884 NameNode
2909 JobHistoryServer
2974 Jps

5.4查看 JobHistory

http://hadoop102:19888/jobhistory

6.配置日志的聚集

(操作有问题)

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到 HDFS 系统上。

开启日志聚集功能

6.1 配置yarn-site.xml

[lijunjie@hadoop102 hadoop]$ vim yarn-site.xml 
在文件中加入


 yarn.log-aggregation-enable
 true


 
 yarn.log.server.url 
 http://hadoop102:19888/jobhistory/logs



 yarn.log-aggregation.retain-seconds
 604800

6.2 分发配置

[lijunjie@hadoop102 hadoop]$ xsync yarn-site.xml

6.3关闭 NodeManager 、ResourceManager 和 HistoryServer

[lijunjie@hadoop103 hadoop-3.1.3]$ sbin/stop-yarn.sh
[lijunjie@hadoop102 hadoop-3.1.3]$ mapred --daemon stop historyserver
[lijunjie@hadoop102 hadoop-3.1.3]$ jps
1973 DataNode
3834 Jps
1884 NameNode

6.4 启动 NodeManager 、ResourceManage 和 HistoryServer

[lijunjie@hadoop103 ~]$ start-yarn.sh
[lijunjie@hadoop102 ~]$ mapred --daemon start historyserver

6.5 案例

删除 HDFS 上已经存在的输入文件

[lijunjie@hadoop102 hadoop-3.1.3]$ hadoop fs -rm -r /input
Deleted /input

执行 WordCount 程序

[lijunjie@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar 
wordcount /input /output

查看日志
（1）历史服务器地址
http://hadoop102:19888/jobhistory

7.集群启动/停止方式

7.1整体启动/停止 HDFS

start-dfs.sh
stop-dfs.sh

7.2 整体启动/停止YARN

start-yarn.sh/stop-yarn.sh

7.3各个服务组件逐一启动/停止

分别启动/停止 HDFS 组件

hdfs --daemon start/stop namenode/datanode/secondarynamenode

启动/停止 YARN

yarn --daemon start/stop resourcemanager/nodemanager

停止服务

kill -9 进程号

[lijunjie@hadoop102 hadoop-3.1.3]$ jps
5504 Jps
4067 JobHistoryServer
3908 NodeManager
1973 DataNode
1884 NameNode
[lijunjie@hadoop102 hadoop-3.1.3]$ kill -9 1973
[lijunjie@hadoop102 hadoop-3.1.3]$ jps
4067 JobHistoryServer
3908 NodeManager
5530 Jps
1884 NameNode

8.编写 Hadoop 集群常用脚本

8.1Hadoop 集群启停脚本

（包含 HDFS，Yarn，Historyserver）：myhadoop.sh

#!/bin/bash
if [ $# -lt 1 ]
then
 echo "No Args Input..."
 exit ;
fi
case $1 in
"start")
 echo " =================== 启动 hadoop 集群 ==================="
 echo " --------------- 启动 hdfs ---------------"
 ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
 echo " --------------- 启动 yarn ---------------"
 ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
 echo " --------------- 启动 historyserver ---------------"
 ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start 
historyserver"
;;
"stop")
 echo " =================== 关闭 hadoop 集群 ==================="
 echo " --------------- 关闭 historyserver ---------------"
 ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop 
historyserver"
 echo " --------------- 关闭 yarn ---------------"
 ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
 echo " --------------- 关闭 hdfs ---------------"
 ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
 echo "Input Args Error..."
;;
esac

8.2 查看三台服务器 Java 进程脚本：jpsall

[lijunjie@hadoop102 bin]$ vim jpsall

#!/bin/bash
for host in hadoop102 hadoop103 hadoop104
do
 echo =============== $host ===============
 ssh $host jps 
done

[lijunjie@hadoop102 bin]$ jpsall
=============== hadoop102 ===============
9604 DataNode
9430 NameNode
9900 NodeManager
10076 JobHistoryServer
10223 Jps
=============== hadoop103 ===============
9025 Jps
8466 ResourceManager
8277 DataNode
8726 NodeManager
=============== hadoop104 ===============
7025 Jps
6820 NodeManager
6726 SecondaryNameNode
6605 DataNode

8.3 脚本：实现集群一键关机 shutdown.sh

       vim shutdown.sh
如下：配置hadoop102 脚本
#!/bin/bash
#虚拟机群体关机脚本
for host in hadoop104 hadoop103 hadoop102
do
echo “==================== $host关机 ===================”
ssh $host "sudo init 0"
done
注意点：这里在利用for循环遍历的时候一定要区分先后顺序，比如在Linux2上编辑的集群关机脚本，那么最后再执行关机Linux2的命令–>也就是for循环最后在遍历Linux2；

9.常用端口号说明

常用配置文件

Hadoop2.x	Hadoop3.x
core-site.xml	core-site.xml
yarn-site.xml	yarn-site.xml
mapred-site.xml	mapred-site.xml
hdfs-site.xml	hdfs-site.xml
workers	slaves

10.集群时间同步

能连外网的情况下，不需要配置集群时间同步，会影响集群性能。

1.如果服务器在公网环境（能连接外网），可以不采用集群时间同步，因为服务器会定期和公网时间进行校准；
2.如果服务器在内网环境，必须要配置集群时间同步，否则时间久了，会产生时间偏差，导致集群执行任务时间不同

10.1需求

找一个机器，作为时间服务器，所有的机器与这台集群时间进行定时的同步，生产环境根据任务对时间的准确程度要求周期同步。测试环境为了尽快看到效果，采用 1 分钟同步一次

10.2时间服务器配置（必须 root 用户）

查看所有节点 ntpd 服务状态和开机自启动状态

[atguigu@hadoop102 ~]$ sudo systemctl status ntpd     
[atguigu@hadoop102 ~]$ sudo systemctl start ntpd
[atguigu@hadoop102 ~]$ sudo systemctl is-enabled ntpd  //设置开机自启动

修改 hadoop102 的 ntp.conf 配置文件

[atguigu@hadoop102 ~]$ sudo vim /etc/ntp.conf

（a）修改 1（授权 192.168.10.0-192.168.10.255 网段上的所有机器可以从这台机器上查询和同步时间）
#restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap 修改为
restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap

b）修改 2（集群在局域网中，不使用其他互联网上的时间）
server 0.centos.pool.ntp.org iburst
server 1.centos.pool.ntp.org iburst
server 2.centos.pool.ntp.org iburst
server 3.centos.pool.ntp.org iburst
为
#server 0.centos.pool.ntp.org iburst
#server 1.centos.pool.ntp.org iburst
#server 2.centos.pool.ntp.org iburst
#server 3.centos.pool.ntp.org iburst

（c）添加 3（当该节点丢失网络连接，依然可以采用本地时间作为时间服务器为集群中
的其他节点提供时间同步）
server 127.127.1.0
fudge 127.127.1.0 stratum 10

修改 hadoop102 的/etc/sysconfig/ntpd 文件

[atguigu@hadoop102 ~]$ sudo vim /etc/sysconfig/ntpd
增加内容如下（让硬件时间与系统时间一起同步）
SYNC_HWCLOCK=yes

重新启动 ntpd 服务

[atguigu@hadoop102 ~]$ sudo systemctl start ntpd

设置 ntpd 服务开机启动

[atguigu@hadoop102 ~]$ sudo systemctl enable ntpd

10.3 其他机器配置（必须 root 用户）

（1）关闭所有节点上 ntp 服务和自启动
[atguigu@hadoop103 ~]$ sudo systemctl stop ntpd
[atguigu@hadoop103 ~]$ sudo systemctl disable ntpd
[atguigu@hadoop104 ~]$ sudo systemctl stop ntpd
[atguigu@hadoop104 ~]$ sudo systemctl disable ntpd
（2）在其他机器配置 1 分钟与时间服务器同步一次
[atguigu@hadoop103 ~]$ sudo crontab -e
编写定时任务如下：
*/1 * * * * /usr/sbin/ntpdate hadoop102
（3）修改任意机器时间
[atguigu@hadoop103 ~]$ sudo date -s "2021-9-11 11:11:11"
（4）1 分钟后查看机器是否与时间服务器同步[atguigu@hadoop103 ~]$ sudo date

四、常见错误及解决方案

1）防火墙没关闭、或者没有启动 YARN
INFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:8032
2）主机名称配置错误
3）IP 地址配置错误
4）ssh 没有配置好
5）root 用户和 atguigu 两个用户启动集群不统一
6）配置文件修改不细心
7）不识别主机名称
java.net.UnknownHostException: hadoop102: hadoop102
 at 
java.net.InetAddress.getLocalHost(InetAddress.java:1475)
 at 
org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(Job
Submitter.java:146)
 at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1290)
 at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1287)
 at java.security.AccessController.doPrivileged(Native 
Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
解决办法：
（1）在/etc/hosts 文件中添加 192.168.10.102 hadoop102
（2）主机名称不要起 hadoop hadoop000 等特殊名称

8）DataNode 和 NameNode 进程同时只能工作一个

9）执行命令不生效，粘贴 Word 中命令时，遇到-和长–没区分开。导致命令失效解决办法：尽量不要粘贴 Word 中代码。
10）jps 发现进程已经没有，但是重新启动集群，提示进程已经开启。原因是在 Linux 的根目录下/tmp 目录中存在启动的进程临时文件，将集群相关进程删除掉，再重新启动集群。
11）jps 不生效原因：
全局变量 hadoop java 没有生效。解决办法：需要 source /etc/profile 文件。
12）8088 端口连接不上[atguigu@hadoop102 桌面]$ cat /etc/hosts注释掉如下代码
#127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4#::1 hadoop1

13）在hdfs web 端删除文件没有权限

在core-site.xml中加入
 
 
 hadoop.http.staticuser.user
 lijunjie

你可能感兴趣的:(Hadoop,大数据,尚硅谷笔记总结)

林子雨《大数据技术原理与应用》第五讲——NoSQL数据库天才代号23 大数据数据库 hadoop nosql 大数据
林子雨《大数据技术原理与应用》第五讲——NoSQL数据库林子雨《大数据技术原理与应用》第五讲笔记NoSQL数据库特点灵活的可扩展性灵活的数据模型和云计算结合查询性能差未形成通用的行业标准维护更加复杂NoSQL数据库有四大类型键值数据库：redis列族数据库：HBase、Cassandra文档数据库：MongoDB图数据库：Neo4j键值数据库数据模型：键是一个字符串对象，值可以是任意类型的对象典型
OLAP引擎比较小手追梦 hadoop rpc java
一，sparksql与dorisspark虽然是一个计算引擎，但sparksql也支持符合通用语法的sql查询，延迟为分钟级。doris是一个OLAP数据库，支持对大数据的复杂查询，延迟为秒级。doris比sparksql快，主要原因在于针对场景不同导致的架构不同。sparksql启动一个查询，需要进行资源调度、任务调度、任务分发，耗时更久。doris是常驻进程，启动一个doris查询后，快速的对
大数据组件ClickHouse介绍（场景、优劣势、性能）坚持是一种态度大数据开发 ClickHouse 大数据 clickhouse 数据库列式数据库
大数据组件ClickHouse介绍简介使用场景优势与劣势优势劣势性能单个查询吞吐量处理短查询的延时时间处理大量短查询数据写入性能查询性能简介clickhouse是一个高性能的列式存储分析数据库管理系统，由俄罗斯搜索引擎公司yandex开发。clickhouse具有以下特点高性能：clickhouse优化了查询和数据压缩算法，支持多维度数据分析和快速聚合查询。分布式：clickhouse采用共享无状
DB2-Db2StreamingChangeEventSource DataLu DB2-debezium 数据库数据库开发大数据开源
提示：Db2StreamingChangeEventSource类主要用于从IBMDb2数据库中读取变更数据捕获(CDC,ChangeDataCapture)信息。CDC是一种技术，允许系统跟踪数据库表中数据的更改，这些更改可以是插入、更新或删除操作。在大数据和实时数据处理场景中，CDC可以用来同步数据到其他系统，比如数据仓库、数据湖或者流处理平台如ApacheKafka。文章目录前言一、核心功能
MySQL实战教程：从小白到大神的进阶之路！奔跑吧邓邓子项目实战 mysql 数据库
目录一、MySQL概述1、MySQL简介1.1MySQL的历史背景1.2MySQL的特点1.3MySQL的应用场景1.4MySQL的版本2、MySQL发展历程2.1MySQL的起源2.2MySQL的早期发展2.3MySQL的成熟与普及2.4MySQL的商业化与收购2.5MySQL的持续创新3、MySQL应用场景3.1Web应用程序3.2企业级应用3.3大数据分析3.4移动应用3.5云计算3.6物联
【详细讲解】hive优化 songqq27 大数据 hive
1、开启本地模式大多数的HadoopJob是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过，有时Hive的输入数据量是非常小的。在这种情况下，为查询触发执行任务消耗的时间可能会比实际job的执行时间要多的多。对于大多数这种情况，Hive可以通过本地模式在单台机器上处理所有的任务。对于小数据集，执行时间可以明显被缩短。用户可以通过设置hive.exec.mode.local.auto的值
大规模分布式存储（1）-- 概念、挑战和分类叹了口丶气 HDFS全方位实战分布式分类数据库
随着数据的激增，我们已经进入到了一个数据时代，无论是云计算，大数据还是互联网公司的各种应用，其后台存储平台的目标都是要构建低成本、高性能、可扩展、易用的分布式存储系统。相比传统的分布式存储系统，互联网公司的分布式存储系统具有两个特点：规模大和成本低。本文主要介绍一下什么是大规模分布式存储系统，以及分布式存储系统有哪些类别。一、分布式存储的概念1.1大规模分布式存储系统的定义大规模分布式存储系统的定
大数据分析案例-基于逻辑回归算法构建抑郁非抑郁推文识别模型艾派森大数据分析案例合集机器学习人工智能 python 数据挖掘回归
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+喜欢大数据分析项目的小伙伴，希望可以多多支持该系列的其他文章大数据分析案例合集
move移动语义详解 Say-hai C++c++面试
move移动语义移动语义是C++11引入的一种机制，用于提高程序的性能和资源管理效率，特别是在涉及大数据对象的场景下。移动语义通过转移资源所有权，而不是复制资源，减少了不必要的拷贝操作。一、为什么需要移动语义？当对象需要被复制时（如函数返回值或传参），通常会调用复制构造函数（copyconstructor）。复制操作往往意味着需要分配新资源并将原资源的数据拷贝到新资源中；而如果不需要保留原对象的内
大数据毕业设计hadoop+spark+hive豆瓣图书数据分析可视化大屏豆瓣图书爬虫图书推荐系统 qq_79856539 javaweb java 大数据 hadoop 课程设计
系统总体目标基于Spark的个性化书籍推荐系统是一种基于大数据技术的智能推荐系统，它可以根据用户的历史行为和偏好，为用户提供个性化的书籍推荐。该系统采用Spark技术，可以实现大数据的实时处理，从而提高推荐系统的准确性和可靠性。此外，该系统还可以根据用户的习惯和偏好，提供更加个性化的书籍推荐，从而满足用户的需求。系统的使用者包含普通用户和管理员两类，普通用户是系统的主要服务对象，主流人群是经常查看
企业数字化规划蓝图、企业数字化运营分析管理大数据平台建设方案公众号：优享智库数字化转型数据治理主数据数据仓库大数据
**企业数字化规划蓝图及运营分析管理大数据平台建设方案****一、企业数字化规划蓝图**1.**数字化目标设定**企业在规划数字化进程时，首先需要明确数字化目标。这些目标应当与企业的整体战略和发展规划相一致，包括但不限于提高运营效率、优化客户体验、创新业务模式等。同时，目标应具体、可衡量，以便于后续的实施和评估。2.**技术平台规划**技术平台是支撑企业数字化的基础。在规划阶段，需要确定所需的技术
使用Flink进行流式图处理 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
使用Flink进行流式图处理1.背景介绍1.1大数据时代的到来随着互联网、物联网和移动互联网的快速发展,数据呈现出爆炸式增长。根据IDC的预测,到2025年,全球数据量将达到175ZB。传统的批处理系统已经无法满足对实时数据处理的需求。因此,流式计算应运而生,成为大数据处理的重要组成部分。1.2流式计算的概念流式计算是一种新兴的数据处理范式,它能够持续不断地处理来自各种数据源的数据流。与传统的批处
python与excel整合全教程刘同学Python学习日记 python excel 开发语言
Python与Excel的整合非常强大，尤其适合处理大数据、自动化表格操作以及进行高级数据分析。以下是一个全教程，涵盖常用的Python库及其应用：1.准备工作安装必要的库：使用以下命令安装常用库：pipinstallopenpyxlpandasxlrdxlsxwriterpywin32openpyxl:用于操作Excel的.xlsx文件（推荐）。pandas:强大的数据分析工具，支持读取和写入E
如何写一份合格的大数据简历（附简历模板）教程 itLeeyw573 老板必点的高分简历 sqlite oracle mysql sql zookeeper kafka big data
一、简历的重要性简历是求职者给招聘者的第一印象，一份合格的简历能够快速让招聘者了解你的基本信息、工作经历、技能特长等，从而决定是否给予你面试机会。它是开启理想工作大门的钥匙，所以一定要重视起来。【编辑/下载】：大数据开发简历范文二、简历结构基本信息：包含姓名、性别、联系方式（电话、邮箱）、求职意向。姓名要突出显示，联系方式务必准确无误，求职意向明确且具体，比如“Java开发工程师”，让招聘者一眼就
MongoDB 大俗大雅，上来问分片真三俗 -- 4 分什么分 Austindatabases mongodb 数据库
开头还是介绍一下群，如果感兴趣PolarDB,MongoDB,MySQL,PostgreSQL,Redis,OceanBase,SqlServer等有问题，有需求都可以加群群内有各大数据库行业大咖，可以解决你的问题。加群请联系liuaustin3，（共2710人左右1+2+3+4+5+6+7+8+9）(123456群均已爆满，7群400+，开8群9群)这是MongoDB宣传周的第五篇，这周真漫长，
大数据技术在数据安全治理中的应用罗思付之技术屋综合技术探讨及方案专栏大数据
摘要面对新形势下的数据安全治理挑战，顺应数据安全领域的技术发展趋势，针对大型国企在数据安全治理实际应用中突出的关键权限人员识别问题，提出了一种基于图算法的关键权限人员识别技术。该技术可以发现系统中潜在的权限影响因素，并可从多个角度衡量不同含义的权重影响力，识别结果可解释性强。针对数据安全治理中的用户与实体行为异常检测问题，提出一种基于生成对抗网络的用户与实体行为异常检测方法，实验结果表明，所提方法
阿里巴巴大数据系统体系架构大连赵哥大数据架构
数据应用层：这是最顶层，面向不同的用户群体提供服务，包括对内（公司内部使用）、对平台（平台用户）、对商家（商家使用）、对公众（普通消费者）。数据服务与基础工具层：这一层提供了一些基础服务和工具，例如：OneService：可能是一种服务或工具，用于统一数据服务。TDDL+MySQL：TDDL是淘宝分布式数据层的缩写，与MySQL结合使用，提供数据库服务。HBase：一个分布式列存储系统，适合于存储
【学习笔记总结】华为云：应用上云后的安全规划及设计通信_楠木学习笔记华为云架构云计算安全架构
一、背景和问题数字化时代，随着信息技术的飞速发展，企业和各类组织纷纷将自身的应用程序迁移至云端。云计算凭借其诸多优势，如成本效益、可扩展性、灵活性以及便捷的资源共享等，已然成为了现代业务运营的重要支撑。今年，我所在企业也将IT系统全面迁移上XX云，究其原因是为了在激烈的市场竞争中保持敏捷性和创新性，需要快速部署新的应用并实现高效的数据处理，云平台提供的丰富资源和便捷的服务模式使其能够迅速满足这些需
python 分布式集群_Python搭建Spark分布式集群环境小国阁下 python 分布式集群
前言ApacheSpark是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark最大的特点就是快，可比HadoopMapReduce的处理速度快100倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群，而是使用三台电脑来搭建一个小型分布式集群环境安装。本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群，同样适用于搭建Spark1.6.2
Hadoop错误: put: Lease mismatch on ... by DFSClient_NONMAPREDUCE_-499992815_1.... 学习总结星月情缘02 ETL技术 Hadoop hdfs租约 hadoop错误
错误总结分享:使用了hadoop挺长时间了，多数人应该很熟悉它的特点了吧，但是今天突然遇到个错误，从来没见过，一时自己也想不到是什么原因，就在网上查了一些资料，得到了解决的办法，再次分享一下。过程:使用kettle数据清洗工具在进行同步任务的过程中，最后数据是被加载到hdfs的，这里用shell脚本实现，hdfsdfs-put-r/hdfs的目录。结果程序执行到这一步的时候报错了。错误描述就是文章
【硬刚大数据】2021年从零到大数据专家之Hbase八股文王知无(import_bigdata)
欢迎关注博客主页：https://blog.csdn.net/u013411339欢迎点赞、收藏、留言，欢迎留言交流！本文由【王知无】原创，首发于CSDN博客！本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)
史上最强！Spring Boot 3.3 高效批量插入万级数据的多种方案 m0_74825074 面试学习路线阿里巴巴 spring boot 后端 java
SpringBoot3.3多种方式实现高效批量插入万级数据，史上最强！在大数据处理场景下，如何高效地将大量数据插入数据库是一个重要课题。本文基于SpringBoot3.3及MyBatis-Plus，介绍几种高效的批量插入数据的方法，包括：使用JDBC批处理使用自定义SQL批处理单条插入（for循环）拼接SQL语句插入MyBatis-Plus的saveBatch方法循环插入+开启批处理模式每种方式都
多租户架构未提供足够的租户安全培训和教育图幻未来网络安全
多租户架构下租户安全培训与教育的需求分析与解决方案引言随着云计算和大数据技术的飞速发展，多租户架构已成为企业数字化转型的重要基石。多租户架构允许一个应用程序实例为多个租户提供服务，从而降低了企业的运营成本。然而，这种架构也带来了一系列的安全挑战。为了解决这些问题，企业需要加强对租户的安全培训和教育，确保租户了解如何在使用多租户架构时保护自己的数据和应用程序。本文将探讨多租户架构下的租户安全培训和教
一文了解大数据概论程序员
一.大数据概论1.1大数据概念大数据（bigdata）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决，海量数据的存储和海量数据的分析计算问题。按顺序给出数据存储单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte=8bit
MYSQL学习笔记(六)：聚合函数、sql语句执行原理简要分析羊小猪~~ MYSQL mysql sql 数据库考研后端 c++java
前言：学习和使用数据库可以说是程序员必须具备能力，这里将更新关于MYSQL的使用讲解，大概应该会更新30篇+，涵盖入门、进阶、高级(一些原理分析);这一篇是内容较少，主要讲解：聚合函数和简要介绍sql语句执行过程；虽然MYSQL命令很多，但是自己去多敲一点，到后面忘记了，查一下就可以回忆起来使用了；这一系列也是本人学习MYSQL做的笔记，也是为了方便后面忘记查询；参考资料：尚硅谷、黑马、csdn和
Hadoop3.3.4伪分布式环境搭建凡许真分布式 hadoop 伪分布式 hadoop3.3.4
文章目录前言一、准备1.下载Hadoop2.配置环境变量3.配置免密二、Hadoop配置1.hadoop-env.sh2.hdfs-site.xml3.core-site.xml4.mapred-site.xml5.yarn-site.xml三、格式化四、启动五、访问web页面前言hadoop学习——伪分布式环境——普通用户搭建一、准备1.下载Hadoop2.配置环境变量vi~/.bash_pro
Hadoop HA 格式化NameNode 顺序凡许真 hadoop 大数据分布式 HA
文章目录前言一、启动JournalNode二、格式化NameNode1.执行格式化命令2.启动namenode3.执行格式化命令4.启动namenode其他前言记录搭建HadoopHA架构时格式化namenode问题一、启动JournalNode分别启动JournalNode，命令如下hadoop-daemon.shstartjournalnode二、格式化NameNode1.执行格式化命令找其中
尚硅谷《vue》——笔记一树天先森前端 vue
文章目录前言一、数据绑定1.模板语法2.数据绑定3.el与data的两种写法二、MVVM三、数据代理四、事件处理1.绑定事件2.事件修饰符（前四个常用）3.滚动和键盘事件五、计算属性六、监视属性watch属性watch与computed对比是否使用箭头函数七、绑定样式八、条件渲染九、列表1.渲染2.过滤、排序十、Vue监视数据1.监视原理--对象2.在对象中追加属性——$set方法3.监视数组十一
中国BI步入增长大周期，腾讯云ChatBI加速AI+BI融合大数据在线 AI 云静思园人工智能腾讯云大数据 ChatBI AI+BI
过去十年，大数据技术的快速发展，让数据消费前进一大步，数据价值得到一定程度的挖掘与释放，真正开启了“用数”的大时代。但数据分析繁杂的技术栈、复杂的处理过程以及程式化的交互方式，让“数据消费”的门槛始终降不下来，一定程度制约着企业迈向“用好数”的新阶段。如今，随着大模型和生成式AI的迅猛发展，数据消费正迎来一场巨大变革。大模型与数据分析天然的融合属性，使得商业智能（以下简称：BI）迎来全面重塑，BI
乐学智伴：基于人工智能与大数据的学生个性化学习辅助平台 IT源码大师人工智能大数据学习
详细描述：1.引言：教育科技的时代背景在信息化和数字化的浪潮下，教育领域正经历着深刻的变革。传统的教学模式以教师为中心，难以满足学生个性化学习的需求。随着人工智能、大数据和云计算等技术的快速发展，教育科技（EdTech）为个性化学习提供了全新的解决方案。通过智能化工具和数据分析，学生可以根据自身的学习特点和进度，制定个性化的学习计划，从而提高学习效率和效果。“乐学智伴”是一款基于人工智能与大数据技
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc

大数据学习笔记

大数据技术之大数据概论

第 1 章 大数据概念

第 2 章 大数据特点（4V）

第三章 大数据的应用场景

第四章大数据发展前景

第五章 大数据部门间业务流程分析

第 6 章 大数据部门内组织结构

大数据技术之 Hadoop（入门）

学习路线图

一、概念

1.1、Hadoop是什么

1.2、Hadoop的发展历史

1.3、Hadoop的三大发行版本**（了解）**

1.4、Hadoop 优势（4高）

1.5 Hadoop*组成（面试重点)

1.5.1 HDFS 架构概述

1.5.2 YARN架构概述

1.5.3 MapReduce 架构概述

1.5.4 HDFS、YARN、MapReduce 三者关系

1.6 大数据技术生态体系

1.7 推荐系统框架图

二、环境准备

1.模拟虚拟机准备

安装centos7.5镜像

配置Ip和主机名配置

1.配置VM的ip

2.修改NAT设置

3.Windows的iP设置

4.修改Hadoop的IP地址，主机名称

5.修改主机名称

6.主机名称映射

7.然后重启reboot

Xshell远程访问工具

hadoop100 虚拟机配置要求如下

2 . 克隆虚拟机

1.利用模板机 hadoop100

2.修改克隆机 IP

3.修改克隆机主机名，

4.JDK的安装

6.在 hadoop102 安装 Hadoop

7.Hadoop 目录结构

三 、Hadoop 运行模式

3.1 三种运行模式基本介绍

3.2 本地运行模式（官方 WordCount案例）

3.3 完全分布式运行模式（开发重点）

3.3.1虚拟机准备

3.3.2 编写集群分发脚本 xsync

scp（secure copy）安全拷贝

rsync 远程同步工具

xsync 集群分发脚本

ssh免密登录

1.生成公钥和私钥

2.将公钥拷贝到要免密登录的目标机器上

3.注意

4…ssh 文件夹下（~/.ssh）的文件功能解释

集群配置

1.集群部署规划

2.配置文件说明

3.配置集群

3.YARN 配置文件

4.MapReduce 配置文件

5.在集群上分发配置好的 Hadoop 配置文件

6.去 103 和 104 上查看文件分发情况

3.3.3 群起集群

1.配置 workers

2.启动集群

2.1如果集群是第一次启动

2.2启动 HDFS

2.3启动 YARN

2.4 Web 端查看 HDFS 的 NameNode

2.5 Web 端查看 YARN 的 ResourceManager

3. 集群基本测试

3.1 上传文件到集群

3.2上传后看文件存放在哪里

3.3下载

3.4 执行 wordcount 程序·

4.集群崩溃处理方式

5.配置历史服务器

5.1配置 mapred-site.xml

第 1 章大数据概念

第 2 章大数据特点（4V）

第三章大数据的应用场景

第五章大数据部门间业务流程分析

第 6 章大数据部门内组织结构

1.3、Hadoop的三大发行版本（了解）

三、Hadoop 运行模式

四、常见错误及解决方案