不吃香菜的码农

大数据Hadoop入门——HDFS、Yarn、MapReduce

Hadoop框架详细个人总结——Hadoop入门篇

大数据是什么？
Hadoop基本概念介绍
- 一、什么是Hadoop？
- 二、Hadoop优势——四高
- 三、Hadoop组成（重点）
- 四、HDFS架构
- 五、YARN架构
- 六、MapReduce架构
- 七、HDFS、YARN、MapReduce 三者关系
Hadoop运行环境搭建
- 虚拟机的准备
- - 一、安装虚拟机
  - 二、虚拟机配置及环境准备
- Hadoop运行模式
- - 一、本地运行模式
  - 二、伪分布式模式
  - 三、完全分布式模式
  - - 1.虚拟机准备
    - 2.准备一个集群分发脚本
    - 3.SSH 无密登录配置
    - 4.集群配置
    - 5.群起集群
    - 6.配置历史服务器
    - 7.配置日志的聚集
    - 8.集群启动/停止方式总结总结
    - 9.编写 Hadoop 集群常用脚本
    - 9.常用端口号说明
Hadoop入门总结（面试可能问）
- 1.常用端口号
- 2.常用的配置文件

大数据是什么？

1）大数据的主要解决问题：海量数据的采集、存储和分析计算问题。
2）重要单位：按顺序->bit、Byte、KB、MB、GB、TB、、PB、EB。
	1Byte = 8bit 
	1K = 1024Byte 
	1MB = 1024K 
	1G = 1024M 
	1T = 1024G 
	1P = 1024T
3）大数据特点：大量、高速、多样（结构化数据和非结构化数据）、低价密度低
以数据库/文本为主的结构化数据，以网络日志、音频、视频、图片、地理位置信息为主的非结构化数据。

Hadoop基本概念介绍

一、什么是Hadoop？

1）Hadoop是一个分布式系统基础架构
2）重要解决海量数据存储和计算的问题
2）可以说Hadoop是一个大的生态圈

二、Hadoop优势——四高

高可靠性
因为Hadoop在底层维护了数据的副本，所以即使某个计算单元或存储单元产生了故障，也不会造成数据的丢失。
如上图，三台服务器上，虽然102上的数据丢了一个，但在103和104还存在着副本，就不会造成它的丢失。
高扩展性
集群间分配任务数据，可以动态的增加删除服务器，可以很便利的扩展数以千计的节点。
在双十一的时候，就可以动态的增加服务器。
高效性
Hadoop集群之间是并行工作的，这样可以加快任务处理的速度。
高容错性
能够自动将失败的任务重新分配。假如某台结点的任务挂掉了，就可以自动分配到另一台节点继续执行。

三、Hadoop组成（重点）

hadoop1.x的时代，Hadoop中的mapreduce同时处理计算和资源的调度，耦合性较大，独立性较小。（模块间联系越多，其耦合性越强，同时表明其独立性越差。）
hadoop2.x的时代，增加了yarn，它只负责资源的调度，mapreduce只负责运算，这样各个模块的独立性提高了。

四、HDFS架构

HDFS是一个分布式文件系统

架构
1）NameNode(nn)----老板
这里主要存储文件的元数据，就是指文件名、文件目录结构、文件属性（生成时间、副本数）、以及每个文件的块列表和块所在的DataNode等信息
2）DataNode(dn)----员工
这里顾名思义存的就是文件的块数据和块数据的校验和。
3）Secondary NameNode(2nn)----秘书
这里存放的是namenode的元数据备份，每隔一段时间这个小秘就会去把老板的备份一下，到后面的part细讲。

五、YARN架构

YARM是一个资源调度器

架构
1）ResourceManager（RM）：整个集群资源（内存、CPU等）的老大
2）NodeManager（N M）：单个节点服务器资源老大
3）ApplicationMaster（AM）：单个任务运行的老大
4）Container：容器，相当一台独立的服务器，里面封装了任务运行所需要的资源，如内存、CPU、磁盘、网络等。

上图就是yarn的框架，客户端可以有多个，集群上可以运行多个ApplicationMaster ，每个nodemanger上可以有多个Container。

六、MapReduce架构

MapReduce负责数据的计算。将计算分为map阶段和reduce阶段。
1）Map阶段并行处理输入的数据
2）Reduce阶段对map端的结果进行汇总

七、HDFS、YARN、MapReduce 三者关系

1、有一个mapreduce任务，首先在客户端启动，这个时候需要一个ApplicationMaster，管理这个任务，这里我们简称mrApplicationMaster，此时拿到任务就要去申请资源。
2、向整个集群资源的老大ResourceManger去申请运算资源。
3、申请到资源后，mrApplicationMaster会遍历hdfs的文件，规划启动多少个mapTask和reduceTask。
4、然后mrApplicationMaster向ResourceManger汇报maptask，reduecetask数，申请nodemanager资源，每个nodemanager节点上管理运算资源，然后nodemanger启动容器进行计算。
5、最后将ruducetask的输出结果输出到hdfs上。

Hadoop运行环境搭建

虚拟机的准备

一、安装虚拟机

1. VMware的安装

官网进行安装，具体教程可以问度娘。

2. CentOS系统的安装

系统的安装首先先配置电脑，再安装系统。
这里可以先百度，后期会出详细教程，这里再不多赘述。
这里讲一下里面的虚拟网络IP修改地址配置和主机名hosts文件的修改，这些命令也很重要！！

虚拟机网络IP修改地址配置(Linux命令）

1）修改网络IP地址为静态IP地址，避免IP地址经常变化，从而方便节点服务器间的互相通信。

[root@hadoop100 ~]#vim /etc/sysconfig/network-scripts/ifcfg-ens33

2)修改以及添加

#修改
BOOTPROTO="static"
/#IP的配置方法[none|static|bootp|dhcp]（引导时不使用协议|静态分配IP|BOOTP协议|DHCP协议）

#添加
#IP地址
IPADDR=192.168.10.100  
#网关  
GATEWAY=192.168.10.2      
#域名解析器
DNS1=192.168.10.2

3）修改IP地址后的结果如图所示，执行“:wq”命令，保存退出
4）执行"systemctl restart network"命令，重启网络服务。如果报错，则执行“reboot”命令，重启虚拟机

[root@hadoop100 ~]# systemctl restart network

5）使用ifconfig命令查看当前IP，查看是否与刚才修改的IPADDR相对应

[root@hadoop100 ~]# ifconfig

修改主机名和hosts文件
1）修改主机名称

#改为hadoop100
[root@hadoop100 ~]# vim /etc/hostname
hadoop100

2）配置Linux克隆机主机名称映射hosts文件（方便以后打开这个的时候不用输地址，直接输后面的短名字，其实就是为了方便），打开/etc/hosts

[root@hadoop100 ~]# vim /etc/hosts

#添加如下内容
192.168.10.100 hadoop100
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
192.168.10.105 hadoop105
192.168.10.106 hadoop106
192.168.10.107 hadoop107
192.168.10.108 hadoop108

3）重启

[root@hadoop100 ~]# reboot

4）修改windows的主机映射文件（hosts文件）
（1）如果操作系统是window7，可以直接修改
（a）进入C:\Windows\System32\drivers\etc路径
（b）打开hosts文件并添加如下内容，然后保存

192.168.10.100 hadoop100
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
192.168.10.105 hadoop105
192.168.10.106 hadoop106
192.168.10.107 hadoop107
192.168.10.108 hadoop108

（2）如果操作系统是window10，先拷贝出来，修改保存以后，再覆盖即可
（a）进入C:\Windows\System32\drivers\etc路径
（b）拷贝hosts文件到桌面
（c）打开桌面hosts文件并添加如下内容

192.168.10.100 hadoop100
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
192.168.10.105 hadoop105
192.168.10.106 hadoop106
192.168.10.107 hadoop107
192.168.10.108 hadoop108

（d）将桌面hosts文件覆盖C:\Windows\System32\drivers\etc路径hosts文件
3. 远程终端工具的安装

安装Xshell7，然后配置，这里也不再多赘述。

二、虚拟机配置及环境准备

1.ping一下百度，测试一下能上网吗？

[root@hadoop100 ~]# ping www.baidu.com

2.安装 epel-release
这就相当于一个一个网络仓库，里面有很多包。

[root@hadoop100 ~]# yum install -y epel-release

注意：如果 Linux 安装的是最小系统版，还需要安装如下工具；如果安装的是 Linux
桌面标准版，不需要执行如下操作：

#net-tool：工具包集合，包含 ifconfig 等命令
root@hadoop100 ~]# yum install -y net-tools

#vim：编辑器
[root@hadoop100 ~]# yum install -y vim

3.关闭防火墙，关闭防火墙开机自启

[root@hadoop100 ~]# systemctl stop firewalld
[root@hadoop100 ~]# systemctl disable firewalld.service

基本配置差不多了，剩下的不再赘述，后面另出一个详细说吧~~

[atguigu@hadoop102 hadoop-3.1.3]$ ll
总用量 52
drwxr-xr-x. 2 atguigu atguigu 4096 5 月 22 2017 bin
drwxr-xr-x. 3 atguigu atguigu 4096 5 月 22 2017 etc
drwxr-xr-x. 2 atguigu atguigu 4096 5 月 22 2017 include
drwxr-xr-x. 3 atguigu atguigu 4096 5 月 22 2017 lib
drwxr-xr-x. 2 atguigu atguigu 4096 5 月 22 2017 libexec
-rw-r--r--. 1 atguigu atguigu 15429 5 月 22 2017 LICENSE.txt
-rw-r--r--. 1 atguigu atguigu 101 5 月 22 2017 NOTICE.txt
-rw-r--r--. 1 atguigu atguigu 1366 5 月 22 2017 README.txt
drwxr-xr-x. 2 atguigu atguigu 4096 5 月 22 2017 sbin
drwxr-xr-x. 4 atguigu atguigu 4096 5 月 22 2017 share

（1）bin 目录：存放对 Hadoop 相关服务（hdfs，yarn，mapred）进行操作的脚本
（2）etc 目录：Hadoop 的配置文件目录，存放 Hadoop 的配置文件
（3）lib 目录：存放 Hadoop 的本地库（对数据进行压缩解压缩功能）
（4）sbin 目录：存放启动或停止 Hadoop 相关服务的脚本
（5）share 目录：存放 Hadoop 的依赖 jar 包、文档、和官方案例

Hadoop运行模式

Hadoop 运行模式包括：本地模式、伪分布式模式以及完全分布式模式。
1、本地模式：单机运行，一般自己学习的时候测试用一用，生产环境不用。
2、伪分布式模式：也是单机运行，但是具备 Hadoop 集群的所有功能，一台服务器模
拟一个分布式的环境。个别缺钱的公司用来测试，生产环境不用。哈哈哈哈哈哈！！！大海哥讲的。
3、完全分布式模式：多台服务器组成分布式环境。生产环境使用。

一、本地运行模式

你可以在本地执行一个官方的WordCount体验一下~~

#1,创建在 hadoop-3.1.3 文件下面创建一个 wcinput 文件夹
[atguigu@hadoop102 hadoop-3.1.3]$ mkdir wcinput

#2,在 wcinput 文件下创建一个 word.txt 文件
[atguigu@hadoop102 hadoop-3.1.3]$ cd wcinput

#3,编辑 word.txt 文件
[atguigu@hadoop102 wcinput]$ vim word.txt
  
#在文件中输入如下内容
hadoop yarn
hadoop mapreduce
atguigu
atguigu
#保存退出：:wq

#4,回到 Hadoop 目录/opt/module/hadoop-3.1.3
#5,执行程序
[atguigu@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput

#6,查看结果
[atguigu@hadoop102 hadoop-3.1.3]$ cat wcoutput/part-r-00000

二、伪分布式模式

说一下高大尚的完全分布式，这个再不多赘述，么么哒~~找度娘吧

三、完全分布式模式

要做什么呢？
1）准备 3 台客户机（关闭防火墙、静态 IP、主机名称） 2）安装 JDK
3）配置环境变量
4）安装 Hadoop
5）配置环境变量
6）配置集群
7）单点启动
8）配置 ssh
9）群起并测试集群
冲起来吧！！

1.虚拟机准备

这里就在不多赘述，你可以克隆，也可以重新创，准备好就可以了，注意防火墙要关闭，以及静态IP和主机名称的配置喔~~

2.准备一个集群分发脚本

啥？？你问我为啥要准备？当然一切为了便利，一切为了早点下班！！

1）scp安全拷贝

scp可以实现服务器和服务器之间的数据的拷贝（from server1 to server2）

基本语法

案例：
在 hadoop102 上，将 hadoop102 中/opt/module/jdk1.8.0_212 目录拷贝到hadoop103 上。

[atguigu@hadoop102 ~]$ scp -r /opt/module/jdk1.8.0_212 atguigu@hadoop103:/opt/module

2）rsync 远程同步工具

rsync 主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync 和 scp 区别：用 rsync 做文件的复制要比 scp 的速度快，rsync 只对差异文件做更新。scp 是把所有文件都复制过去。

基本语法：

案例：

#同步 hadoop102 中的/opt/module/hadoop-3.1.3 到 hadoop103
[atguigu@hadoop102 module]$ rsync -av hadoop-3.1.3/ atguigu@hadoop103:/opt/module/hadoop-3.1.3/

3）xsync 集群分发脚本
（1）需求：循环复制文件到所有节点的相同目录下
（2）需求分析：
（a）rsync 命令原始拷贝：

rsync -av /opt/module atguigu@hadoop103:/opt/

（b）期望脚本：

xsync 要同步的文件名称

（c）期望脚本在任何路径都能使用（脚本放在声明了全局环境变量的路径）

[atguigu@hadoop102 ~]$ echo $PATH
#下面是输出  /home/atguigu/bin: 全局变量
/usr/local/bin:/usr/bin:/usr/local/sbin:/usr/sbin:/home/atguigu/.local/bin:/home/atguigu/bin:/opt/module/jdk1.8.0_212/bin

（3）脚本实现
（a）在/home/atguigu/bin 目录下创建 xsync 文件

[atguigu@hadoop102 opt]$ cd /home/atguigu
[atguigu@hadoop102 ~]$ mkdir bin
[atguigu@hadoop102 ~]$ cd bin
[atguigu@hadoop102 bin]$ vim xsync

在xsync该文件中编写如下代码

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
  echo Not Enough Arguement!
  exit;
fi
#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
 echo ==================== $host ====================
 #3. 遍历所有目录，挨个发送
 for file in $@
 do
 #4. 判断文件是否存在
  if [ -e $file ]
   then
	 #5. 获取父目录
	 pdir=$(cd -P $(dirname $file); pwd)
	 #6. 获取当前文件的名称
	 fname=$(basename $file)
	 ssh $host "mkdir -p $pdir"
	 rsync -av $pdir/$fname $host:$pdir
  else
 	echo $file does not exists!
 fi
 done
done

（b）修改脚本 xsync 具有执行权限

[atguigu@hadoop102 bin]$ chmod +x xsync

（c）将脚本复制到/bin 中，以便全局调用

[atguigu@hadoop102 bin]$ sudo cp xsync /bin/

（d）同步环境变量配置（root 所有者）

[atguigu@hadoop102 ~]$ sudo ./bin/xsync /etc/profile.d/my_env.sh

注意：如果用了 sudo，那么 xsync 一定要给它的路径补全。
让环境变量生效

[atguigu@hadoop103 bin]$ source /etc/profile
[atguigu@hadoop104 opt]$ source /etc/profile

3.SSH 无密登录配置

（1）基本语法

ssh 另一台电脑的 IP 地址

ssh 连接

[atguigu@hadoop102 ~]$ ssh hadoop103

退回到 hadoop102

[atguigu@hadoop103 ~]$ exit

（2）无密钥配置

免密登录原理

1、首先A服务器上要生成密钥对，公钥和私钥。
2、将A的公钥拷贝给B，然后重命名授权key
3、A向B采用ssh访问，数据是用A的私钥进行加密。
4、B接收到数据后，在授权key中查找是否有对应的用户名和IP，这里就是A的，然后生成一个随机字符串。
5、B将字符串采用A的公钥加密，发送给A。
6、A接收到B发来的随机字符串那个数据后，用A自己的私钥进行解密，然后将解密的数据再发给B，B将发过来的和自己随机产生的进行对比，如果一样就可以免密登录了。

总结：A要免密码登录到B，B首先要拥有A的公钥，然后B要做一次加密验证。对于非对称加密，公钥加密的密文不能公钥解开，只能私钥解开。

这里解释一下非对称加密：
非对称加密需要两个密钥：公钥 (publickey) 和私钥 (privatekey)。公钥和私钥是一对，如果用公钥对数据加密，那么只能用对应的私钥解密。如果用私钥对数据加密，只能用对应的公钥进行解密。因为加密和解密用的是不同的密钥，所以称为非对称加密。

实现免密登录
1）生成公钥和私钥

[atguigu@hadoop102 .ssh]$ pwd
/home/atguigu/.ssh
[atguigu@hadoop102 .ssh]$ ssh-keygen -t rsa

然后敲（三个回车），就会生成两个文件 id_rsa（私钥）、id_rsa.pub（公钥）。
2）将公钥拷贝到要免密登录的目标机器上

[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop102
[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop103
[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop104

注意：
还需要在 hadoop103 上采用 atguigu 账号配置一下无密登录到 hadoop102、hadoop103、hadoop104 服务器上。
还需要在 hadoop104 上采用 atguigu 账号配置一下无密登录到 hadoop102、hadoop103、hadoop104 服务器上。
还需要在 hadoop102 上采用 root 账号，配置一下无密登录到 hadoop102、hadoop103、hadoop104；

- .ssh 文件夹下（~/.ssh）的文件功能解释

4.集群配置

（1）集群部署规划

注意：
➢ NameNode 和 SecondaryNameNode 不要安装在同一台服务器
➢ ResourceManager 也很消耗内存，不要和 NameNode、SecondaryNameNode 配置在同一台机器上。

（2）配置文件说明

➢Hadoop 配置文件分两类：默认配置文件和自定义配置文件。
➢只有用户想修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值。

1）默认配置文件

2）自定义配置文件

core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml 四个配置文件存放在
$HADOOP_HOME/etc/hadoop 这个路径上，用户可以根据项目需求重新进行修改配置。

（3）配置集群

核心配置文件
配置 core-site.xml

[atguigu@hadoop102 ~]$ cd $HADOOP_HOME/etc/hadoop
[atguigu@hadoop102 hadoop]$ vim core-site.xml

#文件内容如下：


<configuration>
 
 <property>
    <name>fs.defaultFSname>
    <value>hdfs://hadoop102:8020value>
 property>
 
 <property>
    <name>hadoop.tmp.dirname>
    <value>/opt/module/hadoop-3.1.3/datavalue>
 property>
 
 <property>
    <name>hadoop.http.staticuser.username>
    <value>atguiguvalue>
 property>
configuration>

HDFS 配置文件
配置 hdfs-site.xml

[atguigu@hadoop102 hadoop]$ vim hdfs-site.xml

#文件内容如下：


<configuration>

<property>
 <name>dfs.namenode.http-addressname>
 <value>hadoop102:9870value>
 property>

 <property>
 <name>dfs.namenode.secondary.http-addressname>
 <value>hadoop104:9868value>
 property>
configuration>

YARN 配置文件
配置 yarn-site.xml

[atguigu@hadoop102 hadoop]$ vim yarn-site.xml

#文件内容如下：


<configuration>
 
 <property>
	 <name>yarn.nodemanager.aux-servicesname>
	 <value>mapreduce_shufflevalue>
 property>
 
 <property>
	 <name>yarn.resourcemanager.hostnamename>
	 <value>hadoop103value>
 property>
 
 <property>
	 <name>yarn.nodemanager.env-whitelistname>
	 <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CO
NF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAP
RED_HOMEvalue>
 property>
configuration>

MapReduce 配置文件
配置 mapred-site.xml

[atguigu@hadoop102 hadoop]$ vim mapred-site.xml

#文件内容如下：


<configuration>

 <property>
	 <name>mapreduce.framework.namename>
	 <value>yarnvalue>
 property>
configuration>

(4)在集群上分发配置好的 Hadoop 配置文件

[atguigu@hadoop102 hadoop]$ xsync /opt/module/hadoop-
3.1.3/etc/hadoop/

5.群起集群

（1）配置 workers

[atguigu@hadoop102 hadoop]$ vim /opt/module/hadoop-
3.1.3/etc/hadoop/workers

#在该文件中增加如下内容
hadoop102
hadoop103
hadoop104

注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。

#同步分发所有节点配置文件
[atguigu@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc

（2）启动集群

如果集群是第一次启动，需要在集群节点格式化 NameNode（注意：格式化 NameNode，会产生新的集群 id，导致 NameNode 和 DataNode 的集群 id 不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化 NameNode 的话，一定要先停止 namenode 和 datanode 进程，并且要删除所有机器的 data 和 logs 目录，然后再进行格式化。）

[atguigu@hadoop102 hadoop-3.1.3]$ hdfs namenode -format

启动 HDFS
启动的是HDFS中的节点 NameNode、DataNode和secondaryNameNode

[atguigu@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh

在配置了ResourceManager 的节点启动 YARN

[atguigu@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh

Web 端查看 HDFS 的 NameNode

（a）浏览器中输入：http://hadoop102:9870
（b）查看 HDFS 上存储的数据信息

Web 端查看 YARN 的 ResourceManager

（a）浏览器中输入：http://hadoop103:8088
（b）查看 YARN 上运行的 Job 信息

（3）集群基本测试

HDFS 文件存储路径
/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-1436128598- 192.168.10.102-1610603650062/current/finalized/subdir0/subdir0
执行 wordcount 程序

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

6.配置历史服务器

为啥要配这个，因为我念旧叭~~
为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下：

(1）配置 mapred-site.xml

[atguigu@hadoop102 hadoop]$ vim mapred-site.xml

#在该文件里面增加如下配置。
<!-- 历史服务器端地址 -->
<property>
	 <name>mapreduce.jobhistory.address</name>
	 <value>hadoop102:10020</value>
</property>
<!-- 历史服务器 web 端地址 -->
<property>
	 <name>mapreduce.jobhistory.webapp.address</name>
	 <value>hadoop102:19888</value>
</property>

(2）分发配置

[atguigu@hadoop102 hadoop]$ xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml

(3）在 hadoop102 启动历史服务器

[atguigu@hadoop102 hadoop]$ mapred --daemon start historyserver

7.配置日志的聚集

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到 HDFS 系统上。
日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。

注意：开启日志聚集功能，需要重新启动 NodeManager 、ResourceManager 和
HistoryServer。
开启日志聚集功能具体步骤如下：
(1) 配置 yarn-site.xml

[atguigu@hadoop102 hadoop]$ vim yarn-site.xml

#在该文件里面增加如下配置。
<!-- 开启日志聚集功能 -->
<property>
	 <name>yarn.log-aggregation-enable</name>
	 <value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property> 
	 <name>yarn.log.server.url</name> 
	 <value>http://hadoop102:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为 7 天 -->
<property>
	 <name>yarn.log-aggregation.retain-seconds</name>
	 <value>604800</value>
</property>

(2）分发配置

[atguigu@hadoop102 hadoop]$ xsync $HADOOP_HOME/etc/hadoop/yarnsite.xml

注意：这里的 HADOOP_HOME=/opt/module/hadoop-3.1.3，$HADOOP_HOME是一个变量引用

(3）关闭 NodeManager 、ResourceManager 和 HistoryServer

[atguigu@hadoop103 hadoop-3.1.3]$ sbin/stop-yarn.sh
[atguigu@hadoop103 hadoop-3.1.3]$ mapred --daemon stop historyserver

(4）启动 NodeManager 、ResourceManage 和 HistoryServer

[atguigu@hadoop103 ~]$ start-yarn.sh
[atguigu@hadoop102 ~]$ mapred --daemon start historyserver

(5）查看日志

历史服务器地址
http://hadoop102:19888/jobhistory

8.集群启动/停止方式总结总结

(1）各个模块分开启动/停止（配置 ssh 是前提）

（1）整体启动/停止 HDFS
start-dfs.sh
stop-dfs.sh
（2）整体启动/停止 YARN
start-yarn.sh
stop-yarn.sh

(2）各个服务组件逐一启动/停止

（1）分别启动/停止 HDFS 组件
hdfs --daemon start/stop namenode/datanode/secondarynamenode
（2）启动/停止 YARN
yarn --daemon start/stop resourcemanager/nodemanager

9.编写 Hadoop 集群常用脚本

觉得分开启动麻烦，那就写个启动脚本叭~~

(1）Hadoop 集群启停脚本（包含 HDFS，Yarn，Historyserver）：myhadoop.sh

[atguigu@hadoop102 ~]$ cd /home/atguigu/bin
[atguigu@hadoop102 bin]$ vim myhadoop.sh

# 输入如下内容
#!/bin/bash
if [ $# -lt 1 ]
then
  echo "No Args Input..."
  exit ;
fi
case $1 in
"start")
	 echo " =================== 启动 hadoop 集群 ==================="
	 echo " --------------- 启动 hdfs ---------------"
	 ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
	 ## 当前服务器远程登录另一个服务器B后执行某个命令或脚本（上面的句子的意思）
	 echo " --------------- 启动 yarn ---------------"
	 ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
	 echo " --------------- 启动 historyserver ---------------"
	 ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")
	 echo " =================== 关闭 hadoop 集群 ==================="
	 echo " --------------- 关闭 historyserver ---------------"
	 ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop 	historyserver"
	 echo " --------------- 关闭 yarn ---------------"
	 ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
	 echo " --------------- 关闭 hdfs ---------------"
	 ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
 echo "Input Args Error..."
;;
esac

#保存后退出，然后赋予脚本执行权限
[atguigu@hadoop102 bin]$ chmod +x myhadoop.sh

2）查看三台服务器 Java 进程脚本：jpsall

[atguigu@hadoop102 ~]$ cd /home/atguigu/bin
[atguigu@hadoop102 bin]$ vim jpsall

#输入如下内容
#!/bin/bash
for host in hadoop102 hadoop103 hadoop104
do
 echo =============== $host ===============
 ssh $host jps 
done

#保存后退出，然后赋予脚本执行权限
[atguigu@hadoop102 bin]$ chmod +x jpsall

3）分发/home/atguigu/bin 目录（里面有这两个脚本，保证自定义脚本在三台机器上都可以使用

[atguigu@hadoop102 ~]$ xsync /home/atguigu/bin/

9.常用端口号说明

Hadoop入门总结（面试可能问）

1.常用端口号

Hadoop3.x

HDFS NameNode 内部通常端口：8020/9000/9820
HDFS NameNode对用户的查询端口：9870
Yarn查看任务运行情况的：8088
历史服务器：19888

Hadoop3.x

HDFS NameNode 内部通常端口：8020/9000
HDFS NameNode 对用户的查询端口：50070
Yarn查看任务运行情况的：8088
历史服务器：19888

2.常用的配置文件

--Hadoop3.x--
core-site.xml  
hdfs-site.xml  
yarn-site.xml  
mapred-site.xml 
workers

--Hadoop2.x--
core-site.xml  
hdfs-site.xml  
yarn-site.xml  
mapred-site.xml 
slaves

你可能感兴趣的:(大数据,hadoop,hdfs,大数据,yarn,mapreduce)

【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
Zynq PL端IP核之AXI DMA Mazy.v fpga开发嵌入式硬件 arm开发单片机
1.AXIDMA简介Zynq提供了两种DMA，一种是PS中的DMA控制器，通过GP口与PL端连接，另一种是PL中的AXIDMAIP核（软核），通过HP口与PS端连接。Zynq有4个HP接口，每一个HP接口都包含控制和数据FIFO，这些FIFO为大数据量突发传输提供缓冲，让HP接口成为理想的高速数据传输接口。AXIDMAIP内核在AXI4内存映射和AXI4StreamIP接口之间提供高带宽直接储存访
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
ssh命令满分对我强制爱 linux 服务器运维 spark
ssh命令无需密码也可登录要先关闭防火墙，命令如下：systemctlstopfirewalldsystemctldisablefirewalldsystemctlstatusfirewalldeg：目标：hadoop100通过ssh访问hadoop101,hadoop102时不需要密码，其他两台设备也类似。具体操作如下：1.在hadoop100中生成公钥和密码。ssh-keygen-trsa三次
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
LakeHouse湖仓一体成为下一站灯塔，数仓、数据湖架构即将退出群聊科杰科技大数据数据仓库
摘要：当前的大数据技术应用趋势表明，客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和ORC格式的外部表支持，这使数仓用户可以从相同的SQL引擎查询数据湖表，但它不会使数据湖表更易于管理，也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。KeenDataLakeHouse（湖仓一体）作为新一代大数据技术架构，将逐渐取代单一数据湖和数仓架构，成为大数据架
数据让农业更聪明——用大数据激活田间地头 Echo_Wish 大数据大数据
数据让农业更聪明——用大数据激活田间地头在农业领域，随着人口增长和气候变化的影响，如何提升生产力始终是个关键话题。大数据，这个曾经只属于科技领域的概念，如今已悄然进入田间地头。今天，我以Echo_Wish的视角，和大家聊聊大数据如何赋能农业生产力，帮农民在阳光下也能掌握“科技的钥匙”。认识农业中的大数据什么是农业中的“大数据”？简单来说，就是收集和分析有关土地、气候、作物、病虫害以及市场需求等方面
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
第三十篇维度建模：从理论到落地的企业级实践随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、维度建模核心理论体系1.1Kimball方法论四大支柱1.2关键概念对比矩阵二、四步建模法全流程解析2.1选择业务过程（以电商为例）2.2声明原子粒度（订单案例）2.3维度设计规范时间维度（含财年逻辑）SCDType2完整实现（Hudi）2.4事实表类型与设计三、企业级建模实战：电商用户分析3.1业务矩阵分析3.2模型实现代码四、高级建模技巧4.1多星型模式关联4.2大数据场景优化五、性能
【Flink】flink启动任务，taskmanager.out 文件增涨非常快九师兄 flink 大数据
1.概述flink启动任务，taskmanager.out文件增涨非常快，这个文件大小怎么限定？测试了很多办法发现都不起作用这个问题可以试试：【Flink】Flink1.11.2onYARN滚动日志配置但是后面我发现不是这个导致的，是slf4j依赖冲突，jar包删除就可以了
Hive面试题御风行云天面试题大全 hive hadoop 数据仓库面试
Hive面试题1Hive基础概念1.1解释Hive是什么以及它的用途Hive的主要用途：1.2描述Hive架构和组件1.HiveCLI/Beeline和WebUI2.HiveQL3.HiveDriver（驱动）4.Metastore5.Compiler（编译器）6.Optimizer（优化器）7.Executor（执行器）8.HadoopCoreComponents（核心组件）9.HiveUDFs
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
深陷“大数据杀熟”漩涡的飞猪，庄卓然如何力挽狂澜？财经三剑客大数据
在线旅游市场（OTA）的蓬勃发展为消费者带来了诸多便利，然而，在这股数字化浪潮中，飞猪旅行却因其频繁陷入“大数据杀熟”的争议而备受瞩目。这一行为不仅损害了消费者的合法权益，更让飞猪的品牌形象蒙上了一层阴影。近年来，飞猪平台上关于价格乱象的投诉屡禁不止。在黑猫投诉平台上，与“飞猪”相关的投诉累计已超9万条，其中直接以“飞猪杀熟”为关键词的投诉便达数百条。消费者们纷纷反映，在飞猪平台上预订机票、酒店等
API item_get 在电商平台的核心作用以及如何测试 index_all 数据供应商京东api java 大数据开发语言
在电商行业蓬勃发展的今天，跨平台运营已成为众多商家的必然选择。然而，随之而来的数据孤岛问题却成为了制约电商企业进一步发展的瓶颈。为了解决这一问题，电商大数据平台应运而生，而item_getAPI作为获取商品详情的关键接口，在其中扮演着至关重要的角色。本文将深入探讨item_getAPI在跨平台电商数据整合中的应用与优势，为电商企业在数据驱动的道路上提供有力支持。一、跨平台电商数据整合的挑战在跨平台
“四预”驱动数字孪生水利：让智慧治水守护山河安澜 GeoSaaS 实景三维智慧城市人工智能 gis 大数据安全
近年来，从黄河秋汛到海河特大洪水，从珠江流域性洪灾到长江罕见骤旱，极端天气频发让水安全问题备受关注。如何实现“治水于未发”？数字孪生水利以“预报、预警、预演、预案”（四预）为核心，正在掀起一场水利治理的智慧革命。一、数字孪生水利：从物理世界到虚拟镜像的跃迁数字孪生水利并非简单的“数字建模”，而是通过高精度传感器、大数据、人工智能等技术，在虚拟空间构建与物理流域完全映射的“数字分身”，实现水情、工情
数智读书笔记系列021《大数据医疗》：探索医疗行业的智能变革 Allen_Lyb 数智读书笔记大数据健康医疗人工智能 python
一、书籍介绍《大数据医疗》由徐曼、沈江、余海燕合著，由机械工业出版社出版。徐曼是南开大学商学院副教授，在大数据驱动的智能决策研究领域颇有建树，尤其在大数据驱动的医疗与健康决策方面有着深入研究，曾获天津优秀博士论文、教育部博士研究生新人奖。沈江等作者也在相关学术和实践领域有着丰富的经验和深厚的专业知识。这本书系统且深入地探讨了大数据技术在医疗领域的应用与变革，对推动医疗行业的智能化发展具有重要的理论
#Hadoop全分布式安装 #mysql安装 #hive安装砸吧砸吧 hadoop hive yarn mysql
分布式（多台机器部署不同组件）与集群（多台机器部署相同组件）概念。Linux基础命令linux具有文件数：目录、文件，从根目录开始，路径具有唯一性。pwd：显示当前路径特殊符号：/：根目录.：隐藏文件，如果路径以.开始，表示当前目录下..：当前目录下的上一级~：当前目录的home目录--help：帮助命令使用linux常用操作命令tab键：自动补全ls：显示指定目录内容默认：当前路径-a：显示所有
OpenEuler kinit报错找不到文件的解决办法久违的太阳其他故障处理服务器运维
客户一套华为大数据集群平台,在一台arm平台openEuler服务器上面安装完集群客户端之后,使用kinit认证出现报错Nosuchfileordirectory:最终定位是操作系统/lib64缺少ld包导致,执行下面的命令恢复：ln-sv/lib/ld-linux-aarch64.so.1/lib64/ld-linux-aarch64.so.1
JAVA学习-练习试用Java实现“对大数据集中的网络日志进行解析和异常行为筛查” 守护者170 java学习 java 学习
问题：编写一个Spark程序，对大数据集中的网络日志进行解析和异常行为筛查。解答思路：下面是一个简单的Spark程序示例，用于解析网络日志并筛查异常行为。这个示例假设日志文件格式如下：timestamp,ip_address,user_id,action,event,extra_info2023-01-0112:00:00,192.168.1.1,123,login,success,none202
JAVA学习-练习试用Java实现“实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选” 守护者170 java学习 java 学习
问题：实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选。解答思路：要实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选，需要按照以下步骤进行：1.环境准备确保的环境中已经安装了ApacheSpark。可以从[ApacheSpark官网](https://spark.apache.org/downloads.html)下载并安装。2.创建Spark应用以下是
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
基于koajsAdmin+mongodb的后台管理快速开发框架安装运行记录后青春期的诗go 经验分享 mongodb 数据库 node.js vue.js elementui
前置操作下载源码源码地址：https://gitee.com/zhoushuigui/koajs-admin安装mongodb数据库并连接安装yarnnpminstallyarn-g安装nodemonnpminstallnodemon-g前端运行安装依赖进入项目根目录，在命令行执行如下命令安装依赖：yarn--registry=https://registry.npmmirror.com启动服务y
Hadoop（在Linux中安装jdk）錠诗味 linux hadoop 运维
安装之前需准备：1.需要远程连接软件2.需要jdk3.需要准备两个文件夹01/export/software安装包02/export/servers解压文件夹现在正式开始安装1.将压缩包存放在/export/software目录下2.进入到software目录进行解压cd/export/software（切换目录）tar-zxvfjdk-8u202-linux-x64.tar.gz-C/expor
数据仓库和非结构化数据。 weixin_30631587 数据库
数据仓库包含标准化数据。还包含外部数据/非结构化数据如果外部数据量小可以保持数据库内部或者专用服务器。如果量大只能记住地址，在etl加载当然也有需求是实时数据比如股票汇率拿只能etl过程处理非结构化数据包含图片，视频音频如果是传统数据库db2oracle存在里面是不合适的。存储影响性能如果是hadoop无所谓影响不大，但是从使用者的角度非结构化数据只能转换关系使用建一张元数据表存储非结构化存储位置
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_