weixin_34010949

Hadoop原理及部署初探

Hadoop

Hadoop为何物

Hadoop是一个分布式系统基础架构，由Apache基金会所开发。

用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。

Hadoop实现了一个分布式文件系统（HadoopDistributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以流的形式访问（streaming access）文件系统中的数据。

Hadoop基本概念

·核心组件：

MapReduce

HDFS分布式文件存储系统

·GFS：google file system

将大文件分割成列存储在不同的服务器上

架构与其他分布式文件系统没有太大的区别

·数据类型：

结构化数据 RDBMS

半结构化数据 XML,JSON（轻量级XML）

非结构化数据

比如：我们使用爬虫对某个站点爬站，最后爬来的数据都是非结构化的数据

再比如：

将一个文件内计算文件中每个单词出现的数量并按照逆序排序--可以将将这个文件按大小分到不同的节点上，每个节点以不额定的文件大小对其进行处理

使用GFS时限分部署存储再通过mapReduce在分布式存储上完成分布式计算

NDFS:

引入了mapReduce思想，于是就有了HDFS，那么什么又是MapRdeuce思想呢？如下

mapReduce 思想：

·编程框架 API 基于这种API写的程序能够基于这种模型

·mapredeuce运行环境 -- Runtime Environment

·mapredeuce implamentation 技术实现

MapRdeuce基本工作流程：

首先，将单词MapReduce拆分为 Map，Rdeuce，顾名思义，此为2个组件。

以google爬虫为例，在处理的数据只能是键值（key/value）数据，很显然，google的网络爬虫所爬到的页面，对页面进行hash计算，对页面本身当中key ，对页面的内容当做value

如果处理的文件为日志，首先日志不是键值，但是mapReduce只能处理键值数据，所以这是其map redeuce的两段的意义了：

map：将原始数据转换成键值对，将转换后的数据存储下来（过程是按节点来处理的）

redeuce：将处理完成后半段，更进一步处理，完成我们所期望的结果

MapRedeuce为两段式任务：

（1）所有节点map必须都完成处理才可以进入下一段任务

（2）Map处理阶段至某个进度的时候（这个进度合适度需要自行进行定义），则开启Redeuce进程，从而Map处理结束后，则进入Redeuce处理。

ETL：

抽取转换加载进hadoop的工具

常用ETL工具

Hive：实现让hadoop拥有sql接口，再也不用写任务，但是Hive不是实时的的因为mapReduce不是实时的

HDFS:工作在用户空间，所有的结合是基于API接口，而且只支持写入删除等简单操作，源数据在源数据服务器上存放，数据则在数据服务器上存储，由此如果想在其存放数据并修改的话理论上来说是不可能的

BigTable：工作在GFS上，将存储内容最终转换为HDFS文件，但是在bigtable上支持随机读写，而且是随机高性能读写--列式存储NoSQL，同一个数据可以存放为N个版本

而且可以小量数据读写，但是本身功能依赖于GFS

impala:为hadoop提供实时的接口，使得任务可以实时进行，实时出结果

pig:yahoo

这样的工具很显然不能满足我们目前的需求，于是，HBase诞生了：

HBase：工作在HDFS之上，利用HDFS的功能实现了NoSQL列式存储的方式，而其就是Bigtable的克隆版，因此可以在HBase基础上也可以随意修改数据了；

HBase本身有分布式功能，因此跑在HDFS 天然具有分布优势，而HBase自己能够实现自动分区的功能与mogodb相似，由于是列式存储，所以性能非常好。

因此做日志分析或日志挖掘，基于HBase就可以完全实现

MapReduce工作在HBase上如果不基于MapReduce 而是跑在HDFS是没有问题的，但是只能查看结果而不能处理结果

Hadoop组成部分：

hadoop由JAVA语言所研发，其不适合存储海量零碎小文件，其关键组件有：

·NameNode：名称节点，主要功能在于实现保存文件元数据，这些元数据直接保存在内存中，为了保证元数据的持久性，而也会周期性的同步到磁盘上去。磁盘上的数据通常被称为元数据的映像数据 image file

以防万一，如果服务或机器崩溃了，它会基于Image File以及各个DateNode的报告信息重新生成元数据。

·Secondary NameNode：第二名称节点，NameNode在早期只有一个，后来提供了第二个名称节点Secondry NameNode ,万一主节点崩溃，secondary无非是将image file整合到本地实现快速启动节点而已，同时也能够对Namenode节点映像文件合并的功能，平时不提供任何节点的服务。

·HDFS DataNode：所有大数据都保存在数据节点上，我们称为DataNode

HDFS不支持FUSE挂载到本地，所以支持基于HDFS的AIP(HadoopAPI)来进行访问，因此必须自己去研发专用的命令行工具。

服务是如何在HDFS中写数据

（1）当我们创建一个数据时候，需要先向NameNode发起请求；

（2）NameNode收到请求之后，会告知HDFSDataNode，说明需要分别存储至什么位置，当报告返回回来之后，HDFS Client将对其发起写操作请求；

（3）NameNode会为HDFS Client会分配一个DataNode数据节点；

（4）数据节点可能是多个，但HDFS Client却无知这一点，只需要向其一节点发起写操作即可；

（5）第一个数据节点datanode 接到请求之后，自行将数据复制到其它节点

（#一个数据块报文为64k 于是其按报文逐一开始存放）

（为了保证数据可用性以及降低集群的成本，hadoop是工作在商用计算机硬件（说白了就是服务器或专业级存储），而且服务器不需要做RAID,它会在磁盘上自行存储多个副本，而且是在不同主机上）

（6）每个数据块存储结束之后，数据节点DataNode都要向Namenode报告存储完毕，接着存放下一个数据块然后报告。。。以此类推；

（7）一旦所有数据都存储完成，NameNode会保存一个列表，记录着数据的副本保存在哪个数据节点上。

如何在HDFS中读取数据

比如文件file1 分别存储在 D1 D2 D3 上，所以一旦有请求读取数据时，那么3个节点都有数据，那么该找谁去读取呢？如上图所示：

当客户端要请求访问某个数据块的时候，一个数据块可能在多个节点都有，那么所以这时候名称节点NameNode会告知它第一个块或文件分别存储在D1 D2 D3 这么3个节点上，那么我们的客户端将会去第一个节点datanode1上去取数据，datanode1接到请求，将数据返回给客户端，假如中途出现中断的情况，那么客户端则去找datanode2，datanode2接到请求后如果有数据那么则将数据返回给用户

其实用户请求的为列表，告知的节点上都存在同样的数据；

如果用户请求存放某大文件，那么会被分割为报文，以报文形式存储到datanode 再由datanode相互复制从而达到并行存储；

同样，也可以并行去读取文件，如果某台数据节点出现问题，那么肯定会导致数据不统一，所以每个datanode每隔3秒钟会向namenode报告自己的心跳信息、所持有的数据块的列表，如果超过阀值则将移除可用列表

在向namenode报告时候为了避免报告出错，还要检验一次数据块是否有问题，如果没有问题则报告，如果namenode没有接到其报告信息，则认为这个数据块缺少副本，并找将报告的完整副本完全复制到其故障节点上

Hadoop名称节的可用性

最简单的方式将名称节点上的持久元数据信息存储多个副本于不同的存储设备（独立硬盘，NFS等网络存储文件系统）中

·第二名节点

Secondary NameNode

·负载均衡

HDFS要做初始化硬盘

·支持回收站功能

·有专用自己的客户端工具

Map Reduce
·函数式编程框架类似于能够接受参数、传递参数、处理机制等并将Map Reduce映射到集群上

大致为：

某一个数据存放在集群内多个节点上，有一数据在其中A、C、F三个节点上。

通过namenode可以得到其数据有多大，以及在哪些节点上，于是派发任务至存放期数据的节点上，做”Map”处理：

Map将这些文件，切割成一个一个的键值对，每个键值对应一个数值，而后输出由Reduce处理

JobTracker -- 作业追踪器

继续上面，由MapReduce集群的JobTracker决定来启动多少个Map作业，由此，在A C F节点上分别启动，但是对于mapReduce节点来讲是公共的，如下图所示:

(DataNode也被称为TaskTracker ;

NameNode也被称为JobTracker)

tasktracker接收到jobtracker任务之后，就在本地节点（datanode）启动一个map作业（进程），说白就是启动一个java虚拟机。所以如果运行3个作业分别在A C F 节点上也就意味着各自提供一个任务进程，这3个任务进程实现去读取文件并完成进一步处理;

在实现map之前还要执行split操作：

将整个文件完全提取成键值对，这些键值对会均衡发往maper任务进程，每个maper拿到作业进程之后会对键值对在本地进行处理，运行之后会将split分割好的并分派给mapper的任务做输出，所以输出定是键值对，但未必和原有的一样;

于是这些键值要发往多个Reducer ，Reducer 也是由jobtracker发起的,一旦maper快要结束，那么必须要启动Reducer来接受3个map进程本身处理结果的，主要是保证同一个键值发往指定的Reducer。

总而言之，只要键值相同，那么肯定是发往同一个Redeucer

单redeuce任务的MapReduce数据流

将大文件切割成N份，并平均分配多个soplit任务每个map处理完之后要在本地排序处理，主要目的是将每个键值对发给同一个Reduce 而我们只有一个Reduce，Reduce在处理之前由merge将同键值对合并处理并交给Reduce；Reduce将结果输出并保存在HDFS上保存为副本文件

多redeuce任务的MapReduce数据流

一个作业可以没有redeuce 但绝对不能没有map

客户端如何提交作业的

job将作业发送给master （jobtracter）其控制着3个作业（Map）；

每个Map去分割完数据之后并在本地完成处理，并且将处理结果按机制向对应的Reduce发送数据；

最终master要在Map处理完成之前启动多个Reduce 并接收来自maper的数据，并完成本地数据库处理而后输出结果；

MapRedeuce逻辑架构

一个hadoop集群，其中节点可能是成千上万的，同时运行的作业未必有一个，提交的mapperredeuce可能会同时运行但是有个基本前提就是一般task tracker节点上最多有2个map和2个reduce服务，由此top tracker必须自行定义这些作业到底怎么跑跑在哪个节点上。

Historical Jbos表示已经跑完的作业。

Active为正在跑的作业。如上图可以看到task tracker 分别跑的reduce数量不一，是由job tracker根据数据摆放的机制调度来决定的

Partitioner 和 Combiner

Partitioner

Partitioner 主要作用是将mapper的结果排序完成并将结果输出结果给定义的reduce

所以每个mapperd背后对应一个partitioner程序，这个程序用户实现将本地的键输出的结果排序并根据整体key的数据发送给reducer

Combiner

Combiner ：在必要时，如果需要最后由redeuce进行合并那么Combiner先在本地进行合并，Combiner不能在本地修改键

Hive和Pig

能够将提交的任务提交给jobtracker，由其转义之后才可以运行

·Hive

在目前来讲被理解为数据仓库架构

能够帮助用户将数据存储至HDFS

需要存放数据则与HIVE交互如果需处理数据则需与mapreduce交互

功能：ETL：能够实现数据的抽取和加载，实现了数据存储管理，能够对大型数据集的查询和分析，能够跟框架进行交互，但也有自己的工作框架：

·Pig

与Hive一样，而pig本身是一个编程平台，内置转换编译器，也可以运行单节点或分布式环境。能够利用hadoop大规模数据分析的脚本语言和运行框架

HDFS

HBase功能

·实时访问

·随机访问

其本身是一个开源的分布式、支持多版本的面向列式的存储系统，实际上HBase存储的依然是键值对。

为了能够使HBase存储海量数据，建议将HBase跑在HDFS上，这样效果会更好，但无论如何，如果HBase想要实现自动分区等高级操作，节点可能会不止一个。

要结合Zookeeper才可以实现工作，所以，要想实现分布式存储必须先实现zookeeper

HBase将经常放在一起访问的数据排版为单独一个字段，这样的机制被称为列族

列族：

列族内的数据是放在一起的，所以往表内插入数据，可以只往期字段上插入数据其他字段可以同时没有数据

HBase特性：

·线性模块可扩展性

·一致性读写

·可配置表的自动切分策略

·RegionServer 自动故障恢复

·基于MapRdeuce备份

·提供便利的API

·为实时查询提供块缓存

Zookeeper

·专门设计为分布式应用所设计的开源、协调的服务，可以为用户提供同步、配置管理、分组和名称空间管理功能

·支持java和C 两种接口

·zookpeer最少需要3个节点，可以多，但不能少，尽可能是奇数节点；
·zookpeer也是文件系统，但是文件系统是虚拟出来的，在内存中模拟出来的，被称为名称空间

名称空间：内部的节点叫 znode

其名称空间分为2类：

·永久节点

·临时节点

Impala:实时分析和处理

部署hadoop

1.搭建伪分布式环境

1.1规划如下

IP地址	服务角色	操作系统
172.23.214.50	ALL	Debian 7.2

1.2准备工作

配置本地hosts，将本地ip地址解析至localhost，至于为什么，往下就会明白

root@localhost:~# cat /etc/hosts

127.0.0.1 localhost

root@localhost:~# hostname

localhost

创建普通用户并授权ssh key免密码登录

root@localhost:~# useradd hduser

root@localhost:~# passwd hduser

授权本地ssh key

hduser@localhost:~$ ssh-keygen -t rsa -P ''

hduser@localhost:~$ cd

hduser@localhost:~$ ssh-copy-id -i .ssh/id_rsa.pubhduser@localhost

测试本地ssh key是否生效

这里直接ssh到目标主机，并执行date命令查看是否生效

hduser@localhost:~$ ssh hduser@localhost ; date

Wed Mar 5 21:47:40 CST2014

安装JDK 1.7

这里直接将其他主机的jdk打包并解压缩到本地

hduser@localhost:~$ mkdir -p /home/hduser/jdk

hduser@localhost:~$ tar xf jdk.tar.gz

配置JDK环境变量

root@localhost:~# cat /etc/profile.d/java.sh

JAVA_HOME=/home/hduser/jdk

HADOOP_HOME=/usr/local/hadoop

STORM_HOME=/home/storm

export JAVA_HOME HADOOP_HOME STORM_HOME

PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$STORM_HOME/bin/

激活配置文件

root@localhost:~# source /etc/profile

查看变量是否生效

root@localhost:~# echo $JAVA_HOME

/home/hduser/jdk

root@localhost:~# java -version

java version "1.7.0_03"

OpenJDK Runtime Environment (IcedTea7 2.1.7) (7u3-2.1.7-1)

OpenJDK 64-Bit Server VM (build 22.0-b10, mixed mode)

解压hadoop安装包

这里用的包装包为hadoop-2.2.0 64位,并解压缩至/usr/local/目录下

root@localhost:/usr/local# ln -s /usr/local/hadoop-2.2.0//usr/local/hadoop

设置Hadoop环境变量

root@localhost:cat /etc/profile.d/hadoop.sh
HADOOP_HOME=/usr/local/hadoop
PATH=$HADOOP_HOME/bin:$PATH
export HADOOP_HOME PATH

查看是否生效

root@localhost: hadoop version

Hadoop 2.2.0

Subversion Unknown -r 1556437

Compiled by hadoop on 2014-01-08T04:16Z

Compiled with protoc 2.5.0

From source with checksum 79e53ce7994d1628b240f09af91e1af4

This command was run using/usr/local/hadoop-2.2.0/share/hadoop/common/hadoop-common-2.2.0.jar

对目录进行授权

root@localhost:/usr/local# chown hduser.hduser -R/usr/local/hadoop/

配置伪分布式：

配置的比较关键的配置文件为以下几个：

hdfs-site.xml

mapred-site.xml

core-site.xml #对于hadoop来讲是根据属性来定义的，而这些属性其实就是java运行的属性定义

hadoop_env.sh #设置hadoop环境变量脚本，必须要依赖jdk，如果没有在全局配置文件里设定的话，可以在这个文件里去设置变量

配置core-site.xml

hduser@locahost:/usr/local/hadoop/etc/hadoop$ cat core-site.xml

hadoop.tmp.dir #示hadoop存放数据的目录，即包括NameNode的数据，也包括DataNode的数据，路径可以任意，但必须确保路径的存在和路径的属主是否为hduser

/hadoop/temp #如果不指定路径，则默认是/tmp/

#定义HDFS 默认名称节点（主节点）的路径以及监听端口

fs.default.name #定义HDFS的名称节点和其默认的文件系统

hdfs://localhost:8020

切换至管理员创建目录

root@localhost:~# mkdir -p /hadoop/temp/

root@localhost:~# chown hduser.hduser -R /hadoop/

定义mapred-site.xml

hduser@localhost:/usr/local/hadoop/etc/hadoop$ cpmapred-site.xml.template mapred-site.xml

hduser@localhost:/usr/local/hadoop/etc/hadoop$ catmapred-site.xml

mapred.job.tracker #接受多个以逗号分隔路径列表作为其值，并会以轮流的方式将数据分散存储在这些文件系统上

localhost:8021 #设置tracker的默认端口

mapred.map.tasks #具体到底产生多少个分片进行处理，因为多少个map 是有关系，这里为10片

mapred.reduce.tasks #每任务的reduce数量

定义HDFS hdfs-site.xml

dfs.replication #定义dfs节点数，这里我们只是本机，所以写1

配置完毕，接下来初始化名称节点空间

hduser@localhost: hadoop namenode -format

或者

hduser@localhost: hdfs namenode -format

启动hadoop

hduser@localhost: pwd
/usr/local/hadoop/sbin

如果job tracker与namenode在同一节点上，那么可以使用一个脚本start-all.sh 全部启动起来,如果不在同一主机上，则需要逐个启动，以免增加服务器压力

#hadoop-daemon.sh #专门在某个节点上启动某个进程，如果我们新加了一个datanode ，显然不能将整个集群重新启动这是不现实的，所以要在新加的节点上配置好之后，启动hadoop-daemon.sh 后面跟上参数datanode | tasktrack .等即可

我们来启动所有服务进程

hduser@localhost:start-all.sh

使用jps来查看启动的任务进程

hduser@localhost:~$ jps
7260 ResourceManager
7720 Jps
7354 NodeManager
6867 NameNode
6958 DataNode
7124 SecondaryNameNode

测试：向hadoop中保存文件

#在HDFS文件系统中新建目录

duser@localhost:/usr/local/hadoop/sbin$ hdfs dfs -mkdir /input

#查看目录
hduser@localhost:/usr/local/hadoop/sbin$ hdfs dfs -ls /
Found 1 items
drwxr-xr-x - hduser supergroup 0 2014-03-03 15:02 /input

#上传脚本至于HDFS根目录

hduser@localhost:/usr/local/hadoop/sbin$ hdfs dfs -putstop-all.sh /

#查看是否上传成功
hduser@localhost:/usr/local/hadoop/sbin$ hdfs dfs -ls /
Found 2 items
drwxr-xr-x - hdusersupergroup 0 2014-03-0315:02 /input
-rw-r--r-- 1 hduser supergroup 1462 2014-03-03 15:03 /stop-all.sh

验证：

运行Hadoop自带的wordcount程序实现对测试文件中各单词出现次数进行统计的实现过程

hduser@localhost: wgethttp://www.gutenberg.org/cache/epub/20417/pg20417.txt

hduser@localhost: hdfs dfs -ls /tmp

hduser@localhost: hadoop -jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jarwordcount /tmp/ /tmp/

hduser@localhost: hadoop fs -ls /tmp-output/part-r-00000

hduser@localhost: hadoop fs -get /tmp-output/part-r-00000

#在执行过程中我们可以看到有大量的信息，如下所示：

14/03/04 15:52:09 INFO mapred.LocalJobRunner: wrote record24000. 820459080 bytes left. > map
14/03/04 15:52:12 INFO mapred.LocalJobRunner: wrote record 36800. 685632166bytes left. > map
14/03/04 15:52:15 INFO mapred.LocalJobRunner: wrote record 48600. 561878098bytes left. > map
14/03/04 15:52:18 INFO mapred.LocalJobRunner: wrote record 60000. 442778615bytes left. > map
14/03/04 15:52:21 INFO mapred.LocalJobRunner: wrote record 72400. 312188642bytes left. > map
14/03/04 15:52:24 INFO mapred.LocalJobRunner: wrote record 80400. 227760952bytes left. > map
14/03/04 15:52:27 INFO mapred.LocalJobRunner: wrote record 94600. 77905011bytes left. > map
14/03/04 15:52:29 INFO mapred.LocalJobRunner: wrote record 94600. 77905011bytes left. > map

就是说不管你执行哪个示例程序，启动的job都只是在master这个节点本地运行的job，也就意味着为单节点工作

完全分布式

1.规划如下：

IP地址	服务角色	操作系统
172.23.214.50	Master（NameNode）、JobTracker	Debian GNU/Linux 7.2
172.23.214.47	Slave (Secondary NameNode)	Debian GNU/Linux 7.2
172.23.215.61	DateNode 、Task Tracker	Debian GNU/Linux 7.2

2.准备工作

2.1修改本地hostname主机名，并指定hosts配置文件

以master为例：

hduser@namenode1:~$ hostname

namenode1

hduser@namenode1:~$ cat /etc/hosts

172.23.214.50 namenode1

172.23.214.47 namenode2

172.23.215.61 datanode1

127.0.0.1 localhost

测试链路是否通畅

hduser@namenode1:~$ ping datanode1

hduser@namenode1:~$ ping namenode2

反之，在其他节点也对其主机之外的host进行的测试，确保链路畅通

2.2配置ssh免密码登录

首先确保系统是否存在hduser或其他自定义用户名，如没有则手动建立

root@namenode1:~# id hduser

uid=1002(hduser) gid=1002(hduser) groups=1002(hduser)

root@namenode1:~# su - hduser

在各节点主机都进行以下操作

hduser@namenode1:~$ cd

hduser@namenode1:~$ ssh-keygen -t rsa -P ''
hduser@namenode1:~$ ssh-copy-id -i .ssh/id_rsa.pub hduser@datanode1

hduser@namenode1:~$ ssh-copy-id -i .ssh/id_rsa.pubhduser@namenode1

hduser@namenode1:~$ ssh-copy-id -i .ssh/id_rsa.pubhduser@datanode2

验证免密码

hduser@namenode1:~$ ssh hduser@namenode1 date

2014年 03月 06日星期四 11:21:22 CST

hduser@namenode1:~$ ssh hduser@namenode2 date

2014年 03月 06日星期四 11:21:24 CST

hduser@namenode1:~$ ssh hduser@datanode1 date

2014年 03月06日星期四 11:21:30 CST

2.3环境变量

配置JDK环境变量

hduser@namenode1:~$ cat /etc/profile.d/java.sh

JAVA_HOME=/home/hduser/jdk

HADOOP_HOME=/usr/local/hadoop

STORM_HOME=/home/storm

export JAVA_HOME HADOOP_HOME STORM_HOME

PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$STORM_HOME/bin/

配置hadoop环境变量

hduser@namenode1:~$ cat /etc/profile.d/hadoop.sh

HADOOP_HOME=/usr/local/hadoop

PATH=$HADOOP_HOME/bin:$PATH:/usr/local/hadoop/sbin/

export HADOOP_HOME PATH

验证HADOOP环境变量是否生效

hduser@namenode1:~$ echo $HADOOP_HOME

/usr/local/hadoop

查看hadoop版本

hduser@namenode1:~$ hadoop version

Hadoop 2.2.0

Subversion Unknown -r 1556437

Compiled by hadoop on 2014-01-08T04:16Z

Compiled with protoc 2.5.0

From source with checksum 79e53ce7994d1628b240f09af91e1af4

This command was run using /usr/local/hadoop-2.2.0/share/hadoop/common/hadoop-common-2.2.0.jar

验证JDK环境变量是否生效

hduser@namenode1:~$ echo $JAVA_HOME

/home/hduser/jdk

hduser@namenode1:~$ java -version

java version "1.7.0_03"

OpenJDK Runtime Environment (IcedTea7 2.1.7) (7u3-2.1.7-1)

OpenJDK 64-Bit Server VM (build 22.0-b10, mixed mode)

2.4修改配置文件

指定slaves节点

hduser@namenode1:/usr/local/hadoop/etc/hadoop$ cat slaves

namenode2

datanode1

配置core-site.xml

hduser@namenode1:/usr/local/hadoop/etc/hadoop$ cat core-site.xml

hadoop.tmp.dir #属性用于定义Hadoop的临时目录至/hadoop/temp/

/hadoop/temp

fs.default.name #定义HDFS的名称节点和其默认的文件系统

hdfs://namenode1:8020

true

配置mapred-site.xml

hduser@namenode1:/usr/local/hadoop/etc/hadoop$ catmapred-site.xml

mapred.job.tracker #可以接受多个以逗号分隔路径列表作为其值，并会以轮流的方式将数据分散存储在这些文件系统上，因此指定位于不同磁盘上的多个文件系统路径可以分散数据I/O

namenode1:8021 #

true

mapred.reduce.tasks #定义每任务的reduce数量

配置hdfs-site.xml

hduser@namenode1:/usr/local/hadoop/etc/hadoop$ cat hdfs-site.xml

dfs.replication #定义dfs节点个数，这里我们就有一个datanode

dfs.data.dir #HDFS文件数据块的本地目录

/hadoop/data

ture

dfs.name.dir #HDFS元数据的本地目录

/hadoop/name

ture

fs.checkpoint.dir #定义的SecondaryNameNode用于存储检查点文件的目录

/hadoop/namesecondary

ture

设置缓冲大小

Hadoop为其I/O操作使用了4KB的缓冲区容量，这个值是相当保守的。在当今的硬件和操作系统上，可以安全地增大此值以提高系统性能；一般说来，128KB(131072 bytes)是比较理想的设定。如果需要，可以在core-site.xml中通过io.file.buffer.size属性进行定义--在core-site.xml文件中追加以下内容

io.file.buffer.size

4096

3.将配置复制至其他节点

hduser@namenode1:/usr/local/hadoop/etc/hadoop$ scp *hduser@datanode1:/usr/local/hadoop/etc/hadoop/

hduser@namenode1:/usr/local/hadoop/etc/hadoop$ scp * hduser@namenode2:/usr/local/hadoop/etc/hadoop/

4.初始化数据节点

hduser@namenode1:$ hadoop namenode -format

5.启动并验证Hadoop

为了方便，分别在其他节点执行start-all.sh，较大的内在需求；而在运行着众多MapReduce任务的环境中，JobTracker节点会用到大量的内存和CPU资源，因此，此场景中通常需要将NameNode和JobTracker运行在不同的物理主机上，也就是说如果在生产环境中，需要对服务角色进行执行对应的脚本

hduser@namenode1:/usr/local/hadoop/etc/hadoop$ cd/usr/local/hadoop/sbin/

hduser@namenode1:/usr/local/hadoop/sbin$ ./start-all.sh

使用jps命令分别查看不同角色服务器所运行的hadoop服务

hduser@namenode1:/usr/local/hadoop/sbin$ jps

3624 Jps

2951 NameNode

3351 ResourceManager

3125 SecondaryNameNode

hduser@namenode2:/usr/local/hadoop/etc/hadoop$ jps

31488 Jps

29784 SecondaryNameNode

31394 NodeManager

hduser@datanode1:~$ jps

32416 DataNode

462 Jps

32693 ResourceManager

328 NodeManager

32535 SecondaryNameNode

hdfs文件系统的状态信息

hduser@namenode1:/usr/local/hadoop/logs$ hdfs dfsadmin -report
Configured Capacity: 30302740480 (28.22 GB)
Present Capacity: 18599096320 (17.32 GB)
DFS Remaining: 18599047168 (17.32 GB)
DFS Used: 49152 (48 KB)
DFS Used%: 0.00%
Under replicated blocks: 0
Blocks with corrupt replicas: 0
Missing blocks: 0

-------------------------------------------------
Datanodes available: 2 (2 total, 0 dead)

Live datanodes:
Name: 172.23.215.61:50010 (datanode1)
Hostname: datanode1
Decommission Status : Normal
Configured Capacity: 15151370240 (14.11 GB)
DFS Used: 24576 (24 KB)
Non DFS Used: 5851353088 (5.45 GB)
DFS Remaining: 9299992576 (8.66 GB)
DFS Used%: 0.00%
DFS Remaining%: 61.38%
Last contact: Wed Mar 05 16:56:09 CST 2014

Name: 172.23.214.47:50010 (namenode2)
Hostname: namenode2
Decommission Status : Normal
Configured Capacity: 15151370240 (14.11 GB)
DFS Used: 24576 (24 KB)
Non DFS Used: 5852291072 (5.45 GB)
DFS Remaining: 9299054592 (8.66 GB)
DFS Used%: 0.00%
DFS Remaining%: 61.37%
Last contact: Wed Mar 05 16:56:08 CST 2014

访问

查看RM

查看HDFS

你可能感兴趣的:(大数据,爬虫,运维)

深度学习-图像数据标注工具使用（LabelImg和BBox） AI研习图书馆方法教程 LabelImg BBox 图像标注工具
文章与视频资源多平台更新微信公众号|知乎|B站|头条：AI研习图书馆深度学习、大数据、IT编程知识与资源分享，欢迎关注，共同进步~图像数据标注工具的使用教程1.LabelImgLabelImg下载地址：https://github.com/tzutalin/labelImg（下载源码，需要编译）Windows和Linux系统可运行软件：http://tzutalin.github.io/label
爬虫基础（五）爬虫基本原理 A.sir啊网络爬虫必备知识点爬虫网络 http 网络协议 python pycharm
目录一、爬虫是什么二、爬虫过程（1）获取网页（2）提取信息（3）保存数据三、爬虫可爬的数据四、爬虫问题一、爬虫是什么互联网，后面有个网字，我们可以把它看成一张蜘蛛网。爬虫，后面有个虫子，我们可以把它看成蜘蛛。爬虫之于互联网，就是蜘蛛之于蜘蛛网。蜘蛛每爬到一个节点，就是爬虫访问了一个网页。用正式的话来说，爬虫，就是自动提取、保存网页信息的程序。二、爬虫过程（1）获取网页获取网页，就是获取网页的源代码
爬虫基础（三）Session和Cookie讲解 A.sir啊网络爬虫必备知识点前端服务器运维网络网络爬虫
目录一、前备知识点（1）静态网页（2）动态网页（3）无状态HTTP二、Session和Cookie三、Session四、Cookie（1）维持过程（2）结构正式开始说Session和Cookie之前，有些基础知识需要知道，我们先来看一下：一、前备知识点（1）静态网页比如，我们写了一段html代码，然后保存为一个html文件该文件所在主机，具有服务器那么其他人就可以通过访问服务器，来打开这个html
爬虫基础（四）线程和进程及相关知识点 A.sir啊网络爬虫必备知识点服务器网络网络爬虫 python pycharm
目录一、线程和进程（1）进程（2）线程（3）区别二、串行、并发、并行（1）串行（2）并行（3）并发三、爬虫中的线程和进程（1）GIL锁（2）爬虫的多线程（3）Python的多进程一、线程和进程（1）进程所谓进程，就是正在运行的程序，它占用独立的内存区域用通俗的话来说：我们打开媒体播放器，就是打开了一个媒体播放器进程，打开浏览器，就是打开了一个浏览器进程，打开某软件，就是打开了某软件进程。这三个进程
爬虫基础（六）代理简述 A.sir啊网络爬虫必备知识点网络协议爬虫 python
目录一、什么是代理二、基本原理三、代理分类一、什么是代理爬虫一般是自动化的，当我们自动运行时爬虫自动抓取数据，但一会就出现了错误：如，您的访问频率过高！这是因为网站的反爬措施，如果频繁访问，则会被禁止，即封IP为解决这种情况，我们需要把自己的IP伪装一下，即代理所谓代理，就是代理服务器。二、基本原理正常来说：客户发送请求给服务器然后服务器将响应传给客户而代理的话：相当于在客户和服务器之间加一个代理
Spark 任务与 Spark Streaming 任务的差异详解 goTsHgo spark-streaming 分布式大数据 spark streaming 大数据分布式
Spark任务与SparkStreaming任务的主要差异源自于两者的应用场景不同：Spark主要处理静态的大数据集，而SparkStreaming处理的是实时流数据。这些差异体现在任务的调度、执行、容错、数据处理模式等方面。接下来，我们将从底层原理和源代码的角度详细解析Spark任务和SparkStreaming任务的差别。1.任务调度模型差异1.1Spark任务的调度模型Spark的任务调度基
Python大数据之PySpark(三)使用Python语言开发Spark程序代码_windows spark python 2401_84181704 程序员大数据 python spark
算子：rdd的api的操作，就是算子，flatMap扁平化算子，map转换算子Transformation算子Action算子步骤：1-首先创建SparkContext上下文环境2-从外部文件数据源读取数据3-执行flatmap执行扁平化操作4-执行map转化操作，得到(word,1)5-reduceByKey将相同Key的Value数据累加操作6-将结果输出到文件系统或打印代码：#-*-codi
解决 SSH 自动掉线问题：客户端与服务器端配置优化指南运维开发王义杰 linux 系统运维 ssh 服务器运维
在使用SSH登录Linux云主机时，若遇到连接空闲一段时间后自动掉线的情况，通常是因为SSH客户端和服务器端的配置导致的超时机制。为了避免这种掉线现象，我们可以从客户端和服务器端两个方面进行调整。本文将详细讲解如何配置以保持SSH会话的持续连接，确保运维系统的连续性。一、客户端配置在SSH客户端端，常见的超时问题是由于客户端在空闲一段时间后没有活动，导致服务器主动关闭连接。为了解决这一问题，可以在
分布式微服务系统架构第90集：现代化金融核心系统掘金-我是哪吒分布式微服务系统架构金融架构
#1.1深化数字化转型，核心面临新挑战1、架构侧：无法敏捷协同数字金融经营模式转型。2、需求侧：业务需求传导低效始终困扰金融机构。3、开发侧：创新产品上市速度低于期望。4、运维侧：传统面向资源型监控体系难以支撑现代化核心。5、监管侧：对业务连续性导向趋严趋细。6、成本侧：单客核心的运营成本逐渐走高。#1.2重塑现代化核心，科技引领新趋势1、新理念：重构行业差异化竞争力的服务体系。2、新架构：构建面
《大数据时代“快刀”：Flink实时数据处理框架优势全解析》程序猿阿伟大数据 flink
在数字化浪潮中，数据呈爆发式增长，实时数据处理的重要性愈发凸显。从金融交易的实时风险监控，到电商平台的用户行为分析，各行业都急需能快速处理海量数据的工具。Flink作为一款开源的分布式流处理框架，在这一领域崭露头角，备受瞩目。一、真正实时，毫秒级响应与部分将流处理模拟为微批处理的框架不同，Flink是专为实时流处理打造的“原生”引擎。它直接处理持续不断的事件流，无需将数据攒成批次再处理，这种设计赋
园区智能化系统实现管理与服务的智能化转型与创新进阶快鲸智慧楼宇管理系统其他
内容概要园区智能化系统的出现，标志着管理与服务向智能化转型的重要一步。这一系统不仅仅是一个技术解决方案，更是一个全面提升园区运营效率与安全性的独特工具。通过集成大数据分析、物联网和人工智能，园区智能化系统能够为各类园区如工业园、产业园、物流园、写字楼与公寓等提供切实可行的解决方案。“智能化管理不仅是未来的发展趋势，更是提升竞争力的必要手段。”在资产管理方面，智能化系统能够实时监控并优化资源的配置，
python 爬取小红书追光少年3322 python 网络爬虫
爬虫实现基本流程一.明确需求明确采集的网站及数据内容目标：根据小红书作者主页链接，采集作者主页所有笔记，并保存为excel表格。采集的字段包括作者、笔记类型、标题、点赞数、笔记链接。网址：https://www.xiaohongshu.com/user/profile/64c38af4000000000e026b43二.分析思路分析爬虫思路，概括如下：打开小红书主页与登录打开小红书作者主页,获取作
CDH_6.3.2的搭建我的K8409 Flink linux 大数据分布式
一站式搭建大数据的应用1、前提条件和准备工作hostnamectlset-hostnamecdh01hostnamectlset-hostnamecdh02hostnamectlset-hostnamecdh032、修改IP和Host映射关系（所有节点）在window中也配置一下vim/etc/hosts192.168.92.201cdh01192.168.92.202cdh02192.168.9
大数据笔记之 Flink1.17 算子凡许真大数据 flink1.17 算子
文章目录前言一、Partition分区（物理分区）1.1随机分区shuffle1.2轮询分区rebalance1.3重缩放分区rescale1.4广播分区broadcast1.5全局分区global1.6keyby1.7自定义分区Custom二、transform2.1flatMap2.2filter2.3RichFunction2.4map三、Aggregate聚合3.1keyBy()3.2ma
XXL-CRAWLER v1.4.0 ｜ Java爬虫框架后端爬虫java
ReleaseNotes1、【提升】爬虫JS渲染能力强化：升级提供"Selenium+ChromeDriver"方案支持JS渲染，兼容性更高，废弃旧Phantomjs方案。非JS渲染场景仍然Jsoup，速度更快。同时支持自由扩展其他实现。2、【优化】进一步优化Selenium兼容问题，完善JS渲染场景下兼容性和性能。3、【重构】重构核心功能模块，提升扩展性；修复历史代码隐藏问题，提升系统稳定习惯。
智能化Kubernetes管理：AI与ChatGPT提升运维效率的创新实践大大宝的博客 k8s kubernetes 人工智能 chatgpt
摘要随着云计算技术的飞速发展，Kubernetes（K8s）已成为企业进行容器化应用管理的标准平台。然而，Kubernetes集群的管理在复杂度、规模和资源优化等方面仍然面临巨大挑战。传统的Kubernetes运维方式往往依赖手动操作，导致效率低下，且容易产生人为错误。随着人工智能（AI）技术的成熟，特别是基于自然语言处理（NLP）的智能体如ChatGPT的出现，AI智能体能够在Kubernete
性能测试后期的性能调优 Feng.Lee 漫谈测试性能优化测试工具可用性测试
目录性能调优的常规手段有如下几种。(1)空间换时间。(2)时间换空间。(3)分而治之。(4)异步处理。(5)并行。(6)离用户更近一点。(7)一切可扩展，业务模块化、服务化(无状态、幂等)、良好的水平扩展能力。下面将详细探讨一些关键的性能调优策略，并引用相关资料中的细节。设计优化算法优化代码优化JVM优化参数优化数据库优化高可用性，高可靠性，可扩展性及运维能力是高并发系统的设计要求（当然也要顾及成
03-1.python爬虫-爬虫简介执着的小火车 python入门到项目实践爬虫 python http
03-1.python爬虫-爬虫简介简介Python爬虫是一种使用Python编程语言编写的程序，用于自动从互联网上获取网页数据。它可以模拟人类浏览器的行为，发送HTTP请求到目标网站，获取网页的HTML内容，然后通过解析HTML提取所需的数据，如文本、图片链接、表格数据等。爬虫的应用广泛，比如在数据挖掘领域，可收集大量数据用于分析趋势和模式；在信息聚合方面，能将不同网站的特定信息汇总到一处；还可
03-2.python爬虫-Python爬虫基础(一) 执着的小火车 python入门到项目实践爬虫 python 开发语言
HTTP基本原理HTTP（HyperTextTransferProtocol），即超文本传输协议，是互联网通信的关键所在。它作为应用层协议，构建于可靠的TCP协议之上，保障了数据传输的稳定与可靠，犹如网络世界的“交通规则”，规范着客户端与服务器之间的数据往来。HTTP的请求响应过程是其核心机制。当用户在浏览器中输入一个URL并按下回车键，浏览器就会作为客户端向服务器发送HTTP请求。请求由请求行、
如何学习Java后端开发写代码的大学生学习 java 开发语言
文章目录一、Java语言基础二、数据库与持久层三、Web开发基础四、主流框架与生态五、分布式与高并发六、运维与部署七、项目实战八、持续学习与提升总结路线图学习Java后端开发需要系统性地掌握多个技术领域，从基础到进阶逐步深入。以下是一个详细的学习路线和建议，帮助你高效入门并逐步提升：一、Java语言基础核心语法数据类型、流程控制、数组、字符串等基础语法。面向对象（OOP）：封装、继承、多态、抽象类
01.双Android容器解决方案高桐@BILL 容器 Android
目录写在前面一，容器1.1容器的原理1.1.1Namespace1.1.2Cgroups（ControlGroups）1.1.3联合文件系统（UnionFileSystem）1.2容器的应用1.2.1微服务架构1.2.2持续集成和持续部署（CI/CD）1.2.3多租户环境1.2.4混合云和多云环境1.2.5大数据和机器学习1.2.6android应用场景1.3容器方案选型1.3.1Docker1.
一体化运维监控管理平台：产品架构与功能解析 MXsoft618 一体化运维平台一体化监控平台运维管理软件数据库大数据运维
在当今的信息化时代，运维监控管理平台已成为确保企业IT系统稳定运行不可或缺的工具。本文旨在深入探讨一体化运维监控管理平台的产品架构及其核心功能，以期为运维团队提供有益的参考。随着企业信息化建设的不断深入，IT系统日益复杂，涉及的设备和系统越来越多。传统的分散式监控方式已无法满足现代运维的需求。一体化监控应运而生，它能够集中监控各类IT资源，包括服务器、网络设备、安全设备、数据库等，实现统一的管理和
监控易：一体化智能运维的多场景集中化监控 MXsoft618 一体化监控平台运维管理智能运维管理系统智能运维数据库
在当前数字化转型的浪潮中，企业对IT系统的依赖程度日益加深。如何高效、稳定地管理海量的IT资源和各类物联网设备，成为企业面临的核心挑战。监控易凭借其“一体化智能运维”的独特理念，推出了领先的集中化监控管理模式，不仅整合了多种监控需求，还通过创新技术为企业节省成本、优化运维效率。本文将详细阐述监控易的一体化监控优势及其在实际场景中的应用价值。监控易的功能与竞争力一体化智能运维：未来运维的核心理念监控
监控易：智慧高校一体化综合运维解决方案 MXsoft618 运维信息安全物联网监控类
新冠疫情发生以来，线上线下教育模式的初探，促使学校、家长和社会对于教育信息化认识产生巨大的转变。伴随着云计算和物联网的发展，教育已经开启了一个全新的时代。自“十三五”规划中明确提出“支持各级各类学校建设智慧校园，综合利用互联网、大数据、人工智能和虚拟现实技术探索未来教育教学新模式”以来，政策春风也不断加码教育信息化进程，《教育信息化2.0行动计划》以及《智慧校园总体框架》的相继发布，全国各地都在积
监控易：一体化智能运维在复杂网络环境的架构优势 MXsoft618 智能运维管理系统运维管理一体化监控平台智能运维数据库
在现代企业中，IT基础设施已成为业务成功的重要基石。面对海量设备与复杂的网络结构，传统的监控工具往往难以满足动态化、海量化的需求。监控易以其“一体化智能运维”的产品理念，成为运维领域的优势品牌。本文将从架构优势入手，深入探讨监控易如何通过领先的技术实现分布式复杂网络的灵活扩展，并为企业提供高效、稳定、可靠的运维支持。监控易的功能与竞争力一体化智能运维的核心理念监控易定位为“一体化智能运维”平台，致
2024年数据平台建设指南 DataHub数据社区数据资产管理大数据数据分析数据仓库嵌入式实时数据库
在当前的数据时代,企业对数据管理和分析能力的需求与日俱增。构建一个现代化、高效、灵活的数据平台不仅是应对这一挑战的必由之路,更是赋能业务创新、提升运营效率的关键所在。作为一名资深的首席数据工程专家,我将在本指南中全面解析数据平台建设的方方面面,涵盖架构设计、技术选型、开发实施、运维管理、新兴实践与趋势等内容,并结合真实案例分享业内最佳实践,为您指引数据平台建设之路。更多详情，请搜索公众号：Data
TDengine 做为 FLINK 数据源技术参考手册 TDengine （老段） tdengine flink 大数据涛思数据时序数据库数据库
ApacheFlink是一款由Apache软件基金会支持的开源分布式流批一体化处理框架，可用于流处理、批处理、复杂事件处理、实时数据仓库构建及为机器学习提供实时数据支持等诸多大数据处理场景。与此同时，Flink拥有丰富的连接器与各类工具，可对接众多不同类型的数据源实现数据的读取与写入。在数据处理的过程中，Flink还提供了一系列可靠的容错机制，有力保障任务即便遭遇意外状况，依然能稳定、持续运行。借
127.0.0.1 与 localhost：必须知道的区别与用法四七伵其他面试宝典 localhost 127.0.0.1 后端
前言在开发与运维工作中，我们经常会遇到127.0.0.1和localhost，它们在很多情况下看似可以互换使用，但实际上有一些细微的区别。本文将通过多个示例，帮助理解它们的本质差异，以及它们在不同应用场景中的适用性。1.基本概念1.1.127.0.0.1是什么？127.0.0.1是一个特殊的IP地址，被称为回环地址（LoopbackAddress）。它表示本机（即当前设备），用于本地网络通信，不经
Nginx 缓存那些事儿：原理、配置和最佳实践 weixin_42587823 linux云计算 nginx 缓存运维
Nginx缓存那些事儿：原理、配置和最佳实践在当今的互联网世界，网站的访问量和数据处理量不断攀升，如何确保用户能够快速、稳定地访问我们的网站，已经成为每个运维工程师面临的挑战。幸运的是，Nginx作为一款高性能的反向代理服务器，能够帮助我们轻松应对这一挑战，不仅能处理大量的请求，还能作为缓存服务器来提高系统性能，减轻后端服务器的压力。一、Nginx缓存的工作原理要理解Nginx如何作为缓存服务器工
Hadoop HA 架构 weixin_30569033 shell 大数据
为什么要用集群?企业里面,多台机器伪分布式每一个角色都是一个进程HDFS:NNSNNDNYARN:RMNM大数据所有组件,都是主从架构master-slaveHDFS读写请求都是先到NN节点,但是,HBase读写请求不是经过master,建表和删除表是需要经过masterNN节点挂了,就不能提供对外服务(-put,-get)需要配置两个NN节点(实时的,任何时刻只有一台active对外,另外一台是
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分