51longge

hadoop2.2.0 分布式存储hdfs完全分布式搭建及功能测试记录（一）----架构及原理介绍

0.文档说明：

本文是围绕hadoop2.2的分布式文件系统hdfs进行分布式存储功能测试，形成的hdfs分布式存储功能测试报告，其中主要包括三大部分内容：

第一部分介绍了hdfs的基本原理；

第二部分介绍了hadoop2.2的完全分布式集群安装以及namenode高可用HA的部署过程；

第三部分介绍了hdfs存储功能测试过程（包括客户端通过不同方式来操作hdfs文件系统进行上传、下载、查看文件及设置权限等）。

安装方法参考文档来源http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.9.1/bk_using_Ambari_book/content/ambari-include-setup.html

0.前言：

HDFS是Hadoop Distribute File System的简称，模仿Google的GFS设计思路开发的专门针对廉价硬件设计的分布式文件系统,在软件层内置数据容错能力,可应用于云存储系统的创建开发,与现有的分布式系统最大区别为高容错性和低成本。

在大数据时代分布式处理已经成为潮流，Hadoop 就是一种应用十分广泛的分布式处理框架。但在Hadoop 的使用中，Namenode 的单点失败问题一直困扰着框架的使用者。

相比于Hadoop 1.0，Hadoop 2.0中的HDFS增加了两个重大特性，HA和Federaion。HA即为High Availability，用于解决NameNode单点故障问题，该特性通过热备的方式为主NameNode提供一个备用者，一旦主NameNode出现故障，可以迅速切换至备NameNode，从而实现不间断对外提供服务。Federation即为“联邦”，该特性允许一个HDFS集群中存在多个NameNode同时对外提供服务，这些NameNode分管一部分目录（水平切分），彼此之间相互隔离，但共享底层的DataNode存储资源。

本文中分析了hdfs的工作原理及架构，并使用了hadoop2.2版本，配置了Namenode 高可用HA方案，实现了NameNode的冗余备份高可用性，避免了Namenode 单点失败造成的服务不可用与文件丢失问题。

1.重点导读

1.1.HDFS HA高可用介绍

1.1.1.HDFS HA架构

在一个典型的HDFSHA场景中，通常由两个NameNode组成，一个处于active状态，另一个处于standby状态。ActiveNameNode对外提供服务，比如处理来自客户端的RPC请求，而Standby NameNode则不对外提供服务，仅同步active namenode的状态，以便能够在它失败时快速进行切换。

为了能够实时同步Active和Standby两个NameNode的元数据信息（实际上editlog），需提供一个共享存储系统，可以是NFS、QJM（QuorumJournal Manager）或者zookeeper，Active Namenode将数据写入共享存储系统，而Standby监听该系统，一旦发现有新数据写入，则读取这些数据，并加载到自己内存中，以保证自己内存状态与Active NameNode保持基本一致，如此这般，在紧急情况下standby便可快速切为active namenode。

注意，在Hadoop 2.0中，不再需要secondary namenode或者backupnamenode，它们的工作由Standby namenode承担。

本文中使用基于QJM的HA解决方案，并通过ambari工具降低了HA部署的难度。在该方案中，主备NameNode之间通过一组JournalNode同步元数据信息，一条数据只要成功写入多数JournalNode即认为写入成功。通常配置奇数个（2N+1）个JournalNode，这样，只要N+1个写入成功就认为数据写入成功，此时最多容忍N-1个JournalNode挂掉，比如3个JournalNode时，最多允许1个JournalNode挂掉，5个JournalNode时，最多允许2个JournalNode挂掉。

基于 QJM 的 HDFS 架构如下所示：

0.1.1.硬件选择及软件准备

（1）硬件选择

NameNode机器：推荐主备NameNode具有相同的硬件配置，且内存要足够大。

JournalNode：通常准备3或5个JournalNode，考虑到JournalNode非常轻量级，可以与Hadoop其他服务共用机器，比如ResourceManager，TaskTracker等。

Zookeeper：由于Hadoop多个服务用到了Zookeeper，可搭建一个3或者5个节点的Zookeeper实例作为公共服务。Zookeeper实例也可以与其他服务共用机器。

（2）软件准备

ApacheHadoop 2.2.0或者更高版本，或cdh4以及更高版本

JDK 1.6或者更高版本，注意，cdh5需要jdk7

0.1.1.本文档中测试环境的HDFS架构组成。

本文档使用的HDFS分布式集群环境架构:

服务器	主机名	角色	外网ip	内网ip	角色说明及用途
宿主A	long-1.yc.com	hadoop client	192.168.200.61	172.23.1.10	hadoop客户端
虚机A-1	hda1.yc.com	namenode & resourcemanager JournalNode & jobhistory &zookeeper	192.168.200.63	172.23.1.13	Namenode名称服务器；jobhistory 服务器(用于记录mapreduce的日志)
虚机A-2	hda2.yc.com	datanode & nodemanager &zookeeper	192.168.200.64	172.23.1.14	datanode数据节点；zookeeper服务器集群(用于namenode 高可用的自动切换)
虚机A-3	hda3.yc.com	datanode & nodemanager &JournalNode	192.168.200.65	172.23.1.15	JournalNode用于存放共享的NameNode元数据
宿主B	long-2.yc.com		192.168.200.62	172.23.1.11
虚机B-1	hdb1.yc.com	namenode & resourcemanager &JournalNode	192.168.200.66	172.23.1.16	NameNode名称服务器(HA热备)
虚机B-2	hdb2.yc.com	datanode & nodemanager &zookeeper	192.168.200.67	172.23.1.17	Nodemanager节点管理
虚机B-3	hdb3.yc.com	datanode &nodemanager	192.168.200.68	172.23.1.18

0.1.已解决问题：

本集群里部署两台NameNode做高可用HA，常态下一台NameNode为active状态，接受客户端操作请求。另一台NameNode保持standby状态，作为实时热备，时刻监控活跃状态的NameNode的元数据变化并实时同步到自己的内存中。一旦处于活跃状态的NameNode出现故障，这台热备状态的NameNode会立即自动升级为活跃状态接管工作。

报告结论：

通过测试，已经实现了NameNode自动故障转移从而保证了整个hdfs集群内部的高可靠性和高可用性。同时实现了数据冗余高可靠性。

集群里任意一台DataNode发生故障或宕机不会影响客户端正常操作hdfs分布式存储，甚至整个一个机架的DataNode服务器宕机都不会导致数据丢失或损坏。

集群里任何一台NameNode发生故障或者宕机，都可以保证集群持续工作。不会导致集群里的数据丢失损坏。满足集群高可用性的要求。

0.2.未尽事宜：

该集群只是在功能上实现了NameNode的高可用性，但是只有在客户端使用hadoop内部shell命令来操作hdfs分布式存储的时候，NameNode故障转移对于客户端是透明的。还有几个未尽事宜：

1、如果客户端使用nfs挂载方式或者curl方式操作hdfs的时候不能实现透明切换。即，客户端要访问的是其中一个处于active状态的NameNode地址，当这个NameNode发生故障后，客户端要手动调整去重新挂载或者连接另外一个NameNode节点地址。

2、该集群还没有配置Federaion，目前只能支持两个NameNode节点。集群能承载的文件数量受限于NameNode的内存上限，NameNode的内存受到单台物理机支持的最大内存限制，暂时没有实现NameNode的继续扩展。当集群的规模增大到一定程度，数据文件数量增大到内存上限极值的时候，需要扩充NameNode进行目录水平分割。不同组的NameNode相互独立，各自负责一部分目录，同时对外提供服务，但又共同使用同一个集群里的DataNode存储池。

3、目前还没有配置https安全访问，以及kerberos用户身份认证。

0.正文

hadoop2.2分布式文件系统... 1

hdfs功能测试报告... 1

编写：张龙... 1

日期：2014/02/28. 1

0.文档说明：... 2

第一章、hadoop 分布式存储hdfs基本原理介绍。... 4

1.hadoop简介... 4

1.1.hadoop是什么？... 4

1.2.为什么要选择Hadoop？... 5

1.3.hadoop集群架构及成员介绍... 5

1.3.1.Hadoop 2.2.0中包含的新特性：... 6

1.3.2.集群成员及相关术语：... 6

2.HDFS分布式存储架构介绍... 6

2.1.HDFS架构原理分析：... 6

2.2.HDFS集群架构简图... 7

2.2.1.HDFS的三个重要角色... 8

2.2.2.HDFS设计特点... 9

3.MapReduce. 10

3.1.算法介绍... 10

3.2.Hadoop框架下的mapreduce. 12

3.2.1.示例1. 12

3.2.2.示例2. 12

4.综合架构分析... 13

第二章、hadoop2.2完全分布式集群安装步骤。... 15

5.Hadoop2.2集群安装准备。... 15

5.1.决定部署类型。... 15

5.2.收集信息。... 15

5.3.准备环境。... 15

5.3.1.检查已安装的软件，卸载可能导致问题的相应版本软件包。... 16

5.3.2.配置ssh信任。... 16

5.3.3.同步时钟设置。... 17

5.3.4.主机名和dns设置... 17

5.3.5.统一集群里主机的jdk环境。... 18

5.3.6.安全相关，关闭iptables和selinux。... 19

5.3.7.检查umask值。... 19

5.3.8.PackageKit失败的问题解决。... 19

6.运行安装。... 19

6.1.设置yum仓库和获取安装包。... 20

6.2.规划数据库。... 21

6.3.设置Ambari服务器... 22

6.4.安装配置hadoop组件。... 24

6.4.1.设置集群名称。... 24

6.4.2.选择hdp版本。... 25

6.4.3.添加集群成员主机名并注册。... 25

6.4.4.选择要在本集群里安装的hadoop生态圈里的组件。... 28

6.4.5.5、分配各个主机的角色。... 29

6.4.6.分配从节点及客户端组件。... 29

6.4.7.定***务，hadoop的各个组件参数配置。... 30

6.4.8.配置报告回顾和确认。... 31

6.4.9.安装、启动服务。... 32

6.4.10.安装总结报告。... 33

7.NameNode 的HA高可用性设置。... 34

7.1.设置NameNode Server ID。... 34

7.2.分配主机角色。... 34

7.3.HA配置回顾。... 35

7.4.手动执行命令，在NameNode上进入安全模式并创建检查点。... 36

7.5.执行配置安装。... 36

7.6.手动初始化JournalNodes37

7.7.启动zookeeper和namenode服务。... 37

7.8.手动初始化NameNode的HA元数据。... 38

7.9.执行DO，完成HA的安装。... 38

7.10.管理界面与命令... 39

7.10.1.hdfs运行状态界面。... 39

7.10.2.Map-reduce的运行状态界面... 42

7.10.3.直接的命令行查看hdfs状态。... 43

7.10.4.运行的进程查看... 44

8.Hadoop的命令... 45

8.1.1.HDFS fs命令：... 45

第三章、HDFS分布式存储功能测试。... 47

9.hadoop分布式文件系统hdfs功能测试。... 47

9.1.验证在hdfs分布式存储上创建目录的功能。... 47

9.2.列出hdfs分布式存储的目录。... 48

9.3.上传文件到hdfs分布式存储。... 49

9.4.从hdfs分布式存储下载文件。... 50

9.5.移动或复制hdfs分布式存储上的文件或目录。... 51

9.6.删除hdfs分布式存储上的文件和目录。... 52

9.7.验证hdfs回收站功能。... 53

9.8.查看hdfs分布式存储上的文件。... 53

9.9.设置hdfs分布式存储上的文件权限。... 54

9.10.验证数据的高可靠性和冗余机制。... 54

9.11.验证NameNode对于集群的高可用性。... 55

9.12.附加几个curl方式的操作说明：... 55

9.12.1.文件/ 文件夹的状态信息... 55

9.12.2.重名命文件、文件夹... 55

9.12.3.获取目录的上下文环境汇总信息... 56

9.12.4.获取Check Sum File. 57

9.12.5.获取Home 目录... 57

9.12.6.设置权限... 58

9.12.7.设置所有者... 59

9.12.8.设置备份... 59

9.13.nfs挂载hdfs文件系统到本地进行操作。... 60

9.13.1.客户端服务器安装nfs客户端软件：... 60

9.13.2.hdfs网关上启动portmap和nfs两个服务。... 60

9.13.3.客户端nfs方式挂载hdfs文件系统：... 60

结论：... 61

经过测试，已经实现了hdfs分布式文件存储、上传、下载、查看；数据高可靠性、集群高可用性等功能。... 61

第一章、hadoop 分布式存储hdfs基本原理介绍。

0.hadoop简介

0.1.hadoop是什么？

Hadoop是一个用于处理大规模数据的软件平台。由 Apache SoftwareFoundation 公司于 2005 年秋天作为 Lucene 的子项目 Nutch 的一部分正式引入。

Hadoop并不仅仅是一个用于存储的分布式文件系统，而是设计用来在由通用计算设备组成的大型集群上执行分布式应用的基础框架。它由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储数据。简单来说，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。

下图是Hadoop的体系结构：

Hadoop框架中最核心的设计就是：MapReduce和HDFS。

lMapReduce的设计思想：“任务的分解与结果的汇总”。

lHDFS是Hadoop分布式文件系统（Hadoop Distributed File System）的缩写，为分布式计算提供底层存储支持。

0.1.为什么要选择Hadoop？

系统特点

l扩容能力强：能可靠地存储和处理千兆字节（PB）数据。

l成本低：可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。

l高效率：通过分发数据，hadoop可以在数据所在的节点上并行地处理它们，这使得处理非常的快速。

l可靠性：hadoop能自动地维护数据的多份复制，并且在任务失败后能自动地重新部署计算任务。

应用场景

海量数据的存储和分析处理。

哪些公司在使用haoop？

http://wiki.apache.org/hadoop/PoweredBy

0.2.hadoop集群架构及成员介绍

Hadoop主要的任务部署分为3个部分，分别是：Client机器，主节点和从节点。主节点主要负责Hadoop两个关键功能模块HDFS、Map Reduce的监督。当Job Tracker使用Map Reduce进行监控和调度数据的并行处理时，名称节点则负责HDFS监视和调度。从节点负责了机器运行的绝大部分，担当所有数据储存和指令计算的苦差。每个从节点既扮演者数据节点的角色又充当与他们主节点通信的守护进程。守护进程隶属于Job Tracker，数据节点归属于名称节点。

0.2.1.Hadoop 2.2.0中包含的新特性：

特性1：引入一个新的资源管理系统YARN，可在其之上运行各种应用程序和框架，比如MapReduce、Tez、Storm等，它的引入使得各种应用运行在一个集群中成为可能。

特性2：HDFS单点故障得以解决

特性3：HDFS Federation 解决NameNode存在内存受限问题。

特性4：通过NFSv3访问HDFS

0.2.2.集群成员及相关术语：

1)Namenode:HDFS采用master/slave架构。一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。Namenode是一个中心服务器，负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。Namenode执行文件系统的名字空间操作，比如打开、关闭、重命名文件或目录。它也负责确定数据块到具体Datanode节点的映射

2)Datanode:集群中的Datanode一般是一个节点一个，负责管理它所在节点上的存储。HDFS暴露了文件系统的名字空间，用户能够以文件的形式在上面存储数据。从内部看，一个文件其实被分成一个或多个数据块，这些块存储在一组Datanode上。Datanode负责处理文件系统客户端的读写请求。在Namenode的统一调度下进行数据块的创建、删除和复制。

3)Secondnamenode:光从字面上来理解，很容易让一些初学者先入为主的认为：SecondaryNameNode（snn）就是NameNode（nn）的热备进程。其实不是。snn是HDFS架构中的一个组成部分，但是经常由于名字而被人误解它真正的用途，其实它真正的用途，是用来保存namenode中对HDFS metadata的信息的备份，并减少namenode重启的时间。值得一提的是在hadoop2.0以后，已经可以支持多个NameNode了，所以Secondnamenode的功能被另外一个NameNode取代了。

4)Jobtracker和Tasktracher:JobTracker是MapReduce框架中最主要的类之一，所有job的执行都由它来调度，而且Hadoop系统中只配置一个JobTracker 应用。它们都是由一个master服务JobTracker和多个运行于多个节点的slaver服务TaskTracker两个类提供的服务调度的。 master负责调度job的每一个子任务task运行于slave上，并监控它们，如果发现有失败的task就重新运行它，slave则负责直接执行每一个task。TaskTracker都需要运行在HDFS的DataNode上，而JobTracker则不需要，一般情况应该把JobTracker 部署在单独的机器上。

1.HDFS分布式存储架构介绍

1.1.HDFS架构原理分析：

简而言之：分而治之。

把文件按指定大小分割成若干块，分散存储到DataNode集群里，并按照设定的复制因子数流水线式的进行复制，达到数据冗余。NameNode记录每个文件被分成了哪些块，以及这些数据块存储在哪个DataNode节点上。

【架构详情请参考：http://hadoop.apache.org/docs/r2.2.0/index.html】

Hadoop有许多元素构成。最底部是Hadoop Distributed File System（HDFS），它存储 Hadoop 集群中所有存储节点上的文件，与HDFS相关的服务有NameNode、SecondaryNameNode及DataNode；HDFS（对于本文）的上一层是MapReduce引擎，该引擎由JobTrackers 和TaskTrackers 组成（所以MapReduce 相关的服务有JobTracker 和TaskTracker 两种）。

Hadoop集群中有两种角色：master与slave，master又分为主master与次master。其中：

1)主 master同时提供NameNode 、SecondaryNameNode 及JobTracker 三种服务；

2)次master只提供SecondaryNameNode 服务；

3)所有slave可以提供DateNode 或TaskTracker 两种服务。

1.2.HDFS集群架构简图

对外部客户机而言，HDFS 就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件，等等。但是HDFS 的架构是基于一组特定的节点构建的（参见图 2-1），这是由它自身的特点决定的。这些节点包括 NameNode（仅一个），它在 HDFS 内部提供元数据服务；DataNode，它为 HDFS 提供存储块。

下图为hadoop集群的简化视图

图2-1. Hadoop 集群的简化视图

存储在 HDFS 中的文件被分成块，然后将这些块复制到多个计算机中（DataNode）。这与传统的 RAID 架构大不相同。块的大小（通常为 64MB）和复制的块数量在创建文件时由客户机决定。NameNode 可以控制所有文件操作。HDFS 内部的所有通信都基于标准的 TCP/IP协议。

0.1.1.HDFS的三个重要角色

图2-2：HDFS结构示意图

上面这个图很经典，图中展现了整个HDFS三个重要角色：NameNode、DataNode和Client。

NameNode可以看作是分布式文件系统中的管理者，主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中，这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。

DataNode是文件存储的基本单元，它将Block存储在本地文件系统中，保存了Block的Meta-data，同时周期性地将所有存在的Block信息发送给NameNode。

Client就是需要获取分布式文件系统文件的应用程序。

这里通过三个操作来说明他们之间的交互关系。

1)文件写入

a)Client向NameNode发起文件写入的请求。

b)NameNode根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息。

c)Client将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块中。

2)文件读取

a)Client向NameNode发起文件读取的请求。

b)NameNode返回文件存储的DataNode的信息。

c)Client读取文件信息。

3)文件Block复制

a)NameNode发现部分文件的Block不符合最小复制数或者部分DataNode失效。

b)通知DataNode相互复制Block。

c)DataNode开始直接相互复制。

0.1.1.HDFS设计特点

下面说说HDFS的几个设计特点（对于框架设计值得借鉴）：

0.1.1.1.Block的放置

默认不配置。一个Block会有三份备份，一份放在NameNode指定的DataNode，另一份放在与指定DataNode非同一Rack上的DataNode，最后一份放在与指定DataNode同一Rack上的DataNode上。备份无非就是为了数据安全，考虑同一Rack的失败情况以及不同Rack之间数据拷贝性能问题就采用这种配置方式。

0.1.1.2.心跳检测

心跳检测DataNode的健康状况，如果发现问题就采取数据备份的方式来保证数据的安全性。

0.1.1.3.数据复制

数据复制（场景为DataNode失败、需要平衡DataNode的存储利用率和需要平衡DataNode数据交互压力等情况）：这里先说一下，使用HDFS的balancer命令，可以配置一个Threshold来平衡每一个DataNode磁盘利用率。例如设置了Threshold为10%，那么执行balancer命令的时候，首先统计所有DataNode的磁盘利用率的均值，然后判断如果某一个DataNode的磁盘利用率超过这个均值Threshold以上，那么将会把这个DataNode的block转移到磁盘利用率低的DataNode，这对于新节点的加入来说十分有用。

0.1.1.4.数据校验：

采用CRC32作数据校验。在文件Block写入的时候除了写入数据还会写入校验信息，在读取的时候需要校验后再读入。

0.1.1.5.NameNode默认情况下是单点（2.0后可以配置成HA）

单点环境中如果失败的话，任务处理信息将会记录在本地文件系统和远端的文件系统中。

0.1.1.6.数据管道性的写入

当客户端要写入文件到DataNode上，首先客户端读取一个Block然后写到第一个DataNode上，然后由第一个DataNode传递到备份的DataNode上，一直到所有需要写入这个Block的NataNode都成功写入，客户端才会继续开始写下一个Block。

0.1.1.7.安全模式

安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性，同时根据策略必要的复制或者删除部分数据块。在分布式文件系统启动的时候，开始的时候会有安全模式，当分布式文件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许删除，直到安全模式结束。运行期通过命令也可以进入安全模式。在实践过程中，系统启动的时候去修改和删除文件也会有安全模式不允许修改的出错提示，只需要等待一会儿即可。

3.MapReduce

本文虽主要讲hdfs分布式存储的功能，但这里顺带说一下分布式运算的原理。

3.1.算法介绍

2004年，Google发表了论文，向全世界介绍了MapReduce。2005年初，Nutch的开发者在Nutch上有了一个可工作的MapReduce应用。

5-3 mapreduce结构示意图一

2-3 mapreduce结构示意图二

MapReduce从它名字上来看就大致可以看出个缘由，两个动词Map和Reduce，“Map（展开）”就是将一个任务分解成为多个任务，“Reduce”就是将分解后多任务处理的结果汇总起来，得出最后的分析结果。

在分布式系统中，机器集群就可以看作硬件资源池，将并行的任务拆分，然后交由每一个空闲机器资源去处理，能够极大地提高计算效率，同时这种资源无关性，对于计算集群的扩展无疑提供了最好的设计保证。（廉价的机器群可以匹敌任何高性能的计算机，纵向扩展的曲线始终敌不过横向扩展的斜线）。任务分解处理以后，那就需要将处理以后的结果再汇总起来，这就是Reduce要做的工作。

具体过程序如下：

1)Input输入

从文件中读取原始数据

原始数据 <InputKey, InputValue>

2)Map映射

将原始数据映射成用于Reduce的数据

<InputKey,InputValue>List<<MapKey, MapValue>>

3)Reduce合并

将相同Key值的中间数据合并成最终数据

<MapKey,List<MapValue>> <OutputKey, OutputValue>

4)Output输出

将最终处理结果输出到文件

<OutputKey, OutputValue>结果文件

上述就是MapReduce大致处理过程，在Map前还可能会对输入的数据有Split（分割）的过程，保证任务并行效率，在Map之后还会有Shuffle（混合）的过程，对于提高Reduce的效率以及减小数据传输的压力有很大的帮助。后面会具体提及这些部分的细节。

3.2.Hadoop框架下的mapreduce

最简单的 MapReduce 应用程序至少包含 3 个部分：一个 Map 函数、一个 Reduce 函数和一个 main 函数。main 函数将作业控制和文件输入/输出结合起来。在这点上，Hadoop 提供了大量的接口和抽象类，从而为Hadoop 应用程序开发人员提供许多工具，可用于调试和性能度量等。

MapReduce本身就是用于并行处理大数据集的软件框架。MapReduce的根源是函数性编程中的map和reduce函数。它由两个可能包含有许多实例（许多Map 和Reduce）的操作组成。Map函数接受一组数据并将其转换为一个键/值对列表，输入域中的每个元素对应一个键/值对。Reduce 函数接受 Map 函数生成的列表，然后根据它们的键（为每个键生成一个键/值对）缩小键/值对列表。

3.2.1.示例1

假设输入域是one small step forman, one giant leap for mankind。在这个域上运行 Map 函数将得出以下的键/值对列表：

 (one, 1)  (small, 1)  (step, 1)  (for, 1)  (man, 1)

 (one, 1)  (giant, 1)  (leap, 1)  (for, 1)  (mankind, 1)

如果对这个键/值对列表应用 Reduce 函数，将得到以下一组键/值对：

 (one, 2)  (small, 1)  (step, 1) (for, 2)  (man, 1)

 (giant, 1)  (leap, 1) (mankind, 1)

结果是对输入域中的单词进行计数，这无疑对处理索引十分有用。但是，现在假设有两个输入域，第一个是one small step for man，第二个是one giant leap formankind。您可以在每个域上执行Map 函数和Reduce 函数，然后将这两个键/值对列表应用到另一个 Reduce 函数，这时得到与前面一样的结果。换句话说，可以在输入域并行使用相同的操作，得到的结果是一样的，但速度更快。这便是MapReduce 的威力；它的并行功能可在任意数量的系统上使用。

3.2.2.示例2

Hadoop提供的范例Wordcount（计算网页中各个单词的数量）：

1)Input：文本内容è <行号，文本内容>

2)Map：<行号, 文本内容> èList<<单词, 数量1>>

3)Reduce：<单词, List<数量1>> è <单词, 数量合计>

4)Output：List<<单词,数量>> è文本文件

现在回到 Hadoop 上，它是如何实现这个功能的？

一个代表客户机在单个主系统上启动的 MapReduce应用程序称为JobTracker。类似于 NameNode，它是 Hadoop 集群中惟一负责控制MapReduce 应用程序的系统。在应用程序提交之后，将提供包含在HDFS 中的输入和输出目录。JobTracker使用文件块信息（物理量和位置）确定如何创建其他TaskTracker 从属任务。MapReduce应用程序被复制到每个出现输入文件块的节点。将为特定节点上的每个文件块创建一个惟一的从属任务。每个TaskTracker 将状态和完成信息报告给JobTracker。

图2-5 显示一个示例集群中的工作分布。

图2-5. 显示处理和存储的物理分布的 Hadoop 集群

注：

在线上的生产应用环境中需要作到：Namenode与JobTacker要部署在不同的服务器上.

4.综合架构分析

下面综合MapReduce和HDFS来看Hadoop的结构：

图3：Hadoop结构示意图

在Hadoop的系统中，会有一台Master，主要负责NameNode的工作以及JobTracker的工作。JobTracker的主要职责就是启动、跟踪和调度各个Slave的任务执行。还会有多台Slave，每一台Slave通常具有DataNode的功能并负责TaskTracker的工作。TaskTracker根据应用要求来结合本地数据执行Map任务以及Reduce任务。
说到这里，就要提到分布式计算最重要的一个设计点：Moving Computation is Cheaperthan Moving Data。就是在分布式处理中，移动数据的代价总是高于转移计算的代价。简单来说就是分而治之的工作，需要将数据也分而存储，本地任务处理本地数据然后归总，这样才会保证分布式计算的高效性。

对外部客户机而言，HDFS 就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件，等等。但是 HDFS 的架构是基于一组特定的节点构建的，这是由它自身的特点决定的。这些节点包括NameNode（仅一个），它在 HDFS 内部提供元数据服务；DataNode，它为HDFS 提供存储块。由于仅存在一个 NameNode，因此这是 HDFS 的一个缺点（单点失败）。

HDFS是分布式计算的存储基石，Hadoop的分布式文件系统和其他分布式文件系统有很多类似的特质。分布式文件系统基本的几个特点：

1)对于整个集群有单一的命名空间。

2)数据一致性。适合一次写入多次读取的模型，客户端在文件没有被成功创建之前无法看到文件存在。

3)文件会被分割成多个文件块，每个文件块被分配存储到数据节点上，而且根据配置会由复制文件块来保证数据的安全性。

第二章、hadoop2.2完全分布式集群安装步骤。见链接下一篇文章。

本部分主要介绍使用ambair工具安装hadoop完全分布式集群的过程。

本文出自 “学海无涯” 博客，转载请与作者联系！

你可能感兴趣的:(hadoop2.2,完全分布式架构及原理)

学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动李蕾1229
为促进我校教师专业发展，发挥骨干教师的引领带头作用，11月6日下午，我校举行新老教师师徒结对仪式暨名师专业工作室工作交流活动。图片发自App会议由教师发展处李蕾主任主持，首先，由范校长宣读新老教师结对名单及双方承担职责。随后，两位新调入教师陈玉萍、莫正杰分别和他们的师傅鲍元美、刘召彬老师签订了师徒结对协议书。图片发自App图片发自App师徒拥抱、握手。有了师傅就有了目标有了方向，相信两位新教师在师
向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
春季养肝正当时 dxn悟
重温快乐2023年2月4日立春。春天来了，春暖花开，小鸟欢唱，那在这样的季节我们如何养肝呢？自然界的春季对应中医五行的木，人体五脏肝属木，“木曰曲直”，是以树干曲曲直直地向上、向外伸长舒展的生发姿态，来形容具有生长、升发、条达、舒畅等特征的食物及现象。根据中医天人相应的理念，肝五行属木，喜条达，主疏泄，与春天相应，所以春天最适合养肝。养肝首先要少生气，因为肝喜条达恶抑郁。人体五志肝为怒，生气发怒最
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
git - Webhook让部署自动化大猪大猪
我们现在有一个需求，将项目打包上传到gitlab或者github后，程序能自动部署，不用手动地去服务器中进行项目更新并运行，如何做到？这里我们可以使用gitlab与github的挂钩，挂钩的原理就是，每当我们有请求到gitlab与github服务器时，这时他俩会根据我们配置的挂钩地扯进行访问，webhook挂钩程序会一直监听着某个端口请求，一但收到他们发过来的请求，这时就知道用户有请求提交了，这时
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
没有邀请码怎么注册买手妈妈? 氧惠评测
买手妈妈怎么注册小编为大家带来买手妈妈没有邀请码怎么注册。打开买手妈妈APP，点击“马上注册”，输入邀请信息“邀请码”点击下一步，没有邀请码是登录不上的，所以这个必须要填写，那我们没有怎么办？填写成功就可以登录下一步。这里面有手机登录和淘宝登录，手机登录以后也需要用淘宝授权的，所以基本上都是淘宝登录。购物、看电影、点外卖、用氧惠APP！更优惠！氧惠（全网优惠上氧惠）——是与以往完全不同的抖客+淘客
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
CX8836：小体积大功率升降压方案推荐（附Demo设计指南）诚芯微科技社交电子
CX8836是一颗同步四开关单向升降压控制器，在4.5V-40V宽输入电压范围内稳定工作，持续负载电流10A，能够在输入高于或低于输出电压时稳定调节输出电压，可适用于USBPD快充、车载充电器、HUB、汽车启停系统、工业PC电源等多种升降压应用场合，为大功率TYPE-CPD车载充电器提供最优解决方案。提供CX8836Demo测试、CX8836样品申请及CX8836方案开发技术支持。CX8836同升
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
Rust基础知识 GRKF15 rust 开发语言后端
1.Rust语言简介1.1基础语法变量声明：let关键字用于声明变量，可以指定或不指定类型，如leta=10;和letmutc=30i32;。函数定义：使用fn关键字定义函数，并指定参数类型及返回类型，如fnadd(i:i32,j:i32)->i32{i+j}。控制流：包括if、else等，控制语句后需要使用;来结束语句。1.2数据类型整数类型：i8、i16、i32、i64、i128，以及无符号的
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
直返APP是什么?直返APP是干嘛的氧惠帮朋友一起省
直返是一种电商购物模式，其核心特点是用户购买商品后可以获得直接返利。具体来说，用户在直返电商平台购买商品时，不仅可以获得商品本身的优惠，还可以获得一定的现金返利或者积分奖励。返利的金额可以提现到用户的账户余额，或者用于下次购物时抵扣。氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万
直返的东西正品吗?直返APP安全吗?直返是正规平台吗? 氧惠购物达人
亲们，你们是不是经常在直返APP上买东西呀？但是，你们有没有想过，里面的东西到底是不是正品呢？这个APP安全吗？它是不是一个正规的平台呀？别着急，今天我就来给大家揭秘一下！氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
读《人间鲁迅》有感琳语读书
上周读完《闻一多传》后，我对中国近代知识分子产生了兴趣，这周继续读了《人间鲁迅》。厚厚的两本书，记录了一个人的一生，苦痛，彷徨和挣扎，虽然只读了一小部分，却也心潮澎湃。闻一多和鲁迅是完全不同的。鲁迅是沉郁的，现实的，寂寞的，抗争的。除了天生性格的不同外，环境的塑造也是非常之大。鲁迅少年经历了家庭的变故，看尽了人间冷暖，世态炎凉。这种经历促使他很早就观察思考人生，立志用文学来改变中国国民的劣根。闻一
简介Shell、zsh、bash zhaosuningsn Shell zsh bash shell linux bash
Shell是Linux和Unix的外壳，类似衣服，负责外界与Linux和Unix内核的交互联系。例如接收终端用户及各种应用程序的命令，把接收的命令翻译成内核能理解的语言，传递给内核，并把内核处理接收的命令的结果返回给外界，即Shell是外界和内核沟通的桥梁或大门。Linux和Unix提供了多种Shell，其中有种bash，当然还有其他好多种。Mac电脑中不但有bash，还有一个zsh，预装的，据说
舜公郑金锋书辛丑自剪扇面书法作品（四O六）舜公郑金锋
辛丑小阳春，新自剪扇面400品，大多为各色撒金、撒银、描金、描银、水印、彩绘、荧光等亚粉、色宣纸，以及域外包装填充纸等；王一品长锋羊毫秃笔；一得阁云头艳墨、宿墨、水等。书体有甲骨文，金文(商周金文、春秋战国金文、中山王厝器金文、汉金文……)，楚简帛书，侯马盟书，温县盟书，小篆，果蝙书等，隶书(秦简、汉简帛书、汉碑……)，草书(章草、小草、大草……)，行书(行楷、行草)，楷书(魏碑及北朝墓志、隋朝墓
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
2022-08-28 蔚蓝一片晴
初三暑假培训收获点滴从8月25至8月27日三天两晚的培训结束了，回到家中，该静下心来整理一下触动心灵的收获，成为成长的积淀。1.在优秀团队中快速成长与提升，做一名反思成长型教师一名专业型教师的教学指导包括了教学原理知识、案例知识、策略知识。面对教学中的遇到的有趣的情形、问题会去研究其理，寻找更好的教法学法对策。从新手到成熟型教师，再走向专业型教师，需要的是觉醒与反思，多进行案例研究，从案例中观察、
STM32中的计时与延时 lupinjia STM32 stm32 单片机
前言在裸机开发中，延时作为一种规定循环周期的方式经常被使用，其中尤以HAL库官方提供的HAL_Delay为甚。刚入门的小白可能会觉得既然有官方提供的延时函数，而且精度也还挺好，为什么不用呢？实际上HAL_Delay中有不少坑，而这些也只是HAL库中无数坑的其中一些。想从坑里跳出来还是得加强外设原理的学习和理解，切不可只依赖HAL库。除了延时之外，我们在开发中有时也会想要确定某段程序的耗时，这就需要
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数