迷途小码

hadoop源码 - datanode数据块的读与写

前提

Hadoop版本：hadoop-0.20.2

概述

现在已经知道datanode是通过DataXceiver来处理客户端和其它datanode的请求，在分析DataXceiver时已经对除数据块的读与写之外的操作进行了说明，本文主要分析比较复杂而且非常重要的两个操作：读与写。对于用户而言，HDFS用得最多的两个操作就是写和读文件，而且在大部分情况下，是一次写入，多次读取，满足高吞吐量需求而非低延迟，除去客户端与namenode的协商，剩下的部分主要是客户端直接与datanode通信（数据流的头部在上篇文章中已介绍），发送或接收数据，而这些数据在datanode如何接收并写入磁盘、如何从磁盘读出并发送出去就是本文所要介绍的内容。

DataChecksum

无论是读数据还是写数据，都会涉及到checksum，我们先来看看DataChecksum的结构，该类位于org.apache.hadoop.util这个包下，有以下几个主要属性：

type：checksum的类型，有CHECKSUM_NULL和CHECKSUM_CRC32两种
size：checksum的大小（字节），CHECKSUM_NULL的大小是0，CHECKSUM_CRC32的大小是4
summer：真正用来做checksum的对象，CHECKSUM_NULL使用的是ChecksumNull这个自定义的不干实事的类，CHECKSUM_CRC32使用的是java提供的CRC32
bytesPerChecksum：用来做checksum的数据片的大小（字节），即HDFS会把块文件（block）分成多个分片（chunk），对每个分片做checksum，那么读或写数据的最小单位是分片
inSum：已经做checksum的总字节数

DataChecksum的header有5个字节，其中type占1个字节，bytesPerChecksum占4个字节。

DataChecksum有如下几类方法：

newDataChecksum：创建一个新的DataChecksum
writeHeader：将checksum header写到输出流
getHeader：将checksum header存到一个byte数组中，并返回
writeValue：将checksum计算结果写到输出流或缓冲区中
getValue：返回checksum计算结果
reset：重置checksum
update：更新checksum

BlockMetadataHeader

一直在说一个块有数据文件和元数据文件，有了上边对checksum的分析，下面我们来揭开datanode上管理数据块元数据的BlockMetadataHeader的面纱，数据块无数据的最大部分是块的CRC，这部分与namenode与块相关的功能无关。

有两个属性：

version：元数据版本（2个字节）
checksum：数据校验和（header占5个字节）

那么元数据文件的header总共有7个字节，元数据文件的结构大概如下所示：

+---------------------------------------------------+
|     2 byte version       |   1 byte checksum type |
+---------------------------------------------------+
| 4 byte bytesPerChecksum  |   4 byte checksum      |
+---------------------------------------------------+
|   Sequence of checksums  |
+--------------------------+

BlockMetadataHeader提供以下几类方法：

readHeader：从文件或输入流读取header
writeHeader：将header写到输出流
getHeaderSize：得到header的大小，该版本是7

BlockSender

从BlockSender这个名字我们就能够知道它的作用是用于发送块文件，首先，我们来看看其重要的属性：

block：读取的数据块
blockIn：本地磁盘的块文件
blockInPosition：是否使用transferTo()
checksumIn：本地磁盘的块元数据文件
checksum：checksum stream
offset：读取的数据在块中的起始位置
endOffset：结束位置
blockLength：块的长度
bytesPerChecksum：chunk大小
checksumSize：checksum大小
corruptChecksumOk：是否需要验证checksum是否损坏
chunkOffsetOK：是否需要发送chunk的开始位置
seqno：packet编号
transferToAllowed：是否允许transferTo
blockReadFully：如果整个块被读取，设置为true
verifyChecksum：在读数据时，是否检查checksum

下面，我们来看看其构造方法，其定义如下：

BlockSender(Block block, long startOffset, long length,
    boolean corruptChecksumOk, boolean chunkOffsetOK,
    boolean verifyChecksum, DataNode datanode, String clientTraceFmt);

参数有很多：

block：要读取的块
startOffset：读取数据的开始位置
length：读取数据的长度
corruptChecksumOk：是否需要验证checksum是否损坏
chunkOffsetOK：是否需要发送chunk的开始位置
verifyChecksum：在读数据时，是否检查checksum
datanode：当前所在的datanode
clientTraceFmt：client trace log message的格式

初始化的过程如下：

读取元数据，加载checksum
计算bytesPerChecksum和checksumSize，
检查并调整开始位置和结束位置，使开始位置和结束位置与验证块的边界对齐
将checksum数据定位到正确的位置
将块数据文件输入流定位到正确的位置

首先，我们来看看sendBlock方法，其定义如下：

long sendBlock(DataOutputStream out, OutputStream baseStream,
    BlockTransferThrottler throttler) throws IOException;

其中：

out：是块数据要写出的流
baseStream：如果不为null，那么out是该流的包装器，即out封装了baseStream
throttler：用于控制流量

sendBlock的处理流程是这样的：

将数据的header（checksum header，如果需要发送块的开始位置还需要再加一offset）写到out
检查是或允许transferTo（verifyChecksum为false，baseStream是SocketOutputStream，blockIn是FileInputStream），这种方式使用FileChannel来传输数据，而不是先将数据读取到缓冲区
计算每个packet数据（checksum和数据）的大小
将所有packet写到out
将一整数（int）0写到out，标记块的结束

到此我们知道发送的块数据如下所示：

+-----------------------------------------------------+
| 1 byte checksum type     | 4 byte bytesPerChecksum  |
+-----------------------------------------------------+
|       8 byte offset if chunkOffsetOK=true           |
+-----------------------------------------------------+
| Sequence of data PACKETs |         4 byte 0         |
+-----------------------------------------------------+

接下来，我们来看看sendChunks的处理流程，sendChunks的功能是发送一个packet，具体发送的chunk数由参数maxChunks指定：

计算真实的chunk数numChunks和packet的大小packetLen
将packet header（packet大小packetLen、数据在block中的位置offset、packet编号seqno、是否是最后一个packet、真实数据的大小len）写到out
读取checksum数据到缓冲区，如果corruptChecksumOk为真，那么在出错时修复数据
如果不允许transferTo，读取真实数据到缓冲区，如果verifyChecksum为真，那么检查checksum，最后将checksum和真实数据写到out
如果允许transferTo，调用SocketOutputStream的transferToFully方法传输数据
做流量控制

由以上分析，我们可知packet的结构如下：

+-----------------------------------------------------+
| 4 byte packet length (excluding packet header)      |
+-----------------------------------------------------+
| 8 byte offset in the block | 8 byte sequence number |
+-----------------------------------------------------+
| 1 byte isLastPacketInBlock                          |
+-----------------------------------------------------+
| 4 byte Length of actual data                        |
+-----------------------------------------------------+
| x byte checksum data. x is defined below            |
+-----------------------------------------------------+
| actual data ......                                  |
+-----------------------------------------------------+

其中x是根据以下表达式计算出来的：

x = (length of data + BYTE_PER_CHECKSUM - 1)/BYTES_PER_CHECKSUM *
      CHECKSUM_SIZE

BlockReceiver

BlockReceiver主要作用是接收块文件，首先，我们来看看其重要的属性：

block：接收的块
in：接收数据的流
out：本地磁盘的块文件
checksum：计算checksum
checksumOut：本地磁盘的元数据文件
bytesPerChecksum：用来做checksum的数据片的大小
checksumSize：checksum的大小
buf：存接收的数据，一个完整的packet
bufRead：接收的合法的数据的大小
offsetInBlock：接收的数据在块中的位置
mirrorAddr：pipeline中下一个datanode的地址
mirrorOut：用于将数据发送到pipeline中下一个datanode
responder：用于应答的线程
isRecovery：是否是恢复操作（覆盖或追加）
inAddr：数据发送方的地址
myAddr：本地的地址

下面，我们来看看其构造方法，其定义如下：

BlockReceiver(Block block, DataInputStream in, String inAddr,
    String myAddr, boolean isRecovery, String clientName,
    DatanodeInfo srcDataNode, DataNode datanode) throws IOException {

参数也有不少：

block：接收的块
in：接收数据的流
inAddr：数据发送方的地址
myAddr：本地的地址
isRecovery：是否是恢复操作，即原来文件已经存在
clientName：客户端名字
srcDataNode：发送数据的datanode
datanode：本datanode

初始化的过程如下：

读取checksum信息
打开本地的块文件和元数据文件，并检查块是否正确
如果是恢复操作，将块从blockScanner中删除

BlockReceiver这个类比较复杂，有一千行左右代码，我们以客户端写文件为例来说明其处理过程，如下图所示：

从上图可以看出数据被分成64KB的packet从客户端沿着pipeline逐一发送到所有的datanode，到达最后一个datanode后，应答信息ACK从最后一个datanode沿着pipeline送回客户端，客户端收到ACK就能够知道数据是否发送成功。对于每个datanode，其职责是接收数据包并将数据包发送到其下游datanode，收到ACK后，对ACK进行加工后发送给上游的datanode或client。如果是拷贝块数据操作，是不需要发送应答包的，过程比上图要简单，只需要把数据从一个datanode发送到另一个datanode。

那么，可以将下面的内容分成接收数据和发送应答包两部分，首先，我们来看看接收数据的入口receiveBlock方法：

 void receiveBlock(
     DataOutputStream mirrOut, // output to next datanode
     DataInputStream mirrIn,   // input from next datanode
     DataOutputStream replyOut,  // output to previous datanode
     String mirrAddr, BlockTransferThrottler throttlerArg,
     int numTargets) throws IOException;

先来分析其参数：

mirrOut：到下游datanode的输出流，用以发送数据包
mirrIn：来自下游datanode的输入流，用以接收应答包
replyOut：到上流datanode的输出流，用以发送应答包
mirrAddr：下游datanode的地址
throttlerArg：节流器，用于控制流量
numTargets：下游datanode的数量，用于确认应答包是否正确

处理的过程如下面的流程图所示：

在这个过程中，需要注意的是setBlockPosition这个方法，如果块文件之前已经finalize了，并且isRecovery为false或者offsetInBlock超过块的大小，那么会抛异常。前边已经讲到每个块文件会被分割成多个chunk，然后对每个chunk做checksum，在这里，如果offsetInBlock不与chunk的边界对齐，那么需要先读出offsetInBlock所位于chunk在offsetInBlock之前数据的checksum，再更新接收到的数据，这样才能确保checksum的正确性。

下面就来看看发送应答包是怎么回事，相关的类有PacketResponder、Packet和PipelineAck，PipelineAck是接口org.apache.hadoop.hdfs.protocol.DataTransferProtocol的内部静态类。先来看看简单的Packet，纯粹就是一个数据结构，有两个属性：

seqno：packet的编号
lastPacketInBlock：是否是最后一个包

PipelineAck封装了应答的内容，我们来看看其属性：

seqno：packet的编号
replies：一个数组，下游datanode及其自己的答应，数组中每个元素的取值是上一篇文章中操作的状态
HEART_BEAT：心跳应答对象，seqno为-1，replies中只有一个值OP_STATUS_SUCCESS

一个ACK的内容如下所示：

+-----------------------------------------------------+
|    8 byte seqno       | Sequence of 2 byte replies  |
+-----------------------------------------------------+

如何判断一个ACK是否是成功呢？很简单，只要replies中有值不为OP_STATUS_SUCCESS，那么就不成功。

好了，只剩下一个PacketResponder了，先看其属性：

ackQueue：等待应答的packet队列
running：PacketResponder是否在运行
block：数据块
mirrorIn：来自下游datanode的输入流，用以接收应答包
replyOut：到上流datanode的输出流，用以发送应答包
numTargets：下游datanode的数量，用于确认应答包是否正确
receiver：PacketResponder的所有者

PacketResponder的处理有两种不同的方式：numTargets=0，说明这是pipeline的最后一个datanode；有下游datanode。

先来看看最后一个datanode是如何处理每个packet的：

如果ackQueue中没有元素，先等待一段时间，如果距上次发送心跳的时间间距超过某阈值，发送心跳给上游的datanode，重复以上操作直到ackQueue不为空
如果当前packet是最后一个，finalize数据块，并通知datanode接收完数据块
发送ACK给上游的datanode

如果不是最后一个datanode又是如何处理的：

接收下游datanode的ACK
如果是心跳ACK，直接发送给上游datanode，接着处理下个packet
如果非心跳ACK，先检查接收到的ACK的packet编号和当前队列中第一个元素的packet编号是否一致
如果当前packet是最后一个，finalize数据块，并通知datanode接收完数据块
构造ACK消息，replies的第一个元素是自己的状态，值为OP_STATUS_SUCCESS，如果没有收到下游datanode的ACK，其它元素的值为OP_STATUS_ERROR，否则其它元素的值为接收到的原值
将ACK消息发送给上游datanode
如果ACK有错，中止PacketResponder的运行

大数据从入门到实战-hadoop开发环境搭建是草莓熊吖 hadoop java 大数据
配置JavaJDK1.下载JDK前往Oracle的官网下载JDK：JavaDownloads|Oracle我们可以先下载到本地，然后从Windows中将文件传入到虚拟机中。也可以复制链接地址，在Linux系统中下载，不过复制链接地址不能直接下载，因为Oracle做了限制，地址后缀需要加上它随机生成的随机码，才能下载到资源所以我们可以点击下载，然后暂停，最后在下载管理中复制链接地址就可以在Linux
hive:创建自定义python UDF -柚子皮- Database hive python udf
由于Hadoop框架是用Java编写的，大多数Hadoop开发人员自然更喜欢用Java编写UDF。然而，Apache也使非Java开发人员能够轻松地使用Hadoop，这是通过使用HadoopStreaming接口完成的!Java-UDFvs.Python-UDFJava实现UDF，需要引用包含HiveAPI的外部jar包，而Python无需引起其他外部包；Java实现UDF后，需要打包后才可被Hi
从零到一：Hadoop开发者的成长之路乌龙饼干 hadoop 大数据分布式
从零到一：Hadoop开发者的成长之路随着大数据时代的来临，Hadoop作为处理大规模数据的开源框架，已成为企业和开发者关注的焦点。那么，如何从零开始，逐步成长为一名优秀的Hadoop开发者呢？本文将为您揭示这一成长之路，并通过示例代码加以说明。一、初识Hadoop首先，作为一名Hadoop开发者，您需要了解Hadoop的基本概念、架构和组件。Hadoop是一个分布式系统基础架构，它允许用户在不了
大数据开发学习资料汇总比屋大数据大数据架构师源码零基础教程大数据 linux 运维
目录大数据系列HadoopHadoop权威指南Hadoop权威指南修订Hadoop实战Hadoop实战_2Hadoop源码分析大数据处理系统：Hadoop源代码情景分析Hadoop开发者入门专刊Hadoop技术内幕：深入解析MapReduce架构设计与实现原理Hadoop技术内幕：深入解析YARN架构设计与实现原理HadoopYARN权威指南Hadoop奶妈级基础入门视频课：Linux嵌入式Lin
Hadoop开发环境搭建柔雾 hadoop 大数据分布式
文章目录第1关：配置开发环境-JavaJDK的配置第2关：配置开发环境-Hadoop安装与伪分布式集群搭建hadoop-env.sh配置yarn-env.sh配置core-site.xml配置hdfs-site.xml文件配置mapred-site.xml文件配置yarn-site.xml配置第二关整体代码如下：第1关：配置开发环境-JavaJDK的配置mkdir/appcd/optlltar-z
Hadoop开发环境搭建紫苓
0、修改hostname1)修改/etc/hosts:192.168.184.130luozheng.bigdata2)修改/etc/hostnameluozheng.bigdata3)添加或是修改/etc/sysconfig/network#CreatedbyanacondaNETWORKING=yesHOSTNAME=luozheng.bigdata重启查看是否修改OKimage.png4)修
云计算实验1 基于Hadoop的云计算平台配置和map-reduce编程案例 MrNeoJeep #云计算 hadoop 云计算大数据
一、实验目的本实验考察学生Hadoop平台下的环境配置、分布式文件存储操作和管理以及基于Hadoop的分布式编程的设计与实现。二、实验环境Linux的虚拟机环境、线上操作视频和实验指导手册三、实验任务完成Hadoop开发环境安装、熟悉基本功能和编程方法。四、实验步骤请按照线上操作视频和实验知道手册，完成以下实验内容：实验1-1Hadoop安装部署(1)登录虚拟机(2)主机配置：主机名、网络和免密登
基于Hadoop开发的大数据实战项目——电商日志分享系统搞程序的菇凉 big data 大数据 database hadoop 数据库
项目介绍大数据电商日志平台项目以某电商网站真实的业务数据架构为基础，将数据从收集到使用通过前端应用程序，后端程序，数据分析，平台部署等多方位的闭环的业务实现。形成了一套符合教学体系的电商日志分析项目。bf_dataapi项目的主要目标有两个：第一个就是我们需要提供一个提供json数据的RestAPI；另外一个目标就是提供一个展示结果的demo页面。bf_dataapi使用spring+mybati
Windows下搭建hadoop 搭建本地hadoop开发环境生活的探路者
一、下载所需文件1.JDK下载地址：点击打开链接2.Hadoop下载地址：点击打开链接3.Windows下安装Hadoop工具下载地址:点击打开链接密码：yk9u二、jdk安装1.不会看这里点击打开链接三、Hadoop环境配置1.下载Hadoop，并解压到你的本地目录，我下载的是hadoop-2.5.2版本，解压在D:\hadoop\hadoop-2.5.2。四、配置Hadoop的环境变量1.计算
大数据开发学习Hadoop路线图（详细篇） qq_43713878 大数据大数据分析 Linux spark 数据挖掘 Hadoop 大数据开发大数据学习大数据大数据学习 Hadoop Linux 大数据开发
Hadoop发展到今天家族产品已经非常丰富，能够满足不同场景的大数据处理需求。作为目前主流的大数据处理技术，市场上很多公司的大数据业务都是基于Hadoop开展，而且对很多场景已经具有非常成熟的解决方案。作为开发人员掌握Hadoop及其生态内框架的开发技术，就是进入大数据领域的必经之路。下面详细介绍一下，学习Hadoop开发技术的路线图。Hadoop本身是用java开发的，所以对java的支持性非常
Hadoop(6) HDFS Alaskyed 大数据 #Hadoop 大数据 hadoop hdfs
Hadoop(6)HDFS文章目录Hadoop(6)HDFSHDFSHDFS介绍HDFS的定义HDFS的优缺点HDFS的应用场景HDFS的组成配置Hadoop开发环境HDFS的Shell命令HDFS操作HDFS上传操作HDFS下载操作HDFS的API操作开发软件中开发环境的搭建API测试HDFS上传和下载的流程客户端上传文件到HDFS流程(写流程)从HDFS下载文件的流程(读流程)元数据元数据介绍
基于ECLIPSE的HADOOP开发-----HDFS API学习 wly603 云计算 Hadoop eclipse hadoop api
详细见本人另一个博客，http://www.cnblogs.com/wly603/archive/2012/04/19/2457297.html谢谢
Hadoop开发环境搭建之Eclipse配置周五见大数据实践学习
0主要参考教程1、厦门大学数据库实验室2、JeffreyZhou的博客园整个hadoop是基于Java开发的，所以要对hadoop进行一些稍微底层一点的开发，还是得编写java程序。那就必然少不了eclipse这一开发工具了。1安装Eclipse1.1在Ubuntu中安装Eclipse，可从Ubuntu的软件中心直接搜索安装，在桌面左侧任务栏，点击“UbuntuSoftware”。1.2直接在右上
头歌Hadoop 开发环境搭建及HDFS初体验（第2关：配置开发环境 - Hadoop安装与伪分布式集群搭建）学不好python的小猫 hadoop hdfs 大数据 jdk
第1关：配置开发环境-JavaJDK的配置第2关：配置开发环境-Hadoop安装与伪分布式集群搭建第3关：HDFS系统初体验注：1头歌《Hadoop开发环境搭建及HDFS初体验》三关在一个实验环境下，需要三关从前往后按顺序评测，跳关或者实验环境结束后重新打开不能单独评测通过2复制粘贴请用右键粘贴，CTRL+C/V不管用哦~第1关：配置开发环境-JavaJDK的配置：解压：mkdir/appcd/o
Hadoop学习（一） MAC OS下安装Hadoop开发环境禅大师
在MACOS下安装和配置Hadoop开发环境相当简单。先去下载最新稳定版本的Hadoop的文件包，下载地址为：http://mirror.bjtu.edu.cn/apache/hadoop/common/hadoop-1.0.3/hadoop-1.0.3-bin.tar.gz下载后解压复制到/Users路径下。在/Users/hadoop-1.0.3/conf路径下修改以下四个文件：core-si
MapReduce序列化 Manfestain
序列化就是把内存中的对象转换成字节序列以便于存储到磁盘（持久化）和网络传输。反序列化就是将字节序列或者是持久化的数据转换成内存中的对象。内存中的对象只能本地进程使用，断掉后就消失了，也不能被发送到网络上的另一台机器，序列化可以将内存中的对象发送到远程机器。由于Java本身的序列化框架（Serializable）太重，序列化的对象包含了很多额外信息，不便于在网络中高效传输，Hadoop开发了自己的序
windows下搭建hadoop 搭建本地hadoop开发环境 Mark_ZQ 大数据大数据
一、下载所需文件1.JDK下载地址：https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html2.Hadoop下载地址:https://pan.baidu.com/s/1fGclfAivPWVukRPDRfMUzA3.Windows下安装Hadoop工具下载地址:https://pan.b
Hadoop期末总复习赫嘉益华 hadoop 大数据 hdfs
目录第一章概述待续…第2章HDFS【问题1】分布式文件系统有很多，为何Hadoop要单独再开发一个HDFS？答：Hadoop开发了自己的分布式文件系统（HDFS）主要是为了满足其大数据处理框架的需求。下面是一些原因解释为何Hadoop选择单独开发HDFS：适应大数据处理：Hadoop旨在处理大规模数据集，传统的文件系统无法有效地处理这样的数据规模。HDFS是专门为大数据处理而设计的，它采用分布式存
linux系统下进行Hadoop开发环境配置(软件准备，防火墙，NTP服务器，环境变量，SSH免密，静态网卡） Matrix70 Hadoop hadoop 大数据分布式
VMware虚拟机新建虚拟机自动跳转到图形界面问题解决给一个小家伙装机时，我需要转到命令行界面进行操作，而它总是显示UI界面而不是命令行，我还以为是下载的VM版本不对，上网搜了搜，自己操作了一下，在新建完虚拟后登录，然后同时ctrl+alt+F5就能切换到命令行操作界面，卡了好一会，我这个脑子啊。参考链接：虚拟机怎么从图形界面转到命令行（去掉桌面）_vmware怎么进入命令行_虾仁猪心185的博客
Hadoop基础——MapReduce YuannaY 大数据组件 hadoop mapreduce 大数据
1.Hadoop序列化和反序列化及自定义bean对象实现序列化？1)序列化和反序列化的含义序列化是将内存中的对象转换为字节序列，以便持久化和网络传输。反序列化就是将字节序列或者是持久化数据转换成内存中的对象。Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息，不便于在网络中高效传输，所以hadoop开发了一套序列化机制（Writable）2
基于docker的Hadoop集群下实现最小生成树的mapreduce程序奋羊羊学习笔记技术分享 hadoop mapreduce 大数据 java 算法
01.技术背景在本文中，将为读者详细介绍如下内容：如何部署基于docker的hadoop开发环境mapreduce的基本开发流程与基本知识java开发的一些基本知识最小生成树算法相关的知识。文章中假定您已经具有如下知识背景：了解并掌握docker的相关操作开发过程中Linux相关的知识java的基本知识算法相关的基本知识，如图、树等基本概念在环境搭建与开发过程中，需要用到的资源如下：Hadoop安
Hadoop开发--MapReduce编程--示例(十) 无剑_君
一、手机号分类中国移动公司想要查看北京用户的打电话情况，手机信号来自附近的基站，要查看北京用户的信息得从全国所有的基站获取信息并一一筛选，假如我们不把用户按省市进行分别存放的话，每次我们想查看某个省市的信息时便需要从全国所有的基站信息中去一一查询，这样做，无疑效率是非常低的。假如我们把数据都分省市进行存放了，以后我们再想查看北京市的打电话信息便非常方便了，直接到存放北京市打电话信息的文件中查找
linux下java的环境配置 Sk1y 杂记 java linux
linux下java的环境配置文章目录linux下java的环境配置1.删除原有的java环境2.去官网下载相应的Java环境3.在Linux上进行解压4.修改~/.bashrc参考链接之前在大数据配置hadoop开发环境的时候，进行了相关的配置，所以还有印象，接下来对虚拟机ubuntu进行java的环境配置1.删除原有的java环境2.去官网下载相应的Java环境我用的是java8的环境，比较经
intellij idea使用maven构建hadoop开发环境 yc_yz
pom.xmlUTF-81.81.82.6.5org.apache.hadoophadoop-common${hadoop.version}org.apache.hadoophadoop-hdfs${hadoop.version}org.apache.hadoophadoop-mapreduce-client-core${hadoop.version}org.apache.hadoophadoop
Hadoop开发--IDEA(三) 无剑_君
一、插件安装源码地址https://github.com/fangyuzhong2016/HadoopIntellijPlugin代码下载gitclonehttps://github.com/fangyuzhong2016/HadoopIntellijPlugin.git注意：从Github上下载的源码需要经过编译才能使用编译①、目前Intellijpluginforhadoop的源码使用mave
hadoop开发应用 hello高world
hadoop开发应用一、文件上传创建input文件夹#hadoopfs-mkdir/input上传文件到input文件夹下#hadoopfs-putdat0102.dat/input/二、查询指定字符串出现次数1.编写代码如果忘记了，可以查看：$HADOOP_HOME/share/doc/hadoop/hadoop-mapreduce-client/hadoop-mapreduce-client-
Hadoop开发环境搭建普通网友 java java 后端
之前稍微了解了一下大数据方面的知识，在搭建环境的时候我很惆怅的，因为那时候没有弄好，刚好这几天有时间，于是把以前没有弄好的又来配置了一下，没想到居然成功了，这个过程走了很多的弯路，查阅了网上大量资料，终于直接也来整理一下了。hadoop是分为3种安装模式的，单机模式，伪分布模式和完全分布模式。众所周知，完全分布模式是企业真实开发用的，会需要多台电脑，这里没有条件，所以不讲解这个方面。伪分布模式就是
Windows下搭建hadoop 搭建本地hadoop开发环境清风686
https://blog.csdn.net/wangaz521/article/details/79717177
搭建Hadoop开发环境（全过程）谢的微光 hadoop 虚拟机
文章目录一、VMware环境准备1.安装VMware2.配置网络二、配置JavaHadoop环境1.xftp连接虚拟机2.上传javahadoop压缩包到虚拟机3.配置环境变量三、完全分布式1.修改配置文件2.克隆虚拟机3.设置主机名4.修改网络地址5.配置映射关系6.免密登录7.配置节点8.格式化虚拟机9.启动hadoop三、Hadoop测试1.初识Hadoop目录2.hadoop管理界面3.W
#第19篇分享：python初识大数据(1)-Hadoop开发环境搭建（Hadoop+jdk）天甜费， python python java hadoop
#走进数据的世界-----------------------大数据1.什么叫大数据（说白了就是超级多的数据）：大数据（bigdata），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低的四大特征。大数据的5V特点（IB
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &

hadoop源码 - datanode数据块的读与写

前提

概述

DataChecksum

BlockMetadataHeader

BlockSender

BlockReceiver

你可能感兴趣的:(hadoop开发)