-无妄-

大数据入门学习笔记（叁）- 布式文件系统HDFS

文章目录

HDFS概述及设计目标

什么是HDFS
HDFS前提和设计目标

HDFS 构成及工作原理解析

基本构成
数据读写过程
集群架构
namenode深入
HDFS HA
HDFS文件类型-列式与行式存储
HDFS文件类型-常用文件类型
HDFS文件类型-如何使用？

HDFS副本机制

副本存放策略![在这里插入图片描述](https://img-blog.csdnimg.cn/20181109091413763.png)

HDFS环境搭建
HDFS关键设置及常见问题

常用配置
常见问题

小文件问题
Namenode管理
数据迁移
数据平衡

hdfs balancer

如何提高数据存取效率

数据压缩-作用

数据压缩-评价指标
数据压缩-类型
数据压缩-使用场景？
使用建议

纠删码（hadoop3.0之后的功能）

相关命令
使用建议

异构存储

相关命令
使用建议

代码演示
HDFS shell

HDFS shell常用命令的使用

Is
get
mkdir
rm
put

Java API操作
HDFS文件读写流程

文件写流程图解
文件读流程图解

HDFS错误处理机制
HDFS优缺点

HDFS概述及设计目标

如果让我们自己来设计一个分布式文件系统，咋办？
下图是普通分布式文件系统

什么是HDFS

Hadoop实现了一个分布式文件系统( Hadoop Distributed File System) ,简称HDFS
源自Google的GFS论文
发表于2003年，HDFS是GFS的克隆版
基于JAVA实现的一个分布式文件系统
基于unix/linux
是Hadoop最重要的核心组件
支持顺序写入，而非随机定位读写

HDFS前提和设计目标

存储超大文件
HDFS适合存储大文件，单个文件大小通常在百MB以上
HDFS适合存储海量文件，总存储量可达PB,EB级
硬件容错
基于普通机器搭建，硬件错误是常态而不是异常，因此错误检测和快速、自
动的恢复是HDFS最核心的架构目标
流式数据访问
为数据批处理而设计，关注数据访问的高吞吐量
简单的一致性模型
一次写入，多次读取
一个文件经过创建、写入和关闭之后就不需要改变
本地计算
将计算移动到数据附近

HDFS 构成及工作原理解析

基本构成

数据块
- 文件以块为单位进行切分存储，块通常设置的比较大（最小6M，默认
  128M）
- 块越大，寻址越快，读取效率越高，但同时由于MapReduce任务也是以块为最小单位来处理，所以太大的块不利于于对数据的并行处理
- 一个文件至少占用一个块（逻辑概念）
Namenode与Datanode
- namenode 负责维护整个文件系统的信息，包括：整个文件树，文件的块分布信息，文件系统的元数据，数据复制策略等
- datanode 存储文件内容，负责文件实际的读写操作，保持与namenode的通信，同步文件块信息

一个文件有多少个块：文件大小/块的大小
   950m的文件，100m的块大小
   总共块的个数：10
   最后一个块的占用空间：50m，其他占用的空间为100m

快的大小在创建文件的时候可以指定，不指定则使用系统默认的设置，在Hadoop2.x里一个块对应的磁盘上的空间：128m

数据读写过程

创建一个文件。
检查是否可以创建文件。
切分block（可以指定两个参数；不知道则使用默认）；然后给block分配写入的datanode。
返回写入datanode的队列。
以pipeline方式写入；以packet(里面还有chunk数据单元（chunk里又check sum）)形式写入；ack机制往上一层一层汇报写完一个chunk（以chunk为单元进行校验）。

集群架构

HDFS有主从架构。HDFS集群由一个NameNode组成，它是一个主服务器，管理文件系统名称空间并管理客户机对文件的访问。此外，还有许多datanode，通常每个节点一个，管理连接到它们运行的节点的存储。HDFS公开一个文件系统名称空间，并允许用户数据存储在文件中。在内部，文件被分割成一个或多个块，这些块存储在一组数据节点（datanode）中。NameNode执行文件系统操作，如打开、关闭和重命名文件和目录。它还确定块到datanode的映射。datanode负责服务来自文件系统客户端的读写请求。根据NameNode的指令，datanode还执行块的创建、删除和复制。

上图中

1 个Master(NameNode/NN) 带 N个Slaves(DataNode/DN)
HDFS/YARN/HBase其实都是一样的
1个文件会被拆分成多个Block理解为：
blocksize：128M
130M ==> 2个Block： 128M 和 2M

NN：
1）负责客户端请求的响应
2）负责元数据（文件的名称、副本系数、Block存放的DN）的管理

DN：
1）存储用户的文件对应的数据块(Block)
2）要定期向NN发送心跳信息，汇报本身及其所有的block信息，健康状况

一个典型的部署是一台机器运行一个namenade，集群中的其他机器都运行一个DataNode。该体系结构不排除在同一台机器上运行多个DataNode
但在实际部署中却很少出现这种情况。

namenode深入

作用：

Namespace管理：负责管理文件系统中的树状目录结构以及文件与数据块的映射关系
块信息管理：负责管理文件系统中文件的物理块与实际存储位置的映射关系BlocksMap
集群信息管理：机架信息，datanode信息
集中式缓存管理：从Hadoop2.3 开始，支持datanode将文件缓存到内存中，这部分缓存通过NN集中管理

存储结构：

内存： Namespace数据，BlocksMap数据，其他信息
文件：
- 已持久化的namespace数据：FsImage
- 未持久化的namespace操作：Edits

启动过程：

开启安全模式：不能执行数据修改操作
加载fsimage
逐个执行所有Edits文件中的每一条操作将操作合并到fsimage，
完成后生成一个空的edits文件
接收datanode发送来的心跳消息和块信息
根据以上信息确定文件系统状态
退出安全模式

安全模式：文件系统只接受读数据请求，而不接受删除、修改等变更请求
什么情况下进入：NameNode主节点启动时，HDFS进入安全模式
什么时候时候退出：系统达到安全标准时，HDFS退出安全模式
dfs.namenode.safemode.min.datanodes: 最小可用datanode数量
dfs.namenode.safemode.threshold-pct: 副本数达到最小要求的block占系统总block数的百分比
dfs.namenode.safemode.extension: 稳定时间
相关命令：
hdfs dfsadmin -safemode get：查看当前状态
hdfs dfsadmin -safemode enter：进入安全模式
hdfs dfsadmin -safemode leave：强制离开安全模式
hdfs dfsadmin -safemode wait：一直等待直到安全模式结束

HDFS HA

Datanode: 通过数据冗余保证数据的可用性
Namenode: 在2.0以前存在SPOF风险，从2.0之后：

把name.dir指向NFS（Network File System）
QJM 方案

HDFS文件类型-列式与行式存储

HDFS 支持任意文件格式主要分为列式与行式

HDFS文件类型-常用文件类型

HDFS文件类型-如何使用？

创建的时候指定文件格式
ALTER TABLE table_name SET FILEFORMAT PARQUET;
CREATE TABLE table_name (x INT, y STRING) STORED AS PARQUET;

单独指定默认的文件格式
SET hive.default.fileformat=Orc

HDFS副本机制

HDFS支持传统的分层文件组织。用户或应用程序可以在这些目录中创建目录并存储文件。文件系统名称空间层次结构与大多数现有文件系统相似;可以创建和删除文件，将文件从一个目录移动到另一个目录，或者重命名文件。
NameNode维护文件系统名称空间。对文件系统名称空间或其属性的任何更改都由NameNode记录。应用程序可以指定由HDFS维护的文件的副本数量。一个文件的副本数量称为该文件的副本因子。这些信息由NameNode存储。

数据副本
HDFS被设计为在大型集群中的机器之间可靠地存储非常大的文件。它以块序列的形式存储每个文件。为了容错，复制文件的块。每个文件的块大小和复制因子都是可配置的。

除了最后一个块之外，文件中的所有块大小都相同。

应用程序可以指定文件的副本数量。副本因子可以在文件创建时指定，以后可以更改。HDFS中的文件只写一次(除了追加和截断之外)，并且在任何时候都有一个写入者。

NameNode就块的复制做出所有决定。它定期从集群中的每个datanode接收心跳和数据块报告。接收到心跳表示DataNode正常工作。块报表包含datanode上所有块的列表。

副本存放策略

上图代表数据中心，两个机架，黄色代表客户端所在的节点（默认三个副本）

第一个副本存放在同client的节点上面；
第二个副本存放在不同第一个副本机架的随意一个节点；
第三个副本存放在与第二个副本相同机架的另一个节点上；
如果只有一个机架，则在不同节点存储；如果高于三个副本则高于三的随意挑选机架和节点。

HDFS环境搭建

官网安装文档
Hadoop伪分布式安装步骤
http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html

下载Hadoop
http://archive.cloudera.com/cdh5/cdh/5/
2.6.0-cdh5.7.0
或则 wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz

jdk安装
解压：tar -zxvf jdk-7u79-linux-x64.tar.gz -C ~/app
添加到系统环境变量： ~/.bash_profile
export JAVA_HOME=/home/hadoop/app/jdk1.7.0_79
export PATH=$JAVA_HOME/bin:$PATH
使得环境变量生效： source ~/.bash_profile
验证java是否配置成功： java -v
安装ssh
sudo yum install ssh
ssh-keygen -t rsa
cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
下载并解压hadoop
下载：直接去cdh网站下载
解压：tar -zxvf hadoop-2.6.0-cdh5.7.0.tar.gz -C ~/app
hadoop配置文件的修改(hadoop_home/etc/hadoop)
hadoop-env.sh

export JAVA_HOME=/home/hadoop/app/jdk1.7.0_79

core-site.xml

<property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop000:8020</value>
</property>

<property>
    <name>hadoop.tmp.dir</name>
    <value>/home/hadoop/app/tmp</value>
</property>

hdfs-site.xml

<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>

启动hdfs
格式化文件系统（仅第一次执行即可，不要重复执行）：hdfs/hadoop namenode -format
启动hdfs: sbin/start-dfs.sh
验证是否启动成功：
jps
　DataNode
　SecondaryNameNode
　NameNode
浏览器访问方式 http://hadoop000:50070
停止hdfs
sbin/stop-dfs.sh

HDFS关键设置及常见问题

常用配置

配置文件路径：$HADOOP_HOME$/etc/hadoop
主要配置文件：
•hdfs-site.xml
•core-site.xml

常见问题

小文件问题

定义：大量大小小于块大小的文件
实际场景：网页，Hive动态分区插入数据等
背景：每个文件的元数据对象约占150byte，所以如果有1千万个小文件，每个文件占用一个block，则NameNode大约需要2G空间。如果存储1亿个文件，则NameNode需要20G空间；数据以块为单位进行处理。
影响：占用资源，降低处理效率
解决方案：
- 从源头减少小文件
- 使用archive打包
- 使用其他存储方式，如Hbase，ES等

Namenode管理

大数据量下的namenode问题：

启动时间变长
性能开始下降
NameNode JVM FGC风险较高

解决方案：

根据数据增长情况，预估namenode内存需求，提前做好预案
使用HDFS Federation，扩展NameNode分散单点负载
引入外部系统支持NameNode内存数据
合并小文件（有相关的命令:hadoop archive）
调整合适的BlockSize

内存结构

内存预估
文件元数据对象约占200byte，block元数据约占180byte：
总内存 =198 * num(Directory + Files) + 176 * num(blocks) + 2% * 总内存

数据迁移

场景：

冷热数据迁移
集群升级、维护

方案：

hadoop distcp 命令

数据平衡

原因：长期运行的集群增删节点，节点增删磁盘等

影响：

跨节点拷贝数据
task会存在任务失败的风险
磁盘利用不均

方案：

集群节点间：hdfs balancer 命令
单节点磁盘间：hdfs diskbalancer 命令

hdfs balancer

参数：

-threshold 30 ：判断集群是否平衡的目标参数，每一个 datanode
存储使用率和集群总存储使用率的差值的绝对值都应该小于这个阀
值

整体空间占用：30%
threshold： 10
balance之后每个dn的空间占用：20-40%

dn1：60% ；dn2:10%；dn3:30%
整体：
dn1：40% ；dn2:30%；dn3:30%

-include ：执行balance的DN列表
dfs.balance.bandwidthPerSec 300MB ：balance工具在运行中所能占用的带宽，设置的过大会影响其他任务

建议：

对于一些大型的HDFS集群(随时可能扩容或下架服务器)，balance脚本建议作为后台常驻进程
根据官方建议，脚本需要部署在相对空闲的服务器上
停止脚本通过kill进程实现

其他管理命令

hdfs dfsadmin
hdfs fsck

如何提高数据存取效率

数据压缩-作用

节省数据占用的磁盘空间
加快数据在磁盘和网络中的传输速度，从而提高系统的
处理速度

数据压缩-评价指标

压缩比：压缩比越高，压缩后文件越小，所以压缩比越高越好
压缩时间：越快越好
已经压缩的格式文件是否可以再分割：可以分割的格式允许单一
文件由多个Mapper程序处理，可以更好的并行化

数据压缩-类型

数据压缩-使用场景？

HDFS命令行写入：将数据压缩后写入
Flume写入：写入时指定hdfs.codeC参数
Sqoop写入：写入时指定参数
–compression-codec org.apache.hadoop.io.compress.SnappyCodec
HBase 数据存储: 创建表时指定
create ‘xx_table’, {NAME => ‘xx_cf’, COMPRESSION => ‘GZ’}
Mapreduce中间结果和最终结果：hadoop jar xxx “-Dmapred.compress.map.output=true”
“-Dmapred.map.output.compression.codec=xxx”
“-Dmapred.output.compress=true” “-Dmapred.output.compression.codec=xxx”
Hive中间结果和最终结果：
set hive.exec.compress.intermediate=true
set mapred.map.output.compression.codec=xxx
set mapred.map.output.compression.codec=xxx
set hive.exec.compress.output=true
set mapred.output.compression.codec=xxx
Spark（RDD分区、广播变量、shuffle输出）：
• rdd：spark.rdd.compress，是否压缩已序列化的rdd，默认关闭
• broadcast：spark.broadcast.compress，是否压缩broadcast数据，默认打开
• 结果存储：saveAsTextFile(path,codec)
• 压缩算法：spark.io.compression.codec，默认为snappy

使用建议

选择何种压缩格式：
- 考虑是否支持切分
- 压缩率vs压缩速度
什么时候使用：
- 存储：磁盘空间紧张
- 计算：性能调优（内存空间占用，IO传输）

纠删码（hadoop3.0之后的功能）

复制策略：1tb的数据需要3tb的磁盘空间。
纠删码：只需要复制策略50%的磁盘空间，而且同样可以保存数据的可靠性。

原理解释

X1=1
X2=2
X3=3
X1+X2+X3=6
X1+2*X2+3*X3=14
X1+3*X2+4*X3=14

我们需要求出X1，X2，X3的值，那么我们最少需要的方程是？ 3
如果有四个方程，允许其中丢失任意一个方程

X1=1
X2=2
X3=3
视为我们的数据

X1+X2+X3=6
X1+2*X2+3*X3=14
X1+3*X2+4*X3=14
视为一个校验/冗余数据

如果是复制策略：要允许任意2份数据丢失，我们需要：3*3=9份数据。恢复的时候只需要找到相同的block直接复制就可以。
如果是纠删码策略：要允许任意2份数据丢失，我们需要：3+2=5份数据，时间换空间的策略。恢复的时候需要的时间大；因为各个block都要参与进来。

一个文件有n个块，最少需要的数据块数是多少？n+2;
不是针对一个文件所有的block块进行纠删码的计算，而是按照一定的size切分成block group，按照block group来计算冗余块。（平衡减少时间）

使用建议

将冷门数据以纠删码格式转存，减少空间占用：

指定某个目录为纠删码模式：
hdfs ec -setPolicy -path [path] -policy [policy]
通过distcp命令将原有数据转存

异构存储

配置dn存储路径时指定存储格式：
[SSD]file:///path,[ARCHIVE]file:///path
dn通过心跳汇报自身数据存储目录的StorageType给nn
nn汇总并更新集群内各个节点的存储类型情况
客户端写入时根据设定的存储策略向nn请求响应的dn作为候
选节点

使用建议

一般使用默认策略（HOT，磁盘）即可
ARCHIVE：计算能力较弱，存储密度高，存储冷数据
SSD：土豪专用

代码演示

https://blog.csdn.net/bingdianone/article/details/83863115#t15

HDFS shell

HDFS shell常用命令的使用

官网文档参考
http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html#dfs
hdfs dfs等于hadoop fs

Is

[root@hadoop data]# hdfs dfs -ls /
18/11/09 21:40:49 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 1 items
drwxr-xr-x   - root supergroup          0 2018-09-02 08:37 /hbase

get

[root@hadoop data]# hdfs dfs -get /hell.txt

mkdir

[root@hadoop data]# hdfs dfs -mkdir -p /text/a/b
18/11/09 21:44:57 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
[root@hadoop data]# hdfs dfs -ls -R /text
18/11/09 21:46:25 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
drwxr-xr-x   - root supergroup          0 2018-11-09 21:44 /text/a
drwxr-xr-x   - root supergroup          0 2018-11-09 21:44 /text/a/b

rm

[root@hadoop data]# hdfs dfs -rm -R  /text/a/b

put

[root@hadoop data]# hdfs dfs -put hell.txt /
18/11/09 21:43:16 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
[root@hadoop data]# hdfs dfs -ls /
18/11/09 21:43:25 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 2 items
drwxr-xr-x   - root supergroup          0 2018-09-02 08:37 /hbase
-rw-r--r--   1 root supergroup         13 2018-11-09 21:43 /hell.txt

Java API操作

IDEA+Maven创建Java工程
添加HDFS相关依赖

<properties>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
        <hadoop.version>2.6.0-cdh5.7.0</hadoop.version>
    </properties>

    <repositories>
        <repository>
            <id>cloudera</id>
            <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
        </repository>
    </repositories>

    <dependencies>
        <!--添加hadoop依赖-->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>${hadoop.version}</version>
        </dependency>


        <!--添加单元测试的依赖-->
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.10</version>
            <scope>test</scope>
        </dependency>
    </dependencies>

开发Java API操作HDFS文件
注意两点：

hdfs://hadoop000:8020更改访问ip和端口（在hadoop_home/etc/hadoop/core-site.xml）
FileSystem.get(new URI(HDFS_PATH), configuration, “hadoop”)的用户hadoop需要更改为具有读写权限的用户

package com.imooc.hadoop.hdfs;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.util.Progressable;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;

import java.io.BufferedInputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
import java.net.URI;

/**
 * Hadoop HDFS Java API 操作
 */
public class HDFSApp {

    public static final String HDFS_PATH = "hdfs://hadoop000:8020";

    FileSystem fileSystem = null;
    Configuration configuration = null;


    /**
     * 创建HDFS目录
     */
    @Test
    public void mkdir() throws Exception {
        fileSystem.mkdirs(new Path("/hdfsapi/test"));
    }

    /**
     * 创建文件
     */
    @Test
    public void create() throws Exception {
        FSDataOutputStream output = fileSystem.create(new Path("/hdfsapi/test/a.txt"));
        output.write("hello hadoop".getBytes());
        output.flush();
        output.close();
    }

    /**
     * 查看HDFS文件的内容
     */
    @Test
    public void cat() throws Exception {
        FSDataInputStream in = fileSystem.open(new Path("/hdfsapi/test/a.txt"));
        IOUtils.copyBytes(in, System.out, 1024);
        in.close();
    }


    /**
     * 重命名
     */
    @Test
    public void rename() throws Exception {
        Path oldPath = new Path("/hdfsapi/test/a.txt");
        Path newPath = new Path("/hdfsapi/test/b.txt");
        fileSystem.rename(oldPath, newPath);
    }

    /**
     * 上传文件到HDFS
     *
     * @throws Exception
     */
    @Test
    public void copyFromLocalFile() throws Exception {
        Path localPath = new Path("/Users/rocky/data/hello.txt");
        Path hdfsPath = new Path("/hdfsapi/test");
        fileSystem.copyFromLocalFile(localPath, hdfsPath);
    }

    /**
     * 上传文件到HDFS
     */
    @Test
    public void copyFromLocalFileWithProgress() throws Exception {
        InputStream in = new BufferedInputStream(
                new FileInputStream(
                        new File("/Users/rocky/source/spark-1.6.1/spark-1.6.1-bin-2.6.0-cdh5.5.0.tgz")));

        FSDataOutputStream output = fileSystem.create(new Path("/hdfsapi/test/spark-1.6.1.tgz"),
                new Progressable() {
                    public void progress() {
                        System.out.print(".");  //带进度提醒信息
                    }
                });


        IOUtils.copyBytes(in, output, 4096);
    }


    /**
     * 下载HDFS文件
     */
    @Test
    public void copyToLocalFile() throws Exception {
        Path localPath = new Path("/Users/rocky/tmp/h.txt");
        Path hdfsPath = new Path("/hdfsapi/test/hello.txt");
        fileSystem.copyToLocalFile(hdfsPath, localPath);
    }

    /**
     * 查看某个目录下的所有文件
     */
    @Test
    public void listFiles() throws Exception {
        FileStatus[] fileStatuses = fileSystem.listStatus(new Path("/"));

        for(FileStatus fileStatus : fileStatuses) {
            String isDir = fileStatus.isDirectory() ? "文件夹" : "文件";
            short replication = fileStatus.getReplication();
            long len = fileStatus.getLen();
            String path = fileStatus.getPath().toString();

            System.out.println(isDir + "\t" + replication + "\t" + len + "\t" + path);
        }

    }

    /**
     * 删除
     */
    @Test
    public void delete() throws Exception{
        fileSystem.delete(new Path("/"), true);
    }


    @Before
    public void setUp() throws Exception {
        System.out.println("HDFSApp.setUp");
        configuration = new Configuration();
        fileSystem = FileSystem.get(new URI(HDFS_PATH), configuration, "hadoop");
    }

    @After
    public void tearDown() throws Exception {
        configuration = null;
        fileSystem = null;

        System.out.println("HDFSApp.tearDown");
    }

}

HDFS文件读写流程

首先看看出场的角色，第一个是client客户端，用来发起读写请求，读取HDFS上的文件或往HDFS中写文件；第二个是Namenode，唯一的一个，会协调所有客户端发起的请求；第三个是DataNode，负责数据存储，跟Namenode不一样，DataNode有很多个，有时候能达到数以千计。

文件写流程图解

往HDFS中写数据的流程如下：

第1幅图：我们跟客户端说，你帮我写一个200M的数据吧，客户端说没问题啊，但是…
第2幅图：客户端不知道我们对数据有没有其他的要求啊，问我们是不是忘了什么东西呢？我们想起来我们还是有要求的，第一我们要把数据分成若干块，并且每块的大小是128M，第二，每个数据块应该复制3份。其实这就是我们说的HDFS的文件分块和多副本，如果你不说的话客户端怎么知道到底怎么分，复制多少份呢？
第3幅图：由上面的对话我们发现，如果对于每个文件客户端都要这么问一下，是不是太麻烦了？所以说一个好的客户端应该是，用户就算不说你也要知道有这两个属性：块的大小，一个文件应该按照怎样的大小切分（通常是64M或128M）；复制因子，每个块应该复制多少份（通常是3份），也就是说如果用户不主动提供这些属性，那么就按照默认的来。
第4幅图：现在客户端已经知道了每个块的大小了，那么把200M的文件分成128M和72M两个块，一个长一个短。
第5幅图：切分后客户端就开始工作了，既然有两个块，那先上传第一个块，于是客户端请求Namenode帮它写一个128M的块，并且要复制3份。
第6幅图：Namenode接受到客户端的请求后，既然需要3个副本，那么就需要找到3个DataNode，Namenode就会想怎么去找到这3个DataNode呢？我该告诉客户端哪些信息呢？于是它就去它管理的DataNode中找一些满足要求的空闲节点。
第7幅图：Namenode找到了3个节点，现在把找到的节点发给客户端，表示：兄弟，你不是要我帮你写数据嘛，我给你找到了这3个合适的DataNode，并且已经按距离远近给你排过序了，第一个是最近的，你把数据给他们让他们帮你写吧。
第8幅图：客户端收到3个DataNode地址后，直接把数据发送到第一个节点(DataNode1)上，然后DataNode1开始把数据写到他的硬盘中。
第9、10、11幅图：DataNode1在接受数据的同时，会把刚刚收到的数据发送到第二个DataNode2上，同理DataNode2也是，接收的同时把数据立马发给DataNode3，到了DataNode3已经是最后一个DataNode了。整个过程跟流水线一样，接收一点就发一点。（个人感觉跟计算机网络中令牌环网的工作原理有些类似）
第12幅图：Namenode是所有DataNode的老大，所以DataNode在存完数据后要跟老大汇报，告诉他说，我第一个块的数据已经写完了。
第13幅图：3个DataNode都报告完成后，好，这样第一个数据块就写完了，下面对第二个块重复这个步骤。
第14幅图：所有的块都写完了之后，客户端关闭跟Namenode的连接。这时Namenode已经存储了文件的元数据，也就是文件被拆成了几块，复制了几份，每块分别存储在哪个DataNode上。
最后一幅图说明了每个角色在写数据过程中的作用:
Client：切分文件成数据块。
Namenode：对于每个数据块，找到存储的DataNode地址。
DataNode：多副本方式存储数据。

文件读流程图解

第1幅图：写文件已经搞定了，那么怎么读文件呢？我们先跟客户端说，嘿兄弟！帮我读个文件呗！
第2幅图：客户端跟Namenode发了个请求，把文件名发送给Namenode，表示我想要这个这个文件的信息。
第3幅图：Namenode找了找，然后找到了一个结果，结果包含这个文件被拆成了多少块，每个块存储在哪些DataNode上的信息，并且DataNode同样是按照距离排序的。然后把这个结果发送给客户端，说，嘿兄弟！你要的文件在这些DataNode上，你去找吧。
第4幅图：现在客户端知道了文件的存储情况，所以就一个个去DataNode上访问就好了。
最后提出了一个问题：如果这个过程中DataNode挂了，或者数据在传输中出了问题怎么办？事实上HDFS对于这些问题都是能够完美解决的。

HDFS错误处理机制

HDFS优缺点

优点：

数据冗余、硬件容错
处理流式的数据访问
适合存储大文件
可构建在廉价机器上

缺点：

低延迟的数据访问
不适合小文件存储

你可能感兴趣的:(Hadoop学习笔记)

Hadoop学习笔记 --- YARN执行流程与工作原理杨鑫newlfe 数据仓库大数据挖掘与大数据应用案例 YARN Hadoop 大数据资源调度数据仓库
一、YARN简述首先介绍一下YARN在Hadoop2.0版本引进的资源管理系统，直接从MapReduceV1演化而来(由于引擎的功能缺陷)；原因是将MapReduce1中的JobTracker的资源管理和作业调度两个功能分开，分别由ResourceManager和ApplicationMaster进行实现；ResourceManager：负责整个集群的资源管理和调度ApplicationMaste
C# Hadoop学习笔记第八个猴子大数据
记录一下学习地址http://www.360doc.com/content/14/0607/22/3218170_384675141.shtml转载于:https://www.cnblogs.com/TF12138/p/4170558.html
hadoop学习笔记草琳情 hadoop 学习笔记
下载安装伪分布式：1.国内源下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/Indexof/apache/hadoop/commonhttps://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/https://mirrors.tuna.tsinghua.edu.cn/
第一章大数据Hadoop学习笔记(一） Thanks. hadoop 学习大数据
一、存储单位按顺序给出数据存储单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。一般TB、PB、EB为单位的数据为大数据。1Byte=8bit1K=1024Byte1MB=1024K1G=1024M1T=1024G1P=1024T二、大数据主要解决海量数据的采集、存储和分析计算问题。三、大数据特点(4V)Volume(大量)、Velocity(高速)、Var
【大数据进阶第三阶段之Hive学习笔记】Hive安装伊达 Hive 大数据大数据 hive 学习
1、环境准备安装hadoop以及zookeeper、mysql【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行环境搭建-CSDN博客《zookeeper的安装与配置》自行百度《Linux环境配置MySQL》自行百度2、下载安装CSDN下载：https://download.csdn.net/download/liguohuaty/88702104Hive官网下载：Downloads(a
大数据高级开发工程师——Hadoop学习笔记（4）讲文明的喜羊羊拒绝pua 大数据 hadoop mapreduce
文章目录Hadoop进阶篇MapReduce：Hadoop分布式并行计算框架MapReduce的理解MapReduce的核心思想MapReduce编程模型MapReduce编程指导思想【八大步骤】Map阶段2个步骤shuffle阶段4个步骤reduce阶段2个步骤MapReduce编程入门——单词统计hadoop当中常用的数据类型词频统计MapReduce的运行模式1.本地模式2.集群运行模式Ma
【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 概述伊达 Hadoop 大数据大数据学习 hadoop
【大数据进阶第二阶段之Hadoop学习笔记】Hadoop概述-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行环境搭建-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行模式-CSDN博客1、Hadoop是什么（1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构（2）主要解决海量数据的存储和海量数据的分析计算问题（3）广义上来说，Ha
【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 运行环境搭建伊达大数据 Hadoop 大数据 hadoop 学习
【大数据进阶第二阶段之Hadoop学习笔记】Hadoop概述-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行环境搭建-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行模式-CSDN博客1、模板虚拟机环境准备1.1、hadoop100虚拟机配置要求如下（1）使用yum安装需要虚拟机可以正常上网，yum安装前可以先测试下虚拟机联网情况[root@had
【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 运行模式伊达大数据 hadoop 学习
【大数据进阶第二阶段之Hadoop学习笔记】Hadoop概述-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行环境搭建-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行模式-CSDN博客目录1、Hadoop运行模式2、编写集群分发脚本xsync2.1、scp(securecopy)：安全拷贝2.2、rsync远程同步工具2.3、xsync集群分发脚本
Hadoop学习笔记[6]-MapReduce与Yarn安装部署流程 kinglinch 大数据 mapreduce yarn hadoop 大数据
Hadoop学习笔记[6]-MapReduce与Yarn安装部署流程前面的文章已经对MR和Yarn做了基本介绍，本文主要介绍MR和Yarn的安装部署流程1、角色划分 NodeManager和DataNode一般都是1:1，主要是为了计算向数据移动，如果NM和DN分开，就得用网路拷贝数据，在Yarn的体系里NM也是从节点，既然其和DN是1:1的关系，所以配置中和HDFS共用一个slaves文件
【Hadoop学习笔记】（二）——Hive的原理及使用 wanger61 大数据开发 hadoop hive 大数据
一、Hive概述Hive是一个在Hadoop中用来处理结构化数据的数据仓库基础工具。它架构在Hadoop之上，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能为HDFS上的数据提供类似SQL的查询语言（HiveQL），并将SQL语句转变成MapReduce任务来执行。Hive明显降低了Hadoop的使用门槛，任何熟悉SQL的用
四、Hadoop学习笔记————各种工具用法 weixin_30528371 大数据数据库
hive基本hql语法Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如：MySQL,Oracle,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。数据传递转载于:https://www.cnblogs.com/
Hadoop学习笔记（17）Hive的数据类型和文件编码柏冉看世界 hadoop
一、Hive的常用内部命令1、有好几种方式可以与Hive进行交互。此处主要是命令行界面（CLI）。2、$HIVE_HOME/bin目录下包含了可以执行各种各样Hive服务的可执行文件，包括hive命令行界面（CLI是使用Hive的最常用方式）。[admin@master~]$cdapache-hive-1.2.2-bin/bin[admin@masterbin]$lsbeelineexthiveh
大数据高级开发工程师——Hadoop学习笔记（7）讲文明的喜羊羊拒绝pua 大数据 hadoop big data mapreduce yarn
文章目录Hadoop进阶篇YARN：Hadoop资源调度系统什么是YARNYARN架构剖析1.ResourceManager2.NodeManager3.Container4.ApplicationMaster5.JobHistoryServer6.TimelineServerYARN应用运行原理1.YARN应用提交过程2.MapReduceonYARN提交作业初始化作业Task任务分配Task任
Hadoop学习笔记（一）分布式文件存储系统 —— HDFS zhang35 大数据技术栈大数据分布式 Hadoop 入门 hdfs
概念HDFS（HadoopDistributedFileSystem），Hadoop分布式文件系统，用来存超大文件的。HDFS遵循主/从架构，由单个NameNode(NN)和多个DataNode(DN)组成：NameNode:负责执行有关文件系统命名空间的操作，例如打开，关闭、重命名文件和目录等。它同时还负责集群元数据的存储，记录着文件中各个数据块的位置信息。管理员，负责协调。DataNode：负
大数据高级开发工程师——Hadoop学习笔记（1）讲文明的喜羊羊拒绝pua 大数据大数据 hadoop hdfs 集群 zookeeper
文章目录Hadoop基础篇Hadoop集群安装环境准备服务器准备设置时钟同步三台虚拟机添加普通用户三台虚拟机定义统一目录三台虚拟机hadoop用户设置免密登录三台虚拟机安装jdkhadoop集群安装环境部署规划安装包下载查看hadoop支持的压缩方式以及本地库修改配置文件修改hadoop-env.sh修改core-site.xml修改hdfs-site.xml修改mapred-site.xml修改
Hadoop学习笔记(3)——MapReduce入门今天有没有写代码大数据 hadoop java
一、MapReduce介绍MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。”map"负责分，即把复杂的任务分解为若干简单的任务来处理。前提是这些小任务可以并行计算，彼此间几乎没有依赖关系“Redude”负责合，即对map阶段的结果进行全局汇总1.MapReduce设计构思MapRed
hadoop学习笔记(五)Hive安装部署 So.j hadoop学习笔记大数据 hive hadoop
Hive安装部署Hive安装及配置配置已经完成,在此处启动hadoop集群Hive常用命令将本地文件导入Hive案例安装MySqlHive元数据配置到MySqlHive安装及配置下载地址:https://pan.baidu.com/s/1_7g8Bw85Nw03t40H67sLfQ提取码:gj4n把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software
Hadoop学习笔记（7）Hadoop解压安装以及配置柏冉看世界 hadoop
一、安装Hadoop之前说明安装Hadoop需要在官网把Hadoop文件下载好，并且上传到Linux中。上传步骤请参考：Hadoop学习笔记（6）如何使用Xshell从Windows向Linux上传文件二、解压安装Hadoop输入命令查看文件存放[admin@master~]$lshadoop-2.5.2.tar.gztestusr公共模板视频图片文档下载音乐桌面开始解压安装[admin@mast
hadoop学习笔记--1３.hive 属性配置、交互式命令行和文件系统交互 liuzebin9 Hadoop hadoop hive
一、hive配置文件常见属性1.在cli命令行上显示当前的数据库名以及查询的行头信息在hive-site.xml中添加以下配置hive.cli.print.headertrueWhethertoprintthenamesofthecolumnsinqueryoutput.hive.cli.print.current.dbtrueWhethertoincludethecurrentdatabasei
hadoop学习笔记——NO.4_HADOOP集群搭建与使用初步蔡茂昌 hadoop学习笔记
HADOOP集群搭建与使用初步HADOOP集群搭建集群简介HADOOP集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起HDFS集群：负责海量数据的存储，集群中的角色主要有NameNode/DataNodeYARN集群：负责海量数据运算时的资源调度，集群中的角色主要有ResourceManager/NodeManager本集群搭建案例，以5节点为例进行搭建，角色
Hadoop学习笔记---大数据概论入门沉迷技术不能自拔大数据 hadoop 学习
第一章：大数据概念大数据是指无法在一定时间范围内，用常用的工具软件进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。大数据主要解决海量数据的采集、存储和分析计算问题。按顺序给出存储单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte=8bit1KB=1024MB1MB=102
Hadoop入门+组成学习笔记 Fan_Coder Hadoop hadoop 大数据 mapreduce
Hadoop学习笔记Hadoop的优势（4高）1.高可靠性—Hadoop底层有多个数副本，保存再不同的服务器里，即使一台计算机出现故障，也不会丢失数据2.高扩展性—可以添加多个节点3.高效性—再MapReduce的思想下，Hadoop是并行工作的4.高容错性—能够自动将失败的任务重新分配Hadoop1.x和2.x组成Hadoop1.x和2.x的区别？Hadoop1.x里MapReduce负责逻辑运
Hadoop学习笔记：运行wordcount对文件字符串进行统计案例朱季谦大数据 hadoop 学习笔记
文/朱季谦我最近使用四台Centos虚拟机搭建了一套分布式hadoop环境，简单模拟了线上上的hadoop真实分布式集群，主要用于业余学习大数据相关体系。其中，一台服务器作为NameNode，一台作为SecondaryNameNode，剩下两台当做DataNodes节点服务器，类似下面这样一个架构——NameNodeSecondaryNameNodeDataNodesmaster1(192.168
Hadoop学习笔记怕被各位卷死大数据学习笔记 hadoop 学习大数据
HDFS、YARN、MapReduce概述及三者之间的关系一、Hadoop组成（面试重点）1.1Hadoop1.x、2.x、3.x区别在Hadoop1.x时代，Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大。在Hadoop2.x时代，增加了Yarn。Yarn只负责资源的调度，MapReduce只负责运算Hadoop3.x在组成上没有变化。1.2HDFS架构概述HDF
Hadoop学习笔记——入门基础枫落@ hadoop 学习笔记
Hadoop优势高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点高效性：在MapReduced的思想下，Hadoop是并行工作的，以加快任务处理速度。高容错性：能够自动将失败的任务重新分配。Hadoop各版本区别在Hadoop1.x时代Hadoop中的MapReduce同时处
hadoop学习笔记1了解流程大概小美元 hadoop 学习大数据
海量数据的存储hdfs海量数据的计算：mapreducehdfs概述namenode：元数据，存储在哪个节点，存储什么信息datanode：存储数据2nn：备份namenode的信息yarn概述负责集群资源的管理ResourceManger：服务器运行的老大nodemanger：单个服务器运行的老大MapReduce架构概述mapreduce将计算分为两个阶段：map阶段把任务分下去reduce阶
hbase的学习逻辑_Hadoop学习笔记之十六——HBase框架学习（基础知识篇） weixin_39574140 hbase的学习逻辑
HBase是ApacheHadoop的数据库，能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的，分布式的，多版本的，面向列的存储模型，它存储的是松散型数据。一、HBase：BigTable的开源实现1.1HBase出现的背景(1)随着数据规模越来越大，大量业务场景开始考虑数据存储水平扩展，使得存储服务可以增加/删除，而目前的关系型数据库更专注于
Hadoop学习笔记泥地小白菜 hadoop
文章目录前言这是关于Hadoop的学习笔记，仅供个人使用-----2022.8.12当前企业数据分析方向：1.现状分析（分析当下的数据）：现阶段的整体情况，各个部分的构成占比，发展，变动2.原因分析（分析过去的数据）：某一现状为什么发生，确定原因，做出调整优化3.预测分析（结合数据预测未来）：结合已有数据预测未来发展趋势1.原因分析：离线分析（BatchProcessing）：面向过去，面向历史，
HBase/Hadoop学习笔记 (转) wbj0110 Hive MapReduce 测试 Hadoop Hbase Storm 性能 Hadoop Hbase MapReduce 性能测试
HBase/Hadoop学习笔记学习目标：至少掌握五点：1.深入理解HTable，掌握如何结合业务涉及高性能的HTable。2.掌握与HBase的交互，通过HBaseShell命令及JavaAPI进行数据的增删改查。3.掌握如何用MapReduce分析HBase里的数据4.掌握如何测试HBaseMapReduce。HBase简介：HBase在产品中还包含了Jetty，在HBase启动时采用嵌入式的
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

大数据入门学习笔记（叁）- 布式文件系统HDFS

文章目录

HDFS概述及设计目标

什么是HDFS

HDFS前提和设计目标

HDFS 构成及工作原理解析

基本构成

数据读写过程

集群架构

namenode深入

HDFS HA

HDFS文件类型-列式与行式存储

HDFS文件类型-常用文件类型

HDFS文件类型-如何使用？

HDFS副本机制

副本存放策略

HDFS环境搭建

HDFS关键设置及常见问题

常用配置

常见问题

小文件问题

Namenode管理

数据迁移

数据平衡

hdfs balancer

如何提高数据存取效率

数据压缩-作用

数据压缩-评价指标

数据压缩-类型

数据压缩-使用场景？

使用建议

纠删码（hadoop3.0之后的功能）

相关命令

使用建议

异构存储

相关命令

使用建议

代码演示

HDFS shell

HDFS shell常用命令的使用

Is

get

mkdir

rm

put

Java API操作

HDFS文件读写流程

文件写流程图解

文件读流程图解

HDFS错误处理机制

HDFS优缺点

你可能感兴趣的:(Hadoop学习笔记)