yangwei_sir

大数据高级开发工程师——Hadoop学习笔记（2）

文章目录

Hadoop进阶篇
- HDFS：Hadoop分布式文件系统
- - 分布式文件系统的理解
  - HDFS 架构详细剖析
  - - 1. 分块存储
    - 2. 3副本存储
    - 3. [扩展：机架感知](https://hadoop.apache.org/docs/r3.1.4/hadoop-project-dist/hadoop-common/RackAwareness.html)
    - 4. 抽象成数据块的好处
    - 5. HDFS架构
    - 6. 扩展
    - - 块缓存
      - hdfs的文件权限验证
  - HDFS 的 Shell 命令操作
  - - hdfs 常用命令
    - 补充命令
  - hdfs的优缺点
  - - 1. hdfs的优点
    - 2. hdfs的缺点
  - hdfs安全模式
  - hdfs的java编程
  - - 1. 创建文件夹
    - 2. 文件上传
    - 3. 文件下载
    - 4. 查看hdfs文件详细信息
    - 5. IO 流操作 hdfs 文件
    - 6. hdfs 的小文件合并
  - DataNode 工作机制及存储
  - - 1. DataNode 工作机制
    - 2. 数据完整性
    - 3. 掉线时限参数设置
    - 4. DataNode的目录结构
    - 5. DataNode多目录配置
  - hdfs的读写流程
  - - 1. hdfs 的写入流程
    - 2. hdfs 的读取流程
    - 更详细的 hdfs 写入流程图

Hadoop进阶篇

HDFS：Hadoop分布式文件系统

分布式文件系统的理解

最直观的理解便是：三个臭皮匠，顶个诸葛亮。

HDFS 架构详细剖析

1. 分块存储

问：上边的文件有几个块，分别是多大？

保存文件到HDFS时，会先默认按128M的单位对文件进行切分成一个个 block 块
数据以block块的形式存在 HDFS 文件系统中
- 在hadoop1当中，文件的block块默认大小是64M
- hadoop2当中，文件的block块大小默认是128M，block块的大小可以通过 hdfs-site.xml 当中的配置文件进行指定

<property>
    <name>dfs.blocksizename>
    <value>块大小 以字节为单位value>
property>

hdfs-default.xml 参考默认属性
block元数据：
- 每个 block 块的元数据大小大概为150字节
- 一个 1k 大小的 block 与一个 128M 大小的block的元数据基本相等
- 所以在 namenode 内存有限的情况下，存储大文件更划算。

面试题

如果有一个文件大小为1KB，它有几个块？每个块是多大？

类似于有一个水桶可以装128斤的水，但是我只装了1斤的水，那么我的水桶里面水的重量就是1斤，而不是128斤

2. 3副本存储

为了保证block块的安全性，也就是数据的安全性，在hadoop2当中，采用文件默认保存三个副本，我们可以更改副本数以提高数据的安全性。
在 hdfs-site.xml 当中修改以下配置属性，即可更改文件的副本数。

<property>
    <name>dfs.replicationname>
    <value>3value>
property>

3. 扩展：机架感知

副本存放策略，不同版本稍有区别
- 比如apache hadoop 2.7.7
- 比如apache hadoop 2.8.5

4. 抽象成数据块的好处

文件可能大于集群中任意一个磁盘
- 10T * 3 / 128 = xxx 块，10 T 文件方式存多个 block 块，这些 block 块属于一个文件
使用块抽象而不是文件可以简化存储子系统
- hdfs将所有的文件全部抽象成为block块来进行存储，不管文件大小，全部一视同仁都是以block块的形式进行存储，方便我们的分布式文件系统对文件的管理
块非常适合用于数据备份，进而提供数据容错能力和可用性

5. HDFS架构

HDFS 集群包括：NameNode、DataNode 和 Secondary NameNode
- NameNode 负责管理整个文件系统的元数据，以及每一个路径（文件）所对应的数据块信息。
- DataNode 负责管理用户的文件数据块，每一个数据块都可以在多个 DataNode 上存储多个副本。
- Secondary NameNode 用来监控 HDFS 状态的辅助后台程序，每隔一段时间获取 HDFS 元数据的快照。最主要作用是辅助 NameNode 管理元数据信息。

NameNode 与 DataNode 总结概述：

NameNode	DataNode
存储元数据	存储文件内容
元数据保存在内存中	文件内容保存在磁盘
保存文件、block、DataNode之间的映射关系	维护了block id 到 DataNode 本地文件的映射关系

6. 扩展

块缓存

官网文档
通常 DataNode 从磁盘中读取块，但对于访问频繁的文件，其对应的块可能被显示的缓存在 DataNode 的内存中，以堆外块缓存的形式存在。
默认情况下，一个块仅缓存在一个 DataNode 的内存中，当然可以针对每个文件配置 DataNode 的数量。作业调度器通过在缓存块的 DataNode 上运行任务，可以利用块缓存的优势提高读操作的性能。

例如：连接（join）操作中使用的一个小的查询表就是块缓存的一个很好的候选。
用户或应用通过在缓存池中增加一个cache directive来告诉namenode需要缓存哪些文件及存多久。缓存池（cache pool）是一个拥有管理缓存权限和资源使用的管理性分组

hdfs的文件权限验证

hdfs的文件权限机制与linux系统的文件权限机制类似
- r:read w:write x:execute 权限x对于文件表示忽略，对于文件夹表示是否有权限访问其内容
- 如果linux系统用户zhangsan使用hadoop命令创建一个文件，那么这个文件在HDFS当中的owner就是zhangsan
- HDFS文件权限的目的，防止好人做错事，而不是阻止坏人做坏事。HDFS相信你告诉我你是谁，你就是谁。
hdfs 的权限可以用 kerberos、ranger 来做

HDFS 的 Shell 命令操作

HDFS命令有两种风格，两种命令均可使用，效果相同。
- hadoop fs开头的
- hdfs dfs开头的

hdfs 常用命令

如何查看 hdfs 或 hadoop 子命令的帮助信息，如 ls 子命令

hdfs dfs -help ls
hadoop fs -help ls #两个命令等价

查看 hdfs 文件系统中指定目录的文件列表。对比 linux 命令ls

hdfs dfs -ls /
hadoop fs -ls /
hdfs dfs -ls -R /

在hdfs文件系统中创建文件

hdfs dfs -touchz /edits.txt

向HDFS文件中追加内容

hadoop fs -appendToFile edit1.xml /edits.txt #将本地磁盘当前目录的edit1.xml内容追加到HDFS根目录 的edits.txt文件

查看HDFS文件内容

hdfs dfs -cat /edits.txt

从本地路径上传文件至HDFS

#用法：hdfs dfs -put /本地路径 /hdfs路径
hdfs dfs -put /linux本地磁盘文件 /hdfs路径文件
hdfs dfs -copyFromLocal /linux本地磁盘文件 /hdfs路径文件  #跟put作用一样
hdfs dfs -moveFromLocal /linux本地磁盘文件 /hdfs路径文件  #跟put作用一样，只不过，源文件被拷贝成功后，会被删除

在hdfs文件系统中下载文件

hdfs dfs -get /hdfs路径 /本地路径
hdfs dfs -copyToLocal /hdfs路径 /本地路径  #根get作用一样

hdfs dfs -mkdir /shell

在hdfs文件系统中删除文件

hdfs dfs -rm /edits.txt
# INFO fs.TrashPolicyDefault: Moved: 'hdfs://node01:8020/edits.txt' to trash at: hdfs://node01:8020/user/hadoop/.Trash/Current/edits.txt

# 将文件彻底删除（被删除文件不放到hdfs的垃圾桶里） how？
hdfs dfs -rm -skipTrash /edit1.xml

在hdfs文件系统中修改文件名称（也可以用来移动文件到目录）

# 先创建一个文件
hdfs dfs -touchz /a.txt
# 重命名文件
hdfs dfs -mv /a.txt /b.sh
# 移动文件
hdfs dfs -mv /b.sh /shell

hdfs dfs -cp /xrsync.sh /shell

hdfs dfs -rm -r /shell

列出本地文件的内容（默认是hdfs文件系统）

hdfs dfs -ls file:///home/hadoop/

查找文件

# linux find命令
find . -name 'edit*'
# HDFS find命令
hadoop fs -find / -name a*.txt # 在HDFS根目录中，查找文件名以 a开头的txt文件

总结：
- 输入hadoop fs 或hdfs dfs，回车，查看所有的HDFS命令
- 许多命令与linux命令有很大的相似性，学会举一反三
- 有用的help，如查看ls命令的使用说明：hadoop fs -help ls
- 绝大多数的大数据框架的命令，也有类似的help信息

补充命令

hdfs与getconf结合使用

# 获取NameNode的节点名称（可能有多个）
hdfs getconf -namenodes
# 获取hdfs最小块信息, 用相同命令可获取其他的属性值
hdfs getconf -confKey dfs.namenode.fs-limits.min-block-size
# 查找hdfs的NameNode的RPC地址
hdfs getconf -nnRpcAddresses

hdfs与dfsadmin结合使用

# 查看hdfs dfsadmin的帮助信息
hdfs dfsadmin
# 同样要学会借助help查看具体命令的帮助信息
hdfs dfsadmin -help safemode
# 查看当前的模式
hdfs dfsadmin -safemode get
# 进入/退出安全模式
hdfs dfsadmin -safemode enter # 进入安全模式
hdfs dfsadmin -safemode leave #退出安全模式

hdfs与fsck结合使用

# fsck指令显示HDFS块信息
hdfs fsck /a.txt -files -blocks -locations # 查看文件 a.txt 的块信息

其他命令

# 检查压缩库本地安装情况
hadoop checknative
# 格式化名称节点（慎用，一般只在初次搭建集群，使用一次；格式化成功后，不要再使用）
hadoop namenode -format
# 执行自定义jar包
hadoop jar /bigdata/install/hadoop-3.1.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.4.jar pi 5 5
yarn jar /bigdata/install/hadoop-3.1.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.4.jar pi 5 5

hdfs的优缺点

1. hdfs的优点

高容错性
- 数据自动保存多个副本，它通过增加副本的形式，提高容错性。
- 某一个副本丢失以后，它可以自动恢复，这是由 HDFS 内部机制自动实现。
适合批处理
- 把数据位置暴露给计算框架，通过移动计算而不是移动数据，提高效率。
适合大数据处理
- 数据规模：能够处理数据规模达到 GB、TB、甚至PB级别的数据。
- 文件规模：能够处理百万规模以上的文件数量，数量相当之大。
- 节点规模：能够处理10K 节点的规模。
流式数据访问
- 一次写入，多次读取。
- 不能随机修改，只能追加。
- 它能保证数据的一致性。
可构建在廉价的机器上
- 它通过多副本机制，提高可靠性。
- 它提供了容错和恢复机制：比如某一个副本丢失，可以通过其它副本来恢复。

2. hdfs的缺点

不适合低延时的数据访问
- 比如毫秒级的存储、读取数据，这是不行的，它做不到。
- 它适合高吞吐率的场景，就是在某一时间内写入大量的数据。
无法高效的对大量小文件进行存储
- 存储大量小文件的话，它会占用 NameNode大量的内存来存储文件、目录和块信息。这样是不可取的，因为NameNode的内存总是有限的。
- 小文件存储的寻道时间会超过读取时间，它违反了HDFS的设计目标。
并发写入、文件随机修改
- 一个文件只能有一个写，不允许多个线程同时写（租约机制）。
- 仅支持数据 append（追加），不支持文件的随机修改。

hdfs安全模式

安全模式是HDFS所处的一种特殊状态
- 文件系统只接受读请求
- 不接受写请求，如删除、修改等变更请求
在NameNode主节点启动时，HDFS首先进入安全模式
- DataNode 在启动的时候会向 NameNode 汇报可用的 block 等状态，当整个系统达到安全标准时，HDFS自动离开安全模式。
- 如果HDFS处于安全模式下，则文件block不能进行任何的副本复制操作，因此达到最小的副本数量要求是基于 DataNode 启动时的状态来判定的。
- 启动时不会再做任何复制（从而达到最小副本数量要求）。
- hdfs集群刚启动的时候，默认30S钟的时间是出于安全期的，只有过了30S之后，集群脱离了安全期，然后才可以对集群进行操作
何时退出安全模式
- NameNode 知道集群共多少个block（不考虑副本），假设值是total；
- NameNode 启动后，会上报block report，NameNode 开始累加统计满足最小副本数（默认1）的block个数，假设是num；
- 当 num/total > 99.9% 时，退出安全模式。

$ hdfs dfsadmin -safemode  
Usage: hdfs dfsadmin [-safemode enter | leave | get | wait]

hdfs的java编程

maven 依赖：

  <properties>
    <project.build.sourceEncoding>UTF-8project.build.sourceEncoding>
    <maven.compiler.source>1.8maven.compiler.source>
    <maven.compiler.target>1.8maven.compiler.target>
    <hadoop.version>3.1.4hadoop.version>
  properties>

  <dependencies>
    <dependency>
      <groupId>org.apache.hadoopgroupId>
      <artifactId>hadoop-clientartifactId>
      <version>${hadoop.version}version>
    dependency>
    <dependency>
      <groupId>org.apache.hadoopgroupId>
      <artifactId>hadoop-commonartifactId>
      <version>${hadoop.version}version>
    dependency>

    <dependency>
      <groupId>org.apache.hadoopgroupId>
      <artifactId>hadoop-hdfsartifactId>
      <version>${hadoop.version}version>
    dependency>

    <dependency>
      <groupId>org.apache.hadoopgroupId>
      <artifactId>hadoop-mapreduce-client-coreartifactId>
      <version>${hadoop.version}version>
    dependency>
    
    <dependency>
      <groupId>junitgroupId>
      <artifactId>junitartifactId>
      <version>4.11version>
      <scope>testscope>
    dependency>
    <dependency>
      <groupId>org.testnggroupId>
      <artifactId>testngartifactId>
      <version>RELEASEversion>
    dependency>
    <dependency>
      <groupId>log4jgroupId>
      <artifactId>log4jartifactId>
      <version>1.2.17version>
    dependency>
  dependencies>
  <build>
    <plugins>
      <plugin>
        <groupId>org.apache.maven.pluginsgroupId>
        <artifactId>maven-compiler-pluginartifactId>
        <version>3.0version>
        <configuration>
          <source>1.8source>
          <target>1.8target>
          <encoding>UTF-8encoding>
          
        configuration>
      plugin>
      <plugin>
        <groupId>org.apache.maven.pluginsgroupId>
        <artifactId>maven-shade-pluginartifactId>
        <version>2.4.3version>
        <executions>
          <execution>
            <phase>packagephase>
            <goals>
              <goal>shadegoal>
            goals>
            <configuration>
              <minimizeJar>trueminimizeJar>
            configuration>
          execution>
        executions>
      plugin>
    plugins>
  build>

api文档

1. 创建文件夹

public class HdfsMkdirsTest {
     
    // 简化版
    @Test
    public void mkdirsOnHdfs_simple() throws IOException {
     
        // 配置项
        Configuration configuration = new Configuration();
        // 设置要连接的 hdfs 集群 NameNode
        configuration.set("fs.defaultFS", "hdfs://node01:8020");
        // 获取文件系统
        FileSystem fileSystem = FileSystem.get(configuration);
        // 调用方法创建目录，若目录存在，则创建失败，返回false
        boolean result = fileSystem.mkdirs(new Path("/yw/dir1"));

        assertTrue(result);
        fileSystem.close();
    }

    // 指定目录所属用户
    @Test
    public void mkdirsOnHdfs_withUser() throws Exception {
     
        // 配置项
        Configuration configuration = new Configuration();
        // 获取文件系统
        FileSystem fileSystem = FileSystem.get(
                new URI("hdfs://node01:8020"), configuration, "test");
        // 调用方法创建目录，若目录存在，则创建失败，返回false
        boolean result = fileSystem.mkdirs(new Path("/yw/dir2"));

        assertTrue(result);
        fileSystem.close();
    }

    // 创建目录时，指定目录权限
    @Test
    public void mkdirsOnHdfs_withPermission() throws IOException {
     
        Configuration configuration = new Configuration();
        configuration.set("fs.defaultFS", "hdfs://node01:8020");
        FileSystem fileSystem = FileSystem.get(configuration);
        FsPermission fsPermission = new FsPermission(FsAction.ALL, FsAction.READ, FsAction.READ);

        boolean result = fileSystem.mkdirs(new Path("hdfs://node01:8020/yw/dir3"), fsPermission);

        assertTrue(result);
        fileSystem.close();
    }
}

2. 文件上传

public class HdfsUploadFileTest {
     
    @Test
    public void uploadFile2Hdfs() throws IOException {
     
        Configuration configuration = new Configuration();
        configuration.set("fs.defaultFS", "hdfs://node01:8020");
        FileSystem fileSystem = FileSystem.get(configuration);
        fileSystem.copyFromLocalFile(new Path("/Volumes/F/MyGitHub/bigdata/hadoop-demo/src/test/resources/hello.txt"),
                new Path("/yw/dir1"));
        fileSystem.close();
    }
}

3. 文件下载

public class HdfsDownloadFileTest {
     
    @Test
    public void downloadFile2Hdfs() throws IOException {
     
        Configuration configuration = new Configuration();
        configuration.set("fs.defaultFS", "hdfs://node01:8020");
        FileSystem fileSystem = FileSystem.get(configuration);
        fileSystem.copyToLocalFile(new Path("/yw/dir1/hello.txt"),
                new Path("/Volumes/F/MyGitHub/bigdata/hadoop-demo/src/test/resources"));

//        // 删除文件
//        fileSystem.delete()
//        // 重命名文件
//        fileSystem.rename()

        fileSystem.close();
    }
}

4. 查看hdfs文件详细信息

public class HdfsViewFileTest {
     
    @Test
    public void uploadFile2Hdfs() throws Exception {
     
        // 获取文件系统
        Configuration configuration = new Configuration();
        FileSystem fs = FileSystem.get(new URI("hdfs://node01:8020"), configuration);
        // 获取文件详情
        RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/yw"), true);
        while (listFiles.hasNext()) {
     
            LocatedFileStatus status = listFiles.next();
            // 输出文件详情
            // 文件名称
            System.out.println(status.getPath().getName());
            // 长度
            System.out.println(status.getLen());
            // 权限
            System.out.println(status.getPermission());
            // 分组
            System.out.println(status.getGroup());
            // 获取存储的块信息
            BlockLocation[] blockLocations = status.getBlockLocations();
            for (BlockLocation blockLocation : blockLocations) {
     
                // 获取块存储的主机节点
                String[] hosts = blockLocation.getHosts();
                for (String host : hosts) {
     
                    System.out.println(host);
                }
            }
        }
        // 关闭资源
        fs.close();
    }
}

输出：

hello.txt
13
rw-r--r--
supergroup
node01
node02
node03

5. IO 流操作 hdfs 文件

@Test
public void putFile2Hdfs() throws Exception {
     
    // 获取文件系统
    Configuration configuration = new Configuration();
    FileSystem fs = FileSystem.get(new URI("hdfs://node01:8020"), configuration);
    // 创建输入流，不需要加 file:///，否则报错
    FileInputStream fis = new FileInputStream(new File("/Volumes/F/MyGitHub/bigdata/hadoop-demo/src/test/resources/hello.txt"));
    // 创建输出流，父目录不存在，会自动创建
    FSDataOutputStream fos = fs.create(new Path("/yw/dir2/hello.txt"));
    // 流对拷
    IOUtils.copy(fis, fos); // org.apache.commons.io.IOUtils
    // 关闭资源
    IOUtils.closeQuietly(fis);
    IOUtils.closeQuietly(fos);
    fs.close();
}

通过IO流从hdfs上面下载文件类似，这里不做赘述。

6. hdfs 的小文件合并

/**
 * 小文件合并：读取所有本地小文件，写入到hdfs的大文件里面去
 */
@Test
public void mergeFile() throws Exception {
     
    // 获取分布式文件系统
    Configuration configuration = new Configuration();
    FileSystem fs = FileSystem.get(new URI("hdfs://node01:8020"), configuration, "hadoop");
    FSDataOutputStream fsdos = fs.create(new Path("/yw/dir3/big.txt"));

    LocalFileSystem lfs = FileSystem.getLocal(configuration);
    FileStatus[] fileStatuses = lfs.listStatus(new Path("/Volumes/F/MyGitHub/bigdata/hadoop-demo/src/test/resources/"));
    for (FileStatus fileStatus : fileStatuses) {
     
        // 获取每一个本地文件路径
        Path path = fileStatus.getPath();
        // 读取本地小文件
        FSDataInputStream fsdis = lfs.open(path);
        IOUtils.copy(fsdis, fsdos);
        IOUtils.closeQuietly(fsdis);
    }
    IOUtils.closeQuietly(fsdos);
    lfs.close();
    fs.close();
}

DataNode 工作机制及存储

HDFS分布式文件系统也是一个主从架构
- 主节点是我们的 NameNode，负责管理整个集群以及维护集群的元数据信息。
- 从节点 DataNode，主要负责文件数据存储。

1. DataNode 工作机制

一个数据块在 DataNode 上以文件形式存储在磁盘上，包括两个文件
- 一个是数据本身，一个是元数据：包括数据块的长度，块数据的校验和，以及时间戳。
- hdfs-site.xml中指定了数据存储的路径

<property>
    <name>dfs.datanode.data.dirname>
    <value>file:///bigdata/install/hadoop-3.1.4/hadoopDatas/datanodeDatasvalue>
property>

DataNode 启动后向 NameNode 注册，通过后周期性（6小时）的向 NameNode 上报所有的块信息。
心跳周期 3 秒
- 心跳返回结果带有 NameNode 给该 DataNode 的命令如复制块数据到另一台机器，或删除某个数据块。
- 如果超过10分钟没有收到某个 DataNode 的心跳，则认为该节点不可用。
集群运行中可以安全加入和退出一些机器。

2. 数据完整性

当客户端向 hdfs 写数据时
- 会计算数据的校验和，以此保证数据通过网络传输，到达 DataNode 后，没有丢失数据
当 DataNode 读取 block 时
- 它会计算checksum
- 如果计算后的checksum，与 block 创建时值不一样，说明block已经损坏
- client 读取其他 DataNode 上的block
DataNode 在其文件创建后周期验证 checksum

3. 掉线时限参数设置

DataNode 进程死亡或者网络故障造成 DataNode 无法与 NameNode 通信，NameNode 不会立即把该节点判定为死亡
要经过一段时间，这段时间暂称作超时时长。HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout，则超时时长的计算公式为：

# 以下属性，可以查看官网的`hdfs-default.xml`文件
timeout = 2 * dfs.namenode.heartbeat.recheck-interval + 10 * dfs.heartbeat.interval

而默认的dfs.namenode.heartbeat.recheck-interval 大小为5分钟，dfs.heartbeat.interval默认为3秒。
需要注意的是hdfs-site.xml 配置文件中的heartbeat.recheck.interval的单位为毫秒，dfs.heartbeat.interval的单位为秒。

<property>
    <name>dfs.namenode.heartbeat.recheck-intervalname>
    <value>300000value>
property>
<property>
    <name> dfs.heartbeat.interval name>
    <value>3value>
property>

4. DataNode的目录结构

和 NameNode 不同的是，DataNode 的存储目录是初始阶段自动创建的，不需要额外格式化。
在主节点node01的目录/bigdata/install/hadoop-3.1.4/hadoopDatas/datanodeDatas/current下查看版本号

[hadoop@centos128 current]$ cat VERSION 
#Wed Nov 24 07:46:56 CST 2021
storageID=DS-1661390a-4348-459e-938f-220dd9984e38
clusterID=CID-d4ce4fe0-d991-4a87-bccb-fde0c80fd838
cTime=0
datanodeUuid=04b892c7-d0d5-4e65-ac96-8130476fde01
storageType=DATA_NODE
layoutVersion=-57

具体解释：
- storageID：存储 id 号
- clusterID：集群ID，全局唯一
- cTime：标记了 DataNode 存储系统的创建时间
  - 对于刚刚格式化的存储系统，这个属性为0；
  - 但是在文件系统升级之后，该值会更新到新的时间戳。
- datanodeUuid：DataNode 的唯一识别码
- storageType：存储类型
- layoutVersion：是一个负整数。通常只有HDFS增加新特性时才会更新这个版本号。

5. DataNode多目录配置

DataNode 也可以配置成多个目录，每个目录存储的数据不一样。即：数据不是副本。具体配置如下：

vim /bigdata/install/hadoop-3.1.4/etc/hadoop/hdfs-site.xml


<property>
   <name>dfs.datanode.data.dirname>
   <value>
     /home/hadoop/develop/data/data1/hdfs,
     /home/hadoop/develop/data/data2/hdfs		
  value>
property>

hdfs的读写流程

1. hdfs 的写入流程

创建文件：
- ①HDFS client向HDFS写入数据，先调用DistributedFileSystem.create()；
- ②RPC调用namenode的create()，会在HDFS目录树中指定的路径，添加新文件；
- 并将操作记录在edits.log中；
- namenode.create()方法执行完后，返回一个FSDataOutputStream，它是DFSOutputStream的包装类；
建立数据流管道 Pipeline：
- ③client调用DFSOutputStream.write()写数据（先写第一个块的数据，暂时叫blk1）；
- ④DFSOutputStream通过RPC调用namenode的addBlock，向namenode申请一个空的数据块block；
- ⑤addBlock返回LocatedBlock对象；此对象中包含了当前blk要存储在哪三个datanode的信息，比如dn1、dn2、dn3；
- ⑥客户端，根据位置信息，建立数据流管道（图中蓝色线条）
向数据流管道写入当前块的数据：
- ⑦写数据时，先将数据写入一个检验块chunk中，写满512字节后，对此chunk计算校验和checksum值（4字节）；
- ⑧然后将chunk及对应校验和写入packet中，一个packet是64KB；
- ⑨随着源源不断的带校验和的chunk写入packet，当packet写满后，将packet写入dataqueue数据队列中；
- ⑩packet从队列中取出，沿pipeline发送到dn1，再从dn1发送到dn2，再从dn2发送到dn3；
- ⑪同时，此packet会保存一份到一个确认队列ack queue中；
- ⑫packet到达最后一个datanode即dn3后，做校验，将校验结果逆着pipeline方向回传到客户端，具体是校验结果从dn3传到dn2，dn2也会做校验，校验结果再传到dn1，dn1也做校验；结果再传回客户端；
- ⑬客户端根据校验结果，如果“成功”，则将将保存在ack queue中的packet删除；如果失败，则将packet取出，重新放回到data queue末尾，等待再次沿pipeline发送；
- ⑭如此，将block中的一个数据一个个packet发送出去；当此block发送完毕，即dn1、dn2、dn3都接受了blk1的完整的副本，那么三个dn分别RPC调用namenode的blockReceivedAndDeleted()，namenode会更新内存中block与datanode的对应关系（比如dn1上多了一个blk1副本）；
关闭 dn1、dn2、dn3 构建的 Pipeline，且文件还有下一个块时，再从 ④ 开始，直到文件全部数据写完：
- ⑮最终，调用DFSOutputStream的close()；
- ⑯客户端调用namenode的complete()，告知namenode文件传输完成。

假设说当前构建的pipeline是dn1、dn2、dn3构成的当传输数据的过程中，dn2挂了或通信不畅了，则当前pipeline中断 HDFS 会如何做？

先将ack queue中的所有packet全部放回到data queue中，客户端RPC调用namenode的updateBlockForPipeline()，为当前block（假设是blk1）生成新的版本比如ts1（本质是时间戳），故障dn2会从pipeline中删除；
DFSOutputStream 再 RPC调用namenode的getAdditionalDatanode()，让namenode分配新的datanode，比如是dn4；
输出流将原dn1、dn3与新的dn4组成新的管道，他们上边的blk1版本设置为新版本ts1，由于新添加的dn4上没有blk1的数据，客户端告知dn1或dn3，将其上的blk1的数据拷贝到dn4上；
新的数据管道建立好后，DFSOutputStream调用updatePipeline()更新namenode元数据；
至此，pipeline恢复，客户端按正常的写入流程，完成文件的上传；
故障datanode重启后，namenode发现它上边的block的blk1的时间戳是老的，会让datanode将blk1删除掉。

2. hdfs 的读取流程

① client端读取HDFS文件，client调用文件系统对象DistributedFileSystem的open方法；
② 返回FSDataInputStream对象（对DFSInputStream的包装）；
③ 构造DFSInputStream对象时，调用namenode的getBlockLocations方法，获得file的开始若干block（如blk1, blk2, blk3, blk4）的存储datanode（以下简称dn）列表；针对每个block的dn列表，会根据网络拓扑做排序，离client近的排在前；
④ 调用DFSInputStream的read方法，先读取blk1的数据，与client最近的datanode建立连接，读取数据；
⑤ 读取完后，关闭与dn建立的流；
⑥ 读取下一个block，如blk2的数据（重复步骤④、⑤、⑥）；
⑦ 这一批block读取完后，再读取下一批block的数据（重复③、④、⑤、⑥、⑦）；
⑧ 完成文件数据读取后，调用FSDataInputStream的close方法。

如何容错？

情况一：读取block过程中，client与datanode通信中断
- client与存储此block的第二个datandoe建立连接，读取数据；
- 记录此有问题的datanode，不会再从它上读取数据。
情况二：client读取block，发现block数据有问题
- client读取block数据时，同时会读取到block的校验和，若client针对读取过来的block数据，计算检验和，其值与读取过来的校验和不一样，说明block数据损坏；
- client从存储此block副本的其它datanode上读取block数据（也会计算校验和）；
- 同时，client会告知namenode此情况。

更详细的 hdfs 写入流程图

你可能感兴趣的:(大数据,hdfs)

25年大数据开发省赛样题第一套，离线数据处理答案 Tometor 大数据 spark scala
省赛样题一，数据抽取模块这一模块的作用是从mysql抽取数据到ods层进行指标计算，在题目中要求进行全量抽取，并新增etl-date字段进行分区，日期为比赛前一天importorg.apache.spark.sql.SparkSessionimportjava.util.PropertiesobjectTask1{defmain(args:Array[String]):Unit={valspark
2025年2月中国数据库排行榜：OceanBase迎来开门红，金仓、GBASE排名节节高
2025年2月，中国数据库流行度排行榜正式发布。在春节之际，DeepSeek凭借突破性的技术成功出圈，而在此前，各大数据库厂商便已开始探索AI与数据库的深度融合，并陆续推出了相关产品和功能。相信在这股技术革新的浪潮下，将涌现越来越多的新产品和解决方案。接下来，我们将逐一盘点各大数据库的最新动态，探索未来的潜力与挑战。一、金仓、GBASE排名再攀升，TDSQL升第九与上月相比，榜单前十的位次出现了细
出海行动派 | 全球服务新征程！Bonree ONE海外版正式发布运维
在云计算、大数据与物联网深度融合的驱动下，全球IT运维行业正经历从被动响应到主动智能的深刻变革。Gartner最新数据显示，可观测性市场规模将从2021年的68亿美元跃升至2027年的111亿美元，复合年增长率达8.3%，标志着企业对应用稳定性与用户体验的极致追求已成为数字化转型的核心命题。与此同时，全球化进程中的文化差异与合规要求，对运维解决方案的本地化适配能力提出了更高挑战。BonreeONE
.net 插件式开发——实现web框架中大数据算法嵌入(BP算法逼近) weixin_34219944 json 人工智能
关于算法的引入：插件式架构设计，可移植性强，利于算法的升级。【插件式开发相关资料】https://www.cnblogs.com/lenic/p/4129096.html以BP算法为例：1、首先定义一个接口规范////////插件的统一入口///publicinterfaceIPluginPerfrom{//////统一算法插件入口//////输出参数的个数///输出参数///输入参数///str
Visual Studio 2022和C++实现带多组标签的Snowflake SQL查询批量数据导出程序 weixin_30777913 c++云计算开发语言 sql 数据仓库
设计一个基于多个带标签SnowflakeSQL语句作为json配置文件的VisualStudio2022的C++代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库的数据导出为CSV文件到本地目录上，标签加扩展名.csv为导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能，程序需要异常处理和输出，输出出错
Python Pandas带多组参数和标签的Snowflake数据库批量数据导出程序 weixin_30777913 pandas python 云计算数据仓库
设计一个基于多个带标签的SnowflakeSQL模板作为配置文件和多组参数的PythonPandas代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库中的数据导出为CSV文件到指定目录上，然后逐个文件压缩为zip文件，标签和多个参数（以“_”分割）为组成导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能
C#带多组标签的Snowflake SQL查询批量数据导出程序 weixin_30777913 c#数据仓库云计算 sql
设计一个基于多个带标签SnowflakeSQL语句作为json配置文件的C#代码程序，实现根据不同的输入参数自动批量地将Snowflake数据库的数据导出为CSV文件到本地目录上，标签加扩展名.csv为导出数据文件名，文件已经存在则覆盖原始文件。需要考虑SQL结果集是大数据量分批数据导出的情况，通过多线程和异步操作来提高程序性能，程序需要异常处理和输出，输出出错时的错误信息，每次每个查询导出数据的
Python 爬虫实战：开放数据集抓取与大数据分析应用西攻城狮北 python 爬虫数据分析
引言在数据驱动的时代，开放数据集成为了各领域研究和应用的宝贵资源。通过抓取和分析开放数据集，我们可以挖掘出有价值的信息，为决策提供支持。本文将详细介绍如何使用Python爬虫技术抓取开放数据集，并进行大数据分析应用。一、项目背景与目标1.项目背景随着信息技术的飞速发展，越来越多的机构和组织开始开放其数据集，以促进创新和研究。这些开放数据集涵盖了各个领域，如气象、交通、医疗、金融等。通过抓取和分析这
上万个Map运行时链接ApplicationMaster超时FAILED 500佰大数据云计算 big data mapreduce
#MapReduce业务常见故障#大数据#生产环境真实案例#MapReduce#批计算#离线业务#整理#经验总结说明：此篇总结MapReduce业务常见故障案例处理方案结合自身经历总结不易+关注+收藏欢迎留言更多专题(详见)：MapReduce计算引擎详解--项目优化(指导书)上万个Map运行时链接ApplicationMaster超时FAILED症状Mapreduce任务会并发起几万个map,会
Java线程协作式中断机制超人汪小建(seaboat) 线程协作式中断机制 jvm
跟着作者的65节课彻底搞懂Java并发原理专栏，一步步彻底搞懂Java并发原理。作者简介：笔名seaboat，擅长工程算法、人工智能算法、自然语言处理、计算机视觉、架构、分布式、高并发、大数据和搜索引擎等方面的技术，大多数编程语言都会使用，但更擅长Java、Python和C++。平时喜欢看书写作、运动、画画。崇尚技术自由，崇尚思想自由。出版书籍：《Tomcat内核设计剖析》、《图解数据结构与算法》
pandas常用数据格式IO性能对比 lining808 Python pandas python 数据分析
前言本文对pandas支持的一些数据格式进行IO（读写）的性能测试，大数据时代以数据为基础，经常会遇到操作大量数据的情景，数据的IO性能尤为重要，本文对常见的数据格式csv、feather、hdf5、jay、parquet、pickle性能进行对比。csvCSV（Comma-SeparatedValues）是一种用于存储表格数据的简单文件格式。在CSV文件中，每一行通常代表一条记录，字段（列）由逗
如何设计高效的数据湖架构？晴天彩虹雨架构大数据数据仓库
1.引言在大数据时代，数据湖（DataLake）逐渐成为企业存储和处理海量数据的重要基础设施。相比于传统数据仓库，数据湖能够支持结构化、半结构化和非结构化数据，同时提供更灵活的存储与计算能力。然而，如何合理设计数据湖架构，优化存储策略、Schema演进以及数据生命周期管理，是数据架构师必须深入思考的问题。本篇文章将深入探讨数据湖架构的设计方法，结合Hudi、Iceberg、DeltaLake等技术
2024年上半年系统架构设计师论文真题任铄软考2024年上半年真题系统架构设计师架构设计软考 2024 论文范文真题
一、论大数据lambda架构大数据处理架构是专门用于处理和分析巨量复杂数据集的软件架构。它通常包括数据收集、存储、处理、分析和可视化等多个层面，旨在从海量、多样化的数据中提取有价值的信息。Lambda架构是大数据平台里最成熟、最稳定的架构，它是一种将批处理和流处理结合起来的大数据处理系统架构，其核心思想是将批处理作业和实时流处理作业分离，各自独立运行，资源互相隔离，解决传统批处理架构的延迟问题和流
2024年5月份架构师考试论文真题完整版 Zoi Gil(学习) 大数据 flink hdfs hadoop python
三、论文1.关于大数据的，Lambda架构文老师押中了原题，几乎描述一致撰写关于Lambda架构的软考论文时，一个清晰且结构化的大纲是成功的关键。以下是一个简单的论文大纲示例，旨在覆盖Lambda架构的核心概念、设计原则、优缺点、实际应用案例以及对比其他架构（如Kappa架构）的分析：大纲简要介绍Lambda架构的基本概念及其在大数据处理领域的地位。概述论文的主要研究内容、目的及预期贡献。背景介绍
2024架构设计师论文题目数字化信息化智能化解决方案 2024架构
论文1大数据lamda架构1、简要说明你参开发的软件项目,吸你所承担的主要作2、lamada体系架构将数据流分为批处理层(对应的英文、加速层文、服务层。简要叙这三个层次的用途和特点3、详细阐述你参与开发的软件项目如何基于lamada体系架构进行大数据处理的架构论文2模型驱动架构设计方法及其用1、简要说明你参与分析和研发的软件项目,吸你所承担的要工作2、简要阐述采用模型驱动架构思想进行软件开发的全过
【系统架构设计师】2024年上半年真题论文: 论大数据lambda架构（包括解题思路和素材）数据知道系统架构架构系统架构设计师软考高级论文
更多内容请见：备考系统架构设计师-专栏介绍和目录文章目录真题题目（2024年上半年试题1）解题思路论文素材参考真题题目（2024年上半年试题1）大数据处理架构是专门用于处理和分析巨量复杂数据集的软件架构。它通常包括数据收集、存储、处理、分析和可视化等多个层面，旨在从海量、多样化的数据中提取有价值的信息。Lambda架构是大数据平台里最成熟、最稳定的架构，它是一种将批处理和流处理结合起来的大数据处理
Java 大视界 -- Java 大数据中的数据可视化大屏设计与开发实战（127）青云交大数据新视界 Java 大视界 java 大数据信息可视化数据可视化大屏跨平台性类库设计流程
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
hive 数字转换字符串_Hive架构及Hive SQL的执行流程解读 weixin_39756416 hive 数字转换字符串
1、Hive产生背景MapReduce编程的不便性HDFS上的文件缺少Schema(表名，名称，ID等，为数据库对象的集合)2、Hive是什么Hive的使用场景是什么？基于Hadoop做一些数据清洗啊(ETL)、报表啊、数据分析可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。Hive是SQL解析引擎，它将SQL语句转译成M/RJob然后在Hadoop执行。由Facebook开源，
Python爬虫学习笔记_DAY_26_Python爬虫之requests库的安装与基本使用【Python爬虫】_requests库ip 苹果Android开发组程序员 python 爬虫学习
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
【C#】VS2019怎么能无论是Debug还是Release模式，生成路径都在Release文件夹下？ JosieBook #C#语言 vs
文章目录⭐问题⭐解决标题详情作者JosieBook头衔CSDN博客专家资格、阿里云社区专家博主、软件设计工程师博客内容开源、框架、软件工程、全栈（,NET/Java/Python/C++）、数据库、操作系统、大数据、人工智能、工控、网络、程序人生口号Tobeyourself，todowhatyouwant.联系方式q:1967473153欢迎三连点赞、✍评论、⭐收藏⭐问题正常情况下，是这样：怎么让
物联网-铁路局“管理工区一张图”实现方案小赖同学啊智能硬件物联网
铁路局“管理公区一张图”实现方案“管理公区一张图”是指通过地理信息系统（GIS）、物联网（IoT）、大数据和可视化技术，将铁路局管辖范围内的所有公共区域（如车站、线路、设备、设施等）集成到一张数字化地图上，实现统一管理、实时监控和智能决策。以下是实现方案和技术架构的详细说明。1.实现目标统一地图展示：将铁路局管辖范围内的所有公区（如车站、线路、设备、设施等）集成到一张数字化地图上。实时监控：实时监
算力租赁新趋势揭秘：如何高效利用云计算资源赋能未来
**算力——数字经济的“新石油”在人工智能、大数据、区块链等技术重塑全球经济的今天，算力已成为驱动创新的核心引擎。根据工信部数据，2022年我国算力核心产业规模突破1.8万亿元，算力总规模位居全球第二，而全球算力租赁市场规模已超过千亿美元，并以年复合增长率超过25%的速度扩张。这一背景下，算力租赁作为灵活获取计算资源的新模式，正从边缘走向主流。本文将深入剖析算力租赁的行业新趋势，并揭示如何通过云计
在hadoop上运行python_hadoop上运行python程序廷哥带你小路超车
数据来源：http://www.nber.org/patents/acite75_99.zip首先上传测试数据到hdfs：[root@localhost:/usr/local/hadoop/hadoop-0.19.2]#bin/hadoopfs-ls/user/root/test-inFound5items-rw-r--r--1rootsupergroup1012010-10-2414:39/us
探秘Python电影票数据爬虫：Maoyan Spider 仰北帅Bobbie
探秘Python电影票数据爬虫：MaoyanSpider去发现同类优质开源项目:https://gitcode.com/在大数据和数据分析的世界里，高效的数据获取是第一步。对于电影爱好者或者市场研究者，了解实时的电影票务信息无疑极具价值。今天，我们要推荐一个开源的Python项目——，这是一个针对猫眼电影平台的网络爬虫，它可以帮助你轻松抓取电影信息、场次、票价等关键数据。项目简介MaoyanSpi
通过 ElasticSearch的Python API和`curl` 命令获取Elasticsearch 所有索引名称 BigBookX elasticsearch jenkins 大数据
导言在大数据管理和实时搜索场景中，Elasticsearch是一款不可或缺的工具。无论是开发调试、数据维护，还是系统监控，快速列出所有索引名称都是一个高频需求。本文将手把手教你如何通过Python客户端连接Elasticsearch，并用两种方法获取索引列表，同时提供代码示例和实战技巧，助你高效掌控Elasticsearch的索引管理。一、为什么需要列出索引名称？在Elasticsearch中，索
一文看懂web组态 2501_90680076 物联网 web 数学建模前端后端
web可视化编辑器，又称WEB组态可视化软件，即用户可以在web页面编辑器上直接搭建出一个行业应用系统出来。web组态可视化编辑器能够运用在哪些场景中呢？web组态可视化编辑器为工程用户提供了二次开发的可能，不用编程、不用写代码，通过可视化界面即可生成web页面，开发出一个应用系统来，在电力、物联网、大数据平台有广泛的应用。一个好的应用系统，应该给用户提供业务自定义的工具。一个好的应用系统，应该采
DeepSeek对于普通打工人来说有什么帮助呢？人工智能
在当今快速变化的社会中，普通打工人面临着越来越多的挑战：职场竞争加剧、技能更新换代加快、工作与生活的平衡难以掌控等。在这样的背景下，如何提升自身竞争力、找到适合自己的职业发展路径，成为了每个打工人都需要思考的问题。而DeepSeek，作为一款基于人工智能和大数据分析的职业发展工具，正在为普通打工人提供全新的解决方案。本文将从多个角度探讨DeepSeek对于普通打工人的帮助，分析它如何通过职业规划、
深入大数据世界：Kontext.TECH的Hadoop之旅钱桦实Emery
深入大数据世界：Kontext.TECH的Hadoop之旅winutils项目地址:https://gitcode.com/gh_mirrors/winut/winutils在大数据的浩瀚宇宙中，Hadoop作为一颗璀璨的星辰，一直扮演着至关重要的角色。对于渴望探索这一领域的开发者和学习者而言，Kontext.TECH提供了一扇独特而便捷的大门，让你的学习之旅更加顺畅。项目介绍Kontext.Ha
智慧农业平台与 DeepSeek 大模型的深度融合 jingwang-cs 人工智能后端
在数字化浪潮席卷全球的今天，农业领域正迎来一场深刻的变革。智慧农业，作为农业现代化的重要发展方向，正借助人工智能、大数据等前沿技术，实现从传统到现代的跨越。本文将为您详细介绍智慧农业领域的新趋势，以及智慧农业平台如何携手DeepSeek大模型，赋能农业数字化转型，引领农业迈向新时代。智慧农业的新趋势：拥抱DeepSeek大模型智慧农业的发展离不开技术创新的推动。近期，DeepSeek大模型在农业领
EasyExcel 使用详解与示例 clownAdam Java easyExcel easyexcel java java操作EasyExcel
EasyExcel详解1.简介EasyExcel是阿里巴巴开源的一款基于Java的Excel操作工具，专注于高性能、低内存占用的Excel读写。相比ApachePOI，EasyExcel在处理大数据量时表现更优，尤其适合处理百万行级别的Excel文件。2.主要特性高性能：采用流式读写模型，内存占用低，适合大数据量处理。易用性：API设计简洁，支持链式调用。功能丰富：支持Excel的读写、样式设置、
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S