夏木夕

大数据技术学习笔记（四）—— HDFS

1 HDFS 概述
- 1.1 HDFS 背景与定义
- 1.2 HDFS 优缺点
- 1.3 HDFS 组成架构
- 1.4 HDFS 文件块大小
2 HDFS的shell操作
- 2.1 上传
- 2.2 下载
- 2.3 HDFS直接操作
3 HDFS的客户端操作
- 3.1 Windows 环境准备
- 3.2 获取 HDFS 的客户端连接对象
- 3.3 HDFS文件上传
- 3.4 HDFS文件下载
- 3.5 HDFS删除文件和目录
- 3.6 HDFS文件更名和移动
- 3.7 HDFS文件详情查看
- 3.8 HDFS文件和文件夹判断
4 HDFS的数据流
- 4.1 HDFS写数据流程
- - 4.1.1 剖析文件写入流程
  - 4.1.2 机架感知（副本存储节点选择）
  - 4.1.3 网络拓扑-节点距离计算
- 4.2 HDFS读数据流程
5 NameNode、SecondaryNameNode
- 5.1 NN与2NN工作机制
- 5.2 Fsimage和Edits解析
- 5.3 CheckPonit时间设置
- 5.4 NameNode故障处理
- 5.5 集群安全模式
- 5.6 NameNode多目录配置
6 DataNode
- 6.1 DataNode 工作机制
- 6.2 数据完整性
- 6.3 掉线时限参数设置
- 6.4 服役新数据节点
- 6.5 退役旧数据节点
- - 6.5.1 添加白名单和黑名单
  - 6.5.2 黑名单退役
- 6.6 DataNode多目录配置

1 HDFS 概述

1.1 HDFS 背景与定义

随着数据量越来越大，在一个操作系统中存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是这样不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式管理系统中的一种。

HDFS（Hadoop Distributed File System），是一个文件系统，用于存储文件，通过目录树来定位文件；其次，其是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

HDFS 的使用场景：适合一次写入，多次读出的场景，且不支持文件的修改（但可追加）。适合用来做数据分析，并不适合用来做网盘应用。

1.2 HDFS 优缺点

（1）优点

高容错性
- 数据自动保存多个副本，通过增加副本的方式，提高容错性
- 某一个副本丢失后，它可以自动恢复
适合处理大数据
- 数据规模：能够处理数据规模达到GB、TB，甚至PB级别的数据
- 文件规模：能够处理百万规模以上的文件数量，数量相当之大
可构建在廉价的机器上，通过多副本机制，提高可靠性

（2）缺点

不适合低延时的数据访问，如毫秒级的存储数据是做不到的
无法高效的对大量小文件进行存储
- 无法存储大量小文件的话，它会占用 NameNode 大量的内存来存储文件目录和块信息，这样是不可取的，因为NameNode的内存总是有限的
- 小文件存储的寻址时间会超过读取时间，它违反了HDFS的设计目标
不支持并发写入、文件的随机修改
- 一个文件只能有一个写，不允许多个线程同时写
- 仅支持数据的追加（append），不支持文件的随机修改

1.3 HDFS 组成架构

NameNode(nn)：就是Master，它是一个主管、管理者

管理HDFS的名称空间
配置副本策略
管理数据块（Block）映射信息
处理客户端读写请求

DataNode(dn)：就是Slave，NameNode下达的命令，DataNode执行实际的操作

存储实际的数据块
执行数据块的读/写操作

SecondaryNameNode：并非NameNode的热备，当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务。

辅助NameNode，分担其工作量，比如定期合并Fsimage和Edits，并推送给NameNode
在紧急情况下，可辅助恢复NameNode

Client：客户端

文件切分，文件上传HDFS时候，Clinet将文件切分成一个个Block，然后进行上传
与NameNode交互，获取文件的位置信息
与DataNode交互，读取或写入数据
Clinet提供一些命令来管理HDFS，比如NameNode的格式化
Clinet提供一些命令来访问HDFS，比如对HDFS增删改查操作

1.4 HDFS 文件块大小

思考：为什么块的大小不能设置太小，也不能设置太大？

如果块设置太小，会增加寻址时间，程序一直在找块的开始位置

如果块设置太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间，导致程序在处理这块数据时，会非常慢

HDFS块的大小设置主要取决于磁盘传输速率

2 HDFS的shell操作

hadoop fs 具体命令 OR hdfs dfs 具体命令

启动 Hadoop 集群

[huwei@hadoop101 ~]$ start-dfs.sh
[huwei@hadoop102 ~]$ start-yarn.sh

Web 端查看 HDFS 的 NameNode

浏览器中输入：http://hadoop101:9870

2.1 上传

首先在HDFS根目录下手动创建/sanguo/shuguo的文件夹，如下图所示

（1）-moveFromLocal：从本地剪切粘贴到 HDFS

[huwei@hadoop101 ~]$ touch kongming.txt
[huwei@hadoop101 ~]$ hdfs dfs -moveFromLocal ./kongming.txt /sanguo/shuguo

（2） -copyFromLocal：从本地文件系统中拷贝文件到 HDFS 路径去
-put：等同于 copyFromLocal

[huwei@hadoop101 ~]$ touch liubei.txt
[huwei@hadoop101 ~]$ hdfs dfs -copyFromLocal ./liubei.txt /sanguo/shuguo

（3） -appendToFile：追加一个本地文件到HDFS已经存在的文件末尾

[huwei@hadoop101 ~]$ vim liubei.txt
三顾茅庐
[huwei@hadoop101 ~]$ hdfs dfs -appendToFile liubei.txt /sanguo/shuguo/liubei.txt

2.2 下载

（1） -copyToLocal：从HDFS拷贝到本地
-get：等同于copyToLocal，就是从HDFS下载文件到本地

[huwei@hadoop101 ~]$ hdfs dfs -copyToLocal /sanguo/shuguo/kongming.txt ./

（2） -getmerge：合并下载多个文件（将HDFS中多个文件内容合并在一个文件中，并下载）

[huwei@hadoop101 ~]$ hdfs dfs -getmerge /sanguo/shuguo/liubei.txt /sanguo/shuguo/kongming.txt ./kongliu.txt

也可以这样写

[huwei@hadoop101 ~]$ hdfs dfs -getmerge /sanguo/shuguo/* ./kongliu.txt

查看合并文件内容

[huwei@hadoop101 ~]$ cat kongliu.txt
三顾茅庐

2.3 HDFS直接操作

（1） -ls: 显示目录信息

[huwei@hadoop101 ~]$ hdfs dfs -ls /sanguo/shuguo
Found 2 items
-rw-r--r--   3 huwei supergroup          0 2023-10-23 16:20 /sanguo/shuguo/kongming.txt
-rw-r--r--   3 huwei supergroup         13 2023-10-23 16:28 /sanguo/shuguo/liubei.txt

（2）-mkdir：在HDFS上创建目录

[huwei@hadoop101 ~]$ hdfs dfs -mkdir /sanguo/weiguo

注意上述命令没有加参数-p不会报错，是因为sanguo文件夹已经存在了，但若父目录不存在，一定需要加上参数-p

[huwei@hadoop101 ~]$ hdfs dfs -mkdir -p /xiyou/suwukong

（3） -cat：显示文件内容

[huwei@hadoop101 ~]$ hdfs dfs -cat /sanguo/shuguo/liubei.txt
三顾茅庐

（4） -chgrp 、-chmod、-chown：Linux文件系统中的用法一样，修改文件所属权限

[huwei@hadoop101 ~]$ hdfs dfs -chmod  666  /sanguo/shuguo/kongming.txt
[huwei@hadoop101 ~]$ hdfs dfs -ls /sanguo/shuguo

也可以在Web端界面手动修改

（5） -cp ：从HDFS的一个路径拷贝到HDFS的另一个路径

[huwei@hadoop101 ~]$ hdfs dfs -cp /sanguo/shuguo/kongming.txt /xiyou

（6） -mv：在HDFS目录中移动文件

[huwei@hadoop101 ~]$ hdfs dfs -mv /sanguo/shuguo/liubei.txt /xiyou

同样，mv也可以对文件重命名

[huwei@hadoop101 ~]$ hdfs dfs -mv /sanguo/shuguo/kongming.txt /sanguo/shuguo/guanyu.txt

（7） -tail：显示一个文件的末尾 1kb 的数据

我们上传一个稍大点的文件 xiaoaojianghu.txt

[huwei@hadoop101 ~]$ hdfs dfs -tail /xiaoaojianghu.txt

查看前10行

[huwei@hadoop101 ~]$ hdfs dfs -head /xiaoaojianghu.txt

注意这里的 head 不支持指定 -n

（8） -rm：删除文件或文件夹

[huwei@hadoop101 ~]$ hdfs dfs -rm /xiyou/kongming.txt
[huwei@hadoop101 ~]$ hdfs dfs -rm -r /xiyou

注意 HDFS 中删除文件夹中 -r 与 -f 不能写成 -rf，要写必须单独写，而且也没必要写-f，因为也不会有删除确认

（9）-rmdir：删除空目录

[huwei@hadoop101 ~]$ hdfs dfs -rmdir /sanguo/weiguo

（10） -du：统计文件夹的大小信息

[huwei@hadoop101 ~]$ hdfs dfs -du /
0        0        /sanguo
3041059  9123177  /xiaoaojianghu.txt

两列文件大小是三倍的关系，因为副本数有三个

（11） -setrep：设置HDFS中文件的副本数量

[huwei@hadoop101 ~]$ hdfs dfs -setrep 10 /sanguo
Replication 10 set: /sanguo/shuguo/guanyu.txt

这里设置的副本数只是记录在NameNode的元数据中，是否真的会有这么多副本，还得看DataNode的数量。因为目前只有3台设备，最多也就3个副本，只有节点数的增加到10台时，副本数才能达到10。

3 HDFS的客户端操作

3.1 Windows 环境准备

hadoop下载地址，将压缩包解压到安装目录，注意安装目录的路径中不要有空格。

（1）配置 HADOOP_HOME 环境变量

（2）配置Path环境变量

（3） cmd 终端输入hadoop version 测试

（4）创建一个Maven工程，并导入相应的依赖坐标+日志添加

在pom.xml文件中添加

<dependencies>
    <dependency>
        <groupId>junitgroupId>
        <artifactId>junitartifactId>
        <version>4.12version>
    dependency>
    <dependency>
        <groupId>org.apache.logging.log4jgroupId>
        <artifactId>log4j-slf4j-implartifactId>
        <version>2.12.0version>
    dependency>
    <dependency>
        <groupId>org.apache.hadoopgroupId>
        <artifactId>hadoop-clientartifactId>
        <version>3.1.3version>
    dependency>
dependencies>

在项目的 src/main/resources目录下，新建一个文件，命名为log4j2.xml，在文件中填入


<Configuration status="error" strict="true" name="XMLConfig">
    <Appenders>
        
        <Appender type="Console" name="STDOUT">
            
            <Layout type="PatternLayout"
                    pattern="[%p] [%d{yyyy-MM-dd HH:mm:ss}][%c{10}]%m%n" />
        Appender>

    Appenders>

    <Loggers>
        
        <Logger name="test" level="info" additivity="false">
            <AppenderRef ref="STDOUT" />
        Logger>

        
        <Root level="info">
            <AppenderRef ref="STDOUT" />
        Root>
    Loggers>
Configuration>

（3）创建包名和类

3.2 获取 HDFS 的客户端连接对象

public class hdfsTest {

    private FileSystem fs;

    /**
     * 获取 hdfs的客户端连接对象
     */

    @Before
    public void init() throws URISyntaxException, IOException, InterruptedException {
        Configuration configuration = new Configuration();
        configuration.set("dfs.replication", "2");
        URI uri = new URI("hdfs://hadoop101:9820");
        String user = "huwei";
        fs = FileSystem.get(uri, configuration, user);
    }

    /**
     * 关闭资源
     */
    @After
    public void close() throws IOException {
        fs.close();
    }


/*    @Test
    public void testMkdirs() throws IOException, InterruptedException, URISyntaxException {

        // 获取文件系统对象
        Configuration configuration = new Configuration();
        configuration.set("dfs.replication", "2");
        URI uri = new URI("hdfs://hadoop101:9820");
        String user = "huwei";
        FileSystem fs = FileSystem.get(uri, configuration, user);
        // 在 Java 中，每个对象都有一个 getClass() 方法，它返回对象所属的类的 Class 对象。
        // 然后，可以调用 Class 对象的 getName() 方法来获取类的全限定名（包括包名和类名）。
        System.out.println(fs.getClass().getName());
        // 关闭资源
        fs.close();
    }*/
}

ClassPath下的用户自定义配置文件

参数优先级排序：（1）客户端代码中设置的值 >（2）ClassPath下的用户自定义配置文件 >（3）然后是服务器的自定义配置(xxx-site.xml) >（4）服务器的默认配置(xxx-default.xml)

3.3 HDFS文件上传

/**
 * 上传文件
 */
@Test
public void testCopyToLocalFile() throws IOException {
    //参数1 是否删除原文件
    //参数2 若HDFS中已存在同名文件，是否覆盖
    //参数3 本地原文件路径
    //参数4 hdfs目标路径
    fs.copyFromLocalFile(false, true, new Path("E:\\googleFile\\image.png"),new Path("/"));
}

3.4 HDFS文件下载

/**
 * 下载文件
 */
@Test
public void testCopyToLocalFile() throws IOException {
    //参数1 是否删除原文件
    //参数2 hdfs原文件路径
    //参数3 本地目标路径
    //参数4 是否开启文件校验（false 同时下载校验文件，true 仅下载原文件）
    fs.copyToLocalFile(false, new Path("/sanguo"), new Path("E:\\googleFile"), false);
}

3.5 HDFS删除文件和目录

/**
 * 删除文件或目录
 */
@Test
public void testDelete() throws IOException {
    //参数1 要删除文件的路径
    //参数2 是否递归删除
//        fs.delete(new Path("/sanguo/hello.txt"), true);// 仅删除hello.txt这个文件
    fs.delete(new Path("/sanguo"), true);// 删除sanguo文件夹以及其下的文件
}

3.6 HDFS文件更名和移动

/**
 * 文件的更名或移动
 */
@Test
public void testRename() throws IOException {
    // 移动文件
//        fs.rename(new Path("/hello.txt"), new Path("/sanguo"));
    // 更改文件名
    fs.rename(new Path("/sanguo/hello.txt"), new Path("/sanguo/hi.txt"));

}

3.7 HDFS文件详情查看

/**
* 查看文件详情
*/
@Test
public void testListFiles() throws IOException {
   //参数1 文件的路径
   //参数2 是否递归查看
   RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);
   while(listFiles.hasNext()){
       LocatedFileStatus fileStatus = listFiles.next();
       System.out.println("文件名："+fileStatus.getPath().getName());
       System.out.println("块大小："+fileStatus.getBlockSize());
       System.out.println("副本数："+fileStatus.getReplication());
       System.out.println("权限信息："+fileStatus.getPermission());
   }
}

3.8 HDFS文件和文件夹判断

/**
 * 判断是文件还是目录
 */
@Test
public void testListStatus() throws IOException {
    FileStatus[] listStatus = fs.listStatus(new Path("/"));
    for (FileStatus status : listStatus) {
        if (status.isDirectory()) {
            System.out.println("DIR：" + status.getPath().getName());
        } else {
            System.out.println("FILE：" + status.getPath().getName());
        }
    }
}

4 HDFS的数据流

4.1 HDFS写数据流程

4.1.1 剖析文件写入流程

客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件，NameNode 检查目标文件是否已存在，操作用户是否有权限。
NameNode返回是否可以上传。
客户端请求上传第一个 Block 并请求上传到哪几个 DataNode服务器上。
NameNode 返回3个 DataNode 节点，分别为 dn1、dn2、dn3。
客户端通过 FSDataOutputStream 模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。
dn3、dn2、dn1逐级应答客户端。
客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet（64KB）为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个Packet会放入一个应答队列等待应答。（每个packet又分为多个chunk）
当一个Block传输完成之后，客户端再次请求 NameNode上传第二个Block。（重复执行 3-7 步）。

4.1.2 机架感知（副本存储节点选择）

步骤 4 中，NameNode 根据请求返回 DataNode 节点的策略是什么？

如果当前客户端所在机器有 DataNode 节点，那就返回当前机器DN1，否则从集群中随机一台。根据第一台机器的位置，然后再其他机架上随机一台，在第二台机器所在机架上再随机一台。

目的是为了提高数据的可靠性，同时一定程度也保证数据传输的效率

机架：存放服务器的架子，也叫机柜。一般来说一个机房有很多机柜，每个机柜有很多服务器。

4.1.3 网络拓扑-节点距离计算

步骤 5 中，客户端为什么要串行建立通信管道？

在 Hadoop 中，最珍惜的资源莫过于内存和 IO。客户端串行建立通信管道，本质上就是为了降低客户端的IO开销。

步骤 5 中，客户端建立通信通道的时候如何确定和哪一台 DataNode 先建立连接？数据传输的时候如何保证数据成功？

客户端建立通信通道的时候会找离客户端最近（网络拓扑距离）的一台机器先建立通道。

数据传输的时候，采用了 ack 回执的策略保证了数据完整成功上传。

在 HDFS 写数据的过程中，NameNode 会选择距离待上传数据最近距离的 DataNode 接收数据。那么这个最近距离怎么计算呢？

节点距离：两个节点到达最近的共同祖先的距离总和。

例如，假设有数据中心 d1 机架 r1 中的节点 n1 。该节点可以表示为 /d1/r1/n1。利用这种标记，这里给出四种距离描述。

4.2 HDFS读数据流程

客户端通过 Distributed FileSystem 向 NameNode 请求下载文件，NameNode 通过查询元数据，找到文件块所在的 DataNode 地址。
挑选一台 DataNode（就近原则，然后随机）服务器，请求读取数据。
DataNode 开始传输数据（以块为单位）给客户端（从磁盘里面读取数据输入流，以 Packet 为单位来做校验）。
客户端以Packet为单位接收，先在本地缓存，然后写入目标文件。

5 NameNode、SecondaryNameNode

5.1 NN与2NN工作机制

第一阶段：NameNode启动
（1）第一次启动NameNode格式化后，创建Fsimage和Edits文件。如果不是第一次启动，直接加载Fsimage和Edits文件到内存。
（2）客户端对元数据进行增删改的请求。
（3）NameNode记录操作日志，更新滚动日志。
（4）NameNode在内存中对元数据进行增删改。
第二阶段：Secondary NameNode工作
（1）Secondary NameNode询问NameNode是否需要CheckPoint。直接带回NameNode是否检查结果。
（2）Secondary NameNode请求执行CheckPoint。
（3）NameNode滚动正在写的Edits日志。
（4）将滚动前的Fsimage和Edits文件拷贝到Secondary NameNode。
（5）Secondary NameNode加载Fsimage和Edits文件到内存，并合并。
（6）生成新的镜像文件fsimage.chkpoint。
（7）拷贝fsimage.chkpoint到NameNode。
（8）NameNode将fsimage.chkpoint重新命名成fsimage。

NN和2NN工作机制详解：

NameNode 启动时，先滚动 Edits 并生成一个空的 edits.inprogress，然后加载 Edits 和 Fsimage 到内存中，此时 NameNode 内存就持有最新的元数据信息。Client 开始对 NameNode 发送元数据的增删改的请求，这些请求的操作首先会被记录到edits.inprogress 中（查询元数据的操作不会被记录在 Edits 中，因为查询操作不会更改元数据信息），如果此时 NameNode 挂掉，重启后会从 Edits 中读取元数据的信息。然后，NameNode会在内存中执行元数据的增删改的操作。

由于Edits中记录的操作会越来越多，Edits文件会越来越大，导致NameNode在启动加载Edits时会很慢，所以需要对Edits和Fsimage进行合并（所谓合并，就是将Edits和Fsimage加载到内存中，照着Edits中的操作一步步执行，最终形成新的Fsimage）。SecondaryNameNode的作用就是帮助NameNode进行Edits和Fsimage的合并工作。

SecondaryNameNode首先会询问NameNode是否需要CheckPoint（触发CheckPoint需要满足两个条件中的任意一个，定时时间到和Edits中数据写满了）。直接带回NameNode是否检查结果。SecondaryNameNode执行CheckPoint操作，首先会让NameNode滚动Edits并生成一个空的edits.inprogress，滚动Edits的目的是给Edits打个标记，以后所有新的操作都写入edits.inprogress，其他未合并的Edits和Fsimage会拷贝到SecondaryNameNode的本地，然后将拷贝的Edits和Fsimage加载到内存中进行合并，生成fsimage.chkpoint，然后将fsimage.chkpoint拷贝给NameNode，重命名为Fsimage后替换掉原来的Fsimage。NameNode在启动时就只需要加载之前未合并的Edits和Fsimage即可，因为合并过的Edits中的元数据信息已经被记录在Fsimage中。

5.2 Fsimage和Edits解析

Fsimage：NameNode内存中元数据序列化后形成的文件。
Edits：记录客户端更新元数据信息的每一步操作（可通过Edits运算出元数据）

NameNode 中的元数据是存储在哪里的？

首先，我们做个假设，如果存储在 NameNode 节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断电，元数据丢失，整个集群就无法工作了。最终的解决方案： 磁盘 + 内存。因此，产生在磁盘中备份元数据的 FsImage。

内存中的元数据和磁盘中的元数据如何进行同步？（元数据的维护策略）

这样又会带来新的问题，当在内存中的元数据更新时，如果同时更新 FsImage，就会导致效率过低，但如果不更新，就会发生一致性问题，一旦NameNode节点断电，就会产生数据丢失。因此，引入Edits文件(只进行追加操作，效率很高)。每当元数据有更新或者添加元数据时，修改内存中的元数据并追加到Edits中。这样，一旦NameNode节点断电，可以通过FsImage和Edits的合并，合成元数据。

谁负责FsImage和Edits的合并?

SecondaryNamenode会检测本地时间，每隔1个小时会主动对NameNode的FsImage和Edits文件进行一次合并（定期进行FsImage和Edits的合并）。合并的时候，首先会通知NameNode，这时候NameNode就会停止对正在使用的Edits文件的追加，同时会新建一个新的Edits日志文件，保证NameNode的正常工作。接下来SecondaryNamenode 会把NameNode本地的FsImage和Edits文件拉取SecondaryNamenode的本地，在内存中对二者进行合并，最后产生最新FsImage文件。把最新的FsImage文件再发送给NameNode的本地。注意还有一个情况，当NameNode的Edits文件中的操作次数累计达到100万次，即便还没到1小时，SecondaryNamenode（每隔60秒会检测一次NameNode的Edits文件的操作次数）也会进行合并。 SecondaryNamenode 也会自己把最新的FsImage文件备份一份。

找到NameNode元数据的存放位置

[huwei@hadoop101 ~]$ cd /opt/module/hadoop-3.1.3/data/dfs/name/current/
[huwei@hadoop101 current]$ ll

找到SecondaryNamenode 元数据的存放位置

[huwei@hadoop103 ~]$ cd /opt/module/hadoop-3.1.3/data/dfs/namesecondary/current/
[huwei@hadoop103 current]$ ll

可以发现，NameNode元数据和SecondaryNamenode 元数据信息基本一致，但SecondaryNamenode没有正在使用编辑日志文件以及 seen_txid文件，所以当元数据丢失，通过SecondaryNamenode 去恢复，是不能保证万无一失的恢复过来的（尤其是当NameNode正在使用编辑日志文件已经记录了一些操作）

主要文件介绍：

Fsimage文件：HDFS文件系统元数据的一个永久的检查点，其中会包含HDFS文件系统所有的目录和文件 inode 的序列化信息；
Edits文件：存放HDFS文件系统的所有更新操作的路径，文件系统客户端执行的所有写操作首先会被记录到该文件中
seen_txid文件：文件中保存的是一个数字，就是最后一个edits_的数字

oiv 查看 Fsimage 文件

基本语法

hdfs oiv -p 文件类型 -i 镜像文件 -o 转换后文件输出路径

将 Fsimage 文件转为 xml 文件

[huwei@hadoop101 current]$ hdfs oiv -p XML -i fsimage_0000000000000000252 -o fsimage.xml

oev 查看Edits文件

基本语法

hdfs oev -p 文件类型 -i 编辑日志 -o 转换后文件输出路径

[huwei@hadoop101 current]$ hdfs oev -p XML -i edits_inprogress_0000000000000000269 -o edits.xml

5.3 CheckPonit时间设置

[hdfs-default.xml]文件中设置了 CheckPonit

（1）通常情况下，SecondaryNameNode每隔一小时执行一次。

<property>
  <name>dfs.namenode.checkpoint.periodname>
  <value>3600svalue>
property>

（2）一分钟检查一次操作次数，当操作次数达到1百万时，SecondaryNameNode执行一次。

<property>
  <name>dfs.namenode.checkpoint.txnsname>
  <value>1000000value>
<description>操作动作次数description>
property>

<property>
  <name>dfs.namenode.checkpoint.check.periodname>
  <value>60svalue>
<description> 1分钟检查一次操作次数description>
property >

5.4 NameNode故障处理

NameNode 故障后，可以采用如下方法恢复数据。

将SecondaryNameNode中数据拷贝到NameNode存储数据的目录

（1）杀死NameNode进程

kill -9  NameNode进程号

（2）删除NameNode存储的数据（/opt/module/hadoop-3.1.3/data/dfs/name/current）

[huwei@hadoop101 ~]$ rm -rf /opt/module/hadoop-3.1.3/data/dfs/name/current/*

（3）拷贝SecondaryNameNode中数据到原NameNode存储数据目录

[huwei@hadoop103 current]$ scp -r ./* huwei@hadoop101:/opt/module/hadoop-3.1.3/data/dfs/name/current

（4）重新启动NameNode

[huwei@hadoop101 ~]$ hdfs --daemon start namenode

5.5 集群安全模式

5.6 NameNode多目录配置

NameNode的本地目录可以配置成多个，且每个目录存放内容相同，增加了可靠性

（1）在 hdfs-site.xml 文件中添加如下内容

[huwei@hadoop101 ~]$ cd /opt/module/hadoop-3.1.3/etc/hadoop

<property>
	<name>dfs.namenode.name.dirname>
	<value>file://${hadoop.tmp.dir}/dfs/name1,file://${hadoop.tmp.dir}/dfs/name2value>
property>

（2）停止集群，删除三台节点的data和logs中所有数据

[huwei@hadoop101 hadoop-3.1.3]$ rm -rf data/ logs/
[huwei@hadoop102 hadoop-3.1.3]$ rm -rf data/ logs/
[huwei@hadoop103 hadoop-3.1.3]$ rm -rf data/ logs/

（3）格式化集群并启动

[huwei@hadoop101 hadoop-3.1.3]$ hdfs namenode –format
[huwei@hadoop101 hadoop-3.1.3]$ start-dfs.sh

（4）查看结果

[huwei@hadoop101 dfs]$ ll
drwx------. 3 huwei huwei 4096 10月 25 19:28 data
drwxrwxr-x. 3 huwei huwei 4096 10月 25 19:28 name1
drwxrwxr-x. 3 huwei huwei 4096 10月 25 19:28 name2

6 DataNode

6.1 DataNode 工作机制

DataNode 工作机制：

一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。
DataNode 启动后向 NameNode 注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。
心跳是每 3秒一次，心跳返回结果带有 NameNode 给该DataNode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟30秒没有收到某个DataNode的心跳，则认为该节点不可用。
集群运行中可以安全加入和退出一些机器。

6.2 数据完整性

思考：如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号（1）和绿灯信号（0），但是存储该数据的磁盘坏了，一直显示是绿灯，是否很危险？同理DataNode节点上的数据损坏了，却没有发现，是否也很危险，那么如何解决呢？

如下是DataNode节点保证数据完整性的方法。
（1）当DataNode读取Block的时候，它会计算CheckSum。
（2）如果计算后的CheckSum，与Block创建时值不一样，说明Block已经损坏。
（3）Client读取其他DataNode上的Block。
（4）常见的校验算法 crc（32），md5（128），sha1（160）
（5）DataNode在其文件创建后周期验证CheckSum。

6.3 掉线时限参数设置

需要注意的是`hdfs-site.xml` 配置文件中的`heartbeat.recheck.interval`的单位为**毫秒**，`dfs.heartbeat.interval`的单位为**秒**。

<property>
    <name>dfs.namenode.heartbeat.recheck-intervalname>
    <value>300000value>
property>
<property>
    <name>dfs.heartbeat.intervalname>
    <value>3value>
property>

6.4 服役新数据节点

随着公司业务的增长，数据量越来越大，原有的数据节点的容量已经不能满足存储数据的需求，需要在原有集群基础上动态添加新的数据节点。

环境准备

在hadoop103主机上再克隆一台hadoop104主机
修改IP地址和主机名称（重启生效）
删除原来HDFS文件系统留存的文件（/opt/module/hadoop-3.1.3/data和logs）
- 不删的话，持续刷新HDFS的web界面时可以发现hadoop103和hadoop104交替出现，因为hadoop104是通过hadoop103克隆出来的

[huwei@hadoop104 hadoop-3.1.3]$ rm -rf data logs

在 hadoop104 上启动 datanode，此时要么重新配置 etc/hadoop/workers添加hadoop104 ，要么在hadoop104单独启动 datanode，数据信息都是一样的，NameNode会认为二者是同一个

[huwei@hadoop104 ~]$ hdfs --daemon start datanode

此时在HDFS的web界面可以看到4个datanode

6.5 退役旧数据节点

6.5.1 添加白名单和黑名单

白名单和黑名单是 hadoop 管理集群主机的一种机制。

添加到白名单的主机节点，都允许访问 NameNode，不在白名单的主机节点，都会被退出。添加到黑名单的主机节点，不允许访问 NameNode，会在数据迁移后退出。
实际情况下，白名单用于确定允许访问 NameNode的 DataNode节点，内容配置一般与workers文件内容一致。黑名单用于在集群运行过程中退役 DataNode节点。

配置白名单和黑名单的具体步骤如下：

（1）在NameNode节点的/opt/module/hadoop-3.1.3/etc/hadoop目录下分别创建whitelist 和blacklist文件

[huwei@hadoop101 ~]$ cd /opt/module/hadoop-3.1.3/etc/hadoop
[huwei@hadoop101 hadoop]$ touch whitelist
[huwei@hadoop101 hadoop]$ touch blacklist

在whitelist中添加如下主机名称，假如集群正常工作的节点为 101 102 103 104

hadoop101
hadoop102
hadoop103
hadoop104

黑名单暂时为空。

（2）在当前目录下的 hdfs-site.xml 配置文件中增加 dfs.hosts和 dfs.hosts.exclude配置参数


<property>
<name>dfs.hostsname>
<value>/opt/module/hadoop-3.1.3/etc/hadoop/whitelistvalue>
property>

<property>
<name>dfs.hosts.excludename>
<value>/opt/module/hadoop-3.1.3/etc/hadoop/blacklistvalue>
property>

（3）分发配置文件whitelist，blacklist，hdfs-site.xml （注意：104节点也要发一份）

[huwei@hadoop101 hadoop]$ xsync ./
[huwei@hadoop101 hadoop]$ rsync -av ./ huwei@hadoop104:/opt/module/hadoop-3.1.3/etc/hadoop/

（4）重新启动集群（注意：104节点没有添加到workers，因此要单独起停）

[huwei@hadoop101 ~]$ stop-dfs.sh
[huwei@hadoop101 ~]$ start-dfs.sh
[huwei@hadoop104 ~]$ hdfs --daemon start datanode

（5）在web浏览器上查看目前正常工作的DN节点

6.5.2 黑名单退役

（1）编辑/opt/module/hadoop-3.1.3/etc/hadoop目录下的blacklist文件

[huwei@hadoop101 hadoop]$ vim blacklist

添加如下主机名称（要退役的节点）

hadoop104

（2）分发blacklist到所有节点

[huwei@hadoop101 hadoop]$ xsync ./
[huwei@hadoop101 hadoop]$ rsync -av ./ huwei@hadoop104:/opt/module/hadoop-3.1.3/etc/hadoop/

（3）刷新NameNode

[huwei@hadoop101 hadoop]$ hdfs dfsadmin -refreshNodes

（4）检查Web浏览器，退役节点的状态为Decommissioning（退役中），说明数据节点正在复制块到其他节点

（5）等待退役节点状态为decommissioned（已退役，所有块已经复制完成），停止该节点及节点资源管理器。

注意：如果副本数是3，服役的节点小于等于3，是不能退役成功的，需要修改副本数后才能退役

注意：不允许白名单和黑名单中同时出现同一个主机名称，既然使用了黑名单blacklist成功退役了hadoop104节点，因此要将白名单whitelist里面的hadoop104去掉。

6.6 DataNode多目录配置

DataNode可以配置成多个目录，每个目录存储的数据不一样。即：数据不是副本

（1）在hdfs-site.xml文件中添加如下内容

<property>
        <name>dfs.datanode.data.dirname>
        <value>file://${hadoop.tmp.dir}/dfs/data1,file://${hadoop.tmp.dir}/dfs/data2value>
property>

（2）停止集群，删除三台节点的data和logs中所有数据。

[huwei@hadoop101 hadoop-3.1.3]$ rm -rf data/ logs/
[huwei@hadoop102 hadoop-3.1.3]$ rm -rf data/ logs/
[huwei@hadoop103 hadoop-3.1.3]$ rm -rf data/ logs/

（3）格式化集群并启动

[huwei@hadoop101 hadoop-3.1.3]$ hdfs namenode –format
[huwei@hadoop101 hadoop-3.1.3]$ start-dfs.sh

（4）查看结果

[huwei@hadoop101 dfs]$ ll
drwx------. 3 huwei huwei 4096 10月 25 19:57 data1
drwx------. 3 huwei huwei 4096 10月 25 19:57 data2
drwxrwxr-x. 3 huwei huwei 4096 10月 25 19:28 name1
drwxrwxr-x. 3 huwei huwei 4096 10月 25 19:28 name2

你可能感兴趣的:(#,大数据,大数据,笔记,hdfs,java)

10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
为什么你总是对下属不满意? ZhaoWu1050
【ZhaoWu的听课笔记】大多数公司，都存在两种问题。我创业四年，更是体会深切。这两种问题就是：老板经常不满意下属的表现；下属总是不知道老板想要什么；虽然这两种问题普遍存在，其实解决方法并不复杂。这节课，我们再聊聊第一个问题：为什么老板经常不满意下属表现?其实，这背后也是一条管理常识。管理学家德鲁克先生早就说过：管理者的任务，不是去改变人。*来自《卓有成效的管理者》只是大多数老板和我一样，都是一边
母亲节如何做小红书营销美橙传媒
小红书的一举一动引起了外界的高度关注。通过爆款笔记和流行话题，我们可以看到“干货”类型的内容在小红书中偏向实用的生活经验共享和生活指南非常受欢迎。根据运营社的分析，这种现象是由小红书用户心智和内容社区背后机制共同决定的。首先，小红书将使用“强搜索”逻辑为用户提供特定的“搜索场景”。在“我必须这样生活”中，大量使用了满足小红书站用户喜好和需求的内容。内容社区自制的高质量内容也吸引了寻找营销新途径的品
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
读书笔记|《遇见孩子，遇见更好的自己》5 抹茶社长
为人父母意味着放弃自己的过去，不要对以往没有实现的心愿耿耿于怀，只有这样，孩子们才能做回自己。985909803.jpg孩子在与父母保持亲密的同时更需要独立，唯有这样，孩子才会成为孩子，父母才会成其为父母。有耐心的人生往往更幸福，给孩子留点余地。认识到养儿育女是对耐心的考验。为失败做好心理准备，教会孩子控制情绪。了解自己的底线，说到底线，有一点很重要，父母之所以发脾气，真正的原因往往在于他们自己，
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/