Hadoop异构存储(冷热数据分离)

目录

简介

 存储类型

 存储策略

 修改hdfs-site.xml

 异构存储Shell操作

 给某个文件夹进行降温(ALL_SSD -> WARM)


简介

异构存储主要解决,不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。

        Hadoop异构存储是指在Hadoop集群中,使用不同种类的存储设备来存储数据。通常情况下,Hadoop集群中的所有节点都使用相同的存储设备,如硬盘或固态硬盘。但是,在某些情况下,使用异构存储可以提高集群的性能和容量。

        异构存储可以包括不同类型的存储设备,如硬盘、固态硬盘、闪存驱动器、云存储等。使用异构存储可以根据数据的访问模式和访问频率来选择最适合的存储设备,从而提高数据的访问速度和可靠性。

        在Hadoop中,异构存储可以通过使用不同的数据块副本策略来实现。例如,可以将热数据存储在固态硬盘上,而将冷数据存储在廉价的硬盘上,以实现更高的性能和更低的成本。

 存储类型

Hadoop异构存储(冷热数据分离)_第1张图片

 存储策略

Hadoop异构存储(冷热数据分离)_第2张图片

 修改hdfs-site.xml

1)测试环境描述

服务器规模:5台

集群配置:副本数为2,创建好带有存储类型的目录(提前创建)

集群规划:

节点

存储类型分配

hadoop102

RAM_DISK,SSD

hadoop103

SSD,DISK

hadoop104

DISK,RAM_DISK

hadoop105

ARCHIVE

hadoop106

ARCHIVE

2)配置文件信息

(1)为hadoop102节点的hdfs-site.xml添加如下信息



    dfs.replication

    2





    dfs.storage.policy.enabled

    true





    dfs.datanode.data.dir

    [SSD]file:///opt/module/hadoop-3.1.3/ hdfsStoragePolicy/ssd,[RAM_DISK]file:///opt/module/hadoop-3.1.3/hdfsStoragePolicy/ram_disk

(2)为hadoop103节点的hdfs-site.xml添加如下信息



    dfs.replication

    2





    dfs.storage.policy.enabled

    true





    dfs.datanode.data.dir

    [SSD]file:///opt/module/hadoop-3.1.3/hdfsStoragePolicy/ssd,[DISK]file:///opt/module/hadoop-3.1.3/hdfsStoragePolicy/disk

(3)为hadoop104节点的hdfs-site.xml添加如下信息



    dfs.replication

    2





    dfs.storage.policy.enabled

    true





    dfs.datanode.data.dir

[RAM_DISK]file:///opt/module/hdfsStoragePolicy/ram_disk,[DISK]file:///opt/module/hadoop-3.1.3/hdfsStoragePolicy/disk

(4)为hadoop105节点的hdfs-site.xml添加如下信息



    dfs.replication

    2





    dfs.storage.policy.enabled

    true





    dfs.datanode.data.dir

    [ARCHIVE]file:///opt/module/hadoop-3.1.3/hdfsStoragePolicy/archive

(5)为hadoop106节点的hdfs-site.xml添加如下信息



    dfs.replication

    2





    dfs.storage.policy.enabled

    true





    dfs.datanode.data.dir

    [ARCHIVE]file:///opt/module/hadoop-3.1.3/hdfsStoragePolicy/archive

 异构存储Shell操作

(1)查看当前有哪些存储策略可以用

hdfs storagepolicies -listPolicies

Hadoop异构存储(冷热数据分离)_第3张图片

 

(2)为指定路径(数据存储目录)设置指定的存储策略

hdfs storagepolicies -setStoragePolicy -path xxx -policy xxx

 

 

(3)获取指定路径(数据存储目录或文件)的存储策略

hdfs storagepolicies -getStoragePolicy -path xxx

 

 

(4)取消存储策略;执行改命令之后该目录或者文件,以其上级的目录为准,如果是根目录,那么就是HOT

hdfs storagepolicies -unsetStoragePolicy -path xxx

(5)查看文件块的分布

bin/hdfs fsck xxx -files -blocks -locations

Hadoop异构存储(冷热数据分离)_第4张图片 

 给某个文件夹进行降温(ALL_SSD -> WARM)

刚刚给 /hdfsStoragePolicy/ssd 设置了 ALL_SSD 热度,修改为 WARM

hdfs storagepolicies -setStoragePolicy -path /hdfsStoragePolicy/ssd -policy WARM

Hadoop异构存储(冷热数据分离)_第5张图片

 修改热度之后文件存储路径和存储策略没有变化,需要手动移动

HDFS按照存储策略自行移动文件块

hdfs mover /hdfsStoragePolicy

Hadoop异构存储(冷热数据分离)_第6张图片

(6)查看集群节点信息

hdfs dfsadmin  -report
Configured Capacity: 386349957120 (359.82 GB)
Present Capacity: 331424324790 (308.66 GB)
DFS Remaining: 331418816512 (308.66 GB)
DFS Used: 5508278 (5.25 MB)
DFS Used%: 0.00%
Replicated Blocks:
	Under replicated blocks: 0
	Blocks with corrupt replicas: 0
	Missing blocks: 0
	Missing blocks (with replication factor 1): 0
	Low redundancy blocks with highest priority to recover: 0
	Pending deletion blocks: 0
Erasure Coded Block Groups: 
	Low redundancy block groups: 0
	Block groups with corrupt internal blocks: 0
	Missing block groups: 0
	Low redundancy blocks with highest priority to recover: 0
	Pending deletion blocks: 0

-------------------------------------------------
...

你可能感兴趣的:(大数据,hadoop,大数据,分布式)