3.hadoop系列之HDFS架构及文件上传下载

本文我们学习Hadoop中HDFS架构、优缺点、文件块大小、通过shell命令文件上传下载

1. HDFS使用场景

适合一次写入,多次读取。一个文件经过创建、写入和关闭之后就不需要改变

2. HDFS优缺点
2.1 HDFS优点
  • 高容错性
    • 数据自动保存多个副本。通过增加副本的形式,提高容错性
    • 某一个副本丢失后可以自动恢复
  • 适合处理大数据
    • 数据规模:能够处理数据规模达到GB、TB、甚至PB级别的数据
    • 文件规模:能够处理百万规模以上的文件数量
  • 可构建在廉价机器上,通过多副本机制,提高可靠性
2.2 HDFS缺点
  • 不适合低延时数据访问,比如毫秒级的存储数据无法做到
  • 无法高效的对大量小文件进行存储
    • 存储大量小文件的话,会占用NameNode大量内存来存储文件目录和块信息,这样不可取,NameNode的内存总是有限的
    • 小文件存储的寻址时间会超过读取时间,违反HDFS设计目标
  • 不支持并发写入、文件随机修改
    • 一个文件只能有一个写,不允许多个线程同时写
    • 仅支持数据追加append,不支持文件的随机修改
3. HDFS架构

3.hadoop系列之HDFS架构及文件上传下载_第1张图片

  • NameNode(nn):就是Master
    • 管理HDFS的名称空间
    • 配置副本策略
    • 管理数据块(Block)映射信息
    • 处理客户端读写请求
  • DataNode:就是Slave,NameNode下达命令,DataNode执行实际的操作
    • 存储实际的数据块
    • 执行数据块的读写操作
  • Secondary Node:并非NameNode的热备,当NodeNode挂掉的时候,它并不能马上替换NanmeNode并提供服务
    • 辅助NameNode,分担其工作量,比如定期合并Fsimage和Edits(这两个后面文章会详细说明),并推送给NameNode
    • 在紧急情况下,可辅助恢复NameNode
  • Client:就是客户端
    • 文件切分。文件上传HDFS的时候,Client将文件切分成一个个文件块Block,然后进行上传
    • 与NameNode交互,获取文件的位置信息
    • 与DataNode交互,写入或读取数据
    • Client提供一些命令来管理HDFS,比如NameNode格式化
    • Client提供一些命令来访问HDFS,比如HDFS增删改查操作
4. HDFS文件块大小

HDFS中文件在物理上是分块存储(Block),块的大小通过配置参数dfs.blocksize控制,默认大小是128M

  • 如果寻址时间为10ms,即查找到目标block的时间为10ms
  • 寻址时间为传输时间的1%时,则为最佳状态[专家],因为传输时间为10ms/0.01=1000ms=1s
  • 目前磁盘的传输速率普遍为100MB/S
  • Block大小=1s*100MB/S=100MB,所以默认块大小在100M左右
为什么块的大小不能设置太小,也不能设置太大?
  • HDFS块设置太小,会增加寻址时间,程序一直在找块的开始位置
  • HSFS块设置太大,磁盘传输时间明显大于寻址时间,程序处理块时会非常慢
  • 总结:HDFS块的大小设置主要取决于磁盘传输时间
5. HDFS文件上传与下载
  • 我们访问之前部署的datanode节点http://localhost:9870/,图示内容为部署后自带的文件

3.hadoop系列之HDFS架构及文件上传下载_第2张图片

  • 我们进入namenode容器中,进行shell相关命令操作
// 创建目录/shenjian
# hadoop fs -mkdir /shenjian
# echo '算法小生' > wechat_upload.txt
// 上传文件
# hadoop fs -put wechat_upload.txt /shenjian
2023-01-02 10:51:48,467 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
// 下载文件
# hadoop fs -get /shenjian/wechat_upload.txt wechat_download.txt 
2023-01-02 10:52:14,348 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
# cat wechat_download.txt
算法小生

3.hadoop系列之HDFS架构及文件上传下载_第3张图片

  • 我们尝试追加文件
# hadoop fs -appendToFile wechat_download.txt /shenjian/wechat_upload.txt
2023-01-02 11:11:12,480 WARN hdfs.DataStreamer: DataStreamer Exception
java.io.IOException: Failed to replace a bad datanode on the existing pipeline due to no more good datanodes being available to try. (Nodes: current=[DatanodeInfoWithStorage[172.29.0.2:9866,DS-1e5040af-3a7b-47f3-8f18-1c1ec13464d3,DISK]], original=[DatanodeInfoWithStorage[172.29.0.2:9866,DS-1e5040af-3a7b-47f3-8f18-1c1ec13464d3,DISK]]). The current failed datanode replacement policy is DEFAULT, and a client may configure this via 'dfs.client.block.write.replace-datanode-on-failure.policy' in its configuration.
        at org.apache.hadoop.hdfs.DataStreamer.findNewDatanode(DataStreamer.java:1304)
        at org.apache.hadoop.hdfs.DataStreamer.addDatanode2ExistingPipeline(DataStreamer.java:1372)
        at org.apache.hadoop.hdfs.DataStreamer.handleDatanodeReplacement(DataStreamer.java:1598)
        at org.apache.hadoop.hdfs.DataStreamer.setupPipelineInternal(DataStreamer.java:1499)
        at org.apache.hadoop.hdfs.DataStreamer.setupPipelineForAppendOrRecovery(DataStreamer.java:1481)
        at org.apache.hadoop.hdfs.DataStreamer.run(DataStreamer.java:720)
appendToFile: Failed to replace a bad datanode on the existing pipeline due to no more good datanodes being available to try. (Nodes: current=[DatanodeInfoWithStorage[172.29.0.2:9866,DS-1e5040af-3a7b-47f3-8f18-1c1ec13464d3,DISK]], original=[DatanodeInfoWithStorage[172.29.0.2:9866,DS-1e5040af-3a7b-47f3-8f18-1c1ec13464d3,DISK]]). The current failed datanode replacement policy is DEFAULT, and a client may configure this via 'dfs.client.block.write.replace-datanode-on-failure.policy' in its configuration

我们在上图中可以看到,副本数是3,而我们只启动了1个datanode节点,所以会写入失败,我们本地开发关闭即可,修改hadoop.env中HDFS配置文件,新增配置后重启

# 会写入容器文件/opt/hadoop-3.2.1/etc/hadoop/hdfs-site.xml替换为dfs.client.block.write.replace-datanode-on-failure.policy=NEVER

HDFS_CONF_dfs_client_block_write_replace___datanode___on___failure_policy=NEVER

3.hadoop系列之HDFS架构及文件上传下载_第4张图片

再次追加

# echo 'shenjian' > test.txt
# hadoop fs -appendToFile test.txt /shenjian/wechat_upload.txt
2023-01-02 11:47:46,448 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
# 查看文件末尾,OK追加成功
# hadoop fs -tail /shenjian/wechat_upload.txt
2023-01-02 11:49:17,188 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
算法小生 
shenjian

欢迎关注公众号算法小生

你可能感兴趣的:(大数据,hadoop,hdfs,架构)