20200513大数据笔记

[-safemode ]

安全模式。 写不可以。读可以

hdfs dfsadmin -safemode enter
hdfs dfsadmin -safemode leave

错误: Name node is in safe mode.
什么时候会安全模式:
1.hdfs故障  nn log日志 
根据错误去看看尝试能不能解决,和尝试先手动让他你看安全模式
2.业务场景

各个DN节点的数据平衡
# Start balancer daemon.

"$HADOOP_PREFIX"/sbin/hadoop-daemon.sh --config $HADOOP_CONF_DIR --script "$bin"/hdfs start balancer $@

[hadoop@ruozedata001 sbin]$ ./start-balancer.sh
默认是10  threshold = 10.0

[hadoop@ruozedata001 sbin]$ ./start-balancer.sh -threshold 10.0

每个节点的磁盘使用率-平均的磁盘使用率< 10%

90+60+80=230/3=76%


90-76=14    76-76=0
60-76=-16   78-76=2
80-76=4     76-76=0


生产上 从现在开始,./start-balancer.sh -threshold 10.0  
放到业务低谷比如凌晨 去做平衡操作
定时每天的

调整平衡的网络带宽  ,hdfs-site.xml文件
dfs.datanode.balance.bandwidthPerSec 10m-->50m

单个DN的多块磁盘的数据均衡
a.在投产前规划  这个DN机器上 10块磁盘  2T 不做raid==》20T
就配置多个磁盘

 
        dfs.datanode.data.dir
        /data01,/data02,/data03
 

  为什么要用多块物理磁盘 ?
  多个磁盘的 IO的 叠加的 
  1s:30m

  只有一个磁盘 3s


  性价比最高的  2.5英寸 1W  2T

  规划2年存储空间  

 b.第一个月 1个磁盘 500G 已经使用480G 
   第二个月 新增一个磁盘 2T  

   480G--》 /data02  ;软连接 指向/data01
   /data01就空了  

c. 第一个月 1个磁盘 500G 已经使用480G 
   第二个月 新增一个磁盘 500G   

   如何多个磁盘 均衡数据?

http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.16.2/

hadoop-2.6.0-cdh5.16.2  dfs.disk.balancer.enabled 

apache hadoop 3.x  dfs.disk.balancer.enabled
apache hadoop 2.10 找不到 

生产上Apache环境 只有3.x版本才支持,但是大部分小伙伴公司是2.x
所以这个特性用不了!!!


 
        dfs.disk.balancer.enabled
        true
 


20/05/12 23:25:48 INFO command.Command: No plan generated. 
DiskBalancing not needed for node: ruozedata001 threshold used: 10.0


hdfs diskbalancer  -plan ruozedata001 
生成 ruozedata001.plan.json 文件

hdfs diskbalancer -execute ruozedata001.plan.json  执行
hdfs diskbalancer  -query ruozedata001 
 

你可能感兴趣的:(大数据之路)