hadoop优化

  1. hadoop 分散磁盘I/O

    配置 dfs.data.dir,将其值配置为多块磁盘

    <key>dfs.data.dir</key>

    <value>/data/data1,/data/data2,/data/data3</value>

    ####假设多块磁盘被挂在以上目录中

2.  mapreduce中间数据临时文件分散写

    老的配置参数为,mapred.local.dir,新配置待查。

3.  以noatime和nodiratime方式装载磁盘

    #atime:linux中文件在创建、修改、访问的时候会更新时间信息,是一笔很大的资源开销。

    #diratime:每一次访问需要更新inode在文件系统中的访问时间。


    设置:

    #1:卸载磁盘

    #2:修改

    vi /etc/fstab

    /dev/xvdc  /mnt/is1  ext3  defaults,noatime,nodiratime 0 0

    /dev/xvdd  /mnt/is2  ext3  defaults,noatime,nodiratime 0 0

    #3:重新挂载


4.  取消特权块空间

    默认情况下,会保留一些文件块供特权进程使用,为防止用户进程将空间占满,使得系统进程饿死。

    因为我们的集群就是使用hadoop,所以可以降低这些块的百分比。


5.  vm.swappiness

    该参数用来定义将内存页交换到磁盘中的主动程序,值越低表示交换频率越低。

    如果交换频率过高,会导致regionserver进程因为zookeeper会话超时而被强制终止。



你可能感兴趣的:(hadoop,优化)