夜间沐水人

Hadoop三大组件之Yarn

本文主要介绍了Hadoop三大组件之Yarn的一些知识。

文章目录

- 一、概述
- 二、Yarn的基础架构
- 三、Yarn的工作机制图解
- 四、Yarn调度器
- - 容量调度器：Yarn的默认调度器（yarn-default.xml）。
  - - - 参数配置：
      - 容量调度器特点：
      - 容量调度器资源分配算法：
  - 公平调度器：对资源的分配要求绝对公平。
  - - - 1、公平调度器特点：
      - 2、公平调度器资源分配算法：优先选择对资源缺额比较大的任务分配资源，在某一个时刻，某一个任务应分配到的资源与实际上所需要的资源的差值叫做缺额。
  - FIFO调度器：按照到达时间排序，先到先执行。
- 五、Yarn常用命令
- 六、Yarn核心参数优化配置
- 七、Yarn多队列
- - 案例1：
  - - 修改：
    - 验证：
    - 提交任务到hive队列：
    - 设置任务优先级，默认为0，关闭了任务优先级，本集群中设置为5，表示由5个优先级：
- 八、生产调优：
- - datanode、namenode内存调优
  - datanode和namenode的并发心跳设置
  - 开启回收站功能
  - 配置datanode多目录
  - 配置namenode多目录
  - 磁盘之间数据均衡
  - 服役/退役新的机器节点：
  - 集群安全模式
  - 小文件优化
  - 数据倾斜问题：
  - 集群迁移：
  - MapReduce调优：

一、概述

Yarn是Hadoop的一个资源管理器，是一个资源协调者角色。Yarn的基本思想是将JobTracker的两个主要功能（资源管理和作业调度/监控）分离，在早期的版本中，资源管理和作业调度/监控由JobTracker全部承担，这将使得JobTracker的压力非常大。而Yarn的出现使得JobTracker的压力大大减少，使得资源调度更加变得分布式，统一化。

二、Yarn的基础架构

ResourceManager（RM）：RM是一个全局的资源管理器，负责整个系统的资源管理和分配。它主要由两个组件构成：调度器（Scheduler）和应用程序管理器（Applications Manager，ASM）。
1. 处理客户端请求。
2. 监控NodeManager。
3. 启动或者监控ApplicationMaster。
4. 资源的分配与调度。
NodeManager（NM）：NM是每个节点上的资源和任务管理器，它需要不断的是将自己所在节点上的资源情况和Container运行状态汇报到RM上，同时还需要处理来自AM的命令。
1. 管理单个节点上的资源。
2. 处理来自ResourceManager的命令。
3. 处理来自ApplicationMaster的命令。
ApplicationMaster：用户提交的每个应用程序均包含一个AM。
1. 为应运程序申请资源并分配给内部的任务。
2. 任务的监控与容错。
Contaioner：Container是一个动态资源分配单位，它将内存、CPU、磁盘、网络等资源封装在一起，从而限定每个任务使用的资源量。
1. Container是Yarn中的资源的抽象，它相当于是一台小型的机器，真正的运行任务的地方。

三、Yarn的工作机制图解

四、Yarn调度器

容量调度器：Yarn的默认调度器（yarn-default.xml）。
1. 参数配置：

容量调度器特点：

- 多队列：容量调度器底层多个调度队列，每个队列采用FIFO调度策略。
- 容量保证：每个队列可以设定资源下限和资源上限，以保证任务的执行。
- 灵活性：队列之间的资源可以共享。如果一个队列的资源有多余，可以暂时借给其他队列使用，但是一旦该队列需要时，其他队列必须归还资源，即该队列对这些资源具有绝对拥有权。
- 多用户：一个队列中可以存在多个用户提交的任务，并且可以为每个用户提交的任务设置资源上限，防止某个用户提交的任务将整个队列中的资源全消耗完。

容量调度器资源分配算法：

3.1、队列层级：采用深度优先算法，优先选择资源占用最低的队列分配资源。
3.2、作业层级：默认按照优先级和提交时间顺序分配资源。
3.3、按照容器的优先级分配资源，如果优先级相同，按照数据本地性原则分配资源：
- 任务和数据在同一节点上。
- 任务和数据在同一个机架上。

总结：思想就是让任务量最小的任务优先执行完，让出资源资源。

公平调度器：对资源的分配要求绝对公平。

1、公平调度器特点：

拥有容量调度器的特点。
每个队列可以单独设置资源分配方式。
优先选择对资源缺额比较大的任务分配资源。

2、公平调度器资源分配算法：优先选择对资源缺额比较大的任务分配资源，在某一个时刻，某一个任务应分配到的资源与实际上所需要的资源的差值叫做缺额。

2.1、队列层级：

第一次分配：100 / 3 = 33.33，queueA=33.33%（多13.33%），queueA=33.33%（少16.66%），queueA=33.33%（多3.33%）。

第二次分配：（13.33 + 3.33）/ 1 = 16.66，queueA=20%（33.33 - 13.33），queueA=50%（33.33 + 16.66），queueA=30%（33.33 - 3.33）。

2.2、作业层级：

a) 加权：假设总资源总共12个，有4个job，对资源的需求分别为：job1=1，job2=2，job3=6，job4=5。

第一次分配：12 / 4 = 3，job1=3（多2），job2=3（多1），job3=3（少3），job4=3（少2）

第二次分配：3 / 2 = 1.5，job1=1（3 - 2），job2=2（3 - 1），job3=4.5（3 + 1.5），job4=4.5（3 + 1.5）

……

第n次分配：直到最终没有多余的资源再继续分配。

b) 加权：假设总资源总共16个，有4个job，每个job是有权重的，括号内为job的权重比，对资源的需求分别为：job1(5)=4，job2(8)=2，job3(1)=10，job4(2)=4。

第一次分配：16 / (5 + 8 + 1 + 2) = 1，job1=5（5 * 1，多1），job2=8（8 * 1，多6），job3=1（1 * 1，少9），job4=2（2 * 1，少2）

第二次分配：（1 + 6） / (1 + 2) = 2.33，job1=4（5 - 1），job2=2（8 - 6），job3=3.33（1 + 1 * 2.33 ，少6.67），job4=6.66（2 + 2 * 2.33，多2.66）

第三次分配：（2.66） / (1 ) = 2.66，job1=4（5 - 1），job2=2（8 - 6），job3=5.99（3.33 + 1 * 2.66 ，少4.01），job4=4（6.66 - 2.66，多2.66）

……

第n次分配：直到最终没有多余的资源再继续分配。

FIFO调度器：按照到达时间排序，先到先执行。

五、Yarn常用命令

列出正在运行的任务： yarn application -list

查看对应状态的任务：yarn application -list -appStates ALL/NEW/NEW_SAVING/SUBMITTED/ACCEPTED/RUNNING/FINISHED/FAILED,KI LLED
杀死对应的某个任务：yarn application -kill application_1645869756054_0001

查看尝试运行的任务（包含containerId）：yarn applicationattempt -list application_1645869756054_0001
查看某个任务的日志：yarn logs -applicationId application_1645869756054_0001
查看某个任务中的某一个container运行的日志：yarn logs -applicationId application_1645869756054_0001 -containerId container_1645869756054_0001_01_000001
查看某一个尝试运行的任务的状态：yarn applicationattempt -status appattempt_1645869756054_0001_000001
查看正在运行的容器（必须在任务运行的时候，因为任务运行完成后，容器就被释放了）： yarn container -list appattempt_1645869756054_0001_000001
查看当前该容器的状态（必须在任务运行的时候，因为任务运行完成后，容器就被释放了）：yarn container -status container_1645869756054_0001_01_000001
查看当前所有的node节点信息：yarn node -list -all
重新加载队列相关配置（如果在运行过程中，更改了队列的相关配置，可以使用该命令）：yarn rmadmin -refreshQueues
查看队列的状态（yarn调度器都有一个默认的default队列）：yarn queue -status default

六、Yarn核心参数优化配置

ResourceManager处理客户端请求最大线程数，默认50。本集群因为只有3台机器，2个CPU，2线程。配置：3 * 2 = 6线程（总共6线程，去除其他的应用，最多配置2），

<property>
    <description>Number of threads to handle scheduler interface.</description>
    <name>yarn.resourcemanager.scheduler.client.thread-count</name>
    <value>2</value>
</property>

yarn调度器，默认容量调度器即可，本集群对并发量没有要求：

<property>
    <description>The class to use as the resource scheduler.</description>
    <name>yarn.resourcemanager.scheduler.class</name>
    <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
</property>

是否允许yarn开启硬件自动检测，比如自动检测内存、cpu等，默认关闭，本集群建议关闭，应为节点上不只运行ResourceManager，还有其他应用：

<property>
    <description>Enable auto-detection of node capabilities such as
    memory and CPU.
    </description>
    <name>yarn.nodemanager.resource.detect-hardware-capabilities</name>
    <value>false</value>
</property>

是否采用虚拟CPU核数，该参数针对集群配置不一致的情况，比如，集群中有一台机器是i7的，其他都是i3的，那么建议开启，并且每一台nodemanager上都需要配置该参数，默认关闭，本集群不存在这种情况，建议关闭，只采用物理CPU核数。

<property>
    <description>Flag to determine if logical processors(such as
    hyperthreads) should be counted as cores. Only applicable on Linux
    when yarn.nodemanager.resource.cpu-vcores is set to -1 and
    yarn.nodemanager.resource.detect-hardware-capabilities is true.
    </description>
    <name>yarn.nodemanager.resource.count-logical-processors-as-cores</name>
    <value>false</value>
</property>

虚拟核数配置，如果开启了采用虚拟CPU核数，那么这个参数作相应的更改（CPUs * multiplier），默认1：1。

<property>
    <description>Multiplier to determine how to convert phyiscal cores to
    vcores. This value is used if yarn.nodemanager.resource.cpu-vcores
    is set to -1(which implies auto-calculate vcores) and
    yarn.nodemanager.resource.detect-hardware-capabilities is set to true. The
    number of vcores will be calculated as
    number of CPUs * multiplier.
    </description>
    <name>yarn.nodemanager.resource.pcores-vcores-multiplier</name>
    <value>1.0</value>
 </property>

NodeManager内存配置，默认8G，本集群机器总共4G，建议修改为4G。

<property>
    <description>Amount of physical memory, in MB, that can be allocated 
    for containers. If set to -1 and
    yarn.nodemanager.resource.detect-hardware-capabilities is true, it is
    automatically calculated(in case of Windows and Linux).
    In other cases, the default is 8192MB.
    </description>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>4096</value>
</property>

NodeManager的cpu核数，默认8，本集群总共2，建议修改为2。

<property>
    <description>Number of vcores that can be allocated
    for containers. This is used by the RM scheduler when allocating
    resources for containers. This is not used to limit the number of
    CPUs used by YARN containers. If it is set to -1 and
    yarn.nodemanager.resource.detect-hardware-capabilities is true, it is
    automatically determined from the hardware in case of Windows and Linux.
    In other cases, number of vcores is 8 by default.</description>
    <name>yarn.nodemanager.resource.cpu-vcores</name>
    <value>2</value>
</property>

容器的最小内存，默认1G。本集群每台NodeManager总共4G，默认即可。

<property>
    <description>The minimum allocation for every container request at the RM
    in MBs. Memory requests lower than this will be set to the value of this
    property. Additionally, a node manager that is configured to have less memory
    than this value will be shut down by the resource manager.</description>
    <name>yarn.scheduler.minimum-allocation-mb</name>
    <value>1024</value>
</property>

容器的最大内存，默认8G。本集群每台NodeManager总共4G，建议修改为2G。

<property>
    <description>The maximum allocation for every container request at the RM
    in MBs. Memory requests higher than this will throw an
    InvalidResourceRequestException.</description>
    <name>yarn.scheduler.maximum-allocation-mb</name>
    <value>2048</value>
</property>

容器的最小cpu核数，默认1，本集群每台NodeManager总共2，默认即可。

<property>
    <description>The minimum allocation for every container request at the RM
    in terms of virtual CPU cores. Requests lower than this will be set to the
    value of this property. Additionally, a node manager that is configured to
    have fewer virtual cores than this value will be shut down by the resource
    manager.</description>
    <name>yarn.scheduler.minimum-allocation-vcores</name>
    <value>1</value>
</property>

容器的最小cpu核数，默认4，本集群每台NodeManager总共2，建议修改为1。

<property>
    <description>The maximum allocation for every container request at the RM
    in terms of virtual CPU cores. Requests higher than this will throw an
    InvalidResourceRequestException.</description>
    <name>yarn.scheduler.maximum-allocation-vcores</name>
    <value>1</value>
</property>

虚拟内存检测，默认打开，建议关闭。

<property>
    <description>Whether virtual memory limits will be enforced for
    containers.</description>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>

虚拟内存占比，如果物理内存是4G，那么虚拟内存应该是8.4G，默认2.1倍。

<property>
    <description>Ratio between virtual memory to physical memory when
    setting memory limits for containers. Container allocations are
    expressed in terms of physical memory, and virtual memory usage
    is allowed to exceed this allocation by this ratio.
    </description>
    <name>yarn.nodemanager.vmem-pmem-ratio</name>
    <value>2.1</value>
</property>

七、Yarn多队列

调度器默认就是一个default队列。
生产中按照框架产生队列：比如：spark/hive/fink。任务在哪个框架中运行，就将任务放入哪个队列中。
按照业务模块创建队列：比如：登录模块、下单模块、购物车。

多队列的好处：（1）可以灵活的实现任务的降级处理，比如在某一个紧急时刻，资源不够用的时候，将一些不重要的模块的任务舍弃或者优先级降低，来优先保证紧急模块的任务的顺利执行。（2）避免某一个模块的某个任务执行缓慢，长时间占用整个集群的资源。

案例1：

配置default队列占用内存的40%，最大资源占用总资源60%，hive队列占用总内存的60%，最大资源占用总资源80%，并且配置队列的优先级。

修改：

修改/hadoop-3.2.2/etc/hadoop/capacity-scheduler.xml文件配置，修改后分发到所有节点，如果不想重新启动集群，执行yarn rmadmin -refreshQueues即可生效。

增加一个hive队列，默认有一个default队列：

<property>
    <name>yarn.scheduler.capacity.root.queues</name>
    <value>default,hive</value>
    <description>
      The queues at the this level (root is the root queue).
    </description>
 </property>

修改default队列的总容量，默认100，修改为40。并增加一个hive队列的容量配置，总容量60：

<property>
    <name>yarn.scheduler.capacity.root.default.capacity</name>
    <value>40</value>
    <description>Default queue target capacity.</description>
 </property>
    
<property>
    <name>yarn.scheduler.capacity.root.hive.capacity</name>
    <value>60</value>
    <description>Default queue target capacity.</description>
 </property>

设置用户向defualt队列中提交的任务最多能占用该队列资源比，默认1，并且增加一个hive的配置：

<property>
    <name>yarn.scheduler.capacity.root.default.user-limit-factor</name>
    <value>1</value>
    <description>
      Default queue user limit a percentage from 0.0 to 1.0.
    </description>
  </property>

  <property>
    <name>yarn.scheduler.capacity.root.hive.user-limit-factor</name>
    <value>1</value>
    <description>
      Default queue user limit a percentage from 0.0 to 1.0.
    </description>
  </property>

设置default最大容量为60，默认00，并增加hive最大容量配置，修改为80：

<property>
    <name>yarn.scheduler.capacity.root.default.maximum-capacity</name>
    <value>60</value>
    <description>
      The maximum capacity of the default queue. 
    </description>
  </property>

  <property>
    <name>yarn.scheduler.capacity.root.hive.maximum-capacity</name>
    <value>80</value>
    <description>
      The maximum capacity of the default queue. 
    </description>
  </property>

设置default队列的运行状态，默认RUNNING，并增加hive配置，修改为RUNNING：

<property>
    <name>yarn.scheduler.capacity.root.default.state</name>
    <value>RUNNING</value>
    <description>
      The state of the default queue. State can be one of RUNNING or STOPPED.
    </description>
  </property>

  <property>
    <name>yarn.scheduler.capacity.root.hive.state</name>
    <value>RUNNING</value>
    <description>
      The state of the default queue. State can be one of RUNNING or STOPPED.
    </description>
  </property>

设置哪些用户可以向default队列中提交任务，默认*，表示所有用户，并增加hive配置：

<property>
    <name>yarn.scheduler.capacity.root.default.acl_submit_applications</name>
    <value>*</value>
    <description>
      The ACL of who can submit jobs to the default queue.
    </description>
  </property>

  <property>
    <name>yarn.scheduler.capacity.root.hive.acl_submit_applications</name>
    <value>*</value>
    <description>
      The ACL of who can submit jobs to the default queue.
    </description>
  </property>

设置哪些用户可以对default队列进行操作，比如查看，杀死队列，默认*，即所有用户都有权限，并增加hive配置：

<property>
    <name>yarn.scheduler.capacity.root.default.acl_submit_applications</name>
    <value>*</value>
    <description>
      The ACL of who can submit jobs to the default queue.
    </description>
  </property>

  <property>
    <name>yarn.scheduler.capacity.root.hive.acl_submit_applications</name>
    <value>*</value>
    <description>
      The ACL of who can submit jobs to the default queue.
    </description>
  </property>

设置哪些用户可以对default队列设置优先级，默认*，即所有用户都有权限，并增加hive配置：

<property>
    <name>yarn.scheduler.capacity.root.default.acl_application_max_priority</name>
    <value>*</value>
    <description>
      The ACL of who can submit applications with configured priority.
      For e.g, [user={name} group={name} max_priority={priority} default_priority={priority}]
    </description>
  </property>

  <property>
    <name>yarn.scheduler.capacity.root.hive.acl_application_max_priority</name>
    <value>*</value>
    <description>
      The ACL of who can submit applications with configured priority.
      For e.g, [user={name} group={name} max_priority={priority} default_priority={priority}]
    </description>
  </property>

设置default队列的最大生命周期，默认-1，即任务可以一直执行下去,并增加hive配置：

<property>
     <name>yarn.scheduler.capacity.root.default.maximum-application-lifetime
     </name>
     <value>-1</value>
     <description>
        Maximum lifetime of an application which is submitted to a queue
        in seconds. Any value less than or equal to zero will be considered as
        disabled.
        This will be a hard time limit for all applications in this
        queue. If positive value is configured then any application submitted
        to this queue will be killed after exceeds the configured lifetime.
        User can also specify lifetime per application basis in
        application submission context. But user lifetime will be
        overridden if it exceeds queue maximum lifetime. It is point-in-time
        configuration.
        Note : Configuring too low value will result in killing application
        sooner. This feature is applicable only for leaf queue.
     </description>
   </property>

   <property>
     <name>yarn.scheduler.capacity.root.hive.maximum-application-lifetime
     </name>
     <value>-1</value>
     <description>
        Maximum lifetime of an application which is submitted to a queue
        in seconds. Any value less than or equal to zero will be considered as
        disabled.
        This will be a hard time limit for all applications in this
        queue. If positive value is configured then any application submitted
        to this queue will be killed after exceeds the configured lifetime.
        User can also specify lifetime per application basis in
        application submission context. But user lifetime will be
        overridden if it exceeds queue maximum lifetime. It is point-in-time
        configuration.
        Note : Configuring too low value will result in killing application
        sooner. This feature is applicable only for leaf queue.
     </description>
   </property>

设置default队列的默认生命周期，默认-1，即任务可以一直执行下去,并增加hive配置：

<property>
     <name>yarn.scheduler.capacity.root.default.default-application-lifetime
     </name>
     <value>-1</value>
     <description>
        Default lifetime of an application which is submitted to a queue
        in seconds. Any value less than or equal to zero will be considered as
        disabled.
        If the user has not submitted application with lifetime value then this
        value will be taken. It is point-in-time configuration.
        Note : Default lifetime can't exceed maximum lifetime. This feature is
        applicable only for leaf queue.
     </description>
   </property>

    <property>
     <name>yarn.scheduler.capacity.root.hive.default-application-lifetime
     </name>
     <value>-1</value>
     <description>
        Default lifetime of an application which is submitted to a queue
        in seconds. Any value less than or equal to zero will be considered as
        disabled.
        If the user has not submitted application with lifetime value then this
        value will be taken. It is point-in-time configuration.
        Note : Default lifetime can't exceed maximum lifetime. This feature is
        applicable only for leaf queue.
     </description>
   </property>

验证：

提交任务到hive队列：

(1)、执行jar的时候，直接指定队列：hadoop jar /orkasgb/software/hadoop-3.2.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.2.jar wordcount -D mapreduce.job.queuename=hive /wordcount/input /wordcount/output5

(2)、在driver类中增加参数设置：

configuration.set("mapreduce.job.queuename", "hive");

设置任务优先级，默认为0，关闭了任务优先级，本集群中设置为5，表示由5个优先级：

<property>
    <description>
    Defines maximum application priority in a cluster.
    If an application is submitted with a priority higher than this value, it will be
    reset to this maximum value.
    </description>
    <name>yarn.cluster.max-application-priority</name>
    <value>5</value>
  </property>

（1）、设置任务优先级为5，并提交：hadoop jar /orkasgb/software/hadoop-3.2.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.2.jar wordcount -D mapreduce.job.priority=5 /wordcount/input /wordcount/output8

（2）、设置已经提交之后的任务的优先级：yarn application -appId application_1646114756125_0004 -updatePriority 3

八、生产调优：

datanode、namenode内存调优

查看datanode、namenode的实际内存占用情况，jps查看正在运行的进程，使用jmap -heap [进程号]查看当前datanode、nodemanager内存占用情况：

jmap -heap 423059

按照机器修改datanode、namenode的内存大小。

export HDFS_NAMENODE_OPTS="-Dhadoop.security.logger=INFO,RFAS -Xmx1024m"
export HDFS_DATANODE_OPTS="-Dhadoop.security.logger=ERROR,RFAS -Xmx1024m"

datanode和namenode的并发心跳设置

hadoop-env.sh中设置datanode和namenode的并发心跳机制，默认为10，建议按照公式计算20 * log^集群台数：

  <!-- 设置namende最大能接受的datanode并发访问量，默认为10 -->
  <property>
    <name>dfs.namenode.handler.count</name>
    <value>21</value>
  </property>

开启回收站功能

core-site.xml开启回收站功能，当程序调用moveToTrash()删除的文件、命令行使用hadoop fs -rm删除的文件才会放入回收，回收站默认0，不开启：

<!-- 开启hadoop回收站功能，0表示不开启，其他数字表示多少分钟清空回收站 -->
<property>
  <name>fs.trash.interval</name>
  <value>5</value>
</property>
<!-- 多久检测一下回收站，默认为0，表示和fs.trash.interval的时间相同，每次检查点运行时，它都会从当前创建一个新的检查点，并删除在 fs.trash.interval 分钟前的文件 -->
<property>
  <name>fs.trash.checkpoint.interval</name>
  <value>3</value>
</property>
      
// 代码删除
Trash trash = new Trash(conf);
trash.moveToTrash(path);

// 命令行删除
 hadoop fs -rm /test.txt

配置datanode多目录

hdfs-site.xml配置datanode多目录：

（1）、目前，本集群默认只有一个data目录，那么如果后续该目录爆满，将无法会影响集群运行。

（2）、hdfs-site.xml中增加如下配置，开启多目录配置，默认只有一个data目录，如果集群中的机器配置各不一样，那么得按情况配置。

<property>
  <name>dfs.datanode.data.dir</name>
  <value>file://${hadoop.tmp.dir}/dfs/data,file://${hadoop.tmp.dir}/dfs/data1,file://${hadoop.tmp.dir}/dfs/data2</value>
  <description>Determines where on the local filesystem an DFS data node
  should store its blocks.  If this is a comma-delimited
  list of directories, then data will be stored in all named
  directories, typically on different devices. The directories should be tagged
  with corresponding storage types ([SSD]/[DISK]/[ARCHIVE]/[RAM_DISK]) for HDFS
  storage policies. The default storage type will be DISK if the directory does
  not have a storage type tagged explicitly. Directories that do not exist will
  be created if local filesystem permission allows.
  </description>
</property>

配置namenode多目录

hdfs-site.xml配置namenode多目录，默认只有一个name目录，作为了解即可，因为配置namenode多目录后，需要对现有集群重新格式化才能使用：

<property>
  <name>dfs.namenode.name.dir</name>
  <value>file://${hadoop.tmp.dir}/dfs/name,file://${hadoop.tmp.dir}/dfs/name1,file://${hadoop.tmp.dir}/dfs/name2</value>
  <description>Determines where on the local filesystem the DFS name node
      should store the name table(fsimage).  If this is a comma-delimited list
      of directories then the name table is replicated in all of the
      directories, for redundancy. </description>
</property>

磁盘之间数据均衡

磁盘之间数据均衡，磁盘数据均衡是指，在某一台机器上后续增加了一块硬盘，那么就要将原来硬盘上的数据转移一部分新的磁盘上。：

 // 生成磁盘数据均衡计划
hdfs diskbalancer -plan node-02
 // 执行磁盘数据均衡计划
hdfs diskbalancer -execute node-02.plan.json
 // 查看磁盘数据均衡执行情况
 hdfs diskbalancer -query node-02
 // 取消磁盘数据均衡计划
hdfs diskbalancer -cancel node-02.plan.json

服役/退役新的机器节点：

添加新的白名单/黑名单：能有效的防止黑客攻击，不在表名单中的主机ip是不能存储真实的数据，但是能访问：

在NameNode节点上的/hadoop-3.2.2/etc/hadoop下创建白名单文件whitelist文件和黑名单blacklist，并分发到每一台机器上，第一次添加黑白名单必须重启集群才能生效，后续可以动态的修改，然后执行hdfs dfsadmin -refreshNodes即可生效。

whitelist文件：增加如下内容。
node-01
node-02
node-03
blacklist：保持空即可，后续操作。

hdfs-site.xml中配置白名单路径和黑名单路径，并分发到每一台机器上：

<property>
  <name>dfs.hosts</name>
  <value>/orkasgb/software/hadoop-3.2.2/etc/hadoop/whitelist</value>
  <description>Names a file that contains a list of hosts that are
  permitted to connect to the namenode. The full pathname of the file
  must be specified.  If the value is empty, all hosts are
  permitted.</description>
</property>
    
<property>
  <name>dfs.hosts.exclude</name>
  <value>/orkasgb/software/hadoop-3.2.2/etc/hadoop/blacklist</value>
  <description>Names a file that contains a list of hosts that are
  not permitted to connect to the namenode.  The full pathname of the
  file must be specified.  If the value is empty, no hosts are
  excluded.</description>
</property>

服役新的机器节点：
- 从现有的虚拟机上复制一台虚拟机，检查环境变量无误：修改主机名、修改hosts文件，删除各个组件的data、logs目录（重要），删除并重启。
- 修改集群中的每台机器（包括新加的）上的信息：
  
  3.1、hosts文件中加上所有机器的ip地址映射。
  
  3.2、修改zookeeper的myid文件。
  
  3.3、修改hadoop的白名单文件whitelist，如果没有黑白名单文件就不用修改了。
  
  3.4、修改hadoop的workers文件。
  
  3.5、修改hbase的regionservers文件。
  
  3.6、修改zookeeper的zoo.cfg文件。
  
  3.7、在新机器节点上使用hdfs --daemon start datanode、yarn --daemon start nodemanager这两个命令单独启动datanode和nodemanager，如果想启动zookeeper和hbase都可以。
  
  3.8、在NameNode节点上执行hdfs dfsadmin -refreshNodes命令刷新所有node。
  
  3.9、在页面刷新，即可看到新的机器节点。
服役新的机器节点：
- 从现有的集群上退役一台服务器，修改集群中的每台机器上的信息：。
  
  4.1、在黑名单中增加要退役的机器节点信息，为了保持集群稳定，上述3步骤中的所有修改的文件都还原下。
  
  4.2、执行hdfs dfsadmin -refreshNodes命令刷新所有node。
  
  4.3、观察页面上节点信息状态，（等到10分钟+30秒的时候，会认为该节点已死掉，hdfs中nn和dn的通信机制）：
  
  4.4、手动关闭退役服务器节点上的datanode、nodemanager进程。即可完成服务器退役。

集群安全模式

集群安全模式：

查看当前集群是否处于安全模式：hdfs dfsadmin -safemode get
退出安全模式：hdfs dfsadmin -safemode leave
进入安全模式：hdfs dfsadmin -safemode enter
等待安全模式退出：hdfs dfsadmin -safemode wait，类似与监听，当安全模式退出后，就可以继续执行后续的操作。

注意：当集群因丢失块信息后，进入安全模式无法退出时，此时可以直接使用退出安全模式的的命令，退出安全模式，并且按照提示删除对应的块文件信息（如果信息不重要的话）。

小文件优化

每一个小文件在HDFS上都要创建对应的元数据，大小为150byte，小文件越多，元数据占用NameNode的内存空间就越大，并且也会使得寻址索引速度变慢。

小文件归档

HDFS文件或者har文件是一个高效的归档工具，它将多个小文件存放在一起，类似于打包，让NameNode认为这些下文件是一个整体，但是对于文件的使用者来说又是透明的。这样使得原先每一个小文件作为一个整体要占用150byte，打包之后，使得多个小文件作为一个整体占用150byte。

将所有的har文件夹下的所有的小文件归档成一个har.har文件作为一个整体：hadoop archive -archiveName har.har -p /har /

直接查看har.har文件：hadoop fs -ls /har.har

查看har.har中打包了哪些文件：hadoop fs -ls har:///har.har

解约归档：hadoop fs -cp har:///har.har/* /har1

小文件开启uber模式：

Uber运行模式对小作业进行优化，不会给每个任务分别申请分配Container资源，这些小任务将统一在一个Container中按照先执行map任务后执行reduce任务的顺序串行执行。

1、mapred-site.xml开启uber模式，默认关闭，本集群修改为true：

<!-- 开启uber模式，默认关闭 -->
<property>
  <name>mapreduce.job.ubertask.enable</name>
  <value>true</value>
  <description>Whether to enable the small-jobs "ubertask" optimization,
  which runs "sufficiently small" jobs sequentially within a single JVM.
  "Small" is defined by the following maxmaps, maxreduces, and maxbytes
  settings. Note that configurations for application masters also affect
  the "Small" definition - yarn.app.mapreduce.am.resource.mb must be
  larger than both mapreduce.map.memory.mb and mapreduce.reduce.memory.mb,
  and yarn.app.mapreduce.am.resource.cpu-vcores must be larger than
  both mapreduce.map.cpu.vcores and mapreduce.reduce.cpu.vcores to enable
  ubertask. Users may override this value.
  </description>
</property>
<!-- uber模式中最大开启的maptask的数量，默认为9，只能大于等于9。 -->      
<property>
  <name>mapreduce.job.ubertask.maxmaps</name>
  <value>9</value>
  <description>Threshold for number of maps, beyond which job is considered
  too big for the ubertasking optimization.  Users may override this value,
  but only downward.
  </description>
</property>
<!-- uber模式中最大开启的maptask的数量，默认为1，只能小于等于1。 -->
<property>
  <name>mapreduce.job.ubertask.maxreduces</name>
  <value>1</value>
  <description>Threshold for number of reduces, beyond which job is considered
  too big for the ubertasking optimization.  CURRENTLY THE CODE CANNOT SUPPORT
  MORE THAN ONE REDUCE and will ignore larger values.  (Zero is a valid max,
  however.)  Users may override this value, but only downward.
  </description>
</property>
<!-- uber模式中最大能处理的数据量，默认是块大小，只能小于等于块大小 -->
<property>
  <name>mapreduce.job.ubertask.maxbytes</name>
  <value></value>
  <description>Threshold for number of input bytes, beyond which job is
  considered too big for the ubertasking optimization.  If no value is
  specified, dfs.block.size is used as a default.  Be sure to specify a
  default value in mapred-site.xml if the underlying filesystem is not HDFS.
  Users may override this value, but only downward.
  </description>
</property>

数据倾斜问题：

数据倾斜问题多半都会出现在reduce端，这是因为在mpa端处理完数据后，数据大量流入同一个分区，导致reduce端的某个reduceTask因需要处理大量的数据而长时间运行，而剩余的reduce处理闲置转态。因此应该从以下几个方面避免这个问题出现：

减少小文件处理。
自定义分区程序并优化。
尽量在map端就进行合并处理。比如在合适的场景下增加Combainer。

集群迁移：

集群数据迁移类似于scp在两个服务器之间拷贝数据。

将namenode地址1所在集群上的数据拷贝到namenode地址2所在集群上：hadoop distcp hdfs://namenode地址1:8020/hbase hdfs://namenode地址2:8020/hbase

MapReduce调优：

Mapper端：
1. 自定义分区，减少数据倾斜。
2. 减少溢写次数：1）、mapreduce.task.io.sort.mb：环形缓冲区的大小，默认100M。2）、mapreduce.map.sort.spill.percent：环形缓冲区的溢写阈值，默认0.8（80%）。
3. 增加marge排序文件时一次合并的流数：mapreduce.task.io.sort.factor：默认10。
4. 在不影响业务的前提下，提前进行Combiner：job.setCombinerClass()。
5. 为了减少磁盘IO，可以使用Snappy或者LZO数据：conf.setBoolean(“mapreduce.map.output.compress”, true)、conf.setClass(“mapreduce.map.output.compress.codec”, SnappyCodec.class, CommpressionCodec.class)。
6. 增加MapTask的内存：mapreduce.map.memory.mb，默认-1，代表1G。
7. 增加MapTask的堆内存：mapreduce.map.java.opts，不建议修改。
8. 增加MapTask的cpu核数：mapreduce.map.cpu.vcores，默认1个cpu。
9. 减少mapTask异常重试次数：mapreduce.map.maxattempts，默认4次。
Reduce端：
1. 增加reduce端从map端拉取数据的并行度：mapreduce.reduce.shuffle.parallelcopies，默认5。
2. 增加reduce端内存中的数据达到写出到磁盘的百分比：mapreduce.reduce.shuffle.merge.percent，默认0.66。
3. 增加buffer能够占用reduce的可用内存的比例：mapreduce.reduce.shuffle.input.buffer.percent，默认0.7。
4. 增加ReduceTask的内存：mapreduce.reduce.memory.mb，默认-1，代表1G。
5. 增加ReduceTask的堆内存：mapreduce.reduce.java.opts，不建议修改。
6. 增加ReduceTask的cpu核数：mapreduce.reduce.cpu.vcores，默认1个cpu。
7. 减少ReduceTask异常重试次数：mapreduce.reduce.maxattempts，默认4次。
8. 增加MapTask完成后Reduce才去申请资源的比例：mapreduce.job.reduce.slowstart.completedmaps，默认0.05。
9. 调整task超时时间，如果觉得程序运行的时间可能会长点，那么就调大该值，否则，task运行一旦超过这个阈值，就会被强制退出：mapreduce.task.timeout，默认600000（10分钟）。
10. 如果可以不设置reduce那么就尽量不设置reduce。

你可能感兴趣的:(学习笔记,java,hadoop,yarn)

Node.js 的模块作用域和 module 对象详细介绍还是鼠鼠 node.js node.js javascript 前端 vscode web
目录代码示例1.创建模块文件module-demo.js2.导入模块并使用module-demo.js运行结果总结在Node.js中，每个文件都是一个独立的模块，具有自己的作用域。与浏览器JavaScript代码不同，Node.js采用模块作用域，这意味着一个文件中的变量、函数、类等不会污染全局作用域，而是仅在该模块内部有效。这种设计提高了代码的封装性和安全性。module对象是Node.js提供
python和java的本质区别,python和java有什么关系 2301_81900386 python 开发语言人工智能
本篇文章给大家谈谈python和java的本质区别，以及python和java有什么关系，希望对各位有所帮助，不要忘了收藏本站喔。一、主要区别：1.Python比Java简单，学习成本低，开发效率高2.Java运行效率高于Python，尤其是纯Python开发的程序，效率极低3.Java相关资料多，尤其是中文资料4.Java版本比较稳定，Python2和3不兼容导致大量类库失效5.Java开发偏向
HarmonyNext深度解析：ArkUI 3.0声明式开发与高性能渲染实践披光人 harmonyOS harmonyos
第一章鸿蒙声明式UI架构演进与技术优势1.1从命令式到声明式的范式迁移HarmonyNext的ArkUI3.0标志着鸿蒙开发生态的重大革新，其核心在于采用声明式UI编程范式。相较于传统Android的XML+Java/Kotlin命令式开发模式，声明式UI具有以下技术特征：状态驱动视图：UI呈现完全由数据状态决定，开发者只需描述"UI应该是什么样子"，无需手动操作DOM元素单向数据流：采用Stat
数据结构 -- 字符串 _安晓数据结构数据结构
字符串串的定义串，即字符串（String）是由零个或多个字符组成的有限序列，一般记为S=‘a1a2a3a4’（n≥0）其中，S是串名，单引号括起来的是字符序列是串的值；ai可以是字母、数字或是其他字符；串中字符的个数n称为串的长度。n=0时的串称为空串（用∅表示）。例：（不同语言可能使用的边界符不同，Java、c等使用双引号（“”）Python等使用单引号（’‘））S="HelloWorld！"T
Java与Python详细比对 -- Java与Python优缺点知之为 python 开发语言 java
系列文章-Java与PythonPython和Java都是比较流行的编程语言，它们各自有着独特的特性和应用场景。python用途最多的是脚本，java用途最多的是web。文章目录系列文章目录-Java与Python前言一、Java与Python整体区别二、Java与Python详细区别2.1语法结构方面2.2编程特性方面2.3语言执行及内存管理方面2.4多线程及网络编程方面2.5开发工具及相关功能
SQLite学习（十一）使用JDBC读写SQLite数据，基于Java实现 Designer 小郑 SQLite从入门到实战 sqlite 数据库 sql java jdbc
1.前言2.基础工作2.1创建Java项目2.2依赖Jar包3.连接SQLite4.查询SQLite数据5.新增SQLite数据6.总结1.前言在上一篇《SQLite学习（十）SQLite的注入问题的防范、数据库文件导入和导出》中，讲解了SQLite的SQL注入问题和应对措施，在本篇博客中，将继续讲解如何使用JDBC读写SQLite数据。同学们将学习到：JDBC是什么使用JDBC读写SQLite请
JVM 调优百里自来卷 jvm
在生产环境中，JVM调优是确保Java应用程序性能和稳定性的重要步骤。调优的目标通常是减少垃圾回收的时间、降低内存使用和提高应用程序的吞吐量。以下是一些常见的JVM调优策略和方法。选择合适的垃圾收集器-XX:+UseG1GC调整堆内存大小，通过调整堆内存的大小，可以控制应用程序的性能设置初始堆大小：-Xms512m设置最大堆大小：-Xmx2048m设置年轻代大小：-Xmn256m一般推荐将初始堆和
GC 频率和触发条件百里自来卷 jvm
在Java中，垃圾回收（GC）的频率和触发条件取决于GC算法、堆内存分配、对象生命周期以及JVM参数的配置。下面详细介绍这些影响因素：1.GC触发条件GC主要触发的情况如下：(1)年轻代GC（MinorGC/YoungGC）触发条件：Eden区满了：当新对象分配到Eden区，如果Eden区没有足够的空间分配新对象，就会触发MinorGC。Survivor空间不足：当存活对象从Eden复制到Surv
【测试语言篇四】Python进阶篇之json模块 m0_37135615 编程语言 python php 开发语言
一、json模块介绍JSON（JavaScript对象表示法）是一种轻量级数据格式，用于数据交换。在Python中具有用于编码和解码JSON数据的内置json模块。只需导入它，就可以使用JSON数据了：importjsonJSON的一些优点：JSON作为“字节序列”存在，在我们需要通过网络传输（流）数据的情况下非常有用。与XML相比，JSON小得多，可转化为更快的数据传输和更好的体验。JSON非常
垃圾回收机制是什么？JVM 核心结构? 胡图蛋. jvm
垃圾回收机制是什么jvm的垃圾回收机制是GC（GarbageCollection），也叫垃圾收集器。GC基本原理：将内存中不再被使用的对象进行回收；GC中用于回收的方法称为收集器，由于GC需要消耗一些资源和时间，Java在对对象的生命周期特征进行分析后，按照新生代、老年代的方式来对对象进行收集，以尽可能的缩短GC对应用造成的暂停。不同的对象引用类型，GC会采用不同的方法进行回收，JVM对象的引用分
HashMap 中的 key 值类型百里自来卷 java
在Java中，HashMap的key一般建议使用String而不是自定义对象，主要有以下几个原因：1.String是不可变对象（Immutable）String在Java中是不可变的，一旦创建就不会改变其哈希值(hashCode)。HashMap依赖key的hashCode()计算存储位置，如果key是可变对象，修改key后，它的hashCode()可能会改变，导致HashMap无法正确查找该ke
redis操作zset类型的基本命令 JavaWeb学起来 redis redis 数据结构
zset是有序存储的数据结构，它和set一样，不允许重复的值，下面我们总结一些常用的命令。zaddkey排序的数值值(这里为了zset可以有序的存储，需要设定数值)127.0.0.1:6379>zaddz15java3redis1mysql2nginx4oracle(integer)5zcardkey(返回key中的成员数)127.0.0.1:6379>zcardz1(integer)5zrang
Java 入门指南：Java 8 新特性 —— Stream 流热带鱼Tech Java java 后端个人开发 java-ee
文章目录JavaStream操作类型操作过程创建流操作流遍历forEach过滤filter映射map匹配match归约reduce排序sorted去重distinct限制limit跳过skip转换流流操作的特性JavaStreamJavaStream是Java8引入的一个新的API，它提供了一种函数式编程的方式来处理集合数据。Stream可以看作是一系列支持高效的、函数式操作的元素序列。通过使用S
Java Stream 流从零到一全指南秋‍. JAVA windows java 开发语言流 strem
1.什么是JavaStream？JavaStream是Java8引入的一种用于处理数据集合的API，提供了声明式的方式进行数据处理。它能够支持函数式编程风格，极大地简化了集合操作，提高了代码的可读性和可维护性。Stream的核心特性链式操作：流操作可以串联在一起，避免了传统迭代方式的冗余代码。惰性求值：只有在终端操作时，流的计算才会执行。内部迭代：相比于for循环的外部迭代，Stream采用内部迭
吴恩达机器学习笔记复盘（二）监督学习和无监督学习 wgc2k 机器学习机器学习笔记学习
监督学习经济价值以及定义监督学习是机器学习中创造了99%经济价值的类型，它是学习输入到输出映射的算法，关键在于给学习算法提供包含正确答案（即给定输入X的正确标签Y）的学习例子。生活中的例子邮件分类，输入是电子邮件，输出是判断邮件是否为垃圾邮件。语音识别，输入音频剪辑，输出文本记录。机器翻译，输入一种语言文本，输出其他语言的相应翻译。在线广告，输入广告和用户信息，预测用户是否点击广告，为公司带来大量
大数据学习（67）- Flume、Sqoop、Kafka、DataX对比 viperrrrrrr 大数据学习 flume kafka sqoop datax
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop间数据同步关系型数据库→Hadoop生态系统（HDFS、Hive、
阿里云服务器使用教程：CentOS 7 安装JDK及Tomcat详细步骤（以jdk1.8、tomcat9.0.37为例）蓝多多的小仓库云服务器配置及使用服务器阿里云 java
目录1、下载JDK及Tomcat的安装包并上传至服务器2、安装JDK3、安装Tomcat4、Tomcat启动后无法打开Tomcat首页的原因1、下载JDK及Tomcat的安装包并上传至服务器（1）下载JDK1.8版本压缩包官网：JavaDownloads|Oracle（2）下载Tomcat9.0.37的安装包官网：ApacheTomcat®-Welcome!
探索JavaWeb之旅：Tomcat 9.0.62一站式解决方案富展尤
探索JavaWeb之旅：Tomcat9.0.62一站式解决方案【下载地址】Tomcat9.0.62资源文件下载本仓库提供了一个用于运行JavaWeb项目的资源文件下载，具体为`tocmcat-9.0.62`版本的Tomcat9原始最新版的压缩包。该资源文件是Tomcat9.0.62的完整压缩包，适用于需要使用Tomcat9来部署和运行JavaWeb项目的开发者项目地址:https://gitcod
Kubernetes集群版本升级程序员Realeo Java后端 kubernetes 容器云原生
集群升级注意事项升级集群版本建议逐步升级，比如v1.20.1–>v1.21.1–>v1.22.1–>v1.23.1–>v1.24.1，不能跨度过大，否则会报错。升级步骤查看集群版本[root@hadoop102~]#kubectlgetnodesNAMESTATUSROLESAGEVERSIONhadoop102Ready,SchedulingDisabledcontrol-plane,maste
【2025年饿了么春招-3月14日-第二题（200分）- 小红的排列构造】（题目+思路+Java&C++&Python解析+在线测试) 塔子哥学算法 java c++python 算法数据结构饿了么
题目内容小红希望你构造一个长度为nnn的排列，满足∑i=1n∗i\sum_{i
Apache OFBiz路径遍历漏洞(CVE-2024-36104) WuY1nSec 漏洞复现 apache
0x01漏洞描述ApacheOFBiz是美国阿帕奇（Apache）基金会的一套企业资源计划（ERP）系统。该系统提供了一整套基于Java的Web应用程序组件和工具。ApacheOFBiz18.12.14之前版本存在命令执行漏洞，该漏洞源于ControlFilter对路径限制不当导致用户能够访问ProgramExport导出功能执行Groovy代码。0x02影响版本ApacheOFBiz<18.12
Spring框架快速入门手册 Uncoverlove spring mysql mybatis java 后端
说明：本文试图将Spring框架的知识体系进行整合分析，并冠以自己的理解，为初学Spring框架的同学，提供一个快速入门手册。同时呢，也是为了总结一下工作学习中遇到的问题和经验，以免发生遗漏！文末将附上Spring的学习资料，以供大家学习~（申明一下：纯小白一枚，由于工作需要自学的Spring，或许某些理解会出现偏差，烦请各位斧正！不慎感激！！）快速入门推荐阅读书籍（欢迎补充）：1、《JavaEE
Java通过Apache POI操作Excel IT__learning 数据分析 java apache excel
1、添加依赖org.apache.poipoi3.9org.apache.poipoi-ooxml3.9joda-timejoda-time2.10.12、读EXCELpublicstaticvoidread()throwsException{FileInputStreamstream=newFileInputStream("D:\\Test\\file.xlsx");//1.创建工作簿对象,并指
英伟达系列显卡大解析B100、H200、L40S、A100 2301_78234743 java
家里有了变故。。。快手数分秋招一面面经我发现算法岗也不很难进啊(深度学习)算法想转数开…Java零基础校招学习路线突击版（吐血整理）等的花都谢了的华子最后给开了22k，武汉，应该是14a。不过在这几个月里我坚定了搞几年快钱回家和np朋友因骂了hr，boos被封了哈哈哈在央企想被开除需要做什么？2024小米分布式存储研发急招华为2012被毁意向我发现算法岗也不很难进啊(深度学习)在央企想被开除需要做
java24种设计模式目录,为大家整理最全的24种设计模式详解，必收藏高补 java24种设计模式目录
设计模式六大原则单一职责原则一个方法尽可能做一件事情，一般来说不应该让一个方法承担多个职责。单一职责原则的英文名称是SingleResponsibilityPrinciple，简称是SRP。单一职责原则的定义是：应该有且仅有一个原因引起类的变更。SRP的原话解释是：Thereshouldneverbemorethanonereasonforaclasstochange.单一职责原则提出了一个编写程
结构型模式之适配器模式：让不兼容的接口兼容菜就多练少说设计模式适配器模式
在软件开发中，经常会遇到这样一种情况：系统的不同部分需要进行交互，但由于接口不兼容，导致无法直接使用。这时，适配器模式（AdapterPattern）就能派上用场。适配器模式是设计模式中的结构型模式，它的目的是通过创建一个适配器类来“包装”一个不兼容的接口，使得两个接口能够兼容、协作。简单来说，适配器模式就是“转换接口”模式。本文将深入探讨适配器模式，讲解其概念、应用场景，并展示如何在Java中实
【JS】JS中的jQuery库简介及使用方法菜就多练少说 javascript javascript jquery 开发语言
jQuery简介及使用方法jQuery简介如何使用jQuery1导入jQuery库2编写自己的jQuery文件3jQuery语法3.1基础语法3.2文档就绪函数3.3选择器3.4事件绑定函数结语jQuery简介jQuery是一个流行的JavaScript库，用于简化JavaScript编程。它提供了许多便捷的方法来处理DOM操作、事件处理、动画效果等，使得JavaScript开发变得更加简单和高效
高性能缓存利器：Caffeine 在 Spring Boot 中的应用阿里小阿希 JAVA 缓存 spring boot spring
在现代应用程序中，缓存是提高数据检索速度、减少对数据库或其他数据源访问次数的重要手段。SpringCache提供了多种缓存实现方式，而在我们的SpringBoot项目中，我们选择了Caffeine作为默认的缓存库。Caffeine简介Caffeine是一个基于Java8的高性能、近乎最佳的缓存库。它提供了多种优化技术，如写入时复制（Copy-on-Write）和分段锁（SegmentedLocki
Android自动化测试工具海棠如醉 web技术自动化运维
细解自动化测试工具Airtest-CSDN博客以下是几种常见的Android应用自动化测试工具：Appium：支持多种编程语言，如Java、Python、Ruby、JavaScript等。可以用于Web应用程序和原生应用程序的自动化测试，并支持iOS和Android平台。Espresso：由Google开发的AndroidUI测试框架，可用于测试应用程序的用户界面和与用户的交互。Espresso支
SpringBoot整合MinIO实现文件的上传下载以及获取预览URL .晚安. spring boot 后端 java web
SpringBoot整合MinIO实现文件的上传下载以及获取预览URLJDK17SpringBoot3参考https://min.io/docs/minio/linux/developers/java/API.html?ref=docs-redirect#uploadObject源码https://gitee.com/Uncommen/easy-min-io引入依赖在pom.xml中添加主要的依赖
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end