qq_41641810

Hadoop性能调优、YARN的内存和CPU配置

转

Hadoop性能调优、YARN的内存和CPU配置

2018年06月12日 21:01:54 toto1297488504 阅读数：2417

转：
https://blog.csdn.net/dehu_zhou/article/details/52808752
https://blog.csdn.net/dxl342/article/details/52840455

Hadoop为用户作业提供了多种可配置的参数，以允许用户根据作业特点调整这些参数值使作业运行效率达到最优。

一应用程序编写规范

1.设置Combiner

对于一大批MapReduce程序，如果可以设置一个Combiner,那么对于提高作业性能是十分有帮助的。Combiner可减少Map Task中间输出的结果，从而减少各个Reduce Task的远程拷贝数据量，最终表现为Map Task和Reduce Task执行时间缩短。

2. 选择合理的Writable类型

在MapReduce模型中，Map Task和Reduce Task的输入和输出类型均为Writable。Hadoop本身已经提供了很多Writable实现，包括IntWritable、FloatWritable。为应用程序处理的数据选择合适的Writable类型可大大提升性能。比如处理整数类型数据时，直接采用IntWritable比先以Text类型读入在转换为整数类型要高效。如果输出整数的大部分可用一个或两个字节保存，那么直接采用VIntWritable或者VLongWritable，它们采用了变长整型的编码方式，可以大大减少输出数据量。

二作业级别参数调优

1.规划合理的任务数目

在Hadoop中，每个Map Task处理一个Input Split。Input Split的划分方式是由用户自定义的InputFormat决定的，默认情况下，有以下三个参数决定。
mapred.min.split.size ：Input Split的最小值默认值1
mapred.max.split.szie: Input Split的最大值
dfs.block.size：HDFS 中一个block大小默认值64MB
golsize:它是用户期望的Input Split数目=totalSize/numSplits ,其中totalSize为文件的总大小；numSplits为用户设定的Map Task个数，默认情况下是1.
splitSize = max{minSize,min{goalSize,blockSize}} 如果想让InputSize尺寸大于block尺寸，直接增大配置参数mpared.min.split.size即可。

2.增加输入文件的副本数

如果一个作业并行执行的任务数目非常多，那么这些任务共同的输入文件可能成为瓶颈。为防止多个任务并行读取一个文件内容造成瓶颈，用户可根据需要增加输入文件的副本数目。

3.启动推测执行机制

推测执行是Hadoop对“拖后腿”的任务的一种优化机制，当一个作业的某些任务运行速度明显慢于同作业的其他任务时，Hadoop会在另一个节点上为“慢任务”启动一个备份任务，这样两个任务同时处理一份数据，而Hadoop最终会将优先完成的那个任务的结果作为最终结果，并将另一个任务杀掉。

4.设置失败容忍度

Hadoop运行设置任务级别和作业级别的失败容忍度。作业级别的失败容忍度是指Hadoop允许每个作业有一定比例的任务运行失败，这部分任务对应的输入数据将被忽略；
任务级别的失败容忍度是指Hadoop允许任务失败后再在另外节点上尝试运行，如果一个任务经过若干次尝试运行后仍然运行失败，那么Hadoop才会最终认为该任务运行失败。
用户应该根据应用程序的特点设置合理的失败容忍度，以尽快让作业运行完成和避免没必要的资源浪费。

5.适当打开JVM重用功能

为了实现任务隔离，Hadoop将每个任务放到一个单独的JVM中执行，而对于执行时间较短的任务，JVM启动和关闭的时间将占用很大比例时间，为此，用户可以启用JVM重用功能，这样一个JVM可连续启动多个同类型的任务。

6.设置任务超时时间

如果一个任务在一定的时间内未汇报进度，则TaskTracker会主动将其杀死，从而在另一个节点上重新启动执行。用户可根据实际需要配置任务超时时间。

7.合理使用DistributedCache

一般情况下，得到外部文件有两种方法：一种是外部文件与应用程序jar包一起放到客户端，当提交作业时由客户端上传到HDFS的一个目录下，然后通过Distributed Cache分发到各个节点上；另一种方法是事先将外部文件直接放到HDFS上，从效率上讲，第二种方法更高效。第二种方法不仅节省了客户端上传文件的时间，还隐含着告诉DistributedCache:”请将文件下载到各个节点的pubic级别共享目录中”，这样，后续所有的作业可重用已经下载好的文件，不必重复下载。

8.跳过坏记录

Hadoop为用户提供了跳过坏记录的功能，当一条或几条坏数据记录导致任务运行失败时，Hadoop可自动识别并跳过这些坏记录。

9.提高作业优先级

所有Hadoop作业调度器进行任务调度时均会考虑作业优先级这一因素。作业的优先级越高，它能够获取的资源（slot数目)也越多。Hadoop提供了5种作业优先级，分别为VERY_HIGH、 HIGH、 NORMAL、 LOW、 VERY_LOW。
注：在生产环境中，管理员已经按照作业重要程度对作业进行了分级，不同重要程度的作业允许配置的优先级不同，用户可以擅自进行调整。

10.合理控制Reduce Task的启动时机

如果Reduce Task启动过早，则可能由于Reduce Task长时间占用Reduce slot资源造成”slot Hoarding”现象，从而降低资源利用率；反之，如果Reduce Task启动过晚，则会导致Reduce Task获取资源延迟，增加了作业的运行时间。

三任务级别参数调优

hadoop任务级别参数调优分两个方面: Map Task和Reduce Task。

1.Map Task调优

map运行阶段分为:Read、Map、Collect、Spill、Merge五个阶段。
map 任务执行会产生中间数据,但这些中间结果并没有直接IO到磁盘上,而是先存储在缓存(buffer)中,并在缓存中进行一些预排序来优化整个map的性能,存储map中间数据的缓存默认大小为100M，由io.sort.mb 参数指定。这个大小可以根据需要调整。当map任务产生了非常大的中间数据时可以适当调大该参数,使缓存能容纳更多的map中间数据，而不至于大频率的IO磁盘,当系统性能的瓶颈在磁盘IO的速度上,可以适当的调大此参数来减少频繁的IO带来的性能障碍。
由于map任务运行时中间结果首先存储在缓存中,默认当缓存的使用量达到80%(或0.8)的时候就开始写入磁盘,这个过程叫做spill(也叫溢出),进行spill的缓存大小可以通过io.sort.spill.percent 参数调整，这个参数可以影响spill的频率。进而可以影响IO的频率。
当map任务计算成功完成之后，如果map任务有输出，则会产生多个spill。接下来map必须将些spill进行合并,这个过程叫做merge, merge过程是并行处理spill的,每次并行多少个spill是由参数io.sort.factor指定的默认为10个。但是当spill的数量非常大的时候，merge一次并行运行的spill仍然为10个,这样仍然会频繁的IO处理,因此适当的调大每次并行处理的spill数有利于减少merge数因此可以影响map的性能。
当map输出中间结果的时候也可以配置压缩。

   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5

2. Reduce Task调优

reduce 运行阶段分为shuflle(copy) merge sort   reduce write五个阶段。
shuffle 阶段为reduce 全面拷贝map任务成功结束之后产生的中间结果,如果上面map任务采用了压缩的方式,那么reduce 将map任务中间结果拷贝过来后首先进行解压缩,这一切是在reduce的缓存中做的,当然也会占用一部分cpu。为了优化reduce的执行时间,reduce也不是等到所有的map数据都拷贝过来的时候才开始运行reduce任务，而是当job执行完第一个map任务时开始运行的。reduce 在shuffle阶段 实际上是从不同的并且已经完成的map上去下载属于自己的数据,由于map任务数很多,所有这个copy过程是并行的,既同时有许多个reduce取拷贝map，这个并行的线程是通过mapred.reduce.parallel.copies 参数指定，默认为5个,也就是说无论map的任务数是多少个，默认情况下一次只能有5个reduce的线程去拷贝map任务的执行结果。所以当map任务数很多的情况下可以适当的调整该参数，这样可以让reduce快速的获得运行数据来完成任务。
reduce线程在下载map数据的时候也可能因为各种各样的原因(网络原因、系统原因等），存储该map数据所在的datannode 发生了故障，这种情况下reduce任务将得不到该datanode上的数据了,同时该 download thread 会尝试从别的datanode下载,可以通过mapred.reduce.copy.backoff (默认为30秒)来调整下载线程的下载时间，如果网络不好的集群可以通过增加该参数的值来增加下载时间,以免因为下载时间过长reduce将该线程判断为下载失败。
reduce 下载线程在map结果下载到本地时,由于是多线程并行下载，所以也需要对下载回来的数据进行merge,所以map阶段设置的io.sort.factor 也同样会影响这个reduce的。
同map一样 该缓冲区大小也不是等到完全被占满的时候才写入磁盘而是默认当完成0.66的时候就开始写磁盘操作,该参数是通过mapred.job.shuffle.merge.percent 指定的。
当reduce 开始进行计算的时候通过mapred.job.reduce.input.buffer.percent 来指定需要多少的内存百分比来作为reduce读已经sort好的数据的buffer百分比,该值默认为0。Hadoop假设用户的reduce()函数需要所有的JVM内存，因此执行reduce()函数前要释放所有内存。如果设置了该值，可将部分文件保存在内存中(不必写到磁盘上)。

   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6

总之，Map Task和Reduce Task调优的一个原则就是减少数据的传输量、尽量使用内存、减少磁盘IO的次数、增大任务并行数，除此之外还有根据自己集群及网络的实际情况来调优。

   
   
   
   
    
    
    
    1

三管理员角度调优

管理员负责为用户作业提供一个高效的运行环境。管理员需要从全局出发，通过调整一些关键参数提高系统的吞吐率和性能。总体上来看，管理员需从硬件选择、操作系统参数调优、JVM参数调优和Hadoop参数调优等四个角度入手，为Hadoop用户提供一个高效的作业运行环境。

   
   
   
   
    
    
    
    1

硬件选择
Hadoop自身架构的基本特点决定了其硬件配置的选项。Hadoop采用了Master/Slave架构，其中，master维护了全局元数据信息，重要性远远大于slave。在较低Hadoop版本中，master存在单点故障问题，因此，master的配置应远远好于各个slave。

操作系统参数调优

1.增大同时打开的文件描述符和网络连接上限

使用ulimit命令将允许同时打开的文件描述符数目上限增大至一个合适的值。同时调整内核参数net.core.somaxconn网络连接数目至一个足够大的值。

补充：net.core.somaxconn的作用 
net.core.somaxconn是Linux中的一个kernel参数，表示socket监听（listen）的backlog上限。什么是backlog呢？backlog就是socket的监听队列，当一个请求（request）尚未被处理或建立时，它会进入backlog。而socket server可以一次性处理backlog中的所有请求，处理后的请求不再位于监听队列中。当server处理请求较慢，以至于监听队列被填满后，新来的请求会被拒绝。在Hadoop 1.0中，参数ipc.server.listen.queue.size控制了服务端socket的监听队列长度，即backlog长度，默认值是128。而Linux的参数net.core.somaxconn默认值同样为128。当服务端繁忙时，如NameNode或JobTracker，128是远远不够的。这样就需要增大backlog，例如我们的3000台集群就将ipc.server.listen.queue.size设成了32768，为了使得整个参数达到预期效果，同样需要将kernel参数net.core.somaxconn设成一个大于等于32768的值。

   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4

2.关闭swap分区

避免使用swap分区，提供程序的执行效率。
除此之外，设置合理的预读取缓冲区的大小、文件系统选择与配置及I/O调度器选择等

   
   
   
   
    
    
    
    1
    
    
    
    2

JVM参数调优
由于Hadoop中的每个服务和任务均会运行在一个单独的JVM中，因此，JVM的一些重要参数也会影响Hadoop性能。管理员可通过调整JVM FLAGS和JVM垃圾回收机制提高Hadoop性能。

Hadoop参数调优

1.合理规划资源

设置合理的槽位数目
在Hadoop中，计算资源是用槽位表示的。slot分为两种：Map  Slot和Reduce Slot。每种slot代表一定量的资源，且同种slot是同质的，也就是说，同种slot代表的资源量是相同的。管理员需要根据实际需要为TaskTracker配置一定数目的Map Slot和Reduce Slot数目，从而限制每个TaskTracker上并发执行的Map Task和Reduce Task的数目。
编写健康监测脚本
Hadoop允许管理员为每个TaskTracker配置一个节点健康状况监测脚本。TaskTracker中包含一个专门的线程周期性执行该脚本，并将脚本执行结果通过心跳机制汇报给JobTracker。一旦JobTracker发现某个TaskTracker的当前状况为“不健康”，则会将其加入黑名单，从此不再为它分配任务。

   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4

2. 调整心跳配置

调整心跳的间隔 因根据自己集群的规模适度的调整心跳间隔
启用带外心跳   为了减少任务分配延迟，Hadoop引入了带外心跳。带外心跳不同于常规心跳，它是任务运行结束或者任务运行失败时触发的，能够在出现空闲资源时第一时间通知JobTracker,以便它能够迅速为空闲资源分配新的任务。

除此之外，还包括磁盘块配置、设置合理的RPC Handler和HTTP线程数目、慎用黑名单机制、启用批量任务调度、选择合适的压缩算法、启用预读取机制等。
注：当一个集群的规模较小时，如果一定数量的节点被频繁的加入系统黑名单中，则会大大降低集群的吞吐率和计算能力。

   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5

四：YARN的内存和CPU配置

Hadoop YARN同时支持内存和CPU两种资源的调度，本文介绍如何配置YARN对内存和CPU的使用。

YARN作为一个资源调度器，应该考虑到集群里面每一台机子的计算资源，然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位，具有一定的内存以及CPU资源。

在YARN集群中，平衡内存、CPU、磁盘的资源的很重要的，根据经验，每两个container使用一块磁盘以及一个CPU核的时候可以使集群的资源得到一个比较好的利用。

1、内存配置

关于内存相关的配置可以参考hortonwork公司的文档 Determine HDP Memory Configuration Settings （https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.1.1/bk_installing_manually_book/content/rpm-chap1-11.html）来配置你的集群。

YARN以及MAPREDUCE所有可用的内存资源应该要除去系统运行需要的以及其他的hadoop的一些程序，总共保留的内存=系统内存+HBASE内存。

可以参考下面的表格确定应该保留的内存：

计算每台机子最多可以拥有多少个container，可以使用下面的公式:
containers = min (2*CORES, 1.8*DISKS, (Total available RAM) / MIN_CONTAINER_SIZE)
说明：

CORES 为机器CPU核数
DISKS 为机器上挂载的磁盘个数
Total available RAM 为机器总内存
MIN_CONTAINER_SIZE 是指container最小的容量大小，这需要根据具体情况去设置，可以参考下面的表格
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4

每个container的平均使用内存大小计算方式为：

RAM-per-container = max(MIN_CONTAINER_SIZE, (Total Available RAM) / containers))

通过上面的计算，YARN以及MAPREDUCE可以这样配置：

举个例子：对于128G内存、32核CPU的机器，挂载了7个磁盘，根据上面的说明，系统保留内存为24G，不适应HBase情况下，系统剩余可用内存为104G，计算containers值如下：

containers = min (2*32, 1.8* 7 , (128-24)/2) = min (64, 12.6 , 51) = 13

计算RAM-per-container值如下：

RAM-per-container = max (2, (124-24)/13) = max (2, 8) = 8

这样集群中下面的参数配置值如下：

你也可以使用脚本 yarn-utils.py （https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.1.1/bk_installing_manually_book/content/rpm-chap1-9.html）来计算上面的值：

python yarn-utils.py -c 32 -m 128 -d 7 -k False
   
   
   
   
    
    
    
    1

返回结果如下：

Using cores=32 memory=128GB disks=7 hbase=False
 Profile: cores=32 memory=106496MB reserved=24GB usableMem=104GB disks=7
 Num Container=13
 Container Ram=8192MB
 Used Ram=104GB
 Unused Ram=24GB
 yarn.scheduler.minimum-allocation-mb=8192
 yarn.scheduler.maximum-allocation-mb=106496
 yarn.nodemanager.resource.memory-mb=106496
 mapreduce.map.memory.mb=8192
 mapreduce.map.java.opts=-Xmx6553m
 mapreduce.reduce.memory.mb=8192
 mapreduce.reduce.java.opts=-Xmx6553m
 yarn.app.mapreduce.am.resource.mb=8192
 yarn.app.mapreduce.am.command-opts=-Xmx6553m
 mapreduce.task.io.sort.mb=3276
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13
    
    
    
    14
    
    
    
    15
    
    
    
    16

对应的xml配置为：

<property>
    <name>yarn.nodemanager.resource.memory-mbname>
    <value>106496value>
  property>
  <property>
    <name>yarn.scheduler.minimum-allocation-mbname>
    <value>8192value>
  property>
  <property>
    <name>yarn.scheduler.maximum-allocation-mbname>
    <value>106496value>
  property>
  <property>
    <name>yarn.app.mapreduce.am.resource.mbname>
    <value>8192value>
  property>
  <property>
    <name>yarn.app.mapreduce.am.command-optsname>
    <value>-Xmx6553mvalue>
  property>
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9
    
    
    
    10
    
    
    
    11
    
    
    
    12
    
    
    
    13
    
    
    
    14
    
    
    
    15
    
    
    
    16
    
    
    
    17
    
    
    
    18
    
    
    
    19
    
    
    
    20

另外，还有一下几个参数：

yarn.nodemanager.vmem-pmem-ratio ：任务每使用1MB物理内存，最多可使用虚拟内存量，默认是2.1。
yarn.nodemanager.pmem-check-enabled ：是否启动一个线程检查每个任务正使用的物理内存量，如果任务超出分配值，则直接将其杀掉，默认是true。
yarn.nodemanager.vmem-pmem-ratio ：是否启动一个线程检查每个任务正使用的虚拟内存量，如果任务超出分配值，则直接将其杀掉，默认是true。
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3

第一个参数的意思是当一个map任务总共分配的物理内存为8G的时候，该任务的container最多内分配的堆内存为6.4G，可以分配的虚拟内存上限为8*2.1=16.8G。另外，照这样算下去，每个节点上YARN可以启动的Map数为104/8=13个，似乎偏少了，这主要是和我们挂载的磁盘数太少了有关，人为的调整 RAM-per-container 的值为4G或者更小的一个值是否更合理呢？当然，这个要监控集群实际运行情况来决定了。
CPU配置
YARN中目前的CPU被划分成虚拟CPU（CPU virtual Core），这里的虚拟CPU是YARN自己引入的概念，初衷是，考虑到不同节点的CPU性能可能不同，每个CPU具有的计算能力也是不一样的，比如某个物理CPU的计算能力可能是另外一个物理CPU的2倍，这时候，你可以通过为第一个物理CPU多配置几个虚拟CPU弥补这种差异。用户提交作业时，可以指定每个任务需要的虚拟CPU个数。

在YARN中，CPU相关配置参数如下：

yarn.nodemanager.resource.cpu-vcores ：表示该节点上YARN可使用的虚拟CPU个数，默认是8，注意，目前推荐将该值设值为与物理CPU核数数目相同。如果你的节点CPU核数不够8个，则需要调减小这个值，而YARN不会智能的探测节点的物理CPU总数。
yarn.scheduler.minimum-allocation-vcores ：单个任务可申请的最小虚拟CPU个数，默认是1，如果一个任务申请的CPU个数少于该数，则该对应的值改为这个数。
yarn.scheduler.maximum-allocation-vcores ：单个任务可申请的最多虚拟CPU个数，默认是32。
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3

对于一个CPU核数较多的集群来说，上面的默认配置显然是不合适的，在我的测试集群中，4个节点每个机器CPU核数为32，可以配置为：

<property>
  <name>yarn.nodemanager.resource.cpu-vcoresname>
  <value>32value>
  property>
  <property>
  <name>yarn.scheduler.maximum-allocation-vcoresname>
  <value>128value>
  property>
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8

总结
根据上面的说明，我的测试集群中集群节点指标如下：
每个节点分配的物理内存、虚拟内存和CPU核数如下：
实际生产环境中，可能不会像上面那样设置，比如不会把所有节点的CPU核数都分配给Spark，需要保留一个核留给系统使用；另外，内存上限也会做些设置。

小结

Hadoop 性能调优是一项工程浩大的工作，它不仅涉及Hadoop本身的性能调优，还涉及更底层的硬件、操作系统和Java虚拟机等系统的调优。
总体来说，提高作业运行效率需要Hadoop管理员和作业拥有者共同的努力，其中，管理员负责为用户提供一个高效的作业运行环境，而用户则根据自己作业的特点让它尽可能快地运行完成。

   
   
   
   
    
    
    
    1
    
    
    
    2


	
	
		
			
		
	
	
		
		
		 
			
				
			
			
			
			
			
			发表评论
			
				
				添加代码片
				
				
				
					HTML/XML
					objective-c
					Ruby
					PHP
					C
					C++
					JavaScript
					Python
					Java
					CSS
					SQL
					其它
				
			  
			
				还能输入1000个字符
				
			
		
	


	
	
	                                            淩辰0c0：              楼主大大，CDH版的配置也是这样吗(1个月前#2楼)举报回复
          
        
                                            淩辰0c0：              您好，现在的现在版本的Hadoop 内存配置还是这种机制吗？这篇文档16年的啊(1个月前#1楼)举报回复
          
        
	
上一页
1
下一页

		
		
			
			
					hadoop性能调优与运维				
			
				
					07-16
					
          阅读数 
						3535
					
				
			
				
					
						hadoop性能调优与运维硬件选择操作系统调优与JVM调优hadoop参数调优hive性能调优hadoop运维硬件选择hadoop运行环境如何选择合适的硬件主从节点可靠性：主节点可靠性要好于从节点单节...
					
					  
            博文
                              来自：	 那年花下月如雪
                          
				
		
				



		
		
			
			
					YARN的Memory和CPU调优配置详解				
			
				
					01-13
					
          阅读数 
						1052
					
				
			
				
					
						HadoopYARN同时支持内存和CPU两种资源的调度，本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器，应该考虑到集群里面每一台机子的计算资源，然后根据application...
					
					  
            博文
                              来自：	 微步的博客
                          
				
		
				



		
		
			
			
					Hadoop 性能优化				
			
				
					04-15
					
          阅读数 
						5549
					
				
			
				
					
						Hive性能优化1.概述　　继续《那些年使用Hive踩过的坑》一文中的剩余部分，本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍　...
					
					  
            博文
                              来自：	 AMY行致远的IT
                          
				
		
				



		
		
			
			
					Hadoop性能调优				
			
				
					08-08
					
          阅读数 
						66
					
				
			
				
					
						Hadoop为用户作业提供了多种可配置的参数，以允许用户根据作业特点调整这些参数值使作业运行效率达到最优。 一应用程序编写规范1.设置Combiner    对于一大批MapReduce程序，如果可以...
					
					  
            博文
                              来自：	 邢小成
                          
				
		
				



		
		
			
			
					hdfs+yarn 参数调优				
			
				
					01-16
					
          阅读数 
						5201
					
				
			
				
					
						1.系统参数调整中文名称英文名称默认值推荐值或推荐策略修改命令作用备注socket的监听队列最大值net.core.somaxconn1281024或更大echo1024>/proc/sys/net/...
					
					  
            博文
                              来自：	 qq_19917081的博客
                          
				
		
				



		
		
			
			
					第118讲：Hadoop内存需求量及Namenode内存使用详解学习笔记				
			
				
					10-25
					
          阅读数 
						4359
					
				
			
				
					
						第118讲：Hadoop内存需求量及Namenode内存使用详解学习笔记本期内容：1.hadoop的内存使用2.namenode内存使用详解namenode内存大小涉及到集群的规模。hadoop默认为...
					
					  
            博文
                              来自：	 slq1023的博客
                          
				
		
				



		
		
			
			
					hadoop yarn的内存和cpu参数配置				
			
				
					01-06
					
          阅读数 
						650
					
				
			
				
					
						【导读】还在整理中
					
					  
            博文
                              来自：	 panhongan的专栏
                          
				
		
				



		
		
			
			
					Hadoop集群硬件标准配置				
			
				
					05-11
					
          阅读数 
						2482
					
				
			
				
					
						在我们选择硬件的时候，往往需要考虑应用得到的性能和经费开支。为此，我们必须在满足实际需要和经济可行上找到一个完美的平衡。下面，以Hadoop集群应用为了例子，说明需要考虑的要素。  1.I/O绑定的工...
					
					  
            博文
                              来自：	 用心做事
                          
				
		
				



		
		
			
			
					hadoop进阶---hadoop性能优化(一)---hdfs空间不足的管理优化				
			
				
					03-03
					
          阅读数 
						1635
					
				
			
				
					
						Hadoop空间不足，hive首先就会没法跑了，进度始终是0%。将HDFS备份数降低将默认的备份数3设置为2。步骤：CDH–&amp;gt;HDFS–&amp;gt;配置–&amp;gt;搜索dfs....
					
					  
            博文
                              来自：	 直到世界的尽头
                          
				
		
				


      
			
				
					
						关注
段智华  
 864篇文章
 排名:1000+
关注
Android路上的人  
 316篇文章
 排名:1000+
关注
ZhaoYingChao88  
 395篇文章
 排名:6000+
关注
pany8125  
 42篇文章
 排名:千里之外

					
				
			
  

		
		
			
			
					【工程类】【Hadoop】性能调优方法				
			
				
					04-11
					
          阅读数 
						71
					
				
			
				
					
						当我们写完一个MR程序之后，我们希望能够加快程序的执行速度，那么怎么进行性能的调优呢，有如下几种方法？1、mapper的数量适当调整mapper的数量，使得每个mapper的运行时间在1分钟为宜。因为...
					
					  
            博文
                              来自：	 空空如也
                          
				
		
				



		
		
			
			
					Hive on Spark调优				
			
				
					08-10
					
          阅读数 
						2114
					
				
			
				
					
						之前在HiveonSpark跑TPCx-BB测试时，100g的数据量要跑十几个小时，一看CPU和内存的监控，发现 POWER_TEST阶段（依次执行30个查询）CPU只用了百分之十几，也就是没有把整个...
					
					  
            博文
                              来自：	 窗外的屋檐
                          
				
		
				



		
		
			
			
					hadoop：搭建Hadoop集群，一个月6T的数量需要几台服务器				
			
				
					10-05
					
          阅读数 
						377
					
				
			
				
					
						配置几个namenode,几个datanode,namenode和datanode怎么部署，内存与硬盘大小？？ 			最好是两个做成HA			关于硬盘:			6T的数据容量,看你副本数量设置是多少,一...
					
					  
            博文
                              来自：	 不花的花和尚的博客
                          
				
		
				



		
		
			
			
					Spark性能调优之合理分配系统资源以及并行度的调节				
			
				
					08-07
					
          阅读数 
						269
					
				
			
				
					
						在Spark系统中，调优是非常重要。首先，调优的第一步也是首先要考虑的就是系统的资源，只有在合理、有效的分配完了系统的资源，才会去考虑其他调优点从而提升系统的性能与速度。虽然对于系统的资源的分配，看上...
					
					  
            博文
                              来自：	 不清不慎的博客
                          
				
		
				



		
		
			
			
					Ubuntu14.4安装QQ				
			
				
					03-01
					
          阅读数 
						996
					
				
			
				
					
						Ctrl+Alt+t打开终端：  1、Ubuntu软件中心搜索wine并安装。      命令安装：sudoapt-getinstallwine 2、下载qq：WineQQ7.8-20151109-L...
					
					  
            博文
                              来自：	 Somnus陳的博客
                          
				
		
				



		
		
			
			
					CDH集群调优：内存、Vcores和DRF				
			
				
					08-24
					
          阅读数 
						3339
					
				
			
				
					
						原文URL：http://blog.selfup.cn/1631.html#comment-403吐槽最近“闲”来无事，通过CM把vcores使用情况调出来看了一眼，发现不论集群中有多少个任务在跑，已...
					
					  
            博文
                              来自：	 前进的南山
                          
				
		
				



		
		
			
			
					Hadoop YARN如何调度内存和CPU				
			
				
					09-16
					
          阅读数 
						704
					
				
			
				
					
						HadoopYARN同时支持内存和CPU两种资源的调度（默认只支持内存，如果想进一步调度CPU，需要自己进行一些配置），本文将介绍YARN是如何对这些资源进行调度和隔离的。在YARN中，资源管理由Re...
					
					  
            博文
                              来自：	 zyj8170的专栏
                          
				
		
				



		
		
			
			
					[Hadoop性能调优]				
			
				
					05-11
					
          阅读数 
						9141
					
				
			
				
					
						一、Hadoop概述  随着企业要处理的数据量越来越大，MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现，由于其良好的扩展性和容错性，已得到越来越广泛的应用。 Ha...
					
					  
            博文
                              来自：	 程序车轮
                          
				
		
				



		
		
			
			
					第1章	对运行在YARN上的Spark进行性能调优				
			
				
					06-06
					
          阅读数 
						1312
					
				
			
				
					
						第1章  对运行在YARN上的Spark进行性能调优1.1     运行环境Jar包管理及数据本地性原理调优实践1.1.1运行环境Jar包管理及和数据本地性原理在YARN上运行Spark需要在Spar...
					
					  
            博文
                              来自：	 段智华的博客
                          
				
		
				



		
		
			
			
					yarn进程CPU占用率百分之百				
			
				
					08-06
					
          阅读数 
						670
					
				
			
				
					
						阿里云出现挖矿程序Linux根绝Pid查看进程名top命令查看占用CPU高的进程ps-aux|grepPID号ps-ef|grepPID号查看yarn程序的信息ps-ef|grepyarnyarn46...
					
					  
            博文
                              来自：	 love_lixr的博客
                          
				
		
				



		
		
			
			
					Hadoop性能调优全面总结				
			
				
					10-24
					
          阅读数 
						583
					
				
			
				
					
						一、Hadoop概述随着企业要处理的数据量越来越大，MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现，由于其良好的扩展性和容错性，已得到越来越广泛的应用。Hadoo...
					
					  
            博文
                              来自：	 pansaky的博客
                          
				
		
				



		
		
			
			
					Hadoop集群的配置调优				
			
				
					07-07
					
          阅读数 
						3
					
				
			
				
					
						一、背景Hadoop的集群使用也有些时候了，不过都是小集群的使用（数量小于30台）。在这个过程中不断的进行着配置调优的操作。最早的时候，在网上也没有找到一些合适的配置调优方法，于是，我在这里列举一些基...
					
					  
            博文
                              来自：	 dajuezhao的专栏
                          
				
		
				



		
		
			
			
					为Hadoop集群选择合适的硬件配置				
			
				
					03-10
					
          阅读数 
						6740
					
				
			
				
					
						随着ApacheHadoop的起步，云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件。尽管Hadoop被设计为运行在行业标准的硬件上，提出一个理想的集群配置不想提供硬件规格...
					
					  
            博文
                              来自：	 张伟的专栏
                          
				
		
				



			
		
			
				
					
						hadoop yarn优化配置项生成工具						
					06-06
				
				
						hadoop yarn优化配置项生成工具，需要安装python环境，执行例如：python yarn-utils.py -c 24 -m 256 -d 4					
      下载
			
		
	



		
		
			
			
					查看yarn的container的资源占用情况				
			
				
					01-27
					
          阅读数 
						7050
					
				
			
				
					
						yarn上运行程序是由container来执行的，那么当我们想要知道每台节点对应的container的使用情况时，需要从何入手呢？开始我以为yarn的系统命令会有相应的提示，于是yarn--help，...
					
					  
            博文
                              来自：	 aaa1117a8w5s6d的专栏
                          
				
		
				



		
		
			
			
					Yarn Container计算和MapReduce的内存配置				
			
				
					07-04
					
          阅读数 
						430
					
				
			
				
					
						在Hadoop2.0中,YARN负责管理MapReduce中的资源(内存,CPU等)并且将其打包成Container.这样可以精简MapReduce,使之专注于其擅长的数据处理任务,将无需考虑资源调度...
					
					  
            博文
                              来自：	 王茗灏的专栏
                          
				
		
				



		
		
			
			
					Yarn的Memory和CPU调优配置详解				
			
				
					10-26
					
          阅读数 
						396
					
				
			
				
					
						PPHadoopYarn同事支持内存和CPU两种资源的调度，本文介绍如何配置YARN对内存和CPU的使用。Yarn作为一个资源调度器，应该考虑到集群里面每一台机子的计算资源，然后根据applicati...
					
					  
            博文
                              来自：	 就问你吃不吃药
                          
				
		
				



		
		
			
			
					MapReduce之如何给运行在YARN上的MapReduce作业配置内存				
			
				
					11-18
					
          阅读数 
						1169
					
				
			
				
					
						关于mapreduce程序运行在yarn上时内存的分配一直是一个让我蒙圈的事情，单独查任何一个资料都不能很好的理解透彻。于是，最近查了大量的资料，综合各种解释，终于理解到了一个比较清晰的程度，在这里将...
					
					  
            博文
                              来自：	 happy19870612's blog
                          
				
		
				



		
		
			
			
					CDH集群yarn内存调优				
			
				
					12-06
					
          阅读数 
						208
					
				
			
				
					
						原文地址：http://blog.selfup.cn/1631.html?utm_source=tuicool&amp;amp;utm_medium=referral 吐槽 最近“闲”来无事，通过CM...
					
					  
            博文
                              来自：	 aboth的博客
                          
				
		
				



		
		
			
			
					浅谈YARN中Container容器（内存、CPU分配）				
			
				
					06-08
					
          阅读数 
						2731
					
				
			
				
					
						    前言：hadoop2.x版本和hadoop1.x版本的一个区别就是：hadoop1.x中负责资源和作业调度的是MapReduce，hadoop2.x版本后，MapReduce只专注于计算，资源...
					
					  
            博文
                              来自：	 青青青的博客
                          
				
		
				



		
		
			
			
					spark+yarn调整计算任务的内存占用				
			
				
					11-17
					
          阅读数 
						1966
					
				
			
				
					
						调整的背景公司正式环境有一个小小的spark+hadoop集群，yarn的可用内存只有小小的40G，五个节点，每个节点8G内存，因此需要对每个上线的计算任务占用的资源都要精打细算。写了两个sparks...
					
					  
            博文
                              来自：	 无聊小刚的博客
                          
				
		
				



		
		
			
			
					Hadoop性能调优学习概述				
			
				
					12-29
					
          阅读数 
						2391
					
				
			
				
					
						目的随着企业要处理的数据量越来越大，Hadoop运行在越来越多的集群上，同时MapReduce由于具有高可扩展性和容错性，已经逐步广泛使用开来。因此也产生很多问题，尤其是性能方面的问题。这里从管理员角...
					
					  
            博文
                              来自：	 chndata的专栏
                          
				
		
				



		
		
			
			
					hadoop 性能调优 重要参数设置技巧				
			
				
					12-16
					
          阅读数 
						9441
					
				
			
				
					
						这里主要针对Mapreduce的性能调优。这一两个月在做mapreduce的性能调优，有些心得，还是要记下来的，以郷后人~这里主要涉及的参数包括：HDFS：dfs.block.sizeMapredur...
					
					  
            博文
                              来自：	 fp196391196391的专栏
                          
				
		
				



		
		
			
			
					Hadoop性能调优总结（一）				
			
				
					05-26
					
          阅读数 
						1
					
				
			
				
					
						目的随着企业要处理的数据量越来越大，Hadoop运行在越来越多的集群上，同时MapReduce由于具有高可扩展性和容错性，已经逐步广泛使用开来。因此也产生很多问题，尤其是性能方面的问题。这里从管理员角...
					
					  
            博文
                              来自：	 chndata的专栏
                          
				
		
				



		
		
			
			
					Hadoop参数优化整理				
			
				
					01-27
					
          阅读数 
						2842
					
				
			
				
					
						系统调整1. io.file.buffer.size用来设置缓存的大小。不论是对硬盘或者是网络操作来讲，较大的缓存都可以提供更高的数据传输，但这也就意味着更大的内存消耗和延迟。这个参数要设置为系统页面...
					
					  
            博文
                              来自：	 victory0508的专栏
                          
				
		
				



		
		
			
			
					Hadoop平台架构--存储篇				
			
				
					01-29
					
          阅读数 
						6959
					
				
			
				
					
						Hadoop平台架构--存储篇By whoami 发表于2016-01-25文章目录1. 简介2. 走向分布式3. 存储规划4. HDFS目录规划4.1. linuxos目录规划4.2. linux主...
					
					  
            博文
                              来自：	 张伟的专栏
                          
				
		
				



		
		
			
			
					Hadoop动态调整Map Task内存资源大小				
			
				
					11-23
					
          阅读数 
						5947
					
				
			
				
					
						前言我们都知道,在Hadoop中,一个Job的执行需要转化成1个个的Task去执行,在Task中,有会有2个类型,一个为MapTask,另一个就是ReduceTask.当然,这不是最底层的级别,在Ta...
					
					  
            博文
                              来自：	 走在前往架构师的路上
                          
				
		
				



		
		
			
			
					Hadoop运行因为container的内存大小而抛错				
			
				
					11-09
					
          阅读数 
						4477
					
				
			
				
					
						本文转载自：http://blog.chinaunix.net/uid-25691489-id-5587957.htmlHadoop运行中抛出如下异常：Container[pid=41355,cont...
					
					  
            博文
                              来自：	  LibsKnowledge的博客
                          
				
		
				



		
		
			
			
					如何判定并设置YARN 和MapReduce 内存				
			
				
					08-06
					
          阅读数 
						4555
					
				
			
				
					
						11.1. ManuallyCalculateYARNandMapReduceMemoryConfigurationSettingsThissectiondescribeshowtomanuallyc...
					
					  
            博文
                              来自：	 树蛙PHPER
                          
				
		
				



		
		
			
			
					（转）hadoop yarn 内存相关配置				
			
				
					06-11
					
          阅读数 
						8
					
				
			
				
					
						1.YARN中处理能力的基本单元是什么？2.什么是保留内存？3.4到8GContainer建议多少M？在Hadoop2.0中,YARN负责管理MapReduce中的资源(内存,CPU等)并且将其打包成...
					
					  
            博文
                              来自：	 zhangxiong0301的专栏
                          
				
		
				



		
		
			
			
					hadoop 资源配置与队列设置				
			
				
					10-16
					
          阅读数 
						389
					
				
			
				
					
						yarn集群资源设置资源（1）yarn.nodemanager.resource.memory-mb配置nodemanager节点的可用物理内存，默认是8192（MB），如这台服务器有16G可以考虑分...
					
					  
            博文
                              来自：	 YI依仔的博客
                          
				
		
				



		
		
			
			
					yarn使用cgroup隔离cpu资源				
			
				
					09-05
					
          阅读数 
						1137
					
				
			
				
					
						yarn默认只管理内存资源,虽然也可以申请cpu资源,但是在没有cpu资源隔离的情况下效果并不是太好.在集群规模大,任务多时资源竞争的问题尤为严重.还好yarn提供的LinuxContainerExe...
					
					  
            博文
                              来自：	 leone911的博客
                          
				
		
				



		
		
			
			
					YARN and MapReduce的内存优化配置详解				
			
				
					06-07
					
          阅读数 
						482
					
				
			
				
					
						在Hadoop2.x中,YARN负责管理MapReduce中的资源(内存,CPU等)并且将其打包成Container。使之专注于其擅长的数据处理任务,将无需考虑资源调度.如下图所示          ...
					
					  
            博文
                              来自：	 青青青的博客
                          
				
		
				



		
		
			
			
					yarn中的cgroup调度				
			
				
					09-22
					
          阅读数 
						2961
					
				
			
				
					
						yarn中cgroup的调度
					
					  
            博文
                              来自：	 隔壁老杨的专栏
                          
				
		
				



		
		
			
			
					Hadoop实战：*********MapReduce的性能调优（一）*********				
			
				
					03-22
					
          阅读数 
						2779
					
				
			
				
					
						这里主要涉及的参数包括：HDFS：dfs.block.sizeMapredure：io.sort.mbio.sort.spill.percentmapred.local.dirmapred.map.t...
					
					  
            博文
                              来自：	 探索地理之源 分享GIS价值
                          
				
		
				



		
		
			
			
					hadoop内存大小设置问题				
			
				
					07-13
					
          阅读数 
						9051
					
				
			
				
					
						前面博客里面提到，运行一次hadoop的时候出现javaheaperror。字面意思分配堆的时候出现错误，我们知道应用程序的动态内存的分配均在堆里面。这里提示堆错误，那必然是内存不够用了。那么这个na...
					
					  
            博文
                              来自：	 不积跬步，无以致千里；不积小流，无以成江海
                          
				
		
				



		
		
			
			
					内存小于16GG搭建Hadoop集群的一些个人观点				
			
				
					07-09
					
          阅读数 
						3637
					
				
			
				
					
						很多同鞋在学习大数据过程中，也会在自己电脑上搭建环境，但是内存不足确实是个让人头疼的问题，废话不多说，个人有如下一些想法，分享给大家：1、使用apache原生的hadoop来搭建集群，除了配置繁琐之外...
					
					  
            博文
                              来自：	 Gavin博客专栏
                          
				
		
				



		
		
			
			
					一次hadoop集群机器加内存的运维过程				
			
				
					04-11
					
          阅读数 
						1507
					
				
			
				
					
						由于前期的集群规划问题，导致当前Hadoop集群中的硬件并没有完全利用起来。当前机器的内存CPU比例为2G：1core，但一般的MapReduce任务（数据量处理比较大，逻辑较复杂）的MR两端都需要将...
					
					  
            博文
                              来自：	 clamaa的专栏
                          
				
		
				



		
		
			
			
					设置hadoop各个应用的内存				
			
				
					01-04
					
          阅读数 
						21
					
				
			
				
					
						NameNode、Jobtracker、Datanode、Tasktracker设置 conf/hadoop-env.sh  修改HADOOP_HEAPSIZE值，默认为1000MB，标题中四个应用将...
					
					  
            博文
                              来自：	 The Big Data Way
                          
				
		
				



		
		
			
			
					Spark On YARN内存和CPU分配				
			
				
					01-10
					
          阅读数 
						1
					
				
			
				
					
						本篇博客参考：http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/ 软件版本：CDH：5.7...
					
					  
            博文
                              来自：	 fansy1990的专栏
                          
				
		
				



		
		
			
			
					DELPHI高性能大容量SOCKET并发（一）：IOCP完成端口例子介绍				
			
				
					08-18
					
          阅读数 
						3万+
					
				
			
				
					
						例子主要包括IOCP控件封装、服务端实现、传输协议和日志、控制、SQL查询、上传、下载等协议实现，并包括一些初步的性能测试结果。

服务端：

界面截图如下：

提供服务和桌面方式运行，桌面方式可直接打…

博文
来自： SQLDebug_Fan的专栏

		
		
			
			
					frp配置本地服务端口到服务器80端口				
			
				
					11-30
					
          阅读数 
						1万+
					
				
			
				
					
						搭建环境：

ubuntu 16.04 LTS （本地服务计算机） ubuntu 14.04 LTS(阿里云服务器)
apache tomcat 7
java 7
frp 0.8.1 linux
搭建…

博文
来自： Anteoy的博客

		
		
			
			
					Hbase 布隆过滤器BloomFilter介绍				
			
				
					06-11
					
          阅读数 
						1万+
					
				
			
				
					
						1、主要功能

提高随机读的性能

2、存储开销

bloom filter的数据存在StoreFile的meta中，一旦写入无法更新，因为StoreFile是不可变的。Bloomfilter是…

博文
来自： opensure的专栏

		
		
			
			
					【小程序】微信小程序开发实践				
			
				
					11-07
					
          阅读数 
						13万+
					
				
			
				
					
						帐号相关流程注册范围

企业
政府
媒体
其他组织换句话讲就是不让个人开发者注册。 :)填写企业信息不能使用和之前的公众号账户相同的邮箱,也就是说小程序是和微信公众号一个层级的。填写公司机构信息,对公账…

博文
来自：小雨同学的技术博客

		
		
			
			
					Chrome浏览器 - 抢票插件的制作与插件工具（上）				
			
				
					01-14
					
          阅读数 
						6967
					
				
			
				
					
						关于Chrome浏览器插件的博客有很多，它的应用场景也很多。一般来讲，Chrome浏览器插件分为三大类：ContentScript、Background和Popup，今天来说一下我们都比较关注的一个插...
					
					  
            博文
                              来自：	 KingWTD的专栏
                          
				
		
				



		
		
			
			
					腾讯云的一道面试题----- 一致性Hash算法				
			
				
					03-15
					
          阅读数 
						3771
					
				
			
				
					
						今天在面试腾讯的时候，被面试官问到这块的知识，之前只是了解过，没有真正深入的了解，现在才知道自己的差距，要更加努力的补充这些技术知识了。下面是非常好的这块的资料，和大家一起分享。

一致性 hash …

博文
来自： leishenop的专栏

		
		
			
			
					linux上安装Docker(非常简单的安装方法)				
			
				
					06-29
					
          阅读数 
						14万+
					
				
			
				
					
						最近比较有空，大四出来实习几个月了，作为实习狗的我，被叫去研究Docker了，汗汗！

Docker的三大核心概念：镜像、容器、仓库
镜像：类似虚拟机的镜像、用俗话说就是安装文件。
容器：类似一个轻量…

博文
来自：我走小路的博客

		
		
			
			
					Android百度地图开发（一）之初体验				
			
				
					01-11
					
          阅读数 
						11万+
					
				
			
				
					
						转载请注明出处：

做关于位置或者定位的app的时候免不了使用地图功能，本人最近由于项目的需求需要使用百度地图的一些功能，所以这几天研究了一下，现写一下blog记录一下，欢迎大家评论指正！
一…

博文
来自： crazy_jack

		
		
			
			
					myEclipse10安装以及破解				
			
				
					03-24
					
          阅读数 
						5万+
					
				
			
				
					
						myEclipse10可以去很多地方下载，我这里是从电脑管家下载的，下载完成后安装，安装很简单，不在多说安装完成后会发现你只有一个月的试用时间，我们就需要破解，这里需要下载一个破解补丁https://...
					
					  
            博文
                              来自：	 拥之则安的博客
                          
				
		
				



		
		
			
			
					ThreadLocal的设计理念与作用				
			
				
					09-25
					
          阅读数 
						2万+
					
				
			
				
					
						Java中的ThreadLocal类允许我们创建只能被同一个线程读写的变量。因此，如果一段代码含有一个ThreadLocal变量的引用，即使两个线程同时执行这段代码，它们也无法访问到对方的Thread...
					
					  
            博文
                              来自：	 u011860731的专栏
                          
				
		
				



		
		
			
			
					jquery/js实现一个网页同时调用多个倒计时(最新的)				
			
				
					11-25
					
          阅读数 
						21万+
					
				
			
				
					
						jquery/js实现一个网页同时调用多个倒计时(最新的)

最近需要网页添加多个倒计时. 查阅网络,基本上都是千遍一律的不好用. 自己按需写了个.希望对大家有用. 有用请赞一个哦!

//js
…

博文
来自： websites

		
		
			
			
					【HTTP】Fiddler（一） - Fiddler简介				
			
				
					01-04
					
          阅读数 
						29万+
					
				
			
				
					
						1.为什么是Fiddler?

抓包工具有很多，小到最常用的web调试工具firebug，达到通用的强大的抓包工具wireshark.为什么使用fiddler?原因如下：
a.Firebug虽然可以抓包…

博文
来自：专注、专心

		
		
			
			
					在win7系统硬盘安装Fedora20				
			
				
					02-03
					
          阅读数 
						9178
					
				
			
				
					
						一、实验目的：

在linux系统中塔建一个用eclipse开发的环境（本人的电脑配置一盘，故没打算采用虚拟机的形式），经过网上的一些资料，最终选反了Fedora20版本的，其实可以用U…

博文
来自：汐朔

		
		
			
			
					【图像处理】透视变换 Perspective Transformation				
			
				
					05-26
					
          阅读数 
						11万+
					
				
			
				
					
						透视变换(Perspective Transformation)是将图片投影到一个新的视平面(Viewing Plane)，也称作投影映射(Projective Mapping)。通用的变换公式为：u...
					
					  
            博文
                              来自：	 小魏的修行路
                          
				
		
				



		
		
			
			
					openfire 3.8.2 源码部署 /开发配置 / 二次开发				
			
				
					11-27
					
          阅读数 
						4534
					
				
			
				
					
						最近新搞了openfire 从网上找了很多源码部署的相关文章但都是大同小异，拷贝加修改，我如是按照各个文章版本部署目前最新的3.8.2版本，无一例外，各种报错，头疼死我也，一次次失败，我TMD就想为啥...
					
					  
            博文
                              来自：	 StillCity的专栏
                          
				
		
				



		
		
			
			
					史上最好的LDA(线性判别分析)教程				
			
				
					11-17
					
          阅读数 
						2万+
					
				
			
				
					
						一、前言最近由于研究需要，要用到线性判别分析(LDA)。于是找了很多资料来看，结果发现大部分讲的都是理论知识，因此最后还是看的一知半解，后来终于找到了个英文的文档，作者由PCA引入LDA，看过后豁然开...
					
					  
            博文
                              来自：	 jnulzl的专栏
                          
				
		
				



		
		
			
			
					执行转换时如何让Kettle记录错误并继续执行？——记一种解决方案				
			
				
					05-13
					
          阅读数 
						1万+
					
				
			
				
					
						如题，近几天在利用Kettle进行数据迁移的工作（也就是把数据全量导入到新数据库中，其中有些字段有些许调整），在写好脚本并执行后发现一个很严重的问题——每次脚本在执行到某个位置的时候就会意外停止，如下...
					
					  
            博文
                              来自：	 Amour
                          
				
		
				



		
		
			
			
					expat介绍文档翻译				
			
				
					03-22
					
          阅读数 
						2万+
					
				
			
				
					
						原文地址：http://www.xml.com/pub/a/1999/09/expat/index.html

因为需要用，所以才翻译了这个文档。但总归赖于英语水平很有限，翻译出来的中文有可能…

博文
来自： ymj7150697的专栏

		
		
			
			
					改造动态framework为静态framework				
			
				
					06-22
					
          阅读数 
						1097
					
				
			
				
					
						公司产品之前使用xmpp作为底层库，之前同事编译自己的sdk静态库想生成.a库，但是各种编译问题（其实耐心修改配置都能解决），但是从百度找到方案用framework可以解决，所以最终使用的是frame...
					
					  
            博文
                              来自：	 mingming24的专栏
                          
				
		
				



		
		
			
			
					centos 查看命令源码				
			
				
					11-19
					
          阅读数 
						3万+
					
				
			
				
					
						# yum install yum-utils

设置源:
[base-src]
name=CentOS-5.4 - Base src -
baseurl=http://vault.ce…

博文
来自： linux/unix

		
		
			
			
					你应该知道的9篇深度学习论文（CNNs 理解）				
			
				
					04-08
					
          阅读数 
						3万+
					
				
			
				
					
						当时看到英文的博客，本想翻译给感兴趣的同学们看看，没想到已经有人翻译，于是作个转载，留给自己和更多的人学习。

英文博客：https://adeshpande3.github.io/adeshpan…

博文
来自：以后以后的专栏

		
		
			
			
					Java面试题全集（上）				
			
				
					04-08
					
          阅读数 
						92万+
					
				
			
				
					
						2013年年底的时候，我看到了网上流传的一个叫做《Java面试题大全》的东西，认真的阅读了以后发现里面的很多题目是重复且没有价值的题目，还有不少的参考答案也是错误的，于是我花了半个月时间对这个所谓的《...
					
					  
            博文
                              来自：	 骆昊的技术专栏
                          
				
		
				



		
		
			
			
					关于SpringBoot bean无法注入的问题（与文件包位置有关）				
			
				
					12-16
					
          阅读数 
						10万+
					
				
			
				
					
						问题场景描述整个项目通过Maven构建，大致结构如下：

核心Spring框架一个module spring-boot-base
service和dao一个module server-core
提供系统…

博文
来自：开发随笔

		
		
			
			
					R语言逻辑回归、ROC曲线和十折交叉验证				
			
				
					02-27
					
          阅读数 
						3万+
					
				
			
				
					
						自己整理编写的逻辑回归模板，作为学习笔记记录分享。数据集用的是14个自变量Xi，一个因变量Y的australian数据集。

测试集和训练集3、7分组
australian …

博文
来自： Tiaaaaa的博客

Ubuntu16.04下完美切换Python版本 09-08 阅读数 2万+
转载自http://blog.csdn.net/u013894834/article/details/75305752

Ubuntu16.04下完美切换Python版本（亲测）
对于ubuntu …

博文
来自： beijiu5854的博客

		
		
			
			
					Python(2) 基础语法				
			
				
					09-28
					
          阅读数 
						4004
					
				
			
				
					
						1. 模块1.1. 从某模块导入函数import somemodule

from somemodule import somefunction
from somemodule import somef…

博文
来自：清欢

		
		
			
			
					DirectX修复工具增强版				
			
				
					02-09
					
          阅读数 
						183万+
					
				
			
				
					
						最后更新：2018-12-20

DirectX修复工具最新版：DirectX Repair V3.8 增强版 NEW!

版本号：V3.8.0.11638

大小: 107MB/7z格式压缩，18…

博文
来自： VBcom的专栏

    
        
    
                      
        
        Hadoop          
                              
        
        Hadoop培训          
                              
        
        Hadoop学习          
                              
        
        Hadoop课程          
                              
        
        Hadoop视频教程          
                    
  
              
    
              
        
        c# 内存 获取cpu
      
              
        
        android cpu显示 内存
      
              
        
        c++ 函数 查询cpu和内存
      
              
        
        c# 性能调优工具
      
              
        
        c++ hadoop 编译环境
      
              
        
        python配置图文教程
      
              
        
        python内存挂教程
      
            
  
      


        
            
        
        
            没有更多推荐了，返回首页

你可能感兴趣的:(hadoop)

Hadoop 集群规划与部署最佳实践 AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2009年2月2日，ApacheHadoop项目诞生。它是一个开源的分布式系统基础架构，用于存储、处理和分析海量的数据。Hadoop具有高容错性、可靠性、可扩展性、适应性等特征，因而广泛应用于数据仓库、日志分析、网络流量监测、推荐引擎、搜索引擎等领域。由于Hadoop采用“分而治之”的架构设计理念，因此可以轻松应对数据量、计算能力和存储成本的增长。2013年底，
MySQL 到 Hadoop：Sqoop 数据迁移 ETL Ice星空 ETL
文章目录ETL：Extract-Transform-Load数据迁移过程一、Extract数据抽取1.ODS：OperationalDataStore-可操作数据存储2.DW：DataWarehouse-数据仓库3.DM：DataMart-数据集市二、Transform数据清洗和转换1.数据清洗2.数据转换三、Load数据加载四、数据迁移方法1.Sqoop1.1MySQL->Hive1.1.1im
HBase安装 lianhedaxue Hadoop hbase
HBase安装本章将介绍如何安装HBase和初始配置。需要用Java和Hadoop来处理HBase，所以必须下载java和Hadoop并安装系统中。安装前设置安装Hadoop在Linux环境下之前，需要建立和使用LinuxSSH(安全Shell)。按照下面设立Linux环境提供的步骤。创建一个用户首先，建议从Unix创建一个单独的Hadoop用户，文件系统隔离Hadoop文件系统。按照下面给出创建
HBase的架构介绍，安装及简单操作 pk_xz123456 大数据 hbase 架构数据库
一、HBase安装1.环境准备Java环境：确保系统中已经安装了Java8或更高版本。可以通过在命令行中输入java-version来检查Java版本。Hadoop环境：HBase依赖于Hadoop，需要先安装并配置好Hadoop集群。确保Hadoop的相关服务（如HDFS、YARN等）已经正常启动。2.下载HBase从HBase官方网站（https://hbase.apache.org/）下载适
HDFS相关的面试题努力的搬砖人. java 面试 hdfs
以下是150道HDFS相关的面试题，涵盖了HDFS的基本概念、架构、操作、数据存储、高可用性、权限管理、性能优化、容错机制、与MapReduce的结合、安全性、数据压缩、监控与管理、与YARN的关系、数据一致性、数据备份与恢复等方面，希望对你有所帮助。HDFS基本概念1.HDFS是什么？它的设计目标是什么？•HDFS是Hadoop分布式文件系统，设计目标是实现对大规模数据的高吞吐量访问，适用于一次
hadoop3.x--搭建hadoop高可用集群（HA模式）运维小菜 hadoop hadoop hdfs
hadoop高可用集群（HA模式）一、安装前1.集群规划2.安装前配置3.安装jdk与hadoop4.克隆虚拟机与互信配置5.搭建zookeeper集群二、HDFS1.配置hdfs2.初始化启动hdfs集群三、MapReduce与Yarn1.配置MapReduce2.配置yarn3.启动yarn四、验证1.查看java进程2.hdfs与yarn前台页面一、安装前1.集群规划hostnameipNN
在虚拟机上安装Hadoop 杜清卿 hadoop
基本步骤与安装java一致:先用finalshell将hadoop-3.1.3.tar.gz导入到opt目录下面的software文件夹下面，然后解压,最后配置环境变量。1.使用finalshell上传。这里直接鼠标拖动操作即可。2.解压。进入到Hadoop安装包路径下，cd/opt/software/，再解压安装文件到/opt/module下，对应的命令是:tar-zxvfhadoop-.1.3
hadoop集群配置-scp拓展使用杜清卿 hadoop 服务器大数据
任务1：在hadoop102上，将hadoop101中/opt/module/hadoop-3.1.3目录拷贝到hadoop102上。分析：使用scp进行拉取操作：先登录到hadoop2使用命令：scp-rroot@hadoop101:/opt/module/hadoop-3.1.3/opt/module/任务2：在hadoop101上操作，将hadoop100中/opt/module目录下所有目
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
ssh命令满分对我强制爱 linux 服务器运维 spark
ssh命令无需密码也可登录要先关闭防火墙，命令如下：systemctlstopfirewalldsystemctldisablefirewalldsystemctlstatusfirewalldeg：目标：hadoop100通过ssh访问hadoop101,hadoop102时不需要密码，其他两台设备也类似。具体操作如下：1.在hadoop100中生成公钥和密码。ssh-keygen-trsa三次
Hive面试题御风行云天面试题大全 hive hadoop 数据仓库面试
Hive面试题1Hive基础概念1.1解释Hive是什么以及它的用途Hive的主要用途：1.2描述Hive架构和组件1.HiveCLI/Beeline和WebUI2.HiveQL3.HiveDriver（驱动）4.Metastore5.Compiler（编译器）6.Optimizer（优化器）7.Executor（执行器）8.HadoopCoreComponents（核心组件）9.HiveUDFs
#Hadoop全分布式安装 #mysql安装 #hive安装砸吧砸吧 hadoop hive yarn mysql
分布式（多台机器部署不同组件）与集群（多台机器部署相同组件）概念。Linux基础命令linux具有文件数：目录、文件，从根目录开始，路径具有唯一性。pwd：显示当前路径特殊符号：/：根目录.：隐藏文件，如果路径以.开始，表示当前目录下..：当前目录下的上一级~：当前目录的home目录--help：帮助命令使用linux常用操作命令tab键：自动补全ls：显示指定目录内容默认：当前路径-a：显示所有
Hadoop（在Linux中安装jdk）錠诗味 linux hadoop 运维
安装之前需准备：1.需要远程连接软件2.需要jdk3.需要准备两个文件夹01/export/software安装包02/export/servers解压文件夹现在正式开始安装1.将压缩包存放在/export/software目录下2.进入到software目录进行解压cd/export/software（切换目录）tar-zxvfjdk-8u202-linux-x64.tar.gz-C/expor
数据仓库和非结构化数据。 weixin_30631587 数据库
数据仓库包含标准化数据。还包含外部数据/非结构化数据如果外部数据量小可以保持数据库内部或者专用服务器。如果量大只能记住地址，在etl加载当然也有需求是实时数据比如股票汇率拿只能etl过程处理非结构化数据包含图片，视频音频如果是传统数据库db2oracle存在里面是不合适的。存储影响性能如果是hadoop无所谓影响不大，但是从使用者的角度非结构化数据只能转换关系使用建一张元数据表存储非结构化存储位置
CentOS 7系统中hadoop的安装和环境配置代码小张z centos hadoop linux
1.创建Hadoop安装解压路径：mkdir-p/usr/hadoop2.进入路径：cd/usr/hadoop3.下载安装包（我这里用的是阿里云镜像压缩包）：wgethttps://mirrors.aliyun.com/apache/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz4.解压安装包到hadoop文件路径：tar-zxvf/usr/hadoo
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
Hadoop 实战笔记（二）-- HDFS 常用 shell 命令总结 dazhong2012 Hadoop hdfs hadoop
一、HDFS命令显示当前目录结构#显示当前目录结构hadoopfs-ls#递归显示当前目录结构hadoopfs-ls-R#显示根目录下内容hadoopfs-ls/创建目录#创建目录hadoopfs-mkdir#递归创建目录hadoopfs-mkdir-p删除操作#删除文件hadoopfs-rm#递归删除目录和文件hadoopfs-rm-R从本地加载文件到HDFS#二选一执行即可hadoopfs-p
How Spark Read Sftp Files from Hadoop SFTP FileSystem IT•轩辕 Cloudy Computation spark hadoop 大数据
GradleDependenciesimplementation('org.apache.spark:spark-sql_2.13:3.5.3'){excludegroup:"org.apache.logging.log4j",module:"log4j-slf4j2-impl"}implementation('org.apache.hadoop:hadoop-common:3.3.4'){exc
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Spark集群启动与关闭陈沐 spark spark hadoop big data
Hadoop集群和Spark的启动与关闭Hadoop集群开启三台虚拟机均启动ZookeeperzkServer.shstartMaster1上面执行启动HDFSstart-dfs.shslave1上面执行开启YARNstart-yarn.shslave2上面执行开启YARN的资源管理器yarn-daemon.shstartresourcemanager(如果nodeManager没有启动(正常情况
Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive hadoop 数据仓库
目录背景‌一、Hive函数分类与核心函数表‌1.内置函数分类‌2.用户自定义函数（UDF）分类二、常用函数详解与实战案例‌1.数学函数‌2.字符串函数‌3.窗口函数‌4.自定义UDF实战‌三、总结与优化建议‌1.核心总结2.性能优化建议‌3.常问问题背景‌Hive作为Hadoop生态中最常用的数据仓库工具，其强大的函数库是高效处理和分析海量数据的核心能力之一。Hive函数分为‌内置函数‌和‌用户自
Hadoop MapReduce 词频统计（WordCount）代码解析教程我不是少爷. Java基础 hadoop mapreduce 大数据
一、概述这是一个基于HadoopMapReduce框架实现的经典词频统计程序。程序会统计输入文本中每个单词出现的次数，并将结果输出到HDFS文件系统。二、代码结构packagecom.bigdata.wc;//Hadoop核心类库导入importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;//数据类型定义
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路 Echo_Wish 大数据大数据 hadoop spark
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路说起大数据技术，Hadoop和Spark可以说是这个领域的两座里程碑。Hadoop曾是大数据的开山之作，而Spark则带领我们迈入了一个高效、灵活的大数据处理新时代。那么，它们的演变过程到底有何深意？背后技术上的取舍和选择，又意味着什么？一、Hadoop：分布式存储与计算的奠基者Hadoop诞生于互联网流量爆发式增长的时代，
hadoop集群关闭命令顺序_启动和关闭Hadoop集群命令步骤氪老师 hadoop集群关闭命令顺序
启动和关闭Hadoop集群命令步骤总结：1.在master上启动hadoop-daemon.shstartnamenode.2.在slave上启动hadoop-daemon.shstartdatanode.3.用jps指令观察执行结果.4.用hdfsdfsadmin-report观察集群配置情况.5.通过http://npfdev1:50070界面观察集群运行情况.(如果遇到问题看https://
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

Hadoop性能调优、YARN的内存和CPU配置

Hadoop性能调优、YARN的内存和CPU配置

一 应用程序编写规范

1.设置Combiner

2. 选择合理的Writable类型

二 作业级别参数调优

1.规划合理的任务数目

2.增加输入文件的副本数

3.启动推测执行机制

4.设置失败容忍度

5.适当打开JVM重用功能

6.设置任务超时时间

7.合理使用DistributedCache

8.跳过坏记录

9.提高作业优先级

10.合理控制Reduce Task的启动时机

三 任务级别参数调优

1.Map Task调优

2. Reduce Task调优

三 管理员角度调优

1.增大同时打开的文件描述符和网络连接上限

2.关闭swap分区

1.合理规划资源

2. 调整心跳配置

四：YARN的内存和CPU配置

1、内存配置

小结

Hadoop性能调优总结

hadoop性能调优与运维

YARN的Memory和CPU调优配置详解

Hadoop 性能优化

Hadoop性能调优

hdfs+yarn 参数调优

第118讲：Hadoop内存需求量及Namenode内存使用详解学习笔记

hadoop yarn的内存和cpu参数配置

Hadoop集群硬件标准配置

hadoop进阶---hadoop性能优化(一)---hdfs空间不足的管理优化

段智华

Android路上的人

ZhaoYingChao88

pany8125

【工程类】【Hadoop】性能调优方法

Hive on Spark调优

hadoop：搭建Hadoop集群，一个月6T的数量需要几台服务器

Spark性能调优之合理分配系统资源以及并行度的调节

Ubuntu14.4安装QQ

CDH集群调优：内存、Vcores和DRF

Hadoop YARN如何调度内存和CPU

[Hadoop性能调优]

第1章 对运行在YARN上的Spark进行性能调优

yarn进程CPU占用率百分之百

Hadoop性能调优全面总结

Hadoop集群的配置调优

为Hadoop集群选择合适的硬件配置

hadoop yarn优化配置项生成工具

查看yarn的container的资源占用情况

Yarn Container计算和MapReduce的内存配置

Yarn的Memory和CPU调优配置详解

MapReduce之如何给运行在YARN上的MapReduce作业配置内存

CDH集群yarn内存调优

浅谈YARN中Container容器（内存、CPU分配）

spark+yarn调整计算任务的内存占用

Hadoop性能调优学习概述

hadoop 性能调优 重要参数设置技巧

Hadoop性能调优总结（一）

Hadoop参数优化整理

Hadoop平台架构--存储篇

Hadoop动态调整Map Task内存资源大小

Hadoop运行因为container的内存大小而抛错

如何判定并设置YARN 和MapReduce 内存

（转）hadoop yarn 内存相关配置

hadoop 资源配置与队列设置

yarn使用cgroup隔离cpu资源

YARN and MapReduce的内存优化配置详解

yarn中的cgroup调度

Hadoop实战：*********MapReduce的性能调优（一）*********

hadoop内存大小设置问题

内存小于16GG搭建Hadoop集群的一些个人观点

一次hadoop集群机器加内存的运维过程

设置hadoop各个应用的内存

一应用程序编写规范

二作业级别参数调优

三任务级别参数调优

三管理员角度调优

第1章对运行在YARN上的Spark进行性能调优

hadoop 性能调优重要参数设置技巧