王一1995

[Hadoop]万字长文Hadoop相关优化和问题排查总结

写文章的背景
namenode频繁切换的原因
namenode HA 如何实现，关键技术难题是什么？
namenode优化
namenode内存生产配置
NameNode心跳并发配置
开启回收站配置
datanode的优化
hdfs调优
hadoop的优化
YARN 的优化
HDFS调优的基本原则
HDFS调优的常用参数
排查哪个任务的cpu占用高
hdfs查询慢的原因
怎样判断是否是数据倾斜
集群重启任务自动重启
hadoop宕机
Hadoop解决数据倾斜方法
hdfs多目录
- NameNode多目录配置
- DataNode多目录配置
HDFS 的源码主要包括
大数据组件的异常定位方法
HDFS的二次开发
面试官问我的问题：hdfs同步几个副本算写入成功

写文章的背景

最近面试了一家公司，大数据平台研发的。面试的内容主要是运维和运维开发工作，排查项目中的问题点，目的是提高hadoop集群的性能，我把面试题总结了一下。虽然开发工程不会全面的遇到下面的问题，就做个总结，分享一下，供个人的知识部分吧。

namenode频繁切换的原因

原因可能如下：
1.负载过重：在集群中的任务过多，可能会导致任务的负载过重，并导致频繁切换。
2。内存不足：当集群中处理的数据量多大，可能会导致内存不足，并导致namenode频繁切换。
3.垃圾回收：如果jvm的回收频率过高，也可能导致namenode频繁切换。
4.网络问题：如果namenode和datanode之间的网络连接出现问题，可能会导致namenode的频繁切换。
解决办法
1.增加集群资源：通过增加节点或调整配置来增加集群资源，从而降低负载；
2.调整jvm参数：可以尝试减少垃圾回收的频率，提高namenode性能；
3.检查网络连接：检查是否稳定，如ping操作

案例：在短时间内创建或删除了大量文件，引发了active NN节点频繁更新本地内存的数据结构，这会导致RPC的处理时长增加，CallQueue中的rpcCall堆积（严重的情况下会撑满CallQueue），从而导致active状态的NN长时间不响应ZKFC的HealthMonitor子进程，于是ActiveStandbyElector就会断开与ZooKeeper的连接，从而释放锁，于是master2节点上的ActiveStandbyElector就会从zookeeper争抢锁，抢到锁之后的NN就会从standby转换成active状态。

案例解决办法：先调高NameNode的参数ha.health-monitor.rpc-timeout.ms值，该参数位于core-site.xml文件中，此参数是指ZKFC的健康检查超时的时长，默认值45000ms，现已修改为120000ms（2分钟）。改完NN参数后，需要重启相关的NameNode。另外，如果内存足够，可以顺便把两个NameNode的heap size适当调大一些。
参考：案例参考地址

namenode HA 如何实现，关键技术难题是什么？

如何保持主和备NameNode的状态同步，并让Standby在Active挂掉后迅速提供服务，namenode启动比较耗时，包括加载fsimage和editlog（获取file to block信息），处理所有datanode第一次blockreport（获取block to datanode信息），保持NN的状态同步，需要这两部分信息同步。
脑裂（split-brain），指在一个高可用（HA）系统中，当联系着的两个节点断开联系时，本来为一个整体的系统，分裂为两个独立节点，这时两个节点开始争抢共享资源，结果会导致系统混乱，数据损坏。

ZKFC的设计
1. FailoverController实现下述几个功能
(a) 监控NN的健康状态
(b) 向ZK定期发送心跳，使自己可以被选举。
(c) 当自己被ZK选为主时，active FailoverController通过RPC调用使相应的NN转换为active。

2. 为什么要作为一个deamon进程从NN分离出来
(1) 防止因为NN的GC失败导致心跳受影响。
(2) FailoverController功能的代码应该和应用的分离，提高的容错性。
(3) 使得主备选举成为可插拔式的插件。

3. FailoverController主要包括三个组件，
(1) HealthMonitor 监控NameNode是否处于unavailable或unhealthy状态。当前通过RPC调用NN相应的方法完成。
(2) ActiveStandbyElector 管理和监控自己在ZK中的状态。
(3) ZKFailoverController 它订阅HealthMonitor 和ActiveStandbyElector 的事件，并管理NameNode的状态。

NameNode切换对外透明，主Namenode切换到另外一台机器时，不应该导致正在连接的客户端失败，主要包括Client，Datanode与NameNode的链接。

namenode优化

定期检查namenode日志并了解日志中可能出现的问题。
对namenode进行内存优化，将资源分配给namenode节点，提高namenode的性能。
合理调整namenode的计算资源，以减少系统的延迟。
合理调整namenode的数据块大小，使数据块的大小能够满足存储的要求。
合理调整namenode的缓存大小，以改善系统的性能。
合理调整namenode的同步设置，以减少系统的延迟。
将namenode的安全设置更新为最新版本，以确保namenode的安全性。
定期备份namenode以防止意外数据丢失。

namenode内存生产配置

1）NameNode内存计算
每个文件块大概占用150byte，一台服务器128G内存为例，能存储多少文件块呢？
128 * 1024 * 1024 * 1024 / 150Byte ≈ 9.1亿
G MB KB Byte
2）Hadoop2.x系列，配置NameNode内存
NameNode内存默认2000m，如果服务器内存4G，NameNode内存可以配置3g。在hadoop-env.sh文件中配置如下。
HADOOP_NAMENODE_OPTS=-Xmx3072m
3）Hadoop3.x系列，配置NameNode内存
（1）hadoop-env.sh中描述Hadoop的内存是动态分配的

# The maximum amount of heap to use (Java -Xmx).  If no unit
# is provided, it will be converted to MB.  Daemons will
# prefer any Xmx setting in their respective _OPT variable.
# There is no default; the JVM will autoscale based upon machine
# memory size.
# export HADOOP_HEAPSIZE_MAX=

# The minimum amount of heap to use (Java -Xms).  If no unit
# is provided, it will be converted to MB.  Daemons will
# prefer any Xms setting in their respective _OPT variable.
# There is no default; the JVM will autoscale based upon machine
# memory size.
# export HADOOP_HEAPSIZE_MIN=
HADOOP_NAMENODE_OPTS=-Xmx102400m

（2）查看NameNode占用内存

[hadoop102 ~]$ jps
3088 NodeManager
2611 NameNode
3271 JobHistoryServer
2744 DataNode
3579 Jps
[hadoop102 ~]$ jmap -heap 2611
Heap Configuration:
   MaxHeapSize              = 1031798784 (984.0MB)

（3）查看DataNode占用内存

jmap -heap 2744

查看发现hadoop102上的NameNode和DataNode占用内存都是自动分配的，且相等。不是很合理。

具体修改：
hadoop-env.sh

export HDFS_NAMENODE_OPTS="-Dhadoop.security.logger=INFO,RFAS -Xmx1024m"

export HDFS_DATANODE_OPTS="-Dhadoop.security.logger=ERROR,RFAS -Xmx1024m"

NameNode心跳并发配置

1）hdfs-site.xml

The number of Namenode RPC server threads that listen to requests from clients. If dfs.namenode.servicerpc-address is not configured then Namenode RPC server threads listen to requests from all nodes.

NameNode有一个工作线程池，用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。
对于大集群或者有大量客户端的集群来说，通常需要增大该参数。默认值是10。


    dfs.namenode.handler.count
    21

企业经验：dfs.namenode.handler.count=20×〖log〗_e^(Cluster Size)，比如集群规模（DataNode台数）为3台时，此参数设置为21。可通过简单的python代码计算该值，代码如下。

[hadoop102 ~]$ sudo yum install -y python
[hadoop102 ~]$ python
Python 2.7.5 (default, Apr 11 2018, 07:36:10) 
[GCC 4.8.5 20150623 (Red Hat 4.8.5-28)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import math
>>> print int(20*math.log(3))
21
>>> quit()

开启回收站配置

开启回收站功能，可以将删除的文件在不超时的情况下，恢复原数据，起到防止误删除、备份等作用。
1）回收站工作机制

2）开启回收站功能参数说明
（1）默认值fs.trash.interval = 0，0表示禁用回收站；其他值表示设置文件的存活时间。
（2）默认值fs.trash.checkpoint.interval = 0，检查回收站的间隔时间。如果该值为0，则该值设置和fs.trash.interval的参数值相等。
（3）要求fs.trash.checkpoint.interval <= fs.trash.interval。
3）启用回收站
修改core-site.xml，配置垃圾回收时间为1分钟。


    fs.trash.interval
    1

4）查看回收站
回收站目录在HDFS集群中的路径：/user/root/.Trash/….
5）注意：通过网页上直接删除的文件也不会走回收站。
6）通过程序删除的文件不会经过回收站，需要调用moveToTrash()才进入回收站

Trash trash = New Trash(conf);
trash.moveToTrash(path);

7）只有在命令行利用hadoop fs -rm命令删除的文件才会走回收站。

[hadoop102 hadoop-3.1.3]$ hadoop fs -rm -r /user/root/input
2021-07-14 16:13:42,643 INFO fs.TrashPolicyDefault: Moved: 'hdfs://hadoop102:9820/user/atguigu/input' to trash at: hdfs://hadoop102:9820/user/atguigu/.Trash/Current/user/atguigu/input

8）恢复回收站数据

[hadoop102 hadoop-3.1.3]$ hadoop fs -mv
/user/atguigu/.Trash/Current/user/atguigu/input    /user/atguigu/input

datanode的优化

1、提高内存配置：提高内存可以降低磁盘的访问次数，缩短IO等待的时间，提高系统的IO处理能力，提高数据节点的性能。

2、增加磁盘数量或更换更快的存储设备：增加磁盘数量可以将数据分散到不同的磁盘上，减少I/O竞争，提高磁盘的吞吐量；更换更快的存储设备可以提高数据节点的性能。

3、修改配置文件：针对datanode空间不足的情况，可以调整dfs.datanode.du.reserved和dfs.datanode.max.xcievers配置，以保证文件系统的稳定性，提高数据节点的性能。

4、调整block size：调整block size可以提高磁盘I/O的效率，提高数据节点的性能。

5、禁用磁盘预读：禁用磁盘预读可以减少磁盘I/O的次数，提高数据节点的性能。

hdfs调优

1、优化NameNode
（1）增大NameNode的内存
由于大量的文件操作，NameNode的内存压力会变得很大，要提高NameNode的性能，首先要考虑的是增大NameNode的内存。可以通过更改hadoop-env.sh文件中的HADOOP_NAMENODE_OPTS参数来增大NameNode的内存。

（2）增大NameNode的存储空间
为了支持更多的文件操作，可以考虑增加NameNode的存储空间，这样可以提高hdfs的性能。可以通过更改hdfs-site.xml文件中的dfs.name.dir参数来增加NameNode的存储空间。

2、优化DataNode
（1）增大DataNode的内存
DataNode的内存压力也会很大，可以通过更改hadoop-env.sh文件中的HADOOP_DATANODE_OPTS参数来增大DataNode的内存。

（2）增大DataNode的存储空间
为了支持更多的数据存储，可以考虑增加DataNode的存储空间，这样可以提高hdfs的性能。可以通过更改hdfs-site.xml文件中的dfs.data.dir参数来增加DataNode的存储空间。

（3）增加DataNode的数量
为了提高hdfs的性能，可以考虑增加DataNode的数量，这样可以提高文件存储和访问的性能。可以通过更改hdfs-site.xml文件中的dfs.datanode.data.dir参数来增加DataNode的数量。

3、优化文件系统
（1）增大文件系统的块大小
为了提高文件的访问性能，可以考虑增大文件系统的块大小，这样可以减少文件存储和访问的次数，提高hdfs的性能。可以通过更改hdfs-site.xml文件中的dfs.block.size参数来增大文件系统的块大小。

（2）减少文件系统

hadoop的优化

1.块大小调整：hdfs默认块大小是128mb，根据不同应用的数据访问模式和节点硬件特性等因素，可能需要调整块大小。如果文件的访问模式以顺序读取为主，那么增大块大小可以提高I/O吞吐量；如果文件的访问模式以读取为主，那么缩小块大小可以减少数据的读取延迟。
2.副本数的设置：副本数指的是每个数据块在hdfs中存储的备份数，默认为3.可以根据数据的重要性，节点的可靠性等因素来设置副本数。
3.数据压缩：对于一些数据类型可以使用压缩技术，如snappy，lzo等。在保证数据可读性的前提下，通过压缩可以减少磁盘空间占用和网络传输带宽。
4.预热机制：通过预先将热点数据放置到内存中，可以避免冷启动时数据加载导致的性能问题。这可以通过使用Hadoop cache 或者memcached等工具实现。
5. 节点管理优化：包括优化节点的磁盘和内存配置，以及定期进行节点健康度检查和数据块均衡等。
6. 使用SSD：如果条件允许，可以将部分数据或元数据存储在 SSD上，以提高 HDFS的访问速度。

YARN 的优化

对于 YARN 的优化，可以从以下几个方面入手：

资源管理器配置调整：通过调整资源管理器参数来优化 YARN 的性能。例如，可以设置最大内存、最大 CPU使用率等。
2.容器预启动：YARN 支持在应用程序提交之前预先启动一定数量的容器，以加速应用程序的启动时间。
使用本地化和数据本地性：通过优化数据本地性，可以减少网络传输的开销。例如，可以将作业分配到与数据源相同机架上的节点上运行，或者使用 HDFS 缓存来提高数据访问效率。
任务并发度调整：可以根据集群资源和任务类型等因素来适当调整任务并发度，以充分利用集群资源，并避免过度抢占资源导致的性能下降。
使用预留内存：为子避免由于JM垃圾回收等造成的应用程序暂停，可以设置 YARN预留一定量的内存，使应用程序可用内存更加稳定。
6.节点监控和故障转移：使用节点监控工具(如Nagios）和故障转移机制，可以及时检测节点故障并快速转移任务。

HDFS调优的基本原则

（1）根据HDFS的应用场景调整HDFS配置参数，使其可以满足应用场景的要求；

（2）调优时要注意参数之间的依赖性关系，避免出现调优参数之间的冲突；

（3）调优时需要考虑硬件环境，例如网络带宽、服务器内存、CPU等；

（4）尽可能少的调整HDFS配置参数，相同参数可以使用相同的值；

（5）不要过度调优，调优以后应该全面检查系统的稳定性和性能，确认是否达到调优的目标。

HDFS调优的常用参数

（1）dfs.namenode.handler.count：HDFS的NameNode处理请求的线程数，默认是10；

（2）dfs.namenode.max.objects：HDFS的NameNode在内存中存储的文件最多数量，默认是10 000；

（3）dfs.namenode.replication.min：HDFS的NameNode最小副本数，默认是1；

（4）dfs.datanode.max.transfer.threads：HDFS的DataNode的最大传输线程数，默认是40；

（5）dfs.datanode.socket.write.timeout：HDFS的DataNode写Socket超时时间，单位为毫秒，默认是180000；

（6）dfs.blocksize：HDFS的块大小，单位为字节，默认是67108864；

（7）dfs.namenode.safemode.threshold-pct：HDFS的NameNode安全模式的阈值，单位为百分比，默认是0.999；

（8）dfs.namenode.safemode.extension：HDFS的NameNode安全模式的延长时间，单位为秒，默认是30000；

（9）dfs.namenode.accesstime.precision

排查哪个任务的cpu占用高

在Linux 系统中，可以通过 top 命令查看当前系统的进程情况，并按照 CPU 占用率进行排序。
具体操作如下：

打开终端窗口，输入top命令后回车，即可显示当前系统的进程情況。
2.按下键盘上的P键，可以按照 CPU 占用率降序排列进程列表，这样就可以快速找到占用CPU较高的进程。
如果需要查看某个特定进程的 CPU 占用情况，可以根据进程的 PID 进行过滤。按下键盘上的F键，然后选择“PID”，输入要查看的进程的 PID 后，即可只显示该进程的CPU 占用情況。
在top界面下，可以使用h、？或者H键查看帮助信息，了解更多可用的命令和选项。
注意：top 命令默认是实时刷新的，如果需要指定刷新周期，可以使用-d选项来设置。例如，top-d 5 表示每隔5 秒钟刷新一次。

hdfs查询慢的原因

HDFS 查询慢的原因可能有很多，以下是一些常见的原因：

数据规模过大：如果查询的数据量非常大，可能会导致查询时需要大量时间来扫描数据块和进行网络传输，从而导致查询变慢。
2.块大小设置不合理：如果块大小设置过小，可能会导致数据块数量过多，增加了查询的开销；而如果块大小设置过大，则可能会导致数据块间的网络传输时间过长。
访问热点数据节点较远：如果访问的热点数据所在的节点距离查询节点较远，可能会导致查询的网络传输延迟较大，从而导致查询变慢。
集群资源不足：如果集群中的资源不足，可能会导致任务之间相互竞争资源，从而导致查询性能下降。
硬件故障：如果节点硬件出现故障，例如磁盘损坏、网络断连等，可能会影响查询的执行效率。

解决这些问题的方法可能包括：

优化查询语句：根据查询的需求和数据特征，优化查询语句，减少数据扫描范围。
调整块大小：根据实际情況调整 HDFS 的块大小，以达到最佳的查询性能。
数据本地性优化：使用 HDFS 缓存或将作业分配到与数据源相同机架上的节点上运行，以提高数据访问效率。
增加集群资源：通过增加节点或者调整配置来增加集群资源，从而提高查询性能。
定期维护硬件：对于经常出现硬件故障的节点，可以考虑及时维护或更换，以保证节点的正常运行。
总之，要解决 HDFS 查询慢的问题，需要仔细分析并找到根本原因，然后采取相应的措施来解决问题。

怎样判断是否是数据倾斜

在大数据处理中，数据倾斜是指某个或某些任务所处理的数据量远远大于其他任务的情況。判断数据倾斜可以从以下几个方面入手：

任务执行时间不均衡：如果同一批作业中有部分任务运行时间明显高于其他任务，则可能存在数据倾斜的情況。
2.任务进度不均衡：如果同一批作业中有部分任务完成进度远远落后于其他任务，则也可能存在数据倾斜的情况。
记录数不均衡：如果同一批数据集中某些记录被访问的频率明显高于其他记录，则可能存在数据倾斜的情況。
数据分布不均衡：如果同一分区内的数据量远远大于其他分区，则可能存在数据倾斜的情况。
运行日志异常：如果作业的运行日志中出现了大量的错误、超时、重试等异常信息，则可能存在数据倾斜的情况。
如果出现以上情况，就需要进一步排查是否存在数据倾斜问题。常用的排查方法包括：
查看作业日志：根据作业的日志信息，找到运行时间长的任务，并检查它们处理的数据是否异常。
统计数据分布：通过Hive 或 Spark 等计算框架提供的统计功能，查看数据分布是否均衡。
分析执行计划：通过分析作业的执行计划找到处理数据的热点任务，并考虑采取合适的优化措施来解决数据倾斜问题。
增加分区：对于数据分布不均衡的情况，可以尝试增加分区，以达到更好的负载均衡效果.
总之，要判断数据倾斜，需要综合考虑多种因素，并根据实际情况采取相应的优化措施，以提高作业的性能和稳定性。

集群重启任务自动重启

集群重启任务自动重启的实现方式可以通过在集群管理系统中设置自动重启策略，具体包括以下几个步骤：
1.在集群管理系统中创建一个自动重启策略。
2. 将需要自动重启的任务添加到该重启策略中。
3. 配置任务自动重启的规则，如自动重启次数、时间间隔等。
4. 启用自动重启策略，使其生效。
这样配置后，当集群重启时，自动重启策略会自动将任务重新启动，确保任务的连续性和稳定性。

hadoop宕机

硬件故障：Hadoop集群的硬件是由许多节点组成的，它们之间的网络连接也非常重要。如果某一台节点的硬件出现故障，那么整个Hadoop集群将会宕机。
软件故障：Hadoop的软件也可能出现故障，这可能会导致整个集群宕机。例如，如果NameNode或DataNode出现故障，那么整个集群就会宕机。
网络故障：Hadoop集群上的所有节点都需要连接到网络，如果网络出现故障，那么整个集群也会宕机。
用户错误：用户可能会误操作Hadoop集群，比如删除重要的配置文件，这样就会导致集群宕机。
如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存量，默认是8192MB）
如果写入文件过快造成NameNode宕机。那么调高Kafka的存储大小，控制从Kafka到HDFS的写入速度。例如，可以调整Flume每批次拉取数据量的大小参数batchsize。

Hadoop解决数据倾斜方法

1）提前在map进行combine，减少传输的数据量
在Mapper加上combiner相当于提前进行reduce，即把一个Mapper中的相同key进行了聚合，减少shuffle过程中传输的数据量，以及Reducer端的计算量。
如果导致数据倾斜的key大量分布在不同的mapper的时候，这种方法就不是很有效了。
2）导致数据倾斜的key 大量分布在不同的mapper
（1）局部聚合加全局聚合。
第一次在map阶段对那些导致了数据倾斜的key 加上1到n的随机前缀，这样本来相同的key 也会被分到多个Reducer中进行局部聚合，数量就会大大降低。
第二次mapreduce，去掉key的随机前缀，进行全局聚合。
思想：二次mr，第一次将key随机散列到不同reducer进行处理达到负载均衡目的。第二次再根据去掉key的随机前缀，按原key进行reduce处理。
这个方法进行两次mapreduce，性能稍差。
（2）增加Reducer，提升并行度
JobConf.setNumReduceTasks(int)
（3）实现自定义分区
根据数据分布情况，自定义散列函数，将key均匀分配到不同Reducer

hdfs多目录

NameNode多目录配置

1）NameNode的本地目录可以配置成多个，且每个目录存放内容相同，增加了可靠性

2）具体配置如下
（1）在hdfs-site.xml文件中添加如下内容


     dfs.namenode.name.dir
     file://${hadoop.tmp.dir}/dfs/name1,file://${hadoop.tmp.dir}/dfs/name2

注意：因为每台服务器节点的磁盘情况不同，所以这个配置配完之后，可以选择不分发
（2）停止集群，删除三台节点的data和logs中所有数据。

[hadoop102 hadoop-3.1.3]$ rm -rf data/ logs/
[hadoop103 hadoop-3.1.3]$ rm -rf data/ logs/
[hadoop104 hadoop-3.1.3]$ rm -rf data/ logs/

（3）格式化集群并启动。

[hadoop102 hadoop-3.1.3]$ bin/hdfs namenode -format
[hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh

3）查看结果

[hadoop102 dfs]$ ll
总用量 12
drwx------. 3 root root4096 12月 11 08:03 data
drwxrwxr-x. 3 root root 4096 12月 11 08:03 name1
drwxrwxr-x. 3 root root 4096 12月 11 08:03 name2

检查name1和name2里面的内容，发现一模一样。

DataNode多目录配置

1）DataNode可以配置成多个目录，每个目录存储的数据不一样（数据不是副本）

2）具体配置如下
在hdfs-site.xml文件中添加如下内容


     dfs.datanode.data.dir
     file://${hadoop.tmp.dir}/dfs/data1,file://${hadoop.tmp.dir}/dfs/data2

3）查看结果

[root @hadoop102 dfs]$ ll
总用量 12
drwx------. 3 root root 4096 4月   4 14:22 data1
drwx------. 3 root root 4096 4月   4 14:22 data2
drwxrwxr-x. 3 root root 4096 12月 11 08:03 name1
drwxrwxr-x. 3 root root 4096 12月 11 08:03 name2

4）向集群上传一个文件，再次观察两个文件夹里面的内容发现不一致（一个有数一个没有）

[root @hadoop102 hadoop-3.1.3]$ hadoop fs -put wcinput/word.txt /

HDFS 的源码主要包括

HDFS 的源码主要包括以下几个部分：

Hadoop Common：这是Hadoop 的基础核心库，提供了文件系统、网络通信、安全性等基本组件的实现。Hadoop Common 中包括了一些公共的模块和工具，如io、ipc、security、util 等。
HDFS: Hadoop 分布式文件系统 (HDFS)是Hadoop 的存储组件，负责文件的存储和管理。HDFS 的源代码包括了NameNode, DataNode, BlockScanner,Client、Server、Metrics 等模块。
YARN: YARN (Yet Another ResourceNegotiator）是Hadoop 的资源管理器，负责调度集群中的任务，并向应用程序提供所需的资源。YARN 的源代码包括ResourceManager, NodeManager,ApplicationMaster, Containers, Metrics等模块。
MapReduce : MapReduce 是Hadoop的
计算引擎，用于处理大规模数据集。MapReduce 的源代码包括了 JobTracker、TaskTracker、Task、 JobConf、JobSubmitter 等模块。
Tools: Hadoop 还提供了一些命令行工具。

大数据组件的异常定位方法

大数据组件异常定位可以通过以下几个步骤来实现：

查看日志文件：在出现异常后，首先要查看该组件的日志文件，了解异常情況的具体信息。通常情况下，日志文件中会记录异常信息、错误代码等相关信息。
分析异常原因：根据日志文件中的信息来分析异常原因，确定是组件内部逻辑问题还是外部环境问题导致的异常。
3.验证输入和输出：如果异常是由于输入或输出数据不正确导致的，需要验证输入和输出数据是否合法。可以通过打印关键数据、调试代码等方式来进行验证。
进一步调试：如果以上方法无法解决问题，需要进一步调试代码。可以使用集成开发环境(IDE）或者调试工具来进行调试，并设置断点来观察代码执行情況。
参考文档和社区：如果以上方法仍然无法解決问题，可以参考相关组件的官方文档或者社区，寻求其他开发者的帮助。
总之，对于大数据组件的昇常，需要结合日志文件和代码进行综合分析，找到异常的根本原因，并采取相应的措施来解決问题。

HDFS的二次开发

可以通过以下几个步骤来实现：

确定需求和目标：在进行HDFS的二次开发前，需要明确自己的需求和目标。例如，需要扩展HDFS的功能、优化性能等。
熟悉Hadoop生态圈：HDFS是Hadoop生态圈中的一个组件，需要熟悉其基本架构、API接口等内容，以便于进行二次开发。
编写代码逻辑：根据需求和目标，编写相应的代码逻辑。可以使用Java语言编写代码，建议参考官方文档和API接口进行开发。
测试和调试：完成代码编写后，需要进行测试和调试。可以使用本地模式或者集群模式进行测试，并检查代码逻辑是否正确。
部署和运行：完成测试和调试后，将代码部署到实际环境中并运行。可以使用Hadoop的CLI命令行工具或者IDE插件来进行部署和运行。

常见的HDFS二次开发内容包括：

自定义输入输出格式
扩展HDFS的数据访问方式
实现自定义块分配策略
压缩/解压缩数据
实现文件访问权限控制等

总之，HDFS二次开发需要熟悉Hadoop生态圈和API接口，并根据需求和目标编写相应的代码逻辑，最终进行测试、调试、部署和运行。

面试官问我的问题：hdfs同步几个副本算写入成功

我当时回答的是写入3个（默认副本数为3的情况下）
他笑了笑说一个（当时感觉被嫌弃了哈哈）。。。emmm 我记得也是达到副本个数才算成功

你可能感兴趣的:(hadoop,jvm,java)

解决finalshell，连接主机报错 Session.connect: java.net.SocketException: Connection reset 点动生态云 ssh 服务器桥接模式
出现问题：在清除缓存后已连接的端口有些输入命令按左右键有问题重新打开窗口提示连接主机报错Session.connect:java.net.SocketException:Connectionreset可能的原因：1.防火墙或安全组配置问题：如果远程服务器上的防火墙或安全组配置阻止了SSH连接，会出现这种情况。2.SSH服务未启用：如果远程服务器上没有启动SSH服务，就无法建立SSH连接。3.SSH
基于Maven的Spring/SpringMVC/Mybatis/Mybatis-plus/Apache-Shiro基础环境配置 weixin_30685029 java json 测试
记录一下，以便不时之需。pom.xml122.534.2.5.RELEASE41.8.9563.4.071.3.089101.1.7110.1.4121.7.211314151.0.18165.1.381718191.2.22021224.122324252627javax.servlet28servlet-api29${servlet-api.version}30provided31323334
基于JAVA开发APISIX插件 kiranet 后端架构 gateway 中间件
网关知识介绍什么是网关网关是一种能够在不同网络或协议之间进行数据交换的设备或服务器。网关可以实现不同网络之间的互联互通，也可以实现不同协议之间的转换和适配。网关可以根据不同的功能和层次进行分类。网关可以提供多种服务，例如路由、安全、负载均衡、缓存、压缩、加密、认证、授权、过滤、转码等。南北流量、东西流量南北流量客户端和服务器之间的流量被称为南北流量。东西流量不同服务器之间的流量与数据中心或不同数据
TypeScript 学习 - 创建一个项目草明 TypeScript typescript 学习 javascript
创建一个项目实际使用中,使用yarncreatereact-app比npxcreate-react-app更顺利一些.使用yarncreatereact-appts-react-app--templatetypescript创建一个TypeScript项目使用yarncreatereact-appts-react-app创建一个JavaScript项目如果不使用脚手架创建,可以安装依赖,以及编写入
[疯狂Java]正则表达式：捕获组、反向引用、捕获组命名 Lirx_Tech 疯狂Java笔记疯狂Java 正则表达式捕获组反向引用捕获组命名
1.捕获组及其编号：1)捕获组之前讲过，就是匹配到的内容，按照()子表达式划分成若干组；2)例如正则表达式：(ab)(cd(ef))就有三个捕获组，没出现一对()就是一个捕获组3)捕获组编号规则：i.引擎会对捕获组进行编号，编号规则是左括号(从左到右出现的顺序，从1开始编号；ii.例如：2.反向引用：1)捕获组的作用就是为了可以在正则表达式内部或者外部（Java方法）引用它；2)如何引用？当然是通
Java中运行Python程序 eqa11 python java 开发语言
文章目录Java中运行Python程序一、引言二、使用Jython运行Python程序1、Jython简介1.1、添加Jython依赖2、编写Java代码调用Python三、使用进程间通信运行Python程序1、原理2、编写Python脚本3、编写Java代码四、使用JNI运行Python程序1、JNI简介2、编写JNI代码3、编写Python脚本4、在Java中调用JNI库五、使用示例六、总结J
开源 CSS 框架 Tailwind CSS v4.0 timer_017 人工智能
开源CSS框架TailwindCSSv4.0于1月22日正式发布，除了显著提升性能、简化配置体验外，还增强了功能特性，具体如下1：性能提升采用全新的高性能引擎Oxide，带来了构建速度的巨大飞跃：全量构建速度提升超3.5倍。增量构建速度提升超8倍。无新CSS的增量构建速度提升182倍。配置优化CSS优先配置：从JavaScript配置文件改为直接在CSS文件中使用@theme指令进行配置，简化了项
如何让RocketMQ保证消息的顺序消费？思维导图代码示例（java 架构) 用心去追梦 java-rocketmq rocketmq java
保证消息的顺序消费在某些业务场景中非常重要，例如金融交易、库存管理等。RocketMQ提供了有序消息（FIFO消息）的支持，确保消息按照发送的顺序被消费。为了实现这一点，RocketMQ采用了一些特定的机制和配置来确保消息的顺序性。RocketMQ顺序消费思维导图建议顺序消费原理单队列模式每个Topic下的每个队列只由一个消费者线程处理确保消息按序处理分区有序对于有多个分区的Topic，可以通过设
Linux服务器中指定版本jdk运行java项目 Louis yeap java 持续部署 linux
Linux中指定版本jdk运行java项目文章目录Linux中指定版本jdk运行java项目一、Linux中下载jdk（已下载跳过步骤一）二、配置环境变量（之前配过不影响）三、工作服务器跑项目（后台长期运行）总结一、Linux中下载jdk（已下载跳过步骤一）要在Linux系统上下载并安装JavaDevelopmentKit(JDK)，可以按照以下步骤进行操作。以下示例是基于OpenJDK，这是一个
java cap理论_架构设计之「 CAP 定理」 Can Li java cap理论
点击上方“Java知音”，选择“置顶公众号”技术文章第一时间送达！作者：奎哥来源：不止思考在计算机领域，如果是初入行就算了，如果是多年的老码农还不懂CAP定理，那就真的说不过去了。CAP可是每一名技术架构师都必须掌握的基础原则啊。现在只要是稍微大一点的互联网项目都是采用分布式结构了，一个系统可能有多个节点组成，每个节点都可能需要维护一份数据。那么如何维护各个节点之间的状态，如何保障各个节点之间数据
Feign介绍及使用阿柒爱吃鱼笔记 java spring cloud
菜单Feign介绍Feign基本使用1.导入依赖2.启用Feign3.编写StoreClient接口4.调用FeignClientFeign自定义配置配置文件中配置java代码中配置Feign配置超时重试配置超时时间重试机制Feigh切换Client使用OkHttp配置超时重试1.引入okhttp依赖2.OkHttp配置类3.开启okhttpFeign介绍Feign是一个声明式的Web服务客户端，
定时任务之Quartz Listen·Rain 定时任务 spring boot java quartz
定时任务之Quartz1.Quartz简介2.Quartz核心概念3.Quartz的工作流程4.Quartz的应用场景5.Springboot集成Quartz5.1.添加依赖5.2创建任务类5.3配置JobDetail和Trigger5.4运行应用1.Quartz简介定义：Quartz是一个灵活的、开源的作业调度库，用于在Java应用程序中根据时间间隔或特定条件来调度作业的执行。特点：强大的调度功
27.useFetch @大迁世界 php react.js javascript react native 开发语言
在React应用开发中，处理网络请求是一个常见而重要的任务。虽然JavaScript的fetchAPI提供了一种现代化的方式来进行网络请求，但在React组件中使用它可能会变得复杂。useFetch钩子提供了一种声明式的方法来处理网络请求，简化了错误处理、加载状态管理和请求取消等复杂操作。以下是如何实现和使用这个自定义钩子：const useFetch = (url, options) => {
Selenium自动化测试框架入门与使用 Future_yzx selenium 测试工具
目录1.Selenium简介2.使用Selenium2.1Java使用Selenium2.2Python使用Selenium2.3支持的浏览器及WebDriver3.ChromeDriver的安装3.1查看本机Chrome版本3.2匹配对应的ChromeDriver并下载3.3配置ChromeDriver路径3.4在服务器（如CentOS）上安装ChromeJava中使用Selenium的代码示例
Django 静态文件配置实战指南 ivwdcwso django sqlite python 开发
静态文件（如CSS、JavaScript、图片等）是Django项目中构建用户界面的重要组成部分。然而，静态文件的配置问题常常导致开发和生产环境中的404NotFound错误。本文将详细介绍如何正确配置Django静态文件，结合最佳实践，帮助你解决常见的静态文件问题，并确保项目在不同环境中正常运行。©ivwdcwso(ID:u012172506)1.静态文件的基本概念1.1什么是静态文件？静态文件
Java实现FIFO缓存策略实战 smart_ljh 缓存策略 java 缓存开发语言 FIFO 策略模式
实现FIFO模型选择FIFO模型实现过程FIFO模型完整代码下面看一下先进先出的示例过程总结FIFO（FirstInFirstOut，先进先出）策略是一种基本的数据处理和存储管理方法，在Java中，这种策略通常用于管理那些需要按照顺序处理的数据项，比如任务的队列、数据的传输缓冲区等。在Java中，java.util.Queue接口以及实现了这个接口的类，比如LinkedList和PriorityQ
WAS 日志分析（websphere application server) Change is good websphere application server 服务器 jvm deployment
关键字:websphere日志WebSphereApplicationServer是一个基于Java的Web应用程序服务器，它构建在开放标准的基础之上，能帮助您部署与管理从简单的Web站点到强大的电子商务解决方案的诸多应用程序。它遵循J2EE并为Java组件、XML和Web服务提供了一个可移植的Web部署平台，这个平台能够与数据库交互并提供动态Web内容。随着WebSphereApplicatio
final 到底有啥用？99% 的开发者可能只知道一半！软件求生 #工作建议运维数据库 java 架构微服务
小伙伴们，你有过这样的经历吗？早晨喝了一杯奶茶，兴致勃勃地去面试，面试官却冷不丁地问了一句：“final在Java中有什么作用？”我的天哪！我当时脑子一片空白，只能挤出一句：“用来修饰变量吧。”看着面试官点了点头，但眉头却微微一皱，我就知道，完了……不怕！今天咱们就从头到尾，搞清楚final的所有用途，让你下次遇到这个问题，自信到能现场开课！什么是final？简单来说，final是Java中的一个
如何处理selenium Webdriver中的文本框？知识的宝藏 Selenium基础篇 selenium 前端 python
文本框或字段在整个网页中广泛使用，本文将介绍如何在Java中使用SeleniumWebdriver处理文本框。可以有各种文本字段，我们将尝试包括其中的大多数，并执行各种操作，如清除和输入文本。我们将使用我们的Selenium游乐场网站-testkru，与各种文本框进行交互。您也可以使用同一个网站来执行任何所需的操作。下面是文本框的屏幕截图;我们将使用其中的一些来执行文本框上的各种操作。我们来看看下
selenium clear（）方法清除文本框内容 Change is good selenium python 测试工具
在使用Selenium进行Web自动化测试时，清除文本框内容是一个常见的需求。这可以通过多种方式实现，取决于你使用的是哪种编程语言（如Python、Java等）以及你的具体需求。以下是一些常见的方法：1.使用clear()方法clear()方法是Selenium提供的一个非常直接的方法来清除文本框的内容。这个方法会删除文本框中的所有内容，并将其设置为空字符串。python：fromselenium
【附源码】Java计算机毕业设计小说阅读网站（程序+LW+部署）一念计算机毕设源码程序 java 课程设计 mysql
项目运行环境配置：Jdk1.8+Tomcat7.0+Mysql+HBuilderX（Webstorm也行）+Eclispe（IntelliJIDEA,Eclispe,MyEclispe,Sts都支持）。项目技术：java+mybatis+Maven等等组成，B/S模式+Maven管理等等。环境需要1.运行环境：最好是javajdk1.8，我们在这个平台上运行的。其他版本理论上也可以。2.IDE环境
python 分布式集群_Python搭建Spark分布式集群环境小国阁下 python 分布式集群
前言ApacheSpark是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark最大的特点就是快，可比HadoopMapReduce的处理速度快100倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群，而是使用三台电脑来搭建一个小型分布式集群环境安装。本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群，同样适用于搭建Spark1.6.2
高级java每日一道面试题-2025年01月24日-框架篇[SpringBoot篇]-如何理解 Spring Boot 中的 Starters(启动器) ? java我跟你拼了 java每日一道面试题 java spring boot 简化依赖管理自动配置加快开发速度自动管理依赖项简化外部化配置
如果有遗漏,评论区告诉我进行补充面试官:如何理解SpringBoot中的Starters(启动器)?我回答:一、Starters的定义与作用1.定义Starters是SpringBoot中的一组预定义依赖关系，这些依赖被封装在一个单一的包中。它们简化了Maven或Gradle配置文件中的依赖项声明，并自动配置和管理相关依赖项。2.作用简化依赖管理：通过引入一个starter，可以自动引入所有必要的
华为OD机试D卷 --矩阵匹配--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od 矩阵 python javascript java c++c语言
文章目录题目描述输入描述输出描述用例题目解析java源码js源码python源码c源码c++源码题目描述从一个N*M（N≤M）的矩阵中选出N个数，任意两个数字不能在同一行或同一列，求选出来的N个数中第K大的数字的最小值是多少。输入描述输入矩阵要求：1≤K≤N≤M≤150输入格式：NMKN*M矩阵输出描述N*M的矩阵中可以选出M!/N!种组合数组，每个组合数组种第K大的数中的最小值。无需考虑重复数字
python对接rocketmq i_nekohuang python rocketmq
背景有对接java系统监听其相关资源同步新增的需求，该java系统使用了rocketmq。前置说明1、目前Python客户端仅支持Linux和macOS操作系统，暂不支持Windows系统2、rocketmq-client-python基于rocketmq-client-cpp进行包装，因此需要先编译出librocketmq.so3、文档中相关源码包和依赖包版本和github中README.md有
go语言中的defer，panic和recover code_feien golang
go语言中的panic和recover基本概念deferpanicrecover使用场景基本概念defer介绍：defer主要用来注册多个延迟调用，这些调用以先进后出的顺序在函数返回前被执行。有点类似于java中的finaly语句。defer常用于保证一些资源最终能够得到回收和释放。使用：defer函数的实参在注册的时候通过值拷贝传递进去。例如下面的代码，实参a的值在defer注册的时候通过值拷贝
Java——String类常见方法_string[] a 判断长度 2501_90223240 java 开发语言
字符串数组本质因为String属于引用类型，所以str内存储的并不是字符串内容本身。我们进入String源码可以看到str数组内部存储的是对象的地址，字符串内容其实是存在**字符数组value[]**中的：调试起来看：这是它的简化内存布局图：字符串长度求字符串长度返回值：字符串或数组长度Stringstr1="hello";System.out.println(str1.length());判断字
Spring Boot与MongoDB集成指南行动π技术博客 spring boot mongodb 后端
1.引言在当今快速发展的软件开发领域，选择合适的技术栈对于构建高效、可扩展的应用程序至关重要。随着微服务架构和云原生应用的兴起，开发人员需要更灵活、更快速的解决方案来满足不断变化的业务需求。SpringBoot和MongoDB的结合正是这一需求的完美答案。1.1为什么选择SpringBoot和MongoDB？SpringBoot是一个开源的Java框架，它基于Spring框架，提供了快速开发和简化
814. 二叉树剪枝（JavaScript）进击的桐人 leetcode 中等题 medium javascript LeetCode JavaScript Binary Tree Pruning
给定二叉树根结点root，此外树的每个结点的值要么是0，要么是1。返回移除了所有不包含1的子树的原二叉树。(节点X的子树为X本身，以及所有X的后代。)示例1:输入:[1,null,0,0,1]输出:[1,null,0,null,1]解释:只有红色节点满足条件“所有不包含1的子树”。右图为返回的答案。示例2:输入:[1,0,1,0,0,0,1]输出:[1,null,1,null,1]示例3:输入:[
java ffmpeg(Windows/Linux)截取视频做封面 Mr.菜园子 JAVA ffmpeg java ffmpeg java ffmpeg windows(Linux)
一、Windows版本1、下载前往FFmpeg官网http://ffmpeg.org/download.html下载Windows版本FFmpeg（我下载ffmpeg-4.0-win64-shared）2、解压下载后解压到本地（我的解压目录D:\wedive_file\ffmpeg）二、Linux版本1、下载前往FFmpeg官网http://ffmpeg.org/download.html下载Li
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>