jiedushi

分析和优化云集群性能

建立环境

部署 Hadoop 环境的步骤

在执行性能调优之前，需要先构建 Hadoop 集群环境。步骤如下：

准备集群节点，在这些节点上安装 Linux OS、JDK 1.6 和 ssh。确保每个节点上都在运行 sshd。
访问 The Apache Software Foundation 站点，下载稳定的 Hadoop 发行版。
选择自己的 NameNode (NN)、JobTracker (JT) 和 Secondary NameNode (SNN)；其他节点是 DataNode (DN) 和 TaskTracker (TT)。本文假设选择 host001 作为 NN，host002 作为 JT，host003 作为 SNN。
让 NN、JT 和 SNN 能够通过 ssh 无需密码地访问所有 DN 和 TT。
在每个节点上解压下载的 Hadoop 发行版；下面使用 $HADOOP_HOME 代表解压位置。

在 NN 上，进入 $HADOOP_HOME 目录并修改配置文件。

把 host003 添加到 $HADOOP_HOME/conf/masters 中。
把所有 DN/TT 节点的 IP 地址/主机名添加到 $HADOOP_HOME/conf/slaves 中，每个主机一行。 注意：如果使用主机名，就需要通过配置 /etc/hosts 文件确保集群中的所有节点都知道每个主机名。
把以下属性添加到 $HADOOP_HOME/conf/core-site.xml 中以设置 NN IP/端口：
fs.default.name hdfs://host001:9000
把以下属性添加到 $HADOOP_HOME/conf/mapred-site.xml 中以设置 JT IP/端口：
mapred.job.tracker host002:9001
注意：如果使用 Hadoop 0.21.0，这个属性名应该是 mapreduce.jobtracker.address。

如果在 NN 上有多个网络接口，那么把以下属性添加到 $HADOOP_HOME/conf/hdfs-site.xml 中：


    dfs.datanode.dns.nameserver
    eth1
    The name of the Network Interface from which a data node 
    should report its IP address.

把上面提到的所有配置文件从 NN 复制到集群中所有其他节点上的 $HADOOP_HOME/conf/ 目录中。
在 NN 上进入 $HADOOP_HOME/bin 目录。
1. 使用 $./hadoop namenode -format 命令格式化 NN。
2. 启动 start-all.sh 脚本以启动 Hadoop 守护进程。
更详细的信息参见 Hadoop Common。注意：如果选用 Hadoop 0.21.0，那么必须使用当前的 JDK（由 JIRA HADOOP-6941 跟踪）。

安装并配置 nmon 性能监视工具

nmon 是一个系统管理、调优和基准测试工具，可以简便地监视大量重要的性能信息。可以在整个性能调优过程中使用 nmon 作为监视工具。按以下步骤安装并配置 nmon，建立自己的性能监视系统：

从 nmon for Linux 站点下载 nmon 二进制包。找到适合您的 Linux OS 的版本，把它复制到 Hadoop 集群的所有节点。下面使用 $NMON_HOME 代表放置 nmon 二进制代码的位置。
因为已经让 NN、JT 和 SNN 能够通过 ssh 无需密码地访问所有其他节点，而且将在 JT 上提交所有 map/reduce 作业，所以选择 JT 作为中心节点收集所有 nmon 数据。登录 JT 节点，然后执行以下步骤。
使用以下命令在 JT (host002) 上创建一个目录（例如 /home/hadoop/perf_share）并通过 NFS 共享它：
1. 创建目录：$mkdir /home/hadoop/perf_share
2. 修改 /etc/exports 文件，在其中包含以下行：/home/hadoop/perf_share *(rw,sync)
3. 重新启动 NFS 服务：$/etc/rc.d/init.d/nfs restart
4. 在所有其他节点上创建这个目录并把它们挂装到 JT 上的 perf_share 目录：
  $mkdir/home/hadoop/perf_share $mount host002: /home/hadoop/perf_share /home/hadoop/perf_share

创建以下脚本以便在所有节点上启动 nmon：

hosts=( shihc008 shihc009 shihc010 shihc011 shihc012 shihc013 shihc014 shihc015 
shihc016 shihc017)
# Remove all data in /home/hadoop/perf_share
for host in ${hosts[@]}
do
  ssh $host "cd /home/hadoop/perf_share;rm -rf *"
done
# Start nmon on all nodes
for host in ${hosts[@]}
do
  ssh $host " /usr/bin/nmon -f -m /home/hadoop/perf_share -s 30 -c 360"
done

在最后的 nmon 命令中，-f 表示希望把数据保存到文件中，并不在屏幕上显示；-m 表示保存数据的位置；-s 30 表示希望每 30 秒捕捉一次数据；-c 360 表示需要 360 个数据点（即快照），总数据收集时间为 30x360 秒，即 3 小时。

从 nmonanalyser wiki 下载 nmonanalyser（这个 Excel 电子表格接受 nmon 的输出文件，生成一些漂亮的图表以帮助分析），用它分析收集到的监视数据。

回页首

Hadoop 可配置参数

Hadoop 提供许多配置选项，用户和管理员可以通过它们进行集群设置和调优。core/hdfs/mapred-default.xml 中有许多变量，可以在 core/hdfs/mapred-site.xml 中覆盖它们。一些变量指定系统上的文件路径，而其他变量对 Hadoop 的内部进行深入的调整。

性能调优主要有四个方面：CPU、内存、磁盘 I/O 和网络。本文介绍与这四个方面最相关的参数，您可以使用后面介绍的方法研究 *-default.xml 中的其他参数。

与 CPU 相关的参数： mapred.tasktracker.map 和 reduce.tasks.maximum
决定由任务跟踪器同时运行的 map/reduce 任务的最大数量。这两个参数与 CPU 利用率最相关。这两个参数的默认值都是 2。根据集群的具体情况适当地增加它们的值，这会提高 CPU 利用率，由此提高性能。例如，假设集群中的每个节点有 4 个 CPU，支持并发多线程，每个 CPU 有两个核；那么守护进程的总数不应该超过 4x2x2=16 个。考虑到 DN 和 TT 要占用两个，map/reduce 任务最多可以占用 14 个，所以这两个参数最合适的值是 7。

在 mapred-site.xml 中设置此参数。

与内存相关的参数： mapred.child.java.opts
这是用于 JVM 调优的主要参数。默认值是 -Xmx200m，这给每个子任务线程分配最多 200 MB 内存。如果作业很大，可以增加这个值，但是应该确保这不会造成交换，交换会严重降低性能。

我们来研究一下这个参数如何影响总内存使用量。假设 map/reduce 任务的最大数量设置为 7，mapred.child.java.opts 保持默认值。那么，正在运行的任务的内存开销为 2x7x200 MB =2800 MB。如果每个工作者节点都有 DN 和 TT 守护进程，每个守护进程在默认情况下占用 1 GB 内存，那么分配的总内存大约为 4.8 GB。

在 mapred-site.xml 中设置此参数。

与磁盘 I/O 相关的参数： mapred.compress.map.output、mapred.output.compress 和 mapred.map.output.compression.codec
这些参数控制是否对输出进行压缩，其中 mapred.compress.map.output 用于 map 输出压缩，mapred.output.compress 用于作业输出压缩，mapred.map.output.compression.codec 用于压缩代码。这些选项在默认情况下都是禁用的。

启用输出压缩可以加快磁盘（本地/Hadoop Distributed File System (HDFS)）写操作，减少数据传输的总时间（在 shuffle 和 HDFS 写阶段），但是在另一方面压缩/解压过程会增加开销。

根据个人经验，启用压缩对于使用随机键/值的操作序列是无效的。建议只在处理大量有组织的数据（尤其是自然语言数据）时启用压缩。

在 mapred-site.xml 中设置这些参数。

io.sort.mb 参数
这个参数设置用于 map 端排序的缓冲区大小，单位是 MB，默认值是 100。这个值越大，溢出到磁盘就越少，因此会减少 map 端的 I/O 时间。注意，增加这个值会导致每个 map 任务需要的内存增加。

根据个人经验，在 map 输出很大而且 map 端 I/O 很频繁的情况下，应该尝试增加这个值。

在 mapred-site.xml 中设置此参数。

io.sort.factor 参数
这个参数设置在 map/reduce 任务中同时合并的输入流（文件）数量。这个值越大，溢出到磁盘就越少，因此会减少 map/reduce 的 I/O 时间。注意，如果给每个任务分配的内存不够大，增加这个值可能会导致更多垃圾收集活动。

根据个人经验，如果出现大量溢出到磁盘，而且排序和 shuffle 阶段的 I/O 时间很高，就应该尝试增加这个值。

在 mapred-site.xml 中设置此参数。

mapred.job.reduce.input.buffer.percent 参数
这个参数设置用于在 reduce 阶段保存 map 输出的内存的百分比（相对于最大堆大小），默认值是 0。当 shuffle 结束时，内存中剩余的 map 输出必须少于这个阈值，然后 reduce 阶段才能够开始。这个值越大，磁盘上的合并就越少，因此会减少 reduce 阶段本地磁盘上的 I/O 时间。注意，如果给每个任务分配的内存不够大，增加这个值可能会导致更多垃圾收集活动。

根据个人经验，如果 map 输出很大而且在 reduce 到排序阶段本地磁盘 I/O 很频繁，应该尝试增加这个值。

在 mapred-site.xml 中设置此参数。

mapred.local.dir 和 dfs.data.dir 参数
这两个参数决定把 Hadoop 中的数据放在什么地方，mapred.local.dir 决定存储 MapReduce 中间数据（ map 输出数据）的位置，dfs.data.dir 决定存储 HDFS 数据的位置。

根据个人经验，把这些位置分散在每个节点上的所有磁盘上可以实现磁盘 I/O 平衡，因此会显著改进磁盘 I/O 性能。

在 mapred-site.xml 中设置 mapred.local.dir，在 hdfs-site.xml 中设置 dfs.data.dir。

与网络相关的参数： topology.script.file.name
这个参数指向一个用户定义的脚本，这个脚本判断机架-主机（rack-host）映射以配置机架感知。在 core-site.xml 文件中设置此参数。

机架感知是对于提高网络性能最重要的配置，强烈建议按 http://hadoop.apache.org/common/docs/current/cluster_setup.html#Hadoop+Rack+Awareness 和 http://wiki.apache.org/hadoop/topology_rack_awareness_scripts 上的说明配置它。

mapred.reduce.parallel.copies 参数
这个参数决定把 map 输出复制到 reduce 所使用的线程数量，默认值是 5。增加这个值可以提高网络传输速度，加快复制 map 输出的过程，但是也会增加 CPU 使用量。

根据个人经验，增加这个值的效果不太明显，建议只在 map 输出非常大的情况下增加这个值。

注意：上面列出的参数名都是 Hadoop 0.20.x 中的；如果使用 0.21.0，名称可能有变化。除了 Hadoop 参数之外，还有一些会影响总体性能的系统参数，比如机架间带宽。

回页首

如何调优和提高性能

介绍了上面的预备知识之后，现在讨论如何调优和提高性能。可以把整个过程划分为以下步骤。

步骤 1：选择测试基准

整个 Hadoop 集群的性能由两个方面决定：HDFS I/O 性能和 MapReduce 运行时性能。Hadoop 本身提供几个基准，比如用于 HDFS I/O 测试的 TestDFSIO 和 dfsthroughput（包含在 hadoop-*-test.jar 中）、用于总体硬件测试的 Sort（包含在 hadoop-*-examples.jar 中）和 Gridmix（它模拟网格环境中的混合工作负载，放在 $HADOOP_HOME/src/benchmarks 目录中）。可以根据自己的测试需求选择任何基准。

在所有这些基准中，当输入数据很大时，Sort 可以同时反映 MapReduce 运行时性能（在 “执行排序” 过程中）和 HDFS I/O 性能（在 “把排序结果写到 HDFS” 过程中）。另外，Sort 是 Apache 推荐的硬件基准。（可以通过 Hadoop Wiki 找到相关信息。）因此，本文使用 Sort 作为示例测试基准讲解性能调优方法。

步骤 2：构建基线

测试环境：
- 基准：Sort
- 输入数据规模：500 GB
- Hadoop 集群规模：10 个 DN/TT 节点
- 所有节点都是相同类型的
- 节点信息：
  - Linux OS
  - 两个 4 核处理器，支持并发多线程
  - 32 GB 内存
  - 5 个 500 GB 磁盘

测试脚本：下面是测试使用的脚本（关于运行 Sort 基准的更多信息参见 Hadoop Wiki）。所有脚本都应该在 JT 节点上运行。

注意：把上面提到的 start_nmon.sh 脚本和以下脚本放在存储测试结果的目录中。

baseline_test.sh

#!/bin/sh
# since there are 10 nodes, should write 50 GB file on each
fSize=5368709120
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-0.20.1-examples.jar 
randomwriter -D
test.randomwrite.bytes_per_map=$fSize /rand_$fSize 2>&1 | tee 
./testRes/randomwriter_$fSize.out
mkdir -p ./testRes/nmonFiles
# run three cycles to get a more precise result
for runtimes in {a,b,c}
do
    ./ run_sort_baseline.sh $fSize $runtimes
done

run_sort_baseline.sh

#!/bin/sh
$HADOOP_HOME/bin/hadoop dfs -rmr /rand_$1-sorted
./start_nmon.sh
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-0.20.1-examples.jar sort 
-r 70 /rand_$1
/rand_$1-sorted 2>&1 |tee ./testRes/sort_baseline_$2.out
cp -r /home/hadoop/perf_share ./testRes/nmonFiles/mb$4_$2

基线测试使用的参数值：
- Hadoop 参数值：
  - mapred.tasktracker.map.tasks.maximum = 2 （默认值）
  - mapred.tasktracker.reduce.tasks.maximum = 2 （默认值）
  - mapred.reduce.parallel.copies = 5 （默认值）
  - mapred.child.java.opts = -Xmx200m （默认值）
  - mapred.job.reduce.input.buffer.percent = 0 （默认值）
  - io.sort.mb = 100 （默认值）
  - io.sort.factor = 10 （默认值）
  - mapred.local.dir = /hadoop/sdb
  - dfs.data.dir = /hadoop/sdc, /hadoop/sdd, /hadoop/sde
- 系统参数值：
  机架间带宽 = 1 Gb

基线测试结果：

执行时间：10051 秒

资源使用量汇总：

	平均 CPU	平均内存（活跃）	平均磁盘			平均网络 (KB/s)
	平均 CPU	平均内存（活跃）	磁盘读 (KB/s)	磁盘写 (KB/s)	每秒 IO	读	写
NameNode	0.10%	552.43MB	0.0	18.1	1.7	8.0	31.8
JobTracker	0.30%	822.19MB	0.0	34.1	2.0	8.8	13.0
DataNode	42.5%	6522.32MB	49431.2	37704.0	605.3	6134.9	7126.4

详细的图表：
获得所有 nmon 数据之后，可以使用 nmonanalyser 生成图表。因为 nmonanalyser 是一个 Excel 电子表格，所以只需打开它，单击 analyse nmon data，选择 nmon 文件。然后就可以得到经过分析的图表。

图 1. 使用 nmonanalyser 分析 nmon 数据

nmonanalyser 对于基线测试生成的详细图表如下：

图 2. NameNode 图表

图 3. JobTracker 图表

图 4. DataNode/TaskTracker 图表

步骤 3：寻找瓶颈

需要根据监视数据和图表仔细地研究系统瓶颈。因为主要的工作负载分配给 DN/TT 节点，所以应该首先观察 DN/TT 节点的资源使用量（下面只给出 DN/TT 节点的 nmon 图表以节省篇幅）。

通过研究基线监视数据和图表，可以发现系统中有几个瓶颈：在 map 阶段，没有充分使用 CPU（大多数时候不到 40%），而且磁盘 I/O 相当频繁。

步骤 4：打破瓶颈

首先尝试提高 map 阶段的 CPU 利用率。前面对 Hadoop 参数的说明指出，要想提高 CPU 利用率，需要增加 mapred.tasktracker.map 和 reduce.tasks.maximum 参数的值。

在测试环境中，每个节点有两个支持并发多线程的 4 核处理器，所以有 16 个可用的位置，可以把这两个参数设置为 7。

为了完成这一修改，需要在 mapred-site.xml 中设置 mapred.tasktracker.map 和 reduce.tasks.maximum 参数，重新启动集群，再次启动 baseline_test.sh（因为在 mapred-site.xml 文件中进行配置，所以这里不需要修改脚本）。修改后的 mapred-site.xml 如下所示：


  
    mapred.tasktracker.map.tasks.maximum
    7
  
  
    mapred.tasktracker.map.tasks.maximum
    7

下面是调优后的测试结果：

执行时间：8599 秒

资源使用量汇总：

	平均 CPU	平均内存（活跃）	平均磁盘			平均网络 (KB/s)
	平均 CPU	平均内存（活跃）	磁盘读 (KB/s)	磁盘写 (KB/s)	每秒 IO	读	写
NameNode	0.10%	520.88MB	0.0	21.2	2.0	6.4	12.7
JobTracker	0.50%	1287.4MB	0.0	22.5	1.6	6.4	5.1
DataNode	48.4%	12466.8MB	51729.07	44060.67	669.9	7462	6865

图 5. 调优后的 DataNode/TaskTracker 图表

步骤 5：新一轮调优，重复步骤 3 和 4

增加每个 TaskTracker 中 map/reduce 任务的最大数量之后，观察获取的数据和图表，可以看到在 map 阶段已经充分使用 CPU 了。但是与此同时，磁盘 I/O 频率仍然很高，所以需要新一轮调优-监视-分析过程。

需要重复这些步骤，直到系统中没有瓶颈，每种资源都充分使用为止。

注意，每次调优不一定会提高性能。如果出现性能下降，需要恢复以前的配置，尝试用其他调优措施打破瓶颈。在这次测试中，最终取得的优化结果如下：

执行时间：5670 秒
系统参数值：机架间带宽 = 1Gb
资源使用量汇总：

图 6. DataNode/TaskTracker 图表 - 第二轮调优

步骤 6：可伸缩性测试和改进

为了进一步检验调优结果，需要在使用优化后的配置的情况下增加集群规模和输入数据规模，从而测试配置的可伸缩性。具体地说，把集群规模增加到 30 个节点，把输入数据规模增加到 1.5TB，然后再次执行上面的测试过程。

由于篇幅有限，这里不详细描述调优过程。监视和分析方法与上面提到的完全相同，发现的主要瓶颈出现在网络中。当输入数据增加到 TB 量级时，机架间带宽变得不足。把机架间带宽增加到 4 Gb，10 节点集群优化后的所有其他参数保持不变，最终的执行时间是 5916 秒，这相当接近 10 节点集群优化后的结果（5670 秒）。

回页首

结束语

您现在了解了如何监视 Hadoop 集群、使用监视数据分析系统瓶颈和优化性能。希望这些知识能够帮助您充分使用 Hadoop 集群，更高效地完成作业。可以使用本文描述的方法进一步研究 Hadoop 的可配置参数，寻找参数配置与不同作业特征之间的关联。

另外，这种基于参数的调优比较 “静态”，因为一套参数配置只对于一类作业是最优的。为了获得更大的灵活性，您应该研究 Hadoop 的调度算法，寻找提高 Hadoop 性能的新方法。

参考资料

学习

了解 IBM Big Data 和 Hadoop Strategy。
访问 Apache Hadoop 主页。
下载稳定的 Hadoop 发行版。
下载 nmon 二进制包。
下载 nmonanalyser。
了解关于运行 SORT 基准的信息。
在 developerWorks 云开发人员资源中，寻找应用程序和服务开发人员构建云部署项目的知识和经验，并分享自己的经验。
如果您从事特定的行业，那么在 IBM developerWorks Industry 专区中寻找您应该会感兴趣的技术文章、教程、社区、wikis 和业务资源。
加入云计算讨论组，了解和讨论云计算的最新技术、解决方案、趋势等内容。

你可能感兴趣的:(职场,休闲,hadoop,hadoop)

《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
2022-04-18 Apbenz
语重心长的和我说，不要老是说不行，人至而立之年危机四伏，内在的，外在的，感觉就是心力憔悴，让人无所适从。面对职场的无情，突然好羡慕干体力劳动的外卖小哥。难道命运是想让我去送外卖了吗？干体力活才能让我活下去？fastadmin打卡成功,淘宝金币任务完成。ㅏㅓㅗㅜㅡㅣㅐㅔㅑㅕㅛㅠㅢㅒㅖY行。야자여자요리우유의사얘기예
上班族可以做线上副业兼职有哪些？盘点7个适合上班族做的副业兼职！高省APP大九
对于许多上班族来说，工资往往不能满足他们的生活需求，因此许多人开始寻找副业来增加收入。以下是一些适合普通人的副业赚钱路子，希望能给您带来一些灵感。1、做好物推荐现在很多职场人其实有大量的个人时间，只不过这些个人时间比较碎片化，他们不能够很好的利用起来，其实可以利用这些碎片化的时间去做副业，比如做好物推荐。在网上有很多的平台，比如头条抖音等等都开通了一个商品的分销功能，只要你发布相关的视频或者文章，
2020年学习什么知识比较好？互联网行业依然是发展较佳编程仔
2019年余额已不足，不少职场人心里也在盘点这一年的工作得失，琢磨新一年的奋斗策略，是继续冲刺还是换个跑道？今年跳槽更难吗？image互联网行业一直以相对较丰厚的薪酬和广阔的发展前景吸引着各界人才。但最近，互联网行业寒冬、互联网企业裁员等话题再次引起热议。正在从前些年的高速发展期转向发展调整期的互联网行业真的步入了“寒冬”？该行业依旧具有吸引力吗？什么职位又最热门呢？image互联网行业仍保持较高
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
研究表明，中年人“失业”成为了趋势，关键原因有这4点舒山有鹿
01在职场中，一直存在这么一个定律——35岁中年失业定律。很多人都特别疑惑，35岁还未到中年期，为什么人们会把“中年”跟“失业”挂钩呢？有句话，说得很现实：“35岁之前辞职，叫跳槽；35岁之后辞职，叫失业。”一般来说，35岁失业和40岁失业的本质是差不多的。只要他们还未升到管理层，便被单位辞退，就证明他们只能“另谋出路”了。况且，随着环境的愈发复杂，行业问题的频频发生，线下商业的不景气，那中年人找
极度休闲的一天淡泊孤峰
国庆国庆，普天同庆。在家躺着看大家游山玩水，长辈走亲戚，我的微信一天没几条消息，标准结局，习惯了。哈利波特系列电影真不错，童年总幻想着像主角哈利一样，像《龙族》少年楚子航浪迹江湖，风云天下。而现在却败给华为ICT大赛题还有永无止境的代码视频，唉，真可笑！
2020年最新程序员职业发展路线指南，超详细！编程流川枫 11 编程语言程序员互联网 IT 职业
【文章来源微信公众号：每天学编程】01、程序员的特性技术出身的职场人特性很明显，与做市场、业务出身的职场人区别尤其明显。IT行业中常见的一些职场角色：老板、项目经理、产品经理、需求分析师、设计师、开发工程师、运维工程师等。开发工程师具有如下特征：1、逻辑思维清晰、严谨和细腻；但是有时不容易转弯，有些程序员容易较劲、钻牛角尖。2、性格偏内向、不善于沟通、表达和交际；但是在网络聊天工具上，有些显为幽默
40岁的java程序员，还有出路吗？ cesske java 开发语言
目录前言一、现状与挑战二、出路与机遇三、案例分析与启示四、结语前言40岁Java程序员的出路：挑战与机遇并存在科技日新月异的今天，IT行业始终保持着高速的发展态势，而Java作为其中的重要一员，其地位依然稳固且充满挑战。对于一位40岁的Java程序员而言，面对职业生涯的“中年危机”，是否还有出路？本文将从多个维度探讨这一问题，旨在为这一群体提供思考和启示。一、现状与挑战职场竞争加剧随着技术的不断发
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
【Death Note】网吧战神之7天爆肝渗透测试死亡笔记_sqlmap在默认情况下除了使用 char() 函数防止出现单引号 2401_84561374 程序员笔记
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！特殊服务端口2181zookeeper服务未授权访问
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
2020-03-24 艺鹰空间设计
从欧美的复古奢华，到现代极简的北欧风，一个太沉闷，一个略单调，设计师梁博，在自己的作品中融入一点点的复古元素，即能保留现代风格的清爽和功能上的便利，又可以收获复古的奢华和优雅，简直是太完美的搭配！古典风格住宅，设计师重新设计，厨房和起居室结合在一起，走廊和厨房起居室之间的墙从地板到天花板变成了一个透明隔断，给空间带来了更多的空气和光线。主卧室的设计颇有高级酒店的味道，左侧设置了休闲椅，右侧则有办公
看的信息越来越多，我却越来越焦虑了…… 灰咖儿
01看的信息越多，我感到越来越焦虑不知道为什么，有了手机作为消遣，却让人越来越感到焦虑。抖音、快手、知乎、小红书、、今日头条、喜马拉雅、得到……手机里装着越来越多的APP，每一个打开都是扑面而来的信息，除了纯粹的消遣，还为了能够学点东西、提高自己。但是要学的东西实在太多了，大到国际形势、国内经济、历史人文，小到股市分析、楼市信息、潮装搭配、美妆教学、生活技巧、健身诀窍、职场生存，每一个似乎都值得一
莆田鞋十大良心微商推荐，莆田鞋推荐微商排名一览表腕表鞋屋
莆田鞋是广受欢迎的一种休闲鞋，因其舒适耐穿而备受消费者喜爱。在如今的微商市场中，有许多卖家代理莆田鞋，但是有些卖家并不那么负责，售卖的鞋子品质堪忧。因此，今天我们就来盘点一下莆田鞋的十大良心微商，为大家推荐一些靠谱的卖家。微信:726865(下单赠送精美礼品)1.小尼鞋铺小尼鞋铺是一家专注于莆田鞋销售的微商店铺，主打高品质的鞋子，深受用户好评。2.快乐小屋快乐小屋作为一个专业的莆田鞋代理店，拥有丰
手机小游戏开发红匣子实力推荐
随着智能手机的普及，手机小游戏已经成为人们日常生活中不可或缺的一部分。从简单的消除游戏到复杂的策略游戏，手机小游戏为玩家提供了丰富的娱乐体验。本文将为您介绍手机小游戏开发的基本概念、工具和技术。开发-联系电话：13642679953（微信同号）1.游戏类型手机小游戏可以分为多种类型，如益智游戏、休闲游戏、动作游戏、策略游戏等。开发者可以根据自己的兴趣和技能选择合适的游戏类型进行开发。2.开发工具手
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
十年坚持做一件事，是怎样一种体验作家格格
01今天，偶然看到了雨果奖得主郝景芳的故事。之前，我只觉得她是清华才女，天赋异能。今天才发现，原来她惊人的才华背后，也有不为人知的付出与汗水。许多人知道“郝景芳”这个名字，都是从2016年的雨果奖开始。但很少有人知道，在那之前，她其实已经坚持写作了十年。如果说在校读博还能为她提供比较宽松的环境（尽管她学的是和写作完全无关的经济管理），毕业后进入职场，写作便成为一桩难以继续的事情。拿着四千块的工资，
期待2021 宝藏姑娘王婷
即将到来的2021年，将是我自己坚持早起修炼硬本领的第7年。我感激这几年的清晨时光，这段时光里有我对自己的全部承诺，我立志要做的事情，都走向了趋于理想的状态，这几年拼命的硬核修炼阶段，帮助我拉开了职场中我与别人的差距，我也成了专业领域那个最年轻走向管理岗位的人。几年前我也抱怨，为什么别人会这么想我，为什么这件事情会如此理解我，利用早起时光沉淀自己，疯狂读书写作学习输入与输出，我渐渐意识到之前的所有
火箭少女Yamy出道最大敌意来自老板？遭遇职场PUA，该如何应对柔力量
01从Yamy发的微博中我们可以知道，她虽然在网上总被人说“丑”、“年纪大”，但是她都会用作品说话来肯定自己却没想到这两年来公司老板徐明朝对她的态度忽冷忽热，两极分化十分严重甚至在员工大会上背着她和其他员工对她进行人身攻击。会议内容被好心的同事偷偷录下来给Yamy后，她忍受不了提出了解约却被老板以“情况了解，不要作死”回绝了这件事持续发酵，昨日19点，老板徐明朝也在公众平台发声信中态度相当诚恳，言
致即将逝去的2020年斯丹钰
婚姻生活没有想象中那么完美…有时候特别痛恨小时候受的那些教育为什么要被灌输：结婚就好了结婚根本不是那么一件容易的事情…结婚是一种全新生活方式的开始是每一个人学习的新课程很讨厌传统思想中：女人的价值不就是为了生儿育女的吗！我觉得女人哪怕你不是想走所谓的事业型但是你一定要拥有一技之长无论你身在职场，还是想退隐江湖哪天再回来…至少你能在这个时代和这个社会生存下去那时候再来谈你的精神你要的所有其它的东西不
06月04日或许你也这样想
躺下来就已经是凌晨了，感觉真的很疲惫，还有好多好多被交代的任务没完成，大脑混乱眼皮也不听使唤耷拉下来，黑眼圈也不知道掉到哪里去了…只感觉一身的疲惫，作为一个心思敏感的职场小白我真的觉得这段时间身体是如此的煎熬精神是如此的压抑，晚上回来从八点多加班到十一点多，一整天都对着电脑脸也开始变得蜡黄剪了短发头发也油的更快了，说话也变得如此的小心翼翼，这应该是初入职场正常的状态吧，这个时候就愈发需要陪伴和沟通
职场内卷，太累了！7个方法让你“破局”（收藏）张涔汐
文|张涔汐上上个周，涔汐做了一场直播，关于个人如何快速成长的话题。涔汐实力宠粉，把直播干货分享给大家了。话不多说，上干货。我们先思考一个问题，为什么有些人在职场三年五载，还是老样子呢？因为他们总是指望别人能教他，就如同《天道》的王庙村村民，没事儿往教堂跑，指望上帝保佑发财，期待高人指点脱贫致富一个道理。如果你想要在短短时间内，获得成长。01摒弃指望别人教你成长的观念，保持成长思维很多人面试的过程中
类似拳头游戏的官网有哪些除了拳头游戏官网还有哪些好用？会飞滴鱼儿
免费在线游戏网站为我们的日常休闲娱乐提供了丰富多样的游戏体验。有些游戏平台相当优质，同时还提供实时动态、活动福利等。现在让我们一起探寻哪些免费在线游戏网站值得你投入时间和精力，沉浸在游戏的世界中，畅玩各种好玩的游戏。2024最火的免费游戏网站排行榜大全───┅┈━━━━━━━━┅┈─────────────Top1──────────游戏名字：游戏豹官网-特点-：手机游戏门户网站日活跃量：1.3w
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
王政君：职场大忌，你对我“好”，我便对你好沧笙踏歌Yolanda
一只是个普通人在历史这个职场上，有很多女人，混得特别好，原因主要有以下几种：1.长的美：美的惊艳了历史，参见四大美女。适合做公关，前台等工作。2.才华横溢者：李清照，鱼玄机，秦淮八艳等。适合文案，编辑类工作。3.政治手腕：吕雉，武则天，太平公主等。适合做领导，雷厉风行。4.贤良淑德：马皇后，长孙皇后等。适合做贤内助，看似温柔，实则刚强。但是对于大部分女人来说，她们可能既不太漂亮，也不太丑，更没多少
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Elaine 100天职场进化 | 2分钟小测试，让你知道你的能力优势！职场E姐
人们应当如何了解自己的能力优势呢？你可以通过工作观察法，从过去的工作中找到隐藏的线索。1、你最喜欢工作的哪些部分？2、最不喜欢工作的哪些部分？3、如果不考虑经济问题，你最喜欢做的三件工作或事情是什么？思考他们之间有什么共性？4、在工作中，你对什么最有兴趣去学习？并且学习得非常不错，有很明显的成果？5、在工作中，你对哪些事情感觉困难？哪些学得非常认真但总是很吃力而且掌握不好？6、除了你现在的工作，你
如何处理好同事之间的关系一米六男模
从毕业到职场的转变，就好像是走向人生的另一个模式-生存模式。同事之间的关系，关切到我们未来自身的发展。在职场上，脑子时刻处于急转弯的状态，应付着周围不同的人际关系。身在职场让我懂得一点，那就是，人与人之间的利益就是:价值等价交换。当然，只有妥善的处理好自己人际关系，才能让自己的职场之路更加的顺畅。当然，也并非都是如此。进入公司的几个月以来，大家的真诚相待，让我明白，人与人之间的相互信任，是友好相处
人在单位，要是你有这几个举动，相信你一辈子都只能身处“底层” 舒山有鹿
职场，那是每个人都避免不了的话题。你要谋生，那么你就要去给老板打工；你要成家立业，那你最基本的就是要找到工作；你要过上好日子，那你还是要去混职场。身为一个打工人，相信我们最期望的，应该就是早日升职加薪。可是，在这复杂的时代当中，升职加薪听起来很平常，可要想实现这个目标，那是很难的。你会发现，你的老板就动动嘴皮子，下面的员工就得拼死拼活为他干活；你会发现，你的老板总是提拔那些不怎么优秀的摸鱼者，却把
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修