ForeverDWYW

调试 Hadoop 源代码

这里介绍两种调试 Hadoop 源代码的方法: 利用 Eclipse 远程调试工具和打印调试日志. 这两种方法均可以调试伪分布式工作模式和完全分布式工作模式下的 Hadoop

(1) 利用 Eclipse 进行远程调试

下面以调试 ResourceManager 为例, 介绍利用 Eclipse 远程调试的基本方法, 这可分两步进行.

　　步骤 1 调试模式下启动 Hadoop.

　　在 Hadoop 安装目录下运行如下的 Shell 脚本:

$ export YARN_NODEMANAGER_OPTS="-Xdebug -Xrunjdwp:transport=dt_socket,address=8788,server=y,suspend=y"

$ sbin/start-all.sh # 在 /usr/local/hadoop 目录下

　　运行了脚本后会看到 Shell 命令行终端显示如下信息:

$ Listening for transport dt_socket at address: 8788

　　此时表明 ResourceManager 处于监听状态, 直到收到 debug 确认信息.

　　步骤 2 设置断点

　　在新建的 Java 工程 "hadoop-main" 中, 找到 ResourceManager 相关代码, 并在感兴趣的地方设置一些断点.

　　步骤 3 在 Eclipse 中调试 Hadoop 程序.

　　在 Eclipse 的菜单中, 依次选择 "Run" --> "Debug Configurations" --> "Remote Java Applications", 并按照要求填写远程调试器名称(自己定义一个即可), ResourceManager 所在 host 以及监听端口号等信息, 并选择 Hadoop 源代码工程, 便可进入调试模式.

　　调试过程中, ResourceManager 输出的信息被存储到日志文件夹下的 yarn-XXX-resourcemanager-localhost.log 文件 ( XXX 为当前用户名 ) 中, 可通过以下命令查看调试过程中打印的日志:

$ tail -f logs/yarn-XXX-resourcemanager-localhost.log # 在hadoop源代码目录下

　　(2) 打印 Hadoop 调试日志 参见 Hadoop源码编辑--日志修改篇

　　Hadoop 使用了 Apache log4j 作为基本日志库, 该日志库将日志分为5个级别, 分别是 DEBUG, INFO, WARN, ERROR 和 FATAL. 这5个级别是有顺序的, 即 DEBUG < INFO < WARN < ERROR < FATAL, 分别用来指定日志信息的重要程度. 日志输出规则为: 只输出级别不低于设定级别的日志信息, 比如若级别设定为 INFO, 则 INFO, WARN, ERROR 和 FATAL 级别的日志信息都会输出, 但级别比 INFO 低的 DEBUG 则不会输出.

　　在 Hadoop 源代码中, 大部分 Java 文件中存在调试日志 ( DEBUG 级别日志 ), 但默认情况下, 日志级别是 INFO, 为了查看更详细的运行状态, 可采用以下几种方法打开 DEBUG 日志.

　　方法 1 使用 Hadoop Shell 命令.

　　可使用 Hadoop 脚本中的 daemonlog 命令查看和修改某个类的日志级别, 比如, 可通过以下命令查看 NodeManager 类的日志级别: ( 如果你的主机是 node1, ip是192.168.1.101, 而且已经绑定了, host 写这两个中的一个即可 )

$ bin/hadoop daemonlog -getlevel ${nodemanager-host}:8042 org.apache.hadoop.yarn.server.nodemanager.NodeManager

　　可通过以下命令将 NodeManager 类的日志级别:

$ bin/hadoop daemonlog -setlevel ${nodemanager-host}:8042 org.apache.hadoop.yarn.server.nodemanager.NodeManager DEBUG

　　其中, nodemanager-host 为 NodeManager 服务所在的 host, 8042 是 NodeManager 的 HTTP 端口号.

　　方法 2 通过 Web 界面.

　　用户可以通过 Web 界面查看和修改某个类的日志级别, 比如, 可通过以下 URL 修改 NodeManager 类的日志级别:

http://${nodemanager-host}:8042/loglevel

　　方法 3 修改 log4j.properties 文件. （亲测有效）参见 Apache log4j 官网

　　以上两种方式只能暂时修改日志级别, 当 Hadoop 重启后会被重置, 如果要永久性改变日志级别, 可在目标节点配置目录下的 log4j.properties 文件中添加以下配置选项:

$ log4j.logger.org.apache.hadoop.yarn.server.nodemanager.NodeManager=DEBUG

　　3.1 此外, 有时为了专门调试某个 Java 文件, 需要把该文件的相关日志输出到一个单独文件中, 可在 log4j.properties 中添加以下内容:

# 定义输出方式为自定义的 TTOUT

log4j.logger.org.apache.hadoop.yarn.server.nodemanager.NodeManager=DEBUG,TTOUT

# 设置 TTOUT 的输出方式为输出到文件

log4j.appender.TTOUT=org.apache.log4j.FileAppender

# 设置文件路径

log4j.appender.TTOUT.File=${hadoop.log.dir}/NodeManager.log

# 设置文件布局

log4j.appender.TTOUT.layout=org.apache.log4j.PatternLayout

# 设置文件格式

log4j.appender.TTOUT.layout.ConversionPattern=%d{ISO8601} %p %c{2}: %m%n

　　这些配置选项会把 NodeManager.java 中的 DEBUG 日志写到日志目录下的 NodeManager.log 文件中。这些对应的是NodeManager的自定义的LOG，如下所示。即 org.apache.hadoop.yarn.server.nodemanager.NodeManager 对应 NodeManager.class 。输出的日志也是它自定义的LOG的输出。

// NodeManager.java

private static final Log LOG = LogFactory.getLog(NodeManager.class);

　　在阅读源代码的过程中, 为了跟踪某个变量值的变化, 读者可能需要自己添加一些 DEBUG 日志. 在 Hadoop 源代码中, 大部分类会定义一个日志打印对象, 通过该对象可打印各个级别的日志. 比如, 在 NodeManager 中用以下代码定义对象 LOG:

public static final Log LOG = LogFactory.getLog(NodeManager.class);

　　用户可使用 LOG 对象打印调试日志. 比如, 可在 NodeManager 的 main 函数首行添加以下代码:

LOG.debug("Start to lauch NodeManager....");

　　然后重新编译 Hadoop 源代码, 并将 org.apache.hadoop.yarn.server.nodemanager.NodeManager 的调试级别修改为 DEBUG, 重新启动 Hadoop 后便可以看到该调试信息.

　　3.2 而大部分时候我们想用log4j为自己所用，输出一些自己比较关心的信息。

// NodeManager.java

private static final Log LOG = LogFactory.getLog(NodeManager.class); // 自带的

private static final Log LOG = LogFactory.getLog("MyNodeManager"); //自己定义的

　　用户可使用 LOG 对象打印调试日志. 比如, 可在 NodeManager 的 main 函数首行添加以下代码:

LOG.debug("Start to lauch NodeManager....");

　　然后重新编译 Hadoop 源代码,将编译好的jar包替换部署好的Hadoop集群的相应jar包之后，具体参见我的博客Hadoop 修改源码以及将修改后的源码应用到部署好的Hadoop中。再配置 {HADOOP_HOME}/etc/hadoop/log4j.properties ,如下所示：

// log4j.properties

# 我的NodeManager Logs

log4j.logger.MyNodeManager=DEBUG,mynodemanager

#设置OUT的输出方式为输出到文件

log4j.appender.mynodemanager=org.apache.log4j.FileAppender

#设置文件路径

log4j.appender.mynodemanager.File=${hadoop.log.dir}/MyNodeManager.log

#设置文件的布局

log4j.appender.mynodemanager.layout=org.apache.log4j.PatternLayout

#设置文件的格式

log4j.appender.mynodemanager.layout.ConversionPattern=%d{ISO8601} %p %c{2}: %m%n

#设置该日志操作不与父类日志操作重叠

log4j.additivity.MyNodeManager=false

　　重新启动 Hadoop 后，便可以在我们指定的文件下看到该调试信息文件。

(3) 我自己的方法

这里需要先修改源代码. 然后重新编译 Hadoop 源代码,将编译好的jar包替换部署好的Hadoop集群的相应jar包之后，具体参见我的博客Hadoop 修改源码以及将修改后的源码应用到部署好的Hadoop中。最后重新启动 Hadoop 后, 只要执行到该类,就会显示你要查看的信息.

第一步: 先修改源代码

比如我们想要查看 DFSUtil.java 中的 locatedBlocks2Locations(List blocks) 方法, 该方法用来创建 BlockLocation .

首先, 这是我们之前说的类和方法. DFSUtil.java 在 hadoop-2.7.3-src/hadoop-hdfs-project/hadoop-hdfs/src/main/java/org/apache/hadoop/hdfs 文件里.

// 在 org.apache.hadoop.hdfs.DFSUtil

public class DFSUtil {

// ......

/**

* Convert a List to BlockLocation[]

* @param blocks A List to be converted

* @return converted array of BlockLocation

public static BlockLocation[] locatedBlocks2Locations(List blocks) {

if (blocks == null) {

return new BlockLocation[0];

}

int nrBlocks = blocks.size();

BlockLocation[] blkLocations = new BlockLocation[nrBlocks];

if (nrBlocks == 0) {

return blkLocations;

}

int idx = 0;

for (LocatedBlock blk : blocks) {

assert idx < nrBlocks : "Incorrect index";

// 改为DatanodeInfoWithStorage[] 或者在调用时 ((DatanodeInfoWithStorage)location[hCnt]).getStorageType()

DatanodeInfo[] locations = blk.getLocations();

String[] hosts = new String[locations.length];

String[] xferAddrs = new String[locations.length];

String[] racks = new String[locations.length];

for (int hCnt = 0; hCnt < locations.length; hCnt++) {

hosts[hCnt] = locations[hCnt].getHostName();

xferAddrs[hCnt] = locations[hCnt].getXferAddr();

NodeBase node = new NodeBase(xferAddrs[hCnt],

locations[hCnt].getNetworkLocation());

racks[hCnt] = node.toString();

}

DatanodeInfo[] cachedLocations = blk.getCachedLocations();

String[] cachedHosts = new String[cachedLocations.length];

for (int i=0; i) {

cachedHosts[i] = cachedLocations[i].getHostName();

}

blkLocations[idx] = new BlockLocation(xferAddrs, hosts, cachedHosts,

racks,

blk.getStartOffset(),

blk.getBlockSize(),

blk.isCorrupt());

idx++;

}

return blkLocations;

}

// ......

}

我们要想知道该方法内部的一些具体信息, 就先添加我自己设计的方法, 注意, 最开始要加上包, 如下所示:

import java.io.BufferedWriter;

import java.io.File;

import java.io.FileWriter;

import java.io.IOException;

import java.util.Arrays; // 如果有数组

/**

* 向指定的文件中写入内容; 如果是静态,则在前面添加关键字 static .

* 这里是追加写, 想重新写,先删除生成的文件, 或者把文件删除代码注释取消

* @author zhangchao

* @version 2018年1月9号下午14:57

* @param filecontent, 要写入文件的内容 String 或 Object

void writeToFile(Object filecontent){

String path = "/home/hadoop/";

String filename = "MyTest.txt";

String filenameTemp = path + filename;

String filein = filecontent + "\r\n"; //新写入的行，换行

// 如果文件不存在,创建文件.

File file=new File(filenameTemp);

try {

// 若文件存在,先删除已经存在的文件. 如果不想每次手动删除文件,则取消这一块注释

//if(file.exist()){

// file.delete();

//}

// 若文件不存在, 创建文件.

if (!file.exists()) {

file.getParentFile().mkdirs();

file.createNewFile();

}

} catch (IOException e) {

e.printStackTrace();

}

// 向指定文件中写入文字

FileWriter fileWriter;

try {

// 打开一个写文件器，构造函数中的第二个参数true表示以追加形式写文件

fileWriter = new FileWriter(filenameTemp,true);

//使用缓冲区比不使用缓冲区效果更好，因为每趟磁盘操作都比内存操作要花费更多时间。

//通过BufferedWriter和FileWriter的连接，BufferedWriter可以暂存一堆数据，然后到满时再实际写入磁盘

//这样就可以减少对磁盘操作的次数。如果想要强制把缓冲区立即写入,只要调用writer.flush();这个方法就可以要求缓冲区马上把内容写下去

BufferedWriter bufferedWriter=new BufferedWriter(fileWriter);

bufferedWriter.write(filein);

bufferedWriter.close();

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

最后, 把该方法添加到 DFSUtil 类中, ( 注意, 包不要和原有的重复; 并且如果是静态的方法, 需要添加 static 关键字 ), 如下所示:

// 在 org.apache.hadoop.hdfs.DFSUtil

import java.io.BufferedWriter;

import java.io.File;

import java.io.FileWriter;

import java.io.IOException;

import java.util.Arrays; // 如果有数组

public class DFSUtil { // ......

/**

* 向指定的文件中写入内容; 如果是静态,则在前面添加关键字 static .

* 这里是追加写, 想重新写,先删除生成的文件, 或者把文件删除代码注释取消

* @author zhangchao

* @version 2018年1月9号下午14:57

* @param filecontent, 要写入文件的内容 String 或 Object

void writeToFile(Object filecontent){

String path = "/home/hadoop/hadooplogs/"; // 目录

String filename = "MyTest.txt"; // 写入数据的文件名

String filenameTemp = path + filename;

String filein = filecontent + "\r\n"; //新写入的行，换行

// 如果文件不存在,创建文件. 取消这一块注释

File file=new File(filenameTemp);

try {

// 若文件存在,先删除已经存在的文件

//if(file.exist()){

// file.delete();

//}

// 若文件不存在, 创建文件

if (!file.exists()) {

file.getParentFile().mkdirs();

file.createNewFile();

}

} catch (IOException e) {

e.printStackTrace();

}

// 向指定文件中写入文字

FileWriter fileWriter;

try {

// 打开一个写文件器，构造函数中的第二个参数true表示以追加形式写文件

fileWriter = new FileWriter(filenameTemp,true);

//使用缓冲区比不使用缓冲区效果更好，因为每趟磁盘操作都比内存操作要花费更多时间。

//通过BufferedWriter和FileWriter的连接，BufferedWriter可以暂存一堆数据，然后到满时再实际写入磁盘

//这样就可以减少对磁盘操作的次数。如果想要强制把缓冲区立即写入,只要调用writer.flush();这个方法就可以要求缓冲区马上把内容写下去

BufferedWriter bufferedWriter=new BufferedWriter(fileWriter);

bufferedWriter.write(filein);

bufferedWriter.close();

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

/**

* Convert a List to BlockLocation[]

* @param blocks A List to be converted

* @return converted array of BlockLocation

public static BlockLocation[] locatedBlocks2Locations(List blocks) {

if (blocks == null) {

return new BlockLocation[0];

}

int nrBlocks = blocks.size();
writeToFile("blocks.size() = " + nrBlocks); // 这是我添加的, 我想知道有几个块. 最后运行集群的时候,只要调用 DFSUtil 类的该方法, 就会调用我自己设计的方法 writeToFile(), 从而完成创建文件并写入相关数据的操作.

BlockLocation[] blkLocations = new BlockLocation[nrBlocks];

if (nrBlocks == 0) {

return blkLocations;

}

int idx = 0;

for (LocatedBlock blk : blocks) {

assert idx < nrBlocks : "Incorrect index";

// 改为DatanodeInfoWithStorage[] 或者在调用时 ((DatanodeInfoWithStorage)location[hCnt]).getStorageType()

DatanodeInfo[] locations = blk.getLocations();

String[] hosts = new String[locations.length];

String[] xferAddrs = new String[locations.length];

String[] racks = new String[locations.length];

for (int hCnt = 0; hCnt < locations.length; hCnt++) {

hosts[hCnt] = locations[hCnt].getHostName();

xferAddrs[hCnt] = locations[hCnt].getXferAddr();

NodeBase node = new NodeBase(xferAddrs[hCnt],

locations[hCnt].getNetworkLocation());

racks[hCnt] = node.toString();

}
writeToFile(Arrays.asList(hosts)); // 要把数组写进文件, 需要借助 Arrays, Arrays.asList(...), 把数组转化为 List , 这样就可以写入到文件.

DatanodeInfo[] cachedLocations = blk.getCachedLocations();

String[] cachedHosts = new String[cachedLocations.length];

for (int i=0; i) {

cachedHosts[i] = cachedLocations[i].getHostName();

}

blkLocations[idx] = new BlockLocation(xferAddrs, hosts, cachedHosts,

racks,

blk.getStartOffset(),

blk.getBlockSize(),

blk.isCorrupt());

idx++;

}

return blkLocations;

}

// ......

}

第二步: 编译 Hadoop 源代码,将编译好的jar包替换部署好的Hadoop集群的相应jar包

修改好代码之后, 我们知道, DFSUtil.java 在 hadoop-2.7.3-src/hadoop-hdfs-project/hadoop-hdfs/src/main/java/org/apache/hadoop/hdfs 文件里, 最深的一层包含 pom.xml ( 即可Maven ) 是 hadoop-2.7.3-src/hadoop-hdfs-project/hadoop-hdfs , 所以

// 先切换到 root 用户

su root

cd hadoop-2.7.3-src/hadoop-hdfs-project/hadoop-hdfs // hadoop-2.7.3-src 放在哪,就从那进

mvn package -Pdist -DskipTests -Dtar

Maven 编译成功的话, 会显示:

BUILD SUCCESS

编译成功之后, 就会在 hadoop-2.7.3-src/hadoop-hdfs-project/hadoop-hdfs 文件下生成 target 文件夹, 里面存放 Maven 好的 jar 包, 这里会生成 hadoop-2.7.3-src/hadoop-hdfs-project/hadoop-hdfs/target/hadoop-hdfs-2.7.3.jar ,( 在该 Jar 包内, 我们通过压缩软件查看会发现 org/apache/hadoop/hdfs/DFSUtil.class, ) . 最后就是将该 jar 包替换到部署好的 Hadoop 的相应 jar 包, 即替换 hadoop-2.7.3/share/hadoop/hdfs/hadoop-hdfs-2.7.3.jar .

// $CLUSTER_SRC_HOME 是 hadoop-src-2.7.3 所在位置

// $HADOOP_HOME 是 hadoop-2.7.3 所在的位置

// 这里是在自己机器上单机部署的情况

cp $CLUSTER_SRC_HOME/hadoop-hdfs-project/hadoop-hdfs/target/hadoop-hdfs-2.7.3.jar $HADOOP_HOME/share/hadoop/hdfs/hadoop-hdfs-2.7.3.jar

// 如果是全分布式的,需要向集群的每台机器拷贝.

scp $CLUSTER_SRC_HOME/hadoop-hdfs-project/hadoop-hdfs/target/hadoop-hdfs-2.7.3.jar username@IP:$HADOOP_HOME/share/hadoop/hdfs/hadoop-hdfs-2.7.3.jar

第三步: 重新启动 Hadoop

只要集群调用 DFSUtil 类的 locatedBlocks2Locations(List blocks) 方法, 就会调用该函数内部我自己设计的方法, 完成创建文件并写入信息. 实际上,运行个wordcount, 该方法会被调用, 因为集群需要创建 BlockLocation .

最后会创建 /home/hadoop/MyTest.txt , 文件内部有写入的信息.

参考地址:https://www.cnblogs.com/zhangchao0515/p/7115764.html

你可能感兴趣的:(Hadoop)

浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现程序员-石头山大数据实战案例大数据 hadoop 毕业设计毕设
博主介绍：✌全平台粉丝5W+,高级大厂开发程序员，博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来，同学门有不懂的毕设选题，项目以及论文编写等相关问题都可以和学长沟通，希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展，电商平台积累了海量的数据资源，这些数据不仅包括用户的基本信息、购物记录，还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
Hadoop常见面试题整理及解答叶青舟 Linux hdfs 大数据 hadoop linux
Hadoop常见面试题整理及解答一、基础知识篇：1.把数据仓库从传统关系型数据库转到hadoop有什么优势？答：（1）关系型数据库成本高，且存储空间有限。而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。（2）关系型数据库仅支持标准结构化数据格式，Hadoop不仅支持标准结构化数据格式
2025毕业设计指南：如何用Hadoop构建超市进货推荐系统？大数据分析助力精准采购计算机编程指导师 Java实战集 Python实战集大数据实战集课程设计 hadoop 数据分析 spring boot java 进货 python
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程序/安卓实战项目大数据实战项目⚡⚡文末获取源码文章目录⚡⚡文末获取源码基于hadoop的超市进货推荐系
Hadoop Common 之序列化机制小解猫君之上 #Apache Hadoop
1.JavaSerializable序列化该序列化通过ObjectInputStream的readObject实现序列化，ObjectOutputStream的writeObject实现反序列化。这不过此种序列化虽然跨病态兼容性强，但是因为存储过多的信息，但是传输效率比较低，所以hadoop弃用它。（序列化信息包括这个对象的类，类签名，类的所有静态，费静态成员的值，以及他们父类都要被写入）publ
深入理解hadoop(一)----Common的实现----Configuration maoxiao_jsd 深入理解----hadoop
属本人个人原创，转载请注明,希望对大家有帮助！！一,hadoop的配置管理a,hadoop通过独有的Configuration处理配置信息Configurationconf=newConfiguration();conf.addResource("core-default.xml");conf.addResource("core-site.xml");后者会覆盖前者中未final标记的相同配置项b
hadoop 0.22.0 部署笔记 weixin_33701564 大数据 java 运维
为什么80%的码农都做不了架构师？>>>因为需要使用hbase，所以开始对hbase进行学习。hbase是部署在hadoop平台上的NOSql数据库，因此在部署hbase之前需要先部署hadoop。环境：redhat5、hadoop-0.22.0.tar.gz、jdk-6u13-linux-i586.zipip192.168.1.128hostname：localhost.localdomain（
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(4) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！org.apache.hadoophadoop-com
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(3) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！xmlns:xsi="http://www.w3.or
深入解析HDFS：定义、架构、原理、应用场景及常用命令 CloudJourney hdfs 架构 hadoop
引言Hadoop分布式文件系统（HDFS，HadoopDistributedFileSystem）是Hadoop框架的核心组件之一，它提供了高可靠性、高可用性和高吞吐量的大规模数据存储和管理能力。本文将从HDFS的定义、架构、工作原理、应用场景以及常用命令等多个方面进行详细探讨，帮助读者全面深入地了解HDFS。1.HDFS的定义1.1什么是HDFSHDFS是Hadoop生态系统中的一个分布式文件系
Hadoop的搭建流程 lzhlizihang hadoop 大数据分布式
文章目录一、配置IP二、配置主机名三、配置主机映射四、关闭防火墙五、配置免密六、安装jdk1、第一步：2、第二步：3、第三步：4、第四步：5、第五步：七、安装hadoop1、上传2、解压3、重命名4、开始配置环境变量5、刷新配置文件6、验证hadoop命令是否可以识别八、全分布搭建7、修改配置文件core-site.xml8、修改配置文件hdfs-site.xml9、修改配置文件hadoop-en
hive搭建 -----内嵌模式和本地模式 lzhlizihang hive hadoop
文章目录一、内嵌模式（使用较少）1、上传、解压、重命名2、配置环境变量3、配置conf下的hive-env.sh4、修改conf下的hive-site.xml5、启动hadoop集群6、给hdfs创建文件夹7、修改hive-site.xml中的非法字符8、初始化元数据9、测试是否成功10、内嵌模式的缺点二、本地模式（最常用）1、检查mysql是否正常2、上传、解压、重命名3、配置环境变量4、修改c
Hadoop之mapreduce -- WrodCount案例以及各种概念 lzhlizihang hadoop mapreduce 大数据
文章目录一、MapReduce的优缺点二、MapReduce案例--WordCount1、导包2、Mapper方法3、Partitioner方法（自定义分区器）4、reducer方法5、driver（main方法）6、Writable（手机流量统计案例的实体类）三、关于片和块1、什么是片，什么是块？2、mapreduce启动多少个MapTask任务？四、MapReduce的原理五、Shuffle过
IAAS: IT公司去IOE-Alibaba系统构架解读 wishchin 心理学/职业 BigDataMini Spark PaaS
从Hadoop到自主研发，技术解读阿里去IOE后的系统架构原地址：......................云计算阿里飞天摘要：从IOE时代，到Hadoop与飞天并行，再到飞天单集群5000节点的实现，阿里一直摸索在技术衍变的前沿。这里，我们将从架构、性能、运维等多个方面深入了解阿里基础设施。【导读】互联网的普及，智能终端的增加，大数据时代悄然而至。在这个数据为王的时代，数十倍、数百倍的数据给各
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那