Hadoop是Apache基金会开发的一个开源的分布式计算平台,主要用于处理和分析大数据。Hadoop的核心设计理念是将计算任务分布到多个节点上,以实现高度可扩展性和容错性。它主要由以下几个部分组成:
HDFS (Hadoop Distributed File System):HDFS是Hadoop的分布式文件系统,具有较高的读写速度,很好的容错性和可伸缩性,为海量的数据提供了分布式存储。其冗余数据存储的方式很好地保证了数据的安全性。
MapReduce:MapReduce是一种用于并行处理大数据集的软件框架(编程模型)。用户可在无需了解底层细节的情况下,编写MapReduce程序进行分析和处理分布式文件系统上的数据,MapReduce保证了分析和处理数据的高效性。
YARN (Yet Another Resource Negotiator):YARN是Hadoop2.0以后引入的另一个核心技术,它是一个任务调度和集群资源管理系统。
官方下载日志如下
https://dlcdn.apache.org/hadoop/common/
这里选择 最新的3.3.6
检查版本
bin/hadoop version
<configuration>
<property>
<name>fs.defaultFSname>
<value>hdfs://localhost:9000value>
property>
configuration>
<configuration>
<property>
<name>dfs.replicationname>
<value>2value>
property>
configuration>
ssh localhost
If you cannot ssh to localhost without a passphrase, execute the following commands:ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys
注意已经存在ssh key的话 就不要重写了 不然会影响到 你之前配置的ssh keybin/hdfs namenode -format
sbin/start-dfs.sh
开启YARN
You can run a MapReduce job on YARN in a pseudo-distributed mode by setting a few parameters and running ResourceManager daemon and NodeManager daemon in addition.
The following instructions assume that 1. ~ 4. steps of the above instructions are already executed.
Configure parameters as follows:
etc/hadoop/mapred-site.xml:
<configuration>
<property>
<name>mapreduce.framework.namename>
<value>yarnvalue>
property>
<property>
<name>mapreduce.application.classpathname>
<value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*value>
property>
configuration>
etc/hadoop/yarn-env.sh (注意这个jdk8之后 必须要加 不然yarn启动会报错)
export JAVA_HOME=/usr/local/develop/java/zulu-jdk17.0.7
export YARN_RESOURCEMANAGER_OPTS="--add-opens java.base/java.lang=ALL-UNNAMED"
export YARN_NODEMANAGER_OPTS="--add-opens java.base/java.lang=ALL-UNNAMED"
etc/hadoop/yarn-site.xml:
<configuration>
<property>
<name>yarn.nodemanager.aux-servicesname>
<value>mapreduce_shufflevalue>
property>
<property>
<name>yarn.nodemanager.env-whitelistname>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_HOME,PATH,LANG,TZ,HADOOP_MAPRED_HOMEvalue>
property>
configuration>
sbin/start-yarn.sh
以上就完成了 hadoop的伪集群搭建
可能会遇到的问题
启动yarn后 在jps中无法看到 resourcemanager
在日志文件中 发现 yarn 启动失败了 Caused by: java.lang.reflect.InaccessibleObjectException: Unable to make protected final java.lang.Class java.lang.ClassLoader.defineClass(java.lang.String,byte[],int,int,java.security.ProtectionDomain) throws java.lang.ClassFormatError accessible: module java.base does not “opens java.lang” to unnamed module @4d7c417d
在yarn-env.sh 添加配置即可
export JAVA_HOME=/usr/local/develop/java/zulu-jdk17.0.7
export YARN_RESOURCEMANAGER_OPTS=“–add-opens java.base/java.lang=ALL-UNNAMED”
export YARN_NODEMANAGER_OPTS=“–add-opens java.base/java.lang=ALL-UNNAMED”
good day !!!