阮哈哈哈哈哈

Hadoop集群搭建（超级详细）

感谢评论区大佬们指出文章中的一些错误，已经进行修改。如果还存在其他错误，希望大佬们指出！

需要的安装包：jdk-8u162-linux-x64.tar.gz（提取码：6k1i ）、hadoop-3.1.3.tar.gz（提取码：07p6 ）

1 集群规划

安装VMware，使用三台Ubuntu18.04虚拟机进行集群搭建，下面是每台虚拟机的规划：

主机名	IP	用户	HDFS	YARN
hadoopMaster	待定	rmc0924	NameNode、DataNode	NodeManager、ResourceManager
hadoopSlave0	待定	rmc0924	DataNode、SecondaryNameNode	NodeManager
hadoopSlave1	待定	rmc0924	DataNode	NodeManager

上面表格备用，还需要确定每台虚拟机的IP地址

2 网络配置

首先在VMware中新建一台4G内存（后期会进行修改），20G硬盘空间的Ubuntu虚拟机。新建完成后进行下面操作。

2.1 修改主机名

sudo vim /etc/hostname

其中的vim文本编辑器需要自己安装，具体的安装步骤也很简单，大家伙可以去看别人的博客安装一下。执行上面的命令打开“/etc/hostname”这个文件，将其中内容删除，并修改为“hadoopMaster”，保存退出vim编辑器，重启Linux即可看到主机名发生变化。下面是修改前的主机名：

下面是修改后的主机名：

2.2 设置虚拟机IP地址

查看VMware虚拟机的虚拟网络编辑器
点击VMnet8网络，点击NAT设置

记录上面图中子网IP、子网掩码、网关三个属性，这些在后面的步骤有用，不同的电脑会有不同。

获取Ubuntu虚拟机的网卡编号

ifconfig

设置静态网络

sudo vim /etc/network/interfaces

在原有的内容上添加

auto ens33				# 网卡编号，我这里是ens33
iface ens33 inet static	# 设置为静态IP
address 192.168.131.151	# 该机器的IP，根据我们刚才获取到的VMware的子网IP进行选取
netmask 255.255.255.0	# 子网掩码，刚才获取VMware的子网掩码
gateway 192.168.131.2	# 网关，也是刚才获取的网关
dns-nameserver 192.168.131.2	# DNS,和网关一样即可

上面的内容根据各自的电脑进行设置，一定要和VMware中的子网IP、子网掩码、网关保持一致，不然会上不了网。保存退出vim编辑器，重启Ubuntu即可生效。

主机IP映射

sudo vim /etc/hosts

打开hosts文件，新增三条IP与主机的映射关系：

192.168.131.151	hadoopMaster
192.168.131.152	hadoopSlave0
192.168.131.153	hadoopSlave1

修改结果如下图所示：

一般情况下，hosts文件中只有一个127.0.0.1，其对应的主机名为localhost，如果存在多余的127.0.0.1，应删除，同时127.0.0.1不能与hadoopMaster这样的主机名进行映射关系。修改后重启Ubuntu。

2.3 关闭防火墙

使用下面命令查看防火墙状态，inactive状态是防火墙关闭状态 active是开启状态。

sudo ufw status

使用下面命令关闭防火墙：

sudo ufw disable

3 安装SSH服务端

sudo apt-get install openssh-server

安装后，使用下面命令登录本机：

ssh localhost

SSH首次登录会有提示，输入yes即可，然后按照提示输入本机密码即可。但是这样每次登录都要输入密码，现在设置SSH无密码登录。首先退出SSH，利用ssh-keygen生成密钥，并将密钥加入到授权中。

exit	# 退出ssh localhost
cd ~/.ssh/
ssh-keygen -t rsa	# 会有提示，都按回车就行
cat ./id_rsa.pub >> ./authorized_keys	# 加入授权

现在再使用"ssh localhost"，就可以不用输入密码登录ssh

4 安装Java环境

Hadoop3.1.3需要JDK版本在1.8及以上，jdk-8u162-linux-x64.tar.gz在文首给出，可以进行下载。将文件放在一个目录中后，打开一个终端，执行下面命令。

cd /usr/lib
sudo mkdir jvm	# 创建目录来存放JDK文件
# 进入jdk-8u162-linux-x64.tar.gz所在的文件夹
sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm

上面将JDK文件解压之后，进入/usr/lib/jvm目录下会有个jdk1.8.0_162文件
下面开始设置环境变量

sudo vim ~/.bashrc

在打开的文件首部添加下面内容

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

保存退出vim编辑器，执行下面命令让.bashrc文件的配置生效：

source ~/.bashrc

接下来使用下面命令查看是否安装成功：

java -version

如果显示java的版本信息，则表示安装成功：

5 安装Hadoop3.1.3

hadoop-3.1.3.tar.gz文件在文首已经给出，将其下载并放到相应的位置上，使用下面命令安装：

sudo tar -zxf ./hadoop-3.1.3.tar.gz -C /usr/local	# 解压到/usr/local中
sudo mv ./hadoop-3.1.3/ ./hadoop	# 将文件名改为hadoop
sudo chown -R rmc0924 ./hadoop	# 修改权限，当前是什么用户登录，就给他赋予用户的权限

解压后使用下面命令看是否安装成功，安装成功会显示Hadoop的版本信息。

cd /usr/local/hadoop
./bin/hadoop verison

6 克隆虚拟机

经过上面步骤，名称为hadoopMaster的Ubuntu已经配置完成，现在退出该虚拟机。将该虚拟机克隆出另外两台虚拟机，分别命名为hadoopSlave0和hadoopSlave1。

在后面的提示框中依次选择“虚拟机中的当前状态”、“创建完整克隆”、对克隆的虚拟机命名、选择位置，等待克隆完成。最后的虚拟机如下所示：

将hadoopSlave0和hadoopSlave1两台虚拟机按照2.1和2.2中步骤，修改主机名以及各自的静态IP，备用。最后我们可以把最初的那张表补全：

主机名	IP	用户	HDFS	YARN
hadoopMaster	192.168.131.151	rmc0924	NameNode、DataNode	NodeManager、ResourceManager
hadoopSlave0	192.168.131.152	rmc0924	DataNode、SecondaryNameNode	NodeManager
hadoopSlave1	192.168.131.153	rmc0924	DataNode	NodeManager

7 安装SecureCRT

由于使用一台电脑来搭建集群，电脑的内存就8G，带不动三台带有图形化界面的虚拟机同时运行，所以使用SecureCRT进行远程连接。SecureCRT安装教程在这位大佬的博客中有详细的教程，大家伙自己过去看就好了，我就不再赘述。

8 集群搭建

好了，前面说了那么多都是铺垫，现在正式搭建Hadoop集群。首先我们还是需要打开VMware中的三台虚拟机，但是打开之前，我们要把它们的内存进行修改，由原先的4G改为1.5G就行了。硬件原因，不在这三台的图形化界面上进行操作，而是使用SecureCRT远程连接，只在终端上进行操作。将三台虚拟机的内存大小改为1.5G后，就可以将三台机子打开。仅仅打开就行，登录界面出现就够了，不需要登录进去。

这样开了三台，内存还都是1.5G的，我的内存就干到了85%，所以不用在图形化界面上进行操作。使用SecureCRT就可以直接登录三台机子。

三台机子之间互相ping，看是否能ping通。

SSH无密码登录节点

必须要让hadoopMaster节点可以SSH无密码登录到各个hadoopSlave节点上。首先生成hadoopMaster节点公钥，如果之前已经生成，必须删除，重新生成一次。在hadoopMaster上进行下面操作：

cd ~/.ssh
rm ./id_rsa*	# 删除之前生成的公钥
ssh-keygen -t rsa	# 遇到信息，一直回车就行

再让hadoopMaster节点能够无密码SSH登录本机，在hadoopMaster节点上执行下面命令：

cat ./id_rsa.pub >> ./authorized_keys

使用下面命令进行测试：

ssh hadoopMaster

接下来将hadoopMaster上的公钥传给各个hadoopSlave节点：

scp ~/.ssh/id_rsa.pub hadoopSlave0:/home/rmc0924

其中scp是secure copy的简写，在Linux中用于远程拷贝。执行scp时会要求输入hadoopSlave1用户的密码，输入完成后会显示传输完毕：

接着在hadoopSlave0节点上，将接收到的公钥加入授权：

mkdir ~/.ssh	# 如果不存在该文件夹，先创建
cat ~/id_rsa.pub >> ~/.ssh/authorized_keys
rm ~/id_rsa.pub	# 加完就删除

在hadoopSlave1节点中也执行上的命令。执行完了之后，在hadoopMaster节点上就可以无密码登录代各个hadoopSlave节点，在hadoopMaster节点上执行下面命令：

ssh hadoopSlave0

输入exit即可退出。

配置集群环境

配置集群模式时，需要修改“/usr/local/hadoop/etc/hadoop”目录下的配置文件，包括workers、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml。

A. 修改workers文件

vim workers

该文件内容可以指定某几个节点作为数据节点，默认为localhost，我们将其删除并修改为hadoopSlave0和hadoopSlave1.当然也可以将hadoopMaster加进去，让hadoopMaster节点既做名称节点，也做数据节点，本文将hadoopMaster一起加进去作为数据节点。

hadoopMaster 
hadoopSlave0 
hadoopSlave1

B.修改core-site.xml文件

vim core-site.xml

fs.defaultFS：指定namenode的hdfs协议的文件系统通信地址，可以指定一个主机+端口
hadoop.tmp.dir：hadoop集群在工作时存储的一些临时文件存放的目录

	<configuration>
	        <property>
	                <name>fs.defaultFSname>
	                <value>hdfs://hadoopMaster:9000value>
	        property>
	        <property>
	                <name>hadoop.tmp.dirname>
	                <value>file:/usr/local/hadoop/tmpvalue>
	        property>
	configuration>

C.修改hdfs-site.xml文件

vim hdfs-site.xml

dfs.namenode.name.dir：namenode数据的存放位置，元数据存放位置
dfs.datanode.data.dir：datanode数据的存放位置，block块存放的位置
dfs.repliction：hdfs的副本数设置，默认为3
dfs.secondary.http.address：secondarynamenode运行节点的信息，应该和namenode存放在不同节点

	<configuration>
	        <property>
	                <name>dfs.namenode.secondary.http-addressname>
	                <value>hadoopSlave0:50090value>
	        property>
	        <property>
	                <name>dfs.replicationname>
	                <value>3value>
	        property>
	        <property>
	                <name>dfs.namenode.name.dirname>
	                <value>file:/usr/local/hadoop/tmp/dfs/namevalue>
	        property>
	        <property>
	                <name>dfs.datanode.data.dirname>
	                <value>file:/usr/local/hadoop/tmp/dfs/datavalue>
	        property>
	configuration>

D.修改mapred-site.xml文件

vim mapred-site.xml

mapreduce.framework.name：指定mapreduce框架为yarn方式
mapreduce.jobhistory.address：指定历史服务器的地址和端口
mapreduce.jobhistory.webapp.address：查看历史服务器已经运行完的Mapreduce作业记录的web地址，需要启动该服务才行

	<configuration>
	        <property>
	                <name>mapreduce.framework.namename>
	                <value>yarnvalue>
	        property>
	        <property>
	                <name>mapreduce.jobhistory.addressname>
	                <value>hadoopMaster:10020value>
	        property>
	        <property>
	                <name>mapreduce.jobhistory.webapp.addressname>
	                <value>hadoopMaster:19888value>
	        property>
	        <property>
	                <name>yarn.app.mapreduce.am.envname>
	                <value>HADOOP_MAPRED_HOME=/usr/local/hadoopvalue>
	        property>
	        <property>
	                <name>mapreduce.map.envname>
	                <value>HADOOP_MAPRED_HOME=/usr/local/hadoopvalue>
	        property>
	        <property>
	                <name>mapreduce.reduce.envname>
	                <value>HADOOP_MAPRED_HOME=/usr/local/hadoopvalue>
	        property> 
	configuration>

E.修改yarn-site.xml文件

vim yarn-site.xml

	<configuration>
	        <property>
	                <name>yarn.resourcemanager.hostnamename>
	                <value>hadoopMastervalue>
	        property>
	        <property>
	                <name>yarn.nodemanager.aux-servicesname>
	                <value>mapreduce_shufflevalue>
	        property>
	configuration>

分发文件

修改完上面五个文件后，将hadoopMaster节点上的hadoop文件复制到各个结点上。在hadoopMaster节点上执行下面命令：

cd /usr/local
sudo rm -r ./hadoop/tmp     # 删除 Hadoop 临时文件
sudo rm -r ./hadoop/logs/*   # 删除日志文件
tar -zcf ~/hadoop.master.tar.gz ./hadoop   # 先压缩再复制
cd ~
scp ./hadoop.master.tar.gz hadoopSlave0:/home/hadoop

在其他hadoopSlave节点将接收的压缩文件解压出来，并授予权限，命令如下：

sudo rm -r /usr/local/hadoop    # 删掉旧的（如果存在）
sudo tar -zxf ~/hadoop.master.tar.gz -C /usr/local
sudo chown -R rmc0924 /usr/local/hadoop

Hadoop初始化

HDFS初始化只能在主节点上进行

cd /usr/local/hadoop
./bin/hdfs namenode -format

在初始化过程中，只要看到上面红框里面的信息，有个successfully formatted说明初始化成功。

Hadoop集群启动

在hadoopMaster节点上执行下面命令：

cd /usr/local/hadoop
./sbin/start-dfs.sh
./sbin/start-yarn.sh
./sbin/mr-jobhistory-daemon.sh start historyserver

通过jps可以查看各个节点所启动的进程，如果按照本文的设置，正确启动的话，在hadoopMaster节点上会看到以下进程：

hadoopSlave0节点的进程：

hadoopSlave1节点的进程：

另外还可以在hadoopMaster节点上使用下面命令查看数据节点是否正常启动。本文中使用三个节点作为数据节点，所以会有以下的信息：

当然我们也可以在浏览器中查看：
HDFS：http://192.168.131.151:9870/
YARN：http://192.168.131.151:8088/cluster

HDFS界面

点击DataNodes可以查看三个节点：

YARN界面

点击左侧导航栏Nodes可以查看结点

至此，Hadoop集群搭建完成，撒花！！！！！

9 执行分布式实例

在HDFS上创建一个文件夹/test/input

cd /usr/local/hadoop
./bin/hdfs dfs -mkdir -p /test/input

查看创建的文件夹

./bin/hdfs dfs -ls /

创建一个word.txt测试文件

vim word.txt

输入以下文本（我从《傲慢与偏见》里面抽出来两段话）

	Be not alarmed, madam, on receiving this letter, by the apprehension of its containing any repetition of those
sentiments or renewal of those offers which were last night so disgusting to you. I write without any intention of
paining you, or humbling myself, by dwelling on wishes which, for the happiness of both, cannot be too soon
forgotten; and the effort which the formation and the perusal of this letter must occasion, should have been spared,
had not my character required it to be written and read. You must, therefore, pardon the freedom with which I
demand your attention; your feelings, I know, will bestow it unwillingly, but I demand it of your justice.
	My objections to the marriage were not merely those which I last night acknowledged to have the utmost required
force of passion to put aside, in my own case; the want of connection could not be so great an evil to my friend as to
me. But there were other causes of repugnance; causes which, though still existing, and existing to an equal degree
in both instances, I had myself endeavored to forget, because they were not immediately before me. These causes
must be stated, though briefly. The situation of your mother's family, though objectionable, was nothing in
comparison to that total want of propriety so frequently, so almost uniformly betrayed by herself, by your three
younger sisters, and occasionally even by your father. Pardon me. It pains me to offend you. But amidst your
concern for the defects of your nearest relations, and your displeasure at this representation of them, let it give you
consolation to consider that, to have conducted yourselves so as to avoid any share of the like censure, is praise no
less generally bestowed on you and your eldersister, than it is honorable to the sense and disposition of both. I will
only say farther that from what passed that evening, my opinion of all parties was confirmed, and every inducement
heightened which could have led me before, to preserve my friend from what I esteemed a most unhappy
connection. He left Netherfield for London, on the day following, as you, I am certain, remember, with the design of
soon returning.

将word.txt上传到HDFS的/test/input文件夹中

./bin/hdfs dfs -put ~/word.txt /test/input

运行一个mapreduce的例子程序：wordcount

./bin/hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /test/input /test/output

执行成功后如下所示，输出相关信息：

在YARN Web界面也可以查看：

查看运行结果：

./bin/hdfs dfs -cat /test/output/*

由于只是进行词频统计，我没有对测试数据进行其他处理，所以有些单词会带逗号，这些都是小事，重点是，Hadoop集群搭建起来了，还能跑，这就舒服了，嘻嘻嘻嘻嘻嘻。

10 关闭集群

接下来就是关闭集群，输入以下命令：

cd /usr/local/hadoop
./sbin/stop-yarn.sh
./sbin/stop-dfs.sh
./sbin/mr-jobhistory-daemon.sh stop historyserver

你可能感兴趣的:(hadoop)

Hadoop 集群规划与部署最佳实践 AI天才研究院 Python实战 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2009年2月2日，ApacheHadoop项目诞生。它是一个开源的分布式系统基础架构，用于存储、处理和分析海量的数据。Hadoop具有高容错性、可靠性、可扩展性、适应性等特征，因而广泛应用于数据仓库、日志分析、网络流量监测、推荐引擎、搜索引擎等领域。由于Hadoop采用“分而治之”的架构设计理念，因此可以轻松应对数据量、计算能力和存储成本的增长。2013年底，
MySQL 到 Hadoop：Sqoop 数据迁移 ETL Ice星空 ETL
文章目录ETL：Extract-Transform-Load数据迁移过程一、Extract数据抽取1.ODS：OperationalDataStore-可操作数据存储2.DW：DataWarehouse-数据仓库3.DM：DataMart-数据集市二、Transform数据清洗和转换1.数据清洗2.数据转换三、Load数据加载四、数据迁移方法1.Sqoop1.1MySQL->Hive1.1.1im
HBase安装 lianhedaxue Hadoop hbase
HBase安装本章将介绍如何安装HBase和初始配置。需要用Java和Hadoop来处理HBase，所以必须下载java和Hadoop并安装系统中。安装前设置安装Hadoop在Linux环境下之前，需要建立和使用LinuxSSH(安全Shell)。按照下面设立Linux环境提供的步骤。创建一个用户首先，建议从Unix创建一个单独的Hadoop用户，文件系统隔离Hadoop文件系统。按照下面给出创建
HBase的架构介绍，安装及简单操作 pk_xz123456 大数据 hbase 架构数据库
一、HBase安装1.环境准备Java环境：确保系统中已经安装了Java8或更高版本。可以通过在命令行中输入java-version来检查Java版本。Hadoop环境：HBase依赖于Hadoop，需要先安装并配置好Hadoop集群。确保Hadoop的相关服务（如HDFS、YARN等）已经正常启动。2.下载HBase从HBase官方网站（https://hbase.apache.org/）下载适
HDFS相关的面试题努力的搬砖人. java 面试 hdfs
以下是150道HDFS相关的面试题，涵盖了HDFS的基本概念、架构、操作、数据存储、高可用性、权限管理、性能优化、容错机制、与MapReduce的结合、安全性、数据压缩、监控与管理、与YARN的关系、数据一致性、数据备份与恢复等方面，希望对你有所帮助。HDFS基本概念1.HDFS是什么？它的设计目标是什么？•HDFS是Hadoop分布式文件系统，设计目标是实现对大规模数据的高吞吐量访问，适用于一次
hadoop3.x--搭建hadoop高可用集群（HA模式）运维小菜 hadoop hadoop hdfs
hadoop高可用集群（HA模式）一、安装前1.集群规划2.安装前配置3.安装jdk与hadoop4.克隆虚拟机与互信配置5.搭建zookeeper集群二、HDFS1.配置hdfs2.初始化启动hdfs集群三、MapReduce与Yarn1.配置MapReduce2.配置yarn3.启动yarn四、验证1.查看java进程2.hdfs与yarn前台页面一、安装前1.集群规划hostnameipNN
在虚拟机上安装Hadoop 杜清卿 hadoop
基本步骤与安装java一致:先用finalshell将hadoop-3.1.3.tar.gz导入到opt目录下面的software文件夹下面，然后解压,最后配置环境变量。1.使用finalshell上传。这里直接鼠标拖动操作即可。2.解压。进入到Hadoop安装包路径下，cd/opt/software/，再解压安装文件到/opt/module下，对应的命令是:tar-zxvfhadoop-.1.3
hadoop集群配置-scp拓展使用杜清卿 hadoop 服务器大数据
任务1：在hadoop102上，将hadoop101中/opt/module/hadoop-3.1.3目录拷贝到hadoop102上。分析：使用scp进行拉取操作：先登录到hadoop2使用命令：scp-rroot@hadoop101:/opt/module/hadoop-3.1.3/opt/module/任务2：在hadoop101上操作，将hadoop100中/opt/module目录下所有目
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
ssh命令满分对我强制爱 linux 服务器运维 spark
ssh命令无需密码也可登录要先关闭防火墙，命令如下：systemctlstopfirewalldsystemctldisablefirewalldsystemctlstatusfirewalldeg：目标：hadoop100通过ssh访问hadoop101,hadoop102时不需要密码，其他两台设备也类似。具体操作如下：1.在hadoop100中生成公钥和密码。ssh-keygen-trsa三次
Hive面试题御风行云天面试题大全 hive hadoop 数据仓库面试
Hive面试题1Hive基础概念1.1解释Hive是什么以及它的用途Hive的主要用途：1.2描述Hive架构和组件1.HiveCLI/Beeline和WebUI2.HiveQL3.HiveDriver（驱动）4.Metastore5.Compiler（编译器）6.Optimizer（优化器）7.Executor（执行器）8.HadoopCoreComponents（核心组件）9.HiveUDFs
#Hadoop全分布式安装 #mysql安装 #hive安装砸吧砸吧 hadoop hive yarn mysql
分布式（多台机器部署不同组件）与集群（多台机器部署相同组件）概念。Linux基础命令linux具有文件数：目录、文件，从根目录开始，路径具有唯一性。pwd：显示当前路径特殊符号：/：根目录.：隐藏文件，如果路径以.开始，表示当前目录下..：当前目录下的上一级~：当前目录的home目录--help：帮助命令使用linux常用操作命令tab键：自动补全ls：显示指定目录内容默认：当前路径-a：显示所有
Hadoop（在Linux中安装jdk）錠诗味 linux hadoop 运维
安装之前需准备：1.需要远程连接软件2.需要jdk3.需要准备两个文件夹01/export/software安装包02/export/servers解压文件夹现在正式开始安装1.将压缩包存放在/export/software目录下2.进入到software目录进行解压cd/export/software（切换目录）tar-zxvfjdk-8u202-linux-x64.tar.gz-C/expor
数据仓库和非结构化数据。 weixin_30631587 数据库
数据仓库包含标准化数据。还包含外部数据/非结构化数据如果外部数据量小可以保持数据库内部或者专用服务器。如果量大只能记住地址，在etl加载当然也有需求是实时数据比如股票汇率拿只能etl过程处理非结构化数据包含图片，视频音频如果是传统数据库db2oracle存在里面是不合适的。存储影响性能如果是hadoop无所谓影响不大，但是从使用者的角度非结构化数据只能转换关系使用建一张元数据表存储非结构化存储位置
CentOS 7系统中hadoop的安装和环境配置代码小张z centos hadoop linux
1.创建Hadoop安装解压路径：mkdir-p/usr/hadoop2.进入路径：cd/usr/hadoop3.下载安装包（我这里用的是阿里云镜像压缩包）：wgethttps://mirrors.aliyun.com/apache/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz4.解压安装包到hadoop文件路径：tar-zxvf/usr/hadoo
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
Hadoop 实战笔记（二）-- HDFS 常用 shell 命令总结 dazhong2012 Hadoop hdfs hadoop
一、HDFS命令显示当前目录结构#显示当前目录结构hadoopfs-ls#递归显示当前目录结构hadoopfs-ls-R#显示根目录下内容hadoopfs-ls/创建目录#创建目录hadoopfs-mkdir#递归创建目录hadoopfs-mkdir-p删除操作#删除文件hadoopfs-rm#递归删除目录和文件hadoopfs-rm-R从本地加载文件到HDFS#二选一执行即可hadoopfs-p
How Spark Read Sftp Files from Hadoop SFTP FileSystem IT•轩辕 Cloudy Computation spark hadoop 大数据
GradleDependenciesimplementation('org.apache.spark:spark-sql_2.13:3.5.3'){excludegroup:"org.apache.logging.log4j",module:"log4j-slf4j2-impl"}implementation('org.apache.hadoop:hadoop-common:3.3.4'){exc
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Spark集群启动与关闭陈沐 spark spark hadoop big data
Hadoop集群和Spark的启动与关闭Hadoop集群开启三台虚拟机均启动ZookeeperzkServer.shstartMaster1上面执行启动HDFSstart-dfs.shslave1上面执行开启YARNstart-yarn.shslave2上面执行开启YARN的资源管理器yarn-daemon.shstartresourcemanager(如果nodeManager没有启动(正常情况
Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive hadoop 数据仓库
目录背景‌一、Hive函数分类与核心函数表‌1.内置函数分类‌2.用户自定义函数（UDF）分类二、常用函数详解与实战案例‌1.数学函数‌2.字符串函数‌3.窗口函数‌4.自定义UDF实战‌三、总结与优化建议‌1.核心总结2.性能优化建议‌3.常问问题背景‌Hive作为Hadoop生态中最常用的数据仓库工具，其强大的函数库是高效处理和分析海量数据的核心能力之一。Hive函数分为‌内置函数‌和‌用户自
Hadoop MapReduce 词频统计（WordCount）代码解析教程我不是少爷. Java基础 hadoop mapreduce 大数据
一、概述这是一个基于HadoopMapReduce框架实现的经典词频统计程序。程序会统计输入文本中每个单词出现的次数，并将结果输出到HDFS文件系统。二、代码结构packagecom.bigdata.wc;//Hadoop核心类库导入importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;//数据类型定义
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路 Echo_Wish 大数据大数据 hadoop spark
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路说起大数据技术，Hadoop和Spark可以说是这个领域的两座里程碑。Hadoop曾是大数据的开山之作，而Spark则带领我们迈入了一个高效、灵活的大数据处理新时代。那么，它们的演变过程到底有何深意？背后技术上的取舍和选择，又意味着什么？一、Hadoop：分布式存储与计算的奠基者Hadoop诞生于互联网流量爆发式增长的时代，
hadoop集群关闭命令顺序_启动和关闭Hadoop集群命令步骤氪老师 hadoop集群关闭命令顺序
启动和关闭Hadoop集群命令步骤总结：1.在master上启动hadoop-daemon.shstartnamenode.2.在slave上启动hadoop-daemon.shstartdatanode.3.用jps指令观察执行结果.4.用hdfsdfsadmin-report观察集群配置情况.5.通过http://npfdev1:50070界面观察集群运行情况.(如果遇到问题看https://
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本