澎湃de家夥

Hadoop完全分布式安装的心酸历程

1.下载VMware安装包

官网下载地址：https://www.vmware.com/cn/products/workstation-pro/workstation-pro-evaluation.html。

下载后点击.exe文件进行安装，安装成功后首次登录需要输入注册码，根据自己安装的版本百度搜索对应的注册码即可，输入注册码后即完成该软件的破解。破解后进入VMware的主界面如图1所示。

图1 VMware主界面

2.设置VMware的网络连接模式：

点击“编辑”下的“虚拟网络编辑器”，进入VMware的网络设置界面（如图2所示），点击“””进入管理员权限下的网络设置界面（如图3所示）：（1）选择NAT模式，各个虚拟机通过NAT使用宿主机的IP来访问外网。（2）我们的要求是集群中的各个虚拟机有固定的IP、可以访问外网，所以勾掉“”；（3）点击“”，进入NAT设置界面（如图4所示），这里需要记一下网关IP（192.168.211.2）后面的配置会用到，点击“”进行DNS配置（如图5所示）。至此VMware的网络配置完毕。

图2 WMware网络设置界面

图3 管理员权限下的VMware网络设置界面

图4 NAT设置界面

图5 DNS配置界面标题

3.安装虚拟机

（1）在VMware主页点击“新建虚拟机”；

（2）选择“典型”安装，点击“下一步”，如图6所示；

图6 选择典型安装

（3）选择“稍后暗转操作系统”，点击“下一步”，如图7所示；

图7 选择稍后安装操作系统

（4）选择要安装的系统类型，这里我选择的是Linux操作系统，系统版本为Centos7 64位，如图8所示；

图8 选择要装的系统与版本

（5）设置虚拟机的名称与安装位置，如图9所示；

图9 设置虚拟机的名称与路径

（6）设置虚拟机的空间大小，默认的设置即可，如图10所示；

图10 设置虚拟机的空间大小

（7）点击“完成”实现虚拟机的安装，如图11所示；

图11 完成虚拟机的安装

（8）下载Centos7的iso镜像文件，选择下载“CentOS-7-x86_64-DVD-2003.iso”（下载地址：http://mirrors.aliyun.com/centos/7/isos/x86_64/），如图12所示；

图12 下载Centos7的iso镜像文件

（9）点击“编辑虚拟机设置”来进行虚拟机相关信息的设置，如图13所示：

图13 编辑虚拟机设置

（10）点击DVD，指定操作系统ISO文件所在位置，如图14所示。

图14 指定操作系统ISO文件位置

（11）开启虚拟机，进行系统安装，如图15所示；

图15 开启虚拟机进行系统安装

（12）敲击回车，进行系统的安装，如图16所示；

图16 进行系统安装

（13）选择安装系统的版本（英文版、中文版），默认安装英文版，根据自身需求选择（建议选择英文版，路径不容易出错），如图17所示；

图17 选择安装系统的语言

（14）进行安装前的必要配置，配置完成后才能进行安装（如图18所示），使用默认的配置即可，直接点击“Done”按钮（如图19所示），点击“Begin Installation”开始进行安装（如图20所示）。

图18 进行安装所需的配置

图19 选择默认配置

图20 开始进行安装

（15）点击“ROOT PASSWORD”进行root账户密码的设置（如图21所示），为root账户设置完密码后点击“Done”（如图22所示），点击“Finish configuration”按钮完成配置继续进行安装（如图23所示）。点击Reboot启动操作系统（如图24所示）。

图21 为root账户设置密码

图22 为root账户设置密码

图23 完成配置

图24 安装成功重启系统

按上述方法，功安装3个虚拟机，分别是hadoop_01、hadoop_02、hadoop_03。

配置虚拟机的网络

（1）Centos 7的网络配置文件在/etc/sysconfig/network-scripts/下，名称类似ifcfg-*，进入这个文件夹下进行查看（如图25所示），在我的系统中这个文件为ifcfg-ens33。

图25 查找Centos7网络配置文件

（2）编辑网络配置文件，输入如下命令：vi ifcfg-ens33。修改后的配置文件如图26所示

图26修改网络配置文件

BOOTPROTO=static #启用静态IP地址

IPADDR=192.168.211.101 #IP地址

NETMASK=255.255.255.0 #子网掩码

GATEWAY=192.168.211.2 #默认网关，就是在配置VMware时让记住的那个网关ip

DNS1=223.6.6.6 #DNS

DNS2=119.29.29.29 #备用DNS

ONBOOT=yes #开机启用本配置

编辑完成后，保存修改。输入命令：wq

（3）重启网络，输入如下命令：service network restart

查看IP地址，输入如下命令：ip addr

看一下网络是否通畅，输入如下命令：ping ww.baidu.com

如果看到如图27所示，那么恭喜你网络已经畅通无阻了。

图27 查看配置网络是否畅通

(4)关闭防火墙

查看防火墙状态（如图28所示，绿色的active running表示防火墙开启），输入如下命令：systemctl status firewalld.servic

图28 查看防火墙状态

关闭防火墙，输入如下命令：systemctl stop firewalld.service，再次查看防火墙的状态为 inactive（dead），证明防火墙已被关闭（如图29所示）。

图29 关闭防火墙

如果像永久关闭防火墙，只需禁止防火墙服务开机自启（如图30所示），输入如下命令：systemctl disable firewalld.service图31 禁止防火墙服务开机启动

图30 禁止防火墙服务开机启动

按照上面的方法依次配置hadoop_02与hadoop_03的网络，网络配置文件除IP地址以外其它设置一与hadoop_01一样（注：hadoop_02的IP为192.168.211.102、hadoop_03的IP为192.168.211.103）。

（5）关闭selinux

编辑selinux文件，输入如下命令：vi /etc/sysconfig/selinux。设置SELINUX=disabled如图31所示，修改完成后输入如下命令（wq）进行保存。

图31 关闭selinux

5.为每台虚拟机新建一个Hadoop用户，并授予sudo权限。

新建hadoop用户，输入如下命令：sudo useradd -m hadoop -s /bin/bash

修改hadoop用户的密码，输入如下命令：sudo passwd Hadoop

授予hadoop用户sudo权限，输入如下命令：sudo adduser hadoop sudo图33 新建用户并授予sudo权限

图32 新建用户并授予sudo权限

需要编辑一下/etc/sudoers文件在里面将hadoop用户加入授权即可，输入命令：vi /etc/sudoers

修改后的文件如图33所示，编辑完成后，保存修改。输入命令：wq！

图33 将新用户授予sudo权限

6.修改主机名

输入以下命令修改主机名：hostnamectl set-hostname 主机名

例如（hadoop_01）：hostnamectl set-hostname hadoop-01.host.com

例如（hadoop_02）：hostnamectl set-hostname hadoop-02.host.com

例如（hadoop_03）：hostnamectl set-hostname hadoop-03.host.com

修改完后重新登录会发现主机名已经完成修改，修改成功的实例如图34所示（hadoop：用户名、hadoop-01：主机名）：

图34 成功修改主机名

7.设置hosts

添加本机与另外两台机器的IP地址与主机名，输入如下命令（编辑后的文件如图35所示）：sudo vi /etc/hosts

图35 编辑后的hosts的文件

192.168.211.101 ：主机IP地址

hadoop-01.host.com：长主机名

Hadoop-01：短主机名

8.设置3台虚拟主机之间可以ssh免密码登录；

（1）在hadoop-01上生成公钥，输入如下命令：ssh-keygen -t rsa

输入命令后一直回车即可（如图36所示）。

图36 在主机上生成公钥

（2）向本机以及其它主机分发公钥，依次输入如下命令（如图37所示）：

ssh-copy-id hadoop-01.host.com

ssh-copy-id hadoop-02.host.com

ssh-copy-id hadoop-03.host.com

图37 分发公钥

（3）设置hadoop-02、hadoop-03到其他机器的无密钥登录

9、安装java环境

在官网下载linux的jdk安装包，网址如下所示：https://www.oracle.com/java/technologies/javase-jdk8-downloads.html。选择下载Linux x64 Compressed Archive类型（如图38所示，注：下载需要有Oracle的账号与密码）

图38 下载java安装包

使用xftp工具将下载的安装包传到hadoop-01主机中，我这里将文件传到了/home/hadoop/Downloads文件夹下。

(1)在 /usr/lib 下创建名为jvm的文件夹，用来存储jdk文件，输入如下命令：

cd /etc/lib

sudo mkdir jvm

(2)将下载的压缩包文件解压到jvm文件夹下，输入如下命令：

cd /home/Hadoop/Downloads

sudo tar -zxvf ./jdk-8u251-linux-i586.tar.gz -C /usr/lib/jvm/

图39 解压缩jdk

(3)设置jdk的环境变量

使用如下命令：cd /usr/lib/jvm ，可以看到解压后的jdk文件，如图40所示。

图40 查看解压后的文件

编辑.bashrc文件，输入如下命令：sudo vi ~/.bashrc

在最前面加入两行：

export JAVA_HOME=JDK解压路径
export PATH=$JAVA_HOME/bin:$PATH（如图41所示）

接着输入完成编辑命令：wq

图41 添加jdk环境变量

接着还需要让该环境变量生效，输入如下命令：source ~/.bashrc

输入如下命令，看java环境是否安装成功：java -version

安装成功，如图42所示

图42 成功安装jdk

如果报图43所示的错误，则输入如下命令：sudo yum install glibc.i686，一直输入y即可。安装成功后，再次输入：java -version

图43 启动java报错

(4)为hadoop-02、hadoop-03安装jdk

10.安装Hadoop

(1)官网下载地址：https://hadoop.apache.org/releases.html

图44 hadoop下载

(2)点击Announcement，进入下载界面，选择“Download tar.gz”。如图45所示：

图45 hadoop下载

(3)将下载后的Hadoop文件同样上传文件到/home/hadoop/Downloads文件夹下。

将下载的压缩包文件解压到/usr/local文件夹下，输入如下命令：

cd /home/Hadoop/Downloads

sudo tar -zxf hadoop-2.10.0.tar.gz -C /usr/local/

(4)修改hadoop的配置文件（hadoop-2.10.0/etc/hadoop文件夹下的slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml ）

首先在/usr/local/ hadoop-2.10.0下新建一个文件夹：sudo mkdir hdfs

紧接着在/usr/local/Hadoop-2.10.0下新建三个文件夹：

sudo mkdir tmp

sudo mkdir data

sudo mkdir name

slaves

文件 slaves，将作为 DataNode 的主机名写入该文件，每行一个，默认为 localhost。分布式配置可以保留 localhost，也可以删掉（让 hadoop-01 节点仅作为 NameNode 使用）。这里，我删掉了localhost，让hadoop-01节点仅作为NameNode使用。编辑后的文件如图46所示：

图46 编辑后的slaves文件

core-site.xml

fs.defaults参数配置的是HDFS的地址，hadoop.tmp.dir配置的是Hadoop临时目录（创建的tmp文件夹）。编辑后的文件如图47所示：

图47 编辑后的core-site.xml文件

hdfs-site.xml

dfs.replication 一般设为 3，但我们只有hadoop-02与hadoop-03两个节点，所以 dfs.replication 的值设为 2：

dfs.namenode.secondary.http-address是指定secondaryNameNode的http访问地址和端口号，因为在规划中，我们将hadoop-03规划为SecondaryNameNode服务器。

dfs.namenode.name.dir配置的是namenode的存储目录（创建的name文件夹）。

dfs.namenode.data.dir配置的是datanode的存储目录（创建的name文件夹）。

配置信息如图48所示：

图48 编辑后的hdfs-site.xml文件

mapred-site.xml

可能需要先重命名，默认文件名为 mapred-site.xml.template

mapreduce.framework.name设置mapreduce任务运行在yarn上。

mapreduce.jobhistory.address是设置mapreduce的历史服务器安装在hadoop-03机器上。

mapreduce.jobhistory.webapp.address是设置历史服务器的web页面地址和端口号。

图49 编辑后的 mapred-site.xml 文件

yarn-site.xml

根据规划yarn.resourcemanager.hostname这个指定resourcemanager服务器指向hadoop-02.host.com。

图50 编辑后的yarn-site.xml

(5)通过scp来分发hadoop软件

使用命令将hadoop-01上的hadoop-2.10.0文件夹分发到hadoop-02与hadoop-03上，命令如下所示：

scp -r /usr/local/hadoop-2.10.0/ hadoop-02.host.com:/usr/local

scp -r /usr/local/hadoop-2.10.0/ hadoop-03.host.com:/usr/local

(6)在hadoop-01上添加hadoop环境变量

sudo vi ~/.bashrc

在文件中加入这一行，如图51所示，修改完成后保存修改输入如下命令：wq。

export PATH=$PATH:/usr/local/hadoop-2.10.0/bin:/usr/local/hadoop-2.10.0/sbin

图51 添加hadoop环境变量

更新环境变量：

source ~/.bashrc

(7) 格式化NameNode（根据自己需求是否要格式化）

在hadoop-01输入如下命令：

/usr/local/hadoop-2.10.0/bin/hdfs namenode –format

切记：如果需要重新格式化NameNode,需要先将原来NameNode和DataNode下的文件全部删除，不然会报错，NameNode和DataNode所在目录是在core-site.xml中hadoop.tmp.dir、dfs.namenode.name.dir、dfs.datanode.data.dir属性配置的。

(8)启动hdfs

按规划，hdfs服务器是部署在hadoop-01上的。因此，首先在hadoop-01上启动hdfs，输入如下命令：

/usr/local/hadoop-2.10.0/sbin/start-dfs.sh

查看启动情况，输入如下命令：jps

图52 成功启动hdfs

(9) 启动YARN

按照规划，yarn服务器是部署在hadoop-02上的。因此，在hadoop-02上启动yarn，输入如下命令：

/usr/local/hadoop-2.10.0/sbin/start-yarn.sh

查看启动情况，输入命令：jps

图53 成功启动yarn

(10) 启动日志服务器

按照规划，日志服务器是部署在hadoop-03上的。因此，在hadoop-0上启动日志服务，输入如下命令：

/usr/local/hadoop-2.10/sbin/mr-jobhistory-daemon.sh start historyserver

查看启动情况，输入命令：jps

图54 成功启动日志服务器

11、配置主机（安装虚拟机的机器）hosts

(1)win + r

(2)输入drivers

图55 编辑本机hosts

(3)进入etc文件夹

图56 编辑hosts

(4)编辑hosts文件（切记，这个文件需要以管理员身份编辑）

图57 编辑hosts

(5)添加3个虚拟机的IP地址与主机名

图58 添加虚拟机的ip地址与主机名

12、查看HDFS Web页面

网址：http://hadoop-01.host.com:50070/

图59 HDFS Web界面

13、查看YARN Web 页面

网址：http://hadoop-02.host.com:8088/cluster

图60 YARN Web 页面

14、测试hadoop的demo

(1)首先创建 HDFS 上的用户目录：

hdfs dfs -mkdir -p /user/hadoop

(2) 将 /usr/local/Hadoop-2.10.0/etc/hadoop 中的配置文件作为输入文件复制到分布式文件系统中：

hdfs dfs -mkdir input

hdfs dfs -put /usr/local/hadoop-2.10.0/etc/hadoop/*.xml input

会看到一大串报错信息，但是不要怕，这些报错信息可以忽略（这些报错信息在以前的版本中是warning，总之不要理他就好了）。

图61 将文件传输到分布式系统

(3) 通过查看 DataNode 的状态（占用大小有改变），确认输入文件确实复制到了 DataNode 中，如下图所示：

图62 查看DataNode占用情况

(4)运行 MapReduce 作业

hadoop jar /usr/local/hadoop-2.10.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'

成功输出如下所示

15、关闭Hadoop

1、在hadoop-02上关闭yarn

stop-yarn.sh

2、在hadoop-01上关闭dfs

stop-dfs.sh

3、在hadoop-03上关闭日志服务器

mr-jobhistory-daemon.sh stop historyserver

大数据学习（67）- Flume、Sqoop、Kafka、DataX对比 viperrrrrrr 大数据学习 flume kafka sqoop datax
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop间数据同步关系型数据库→Hadoop生态系统（HDFS、Hive、
Kubernetes集群版本升级程序员Realeo Java后端 kubernetes 容器云原生
集群升级注意事项升级集群版本建议逐步升级，比如v1.20.1–>v1.21.1–>v1.22.1–>v1.23.1–>v1.24.1，不能跨度过大，否则会报错。升级步骤查看集群版本[root@hadoop102~]#kubectlgetnodesNAMESTATUSROLESAGEVERSIONhadoop102Ready,SchedulingDisabledcontrol-plane,maste
Kubernetes集群版本升级后端java
集群升级注意事项升级集群版本建议逐步升级，比如v1.20.1–>v1.21.1–>v1.22.1–>v1.23.1–>v1.24.1，不能跨度过大，否则会报错。升级步骤查看集群版本[root@hadoop102~]#kubectlgetnodesNAMESTATUSROLESAGEVERSIONhadoop102Ready,SchedulingDisabledcontrol-plane,maste
Hive高级SQL技巧及实际应用场景小技工丨大数据随笔 sql hive 数据仓库大数据
Hive高级SQL技巧及实际应用场景引言ApacheHive是一个建立在Hadoop之上的数据仓库基础设施，它提供了一个用于查询和管理分布式存储中的大型数据集的机制。通过使用类似于SQL（称为HiveQL）的语言，Hive使得数据分析变得更加简单和高效。本文将详细探讨一些Hive高级SQL技巧，并结合实际的应用场景进行说明。HiveSQL的高级使用技巧1.窗口函数描述：窗口函数允许我们在不使用GR
hive 数字转换字符串_Hive架构及Hive SQL的执行流程解读 weixin_39756416 hive 数字转换字符串
1、Hive产生背景MapReduce编程的不便性HDFS上的文件缺少Schema(表名，名称，ID等，为数据库对象的集合)2、Hive是什么Hive的使用场景是什么？基于Hadoop做一些数据清洗啊(ETL)、报表啊、数据分析可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。Hive是SQL解析引擎，它将SQL语句转译成M/RJob然后在Hadoop执行。由Facebook开源，
在hadoop上运行python_hadoop上运行python程序廷哥带你小路超车
数据来源：http://www.nber.org/patents/acite75_99.zip首先上传测试数据到hdfs：[root@localhost:/usr/local/hadoop/hadoop-0.19.2]#bin/hadoopfs-ls/user/root/test-inFound5items-rw-r--r--1rootsupergroup1012010-10-2414:39/us
ranger集成starrock报错蘑菇丁大数据+机器学习+oracle 大数据
org.apache.ranger.plugin.client.HadoopException:initConnection:UnabletoconnecttoStarRocksinstance,pleaseprovidevalidvalueoffield:{jdbc.driverClassName}..com.mysql.cj.jdbc.Driver.可能的原因JDBC驱动缺失：运行环境中没有安
深入大数据世界：Kontext.TECH的Hadoop之旅钱桦实Emery
深入大数据世界：Kontext.TECH的Hadoop之旅winutils项目地址:https://gitcode.com/gh_mirrors/winut/winutils在大数据的浩瀚宇宙中，Hadoop作为一颗璀璨的星辰，一直扮演着至关重要的角色。对于渴望探索这一领域的开发者和学习者而言，Kontext.TECH提供了一扇独特而便捷的大门，让你的学习之旅更加顺畅。项目介绍Kontext.Ha
大数据学习（61）-Impala与Hive计算引擎 viperrrrrrr 学习 impala hive yarn hadoop
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、impala与yarn资源管理YARN是ApacheHadoop生态系统中的一个资源管理器，它采用了master/slave的架构，使得多个处理框架能够在同一集群上共享资源。Impala作为Hadoop生态系统中的一个组件，可以与YARN集成，以便更好地管理
大数据学习（62）- Hadoop-yarn viperrrrrrr 大数据 yarn
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、YARN概述1.YARN简介Hadoop-YARN是ApacheHadoop生态系统中的一个集群资源管理器。它作为Hadoop的第二代资源管理框架，负责管理和分配集群中的计算资源。YARN的设计目标是提供一个通用的资源管理框架，使得Hadoop集群可以同时运
HBase2.6.1部署文档 CXH728 zookeeper hbase
1、HBase概述ApacheHBase是基于Hadoop分布式文件系统（HDFS）之上的分布式、列存储、NoSQL数据库。它适合处理结构化和半结构化数据，能够存储数十亿行和数百万列的数据，并支持实时读写操作。HBase通常应用于需要快速随机读写、低延迟访问以及高吞吐量的场景，例如大规模日志处理、社交网络数据存储等。HBase特性列存储模型：HBase的数据是按列族存储的，适合高稀疏数据。行键分区
Hive-4.0.1版本部署文档 CXH728 hive hadoop 数据仓库
1.前置要求操作系统：建议使用CentOS7或Ubuntu20.04（本试验使用的是CentOSLinuxrelease7.9.2009(Core)）Java环境：建议安装Java8或更高版本。Hadoop：Hive需要依赖Hadoop进行分布式存储，建议安装Hadoop3.x版本（本实验采用的是hadoop3.3.6）。数据库：HiveMetastore需要数据库支持，建议使用MySQL、Pos
hive-3.1.3部署文档 CXH728 hive hadoop 数据仓库
提前准备一个正常运行的hadoop集群java环境hive安装包下载地址：https://archive.apache.org/dist/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gzmysql安装包1、内嵌模式由于内嵌模式使用场景太少（基本不用），所以仅练习安装查看基础功能[root@master~]#tarxfapache-hive-3.1.3-bin
mySQL和Hive的区别 iijik55 面试学习路线阿里巴巴 hive mysql 大数据 tomcat 面试
SQL和HQL的区别整体1、存储位置：Hive在Hadoop上；Mysql将数据存储在设备或本地系统中；2、数据更新：Hive不支持数据的改写和添加，是在加载的时候就已经确定好了；数据库可以CRUD；3、索引：Hive无索引，每次扫描所有数据，底层是MR，并行计算，适用于大数据量；MySQL有索引，适合在线查询数据；4、执行：Hive底层是MapReduce；MySQL底层是执行引擎；5、可扩展性
flink-cdc实时增量同步mysql数据到elasticsearch 大数据技术派 #Flink elasticsearch flink mysql
什么是CDC？CDC是（ChangeDataCapture变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。1.环境准备mysqlelasticsearchflinkonyarn说明：如果没有安装hadoop，那么可以不用yarn，直
搭建分布式Hive集群逸曦玥泱大数据运维分布式 hive hadoop
title:搭建分布式Hive集群date:2024-11-2923:39:00categories:-服务器tags:-Hive-大数据搭建分布式Hive集群本次实验环境：Centos7-2009、Hadoop-3.1.4、JDK8、Zookeeper-3.6.3、Mysql-5.7.38、Hive-3.1.2功能规划方案一（本地运行模式）Master主节点（Mysql+Hive）192.168
Hadoop、Spark和 Hive 的详细关系夜行容忍 hadoop spark hive
Hadoop、Spark和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架，用于分布式存储和处理大规模数据集。核心组件：HDFS(HadoopDistributedFileSystem)：分布式文件系统，提供高吞吐量的数据访问。YARN(YetAnotherResourceNegotiator)：集群资源管理和作业调度系统。MapReduce：基于YARN的并行处理框架，用
Windows系统下解压".tar"文件出错，提示：无法创建符号链接，可能需要以管理器身份运行winrar ruangaoyan
1、解压文件出错，如下信息：D:\tools\hadoop-3.1.2.tar.gz:无法创建符号链接D:\tools\hadoop-3.1.2\hadoop-3.1.2\lib\native\libhadoop.so您可能需要以管理器身份运行WinRAR!客户端没有所需的特权。2、解决方式如下：WIN+R快捷的打开命令窗口，输入CMD输入：cd/dD:\tools\hadoop-3.1.2这是我
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系雨中徜徉的思绪漫溢大数据 hadoop hive
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系在大数据领域中，Hadoop、Hive和Spark是三个常用的开源技术，它们在大数据处理和分析方面发挥着重要作用。虽然它们都是为了处理大规模数据集而设计的，但它们在功能和使用方式上存在一些区别。本文将详细介绍Hadoop、Hive和Spark的区别和关系，并提供相应的源代码示例。Hadoop：Hadoop是一个用于分布式存储和处理大规
ZooKeeper学习总结（1）——ZooKeeper入门介绍一杯甜酒 ZooKeeper学习总结 Zookeeper
1.概述Zookeeper是Hadoop的一个子项目，它是分布式系统中的协调系统，可提供的服务主要有：配置服务、名字服务、分布式同步、组服务等。它有如下的一些特点：简单Zookeeper的核心是一个精简的文件系统，它支持一些简单的操作和一些抽象操作，例如，排序和通知。丰富Zookeeper的原语操作是很丰富的，可实现一些协调数据结构和协议。例如，分布式队列、分布式锁和一组同级别节点中的“领导者选举
Zookeeper+kafka学习笔记 CHR_YTU Zookeeper
Zookeeper是Apache的一个java项目，属于Hadoop系统，扮演管理员的角色。配置管理分布式系统都有好多机器，比如我在搭建hadoop的HDFS的时候，需要在一个主机器上（Master节点）配置好HDFS需要的各种配置文件，然后通过scp命令把这些配置文件拷贝到其他节点上，这样各个机器拿到的配置信息是一致的，才能成功运行起来HDFS服务。Zookeeper提供了这样的一种服务：一种集
麒麟arm架构系统_安装nginx-1.27.0_访问500 internal server error nginx解决_13: Permission denied---Linux工作笔记072 添柴程序猿 java nginx-1.27.0 nginx最新版安装麒麟v10 arm架构麒麟v10 安装nginx
[[email protected]]#wget-chttp://nginx.org/download/nginx-1.27.0.tar.gz--2024-07-0509:47:00--http://nginx.org/download/nginx-1.27.0.tar.gzResolvingnginx.org(nginx.org)...3.125.197.172,52.58.19
Zookeeper与Kafka学习笔记上海研博数据 zookeeper kafka 学习
一、Zookeeper核心要点1.核心特性分布式协调服务，用于维护配置/命名/同步等元数据采用层次化数据模型（Znode树结构），每个节点可存储<1MB数据典型应用场景：HadoopNameNode高可用HBase元数据管理Kafka集群选举与状态管理2.设计限制内存型存储，不适合大数据量场景数据变更通过版本号（Version）控制，实现乐观锁机制采用ZAB协议保证数据一致性二、Kafka核心架构
phoenix无法连接hbase shell创建表失败_报错_PleaseHoldException: Master is initializing---记录020_大数据工作笔记0180 添柴程序猿 hbase连接报错 phoenix连接hbase phoenix PleaseHoldExcep
今天发现,我的phoenix,去连接hbase集群,怎么也连不上了,奇怪了...弄了一晚上org.apache.hadoop.hbase.PleaseHoldException:Masterisinitializing[root@hadoop120bin]#ll总用量184-rwxr-xr-x.1rootroot36371月222020chaos-daemon.sh-rwxr-xr-x.1root
Hadoop的运行模式对许 #Hadoop hadoop 大数据分布式
Hadoop的运行模式1、本地运行模式2、伪分布式运行模式3、完全分布式运行模式4、区别与总结Hadoop有三种可以运行的模式：本地运行模式、伪分布式运行模式和完全分布式运行模式1、本地运行模式本地运行模式无需任何守护进程，单机运行，所有的程序都运行在同一个JVM上执行Hadoop安装后默认为本地模式，数据存储在Linux本地。在本地模式下调试MapReduce程序非常高效方便，一般该模式主要是在
Hadoop的mapreduce的执行过程画纸仁大数据 hadoop mapreduce 大数据
一、map阶段的执行过程第一阶段：把输入目录下文件按照一定的标准逐个进行逻辑切片，形成切片规划。默认Splitsize=Blocksize（128M），每一个切片由一个MapTask处理。（getSplits）第二阶段：对切片中的数据按照一定的规则读取解析返回对。默认是按行读取数据。key是每一行的起始位置偏移量，value是本行的文本内容。（TextInputFormat）第三阶段：调用Mapp
Hadoop：分布式计算平台初探 dccrtbn6261333 大数据运维 java
Hadoop是一个开发和运行处理大规模数据的软件平台，是Apache的一个用java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是：MapReduce和HDFS。MapReduce提供了对数据的计算，HDFS提供了海量数据的存储。MapReduceMapReduce的思想是由Google的一篇论文所提及而被广为流传的，简单的一句话解释M
【Hadoop】如何理解MapReduce？ 2302_79952574 hadoop mapreduce 数据库
MapReduce是一种用于处理大规模数据集的编程模型和计算框架。它的核心思想是将复杂的计算任务分解为两个简单的阶段：Map（映射）和Reduce（归约）。通过这种方式，MapReduce可以高效地并行处理海量数据。一.MapReduce的核心概念1.Map（映射）：将输入数据分割成小块，并对每个小块进行初步处理。输出键值对（key-valuepairs），例如。2.Shuffle和Sort（洗牌
Hadoop：全面深入解析 CloudJourney hadoop 大数据分布式
Hadoop是一个用于大规模数据处理的开源框架，其设计旨在通过集群的方式进行分布式存储和计算。本篇博文将从Hadoop的定义、架构、原理、应用场景以及常见命令等多个方面进行详细探讨，帮助读者全面深入地了解Hadoop。1.Hadoop的定义1.1什么是HadoopHadoop是由Apache软件基金会开发的开源软件框架，用于存储和处理大规模数据。其核心组件包括Hadoop分布式文件系统（HDFS）
Hadoop介绍：什么是Hadoop？了解Hadoop的应用 Zzzxt007 hadoop 大数据分布式
一、认识Hadoop框架Hadoop是一个提供分布式存储和计算的开源软件框架，使用Java语言编写，具有高扩展性、高容错性、无共享和高可用（HA）等特点，非常适合处理海量数据。它基于Google发布的MapReduce论文实现，并且应用了函数式编程的思想。Hadoop框架主要包括HDFS（HadoopDistributedFileSystem，Hadoop分布式文件系统）、MapReduce、YA
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs