阿坨

在CentOS6.4搭建hadoop集群的实践笔记

伪分布集群的搭建请看下面两个链接

Ubuntu上搭建hadoop伪分布式配置请看这里

CentOS上搭建hadoop伪分布式配置请看这里

说是集群，实际上只有一个master和一个slave，为了不让CPU烧熟桌子

本搭建基于Hadoop 2，可适合任何 Hadoop 2.x.y 版本

安装CentOS6.4，两台

一台做Master，一台做Slave1

首先虚拟机上搭两个CentOS，可参考自在Windows使用VirtualBox安装CentOS教程，这步搭过虚拟机的同蟹都懂

在使用CentOS6过程中请注意，CentOS6和CentOS7的个别命令有些许不一样

配置网络

为了虚拟机上各个节点都能互联，我们必须得配置网络，使它们使用同一个网段。

修改网络配置文件

Master节点上修改网卡配置

vi /etc/sysconfig/network-scripts/ifcfg-eth0      
#eth0这里是我机子上的网卡名，注意查看自己机子上的网卡名

首先是改

BOOTPROTO=static
ONBOOT=yes

再然后是增加

IPADDR=192.168.100.10   
NETMASK=255.255.255.0    
GATEWAY=192.168.100.2   
DNS1=8.8.8.8

Slave1节点上修改网卡配置，基本和Master上的配置一样，但把IP地址改为192.168.100.11

配置联网方式

打开虚拟网络编辑器：

VMnet8(NAT模式)----子网IP设置为：192.168.100.0----NAT设置：网关改为192.168.100.2—确定----去掉使用本地DHCP服务将IP地址分配给虚拟机选项—确定

重启网卡

在Master节点和Slave1节点上重启网卡

service network restart

确保都重启成功，假如有一项重启失败，则证明你还有bug要修

关闭防火墙

我们先永久关闭掉Master和Slave1上的放火墙

#执行这两个命令
service iptables stop
chkconfig iptables off

配网络时的注意点

假如Slave1是通过Master快照克隆创建的，在配置网络时要多做一步，就是要生成新的MAC地址（克隆出的主机IP地址和MAC地址皆一样，要更改IP地址和MAC地址）并配置，可见：虚拟机克隆后MAC地址IP地址修改，否则会重启网卡会报出异常：device eth0 does not seem to be present, delaying initialization。

改主机名并配置主机名到IP地址的映射

Master上改主机名

vi /etc/sysconfig/network

添加HOSTNAME=Master

Slave1上改主机名

vi /etc/sysconfig/network

添加HOSTNAME=Slave1

配置主机名到IP地址的映射（两个节点上都配一遍）

vi /etc/hosts

192.168.100.10   Master
192.168.100.11   Slave1

注：原来的/etc/hosts里面，保留127.0.0.1 localhost

修改完之后我们重启一下

reboot

测试能不能跑通，实现节点间互联

查看网络配置是否成功

ifconfig	#显示的网络信息是否和我们配置的契合

Master上

ping baidu.com
ping Slave1

Slave1上

ping baidu.com
ping Master

如果ping不通则说明你还有bug要修

更换yum源

然后把CentOS的默认yum源更换为国内的阿里云yum源，让下载安装及更新速度更快一些

#备份缓存
mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup

#下载新的CentOS-Base.repo 到/etc/yum.repos.d/
wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-6.repo

#添加EPEL
wget -O /etc/yum.repos.d/epel-6.repo http://mirrors.aliyun.com/repo/epel-6.repo

yum clean all	#清楚缓存

yum makecache	#生成缓存

创建hadoop用户

useradd -m hadoop -s /bin/bash   # 创建新用户hadoop

passwd hadoop

visudo             #为hadoop用户增加管理员权限，以避免后续遇到一系列权限问题

在root ALL=(ALL) ALL 这行下面增加hadoop ALL=(ALL) ALL，如图所示，图中的间隔为tab

登录hadoop用户

su hadoop    #后续的操作在hadoop用户下执行

配置SSH无密码登录

一般情况下，CentOS 默认已安装了 SSH client、SSH server，打开终端执行如下命令进行检验

rpm -qa | grep ssh

如图，如果有显示openssh-server和openssh-client就证明已安装

假如没有安装，我们使用以下命令安装

sudo yum install openssh-clients
sudo yum install openssh-server

在安装 SSH client、SSH server之后，我们检验是否能用ssh登录到本机

ssh localhost

如图，ssh是可以正常使用的，但这里每次登录时要输入密码

exit命令退出ssh连接后

设置免密码登录

我们设置ssh无密码登录

cd ~/.ssh    #假如没有此目录，那么你需要ssh localhost后再执行这一步操作

rm ./id_rsa*    #如果有之前瞎鼓捣生成的公钥的话，就删除

ssh-keygen -t rsa 	#生成公私钥，一直按回车就好

cat ./id_rsa.pub >> ./authorized_keys   #让Master节点能无密码ssh本机

ssh-copy-id Slave1	#使Master能免密码登录Slave1

chmod 600 ./authorized_keys    #修改文件权限为只读

检验一下是否能在Master节点上无密码ssh登录本机和是否能免密码登录Slave1

ssh localhost

ssh Slave1

我们已经能在Master节点上无密码ssh登录本机了

在Slave1节点上配置免密码ssh登录本机和免密码登录Master是一样的，这里不重复去写了。

要唠叨一下的就是：实现本节点免密码ssh其他节点的原理就是把本节点的公钥给要连接的其他节点，让其他节点能验明自己的节点身份，才能免密码登录其他节点，这涉及到一种身份验证问题。

接下来虾一步

安装Java环境

sudo yum install java-1.7.0-openjdk java-1.7.0-openjdk-devel  #使用此命令安装openjdk

查查刚才的jdk安装到哪里了

rpm -ql java-1.7.0-openjdk-devel | grep '/bin/javac'

此命令返回的路径去掉"bin/javac"就是我们jdk的安装位置，我们拿这个路径去配环境变量

像我这里的是/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.251.x86_64

vim ~/.bashrc

在文件后面加一行

export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.251.x86_64

让环境变量生效

source ~/.bashrc

检验变量是否设置生效

java -version

我这里是ok了

安装Hadoop2

下载Hadoop可以到这个网址https://mirrors.cnnic.cn/apache/hadoop/common/下载，选择版本时请选择Hadoop2.x.y版本。

下载时请下载 hadoop-2.x.y.tar.gz 这个格式的文件，这是编译好的，另一个包含 src 的则是 Hadoop 源代码，需要进行编译才可使用。

下载时也强烈建议下载（假如有） hadoop-2.x.y.tar.gz.mds 这个文件，该文件包含了检验值可用于检查hadoop-2.x.y.tar.gz 的完整性，否则若文件发生了损坏或下载不完整，Hadoop 将无法正常运行。（假如想知道怎么验证文件完整性，请自行百度搜索，因为我这里下载的不是hadoop-2.x.y.tar.gz.mds就不做演示了）

插一句题外话：假如嫌浏览器下载太慢，那么可以复制下载链接到迅雷打开下载，BT下载就是香。

下载好了之后我们执行解压安装

sudo tar -zxf ~/Download/hadoop-2.7.7.tar.gz -C /usr/local    #注意对应自己hadoop压缩包所在的位置

cd /usr/local/
sudo mv ./hadoop-2.7.7/ ./hadoop            # 将文件夹名改为hadoop

sudo chown -R hadoop:hadoop ./hadoop        # 修改文件权限

接虾来输入以下命令来检查 Hadoop 是否安装成功，成功则会显示 Hadoop 版本信息

cd /usr/local/hadoop
./bin/hadoop version

配置PATH变量

将 Hadoop 安装目录加入 PATH 变量中，这样就可以在任意目录中直接使用 hadoop、hdfs 等命令了。

在 Master 节点上配置PATH变量

vim ~/.bashrc

export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin

source ~/.bashrc	#使配置生效

配置Hadoop2

Hadoop 默认模式为单机模式，无需进行其他配置即可运行。

如果要做Hadoop集群/分布式模式需要修改 /usr/local/hadoop/etc/hadoop 中的5个配置文件：slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml 。

这里的配置是进入相应的xml文件找到一对configuration空标签，然后替换内容

cd /usr/local/hadoop/etc/hadoop

修改core-site.xml

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://Master:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>file:/usr/local/hadoop/tmp</value>
                <description>Abase for other temporary directories.</description>
        </property>
</configuration>

core-site.xml配置项解释：

fs.defaultFS：定义默认的文件系统主机和端口；

hadoop.tmp.dir：Hadoop的临时目录；

修改 hdfs-site.xml，因为只有一个分片，所以dfs.replication为1，dfs.datanode.data.dir也只有一个

<configuration>
        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>Master:50090</value>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/usr/local/hadoop/tmp/dfs/name</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/usr/local/hadoop/tmp/dfs/data</value>
        </property>
</configuration>

hdfs-site.xml配置项解释：

dfs.namenode.secondary.http-address：secondary namenode HTTP服务器地址和端口；
dfs.replication：数据块分片数；

dfs.namenode.name.dir：存放namenode的fsimage的目录；

dfs.datanode.data.dir：存放datanode块的目录；

修改mapred-site.xml（实际上它默认文件名为 mapred-site.xml.template）

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.address</name>
                <value>Master:10020</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>Master:19888</value>
        </property>
</configuration>

mapred-site.xml配置项解释：

mapreduce.framework.name：执行框架设置为 Hadoop YARN；

mapreduce.jobhistory.address：Hadoop历史服务器地址；

mapreduce.jobhistory.webapp.address：查看Hadoop历史服务器的历史记录的UI界面的访问地址

修改 yarn-site.xml

<configuration>
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>Master</value>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
</configuration>

`yarn-site.xml配置项：

yarn.resourcemanager.hostname：ResourceManager` 对客户端暴露的地址。客户端通过该地址向RM提交应用程序，杀死应用程序；

yarn.nodemanager.aux-services：NodeManager上运行的附属服务。需配置成mapreduce_shuffle，才可运行MapReduce程序

修改 slaves

将作为 DataNode 的主机名写入该文件，每行一个。

在伪分布式配置时，默认为 localhost的，因为节点即作为 NameNode 也作为 DataNode执行。

分布式配置如果让 Master 节点既作为 NameNode，也作为DataNode，就保留 localhost；如果让Master节点作为NameNode，就删掉localhost。

我这里选择删除localhost

把Master 上的 /usr/local/Hadoop 文件夹复制到Slave1节点上

假如之前有跑过伪分布式模式，建议在切换到集群模式前先删除之前的临时文件和日志文件。在 Master 节点上执行

cd /usr/local
tar -zcf ~/hadoop.master.tar.gz ./hadoop   # 先压缩再复制
cd ~
scp ./hadoop.master.tar.gz Slave1:/home/hadoop	#在线复制文件到Slave1上

在Slave1上执行

sudo tar -zxf ~/hadoop.master.tar.gz -C /usr/local	#解压新的
sudo chown -R hadoop /usr/local/hadoop		#修改文件权限

同样，如果有其他 Slave 节点，也要执行将 hadoop.master.tar.gz 传输到 Slave 节点、在 Slave 节点解压文件等操作。

在 Master 节点执行 NameNode 的格式化，之后不需要

hdfs namenode -format

如图

开启集群

注意：CentOS系统默认开启了防火墙，在开启 Hadoop 集群之前，需要关闭集群中每个节点的防火墙。有防火墙会导致 ping 得通但 telnet 端口不通，从而导致 DataNode 启动了，但 Live datanodes 为 0 的情况。我们前面的操作中已经关闭防火墙了，如果防火墙没关闭的请关闭再开启集群。

在Master执行

start-dfs.sh
start-yarn.sh
mr-jobhistory-daemon.sh start historyserver

这时可以通过jps可以查看各个节点所启动的进程。正确的话，在 Master 节点上可以看到 NameNode、ResourceManager、SecondrryNameNode、JobHistoryServer 进程

在Slave1节点上可以看到DataNode 和 NodeManager

如图，集群搭建成功，高兴得像只两百斤的小胖子

关闭集群也是在Master上关闭，按顺序执行命令

stop-yarn.sh
stop-dfs.sh
mr-jobhistory-daemon.sh stop historyserver

记一个bug
有事没事不要初始化namenode玩。初始化一遍就好，假如初始化多遍导致Slave1节点上datanode不能启动，那么有两种debug方法

请看看这篇博客：[Hadoop启动datanode失败，clusterID有问题，简而言之，就是把namenode上的clusterID复制到不能正常启动的datanode节点上。
在所有datanode节点上找到{hadoop.tmp.dir}/dfs/data目录，删除。然后在Masterj节点上再次初始化集群：hdfs namenode -format。{hadoop.tmp.dir}具体路径看个人配置（在配置文件core-site.xml中）。

以上两种方法都能解决因为初始化集群多次而产生的clusterID不一致导致datanode不能正常启动的问题。
但我还是建议采取第一种方法，毕竟当hadoop集群真正用于生产环境中，要尽量避免删数据。

监控集群

监控集群建立在hadoop集群启动之上，当hadoop启动之后

start-dfs.sh	
start-yarn.sh	
mr-jobhistory-daemon.sh start historyserver

我们可以通过虚拟机CentOS里自带的火狐浏览器进入集群监控的web界面，但这里我选择在宿主机查看集群监控的web界面（虚拟机分配的内存太小，不想卡出翔）。

在宿主机添加IP到主机名的映射
在C:/Windows/Systems/drivers/etc/hosts中添加

192.168.100.10   Master Master.cn
192.168.100.11   Slave1 Slave1.cn

查看集群监控的web界面

查看HDFS集群状态

地址配置在：hdfs-site.xml中的dfs.namenode.http-address
默认访问地址：http://namenode的ip:50070
我这里的是：http://Master:50070

查看secondarynamenode的集群状态

地址配置在：hdfs-site.xml中的dfs.namenode.secondary.http-address
默认访问地址：http://namenode的ip:50090
我这里的是：http://Master:50090

查看yarn集群的状态
地址配置在：yarn-site.xml中的yarn.resourcemanager.webapp.address
默认访问地址：http://namenode的ip:50090
我这里的是：http://Master:8088
至于能从这些web界面获取到什么信息：Hadoop大数据开发基础 | 集群监控

你可能感兴趣的:(Hadoop)

Spark集群启动与关闭陈沐 spark spark hadoop big data
Hadoop集群和Spark的启动与关闭Hadoop集群开启三台虚拟机均启动ZookeeperzkServer.shstartMaster1上面执行启动HDFSstart-dfs.shslave1上面执行开启YARNstart-yarn.shslave2上面执行开启YARN的资源管理器yarn-daemon.shstartresourcemanager(如果nodeManager没有启动(正常情况
Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive hadoop 数据仓库
目录背景‌一、Hive函数分类与核心函数表‌1.内置函数分类‌2.用户自定义函数（UDF）分类二、常用函数详解与实战案例‌1.数学函数‌2.字符串函数‌3.窗口函数‌4.自定义UDF实战‌三、总结与优化建议‌1.核心总结2.性能优化建议‌3.常问问题背景‌Hive作为Hadoop生态中最常用的数据仓库工具，其强大的函数库是高效处理和分析海量数据的核心能力之一。Hive函数分为‌内置函数‌和‌用户自
Hadoop MapReduce 词频统计（WordCount）代码解析教程我不是少爷. Java基础 hadoop mapreduce 大数据
一、概述这是一个基于HadoopMapReduce框架实现的经典词频统计程序。程序会统计输入文本中每个单词出现的次数，并将结果输出到HDFS文件系统。二、代码结构packagecom.bigdata.wc;//Hadoop核心类库导入importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;//数据类型定义
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路 Echo_Wish 大数据大数据 hadoop spark
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路说起大数据技术，Hadoop和Spark可以说是这个领域的两座里程碑。Hadoop曾是大数据的开山之作，而Spark则带领我们迈入了一个高效、灵活的大数据处理新时代。那么，它们的演变过程到底有何深意？背后技术上的取舍和选择，又意味着什么？一、Hadoop：分布式存储与计算的奠基者Hadoop诞生于互联网流量爆发式增长的时代，
hadoop集群关闭命令顺序_启动和关闭Hadoop集群命令步骤氪老师 hadoop集群关闭命令顺序
启动和关闭Hadoop集群命令步骤总结：1.在master上启动hadoop-daemon.shstartnamenode.2.在slave上启动hadoop-daemon.shstartdatanode.3.用jps指令观察执行结果.4.用hdfsdfsadmin-report观察集群配置情况.5.通过http://npfdev1:50070界面观察集群运行情况.(如果遇到问题看https://
在kali linux中配置hadoop伪分布式 we19a0sen 三数据分析分布式 linux hadoop
目录一.配置静态网络二.配置主机名与IP地址映射三.配置SSH免密登录四.配置Java和Hadoop环境五.配置Hadoop伪分布式六.启动与验证一.配置静态网络原因：Hadoop集群依赖稳定的网络通信，动态IP可能导致节点失联。静态IP确保节点始终通过固定地址通信。操作步骤：#修改网络配置文件sudovim/etc/network/interfaces#添加内容（根据实际网络修改）：autoet
Spark任务读取hive表数据导入es 小小小小小小小小小小码农 hive elasticsearch spark java
使用elasticsearch-hadoop将hive表数据导入es，超级简单1.引入pomorg.elasticsearchelasticsearch-hadoop9.0.0-SNAPSHOT2.创建sparkconf//spark参数设置SparkConfsparkConf=newSparkConf();//要写入的索引sparkConf.set("es.resource","");//es集
hive-进阶版-1 数据牧马人 hive hadoop 数据仓库
第6章hive内部表与外部表的区别Hive是一个基于Hadoop的数据仓库工具，用于对大规模数据集进行数据存储、查询和分析。Hive支持内部表（ManagedTable）和外部表（ExternalTable）两种表类型，它们在数据存储、管理方式和生命周期等方面存在显著区别。以下是内部表和外部表的主要区别：1.数据存储位置内部表：数据存储在Hive的默认存储目录下，通常位于HDFS（HadoopDi
大数据手册(Spark)--Spark安装配置 WilenWu 数据分析(Data Analysis)大数据 spark 分布式
本文默认在zsh终端安装配置，若使用bash终端，环境变量的配置文件相应变化。若安装包下载缓慢，可复制链接到迅雷下载，亲测极速～准备工作Spark的安装过程较为简单，在已安装好Hadoop的前提下，经过简单配置即可使用。假设已经安装好了hadoop（伪分布式）和hive，环境变量如下JAVA_HOME=/usr/opt/jdkHADOOP_HOME=/usr/local/hadoopHIVE_HO
虚拟机中Hadoop集群NameNode进程缺失问题解析与解决申朝先生 hadoop 大数据分布式 linux
目录问题概述问题分析解决办法总结问题概述在虚拟机中运行Hadoop集群时，通过执行jps命令检查进程时，发现NameNode进程缺失。这通常会导致Hadoop集群无法正常运行，影响数据的存储和访问。问题分析导致NameNode进程缺失的原因可能有以下几点：集群未正确停止：在关闭虚拟机或重启Hadoop集群之前，未执行stop-all.sh命令正确停止集群，导致Hadoop服务异常退出，留下残留数据
大数据学习（67）- Flume、Sqoop、Kafka、DataX对比 viperrrrrrr 大数据学习 flume kafka sqoop datax
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop间数据同步关系型数据库→Hadoop生态系统（HDFS、Hive、
Kubernetes集群版本升级程序员Realeo Java后端 kubernetes 容器云原生
集群升级注意事项升级集群版本建议逐步升级，比如v1.20.1–>v1.21.1–>v1.22.1–>v1.23.1–>v1.24.1，不能跨度过大，否则会报错。升级步骤查看集群版本[root@hadoop102~]#kubectlgetnodesNAMESTATUSROLESAGEVERSIONhadoop102Ready,SchedulingDisabledcontrol-plane,maste
Kubernetes集群版本升级后端java
集群升级注意事项升级集群版本建议逐步升级，比如v1.20.1–>v1.21.1–>v1.22.1–>v1.23.1–>v1.24.1，不能跨度过大，否则会报错。升级步骤查看集群版本[root@hadoop102~]#kubectlgetnodesNAMESTATUSROLESAGEVERSIONhadoop102Ready,SchedulingDisabledcontrol-plane,maste
Hive高级SQL技巧及实际应用场景小技工丨大数据随笔 sql hive 数据仓库大数据
Hive高级SQL技巧及实际应用场景引言ApacheHive是一个建立在Hadoop之上的数据仓库基础设施，它提供了一个用于查询和管理分布式存储中的大型数据集的机制。通过使用类似于SQL（称为HiveQL）的语言，Hive使得数据分析变得更加简单和高效。本文将详细探讨一些Hive高级SQL技巧，并结合实际的应用场景进行说明。HiveSQL的高级使用技巧1.窗口函数描述：窗口函数允许我们在不使用GR
hive 数字转换字符串_Hive架构及Hive SQL的执行流程解读 weixin_39756416 hive 数字转换字符串
1、Hive产生背景MapReduce编程的不便性HDFS上的文件缺少Schema(表名，名称，ID等，为数据库对象的集合)2、Hive是什么Hive的使用场景是什么？基于Hadoop做一些数据清洗啊(ETL)、报表啊、数据分析可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。Hive是SQL解析引擎，它将SQL语句转译成M/RJob然后在Hadoop执行。由Facebook开源，
在hadoop上运行python_hadoop上运行python程序廷哥带你小路超车
数据来源：http://www.nber.org/patents/acite75_99.zip首先上传测试数据到hdfs：[root@localhost:/usr/local/hadoop/hadoop-0.19.2]#bin/hadoopfs-ls/user/root/test-inFound5items-rw-r--r--1rootsupergroup1012010-10-2414:39/us
ranger集成starrock报错蘑菇丁大数据+机器学习+oracle 大数据
org.apache.ranger.plugin.client.HadoopException:initConnection:UnabletoconnecttoStarRocksinstance,pleaseprovidevalidvalueoffield:{jdbc.driverClassName}..com.mysql.cj.jdbc.Driver.可能的原因JDBC驱动缺失：运行环境中没有安
深入大数据世界：Kontext.TECH的Hadoop之旅钱桦实Emery
深入大数据世界：Kontext.TECH的Hadoop之旅winutils项目地址:https://gitcode.com/gh_mirrors/winut/winutils在大数据的浩瀚宇宙中，Hadoop作为一颗璀璨的星辰，一直扮演着至关重要的角色。对于渴望探索这一领域的开发者和学习者而言，Kontext.TECH提供了一扇独特而便捷的大门，让你的学习之旅更加顺畅。项目介绍Kontext.Ha
大数据学习（61）-Impala与Hive计算引擎 viperrrrrrr 学习 impala hive yarn hadoop
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、impala与yarn资源管理YARN是ApacheHadoop生态系统中的一个资源管理器，它采用了master/slave的架构，使得多个处理框架能够在同一集群上共享资源。Impala作为Hadoop生态系统中的一个组件，可以与YARN集成，以便更好地管理
大数据学习（62）- Hadoop-yarn viperrrrrrr 大数据 yarn
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、YARN概述1.YARN简介Hadoop-YARN是ApacheHadoop生态系统中的一个集群资源管理器。它作为Hadoop的第二代资源管理框架，负责管理和分配集群中的计算资源。YARN的设计目标是提供一个通用的资源管理框架，使得Hadoop集群可以同时运
HBase2.6.1部署文档 CXH728 zookeeper hbase
1、HBase概述ApacheHBase是基于Hadoop分布式文件系统（HDFS）之上的分布式、列存储、NoSQL数据库。它适合处理结构化和半结构化数据，能够存储数十亿行和数百万列的数据，并支持实时读写操作。HBase通常应用于需要快速随机读写、低延迟访问以及高吞吐量的场景，例如大规模日志处理、社交网络数据存储等。HBase特性列存储模型：HBase的数据是按列族存储的，适合高稀疏数据。行键分区
Hive-4.0.1版本部署文档 CXH728 hive hadoop 数据仓库
1.前置要求操作系统：建议使用CentOS7或Ubuntu20.04（本试验使用的是CentOSLinuxrelease7.9.2009(Core)）Java环境：建议安装Java8或更高版本。Hadoop：Hive需要依赖Hadoop进行分布式存储，建议安装Hadoop3.x版本（本实验采用的是hadoop3.3.6）。数据库：HiveMetastore需要数据库支持，建议使用MySQL、Pos
hive-3.1.3部署文档 CXH728 hive hadoop 数据仓库
提前准备一个正常运行的hadoop集群java环境hive安装包下载地址：https://archive.apache.org/dist/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gzmysql安装包1、内嵌模式由于内嵌模式使用场景太少（基本不用），所以仅练习安装查看基础功能[root@master~]#tarxfapache-hive-3.1.3-bin
mySQL和Hive的区别 iijik55 面试学习路线阿里巴巴 hive mysql 大数据 tomcat 面试
SQL和HQL的区别整体1、存储位置：Hive在Hadoop上；Mysql将数据存储在设备或本地系统中；2、数据更新：Hive不支持数据的改写和添加，是在加载的时候就已经确定好了；数据库可以CRUD；3、索引：Hive无索引，每次扫描所有数据，底层是MR，并行计算，适用于大数据量；MySQL有索引，适合在线查询数据；4、执行：Hive底层是MapReduce；MySQL底层是执行引擎；5、可扩展性
flink-cdc实时增量同步mysql数据到elasticsearch 大数据技术派 #Flink elasticsearch flink mysql
什么是CDC？CDC是（ChangeDataCapture变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。1.环境准备mysqlelasticsearchflinkonyarn说明：如果没有安装hadoop，那么可以不用yarn，直
搭建分布式Hive集群逸曦玥泱大数据运维分布式 hive hadoop
title:搭建分布式Hive集群date:2024-11-2923:39:00categories:-服务器tags:-Hive-大数据搭建分布式Hive集群本次实验环境：Centos7-2009、Hadoop-3.1.4、JDK8、Zookeeper-3.6.3、Mysql-5.7.38、Hive-3.1.2功能规划方案一（本地运行模式）Master主节点（Mysql+Hive）192.168
Hadoop、Spark和 Hive 的详细关系夜行容忍 hadoop spark hive
Hadoop、Spark和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架，用于分布式存储和处理大规模数据集。核心组件：HDFS(HadoopDistributedFileSystem)：分布式文件系统，提供高吞吐量的数据访问。YARN(YetAnotherResourceNegotiator)：集群资源管理和作业调度系统。MapReduce：基于YARN的并行处理框架，用
Windows系统下解压".tar"文件出错，提示：无法创建符号链接，可能需要以管理器身份运行winrar ruangaoyan
1、解压文件出错，如下信息：D:\tools\hadoop-3.1.2.tar.gz:无法创建符号链接D:\tools\hadoop-3.1.2\hadoop-3.1.2\lib\native\libhadoop.so您可能需要以管理器身份运行WinRAR!客户端没有所需的特权。2、解决方式如下：WIN+R快捷的打开命令窗口，输入CMD输入：cd/dD:\tools\hadoop-3.1.2这是我
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系雨中徜徉的思绪漫溢大数据 hadoop hive
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系在大数据领域中，Hadoop、Hive和Spark是三个常用的开源技术，它们在大数据处理和分析方面发挥着重要作用。虽然它们都是为了处理大规模数据集而设计的，但它们在功能和使用方式上存在一些区别。本文将详细介绍Hadoop、Hive和Spark的区别和关系，并提供相应的源代码示例。Hadoop：Hadoop是一个用于分布式存储和处理大规
ZooKeeper学习总结（1）——ZooKeeper入门介绍一杯甜酒 ZooKeeper学习总结 Zookeeper
1.概述Zookeeper是Hadoop的一个子项目，它是分布式系统中的协调系统，可提供的服务主要有：配置服务、名字服务、分布式同步、组服务等。它有如下的一些特点：简单Zookeeper的核心是一个精简的文件系统，它支持一些简单的操作和一些抽象操作，例如，排序和通知。丰富Zookeeper的原语操作是很丰富的，可实现一些协调数据结构和协议。例如，分布式队列、分布式锁和一组同级别节点中的“领导者选举
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl