ChengZi~

Hadoop学习笔记2

3 Hadoop集群搭建

3.1 创建第一台虚拟机

3.1.1 网络配置
3.1.2 Hosts文件设置
3.1.3 安装JDK

3.2 克隆虚拟系统
3.3 配置免密登录

3.3.1免密登录机制
3.3.2 Master主机生成密钥
3.3.3 Master主机发送数据

3.4 安装Hadoop

3.4.1下载Hadoop安装包
3.4.2 上传Hadoop安装包
3.4.3 解压Hadoop安装包
3.4.4 创建Hadoop安装目录的软链接
3.4.5 Hadoop目录结构介绍

3.4.5.1 etc目录
3.4.5.2 sbin目录
3.4.5.3 bin目录
3.4.5.4 share目录
3.4.5.5 libexec目录
3.4.5.6 include与lib目录
3.4.5.7 src目录

3.5 修改配置文件

3.5.1 修改/etc/profile文件
3.5.2 修改hadoop配置文件

3.5.2.1 core-site.xml
3.5.2.2 hadoop-env.sh
3.5.2.3 hdfs-site.xml
3.5.2.4 mapred-site.xml
3.5.2.5 yarn-site.xml
3.5.2.6 slaves

3.5.3 格式化NameNode
3.5.4 集群节点间复制hadoop目录
3.5.5 关闭防火墙
3.5.6 搭建成功测试

3.5.6.1 单独启动/停止HDFS
3.5.6.2 单独启动/停止Yarn
3.5.6.2 启动/停止整个集群

3 Hadoop集群搭建

3.1 创建第一台虚拟机

3.1.1 网络配置

CentOS6.10 Mini版默认是没有生成主机IP的，需要手工配置。
（1）动态生成IP
Step1：修改/etc/sysconfig/network-scripts/ifcfg-eth0文件，将ONBOOT的值修改为yes。
Step2：修改完毕后，重启网络服务：service network restart。
（2）指定静态IP
Step1：查看默认网关地址
Step2：修改网关地址为1号地址。当然，可以不修改。
Step3：修改/etc/sysconfig/network-scripts/ifcfg-eth0文件：
ONBOOT=yes
IPADDR=指定的IP（要与网关在同一网段）
NETMASK=255.255.255.0
GATEWAY=查看的网关
Step4：重启网络服务：service network restart

注意这里使用的是MINI最小化安装
https://mirrors.aliyun.com/centos/6.10/isos/x86_64/

3.1.2 Hosts文件设置

Hosts文件的作用是相当于本地的DNS服务器，将IP与主机名作一对一映射。

1)Linux系统中设置hosts文件修改/etc/hosts文件，在文件最后添加IP与主机名的对应关系：
192.168.64.11 node01
192.168.64.22 node02
192.168.64.33 node03

Windows系统中设置hosts文件
修改C:\Windows\System32\drivers\etc\hosts文件，在最后添加如下内容：
192.168.64.11 node01
192.168.64.22 node02
192.168.64.33 node03

3.1.3 安装JDK

Step1：创建目录。在/usr下创建tools与apps目录。其中/usr/tools目录用于存放安装包，软件均安装到/usr/apps目录。
Step2：上传安装包到/usr/tools目录
Step3：解压JDK安装包到/usr/apps目录。

tar –zxvf  /usr/tools/jdk1.8.0_144  -C  /usr/apps

Step4：创建软链接。软链接就是一个别名，相当于Windows中的快捷方式。

ln –s  /usr/apps/jdk1.8.0_144  /usr/apps/jdk

Step5：修改/etc/profile文件。在最后添加如下内容：

export  JAVA_HOME=/usr/apps/jdk
export  PATH=$JAVA_HOME/bin:$PATH

保存修改后，执行source命令

source /etc/profile

3.2 克隆虚拟系统

Step1：克隆虚拟机
Step2：修改主机名。修改/etc/sysconfig/network文件中的HOSTNAME后，重启系统
Step3：修改网卡。网卡信息在/etc/udev/rules.d/70-persistent-net.rules文件中。克隆来的系统中默认具有两块儿网卡，其中第一块的MAC地址与克隆源主机的网卡MAC相同，需要将其删除，保留第二块网卡。但要记下第二块网卡的MAC地址，后面要使用。还需要将第二块网卡的name修改为eth0。
Step4：修改网卡的MAC地址。克隆来的系统中默认的网卡MAC地址与克隆源的相同，现在要修改为上面第二块网卡的MAC。打开/etc/sysconfig/network-scripts/ifcfg-eth0文件，修改HWADDR的值为第二块MAC的址。
Step5：修改静态IP。若克隆源采用的是动态IP，那么无需修改IP，因为克隆系统也采用的是动态IP，系统在启动时会自动生成一个动态的IP。若克隆源采用的是静态IP，那么，克隆系统中默认的静态IP与克隆源的是相同的，需要修改/etc/sysconfig/network-scripts/ifcfg-eth0文件中的IPADDR即可。
Step6：重启系统

注意：克隆的时候需要关机

3.3 配置免密登录

3.3.1免密登录机制

1)公钥与私钥
1、公钥与私钥加密是一种“不对称加密方式”，是对传统的“对称加密方式”的功能增强。
2、公钥与私钥是成对出现的，即一个公钥对应一个私钥。
3、使用公钥加密后，只能使用其对应的私钥解密。它们的关系类似于“锁与钥匙”的关系。公钥相当于“锁”，是公开的，是要发送给别人的；私钥相当于“钥匙”，是私有的，不能公开的，只能由公钥的发出者保存
2)免密登录原理
免密登录机制由两部分构成：免密构建与免密验证。

3.3.2 Master主机生成密钥

Master主机使用ssh-keygen命令可以生成密钥。默认保存在~/.ssh目录中。其中id_rsa文件为私钥文件，id_rsa.pub为公钥文件。

ssh-keygen

3.3.3 Master主机发送数据

Master主机使用“ssh-copy-id 从机”命令可以将包含公钥与用户信息的数据发送给指定从机。指定从机会将数据保存到~/.ssh/authorized_keys文件中。需要注意，node1也要向自己创建免密登录，因为我们的集群中node1同时作为Master与Slave出现。

ssh-copy-id

3.4 安装Hadoop

3.4.1下载Hadoop安装包

可以从Hadoop官网下载安装包及源码包。http://hadoop.apache.org

3.4.2 上传Hadoop安装包

将Hadoop安装包上传到node1的/usr/tools中。

3.4.3 解压Hadoop安装包

将/usr/tools中的安装包解压到/usr/apps中。

tar -zxvf /usr/tools/hadoop-2.7.4.tar.gz -C /usr/apps

3.4.4 创建Hadoop安装目录的软链接

ln -s /usr/apps/hadoop-2.7.4/ /usr/apps/hadoop

3.4.5 Hadoop目录结构介绍

3.4.5.1 etc目录

该目录中只包含一个子目录hadoop，其中存放着Hadoop的重要配置文件。xxx-env.sh是运行环境配置文件，xxx-site.xml是设置配置文件。

3.4.5.2 sbin目录

sbin，super binary，只有root用户才可访问的目录。该目录中存放着大量的重要命令，命令即脚本。其中重要的命令有：
1、hadoop-daemon.sh：用于启动/停止指定的进程，namenode、secondarynamenode、datanode

hadoop-daemon.sh start namenode：启动了namenode进程
hadoop-daemon.sh stop namenode：启动了namenode进程

2、yarn-daemon.sh：用于启动/停止指定的进程，resourcemanager与nodemanager
3、start-all.sh：用于启动整个Hadoop集群
4、start-dfs.sh：用于启动HDFS框架
5、start-yarn.sh：用于启动Yarn框架
6、stop-all.sh：用于停止整个Hadoop集群
7、stop-dfs.sh：用于停止HDFS框架
8、stop-yarn.sh：用于停止Yarn框架

3.4.5.3 bin目录

其中也存放着很多重要的命令（脚本）。sbin目录中的命令的实际功能实现者其实是bin目录中的这些命令。即sbin目录中的命令实际调用了bin目录中的命令。

3.4.5.4 share目录

该目录中包含两个子目录，一个是doc，存放着hadoop的文档，一般会删除；另一个是hadoop目录，存放着hadoop各个模块编译后的jar包，是hadoop运行的真正程序所在。

3.4.5.5 libexec目录

存放着Hadoop的shell程序所依赖的shell配置文件。

3.4.5.6 include与lib目录

这两个目录都是为使用C++开发Hadoop应用所提供的头文件与动态链接库文件。注意，Linux系统中的动态链接库文件为.so文件，类似于Windows中的.dll文件。

3.4.5.7 src目录

Hadoop的源码目录

3.5 修改配置文件

3.5.1 修改/etc/profile文件

将hadoop的安装目录下的bin与sbin目录注册到系统环境变量PATH中，即修改/etc/profile文件。修改完毕后，需source一下，将修改后的文件重新加载。
由于后边修改的配置文件较多，所以此处使用Editplus软件远程连接Linux服务器进行配置文件的修改。

export  HADOOP_HOME=/usr/apps/hadoop
export  PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

source /etc/profile

3.5.2 修改hadoop配置文件

注意hadoop配置文件中不要出现中文注释

3.5.2.1 core-site.xml

<configuration>
	
	<property>
		<name>fs.defaultFSname>
		<value>hdfs://node1:9000value>
	property>
	
	<property>
		<name>hadoop.tmp.dirname>
		<value>/usr/data/hadoopvalue>
	property>
configuration>

3.5.2.2 hadoop-env.sh

修改第25行为：

export JAVA_HOME=/usr/apps/jdk

3.5.2.3 hdfs-site.xml

<configuration>
	
	<property>
		<name>dfs.replicationname>
		<value>3value>
	property>
	
	<property>
		<name>dfs.secondary.http.addressname>
		<value>node2:50090value>
	property>
configuration>

3.5.2.4 mapred-site.xml

首先将hadoop安装目录下的/etc/hadoop中的mapred-site.xml.template文件重命名为mapred-site.xml后，再修改。

<configuration>
	
	<property>
		<name>mapreduce.framework.namename>
		<value>yarnvalue>
	property>
configuration>

3.5.2.5 yarn-site.xml

一般将yarn作为一台独立的主机，或者将yarn和namenode放在一台机器上

<configuration>

	<property>
		<name>yarn.resourcemanager.hostnamename>
		<value>node1value>
	property>

	<property>
		<name>yarn.nodemanager.aux-servicesname>
		<value>mapreduce_shufflevalue>
	property>
configuration>

3.5.2.6 slaves

node1
node2
node3

注意这里node1既是namenode 又是datanode还是ResourceManage

3.5.3 格式化NameNode

式化命令：

hadoop  namenode  -format

格式化后，会根据core-site.xml生成/usr/data/hadoop/dfs/name/current/目录，其中包含四个文件：1、fsimage：文件系统镜像，存放当前文件系统的状态，即元数据信息
2、md5：是同名fsimage文件的校验文件
3、seen_txid：这个文件的数字和faimage的文件名后缀数字做对比，用来判断image文件是否丢失，数字会随着namenode的重启次数发生变化
4、VERSION：记录当前NameNode的版本信息。

尝试启动namenode

 hadoop-daemon.sh start namenode
 hadoop-daemon.sh stop namenode

3.5.4 集群节点间复制hadoop目录

集群中每一台节点机中都要有与node1中相同的hadoop目录及配置，这样集群才可协调工作。所以需要将node1中的hadoop目录复制到node2与node3。复制到node2命令：

scp –r /usr/apps/hadoop-2.7.4    node2:/usr/apps

复制完毕后，需要为该hadoop-2.7.4目录创建软链接

ln –s  /usr/apps/hadoop-2.7.4    /usr/apps/hadoop

3.5.5 关闭防火墙

Linux系统默认开放的只有22端口号，但Hadoop在运行时，主机间访问需要用到很多其它的端口号，所以我们需要将防火墙关闭，以放开所有端口。关闭防火墙可以使用service iptables stop命令，但其为临时关闭，一旦系统重启，防火墙会自动开启。所以我们一般使用永久关闭命令：

chkconfig iptables off

另外，在Linux的根目录下还有一个目录selinux，即Security Enhanced Linux，是Linux中的一个安全增强子系统，其功能类似于一个防火墙，其也要关闭。集群中的每一台主机都要将它们关闭。可将所有主机上的防火墙及selinux关闭。

chkconfig    iptables    off    && setenforce    0

3.5.6 搭建成功测试

在此Hadoop集群环境已经搭建完毕，可以启动集群了。但需要注意，只能在node1上启动集群。因为只有node1上配置了免密登录，可以免密访问node2与node3，但反之不行。另外，node2与node3中的hadoop的bin与sbin目录没有注册到系统环境变量PATH中。

3.5.6.1 单独启动/停止HDFS

启动：

start-dfs.sh

停止：

stop-dfs.sh

注意：node1既是namenode，也是datanode

注意：node2既是datanode，也是SecondaryNameNode

注意：node3仅仅是datanode

停止：

3.5.6.2 单独启动/停止Yarn

启动：

start-yarn.sh

停止：

stop-yarn.sh

注意：node1既是ResourceManage，也是NodeManage

注意：node2是NodeManage

注意：node3是NodeManage

3.5.6.2 启动/停止整个集群

两种方式：
第一种（推荐）：分别启动HDFS与Yarn，分别停止HDFS与Yarn。
第二种（不推荐）：

启动：start-all.sh
停止：stop-all.sh

停止

#Hadoop全分布式安装 #mysql安装 #hive安装砸吧砸吧 hadoop hive yarn mysql
分布式（多台机器部署不同组件）与集群（多台机器部署相同组件）概念。Linux基础命令linux具有文件数：目录、文件，从根目录开始，路径具有唯一性。pwd：显示当前路径特殊符号：/：根目录.：隐藏文件，如果路径以.开始，表示当前目录下..：当前目录下的上一级~：当前目录的home目录--help：帮助命令使用linux常用操作命令tab键：自动补全ls：显示指定目录内容默认：当前路径-a：显示所有
Hadoop（在Linux中安装jdk）錠诗味 linux hadoop 运维
安装之前需准备：1.需要远程连接软件2.需要jdk3.需要准备两个文件夹01/export/software安装包02/export/servers解压文件夹现在正式开始安装1.将压缩包存放在/export/software目录下2.进入到software目录进行解压cd/export/software（切换目录）tar-zxvfjdk-8u202-linux-x64.tar.gz-C/expor
数据仓库和非结构化数据。 weixin_30631587 数据库
数据仓库包含标准化数据。还包含外部数据/非结构化数据如果外部数据量小可以保持数据库内部或者专用服务器。如果量大只能记住地址，在etl加载当然也有需求是实时数据比如股票汇率拿只能etl过程处理非结构化数据包含图片，视频音频如果是传统数据库db2oracle存在里面是不合适的。存储影响性能如果是hadoop无所谓影响不大，但是从使用者的角度非结构化数据只能转换关系使用建一张元数据表存储非结构化存储位置
CentOS 7系统中hadoop的安装和环境配置代码小张z centos hadoop linux
1.创建Hadoop安装解压路径：mkdir-p/usr/hadoop2.进入路径：cd/usr/hadoop3.下载安装包（我这里用的是阿里云镜像压缩包）：wgethttps://mirrors.aliyun.com/apache/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz4.解压安装包到hadoop文件路径：tar-zxvf/usr/hadoo
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
Hadoop 实战笔记（二）-- HDFS 常用 shell 命令总结 dazhong2012 Hadoop hdfs hadoop
一、HDFS命令显示当前目录结构#显示当前目录结构hadoopfs-ls#递归显示当前目录结构hadoopfs-ls-R#显示根目录下内容hadoopfs-ls/创建目录#创建目录hadoopfs-mkdir#递归创建目录hadoopfs-mkdir-p删除操作#删除文件hadoopfs-rm#递归删除目录和文件hadoopfs-rm-R从本地加载文件到HDFS#二选一执行即可hadoopfs-p
How Spark Read Sftp Files from Hadoop SFTP FileSystem IT•轩辕 Cloudy Computation spark hadoop 大数据
GradleDependenciesimplementation('org.apache.spark:spark-sql_2.13:3.5.3'){excludegroup:"org.apache.logging.log4j",module:"log4j-slf4j2-impl"}implementation('org.apache.hadoop:hadoop-common:3.3.4'){exc
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Spark集群启动与关闭陈沐 spark spark hadoop big data
Hadoop集群和Spark的启动与关闭Hadoop集群开启三台虚拟机均启动ZookeeperzkServer.shstartMaster1上面执行启动HDFSstart-dfs.shslave1上面执行开启YARNstart-yarn.shslave2上面执行开启YARN的资源管理器yarn-daemon.shstartresourcemanager(如果nodeManager没有启动(正常情况
Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive hadoop 数据仓库
目录背景‌一、Hive函数分类与核心函数表‌1.内置函数分类‌2.用户自定义函数（UDF）分类二、常用函数详解与实战案例‌1.数学函数‌2.字符串函数‌3.窗口函数‌4.自定义UDF实战‌三、总结与优化建议‌1.核心总结2.性能优化建议‌3.常问问题背景‌Hive作为Hadoop生态中最常用的数据仓库工具，其强大的函数库是高效处理和分析海量数据的核心能力之一。Hive函数分为‌内置函数‌和‌用户自
Hadoop MapReduce 词频统计（WordCount）代码解析教程我不是少爷. Java基础 hadoop mapreduce 大数据
一、概述这是一个基于HadoopMapReduce框架实现的经典词频统计程序。程序会统计输入文本中每个单词出现的次数，并将结果输出到HDFS文件系统。二、代码结构packagecom.bigdata.wc;//Hadoop核心类库导入importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;//数据类型定义
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路 Echo_Wish 大数据大数据 hadoop spark
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路说起大数据技术，Hadoop和Spark可以说是这个领域的两座里程碑。Hadoop曾是大数据的开山之作，而Spark则带领我们迈入了一个高效、灵活的大数据处理新时代。那么，它们的演变过程到底有何深意？背后技术上的取舍和选择，又意味着什么？一、Hadoop：分布式存储与计算的奠基者Hadoop诞生于互联网流量爆发式增长的时代，
hadoop集群关闭命令顺序_启动和关闭Hadoop集群命令步骤氪老师 hadoop集群关闭命令顺序
启动和关闭Hadoop集群命令步骤总结：1.在master上启动hadoop-daemon.shstartnamenode.2.在slave上启动hadoop-daemon.shstartdatanode.3.用jps指令观察执行结果.4.用hdfsdfsadmin-report观察集群配置情况.5.通过http://npfdev1:50070界面观察集群运行情况.(如果遇到问题看https://
在kali linux中配置hadoop伪分布式 we19a0sen 三数据分析分布式 linux hadoop
目录一.配置静态网络二.配置主机名与IP地址映射三.配置SSH免密登录四.配置Java和Hadoop环境五.配置Hadoop伪分布式六.启动与验证一.配置静态网络原因：Hadoop集群依赖稳定的网络通信，动态IP可能导致节点失联。静态IP确保节点始终通过固定地址通信。操作步骤：#修改网络配置文件sudovim/etc/network/interfaces#添加内容（根据实际网络修改）：autoet
Spark任务读取hive表数据导入es 小小小小小小小小小小码农 hive elasticsearch spark java
使用elasticsearch-hadoop将hive表数据导入es，超级简单1.引入pomorg.elasticsearchelasticsearch-hadoop9.0.0-SNAPSHOT2.创建sparkconf//spark参数设置SparkConfsparkConf=newSparkConf();//要写入的索引sparkConf.set("es.resource","");//es集
hive-进阶版-1 数据牧马人 hive hadoop 数据仓库
第6章hive内部表与外部表的区别Hive是一个基于Hadoop的数据仓库工具，用于对大规模数据集进行数据存储、查询和分析。Hive支持内部表（ManagedTable）和外部表（ExternalTable）两种表类型，它们在数据存储、管理方式和生命周期等方面存在显著区别。以下是内部表和外部表的主要区别：1.数据存储位置内部表：数据存储在Hive的默认存储目录下，通常位于HDFS（HadoopDi
大数据手册(Spark)--Spark安装配置 WilenWu 数据分析(Data Analysis)大数据 spark 分布式
本文默认在zsh终端安装配置，若使用bash终端，环境变量的配置文件相应变化。若安装包下载缓慢，可复制链接到迅雷下载，亲测极速～准备工作Spark的安装过程较为简单，在已安装好Hadoop的前提下，经过简单配置即可使用。假设已经安装好了hadoop（伪分布式）和hive，环境变量如下JAVA_HOME=/usr/opt/jdkHADOOP_HOME=/usr/local/hadoopHIVE_HO
虚拟机中Hadoop集群NameNode进程缺失问题解析与解决申朝先生 hadoop 大数据分布式 linux
目录问题概述问题分析解决办法总结问题概述在虚拟机中运行Hadoop集群时，通过执行jps命令检查进程时，发现NameNode进程缺失。这通常会导致Hadoop集群无法正常运行，影响数据的存储和访问。问题分析导致NameNode进程缺失的原因可能有以下几点：集群未正确停止：在关闭虚拟机或重启Hadoop集群之前，未执行stop-all.sh命令正确停止集群，导致Hadoop服务异常退出，留下残留数据
大数据学习（67）- Flume、Sqoop、Kafka、DataX对比 viperrrrrrr 大数据学习 flume kafka sqoop datax
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop间数据同步关系型数据库→Hadoop生态系统（HDFS、Hive、
Kubernetes集群版本升级程序员Realeo Java后端 kubernetes 容器云原生
集群升级注意事项升级集群版本建议逐步升级，比如v1.20.1–>v1.21.1–>v1.22.1–>v1.23.1–>v1.24.1，不能跨度过大，否则会报错。升级步骤查看集群版本[root@hadoop102~]#kubectlgetnodesNAMESTATUSROLESAGEVERSIONhadoop102Ready,SchedulingDisabledcontrol-plane,maste
Kubernetes集群版本升级后端java
集群升级注意事项升级集群版本建议逐步升级，比如v1.20.1–>v1.21.1–>v1.22.1–>v1.23.1–>v1.24.1，不能跨度过大，否则会报错。升级步骤查看集群版本[root@hadoop102~]#kubectlgetnodesNAMESTATUSROLESAGEVERSIONhadoop102Ready,SchedulingDisabledcontrol-plane,maste
Hive高级SQL技巧及实际应用场景小技工丨大数据随笔 sql hive 数据仓库大数据
Hive高级SQL技巧及实际应用场景引言ApacheHive是一个建立在Hadoop之上的数据仓库基础设施，它提供了一个用于查询和管理分布式存储中的大型数据集的机制。通过使用类似于SQL（称为HiveQL）的语言，Hive使得数据分析变得更加简单和高效。本文将详细探讨一些Hive高级SQL技巧，并结合实际的应用场景进行说明。HiveSQL的高级使用技巧1.窗口函数描述：窗口函数允许我们在不使用GR
hive 数字转换字符串_Hive架构及Hive SQL的执行流程解读 weixin_39756416 hive 数字转换字符串
1、Hive产生背景MapReduce编程的不便性HDFS上的文件缺少Schema(表名，名称，ID等，为数据库对象的集合)2、Hive是什么Hive的使用场景是什么？基于Hadoop做一些数据清洗啊(ETL)、报表啊、数据分析可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。Hive是SQL解析引擎，它将SQL语句转译成M/RJob然后在Hadoop执行。由Facebook开源，
在hadoop上运行python_hadoop上运行python程序廷哥带你小路超车
数据来源：http://www.nber.org/patents/acite75_99.zip首先上传测试数据到hdfs：[root@localhost:/usr/local/hadoop/hadoop-0.19.2]#bin/hadoopfs-ls/user/root/test-inFound5items-rw-r--r--1rootsupergroup1012010-10-2414:39/us
ranger集成starrock报错蘑菇丁大数据+机器学习+oracle 大数据
org.apache.ranger.plugin.client.HadoopException:initConnection:UnabletoconnecttoStarRocksinstance,pleaseprovidevalidvalueoffield:{jdbc.driverClassName}..com.mysql.cj.jdbc.Driver.可能的原因JDBC驱动缺失：运行环境中没有安
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

Hadoop学习笔记2