pengjunlee

基于Zookeeper的HDFS高可用配置

前言

在 Hadoop 1.X版本中，NameNode是整个HDFS集群的单点故障（single point of failure，SPOF）：每一个HDFS集群只能有一个NameNode节点，一旦NameNode所在服务器宕机或者出现故障将导致整个集群都不可用，除非重启或者开启一个新的Namenode集群才能够恢复可用。

NameNode单点故障对HDFS集群的可用性产生影响主要表现在以下两种情况：

当NameNode所在服务器发生未知的异常（例如：服务器宕机）时，在NameNode被重新启动之前整个集群都将不可用。
当NameNode所在服务器执行某些日常维护任务（例如：软件或硬件升级）后重启服务器时，同样会导致HDFS集群在一段时间内不可用。

HDFS高可用简介

在Hadoop 2.X 版本中，HDFS引入了双NameNode架构，HA（High Available）通过将两个NameNode分别配置为Active/Passive状态来解决上述问题。处于Active状态的NameNode叫作Active Namenode，处于Passive状态的NameNode叫作Standby Namenode。 Standby Namenode作为Active Namenode的热备份，能够在NameNode发生故障或者由于日常服务器维护需要重启的时候以一种优雅的方式自动切换为Active Namenode。
Active Namenode处理客户端所有的操作请求（读写），Standby Namenode只是作为Active Namenode的Slave尽可能地与Active Namenode保持状态同步，使得在Active Namenode故障时能够快速完成切换。为了使Standby Namenode与Active Namenode数据保持同步，两个Namenode都需要与一组Journal Node进行通信。当Active Namenode执行的任务对namespace有所更改时，会确保将修改日志持久到Journal Node节点中的大部分。Standby Namenode持续监控这些Journal Node，当监测发现这些修改日志有变化时，就会将这些修改应用到自己的namespace，进而保持与Active Namenode中namespace元数据保持一致。当进行故障转移时，Standby Namenode在成为Active Namenode之前，会确保自己已经读取了Journal Node中的所有修改日志，从而保持数据状态与故障发生前一致。
为了确保故障转移能够快速完成，Standby Namenode需要维护最新的Block位置信息，即每个Block副本存放在集群中的哪些节点上。为了达到这一点，Datanode同时配置主备两个Namenode，并同时发送Block报告和心跳到两台Namenode。
任何时候只有一个Namenode处于活动状态对HA集群来说至关重要，否则可能出现数据丢失或者数据损坏。当两台Namenode都认为自己的Active Namenode时，会同时尝试写入数据（不会再去检测和同步数据）导致所谓的“裂脑现象”出现。为了达到这个目的并避免出现“裂脑现象”，管理员必须为共享存储配置至少一个（fencing）方法。在宕机期间，如果确定了之前的Active Namenode已经放弃活动状态，fencing进程将负责中断之前的Active Namenode对共享存储的访问和编辑，从而防止它继续对命名空间做出任何进一步的修改，使新的活动节点能够安全地进行故障转移。
更多关于Hadoop HA 机制的详细介绍请移步：https://blog.csdn.net/pengjunlee/article/details/81583052 。
接下来我们重点讲解如何基于QJM使用Zookeeper来配置HDFS-HA。

搭建Hadoop集群

本文重点讲解如何对HDFS进行HA高可用配置，Hadoop集群的搭建过程请参考：

https://blog.csdn.net/pengjunlee/article/details/81589972

搭建好的Hadoop集群的节点信息如下：

Host Name	IP Address	Node Type	User Name
hadoop34	172.16.250.234	DataNode / NodeManager / NameNode	hadoop / root
hadoop39	172.16.250.239	DataNode / NodeManager / SecondaryNameNode	hadoop / root
hadoop40	172.16.250.240	DataNode / NodeManager / ResourceManager	hadoop / root

添加HA详细配置

在上述Hadoop集群搭建完成之后，若要启用HA还需要对hdfs-site.xml和core-site.xml两个文件进行一点额外的配置。
在 HDFS-HA 集群中，使用 [nameservice ID] 来唯一识别一个 HDFS 实例，一个 HDFS-HA 集群可以含有多个（目前最多只支持两个）NameNode，集群同时又使用了 [name node ID] 来识别每一个NameNode。因此，在HDFS-HA 集群中，NameNode 的配置参数都以[nameservice ID].[name node ID]为后缀的。由于dfs.nameservices和dfs.ha.namenodes.[nameservice ID]两个配置项的值将决定后面一些配置项的名称，所以建议先配置这两个选项的值。
在本文中，[nameservice ID]=mycluster，两个[name node ID]分别为nn1和nn2，名称可以随意取，只需要保持前后一致即可。

hdfs-site.xml

保持 hdfs-site.xml 原有的配置不变，再增加如下HA相关配置：

        
                dfs.nameservices
                mycluster
                指定nameservice ID的名称
        
        
                dfs.ha.namenodes.mycluster
                nn1,nn2
                指定各个NameNode在nameservice中的唯一标识符
        
        
                dfs.namenode.rpc-address.mycluster.nn1
                hadoop34:8020
                指定nn1 NameNode所监听的全限定RPC地址
        
        
                dfs.namenode.rpc-address.mycluster.nn2
                hadoop39:8020
                指定nn2 NameNode所监听的全限定RPC地址
        
        
                dfs.namenode.http-address.mycluster.nn1
                hadoop34:50070
                指定nn1 NameNode所监听的全限定HTTP地址
        
        
                dfs.namenode.http-address.mycluster.nn2
                hadoop39:50070
                指定nn2 NameNode所监听的全限定HTTP地址
        
        
                dfs.namenode.shared.edits.dir
              qjournal://hadoop34:8485;hadoop39:8485;hadoop40:8485/mycluster
                指定让NameNodes用来读写edits的Journal Nodes的RUI
        
        
                dfs.client.failover.proxy.provider.mycluster
                org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
                指定HDFS客户端联系Active NameNode所使用的Java类
        
        
                dfs.ha.fencing.methods
                sshfence
                故障转移时使用SSH登录Active NameNode并将其进程杀掉
        
        
                dfs.ha.fencing.ssh.private-key-files
                /home/hadoop/.ssh/id_rsa
                故障转移时SSH登录Active NameNode所使用的私钥文件路径
        
        
                dfs.ha.fencing.ssh.connect-timeout
                30000
                故障转移时SSH登录的超时毫秒数
        
        
                dfs.journalnode.edits.dir
                /home/hadoop/journaldata
                指定edits在JournalNode 上存储的绝对路径

core-site.xml

保持 core-site.xml 其他的配置不变，仅将其中的 fs.defaultFS 配置：

    
        fs.defaultFS
        hdfs://hadoop34:9000

修改为：

    
        fs.defaultFS
        hdfs://mycluster

同步NameNodes

在完成了上述的配置之后，你需要按照以下流程操作来实现NameNodes之间的数据同步：

==>启动 JournalNodes
==>初始化同步NameNodes
==>启动两个NameNode

具体的操作过程如下：
首先在 JournalNodes 所在的机器上分别执行如下命令来启动JournalNode 进程：

[hadoop@hadoop34 hadoop]$ hadoop-daemon.sh start journalnode
starting journalnode, logging to /usr/local/hadoop-2.9.1/logs/hadoop-hadoop-journalnode-hadoop34.out
[hadoop@hadoop34 hadoop]$ jps
3025 Jps
2969 JournalNode

待所有的 JournalNodes 都启动完成之后，接下来初始化同步两个NameNodes中的元数据，分三种情况：
（1）如果你是在对一个全新的HDFS 集群进行HA配置，你可以先在任意一台NameNode上执行 hdfs namenode -format 格式化命令；
（2）如果你已经格式化过NameNode或者是将一个非HA 集群切换成HA集群，你需要在已格式化的NameNode上执行hadoop-daemon.sh start namenode命令将NameNode启动，然后在那些未格式化NameNode的机器上执行hdfs namenode -bootstrapStandby命令将NameNode元数据目录下的所有内容拷贝过来；
（3）如果你是在将一个非HA NameNode转换成HA NameNode，你可以执行 hdfs namenode -initializeSharedEdits 命令来使用本地NameNode的edits数据来初始化JournalNodes 。
如果此时还有NameNode未启动的，在其机器上执行下面的命令将其启动：

hadoop-daemon.sh start namenode #启动NameNode

所有的NameNode都启动了之后，输入如下地址访问它们的HTTP后台管理界面查看各个NameNode是Active还是Standby：http://172.16.250.239:50070

如图所示，按照上述配置启动的HA NameNode 都是Standby状态，需要使用 hdfs haadmin 管理命令将其中的一个切换为Active状态。

注：在HA集群环境里，备用的namenode还起到了检测命名空间状态的作用，因此就没有必要在集群中再运行Secondary NameNode、CheckpointNode和BackupNode了。

HA NameNode管理命令

HA NameNodes配置并启动完成之后，在集群中会额外新增了几个管理HA NameNodes的命令，启动集群然后输入 hdfs haadmin 来查看这些命令的用法：

[hadoop@hadoop34 hadoop]$ hdfs haadmin 
Usage: haadmin [-ns ]
    [-transitionToActive [--forceactive] ]
    [-transitionToStandby ]
    [-failover [--forcefence] [--forceactive]  ]
    [-getServiceState ]
    [-getAllServiceState]
    [-checkHealth ]
    [-help ]

Generic options supported are:
-conf         specify an application configuration file
-D                define a value for a given property
-fs  specify default filesystem URL to use, overrides 'fs.defaultFS' property from configurations.
-jt   specify a ResourceManager
-files                 specify a comma-separated list of files to be copied to the map reduce cluster
-libjars                specify a comma-separated list of jar files to be included in the classpath
-archives           specify a comma-separated list of archives to be unarchived on the compute machines

The general command line syntax is:
command [genericOptions] [commandOptions]

命令	作用
transitionToActive transitionToStandby	转换指定NameNode 的状态，Acitve或者Standby。
failover	在两个NameNode 之间启动一次故障转移。
getServiceState	查看指定NameNode 的状态，Acitve或者Standby。
getAllServiceState	查看所有NameNode 的状态，Acitve或者Standby。
checkHealth	检查指定NameNode 的健康状态

使用 hdfs haadmin 管理命令将两个Standby状态的NameNode中的nn1切换为Active状态：

[hadoop@hadoop34 hadoop]$ hdfs haadmin -transitionToActive nn1

再次登录到nn1的HTTP后台管理界面查看它的状态，已经切换为Active了。

配置自动故障转移

上述的HA NameNodes即使Active NameNode挂掉了也不会自动触发故障转移，需要我们手动进行故障转移。
接下来就来讲讲如何使用Zookeeper让上述HA NameNodes实现自动故障转移。

首先，需要搭建好Zookeeper集群，关于Zookeeper集群的安装方法，可以参考：

https://blog.csdn.net/pengjunlee/article/details/81637024
我搭建好的Zookeeper集群信息如下：

Host Name	IP Address	Zookeeper Port
hadoop34	172.16.250.234	2181
hadoop39	172.16.250.239	2181
hadoop40	172.16.250.240	2181

Zookeeper集群搭建完成之后，在3台Zookeeper节点上分别执行以下命令启动Zookeeper服务：

[hadoop@hadoop34 conf]$ zkServer.sh start
ZooKeeper JMX enabled by default
Using config: /usr/local/zookeeper-3.4.12/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED

然后，停止整个HDFS-HA集群，然后在hdfs-site.xml和core-site.xml中增加如下配置：
hdfs-site.xml增加：

        
                dfs.ha.automatic-failover.enabled
                true
                开启NameNode失败自动故障转移

core-site.xml增加：

    
        ha.zookeeper.quorum
        hadoop34:2181,hadoop39:2181,hadoop40:2181
        ZKFailoverController 自动故障转移所使用的ZK服务器列表

接下来，在ZooKeeper上创建一个用来存储自动故障转移数据的znode，在任意NameNode 上执行如下命令完成znode创建：

# $HADOOP_PREFIX/bin/hdfs zkfc -formatZK
[hadoop@hadoop34 hadoop]$ hdfs zkfc -formatZK

至此，自动故障转移就算是配置完成了。
配置了自动故障转移后，执行start-dfs.sh脚本将会在那些运行NameNode的机器上自动启动一个ZKFC守护进程，在ZKFC启动的过程中，它们会自动地选择一个NameNode作为Acitve NameNode。
如果你希望手动地启动单个ZKFC守护进程，可以使用下面的命令：

# $HADOOP_PREFIX/sbin/hadoop-daemon.sh --script $HADOOP_PREFIX/bin/hdfs start|stop zkfc
[hadoop@hadoop34 hadoop]$ hadoop-daemon.sh --script hdfs start zkfc
starting zkfc, logging to /usr/local/hadoop-2.9.1/logs/hadoop-hadoop-zkfc-hadoop34.out
[hadoop@hadoop34 hadoop]$ hadoop-daemon.sh --script hdfs stop zkfc
stopping zkfc

参考文章：http://hadoop.apache.org/docs/r2.9.1/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html

Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
HIVE（二） 2301_78012738 hive 数据仓库
目录访问HIVE的三种方式DDLDML数据操作向表中装载数据数据导出常用函数Like和RLike分组Join排序分区表和分桶表访问HIVE的三种方式启动Hive命令，CtrlC退出客户端，执行测试语句，与sql一致[wyc@hadoop102hive]$bin/hive经验小结：在hive中执行语句报错：ExecutionError,returncode2fromorg.apache.hadoop
安全运维的 “五层防护”：构建全方位安全体系 KKKlucifer 安全运维
在数字化运维场景中，异构系统复杂、攻击手段隐蔽等挑战日益突出。保旺达基于“全域纳管-身份认证-行为监测-自动响应-审计溯源”的五层防护架构，融合AI、零信任等技术，构建全链路安全运维体系，以下从技术逻辑与实践落地展开解析：第一层：全域资产纳管——筑牢安全根基挑战云网基础设施包含分布式计算（Hadoop/Spark）、数据流处理（Storm/Flink）等异构组件，通信协议繁杂，传统方案难以全面纳管
Hive 事务表(ACID)问题梳理
文章目录问题描述分析原因什么是事务表概念事务表和普通内部表的区别相关配置事务表的适用场景注意事项设计原理与实现文件管理格式参考博客问题描述工作中需要使用pyspark读取Hive中的数据，但是发现可以获取metastore，外部表的数据可以读取，内部表数据有些表报错信息是：AnalysisException:org.apache.hadoop.hive.ql.metadata.HiveExcept
Docker快速构建Hive测试环境静谧星光 docker hive 容器编程
Docker是一种流行的容器化平台，可以帮助我们快速构建和管理应用程序的环境。在本文中，我们将学习如何使用Docker快速构建Hive测试环境。Hive是一个基于Hadoop的数据仓库基础设施，它提供了一种类似于SQL的查询语言，用于分析和处理大规模数据集。步骤1：安装Docker和DockerCompose首先，我们需要安装Docker和DockerCompose。您可以根据您的操作系统类型，从
HDFS 伪分布模式搭建与使用全攻略（适合初学者 & 开发测试环境） huihui450 hdfs hadoop 大数据
HDFS（HadoopDistributedFileSystem）作为Hadoop生态系统的核心组件，广泛应用于海量数据的分布式存储场景。对于开发者而言，伪分布模式提供了一种低成本、高还原度的学习与测试方式。本文将详细介绍如何在本地搭建并使用HDFS的伪分布模式，包括环境准备、配置过程、常用命令及常见问题排查，帮助你快速入门Hadoop分布式文件系统的实践操作。一、什么是伪分布模式？Hadoop有
YARN container cpu超核如何解决 fzip YARN 超核
在ApacheHadoopYARN中，ContainerCPU超核（即Container使用的CPU资源超过分配量）是一个常见问题，可能导致集群性能下降或不稳定。以下是解决该问题的详细步骤：1.问题诊断1.1确认超核现象查看YARNWebUI：访问http://:8088，检查Container的CPU使用率是否持续超过分配的vCore数。检查NodeManager日志：查看/var/log/ha
Hadoop-Mapreduce入门
Hadoop-Mapreduce入门MapReduce介绍mapreduce设计MapReduce编程规范入门案例WordCountMapReduce介绍MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。知识。Map负责“分”，把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Redu
Hadoop MapReduce入门且行且安~ 数据分析进阶之路 Linux命令 hadoop MapReduce入门
入门简介计算过程分为两个阶段Map和ReduceMap阶段并行处理输入数据Reduce阶段对Map结果进行汇总针对python语言来说：map函数或者reduce函数来说，输出的数据格式为元组tuple一个简单的MapReduce程序只需要指定map()reduce()input()output()剩下的由框架完成。Linux常见命令：-读取文件（文本文件，在Windows下使用记事本打开的文件）
Hadoop MapReduce 入门
一、Hadoop3.0.4环境准备1.环境要求Java8（Hadoop3.0.4不支持Java11+）单节点或多节点Linux系统（推荐Ubuntu18.04+）至少4GB内存（建议8GB+）50GB以上磁盘空间2.安装Java#安装Java8sudoapt-getinstallopenjdk-8-jdk#验证安装java-version3.下载与安装Hadoop3.0.4#下载Hadoop3.0
管理大数据存储的十大技巧 weixin_34238633 大数据数据库运维
在1990年，每一台应用服务器都倾向拥有直连式系统(DAS)。SAN的构建则是为了更大的规模和更高的效率提供共享的池存储。Hadoop已经逆转了这一趋势回归DAS。每一个Hadoop集群都拥有自身的——虽然是横向扩展型——直连式存储，这有助于Hadoop管理数据本地化，但也放弃了共享存储的规模和效率。如果你拥有多个实例或Hadoop发行版，那么你就将得到多个横向扩展的存储集群。而我们所遇到的最大挑
MapReduce数据处理过程2万字保姆级教程大模型大数据攻城狮 mapreduce 大数据 yarn cdh hadoop 大数据面试 shuffle
目录1.MapReduce的核心思想：分而治之的艺术2.HadoopMapReduce的架构：从宏观到微观3.WordCount实例：从代码到执行的完整旅程4.源码剖析：Job.submit的魔法5.Map任务的执行：从分片到键值对6.Shuffle阶段：MapReduce的幕后英雄7.Reduce任务的执行：从数据聚合到最终输出8.Combiner的魔法：提前聚合的性能利器9.Partition
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
数据仓库技术及应用（Hive 产生背景与架构设计，存储模型与数据类型）娟恋无暇数据仓库笔记 hive
1.Hive产生背景传统Hadoop架构存在的一些问题：MapReduce编程必须掌握Java，门槛较高传统数据库开发、DBA、运维人员学习门槛高HDFS上没有Schema的概念，仅仅是一个纯文本文件Hive的产生：为了让用户从一个现有数据基础架构转移到Hadoop上现有数据基础架构大多基于关系型数据库和SQL查询Facebook诞生了Hive2.Hive是什么官网：https://hive.ap
缺少关键的 MapReduce 框架文件
计算圆周率时提醒Hadoop集群缺少关键的MapReduce框架文件mr-framework.tar.gz在http://master:7180/cmf/services/4/status里直接安装再次运行代码：
【大数据入门核心技术-DolphinScheduler】（二）DolphinScheduler安装部署-集群模式 forest_long 大数据技术入门到21天通关大数据 spark hive hadoop 交互 flink mapreduce
目录一、部署模式1、单机模式2、伪集群模式3、集群模式二、部署安装1、下载2、创建mysql元数据库3、配置一键部署脚本4、初始化数据库5、一键部署DolphinScheduler6、访问DolphinSchedulerUI三、启停命令一、部署模式DolphinScheduler支持多种部署模式，包括单机模式（Standalone）、伪集群模式（PseudoCluster）、集群模式（Cluste
大数据 ETL 工具 Sqoop 深度解析与实战指南
一、Sqoop核心理论与应用场景1.1设计思想与技术定位Sqoop是Apache旗下的开源数据传输工具，核心设计基于MapReduce分布式计算框架，通过并行化的Map任务实现高效的数据批量迁移。其特点包括：批处理特性：基于MapReduce作业实现导入/导出，适合大规模离线数据迁移，不支持实时数据同步。异构数据源连接：支持关系型数据库（如MySQL、Oracle）与Hadoop生态（HDFS、H
安装Hadoop集群&入门&源码编译只年大数据 Hadoop hadoop 大数据分布式
安装Hadoop集群完全分布式先决条件准备三台机器NameStaticIPDESCbigdata102192.168.1.102DataNode、NodeManager、NameNodebigdata103192.168.1.103DataNode、NodeManager、ResourceManagerbigdata104192.168.1.104DataNode、NodeManager、Seco
Hadoop之HDFS 只年大数据 Hadoop HDFS hadoop hdfs 大数据
Hadoop之HDFSHDFS的Shell操作启动Hadoop集群（方便后续测试）[atguigu@hadoop102~]$sbin/start-dfs.sh[atguigu@hadoop102~]$sbin/start-yarn.sh-help：输出这个命令参数[atguigu@hadoop102~]$hadoopfs-helprm-ls：显示目录信息[atguigu@hadoop102~]$h
安装Python3.12报错：HTTP 429 TOO MANY REQUESTS for url ＜https://mirrors.ustc.edu.cn/anaconda/pkgs/free/li
安装Python3.12报错(base)[xxx@hadoop104python_shell]$condacreate--namepythonThirteenpython=3.12报错如下：Retrievingnotices:…working…ERRORconda.notices.fetch:get_channel_notice_response(63):Requesterrorforchanne
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
头歌作业-HBase 开发：使用Java操作HBase http_lizi hbase java python
第一关packagestep1;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.HColumnDescriptor;importorg.apache.h
HDFS中fsimage和edits究竟是什么清平乐的技术博客大数据运维 hdfs hadoop 大数据
fsimage和edits是HadoopHDFS(Hadoop分布式文件系统)中的两个关键组件，用于存储文件系统的元数据，以确保文件系统的持久性和一致性。在理解它们的作用之前，我们先了解一下HDFS的基本工作原理。HDFS采用了一种分布式文件系统的架构，其中数据被划分成块并分布在不同的数据节点上，而元数据(文件和目录的信息)则由单独的组件进行管理。元数据的持久性和一致性非常重要，因为文件系统的正确
spark处理kafka的用户行为数据写入hive 月光一族吖 spark kafka hive
在CentOS上部署Hadoop（Hadoop3.4.1）和Hive（Hive3.1.2）的详细步骤说明。这份指南面向单机安装（伪集群模式），如果需要搭建真正的多节点集群，各节点间的网络互访、SSH免密登录以及配置同步需进一步调整。注意：本指南假设你已拥有root权限或者具有sudo权限，并且系统连接Internet（用于下载安装包）。步骤中的版本号可根据实际需要进行更改。一、环境准备更新系统软件
【Hadoop】Hadoop车辆数据存储 db_hjx_2066 java hadoop
Hadoop车辆数据存储本作业旨在实现将车辆数据按天存储到Hadoop分布式文件系统（HDFS）中，并根据数据文件大小分割成多个文件进行存储。数据格式为JSON。作业要求车辆数据按天存储，每天的数据存储在一个文件夹下。数据文件以JSON格式存储。如果数据文件大于100M，则另起一个文件存储。每天的数据总量不少于300M。实现方法1.代码说明以下是用Java编写的实现代码：1.导入类//导入必要的类
计算机毕业设计之基于Hadoop的公共自行车数据分布式存储与计算
如今，在科学技术飞速发展的情况下，信息化的时代也已因为计算机的出现而来临，信息化也已经影响到了社会上的各个方面。它可以为人们提供许多便利之处，可以大大提高人们的工作效率。随着计算机技术的发展的普及，各个领域也都体会到其强大的数据处理能力，这也成为各行各业不可或缺的工具。所以计算机技术被广泛应用于信息管理系统和数据处理等方面。通过它可以大大减少相关的工作处理步骤，也可以提高信息和数据的安全性。本文对
如何学习才能更好地理解人工智能工程技术专业和其他信息技术专业的关联性？人工智能教学实践 python编程实践人工智能学习人工智能
要深入理解人工智能工程技术专业与其他信息技术专业的关联性，需要跳出单一专业的学习框架，通过“理论筑基-实践串联-跨学科整合”的路径构建系统性认知。以下是分阶段、可落地的学习方法：一、建立“专业关联”的理论认知框架绘制知识关联图谱操作方法：用XMind或Notion绘制思维导图，以AI为中心，辐射关联专业的核心技术节点。例如：AI（机器学习）├─数据支撑：大数据技术（Hadoop/Spark）+数据
HDFS与HBase有什么关系？ lucky_syq hdfs hbase hadoop
1、HDFS文件存储系统和HBase分布式数据库HDFS是Hadoop分布式文件系统。HBase的数据通常存储在HDFS上。HDFS为HBase提供了高可靠性的底层存储支持。Hbase是Hadoopdatabase，即Hadoop数据库。它是一个适合于非结构化数据存储的数据库，HBase基于列的而不是基于行的模式。
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">