Hadoop_SC

0481-如何从HDP2.6.5原地升级到CDH6.0.1

温馨提示：如果使用电脑查看图片不清晰，可以使用手机打开文章单击文中的图片放大查看高清原图。
Fayson的github：
https://github.com/fayson/cdhproject
提示：代码块部分可以左右滑动查看噢

文档编写目的

编写本文主要是因为Fayson在上篇文章《0480-如何从HDP2.6.5原地迁移到CDH5.16.1》迁移失败的补充，为什么迁移失败是因为HDP2.6.5的Hadoop版本2.7.5比C5的2.6要高导致的，HDFS只支持升级，而不支持降级。

内容概述

1.测试环境说明

2.保存相关元数据

3.停止HDP和Ambari服务

4.卸载Ambari和HDP

5.安装Cloudera Manager

6.安装CDH

7.其他问题

测试环境

1.HDP2.6.5

2.Ambari2.6.2.2

3.CDH6.0.1

4.Redhat7.4

5.集群未启用Kerberos

6.采用root用户操作

测试环境说明

1.测试环境具体见上篇文章《0480-如何从HDP2.6.5原地迁移到CDH5.16.1》，这里不再进行说明。

2.比较HDP2.6.5和CDH5.16.1的组件版本

HDP2.6.5	CDH6.0.1
Hadoop2.7.3	Hadoop3.0
Hive1.2.1	Hive2.1.1
HBase1.1.2	HBase2.0

卸载CDH5.16.1

因为上篇文章已经安装了CM/CDH5.16.1，要重新安装CDH6需要先卸载，卸载过程略，具体参考Fayson之前的文章《如何卸载CDH(附一键卸载github源码)》

安装Cloudera Manger

安装过程略，参考Fayson之前的文章《如何在Redhat7.4安装CDH6.0》。安装成功后直接登录Cloudera Manager。

安装CDH

该步骤略过。如何安装CDH依旧可以参考Fayson之前的文章《如何在Redhat7.4安装CDH6.0》。最关键需要注意2点：

1.选择各个组件的相关角色的节点时请务必注意：

NameNode/HMaster与原HDP集群时一致：ip-172-31-4-109.ap-southeast-1.compute.internal

DataNode/RegionServer与原HDP集群时一致：ip-172-31-12-114.ap-southeast-1.compute.internal，ip-172-31-13-13.ap-southeast-1.compute.internal，ip-172-31-1-163.ap-southeast-1.compute.internal

Secondary NameNode与原HDP集群时一致：ip-172-31-12-114.ap-southeast-1.compute.internal

2.集群的关键参数配置，注意这里需要修改对应到之前HDP集群时的配置：

hbase.rootdir为/apps/hbase/data

dfs.datanode.data.dir为/hadoop/hdfs/data

dfs.namenode.name.dir为/hadoop/hdfs/namenode

dfs.namenode.checkpoint.dir为/hadoop/hdfs/namesecondary

具体参考《0480-如何从HDP2.6.5原地迁移到CDH5.16.1》

组件升级

1.根据上线章节完成安装CDH后在启动各项服务时依旧会报错如下

2.不用管这个报错，直接点右上角Cloudera图标进入主页

3.进入HDFS服务，点击配置，选择“升级HDFS元数据”

4.点击“升级HDFS元数据”

5.等待元数据升级成功，并且成功启动服务

6.从HDFS服务进入NameNode页面

7.选择最终化元数据升级

8.等待最终化元数据升级完成

HDFS校验

1.执行以下命令表明HDFS工作正常，并且旧的数据能够正常访问

[root@ip-172-31-4-109 shell]# hadoop fs -ls /
[root@ip-172-31-4-109 shell]# hadoop fs -cat /tpcds/10/customer/data-m-00009 | head -1

2.查看HDFS的50070页面如下

与升级前HDP的50070有些微差别，忽略不理。

Hive升级

1.选择Hive服务，点击操作选择“升级Hive Metastore数据库架构”

2.升级失败

3.自动升级，我们进入Cloudera官方提供的Hive元数据升级目录

[root@ip-172-31-4-109 ~]# cd /opt/cloudera/parcels/CDH/lib/hive/scripts/metastore/upgrade/mysql

4.我们知道HDP2.6.5的Hive是1.2，所以我们使用以下命令来逐步进行升级

[root@ip-172-31-4-109 mysql]# mysql -u root -p
Enter password: 
Welcome to the MariaDB monitor.  Commands end with ; or \g.
Your MariaDB connection id is 1413
Server version: 5.5.60-MariaDB MariaDB Server
MariaDB [metastore]> source upgrade-1.2.0-to-2.0.0.mysql.sql;
MariaDB [metastore]> source upgrade-2.0.0-to-2.1.0.mysql.sql;

5.去界面上启动HMS以及HiveSever2后执行Hive命令会报错如下：

查看HMS的日志如下：

凌晨2点19:05.858分    ERROR   HiveMetaStore   
[main]: javax.jdo.JDOException: Exception thrown when executing query : SELECT 'org.apache.hadoop.hive.metastore.model.MVersionTable' AS `NUCLEUS_TYPE`,`A0`.`SCHEMA_VERSION`,`A1`.`SCHEMA_VERSION`,`A0`.`VERSION_COMMENT`,`A0`.`VER_ID` FROM `VERSION` `A0` INNER JOIN `CDH_VERSION` `A1` ON `A0`.`VER_ID` = `A1`.`VER_ID`
    at org.datanucleus.api.jdo.NucleusJDOHelper.getJDOExceptionForNucleusException(NucleusJDOHelper.java:677)
    at org.datanucleus.api.jdo.JDOQuery.executeInternal(JDOQuery.java:388)
    at org.datanucleus.api.jdo.JDOQuery.execute(JDOQuery.java:213)
    at org.apache.hadoop.hive.metastore.ObjectStore.getMSchemaVersion(ObjectStore.java:7675)
    at org.apache.hadoop.hive.metastore.ObjectStore.getMetaStoreSchemaVersion(ObjectStore.java:7654)
    at org.apache.hadoop.hive.metastore.ObjectStore.checkSchema(ObjectStore.java:7609)
    at org.apache.hadoop.hive.metastore.ObjectStore.verifySchema(ObjectStore.java:7593)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.hadoop.hive.metastore.RawStoreProxy.invoke(RawStoreProxy.java:101)
    at com.sun.proxy.$Proxy22.verifySchema(Unknown Source)
    at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.getMSForConf(HiveMetaStore.java:579)
    at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.getMS(HiveMetaStore.java:572)
    at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.createDefaultDB(HiveMetaStore.java:643)
    at org.apache.hadoop.hive.metastore.HiveMetaStore$HMSHandler.init(HiveMetaStore.java:416)
    at org.apache.hadoop.hive.metastore.RetryingHMSHandler.<init>(RetryingHMSHandler.java:78)
    at org.apache.hadoop.hive.metastore.RetryingHMSHandler.getProxy(RetryingHMSHandler.java:84)
    at org.apache.hadoop.hive.metastore.HiveMetaStore.newRetryingHMSHandler(HiveMetaStore.java:6863)
    at org.apache.hadoop.hive.metastore.HiveMetaStore.newRetryingHMSHandler(HiveMetaStore.java:6858)
    at org.apache.hadoop.hive.metastore.HiveMetaStore.startMetaStore(HiveMetaStore.java:7116)
    at org.apache.hadoop.hive.metastore.HiveMetaStore.main(HiveMetaStore.java:7043)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.hadoop.util.RunJar.run(RunJar.java:313)
    at org.apache.hadoop.util.RunJar.main(RunJar.java:227)
NestedThrowablesStackTrace:
com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Table 'metastore.CDH_VERSION' doesn't exist

6.换个思路，我们先从mysql里导出已经升级到2.1的metastore数据，然后新建一个空的metastore的database，然后使用CM的Hive服务的“创建Hive Metastore数据库表”功能

导出新的metastore数据库数据：

[root@ip-172-31-4-109 migration_bak]# mysqldump -u root -p metastore > metastore_2.1.sql
Enter password:

去mysql里drop掉metastore数据库并新建

从Cloudera Manager里“创建HiveMetastore数据库表”，注意需要先停止Hive服务。

再次导入之前导出来的metastore数据文件到这个由Cloudera Manager自己创建的Hive元数据库中。

MariaDB [metastore]> source metastore_2.1.sql;

7.启动Hive服务，并且使用Hive命令查看相关的数据库和表

8.进行hive查询，MapReduce任务报错

18/12/13 03:49:24 INFO client.RMProxy: Connecting to ResourceManager at ip-172-31-4-109.ap-southeast-1.compute.internal/172.31.4.109:8032
java.io.FileNotFoundException: File does not exist: hdfs://ip-172-31-4-109.ap-southeast-1.compute.internal:8020/user/yarn/mapreduce/mr-framework/3.0.0-cdh6.0.1-mr-framework.tar.gz
        at org.apache.hadoop.fs.Hdfs.getFileStatus(Hdfs.java:145)
        at org.apache.hadoop.fs.AbstractFileSystem.resolvePath(AbstractFileSystem.java:488)
        at org.apache.hadoop.fs.FileContext$25.next(FileContext.java:2225)
        at org.apache.hadoop.fs.FileContext$25.next(FileContext.java:2221)
        at org.apache.hadoop.fs.FSLinkResolver.resolve(FSLinkResolver.java:90)

9.从Cloudera Manager页面启动YARN服务，步骤略。

10.进入YARN服务，点击“安装YARN MapReduce框架jar”

11.再次运行Hive的MapReduce任务，这回执行成功

注意：这里Fayson其实也是跟HDP之前的Hive数据进行了一次随机校验，在上篇文章《0480-如何从HDP2.6.5原地迁移到CDH5.16.1》中的“2.测试环境说明”章节有统计同一张表的条数，对于真实的迁移或者升级，你可能需要校验更多的项目，比如再次比较数据库或数据表的数量，多抽查几张表进行校验才能确保升级成功。这里时间关系，Fayson略过。

HBase升级

1.首先我们将HBase原始来自HDP的数据在HDFS备份一下：

[root@ip-172-31-4-109 ~]# hadoop fs -mkdir /hbase_bak
[root@ip-172-31-4-109 ~]# sudo -u hdfs hadoop fs -cp /apps/hbase /hbase_bak

2.从Cloudera Manager界面上启动HBase服务

3.查询HBase的数据

可以正常使用

4.查看HBase Master页面

总region数量与原HDP平台的HBase一致。

总结

首先强调一下本次迁移只关注HDFS数据，Hive数据，HBase数据，对于以下内容并没办法保证从HDP到CDH的直接迁移，您需要新建或者进行更严格的测试：

1.用户认证如OpenLDAP，Kerberos，AD等，你需要在CDH中再次进行配置。

2.权限相关比如HDP中的Ranger授权策略，你只能在CDH中安装Sentry后再次进行配置，并没有方案指导你直接进行迁移。

3.本次迁移并不包括HDP中的Solr到CDH中的Solr迁移。

4.所有组件的配置项包括如HDFS，HBase，Hive，Spark等你需要在CDH中重新进行配置，最好在卸载HDP前能记录好一些关键配置。

5.从HDP迁移后，以前的Hive on Tez将不存在考虑使用Hive on MapReduce或者Impala来实现。

6.迁移成功后，你可能需要对以前的一些应用进行改造，包括Hive作业，HBase查询，Spark作业等。

查看以下内容前强烈建议你已经仔细阅读过Fayson之前的文章《0480-如何从HDP2.6.5原地迁移到CDH5.16.1》。

1.建议在做平台迁移之前，首先需要禁用掉HDFS的HA，主要是为了移除HDFS服务对Zookeeper的依赖，这样你在迁移到新平台后，Zookeeper可以重新安装而且不用额外配置。

2.如果旧的集群已经启用了Kerberos，最好也先禁用掉。等待迁移成功后，在新的平台再次启用Kerberos即可。

3.卸载旧的集群前，务必保证正常停止Hadoop集群服务。停止服务前确认Hive表，HBase，HDFS已经没有写入，然后让HDFS进入安全模式，保存检查点。

4.卸载旧的集群前务必备份好关键数据，包括NameNode的元数据，Hive的元数据库等。同时记录HDFS的空间使用情况，包括文件夹个数，文件大小，同时记录Hive的数据库，表的数量，可以可以抽样几个表的包括schema以及部分数据和总条数等方便后期做数据一致性比对。HBase的表同Hive表。

5.卸载旧的集群前务必记录几个关键的本地目录，包括NameNode元数据本地目录，DataNode本地目录，HBase在HDFS中的root目录。这3个目录在后期搭新的平台时都是保持不变与之前一致才能真正保证原地迁移成功。

6.请一定保证Ambari和HDP都已经完全卸载，否则可能会导致CDH无法正常安装。

7.安装新的CDH集群时务必保证关键角色所在节点跟以前HDP时一致，如NameNode，Secondary NameNode，DataNode和RegionServer。

8.首次运行新的集群的服务启动时，因为NameNode已有元数据，无法正常格式化，会启动失败，这是正常情况。

9.HDFS的升级分2个关键步骤，首先是在HDFS服务中“升级HDFS元数据”，然后到NameNode中点击“最终化元数据升级”，一旦元数据完成最终升级，将不能再次回滚，请务必注意操作风险，以及备份好了关键数据。

10.本次迁移升级到CDH6.0.1，Hive版本从HDP的1.2升级到2.1，直接在Cloudera Manager使用Hive的“升级元数据架构”失败，后来通过CDH提供的手动升级MySQL的数据库脚本先从Hive1.2升级到Hive2.0，再从Hive2.0升级到Hive2.1，启动HMS服务时依旧报错。替代解决方案是先从MySQL中升级了元数据到Hive2.1，导出metastore的数据，然后drop掉metastore数据库，然后新建metastore数据库，通过Cloudera Manager生成正确的metastore的schema，然后把前面导出的metastore数据重新导入到最新的metastore数据库中。

11.对于第10步的过程，时间关系，Fayson没来得及全部验证所有表是否可用，依旧存在部分表比如字段类型问题不能用的情况可能需要重新创建Hive表的。主要是因为HDP的Hive的元数据的schema跟CDH的schema不能完全兼容导致的，如果都是CDH，升级Hive元数据会简单很多。

12.我们知道HDP中建议使用的Hive表的文件是ORC，而在CDH中使用的是Parquet，这里存在以前的ORC的表在CDH中不能正常使用的情况，比如Impala不能运行，所以最终你可能需要将ORC表转化为Parquet格式。

13.从HDP的HBase1.1迁移到CDH的HBase2.0，并没有做额外的操作，HBase的表就可以直接使用了，这里还没来得及做更严格的验证。

最后再次强调上篇文章从HDP2.6.5迁移到CDH5.16.1的问题：

如果你的目标HDFS的layoutVersion低于已有的集群的版本号，将不能迁移成功，即你只能做HDFS的升级，而没办法做降级。

“Note also that downgrade and rollback are possible only after a rolling upgrade is started and before the upgrade is terminated. An upgrade can be terminated by either finalize, downgrade or rollback. Therefore, it may not be possible to perform rollback after finalize or downgrade, or to perform downgrade after finalize.
注意降级或者回滚只能发生在升级完成之前，降级或回滚HDFS版本一旦在最终化元数据升级成功后就不能执行”

参考：

https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsRollingUpgrade.html

提示：代码块部分可以左右滑动查看噢
为天地立心，为生民立命，为往圣继绝学，为万世开太平。
温馨提示：如果使用电脑查看图片不清晰，可以使用手机打开文章单击文中的图片放大查看高清原图。

推荐关注Hadoop实操，第一时间，分享更多Hadoop干货，欢迎转发和分享。

CC00096.kafka——|Hadoop&kafka.V03|——|kafka.v03|Kafka源码剖析|Topic创建流程| yanqi_vip kafka java 大数据 python spark
一、Kafka源码剖析之Topic创建流程###---Topic创建~~~有两种创建方式：自动创建、手动创建。~~~在server.properties中配置auto.create.topics.enable=true时，~~~kafka在发现该topic不存在的时候会按照默认配置自动创建topic,~~~触发自动创建topic有以下两种情况：~~~Producer向某个不存在的Topic写入消息
大数据集群多命令脚本小P聊技术
1简介在大数据集群部署过程中，需要查询各个集群节点运行的服务状态，可使用批量命令脚本。2配置集群hostname2.1配置hostname文件1服务器hadoop01[root@localhost~]#echohostname1>/etc/hostnamehostnamehadoop012服务器hadoop02[root@localhost~]#echohadoop02>/etc/hostname
LabVIEW 虚实通信实验平台 LabVIEW开发 LabVIEW开发案例 labview LabVIEW开发案例
为解决通信原理课程理论与实践脱节问题，设计了基于LabVIEW与通用硬件的虚实结合实验平台。该平台融合虚拟仿真与硬件实操，支持在线实验、数据传输及远程交互，可高效支撑通信原理教学中的仿真验证与实际信号收发实验。应用场景主要用于电子类专业通信原理课程实验教学：虚拟仿真：学生可通过平台完成基础信号生成、幅度调制、解调等仿真实验，直观观察信号波形变化；硬件实操：结合硬件设备开展FM信号收发、信道干扰测试
R 和 Hadoop 大数据分析（一）
原文：annas-archive.org/md5/b7f3a14803c1b4d929732471e0b28932译者：飞龙协议：CCBY-NC-SA4.0前言企业每天获取的数据量呈指数增长。现在可以将这些海量信息存储在像Hadoop这样的低成本平台上。这些组织目前面临的难题是如何处理这些数据，以及如何从中提取关键见解。因此，R就成为了关键工具。R是一个非常强大的工具，它使得在数据上运行高级统计模
Zookeeper 在 Kafka 中的作用详解：分布式协调服务的核心价值 lxb_不卑不亢消息队列 MQ 进阶实战分布式 zookeeper kafka rocketmq
摘要ApacheKafka是一个高吞吐、分布式的流处理平台，广泛应用于大数据和实时系统中。而ApacheZookeeper，则是Kafka背后不可或缺的“隐形英雄”。本文将深入剖析Zookeeper在Kafka架构中的核心作用，帮助开发者全面理解其在分布式协调、元数据管理、故障恢复等方面的关键地位。一、Zookeeper简介Zookeeper是一个开源的分布式协调服务，最初由Hadoop生态发展而
太棒了！8月最美的“熟女感穿搭”赏析在此：基本款式真给力！泰安秋子
夏末秋初，早晚的凉爽与正午时分的艳阳高照相互交替，形成了尴尬的时间段：穿的太多，中午就显得闷热难当；而少穿一点，一早一晚的时刻又难以抵挡住略带寒意的秋风……在这个温度高低不定的时节里，中年女性如何顺应着气温来进行穿搭，成为了每日必须思考的难题！如果，你正为此而烦恼的话，不妨参考一下下面时尚博主们的换季穿搭示范，我们可以借鉴她们的搭配实操，帮助自己轻松打造好衣品。一般情况下，女人过了40岁之后，身材
深度揭秘端口映射：原理场景、故障分析与实操工具使用，小白也能简单操作实现外网访问内网
端口映射：网络通信的关键技术，在网络通信领域，端口映射是一项至关重要的技术。在内部网络环境中，每一台设备都被分配了唯一的IP地址和端口号，这些标识用于在网络中精准定位和识别各个设备。然而，公共互联网的IP地址资源十分有限，不同设备可能会共享同一个公网IP地址。当需要实现内部设备的远程访问，或者搭建局域网服务器以供外部访问时，端口映射就成为了连接内外网络的关键桥梁。一、端口映射的常见应用场景1、远程
2023-04-03 向日葵积极向上
每日一省导师班复训结束了，这一次断断续续的听课，听的不是很好，不过，还是有收获的，今天的实操流程有很大的启发。今天老公又说，你学了这么久有用的不嘛？问题解决了没？怎么还是这个样子呢？他爱怎么怎么的，我好解脱……听到他这样说，我心里就在想，这货就那样，固执又不学习，他自己也没招，把希望寄托在我身上，希望我去解决目前的问题（一直以来都这样，只要有事就是我的事）。我说：我们养了十几年的娃，十几年的教育结
娜娜感恩日记｜Day407 Na娜娜子
感恩若惜老师分享做事方法给我们小分队成员感恩我的学员琦琦，受她温柔育儿的影响，让我有了期待为人母的心感恩小姨帮忙做午餐又请我们回家吃晚餐感恩陪跑营的伙伴们，实操能力越来越强，思考速度也越来越快感恩歆瑶和我沟通，很难得的不需要常常联系也能秒懂对方的同行好朋友感恩美素子分享功法视频感恩园园分享运营方法感恩思思帮忙打扫场馆卫生感恩硕哥放假来看我，给我带了当归红枣桂圆感恩一切顺利，财富源源不断流向我———
深入解析Hadoop中的推测执行：原理、算法与策略码字的字节 hadoop布道师 hadoop 算法推测执行
Hadoop推测执行概述在分布式计算环境中，任务执行速度的不均衡是一个普遍存在的挑战。Hadoop作为主流的大数据处理框架，通过引入推测执行（SpeculativeExecution）机制有效缓解了这一问题。该技术本质上是一种乐观的容错策略，当系统检测到某些任务执行明显落后于预期进度时，会自动在其它计算节点上启动相同任务的冗余副本，最终选择最先完成的任务结果作为输出。核心设计动机推测执行的诞生源于
spark on yarn 不辉放弃 pyspark 大数据开发
SparkonYARN是指将Spark应用程序运行在HadoopYARN集群上，借助YARN的资源管理和调度能力来管理Spark的计算资源。这种模式能充分利用现有Hadoop集群资源，简化集群管理，是企业中常用的Spark部署方式。核心角色•Spark应用：包含Driver进程和Executor进程。Driver负责任务调度、逻辑处理；Executor负责执行具体任务并存储数据。•YARN组件：◦
4.10感恩日记4 LISA莹_11ce
（实操作业）1、去拍下今天生活和工作中的照片，或自拍照。2、继续写不少于三条感恩日记，把照片做为感恩日记的配图。可以直接上传朋友圈截图或链接感恩我的工作，给我带来了力量，活力和希望感恩美好的早餐，安抚我的小肚肚感恩我的小宝贝，出门总祝我工作开心，早点回家最重要的还是要感谢自己，感谢自己的努力和不断的成长突然发现生活中多了很多心想事成图片发自App
深入解析Hadoop中的Region分裂与合并机制码字的字节 hadoop布道师 hadoop 大数据分布式 Region 分裂合并
Hadoop与Region的基本概念Hadoop的分布式架构基础作为大数据处理的核心框架，Hadoop通过分布式存储和计算解决了海量数据的处理难题。其架构核心由HDFS（HadoopDistributedFileSystem）和MapReduce组成，前者负责数据的分布式存储，后者实现分布式计算。在HDFS中，数据被分割成固定大小的块（默认128MB）分散存储在集群节点上，而MapReduce则通
深入解析Hadoop RPC：技术细节与推广应用码字的字节 hadoop布道师 Hadoop RPC
HadoopRPC框架概述在分布式系统的核心架构中，远程过程调用（RPC）机制如同神经网络般连接着各个计算节点。Hadoop作为大数据处理的基石，其自主研发的RPC框架不仅支撑着内部组件的协同运作，更以独特的工程哲学诠释了分布式通信的本质。透明性：隐形的通信桥梁HadoopRPC最显著的特征是其对通信细节的完美封装。当NameNode接收DataNode的心跳检测，或ResourceManager
深入解析Hadoop：大数据处理的基石学习的锅 hadoop 大数据分布式
随着信息技术的快速发展和互联网的普及，数据的产生速度极具增加。面对如此海量的数据，传统的数据处理工具显得力不从心。在这种背景下，诞生了一系列用于处理大数据的框架与工具，而ApacheHadoop便是其中最为知名和应用最广泛的一个。本文将深入解析Hadoop的基本原理、架构及其在大数据处理中的重要性。1.Hadoop的起源与发展Hadoop起源于Google公司的三篇奠基性论文：GoogleFile
大数据技术关键技术组件
大数据技术是一组用于处理、分析和管理大规模数据集的复杂方法和技术。这些数据集的特点是容量大、增长速度快，且结构多样化，包括结构化、半结构化和非结构化数据。传统数据库管理和分析工具在处理此类数据时效率低下或无法胜任，因此需要专门的大数据技术栈来支持高效的数据处理和智能决策。大数据技术的关键组件通常包括：分布式存储系统：HadoopDistributedFileSystem(HDFS)：一个高度可扩展
大数据领域HDFS的集群资源管理优化大数据洞察大数据与AI人工智能大数据AI应用大数据 hdfs hadoop ai
大数据领域HDFS的集群资源管理优化关键词：HDFS；集群资源管理；存储优化；性能调优；副本策略；负载均衡；NameNode优化摘要：HDFS（Hadoop分布式文件系统）作为大数据领域的基石，承载着海量数据的存储与管理重任。随着数据规模爆炸式增长和业务复杂度提升，HDFS集群的资源管理面临着"存不下、跑不快、管不好"的三重挑战：存储资源浪费与不足并存、计算与存储资源匹配失衡、集群运维效率低下。本
深入探索Hadoop技术：全面学习指南
引言在大数据时代，高效地存储、处理和分析海量数据已成为企业决策与创新的关键驱动力。Hadoop，作为开源的大数据处理框架，以其强大的分布式存储和并行计算能力，以及丰富的生态系统，为企业提供了应对大规模数据挑战的有效解决方案。本文旨在为初学者和进阶者提供一份详尽的Hadoop技术学习指南，涵盖HDFS、MapReduce、YARN等核心组件，以及Hive、Pig、HBase等生态系统工具，助您踏上H
5802 怪蛋第七天作业 #裂变增长实验室# 时光里的喵
我叫徐源，今天任务目标，发只有结果的圈，被动引流！完成状态已经完成这几天操作下来，有个很大的疑惑，就是这次的实操和裂变是针对运营圈么，群内大佬的案例都是做运营圈的，资料和话术被动引流！想看看和交流学习非运营圈，其它宝妈，家长，女性，或者其它行业案例，爬了几天楼好像是没有，但自己想要的是非运营圈的流量，天天这样资料话术引流运营圈，就不知道有啥目的了，毕竟我不做运营圈的社群和知识付费！希望能有些非运营
XML数据如何进行解析呢，方式有哪些？张起灵的小可爱啊
上回我们说到JSON解析的四种方式，那么这次我们来看看XML的四种解析方式。解析的四种方式DOM解析SAX解析JDOM解析DOM4J解析案例实操DOM解析DOM（DocumentObjectModel，文档对象模型），在应用程序中，基于DOM的XML分析器将一个XML文档转换成一个对象模型的集合（通常称为DOM树），应用程序正是通过对这个对象模型的操作，来实现对XML文档数据的操作。XML本身是以
议题式教学实操山中捡石
议题式教学是活动型学科课程的重要抓手，因此我们要上好议题式教学，打造活动型学科课程成为我们政治教师必备技能之一。今天去学校调研，杨老师讲授个人收入的分配就运用的议题式教学，但实际操作效果不好，主要问题在于老师讲的太多，学生活动少；知识讲解多，学生思考少；议题设计不合理等。这也是今后议题式教学要突破的重点。
HDFS文件系统
HDFS文件系统是hadoop生态系统的核心，主要用于分布式文件存储，它具备高可用，流式读取，文件结构简单，跨平台的特点，它的集群采用的是主从结构，分为命名节点和数据节点，命名节点主要用于元数据管理（例如对目录，文件的创建，数据块与数据节点的关系维护管理）及数据节点管理（例如数据节点之间数据的复制，节点状态的维护，节点间数据的均衡），该文件系统最基本的存储单位是block即数据块，默认大小是64M
Flink-Hadoop实战项目 Dylan_muc hadoop hdfs flink
项目说明文档1.项目概述1.1项目简介本项目是一个基于ApacheFlink的大数据流处理平台，专门用于处理铁路系统的票务和车次信息数据。系统包含两个核心流处理作业：文件处理作业和数据合并作业，采用定时调度机制，支持Kerberos安全认证，实现从文件读取到数据仓库存储的完整数据处理链路。1.2技术栈流处理引擎:ApacheFlink1.18.1存储系统:HDFS(Hadoop分布式文件系统)数据
大数据技术是解决什么问题的？ @佳瑞大数据
基础知识1TB（太字节）=1024GB1PB（拍字节）=1024TB大数据核心框架HadoopHadoop作为大数据技术生态的核心框架，主要解决了海量数据（TB/PB级）的存储、处理和分析难题，尤其是在传统数据库（如MySQL）和单机计算无法应对的场景下，提供了低成本、高可靠、可扩展的解决方案。其核心解决的问题可归纳为以下几点：海量数据的存储问题传统痛点：单机存储容量有限（如单服务器硬盘通常在TB
2024最新外卖CPS分销微信小程序源码【前端+后台+数据库+分销功能】云深不知处㊣源码专区微信小程序小程序外卖CPS分销微信小程序源码 CPS分销微信小程序源码
内容目录一、详细介绍二、效果展示三、源代码下载地址一、详细介绍外卖侠CPS全套源码是一款为外卖平台提供分销功能的微信小程序。用户可以通过你的链接去领取外卖红包，然后去下单点外卖，既能省钱，又能获得佣金。该小程序带有商城、影票、吃喝玩乐等多个模块，适合不同用户的需求。外卖CPS的势头猛得一塌糊涂，被称为23年最大的红利之一，也被称为2023最佳小白可实操项目。外卖公司的广告预算持续增加，因为比传统广
Hadoop与图像识别与处理 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Hadoop与图像识别与处理作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在大数据时代，数据的爆炸性增长对数据处理技术提出了新的挑战。图像数据作为一种重要的数据形式，其处理和分析在许多领域中具有重要意义，如医疗影像分析、自动驾驶、安防监控等。然而，传统的图像处理方法在面对海量图像数据时显得力不从心。Hadoop作为一种分
蛋花小说挣零花钱怎么做？99%网友不知道的刷视频广告赚钱实操攻略拆解星火执行官
蛋花小说挣零花钱怎么做？99%网友不知道的刷视频广告赚钱实操攻略拆解！在众多短剧小说APP里面，蛋花免费小说犹如一股清流，不仅以其丰富的短剧与小说资源吸引了广大用户的目光，更巧妙地融入了“看广告刷视频赚钱”的创新模式，成为近期备受瞩目的软件新星。本文将深入探索蛋花小说的盈利机制。一、蛋花小说的赚钱思路说明踏入蛋花小说的世界，首先映入眼帘的便是其精心设计的“福利”板块，这里汇聚了签到奖励、观影补贴等
hadoop 集群问题处理一切顺势而行 hadoop 大数据分布式
1.1.JournalNode的作用在HDFSHA配置中，为了实现两个NameNode之间的状态同步和故障自动切换，Hadoop使用了一组JournalNode来管理共享的编辑日志。具体来说，JournalNode的主要职责包括：共享编辑日志：JournalNode节点组成了一个分布式系统，用于存储HDFS的编辑日志（EditLogs）。这两个日志文件记录了对HDFS所做的所有更改，如文件创建、删
sqoop从mysql导数据到hdfs，出现java.lang.ClassNotFoundException: Class QueryResult not found 无级程序员大数据 sqoop mysql hdfs
运行sqoop从postgresql/mysql导入数据到hdfs,结果出现如下错误：2025-07-1816:59:13,624INFOorm.CompilationManager:HADOOP_MAPRED_HOMEis/opt/datasophon/hadoop-3.3.3Note:/opt/sqoop/bin/QueryResult.javausesoroverridesadeprecat
hive底层原理 sql执行过程_Hive原理总结（完整版）
目录课程大纲(HIVE增强)31.Hive基本概念41.1Hive简介41.1.1什么是Hive41.1.2为什么使用Hive41.1.3Hive的特点41.2Hive架构51.2.1架构图51.2.2基本组成51.2.3各组件的基本功能51.3Hive与Hadoop的关系61.4Hive与传统数据库对比61.5Hive的数据存储62.Hive基本操作72.1DDL操作72.1.1创建表72.1.
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>

0481-如何从HDP2.6.5原地升级到CDH6.0.1

你可能感兴趣的:(Hadoop实操)