晨曦姜

hdfs 数据迁移_Hadoop集群跨数据中心迁移实践

文|张翼李海强徐杰王聪张勋祥

综述

古语有云：“三军未动，粮草先行。”从战略布局的角度来看，大数据平台的建设与发展亦是如此，想要构建服务全集团的大数据综合平台，提升平台服务能力，机房容量“粮仓”至关重要。

近年来，随着零售大数据Hadoop集群的快速增长，已是负重前行的保税区机房的设计容量日渐难以承载，扩建或新建机房势在必行。经领导层决议，基于大数据未来3年的发展需求和多维度推演、论证，新建东莞数据中心，设计容量4000台，并制定Hadoop集群迁移计划。

本次迁移历时一年之久，涉及银行部门之多，从大数据到科技运营，以及业务方，甚至还牵扯供应商，以项目管理的角度来看并非易事，可以说是一个大工程。然而，工程再大，对平安人来说都是使命必达，不待扬鞭自奋蹄。自2019年下半年开始，从数据中心建设，到设备采购，再到迁移方案探讨、迁移步骤整理、演练，最后在团队的共同努力下顺利完成迁移。

迁移方案

好事需多磨，梅香自苦寒，迁移方案的制定并非一帆风顺，一日之功。前期脑暴，最初初步确定了3个方案；随后，从方案推演到逐一细节论证，多次修改，最终，我们选择了可行性最高且最有把握的一个。第一个方案是常规物理搬迁。拿到迁移任务之初，我们首先想到的就是最简单粗暴的物理搬迁，即把服务停掉，机器下架，装车运往东莞数据中心，机器重新上架，配置网络，恢复服务。然而，看似简单的方案，却充满了不确定性。首先，停服1～2天，业务必受影响，业务方能否接受。其次，机器搬运过程中难免会有物理损坏，数据是否会丢失，丢失了是否能恢复。再次，假使前两点都不再是问题，东莞数据中心顺利重新上架机器，恢复服务，但是否会出现新的问题影响服务效果和质量。如果出现严重问题导致服务不可用，回退的可能性为零，就算硬着头皮解决问题，也势必要影响业务开展，最重要的是，我们很难评估会对业务造成怎样的影响。最后，因不确定性太多，且可能造成不可挽回的损失，这个方案一开始就被否决。第二个方案是和Cloudera公司合作，采用最新的CDH 6.3版本建设新机房。这样的方案下，Hadoop会从2.6升级到3.0，Hive从1.1升级到2.1，Spark从2.3升级到2.4。然而，版本的升级就意味着现有的服务跟新版本的适配工作量巨大，同时也将加重数据验证比对的工作压力，调度双跑避无可避。考虑到Z+团队的工作压力以及担心版本升级导致的跑数结果异常，结果可想而知，方案最终再次被老板否决。第三个方案，也是我们最终采用的方案，即新机房继续采用当前集群的版本，不升级，这样理论上就可避免跑数异常情况的发生。迁移的大致过程如下：

向下滑动查看详细迁移过程

新机房部署一倍于现有集群(简称“保税集群”)计算力的集群，简称“东莞集群”(现有集群计算力已经不能满足需求)
在800Gbps带宽的条件下，全量同步保税集群HDFS数据到东莞集群，数据量是11PB
开启增量数据同步，确保每天新增的数据同步到东莞集群
在东莞机房新建一个Hive mysql，作为原mysql的从库，变更当天从库切换成主库，批量修改Hive表location，目标是东莞HDFS
在Z+上将一些数据团队提供的关键作业复制为迁移测试作业，专门用来在东莞集群重跑历史数据，并和保税集群跑出的历史数据全量比对
测试其它服务在东莞集群的功能是否正常，包括HUE、Z+、AICloud、Kylin、I+、HUE、SAS、B+、Presto、指标平台、交易明细、知识图谱
在功能测试和数据验证无误后，变更当天一次性将计算存储切换到东莞集群

迁移工具

修改Hive元数据工具

通过java调用jdbc修改元数据库中数据存放路径location，修改的元数据表有dbs、sds、func，修改方式为批量修改，如update sds set location=replace(location，'路径1'，'路径2')，比使用jdbc一条一条数据修改快很多倍，从几个小时提升到20分钟。

HDFS文件目录比对工具

namenode会定期产出fsimage checkpoint，利用hdfs oiv命令转换fsimage checkpoint为结构化文本数据并导入hive，再用spark sql join把缺失的文件目录筛选出来，简单过滤加工之后生成文件列表，交由数据同步工具。

HDFS文件MD5比对工具

通过比较文件MD5值判断两个集群表上文件是否一致，从数据库根据状态值取出需要比较的表和分区，以分区为单位，多线程递归比较每个分区下文件的MD5值，对比结果更新数据库中表和分区对应的状态。

数据同步工具

将保税集群数据迁移到东莞集群上，从数据类型划分为全量数据和增量数据。同时数据包含其属性特征，如：用户/组、ACL等信息。涉及到权限问题，也必须同步到新集群中。在确定数据类型及数据必备的属性的前提下，需具体分析完备的传递数据的方案。

向下滑动查看详细内容

1. 确定集群间数据传递采用distcp命令，并利用distcp命令提供的相关参数控制数据传递快慢，以达到效率最优。
2. 在distcp命令上进行一层封装，添加属性信息获取及同步功能，并对数据传输结果记录到数据库中及log中以统计成功率及失败率，对失败任务自动重新派发机制。
3. 构建一个数据传输任务管理节点，专门负责未传递数据的统计、管理、任务下发功能，以保证任务可控的动态方式进行下发和监控。
4. 提供多种数据源获取的接口，数据源途径有：从Hive meatstore中获取数仓中所有表数据路径、从执行文件中读取数据路径、从监控hdfs audit日志的Hive表中。
5. 构建一个1-N(1为数据任务控制管理node；N为消费者,真正进行数据传输及属性同步的node)架构的数据迁移工具。
6. 从步骤1~5采用python编写实现，具体是在1台机器部署数据任务控制管理application，17台机器上部署数据传输处理application，原理都是采用distcp命令真正进行数据传输(提交任务到yarn上的MR作业)
7. 在步骤6基础上，再进一步封装。直接执行shell命令这样更加简单，使得脚本工具化。
8. 通过采用步骤5中(1-N)架构，同时实现增量同步权限和多余数据的删除功能。

增量数据同步工具

解析hdfs audit log，筛选出新增和修改的文件路径，写入Hive表。数据同步工具每隔1小时从Hive表获取要同步的文件列表，同步数据到东莞集群。
采用迁移工具进行全量数据(单副本11PB)传递，在不影响原集群作业的情况下，5天就将全量数据基本都拷贝到新集群中。在进行增量数据同步时，能做到1小时处理10万条有变更数据路径的同步。这样在原集群停止对外访问情况下，高效地同步增量数据。

变更步骤

▲ 变更流程图

变更过程分为六个阶段，有些阶段时间比较长，和其它阶段交织在一起，结合图一的流程图会比较清晰。

1. 准备阶段
准备阶段主要包含小时级别的HDFS增量数据同步和文件MD5比对、fsimage全量文件比对，目的是尽量减少第二阶段需要同步的数据量，降低变更风险。 2. 数据同步、比对阶段
此阶段开始之前，需要把平台监控和服务停掉，将namenode进入safemode，禁止数据写入。然后手动触发生成fsimage checkpoint，然后执行文件目录比对工具，筛选出不一致的文件目录，交由数据同步工具，并发同步数据到东莞集群。数据同步完之后，还会触发数据MD5比对工具，比对文件的MD5值，确保数据一致。

此阶段还有一个重要任务是筛选出东莞集群多余的文件目录并删除掉，过程和同步增量数据是一样的，只是spark sql join的顺序换一下。

在第二阶段的第一次数据同步比对做完之后，我们会再重复一次相同的过程，目的是再次确认数据是否一致，理应不会再有缺失或对于的文件目录。
由于此阶段时间比较长，第三、四、五阶段是可以和第二阶段并行的。3. 配置变更阶段
此阶段完成所有用到hadoop/hive/spark配置的应用服务，包含指标平台、交易明细、知识图谱、Kylin、SAS、AICloud、I+、HUE、B+、Z+、gateway/hiveserver2/metastore/spark thriftserver/presto。gateway/hiveserver2/metastore/spark thriftserver/presto的配置跟新通过ansible统一更新，其它应用服务由各自负责人更新。4. 启动服务和功能验证阶段
此阶段恢复变更停止的应用服务，测试和hadoop/hive/spark相关的功能，测试步骤都已事先整理到变更手册。5. 数据验证阶段
事先挑选了零售数据集市关键作业列表，包含信用卡、基础零售、消金、汽融、零售风险、采集、行员、基本法。各集市开发会在Z+上跑关键作业的测试任务，比对测试任务的数据和历史数据。6. 恢复调度和作业观察阶段
恢复Z+自动调度功能，平台值班人员关注失败的作业，分析失败的原因，解决因迁移导致的问题。

第一次生产变更(失败)

第一次生产变更整体是比较顺利的，最后失败的原因是在删除东莞集群多余数据的时候，误删了Hive数仓目录。误删的原因是在分割待删文件列表的时候，分割错了，导致Hive数仓目录被丢进回收站。失败之后，经老板决策，决定回退。同时将东莞namenode回退到上一个checkpoint，避免了再次全量同步数据。

失败之后，团队复盘并总结了几点经验：
- 变更头一天改方案，风险比较大
- 删除操作代码要加防呆机制，避免误删
- 重要数据要double check
- 重要代码要组织review
- 危险命令行操作要double check
- 重要变更步骤要程序化，避免过多的命令行操作

第二次生产变更(成功)

第二次生产变更之前的数据验证过程中，发现部分用到某个特定Hive UDF作业数据验证失败。原因是自定义UDF跟Hive自带的函数重名，并且业务SQL里面使用既使用了Hive内置函数也使用了自定义UDF，函数加载的顺序不通会导致不一致的结果，最后的解决方案是修改自定义UDF，支持内置函数的输入数据类型。第二次生产变更是非常完美的，6个小时时间，完成切换。切换之后的批量作业碰到了一些问题，总结如下：
- spark创建的表，在property里包含了loction信息，变更的时候没有更新，导致部分spark作业失败
- 部分非SQL类型的作业，代码里指定了HDFS namespace，没有变更，导致部分作业失败
- 部分导数作业因为防火墙的原因失败，紧急开墙解决

总结

这次Hadoop集群跨数据中心的迁移是数据底层架构团队近2年来最大也是最复杂的项目，功能的验证涉及超过10个系统，数据比对涉及超过8个部门的数据开发，组织协调的工作也非常琐碎和繁杂；在统一目标的指引下，在比较合理的组织和安排下，团队的各个成员能充分调动起来，发挥各自的能力，最终顺利地完成了这次迁移，这是大家齐心协力努力的结果。在这次升级中，也有很多方面值得我们回顾和改进:
- 首先也是最重要的一点就是对生产抱有敬畏之心，在事前要充分准备，不放过每一个细小的验证点，在变更实施时严格遵循事先制定的变更流程，操作前严格做到Think Twice
- 其次我们要建立与生产环境相同的灰度测试的环境，通过事前在灰度测试环境的演练把升级风险降到最小，这块我们做得并不充分
- 最后我们未来要增强上层平台(主要是Z+)的能力，让他提供更多对于底层升级和变更支持的功能(如灰度上线，失败fallback的功能)

往期回顾

｜【数据治理系列】数据质量治理实践

｜从数据仓库到数据中台系列之二】 ----数据仓库的模型设计

｜如何在前端实现人脸检测

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
elasticsearch数据迁移之elasticdump 迷茫运维路 elasticsearch 中间件 elasticsearch linux 运维
系列文章目录第一章es集群搭建第二章es集群基本操作命令第三章es基于search-guard插件实现加密认证第四章es常用插件文章目录系列文章目录前言一、elasticdump是什么？二、安装elasticdump工具1.离线安装2.在线安装三、elasticdump相关参数四、使用elasticdump进行数据备份五、使用elasticdump进行数据恢复前言在企业实际生产环境中,避免不了要对
准备SAP RISE Go-Live weekend syounger SAP项目管理制造
写本篇文章的时候，我正在等待着第一个和生产性测试(productivetest)相关的活动，财务同事下载旧生产系统的资产负债表，此份资产负债表将和新生产系统的资产负债表对比，以确保数据迁移的完整性。那么在SAPRISE项目的上线周末(Go-Liveweekend)我们需要准备点啥呢?1.上线计划(Cutoverplan)和所有SAP项目一样，上线计划是所有上线周末，包括之前和之后所有与上线相关活动
【HDFS】【HDFS架构】【HDFS Architecture】【架构】资源存储库 hdfs 架构 hadoop
目录1Introduction介绍2AssumptionsandGoals假设和目标HardwareFailure硬件故障StreamingDataAccess流式数据访问LargeDataSets大型数据集SimpleCoherencyModel简单凝聚力模型“MovingComputationisCheaperthanMovingData”“移动计算比移动数据更便宜”PortabilityAc
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hdfs启动流程 weixin_44352020 hadoop hdfs hadoop
Namenode1.init()namenode初始化，执行加载配置文件等操作2.loadFsImage()开始加载元数据将FsImage护额徐为目录树，保存在内存中FsImage中主要包含了问价你和数据块的对应关系3.loadEditlog()加载Editlog，将Editlog中记录的元数据修改应用到内存中；4.saveCheckpoint()将内存中最新的目录树持久化为新的FsImage到磁
hdfs开机启动流程鸭梨山大哎 hadoop hdfs
第一步：加载name目录下最新的那个fsimage_xxx019文件，将里面存储的元数据（目录树结构）维护到内存中，但是还不是关机前的状态第二步：将关机前的最后使用的edits_inprogress_xxxx0160进行重命名edits_0000000000000000160-0000000000000000169操作，然后生成一个最新的edits_inprogress_xxx170文件，并修改s
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
【HDFS主从集群】存在两个独立的问题和解决方案流辉fglow 大数据 #HDFS hdfs java hadoop 大数据分布式学习
主从集群存在两个独立的问题和解决方案单点“主”的两个独立的问题以下是解决方案HA高可用方案：解决单点故障导致集群整体不可用问题Federation联邦机制：解决NN压力过大问题总结一般很多技术都是主从结构（最简单的结构）优点：结构相对简单，主与从协作“主”是单点，好处有，缺点也有好处：单点NameNode，数据一致性好掌握因为一个人管，说一不二的单点“主”的两个独立的问题关键词：独立：两套独立
【HDFS】角色的架构设计流辉fglow #HDFS 大数据 hdfs hadoop 大数据学习分布式
HDFS角色的架构设计前置知识：Windows与Linux文件系统的差异HDFS中的角色及功能HDFS的架构NameNodeDataNodeNameNode元数据的持久化说明：/表示两个词是同一语义，方便你理解的前置知识：Windows与Linux文件系统的差异Windows&LInux虽然都有硬盘/分区、目录，但感受很不同的是：Windows：有很强的分区概念，要先通过不同的“盘符”去找文件在命
HDFS的启动过程 ffbc2020 HDFS HDFS
HDFS的启动过程HDFS的启动过程分为四个阶段：第一阶段：NameNode读取包含元数据信息的fsimage文件，并加载到内存；第二阶段：NameNode读取体现HDFS最新状态的edits日志文件，并加载到内存中第三阶段：生成检查点，SecondaryNameNode将edits日志中的信息合并到fsimage文件中第四阶段：进入安全模式，检查数据块的完整性HDFS的安全模式什么是安全模式安全
集群hdfs启动 sxu~源 hdfs hadoop big data
1）各个模块分开启动/停止（配置ssh是前提）常用（1）整体启动/停止HDFSstart-dfs.sh/stop-dfs.sh（2）整体启动/停止YARNstart-yarn.sh/stop-yarn.sh2）各个服务组件逐一启动/停止（1）分别启动/停止HDFS组件hdfs--daemonstart/stopnamenode/datanode/secondarynamenode（2）启动/停止Y
Kafka和Pulsar深入解析 jasen91 大数据开发 kafka 分布式
Kafka多租户：单租户系统数据迁移：依赖MirrorMaker，需要额外维护。市场上也有ConfluentReplicator等供应商工具。分层存储：由供应商提供商业使用。组件依赖：KafkaRaft（KRaft）从Kafka2.8开始处于早期访问模式，允许Kafka在没有ZooKeeper的情况下工作。这对Kafka来说是一个显著的优势，因为它简化了Kafka的体系结构并降低了学习成本。云原生
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
flask-sqlalchemy的模型类两个表，既有一对一又有一对多的情况时，解决方法 skyTree,, Flask python
这种情况时，直接进行数据迁移会回报错，因为一个表需要依赖另一个表，所以可以将两个表的基本字段先迁移好，然后再新增外键字段进行迁移，就不会报错了fromdatetimeimportdatetimefromapi.models.baseimportBaseModelfromapiimportdbfromwerkzeug.securityimportcheck_password_hash,generat
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
Hadoop常见面试题整理及解答叶青舟 Linux hdfs 大数据 hadoop linux
Hadoop常见面试题整理及解答一、基础知识篇：1.把数据仓库从传统关系型数据库转到hadoop有什么优势？答：（1）关系型数据库成本高，且存储空间有限。而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。（2）关系型数据库仅支持标准结构化数据格式，Hadoop不仅支持标准结构化数据格式
hive表格统计信息不准确 weixin_41956627 hive hive hadoop 数据仓库
问题描述有个hive分区表，orc存储格式，有个分区，查询selectcount(1)fromtablewheredt='yyyyMMdd'结果是0，但查询select*fromtablewheredt='yyyyMMdd'又能查到数据，去hdfs对应目录下查看，也能看到有数据文件解决执行如下sqlANALYZETABLEdb.table1PARTITION(dt='20240908')COMPU
人生苦短我用Python pandas文件格式转换程序喵D 人生苦短我用Python python pandas
人生苦短我用Pythonpandas文件格式转换前言示例1excel与csv互转常用格式的方法FlatfileExcelJSONXML示例2常用格式转换简要需求依赖export方法main方法附其它格式的方法HTMLPicklingClipboardLatexHDFStore:PyTables(HDF5)FeatherParquetORCSASSPSSSQLGoogleBigQuerySTATA前
深入解析HDFS：定义、架构、原理、应用场景及常用命令 CloudJourney hdfs 架构 hadoop
引言Hadoop分布式文件系统（HDFS，HadoopDistributedFileSystem）是Hadoop框架的核心组件之一，它提供了高可靠性、高可用性和高吞吐量的大规模数据存储和管理能力。本文将从HDFS的定义、架构、工作原理、应用场景以及常用命令等多个方面进行详细探讨，帮助读者全面深入地了解HDFS。1.HDFS的定义1.1什么是HDFSHDFS是Hadoop生态系统中的一个分布式文件系
解决flume在抽取不断产生的日志文件时，hdfs上出现很多小文件的问题 lzhlizihang flume hdfs 大数据
问题在使用flume时，需要编写conf文件，然后执行，明明sinks已经指定了roll的三个参数：a1.sinks.k1.hdfs.rollInterval=0（根据写入时间来切割）a1.sinks.k1.hdfs.rollSize=0（根据写入的文件大小来切割）a1.sinks.k1.hdfs.rollCount=0（根据Event数量来切割）其中0代表不根据其属性来切割文件但是hdfs上还会
Hadoop的搭建流程 lzhlizihang hadoop 大数据分布式
文章目录一、配置IP二、配置主机名三、配置主机映射四、关闭防火墙五、配置免密六、安装jdk1、第一步：2、第二步：3、第三步：4、第四步：5、第五步：七、安装hadoop1、上传2、解压3、重命名4、开始配置环境变量5、刷新配置文件6、验证hadoop命令是否可以识别八、全分布搭建7、修改配置文件core-site.xml8、修改配置文件hdfs-site.xml9、修改配置文件hadoop-en
hive搭建 -----内嵌模式和本地模式 lzhlizihang hive hadoop
文章目录一、内嵌模式（使用较少）1、上传、解压、重命名2、配置环境变量3、配置conf下的hive-env.sh4、修改conf下的hive-site.xml5、启动hadoop集群6、给hdfs创建文件夹7、修改hive-site.xml中的非法字符8、初始化元数据9、测试是否成功10、内嵌模式的缺点二、本地模式（最常用）1、检查mysql是否正常2、上传、解压、重命名3、配置环境变量4、修改c
详解 JuiceFS sync 新功能，选择性同步增强与多场景性能优化 Juicedata 性能优化
JuiceFSsync是一个强大的数据同步工具，支持在多种存储系统之间进行并发同步或迁移数据，包括对象存储、JuiceFS、NFS、HDFS、本地文件系统等。此外，该工具还提供了增量同步、模式匹配（类似Rsync）、分布式同步等高级功能。在最新的v1.2版本中，针对Juicesync我们引入了多项新功能，并对多个场景进行了性能优化，以提高用户在处理大目录和复杂迁移时的数据同步效率。新增功能增强选择
第三章 Mybatis 常用工具 flying jiang MyBatis 3源码深度解析 mybatis
ScriptRunnerSqlRunnerScriptRunner和SqlRunner这两个术语通常不是特定于某个数据库或编程语言的内置工具或类，但它们描述了一类在软件开发中常用的工具或库的功能，这些工具或库用于执行SQL脚本或查询。这些工具可以大大简化数据库管理、数据迁移、测试以及自动化任务中的数据库交互。ScriptRunnerScriptRunner通常指的是一个能够执行SQL脚本文件的工具
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

hdfs 数据迁移_Hadoop集群跨数据中心迁移实践

你可能感兴趣的:(hdfs,数据迁移)