hrxbdhjq

Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言

折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。

为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署完了。部署的脚本我放在了开源中国的git仓库里(http://git.oschina.net/snake1361222/hadoop_scripts)。

本文的所有部署都基于cloudera公司的CDH4,CDH4是cloudera公司包装好的hadoop生态圈一系列yum包，把CDH4放到自己的yum仓库中，能极大的提高hadoop环境部署的简易性。

本文的部署过程中涵盖了namenode的HA实现，hadoop管理的解决方案（hadoop配置文件的同步，快速部署脚本等）。

环境准备

一共用5台机器作为硬件环境，全都是centos 6.4

namenode & resourcemanager 主服务器: 192.168.1.1
namenode & resourcemanager 备服务器: 192.168.1.2
datanode & nodemanager 服务器: 192.168.1.100 192.168.1.101 192.168.1.102
zookeeper 服务器集群(用于namenode 高可用的自动切换): 192.168.1.100 192.168.1.101
jobhistory 服务器(用于记录mapreduce的日志): 192.168.1.1
用于namenode HA的NFS: 192.168.1.100

环境部署

一、加入CDH4的YUM仓库

1.最好的办法是把cdh4的包放到自建的yum仓库中,如何自建yum仓库请看自建YUM仓库

2.如果不想自建yum仓库，在所有的hadoop机器执行以下操作加入cdn4的yum仓库

1

2

wget http: //archive .cloudera.com /cdh4/one-click-install/redhat/6/x86_64/cloudera-cdh-4-0 .x86_64.rpm

sudo yum --nogpgcheck localinstall cloudera-cdh-4-0.x86_64.rpm

二、创建用于namenode HA的NFS服务器

1.登录192.168.1.100,执行以下脚本 createNFS.sh

1

2

3

4

5

6

7

8

#!/bin/bash

yum -y install rpc-bind nfs-utils

mkdir -p /data/nn_ha/

echo "/data/nn_ha *(rw,root_squash,all_squash,sync)" >> /etc/exports

/etc/init .d /rpcbind start

/etc/init .d /nfs start

chkconfig --level 234 rpcbind on

chkconfig -level 234 nfs on

三、Hadoop Namenode & resourcemanager 主服务器环境部署

1.登录192.168.1.1，创建脚本目录，把脚本从git仓库复制下来

1

2

3

4

5

yum �Cy install git

mkdir �Cp /opt/

cd /opt/

git clone http: //git .oschina.net /snake1361222/hadoop_scripts .git

/etc/init .d /iptables stop

2.修改hostname

1

sh /opt/hadoop_scripts/deploy/AddHostname .sh

3.修改部署脚本的配置文件

1

2

3

4

5

vim /opt/kingsoft/hadoop_scripts/deploy/config

#添加master服务器的地址，也就是namenode主服务器

master= "192.168.1.1"

#添加nfs服务器地址

nfsserver= "192.168.1.100"

4.编辑hosts文件(此文件会同步到hadoop集群所有机器)

1

2

3

4

5

6

7

8

vim /opt/hadoop_scripts/share_data/resolv_host

127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4

::1 localhost localhost.localdomain localhost6 localhost6.localdomain6

192.168.1.1 nn.dg.hadoop.cn

192.168.1.2 nn2.dg.hadoop.cn

192.168.1.100 dn100.dg.hadoop.cn

192.168.1.101 dn101.dg.hadoop.cn

192.168.1.102 dn102.dg.hadoop.cn

5.执行部署脚本CreateNamenode.sh

1

sh /opt/hadoop_scripts/deploy/CreateNamenode .sh

6.搭建saltstack master

PS:类似于puppet的服务器管理开源工具，比较轻量，在这里用于管理hadoop集群，调度datanode，关于saltstack的详细请看 SaltStack部署与使用

a.安装

1

yum -y install salt salt-master

b.修改配置文件`/etc/salt/master`,下面标志的是需要修改的项

1

2

3

4

5

6

7

8

修改监听IP：

interface: 0.0.0.0

多线程池：

worker_threads: 5

开启任务缓存：（官方描叙开启缓存能承载5000minion）

job_cache

开启自动认证：

auto_accept: True

c.开启服务

1

2

/etc/init .d /salt-master start

chkconfig salt-master on

7.部署过程中已经把我的sample配置复制过去了，所以只需要修改部分配置文件

a. /etc/hadoop/conf/hdfs-site.xml (其实就是按实际修改主机名地址)

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

< property >

< name >dfs.namenode.rpc-address.mycluster.ns1</ name >

< value >nn.dg.hadoop.cn:8020</ value >

< description >定义ns1的rpc地址</ description >

</ property >

< property >

< name >dfs.namenode.rpc-address.mycluster.ns2</ name >

< value >nn2.dg.hadoop.cn:8020</ value >

< description >定义ns2的rpc地址</ description >

</ property >

< property >

< name >ha.zookeeper.quorum</ name >

< value >dn100.dg.hadoop.cn:2181,dn101.dg.hadoop.cn:2181,dn102.dg.hadoop.cn:2181,</ value >

< description >指定用于HA的ZooKeeper集群机器列表</ description >

</ property >

b. mapred-site.xml

1

2

3

4

5

6

7

8

< property >

< name >mapreduce.jobhistory.address</ name >

< value >nn.dg.hadoop.cn:10020</ value >

</ property >

< property >

< name >mapreduce.jobhistory.webapp.address</ name >

< value >nn.dg.hadoop.cn:19888</ value >

</ property >

c. yarn-site.xml

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

< property >

< name >yarn.resourcemanager.resource-tracker.address</ name >

< value >nn.dg.hadoop.cn:8031</ value >

</ property >

< property >

< name >yarn.resourcemanager.address</ name >

< value >nn.dg.hadoop.cn:8032</ value >

</ property >

< property >

< name >yarn.resourcemanager.scheduler.address</ name >

< value >nn.dg.hadoop.cn:8030</ value >

</ property >

< property >

< name >yarn.resourcemanager.admin.address</ name >

< value >nn.dg.hadoop.cn:8033</ value >

</ property >

三、Hadoop Namenode & resourcemanager 备服务器环境部署

1.登录192.168.1.2，创建脚本目录，从主服务器把脚本同步过来

1

2

3

/etc/init .d /iptables stop

mkdir �Cp /opt/hadoop_scripts

rsync �Cavz 192.168.1.1::hadoop_s /opt/hadoop_scripts

2.执行部署脚本CreateNamenode.sh

1

sh /opt/hadoop_scripts/deploy/CreateNamenode .sh

3.同步hadoop配置文件

1

rsync �Cavz 192.168.1.1::hadoop_conf /etc/hadoop/conf

4.部署saltstack客户端

1

sh /opt/hadoop_scripts/deploy/salt_minion .sh

四、zookeeper服务器集群部署

zookeeper是一个开源分布式服务，在这里用于namenode 的auto fail over功能。

1.安装

1

yum install zookeeper zookeeper-server

2.修改配置文件/etc/zookeeper/conf/zoo.cfg

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

maxClientCnxns=50

# The number of milliseconds of each tick

tickTime=2000

# The number of ticks that the initial

# synchronization phase can take

initLimit=10

# The number of ticks that can pass between

# sending a request and getting an acknowledgement

syncLimit=5

# the directory where the snapshot is stored.

dataDir= /var/lib/zookeeper

# the port at which the clients will connect

clientPort=2181

#这里指定zookeeper集群内的所有机器,此配置集群内机器都是一样的

server.1=dn100.dg.hadoop.cn :2888:3888

server.2=dn101.dg.hadoop.cn:2888:3888

3.指定当前机器的id,并开启服务

1

2

3

4

5

6

7

#譬如当前机器是192.168.1.100(dn100.dg.hadoop.cn),它是server.1，id是1，SO：

echo "1" > /var/lib/zookeeper/myid

chown -R zookeeper.zookeeper /var/lib/zookeeper/

service zookeeper-server init

/etc/init .d /zookeeper-server start

chkconfig zookeeper-server on

#如此类推，部署192.168.1.101

五、datanode & nodemanager 服务器部署

1.登录datanode机器,创建脚本目录，从主服务器把脚本同步过来

1

2

3

/etc/init .d /iptables stop

mkdir �Cp /opt/hadoop_scripts

rsync �Cavz 192.168.1.1::hadoop_s /opt/hadoop_scripts

2.修改hostname，执行部署脚本 CreateDatanode.sh

1

2

sh /opt/hadoop_scripts/deploy/AddHostname .sh

sh /opt/hadoop_scripts/deploy/CreateDatanode .sh

集群初始化

到这里，hadoop集群的环境已部署完毕，现在开始初始化集群

一、namenode的HA高可用初始化

1.在namenode主服务器(192.168.1.1)执行zookeeper的failover功能格式化

1

sudo �Cu hdfs hdfs zkfc �CformatZK

2.把zookeeper集群服务启动(192.168.1.100 192.168.1.101 )

1

/etc/init .d /zookeeper-server start

3.把namenode主备服务器的zkfc服务起来(192.168.1.1 192.168.1.2)

1

/etc/init .d /hadoop-hdfs-zkfc start

4.在namenode主服务器(192.168.1.1)格式化hdfs

1

2

#确保是用hdfs用户格式化

sudo -u hdfs hadoop namenode �C format

5.第一次搭建namenode高可用，需要把name.dir下面的数据复制到namenode备服务器（此坑花了好多时间）

a.在主服务器(192.168.1.1)执行

1

2

tar -zcvPf /tmp/namedir . tar .gz /data/hadoop/dfs/name/

nc -l 9999 < /tmp/namedir . tar .gz

b.在备服务器(192.168.1.2)执行

1

2

wget 192.168.1.1:9999 -O /tmp/namedir . tar .gz

tar -zxvPf /tmp/namedir . tar .gz

6.主从服务都启动

1

2

/etc/init .d /hadoop-hdfs-namenode start

/etc/init .d /hadoop-yarn-resourcemanager start

7.查看hdfs的web界面

1

2

3

4

5

http: //192 .168.1.1:9080

http: //192 .168.1.2:9080

#如果在web界面看到两个namenode都是backup状态，那就是auto fail over配置不成功

#查看zkfc日志(/var/log/hadoop-hdfs/hadoop-hdfs-zkfc-nn.dg.s.kingsoft.net.log)

#查看zookeeper集群的日志(/var/log/zookeeper/zookeeper.log)

8.现在可以尝试关闭namenode主服务，看是否能主从切换

二、hdfs集群开启

到这里，所有hadoop部署已完成，现在开始把集群启动，验证效果

1.把所有datanode服务器启动

1

2

#还记得之前搭建的saltstack管理工具不，现在开始发挥它的作用,登录saltstack master(192.168.1.1)执行

salt - v "dn*" cmd.run "/etc/init.d/hadoop-hdfs-datanode start"

2.查看hdfs web界面,看是否都成为live nodes

3.如果没有问题，现在可以尝试hdfs操作

1

2

3

4

5

6

7

8

9

10

#创建一个tmp目录

sudo -u hdfs hdfs dfs - mkdir /tmp

#创建一个10G大小的空文件,计算它的MD5值，并放入hdfs

dd if = /dev/zero of= /data/test_10G_file bs=1G count=10

md5sum /data/test_10G_file

sudo -u hdfs hdfs dfs -put /data/test_10G_file /tmp

sudo -u hdfs hdfs dfs - ls /tmp

#现在可以尝试关闭一台datanode,然后把刚才的测试文件拉取出来，再算一次MD5看是否一样

sudo -u hdfs hdfs dfs -get /tmp/test_10G_file /tmp/

md5sum /tmp/test_10G_file

三、yarn集群开启

hadoop除了hdfs用于大数据的分布式存储，还有更重要的组件，分布式计算(mapreduce)。现在我们来把mapreducev2 yarn集群启动

1.在主服务器把resourcemanager服务起来（192.168.1.1）

1

/etc/init .d /hadoop-yarn-resourcemanager start

2.把所有nodemanager服务启动

1

2

#还是登陆saltstack master，执行

salt - v "dn*" cmd.run "/etc/init.d/hadoop-yarn-nodemanager start"

3.查看yarn 任务追踪界面(http://192.168.1.1:9081/),看是否所有nodes都已加入

4.hadoop自带有基准测试的mapreduce实例，我们利用它来测试yarn环境是否正常

1

2

3

4

5

6

7

8

9

10

11

#TestDFSIO测试HDFS的读写性能,写10个文件，每个文件1G.

su hdfs -

hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-client-jobclient-2 .0.0-cdh4.2.1-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 1000

#Sort测试MapReduce

##向random-data目录输出数据

hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples .jar randomwriter random-data

##运行sort程序

hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples .jar sort random-data sorted-data

##验证sorted-data 文件是否排好序

hadoop jar /usr/lib/hadoop-mapreduce/hadoop-mapreduce-client-jobclient-2 .0.0-cdh4.2.1-tests.jar testmapredsort -sortInput random-data \

-sortOutput sorted-data

Hadoop集群的管理

一、datanode & nodemanager 节点加入

1.修改hosts表,譬如有节点192.168.1.103需要加入

1

2

3

4

5

6

7

8

9

vim /opt/hadoop_scripts/share_data/resolv_host

127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4

::1 localhost localhost.localdomain localhost6 localhost6.localdomain6

192.168.1.1 nn.dg.hadoop.cn

192.168.1.2 nn2.dg.hadoop.cn

192.168.1.100 dn100.dg.hadoop.cn

192.168.1.101 dn101.dg.hadoop.cn

192.168.1.102 dn102.dg.hadoop.cn

192.168.1.103 dn103.dg.hadoop.cn

2.修改hostname，同步脚本目录,并执行部署

1

2

3

4

mkdir �Cp /opt/hadoop_scripts

rsync �Cavz 192.168.1.1::hadoop_s /opt/hadoop_scripts

sh /opt/hadoop_scripts/deploy/CreateDatanode .sh

sh /opt/hadoop_scripts/deploy/AddHostname .sh

3.开启服务

1

2

/etc/init .d /hadoop-hdfs-datanode start

/etc/init .d /hadoop-yarn-nodemanager start

二、修改hadoop配置文件

一般在一个hadoop集群中维护一份hadoop配置，这份hadoop配置需要分发到集群中各个成员。这里的做法是 salt + rsync

1

2

3

4

5

#修改namenode主服务器的hadoop配置文件 /etc/hadoop/conf/，然后执行以下命令同步到集群中所有成员

sync_h_conf

#脚本目录也是需要维护的，譬如hosts文件/opt/hadoop_scripts/share_data/resolv_host，修改后执行以下命令同步到集群中所有成员

sync_h_script

#其实这两个命令是我自己定义的salt命令的别名，查看这里/opt/hadoop_scripts/profile.d/hadoop.sh

三、监控

比较普遍的方案是,ganglia和nagios监控，ganglia收集大量度量，以图形化程序，nagios在某度量超出阀值后报警.ganglia监控以后补充一下文档

其实，hadoop自带有接口提供我们自己写监控程序，而且这个接口还是比较简单，通过这样便可以访问http://192.168.1.1:9080/jmx,返回值是JSON格式，其中的内容也非常详细。但是每次查询都返回一大串的JSON也是浪费，其实接口还提供更新详细的查询譬如我只想查找系统信息，可以这样调用接口 http://192.168.1.1:9080/jmx?qry=java.lang:type=OperatingSystem 。qry参考后跟的就是整个JSON的“name”这个key的值

总结

在折腾hadoop集群的部署是还是遇到了很多坑，打算下篇写自己所遭遇的问题。通过本文部署遇到问题的可以联系一下我,互相交流一下。QQ:83766787。当然也欢迎大家一起修改部署的脚本，git地址是http://git.oschina.net/snake1361222/hadoop_scripts

你可能感兴趣的:(服务器,解决方案,配置文件,中国,包装)

Node.js项目部署到服务器教程示例猿老七 Express node.js 服务器运维
部署一个Node.js项目到服务器通常可以按照以下步骤操作：步骤1：准备服务器购买服务器：可以选择云服务提供商，如阿里云、腾讯云、华为云等。配置服务器：安装操作系统，配置安全组，开放必要的端口（如80和443用于HTTP和HTTPS）。步骤2：准备环境登录服务器：使用SSH（SecureShell）登录到你的服务器。安装Node.js：在服务器上安装Node.js和npm。sudoaptupdat
部署多个Node.js实例的编程指南 CodeRoarX node.js 编程
在本文中，我们将探讨如何编程实现部署多个Node.js实例。我们将介绍一些基本的概念和技术，并提供相应的源代码示例。Node.js是一个基于ChromeV8引擎的JavaScript运行时环境，它允许我们使用JavaScript编写服务器端应用程序。部署多个Node.js实例可以帮助我们实现高可用性和可伸缩性，以应对大量的请求和流量。下面是一些步骤和技术，帮助你开始部署多个Node.js实例：使用
PM2 在 Node.js 项目中的使用与部署指南屋昂仼 node webpack git 工具类 node.js
一、PM2简介PM2是一个带有负载均衡功能的Node.js应用程序的进程管理器。它可以让你的Node.js应用程序始终保持运行状态，即使出现错误或服务器重启也能自动恢复。同时，它还提供了诸如日志管理、性能监控等实用功能，极大地简化了Node.js项目的部署和运维工作。二、安装PM2在开始使用PM2之前，确保你已经安装了Node.js和npm（Node.js的包管理器）。如果尚未安装，可以从Node
Spring Boot项目中的Jackson依赖冲突：解决`NoSuchFieldError: READ_UNKNOWN_ENUM_VALUES_USING_DEFAULT_VALUE` ╰つ゛木槿报错解决方法集 spring boot 后端 java
目录引言错误现象与日志问题根源分析关键点：`READ_UNKNOWN_ENUM_VALUES_USING_DEFAULT_VALUE`字段的由来为什么会出现`NoSuchFieldError`？解决方案方法一：统一Jackson依赖版本（推荐）1.Maven项目配置2.Gradle项目配置方法二：排除旧版本依赖Maven排除依赖示例检查依赖树方法三：SpringBoot项目中的版本管理验证与调试1
【WRF-Urban】WPS中有关Urban的变量设置 WW、forever WRF-Urban原理及实现 WRF Urban
【WRF-Urban】WPS中有关Urban的变量设置地理数据源的配置WRF-Urban所需静态地理数据1、LANDUSE：包含城市地表分类的土地利用数据。2、URB_PARAM：城市参数数据集。3、FRC_URB2D：城市覆盖度数据集WRF默认设置（美国）数据集1-NationalurbandatasetinChinaNUDC（中国）数据集2-1km分辨率城市冠层参数UCPs（中国）WPS中测试
如何确保MQ消息队列不丢失：Java实现与流程分析会游泳的石头 java ruby 开发语言
前言在分布式系统中，消息队列（MessageQueue,MQ）是核心组件之一，用于解耦系统、异步处理和削峰填谷。然而，消息的可靠性传递是使用MQ时需要重点考虑的问题。如果消息在传输过程中丢失，可能会导致数据不一致或业务逻辑错误。本文将探讨如何确保MQ消息队列不丢失，并通过Java代码示例和流程图来演示解决方案。一、消息丢失的常见场景生产者端丢失：消息发送失败，未正确写入MQ。网络异常导致消息未到达
Oracle数据库服务器地址变更与监听配置修改完整指南垂金烟柳数据库 oracle 服务器
一、前言在企业IT运维中，Oracle数据库服务器地址变更是常见的运维操作。本文将详细介绍如何安全、高效地完成Oracle数据库服务器地址变更及相关的监听配置修改工作，确保数据库服务在迁移后能够正常运行。二、准备工作1.环境检查确认新旧服务器IP地址（如从192.168.1.135迁移到192.168.1.59）检查Oracle数据库版本：SELECT*FROMv$version;确认当前监听状态
✅ 2025最新 | YOLO 获取 COCO 指标终极指南 | 从标签转换到 COCOAPI 评估 (训练/验证) 全覆盖【B 站教程详解】一只云卷云舒 YOLO那些事~YOLO COCO COCOAPI mAP Ultralytics 教程模型评估
✅YOLO轻松获取论文COCO指标：AP（small，medium，large）|从标签转换到COCOAPI评估(训练/验证)全覆盖文章目录一、摘要二、为什么需要COCO指标评估YOLO模型？三、核心挑战与解决方案(视频教程核心内容)1.YOLO标签格式➡️COCO标签格式转换2.创建独立评估脚本，直接输出COCO指标3.验证(Validation)过程中启用COCOAPI评估4.训练(Train
linux 运行go文件路径,Go语言的GOPATH与工作目录详解糖太咸 linux 运行go文件路径
GOPATH设置go命令依赖一个重要的环境变量：$GOPATH1(注：这个不是Go安装目录。下面以笔者的工作目录为说明，请替换自己机器上的工作目录。)在类似Unix环境大概这样设置：exportGOPATH=/home/apple/mygo为了方便，应该把新建以上文件夹，并且把以上一行加入到.bashrc或者.zshrc或者自己的sh的配置文件中。Windows设置如下，新建一个环境变量名称叫做G
18.1.go连接redis chxii go语言 #go 基础 golang redis 开发语言
开发调试TinyRDM：跨平台GUI工具windows版本下载https://download.csdn.net/download/chxii/90562932支持多种格式查看：内置高级文本代码编辑器，支持语法高亮/代码折叠/错误提示便捷搜索过滤：使用正则匹配搜索键后，仍可进行二级过滤，组合筛选数据更方便调试分析相关支持：拥有命令行、慢日志查询、服务器命令实时监控、发布/订阅，极大提高Redis开
C++设计模式-策略模式：从基本介绍，内部原理、应用场景、使用方法，常见问题和解决方案进行深度解析牵牛老人 C++专栏 c++设计模式策略模式
一、策略模式的基本介绍1.1模式定义与核心思想策略模式（StrategyPattern）是一种行为型设计模式，它定义了一系列的算法，并将每个算法封装起来，使它们可以相互替换。策略模式让算法的变化独立于使用算法的客户端。简单来说，就是我们有多种解决问题的方法（算法），把这些方法分别封装好，然后在需要的时候可以灵活地选择使用哪一种方法，而不用改变使用这些方法的代码。这就好比我们出行可以选择步行、骑自行
Tomcat中间件安全基线配置与操作指南 Passer798 环境配置 tomcat
1、账号管理1.1、共享账号管理安全基线项目名称Tomcat共享帐号管理安全基线要求项安全基线编号tomcat-001安全基线项说明应按照用户分配帐号，避免不同用户间共享帐号。设置操作步骤修改tomcat/conf/tomcat-users.xml配置文件，修改或添加帐号。如:基线符合性判定依据查看用户帐号登录情况备注1.2、无关账号管理安全基线项目名称Tomcat无关帐号管理安全基线要求项安全基
【中间件安全计划】锚定Tomcat安全基线生命是有光的 #中间件标准计划中间件安全 tomcat
【中间件安全计划】锚定Tomcat安全基线前言Tomcat醒脑1、Tomcat1.1、Tomcat的缺省端口是多少？怎么修改1.2、Tomcat有哪几种Connector运行模式1.3、Tomcat优化方案归纳1.4、Tomcat主配置文件server.xml1.5、Tomcat针对JVM优化参数有哪些及其含义2、基线2.1、禁用Tomcat管理页面2.2、隐藏Tomcat版本号2.3、禁止列出目
zemax光学系统设计 bug菌¹ #CSDN问答解惑(全栈版)全栈Bug调优(实战版)zemax 光学
本文收录于《CSDN问答解惑-专业版》专栏，主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！问题描述 zemax光学系统设计可以算出系统焦距，据说两个镜片就可以完成。需要帮我初始结构，合适即可。友情提示：
Hive ETL自动化实战：6大清洗策略×4种转换技巧×DolphinScheduler全链路调度方案一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive etl 自动化
目录背景一、HiveETL核心架构设计1.三阶段核心流程2.企业级ETL分层模型二、六大清洗策略实战场景1：电商订单数据清洗三、四大转换技巧解析技巧1：SCD2历史维度处理技巧2：跨表指标计算四、DolphinScheduler全链路调度1.工作流设计示例2.关键调度策略五、性能优化方案1.小文件合并策略2.数据倾斜解决方案六、四大避坑指南1.时区陷阱2.动态分区内存溢出七、总结与最佳实践1.ET
Hive学习（3）ORDER BY排序NULL值终极指南：默认行为、显式控制与实战避坑一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive 大数据 sql
目录背景‌一、Hive中NULL值的默认排序行为‌1.核心规则‌2.示例验证‌二、显式控制NULL值位置‌1.语法支持‌‌2.使用示例3.多列排序中的NULL控制‌三、实战案例与解决方案‌案例1：生成用户活跃度排行榜（NULL视为无效数据）‌案例2：统计销售额区间，NULL代表未录入‌案例3：兼容低版本Hive的替代方案‌四、注意事项与避坑指南‌1.版本兼容性‌2.性能影响‌‌3.复杂数据类型处理
Maven核心配置文件深度解析：pom.xml完全指南猿享天开 java 开发语言
博主简介：CSDN博客专家、全栈领域优质创作者、高级开发工程师、高级信息系统项目管理师、系统架构师，数学与应用数学专业，10年以上多种混合语言开发经验，从事DICOM医学影像开发领域多年，熟悉DICOM协议及其应用开发技术。我的技能涵盖了多种编程语言和技术框架：作为高级C/C++与C#开发工程师，擅长Windows系统下的.NET及C++开发技术，尤其精通MFC、DLL动态链接库、WinForm、
Python 实现的运筹优化系统代码详解(0-1规划背包问题) 狗蛋不是狗数学建模数学建模 0-1规划 Python 背包问题狗蛋不是狗
一、引言在数学建模与实际决策场景的交织领域中，诸多复杂问题亟待高效且精准的解决方案。0-1规划作为一种特殊且极为重要的优化方法，宛如一把万能钥匙，能够巧妙开启众多棘手问题的解决之门。它专注于处理决策变量仅能取0或1这两种极端状态的情况，凭借这种独特的限定，在资源分配、项目抉择、组合优化等一系列关键领域中发挥着无可替代的作用。随着数字化浪潮的迅猛推进，借助便捷且强大的编程工具来实现0-1规划的求解，
Android WebSocket工具类：重连、心跳、消息队列一站式解决方案奋斗理想 android websocket 网络协议
依赖库使用OkHttp的WebSocket支持。在build.gradle中添加依赖：implementation'com.squareup.okhttp3:okhttp:4.9.3'WebSocket工具类实现importokhttp3.*;importandroid.os.Handler;importandroid.os.Looper;importandroid.util.Log;import
Instal IIS on Windows Server 2022 Datacenter 川哥编程 windows
和以往版本一样，没有什么不同，Soeasy！Win+R-ServerManager.exe打开服务器管理器，点击【添加角色和功能】，选择自己想要的角色和功能。一、开始之前：帮助说明，点击【下一步】；二、安装类型；默认勾选【基于角色或基于功能的安装】，点击【下一步】；三、服务器选择；默认勾选【从服务器池中选择服务器】，在【服务器池】中点亮当前服务器名称，点击【下一步】；四、服务器角色；勾选Web服务
RabbitMQ应用问题摆烂java选手 RabbitMQ rabbitmq
RabbitMQ应用问题一.幂等性1.简述概念2.MQ的幂等性介绍3.解决幂等性问题(1)全局唯一ID(2)业务逻辑判断二.顺序性保障1.简单介绍2.无法保证顺序性的场景3.保障方案1)单队列消费者2)分区消费3)消息确认机制4)业务逻辑控制三.消息积压问题1.原因分析2.解决方案一.幂等性1.简述概念在应用程序中，幂等性就是指对⼀个系统进行重复调用(相同参数)，不论请求多少次，这些请求对系统的影
探秘ESP8266、ESP32智能设备新天地：ESPHome 深圳四博智联四博智联ESP32-C6模组 ESP开源项目四博智联ESP32模组 ESP32-C6 ESP32-C2 蓝牙BLE Beacon ESPHome DOIT
探秘ESP8266、ESP32智能设备新天地：ESPHomeESPHome是一个专为简化ESP8266、ESP32和RP2040等平台管理的工具。通过简单而强大的YAML配置文件，无需编程即可控制这些设备，并通过HomeAssistant实现远程控制。ESPHome支持上百种传感器和控制组件，帮助快速DIY智能家居系统。项目地址模组地址ESPHome的工作原理ESPHome通过读取YAML配置文件
计算机网络 —— 应用层（应用层概述及服务方式）落水 zh #应用层计算机网络 php 服务器
计算机网络——应用层（应用层概述及服务方式）应用层服务方式C/S（客户端-服务器（C/S）模型）基本概念特点B/S（Browser/Server）基本概念特点应用场景p2p（对等网络（P2P）模型）基本概念特点应用场景应用层应用层是计算机网络中的最高层，直接面向用户和应用程序提供服务。它负责处理高层协议，确保不同种类的应用程序能够有效、正确地进行数据传输。应用层的主要功能包括：支持各种网络服务：如
搭建K8S-1.23 运维博客团 kubernetes 容器云原生
0、简介这里只用3台服务器来做一个简单的集群地址主机名192.168.160.40kuber-master-1192.168.160.41kuber-master-2192.168.160.42kuber-node-11、关闭三个服务（1）防火墙systemctlstopfirewalld（2）Selinuxsetenforce0（3）swap分区swapoff-a2、修改主机名，添加hosts文
k8s1.24升级1.28 运维博客团 kubernetes 容器云原生
0、简介这里只用3台服务器来做一个简单的集群，当前版本是1.24.17目标升级到1.28.17地址主机名192.168.160.40kuber-master-1192.168.160.41kuber-master-2192.168.160.42kuber-node-1因为1.24已经更换过了容器运行时，所以之后的升级相对就会简单，只要递归升级从1.24-->1.25-->1.26-->1.27--
pycharm如何通过跳板机连接服务器在本地debug ALGORITHM LOL pycharm 服务器 ide
现在假设你有一个服务器，需要跳板机登陆，但是你从跳板机到服务器，只知道能直接通过ssh连接。首先你可以现在本地创建一个SSH配置文件（~/.ssh/config）：HostjumpHostName跳板机地址Port端口User用户Hosttarget1HostName服务器地址Port端口User用户ProxyJumpjump配置好后记得将你的本地C:\Users\KeepGo.ssh下的公钥**
k8s 1.23升级1.24 运维博客团 kubernetes 容器云原生
0、简介这里只用3台服务器来做一个简单的集群，当前版本是1.23.17目标升级到1.24.17地址主机名192.168.160.40kuber-master-1192.168.160.41kuber-master-2192.168.160.42kuber-node-1我这里设置的master2可调度pod，将master2的污点去掉kubectldescribenodesnode|grepTain
面试经验分享 | 成都渗透测试工程师二面面经分享渗透测试老鸟-九青想获取免费资料＋zkanzz 面试经验分享职场和发展 web安全安全服务器区块链
目录：概况面试过程面试官的问题问题1、你觉得当前OAuth2.0下的攻击手段有哪些？结合具体案例详细讲讲问题2、php/java反序列化漏洞的原理?程序员/运维如何避免此类漏洞或如何防御?问题3、如果一台服务器被入侵后,你会如何做应急响应?问题4、目前已知哪些版本的容器有解析漏洞，具体举例。问题5、宽字符注入的原理？如何利用宽字符注入漏洞，payload如何构造？问题6、为何一个mysql数据库的
数字人民币：开启货币新时代的创新探索 java午夜笔记其他经验分享
摘要数字人民币是中国人民银行发行的数字形式法定货币。本文详细阐述了数字人民币的定义、性质、发展历程、现状及优势。数字人民币以广义账户体系为基础，支持银行账户松耦合功能，与实物人民币等价且具法偿性，采用双层运营体系，兼顾实物人民币和电子支付工具优势，钱包设计兼具普惠性与差异化需求。其发展历程从2014年成立法定数字货币研究小组至今，已在多个城市试点并不断拓展应用场景。目前数字人民币市场规模日益壮大，
如何用Spring AI构建MCP Client-Server架构程序猿DD 经验分享
现代Web应用正加速与大语言模型（LLMs）深度融合，构建超越传统问答场景的智能解决方案。为突破模型知识边界，增强上下文理解能力，开发者普遍采用多源数据集成策略，将LLM与搜索引擎、数据库、文件系统等外部资源互联。然而，异构数据源的协议差异与格式壁垒，往往导致集成复杂度激增，成为制约AI应用规模化落地的关键瓶颈。因此，Anthropic公司推出了模型上下文协议（ModelContextProtoc
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

Hadoop （CDH4发行版）集群部署 （部署脚本，namenode高可用，hadoop管理）

前言