TUJC

08_ZooKeeper一

目标

学会ZooKeeper的基本使用：命令行、Java编程
理解ZooKeeper watcher监听器工作原理：注册、监听事件、回调函数（考点）
能独立描述出ZooKeeper选举过程（难点、考点）
理解、并讲述客户端从ZooKeeper读写的过程（考点）

一、ZooKeeper概述

1. 为什么要用ZooKeeper

分布式框架多个独立的程序协同工作比较复杂。开发人员容易花较多的精力实现如何使多个程序协同工作的逻辑，导致没有时间更好的思考实现程序本身的逻辑，或者开发人员对程序间的协同工作关注不够，造成协调问题，且这个分布式框架中协同工作的逻辑是共性的需求
ZooKeeper简单易用，能够很好的解决分布式框架在运行中，出现的各种协调问题。
比如集群master主备切换、节点的上下线感知、统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等等

2、什么是ZooKeeper?

ZooKeeper（主从架构）
- 是一个分布式的，开放源码的分布式应用程序协调服务，
- 是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。
- 是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。
- 目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户
Zookeeper 作为一个分布式的服务框架
- 主要用来解决分布式集群中应用系统的一致性问题
- 它能提供基于类似于文件系统的目录节点树方式的数据存储，
- Zookeeper 作用主要是用来维护和监控存储的数据的状态变化，通过监控这些数据状态的变化，从而达到基于数据的集群管理

3、ZooKeeper应用场景

ZooKeeper应用场景

NameNode使用ZooKeeper实现高可用.
Yarn ResourceManager使用ZooKeeper实现高可用.
利用ZooKeeper对HBase集群做高可用配置
kafka使用ZooKeeper
- 保存消息消费信息比如offset.
- 用于检测崩溃
- 主题topic发现
- 保持主题的生产和消费状态

二. ZooKeeper应用使用

从下图观察：ZooKeeper集群目前有两种角色：leader、follower；

ZooKeeper集群也是主从架构的：leader为主；follower为从

通过客户端操作ZooKeeper集群，有两种类型的客户端

①命令行zkCli

②Java编程

2.1 zkCli命令行（30分钟）

1、集群命令（每个节点运行此命令）

客户端连接zkServer服务器

# 1、启动ZooKeeper集群；在ZooKeeper集群中的每个节点执行此命令
${ZK_HOME}/bin/zkServer.sh start

# 2、停止ZooKeeper集群（每个节点执行以下命令）
${ZK_HOME}/bin/zkServer.sh stop

# 3、查看集群状态（每个节点执行此命令）
${ZK_HOME}/bin/zkServer.sh status

# 4、使用ZooKeeper自带的脚本，连接ZooKeeper的服务器
bin/zkCli.sh -server node01:2181,node02:2181,node03:2181

说明：-server选项后指定参数node01:2181,node02:2181,node03:2181，客户端随机的连接三个服务器中的一个，客户端发出对ZooKeeper集群的读写请求

ZooKeeper集群中有类似于linux文件系统的一个简版的文件系统；目录结构也是树状结构（目录树

2、常用命令

# 1、查看ZooKeeper根目录/下的文件列表
ls /

# 2、创建节点，并指定数据
create /kkb kkb

# 3、获得某节点的数据
get /kkb

# 4、修改节点的数据
set /kkb kkb01

# 5、删除节点
delete /kkb

3.2 Java API编程（重点 30分钟）

IDE可以是eclipse，或IDEA；此处以IDEA演示

编程分两类：原生API编程；curator编程

Curator官网
Curator编程
- Curator对ZooKeeper的api做了封装，提供简单易用的api；
- 它的风格是Curator链式编程
- 参考《使用curator做zk编程》
代码详见工程代码

package com.kaikeba.zookeeper.curator;

import org.apache.curator.framework.CuratorFramework;
import org.apache.curator.framework.CuratorFrameworkFactory;
import org.apache.curator.framework.recipes.cache.ChildData;
import org.apache.curator.framework.recipes.cache.TreeCache;
import org.apache.curator.framework.recipes.cache.TreeCacheEvent;
import org.apache.curator.framework.recipes.cache.TreeCacheListener;
import org.apache.curator.retry.RetryNTimes;
import org.apache.zookeeper.CreateMode;

public class CuratorClientTest {
    //根据自己集群的实际情况，Zookeeper info 替换
    private static final String ZK_ADDRESS = "node01:2181,node02:2181,node03:2181";
    private static final String ZK_PATH = "/zk_test";

    static CuratorFramework client = null;

    // 方法：初始化，建立连接
    public static void init() {

        // 1、创建客户端
            // 1.1、重试连接策略，失败重试次数；每次休眠5000毫秒
           //RetryPolicy policy = new ExponentialBackoffRetry(3000, 3);
        RetryNTimes retryPolicy = new RetryNTimes(10, 5000);

           // 1.2、设置客户端参数，参数1：指定连接的服务器集端口列表；参数2：重试策略
        client = CuratorFrameworkFactory.newClient(ZK_ADDRESS, retryPolicy);

          // 1.3、启动客户端，连接到zk集群
        client.start();
        System.out.println("zk client start successfully!");
    }

    // 方法：关闭连接
    public static void clean() {
        System.out.println("close session");
        client.close();
    }

    // 方法：创建永久节点
    public static void createPersistentZNode() throws Exception {
        String zNodeData = "火辣的";
        ///a/b/c
        client.create().
                creatingParentsIfNeeded().
                withMode(CreateMode.PERSISTENT).
                forPath("/beijing/goddess/tingting", zNodeData.getBytes());

    }

    //  方法：创建临时节点
    public static void createEphemeralZNode() throws Exception {
        String zNodeData2 = "hello3";
        client.create().
                creatingParentsIfNeeded().
                withMode(CreateMode.EPHEMERAL).
                forPath("/hello3/zk", zNodeData2.getBytes());

        Thread.sleep(10000);
    }

    public static void queryZNodeData() throws Exception {
        // 查询列表
        print("ls", "/");
        print(client.getChildren().forPath("/"));

        //查询节点数据
        print("get", ZK_PATH);
        print(client.getData().forPath(ZK_PATH));
    }

    // 修改节点数据
    public static void modifyZNodeData() throws Exception {

        String data2 = "world";
        print("set", ZK_PATH, data2);

        client.setData().forPath(ZK_PATH, data2.getBytes());
        print("get", ZK_PATH);
        print(client.getData().forPath(ZK_PATH));
    }

    public static void deleteZNode() throws Exception {
        // 删除节点
        print("delete", ZK_PATH);
        client.delete().forPath(ZK_PATH);

        print("ls", "/");
        print(client.getChildren().forPath("/"));
    }

    //监听ZNode
    public static void watchZNode() throws Exception {

        //设置节点的cache  cache分为三种TreeCache、
        TreeCache treeCache = new TreeCache(client, "/zk_test");

        //设置监听器和处理过程 匿名xx类
        treeCache.getListenable().addListener(new TreeCacheListener() {
            @Override
            public void childEvent(CuratorFramework client, TreeCacheEvent event) throws Exception {
                ChildData data = event.getData();
                if(data !=null){
                    switch (event.getType()) {
                        case NODE_ADDED:
                            System.out.println("NODE_ADDED : "+ data.getPath() +"  数据:"+ new String(data.getData()));
                            break;
                        case NODE_REMOVED:
                            System.out.println("NODE_REMOVED : "+ data.getPath() +"  数据:"+ new String(data.getData()));
                            break;
                        case NODE_UPDATED:
                            System.out.println("NODE_UPDATED : "+ data.getPath() +"  数据:"+ new String(data.getData()));
                            break;

                        default:
                            break;
                    }
                }else{
                    System.out.println( "data is null : "+ event.getType());
                }
            }
        });
        //开始监听
        treeCache.start();
        Thread.sleep(60000);
        //关闭cache
        System.out.println("关闭cache");
        treeCache.close();
    }

    public static void main(String[] args) throws Exception {

        init();
       // createPersistentZNode();
//      createEphemeralZNode();
   //  queryZNodeData();
//        modifyZNodeData();
//        deleteZNode();
       watchZNode();
        clean();

    }

    private static void print(String... cmds) {
        StringBuilder text = new StringBuilder("$ ");
        for (String cmd : cmds) {
            text.append(cmd).append(" ");
        }
        System.out.println(text.toString());
    }

    private static void print(Object result) {
        System.out.println(
                result instanceof byte[]
                        ? new String((byte[]) result)
                        : result);
    }
}

三、基本概念和操作（25分钟）

分布式通信有几种方式

1、直接通过网络连接的方式进行通信；

2、通过共享存储的方式，来进行通信或数据的传输

ZooKeeper使用第二种方式，提供分布式协调服务

3.1 ZooKeeper数据结构

ZooKeeper主要由以下三个部分实现

ZooKeeper = ①简版文件系统(Znode) ：基于类似于文件系统的目录节点树方式的数据存储

+②原语：可简单理解成ZooKeeper的基本的命令

+③通知机制(Watcher)。

3.2 数据节点ZNode

3.2.1 什么是ZNode

ZNode 分为四类：

	持久节点	临时节点
非有序节点	create	create -e
有序节点	create -s	create -s -e

3.2.2 持久节点

类比，文件夹

# 创建节点/zk_test，并设置数据my_data
create /zk_test my_data

# 持久节点，只有显示的调用命令，才能删除永久节点
delete /zk_test

3.2.3 临时节点

临时节点的生命周期跟客户端会话session绑定，一旦会话失效，临时节点被删除。

# client1上创建临时节点
create -e /tmp tmpdata

# client2上查看client1创建的临时节点
ls /

# client1断开连接
close

# client2上观察现象，发现临时节点被自动删除
ls /

3.2.4 有序节点

ZNode也可以设置为有序节点
为什么设计有序节点？
- 防止多个不同的客户端在同一目录下，创建同名ZNode，由于重名，导致创建失败
如何创建临时节点
- 命令行使用-s选项：create -s /kkb kkb
- Curator编程，可添加一个特殊的属性：CreateMode.EPHEMERAL
一旦节点被标记上这个属性，那么在这个节点被创建时，ZooKeeper 就会自动在其节点后面追加上一个整型数字
```
# 创建持久、有序节点
create -s /test01 test01-data
# Created /test010000000009
```
- 这个整数是一个由父节点维护的自增数字。
- 提供了创建唯一名字的ZNode的方式

3.3 会话（Session)

3.4.1 什么是会话

客户端要对ZooKeeper集群进行读写操作，得先与某一ZooKeeper服务器建立TCP长连接；此TCP长连接称为建立一个会话Session。
每个会话有超时时间：SessionTimeout
- 当客户端与集群建立会话后，如果超过SessionTimeout时间，两者间没有通信，会话超时

3.4.2 会话的特点

客户端打开一个Session中的请求以FIFO（先进先出）的顺序执行；
- 如客户端client01与集群建立会话后，先发出一个create请求，再发出一个get请求；
- 那么在执行时，会先执行create，再执行get
若打开两个Session，无法保证Session间，请求FIFO执行；只能保证一个session中请求的FIFO

3.4.3 会话的生命周期

会话的生命周期:
- 未建立连接
- 正在连接
- 已连接
- 关闭连接

3.4 请求

读写请求
- 通过客户端向ZooKeeper集群中写数据
- 通过客户端从ZooKeeper集群中读数据

3.5 事务zxid

事务
- 客户端的写请求，会对ZooKeeper中的数据做出更改；如增删改的操作
- 每次写请求，会生成一次事务
- 每个事务有一个全局唯一的事务ID，用 ZXID 表示；全局自增
事务特点
- ACID：
- 原子性atomicity | 一致性consistency | 隔离性isolation | 持久性durability
ZXID结构：
- 通常是一个64位的数字。由32位epoch+32位counter组成
- epoch、counter各32位

3.6 Watcher监视与通知

4.6.1 为什么要有Watcher

问：客户端如何获取ZooKeeper服务器上的最新数据？
- 方式一 ：轮询，ZooKeeper以远程服务的方式，被客户端访问；客户端以轮询的方式获得znode数据，效率会比较低（代价比较大）
- 方式二： 基于通知的机制：
  - 客户端在znode上注册一个Watcher监视器
  - 当znode上数据出现变化，watcher监测到此变化，通知客户端
对比，那种好？

4.6.2 什么是Watcher?

客户端在服务器端，注册的事件监听器；
watcher用于监听znode上的某些事件
- 比如znode数据修改、节点增删等；
- 当监听到事件后，watcher会触发通知客户端

4.6.3 如何设置Watcher

注意：Watcher是一个单次触发的操作

可以设置watcher的命令如下：

示例1

#ls path [watch]
#node01 上执行
ls /zk_test watch

#node02 上执行
create /zk_test/dir01 dir01-data

#观察node-01上变化
[zk: node-01:2181,node-02:2181,node-03:2181(CONNECTED) 87] 
WATCHER::

WatchedEvent state:SyncConnected type:NodeChildrenChanged path:/zk_test
#node01 上执行
ls /zk_test watch

#node02 上执行
create /zk_test/dir01 dir01-data

#观察node-01上变化
[zk: node-01:2181,node-02:2181,node-03:2181(CONNECTED) 87] 
WATCHER::

WatchedEvent state:SyncConnected type:NodeChildrenChanged path:/zk_test

图示：

client1上执行步骤1
client2上执行步骤2；
client1上观察现象3

示例2

#监控节点数据的变化；
#node02上
get /zk_test watch

#node03上
set /zk_test "junk01"
#观察node2上cli的输出，检测到变化
#node02上
get /zk_test watch

#node03上
set /zk_test "junk01"
#观察node2上cli的输出，检测到变化

示例3：节点上下线监控
- 原理：
  1. 节点1（client1）创建临时节点
  2. 节点2（client2）在临时节点，注册监听器watcher
  3. 当client1与zk集群断开连接，临时节点会被删除
  4. watcher发送消息，通知client2，临时节点被删除的事件
- 用到的zk特性：
  
  Watcher+临时节点
- 好处：
  
  通过这种方式，检测和被检测系统不需要直接关联（如client1与client2），而是通过ZK上的某个节点进行关联，大大减少了系统耦合。
- 实现：
  
  client1操作
```
# 创建临时节点
create -e /zk_tmp tmp-data
create -e /zk_tmp tmp-data
```
  client2操作
```
# 在/zk_tmp注册监听器
ls /zk_tmp watch
ls /zk_tmp watch
```
  client1操作
```
# 模拟节点下线
close
close
```
  观察client2
```
WATCHER::

WatchedEvent state:SyncConnected type:NodeDeleted path:/zk_tmp

WatchedEvent state:SyncConnected type:NodeDeleted path:/zk_tmp
```
- 图示：
  
  client1：
  
  client2：

4.7 总结

四、ZooKeeper工作原理（5分钟）

ZooKeeper使用原子广播协议叫做Zab(ZooKeeper Automic Broadcast)协议
Zab协议有两种模式
- 恢复模式（选主）：因为ZooKeeper也是主从架构；当ZooKeeper集群没有主的角色leader时，从众多服务器中选举leader时，处于此模式
- 广播模式（同步）：当集群有了leader后，客户端向ZooKeeper集群读写数据时，集群处于此模式
为了保证事务的顺序一致性，ZooKeeper采用了递增的事务id号（zxid）来标识事务，所有提议（proposal）都有zxid

五、访问控制ACL

5.8 ACL访问控制列表

5.1、ACL概述

1、 zk做为分布式架构中的重要中间件，通常会在上面以节点的方式存储一些关键信息，

默认情况下，所有应用都可以读写任何节点，在复杂的应用中，这不太安全，

ZK通过ACL机制来解决访问权限问题

2、ACL(Access Control List)可以设置某些客户端，对zookeeper服务器上节点的权限，如增删改

3、ZooKeeper 采用 ACL（Access Control Lists）策略来进行权限控制。ZooKeeper 定义了如下5种权限。

（1）CREATE: 创建子节点的权限。
（2）READ: 获取节点数据和子节点列表的权限。
（3）WRITE：更新节点数据的权限。
（4）DELETE: 删除子节点的权限。
（5）ADMIN: 设置节点ACL的权限。

注意：CREATE 和 DELETE 都是针对子节点的权限控制。

5.3 如何设置ACL

1、五种权限简称
- CREATE -> 增 -> c
- READ -> 查 -> r
- WRITE -> 改 -> w
- DELETE -> 删 -> d
- ADMIN -> 管理 -> a
- 这5种权限简写为crwda
2、鉴权模式
- world：默认方式，相当于全世界都能访问
- auth：代表已经认证通过的用户(cli中可以通过addauth digest user:pwd 来添加当前上下文中的授权用户)
- digest：即用户名:密码这种方式认证，这也是业务系统中最常用的
- ip：使用Ip地址认证

3、演示auth方式

# 1）增加一个认证用户
# addauth digest 用户名:密码明文
addauth digest kkb:kkb

# 2）设置权限
# setAcl /path auth:用户名:密码明文:权限
setAcl /zk_test auth:kkb:kkb:rw

# 3）查看ACL设置
getAcl /zk_test

你可能感兴趣的:(hadoop)

window10下编译hadoop报错：Failed to execute goal org.apache.maven.plugins:maven-antrun-plugin:1.7: huangxgc hadoop hadoop windows
Windows10下buildhadoop2.7.3报错：Failedtoexecutegoalorg.apache.maven.plugins:maven-antrun-plugin:1.7:[ERROR]Failedtoexecutegoalorg.apache.maven.plugins:maven-antrun-plugin:1.7:run(dist)onprojecthadoop-hdf
图文详解 MapReduce on YARN Shockang 大数据技术体系大数据 mapreduce yarn
前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文权威版本——《Hadoop权威指南第3版》1.作业提交MRrunJob从RM获取新的作业ID作业客户端检査作业的输出说明，计算输入分片并将作业资源(包括作业JAR、配置和分片信息)复制到HDFS。通过调用R
深入MapReduce——从MRv1到Yarn 黄雪超大数据基础 #深入MapReduce mapreduce 大数据 hadoop
引入我们前面篇章有提到，和MapReduce的论文不太一样。在Hadoop1.0实现里，每一个MapReduce的任务并没有一个独立的master进程，而是直接让调度系统承担了所有的worker的master的角色，这就是Hadoop1.0里的JobTracker。在Hadoop1.0里，MapReduce论文里面的worker就是TaskTracker，用来执行map和reduce的任务。而分配
Hadoop学习笔记 --- YARN执行流程与工作原理杨鑫newlfe 数据仓库大数据挖掘与大数据应用案例 YARN Hadoop 大数据资源调度数据仓库
一、YARN简述首先介绍一下YARN在Hadoop2.0版本引进的资源管理系统，直接从MapReduceV1演化而来(由于引擎的功能缺陷)；原因是将MapReduce1中的JobTracker的资源管理和作业调度两个功能分开，分别由ResourceManager和ApplicationMaster进行实现；ResourceManager：负责整个集群的资源管理和调度ApplicationMaste
【深入浅出 Yarn 架构与实现】1-1 设计理念与基本架构大数据王小皮深入浅出Yarn架构与实现架构 hadoop 大数据 yarn java
一、Yarn产生的背景Hadoop2之前是由HDFS和MR组成的，HDFS负责存储，MR负责计算。一）MRv1的问题耦合度高：MR中的jobTracker同时负责资源管理和作业控制两个功能，互相制约。可靠性差：管理节点是单机的，有单点故障的问题。资源利用率低：基于slot的资源分配模型。机器会将资源划分成若干相同大小的slot，并划定哪些是mapslot、哪些是reduceslot。无法支持多种计
【YARN】yarn 基础知识整理——hadoop1.0与hadoop2.0区别、yarn总结时间的美景 Hadoop Yarn hadoop hadoop1 hadoop2 大数据
文章目录1.hadoop1.0和hadoop2.0区别1.1hadoop1.01.1.1HDFS1.1.2Mapreduce1.2hadoop2.01.2.1HDFS1.2.2Yarn/MapReduce22.Yarn2.1Yarn(YetAnotherResourceNegotiator)概述2.2Yarn的优点2.3Yarn重要概念2.3.1ResourceManager2.3.2NodeMa
搭建Hadoop与Hive环境达达玲玲 hadoop hive 大数据
当搭建Hadoop与Hive环境时，以下是每个步骤的详细操作说明：1.安装并配置CentOS7操作系统：-下载CentOS7ISO镜像文件，并通过虚拟机或物理机安装CentOS7操作系统。-在安装过程中，为系统分配必要的网络、用户和权限。2.安装Java开发环境：-下载适合您的系统的JavaJDK版本。-使用命令或GUI工具安装JavaJDK。-配置JAVA_HOME环境变量：-打开终端，输入以下
大数据技术之MapReduce wespten Hadoop Hive Spark 大数据安全大数据 mapreduce hadoop
一、MapReduce概述1、MapReduce简介MapReduce是一个分布式运算程序的编程框架，是基于Hadoop的数据分析计算的核心框架。MapReduce处理过程分为两个阶段：Map和Reduce。Map负责把一个任务分解成多个任务，Reduce负责把分解后多任务处理的结果汇总。2、MapReduce优缺点MapReduce优点：MapReduce易于编程：它简单的实现一些接口，就可以完
anaconda中pyspark_自学大数据——9 Anaconda安装与使用pyspark 步六孤陆
首先从Anaconda官网上下载Anaconda。一、解压安装包sudobashAnaconda3-2020.07-Linux-x86_64.shchown-Rhadoop:hadoop/opt/anaconda/vi/etc/profileexportANACONDA_HOME=/opt/anacondaexportPATH=$PATH:$ANACONDA_HOME/bin:source/etc
PySpark数据处理过程简析 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介PySpark是ApacheSpark的PythonAPI，可以用Python进行分布式数据处理，它在内存中利用了ApacheHadoopYARN资源调度框架对数据进行并行处理。PySpark可以直接使用Hadoop文件系统、HDFS来存储数据，也可以通过S3、GCS、ADLS等云存储平台保存数据。因此，在不同的数据源之间移动数据时，只需要复制一次数据就可以完成
kafka开启kerberos 蘑菇丁 debian 运维
一、基本环境准备创建票据创建Kerberos主体（Principal）：使用kadmin.local或kadmin命令为Zookeeper和Kafka服务创建Kerberos主体。例如：注意有几台机器创建几个kadmin.local-q"addprinc-randkeyzookeeper/[email protected]"kadmin.local-q"addprinc-rand
ranger-kms安装蘑菇丁 eclipse java ide
默认已安装ranger-admin和mysql服务。Ranger组件服务默认都在/opt/bigdata.test/core/ranger目录下安装。解压安装包[hadoop~]$cd/opt/ranger[hadoop@ranger]$tar-xzvfranger-2.1.0-kms.tar.gz[hadoop@xranger]$mvranger-2.1.0-kmsranger/ranger-k
ansible批量生产kerberos票据，并批量分发到所有其他主机脚本蘑菇丁 ansible hadoop 学习笔记 eclipse java ide
-name:ConfigureKerberosforHadoopUsershosts:hadoop_serversbecome:nogather_facts:novars:kerberos_server:hadoop1.xuexi.comkeytab_file_path:/home/hadoop/keys/hadoop.keytabprincipals:-nn/-dn/-yarn/-starroc
网络爬虫相关软件以及论文检索与推荐网站调研 Q7318 网络爬虫网络爬虫搜索引擎
最近接到一个项目，需要做一个基于网络爬虫技术的论文检索与推荐的网站，所以打算先对市面上已有的基于此技术的软件进行一次统计和分析，以备后面查询使用。一.网络爬虫相关软件1.搜索引擎NutchNutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch的创始人是DougCutting，他同时也是Lucene、Hadoop和Avro开源项
修改hdfs路径权限 chimchim66 hdfs hadoop 大数据
目录一、背景二、定位问题三、解决一、背景执行insertoverwritetable报错报错内容如下：二、定位问题看报错日志获取到2个信息，一个网络问题，一个是文件权限问题。网络问题重试还是失败，应该不是因为这个，所以要处理文件的权限。三、解决shell执行以下命令，${hdfs_path}替换成目标表的文件路径/usr/local/service/hadoop/bin/hdfsdfs-chmod
HDFS升级和回退小森饭 hdfs hadoop 大数据
概述作为一个大型的分布式系统，Hadoop内部实现了一套升级机制，当在一个集群上升级Hadoop时，像其他的软件升级一样，可能会有新的bug或一些会影响现有应用的非兼容性变更出现；在任何有实际意义的HDFS系统中，丢失数据是不允许的，更不用说重新搭建启动HDFS了；升级可能成功，也可能失败。如果失败了，那就用rollback进行回滚；如果过了一段时间，系统运行正常，那就可以通过finalize正式
大数据平台建设整体架构设计方案 AI天才研究院 ChatGPT AI大模型企业级应用开发实战大数据AI人工智能大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
《大数据平台建设整体架构设计方案》关键词：大数据平台、分布式存储、分布式计算、数据仓库、数据湖、数据安全、数据质量管理、数据治理、数据挖掘、机器学习、图计算、自然语言处理、Hadoop、Spark、Flink、项目规划、运维管理、最佳实践。摘要：本文将深入探讨大数据平台建设整体架构设计方案，从概述与核心概念、技术栈、建设实践、运维管理以及经验展望等多个方面进行详细阐述。通过梳理大数据平台的核心组成
python操作HBase 王壮_ 大数据 Python hbase 数据库大数据
1.安装happybase和thriftpipinstallhappybasepipinstallthrift2.启动hbase的thrift进程，并指定端口9090hbase-daemon.shstartthrift-p90903.操作HBaseimporthappybaseconnection=happybase.Connection(host='hadoop10',port=9090)tab
HBase伪分布式安装配置流程 TheMountainGhost hbase 数据库大数据
要配置HBase的伪分布式模式，以下是详细的操作步骤，确保每一步都执行准确。1.准备工作确保已经安装并配置好了Hadoop（伪分布式），因为HBase依赖HDFS。Hadoop已经配置并能够正常运行。Java已经安装并配置好了环境变量。SSH配置免密登录（通常在Hadoop环境中已配置）。2.下载并解压HBase下载HBase安装包并解压到你想要的目录：tar-zxvfhbase-2.4.18-b
Scala简介醉游江湖 scala
hadoop生态圈—>javaspark生态圈—>scala1.scala是面向对象的、面向函数的基于静态类型的编程语言。静态语言（强类型语言）静态语言是在编译时变量的数据类型即可确定的语言，多数静态类型语言要求在使用变量之前必须声明数据类型。例如：C++、Java、Delphi、C#,Scala等。scala编译后是字节码文件可以调用java源有的库动态语言（弱类型语言）动态语言是在运行时确定数
【spark床头书系列】如何在YARN上启动Spark官网权威详解说明 BigDataMLApplication spark spark 大数据分布式
【spark床头书系列】如何在YARN上启动Spark官网权威详解说明点击这里看全文文章目录添加其他JAR文件准备工作配置调试应用程序Spark属性重要说明KerberosYARN特定的Kerberos配置Kerberos故障排除配置外部Shuffle服务使用ApacheOozie启动应用程序使用Spark历史服务器替代SparkWebUI官网链接确保HADOOP_CONF_DIR或者YARN_C
xgboost在spark集群使用指南一颗小草333 算法 mapreduce spark 数据挖掘
简介XGBoost是一个优化的分布式梯度增强库，具有高效、灵活和可移植性。在梯度增强框架下实现了机器学习算法。XGBoost提供了一种并行树增强(也称为GBDT、GBM)，可以快速、准确地解决许多数据科学问题。相同的代码在主要的分布式环境(Hadoop、SGE、MPI)上运行，可以解决数十亿个示例的训练问题。xgb相对于gbt所做的改进：1.2.3.XGBoost可以使用R、python、java
解决Python中libhdfs.so的共享库找不到的问题 code_welike python 开发语言 Python
解决Python中libhdfs.so的共享库找不到的问题在Python开发过程中，有时会遇到导入共享库时出现"ImportError:Cannotfindthesharedlibrary:libhdfs.so"的错误。这个错误通常发生在使用Python访问Hadoop分布式文件系统（HadoopDistributedFileSystem，简称HDFS）时，由于缺少libhdfs.so共享库文件而
《Spark大数据分析与内存计算》——第三章阿万古课程作业 spark 数据分析大数据
第三章作业及答案快捷查找：Ctrl+F在搜索框中输入题目一.单选题（共17题）1.(单选题)并不是所有企业都能自己产生数据，从而用于决策辅助，而更多的互联网企业如电商等大部分是要靠什么来抓取互联网数据进行分析A.HadoopB.pythonC.SparkD.网路爬虫正确答案:D:网路爬虫;2.(单选题)什么负责即席查询的应用A.MLlibB.SparkStreamingC.GraphXD.Spar
Hive数据仓库中的数据导出到MySQL的数据表不成功 sin2201 出错问题数据仓库 hive mysql
可能的原因：(1)没有下载flume和sqoop(2)权限问题：因为MySQL数据库拒绝了root用户从hadoop3主机的连接请求，root用户没有从hadoop3主机进行连接的权限解决：通过MySQL的授权命令来授予权限mysql>GRANTALLPRIVILEGESONsqoop_weblog.*TO'root'@'hadoop3'IDENTIFIEDBY'2020';QueryOK,0ro
探秘FreeMovie：一个开源的电影推荐系统孟振优Harvester
探秘FreeMovie：一个开源的电影推荐系统去发现同类优质开源项目:https://gitcode.com/项目简介是一个基于深度学习的开源电影推荐系统，由pojiezhiyuanjun开发并维护。该项目的目标是为用户提供个性化的电影推荐服务，通过机器学习算法理解用户的观影偏好，并据此进行智能推荐。技术分析FreeMovie的核心架构包括以下关键组件：数据处理-项目采用Hadoop进行大数据预处
用 Docker 搭建 Spark 集群 yeasy Bigdata Docker spark Docker 云计算集群分布式计算
简介Spark是Berkeley开发的分布式计算的框架，相对于Hadoop来说，Spark可以缓存中间结果到内存而提高某些需要迭代的计算场景的效率，目前收到广泛关注。熟悉Hadoop的同学也不必担心，Spark很多设计理念和用法都跟Hadoop保持一致和相似，并且在使用上完全兼容HDFS。但是Spark的安装并不容易，依赖包括Java、Scala、HDFS等。通过使用Docker，可以快速的在本地
不同hive集群中基于表的数据一致性比对 AA赵师傅 hadoop数据管理 hive 数据验证数据迁移 hadoop
前阵子博主遇到一个需求，因对hadoop集群进行数据迁移，数据迁移完毕后进行两个hive库的数据一致性的比对，不仅对源表数据进行比对，而且要同时使用两个集群加工相同数据，对加工后的数据进行数据一致性比对。博主已知的数据迁移方法有两种，第一种就是hadoopdistcp功能来进行集群间数据的复制，那么基本就不用做源表的数据验证了，集群间数据复制失败会报错提示。第二种方法就是数据的导入导出了，把原集群
Hadoop、Hive、Hbase集群间的数据迁移这个操蛋的人生！！！
一、hadoop集群间拷贝数据：迁移之前需要把两个集群的所有节点都互通/etc/hosts文件（重要，包括各个数据节点）两个集群版本不相同hadoopdistcphftp://192.168.57.73:50070/hive3/20171008/hive3/如果两个集群的版本相同，则可以使用hdfs协议，命令如下：hadoopdistcphdfs://namenodeip:9000/foohdfs
Hive面试题汇总大数据侠客 hive相关问题汇总及解决 hive hadoop 数据仓库面试
Hive定义Hive是建立在Hadoop上的数据仓库基础构架。可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，