see you in September

2020.0521大数据笔记zookeeper

更改服务器的名字

vi /etc/sysconfig/network

vi /etc/hosts

vi /etc/hostname

三连

Zookeeper

1.概述
Zookeeper是一个开源的分布式协调服务框架，主要用来解决分布式集群中应用系统的一致性问题和数据管理问题

2.Zookeeper的特点

Zookeeper本质上是一个分布式文件系统，适合存放小文件，也可以理解为一个数据库

Zookeeper中存储的其实是一个又一个Znode,Znode是Zookeeper中的节点

Znode是有路径的，例如 /data/host1, /data/host2,这个路径也可以理解为是Znode的Name

Znode也可以携带数据，例如说某个Znode的路径是 /data/host1,其值是一个字符串 "192.168.0.1"

正因为Znode的特性，所以Zookeeper可以对外提供出一个类似于文件系统的试图，可以通过操作文件系统的方式操作Zookeeper

使用路径获取Znode
获取Znode携带的数据
修改Znode携带的数据
删除Znode
添加Znode

3.Zookeeper的应用场景
3.1 数据发布/订阅
数据发布/订阅系统 ,需要发布者将数据发布到Zookeeper的节点上，供订阅者进行数据订阅，进而达到动态获取数据的目的，实现配置信息的集中式管理和数据的动态更新。
发布/订阅一般有两种设计模式:推模式和拉模式，服务端主动将数据更新发送给所有订阅的客户端称为推模式;客户端主动请求获取最新数据称为拉模式.
Zookeeper采用了推拉相结合的模式，客户端向服务端注册自己需要关注的节点，一旦该节点数据发生变更，那么服务端就会向相应的客户端推送Watcher事件通知，客户端接收到此通知后，主动到服务端获取最新的数据。

3.2命名服务
命名服务是分步实现系统中较为常见的一类场景，分布式系统中，被命名的实体通常可以是集群中的机器、提供的服务地址或远程对象等，通过命名服务，客户端可以根据指定名字来获取资源的实体，在分布式环境中，上层应用仅仅需要一个全局唯一的名字。Zookeeper 可以实现一套分布式全局唯一ID的分配机制。
通过调用Zookeeper节点创建的API接口就可以创建一个顺序节点，并且在API返回值中会返回这个节点的完整名字，利用此特性，可以生成全局ID，其步骤如下
1. 客户端根据任务类型，在指定类型的任务下通过调用接口创建一个顺序节点，如"job- "。
2. 创建完成后，会返回一个完整的节点名，如"job-00000001"。
3. 客户端拼接type类型和返回值后，就可以作为全局唯一ID了，如"type2-job-00000001"。

3.3
分布式协调/通知
Zookeeper中特有的Watcher注册于异步通知机制，能够很好地实现分布式环境下不同机器，甚至不同系统之间的协调与通知，从而实现对数据变更的实时处理。通常的做法是不同的客户端都对Zookeeper上的同一个数据节点进行Watcher注册，监听数据节点的变化(包括节点本身和子节点)，若数据节点发生变化，那么所有订阅的客户端都能够接收到相应的 Watcher通知，并作出相应处理。
在绝大多数分布式系统中，系统机器间的通信无外乎心跳检测、工作进度汇报和系统调度。
1 心跳检测，不同机器间需要检测到彼此是否在正常运行，可以使用Zookeeper实现机器间的心跳检测，基于其临时节点特性(临时节点的生存周期是客户端会话，客户端若当即后，其临时节点自然不再存在)，可以让不同机器都在Zookeeper的一个指定节点下创建临时子节点，不同的机器之间可以根据这个临时子节点来判断对应的客户端机器是否存活。通过 Zookeeper可以大大减少系统耦合。

2 工作进度汇报，通常任务被分发到不同机器后，需要实时地将自己的任务执行进度汇报给分发系统，可以在Zookeeper上选择一个节点，每个任务客户端都在这个节点下面创建临时子节点，这样不仅可以判断机器是否存活，同时各个机器可以将自己的任务执行进度写到该临时节点中去，以便中心系统能够实时获取任务的执行进度。

3 系统调度，Zookeeper能够实现如下系统调度模式:分布式系统由控制台和一些客户端系统两部分构成，控制台的职责就是需要将一些指令信息发送给所有的客户端，以控制他们进行相应的业务逻辑，后台管理人员在控制台上做一些操作，实际上就是修改Zookeeper上某些节点的数据，Zookeeper可以把数据变更以时间通知的形式发送给订阅客户端。

3.4分布式锁

分布式锁用于控制分布式系统之间同步访问共享资源的一种方式，可以保证不同系统访
问一个或一组资源时的一致性，主要分为排它锁和共享锁。

排它锁又称为写锁或独占锁，若事务T1对数据对象O1加上了排它锁，那么在整个加锁期间，只允许事务T1对O1进行读取和更新操作，其他任何事务都不能再对这个数据对象进行任何类型的操作，直到T1释放了排它锁。

1 获取锁，在需要获取排它锁时，所有客户端通过调用接口，在/exclusive_lock节点下创建临时子节点/exclusive_lock/lock。Zookeeper可以保证只有一个客户端能够创建成功，没有成功的客户端需要注册/exclusive_lock节点监听。

2 释放锁，当获取锁的客户端宕机或者正常完成业务逻辑都会导致临时节点的删除，此时，所有在/exclusive_lock节点上注册监听的客户端都会收到通知，可以重新发起分布式锁获取。

共享锁又称为读锁，若事务T1对数据对象O1加上共享锁，那么当前事务只能对O1进行读取操作，其他事务也只能对这个数据对象加共享锁，直到该数据对象上的所有共享锁都被释放。在需要获取共享锁时，所有客户端都会到/shared_lock下面创建一个临时顺序节点

3.5 分布式队列
有一些时候，多个团队需要共同完成一个任务，比如，A团队将Hadoop集群计算的结果交给B团队继续计算，B完成了自己任务再交给C团队继续做。这就有点像业务系统的工作流一样，一环一环地传下去.

分布式环境下，我们同样需要一个类似单进程队列的组件，用来实现跨进程、跨主机、跨网络的数据共享和数据传递，这就是我们的分布式队列。

4.Zookeeper的架构

Zookeeper集群是一个基于主从架构的高可用集群

每个服务器承担如下三种角色中的一种
Leader 一个Zookeeper集群同一时间只会有一个实际工作的Leader，它会发起并维护与各 Follwer及Observer间的心跳。所有的写操作必须要通过Leader完成再由Leader将写操作广播给其它服务器。
Follower 一个Zookeeper集群可能同时存在多个Follower，它会响应Leader的心跳。 Follower可直接处理并返回客户端的读请求，同时会将写请求转发给Leader处理，并且负责在Leader处理写请求时对请求进行投票。
Observer 角色与Follower类似，但是无投票权。

Leader : 1.leader 是集群工作的核心集群内部各个服务器的调度者
2. leader 负责进行投票选举
3.处理事务性（写操作）请求
4.参与集群投票

学习者learner 跟随者(Follower）1:Follower 用于接收客户端请求，并向客户端返回结果
                           2:处理客户端非事务(读操作)请求
                           3:转发事务请求给Leader
                           4:参与集群投票

           观察者(Observer)1:Observer用于接收客户端请求，并向客户端返回结果
                           2:处理客户端非事务（读操作）请求
                           3:转发事务请求给Leader
                           4.不参与集群投票

客户端（Client）请求发起方

5.Zookeeper的选举机制
Leader选举是保证分布式数据一致性的关键所在。当Zookeeper集群中的一台服务器出现以下两种情况之一时，需要进入Leader选举

5.1服务器启动时期的Leader选举
若进行Leader选举，则至少需要两台机器，这里选取3台机器组成的服务器集群为例。在集群初始化阶段，当有一台服务器Server1启动时，其单独无法进行和完成Leader选举，当第二台服务器Server2启动时，此时两台机器可以相互通信，每台机器都试图找到Leader，于是进入Leader选举过程。选举过程如下

(1) 每个Server发出一个投票。由于是初始情况，Server1和Server2都会将自己作为 Leader服务器来进行投票，每次投票会包含所推举的服务器的myid和ZXID，使用(myid, ZXID) 来表示，此时Server1的投票为(1, 0)，Server2的投票为(2, 0)，然后各自将这个投票发给集群中其他机器。

(2) 接受来自各个服务器的投票。集群的每个服务器收到投票后，首先判断该投票的有效性，如检查是否是本轮投票、是否来自LOOKING状态的服务器。
(3) 处理投票。针对每一个投票，服务器都需要将别人的投票和自己的投票进行PK，PK 规则如下
· 优先检查ZXID。ZXID比较大的服务器优先作为Leader。
· 如果ZXID相同，那么就比较myid。myid较大的服务器作为Leader服务器。
对于Server1而言，它的投票是(1, 0)，接收Server2的投票为(2, 0)，首先会比较两者的 ZXID，均为0，再比较myid，此时Server2的myid最大，于是更新自己的投票为(2, 0)，然后重新投票，对于Server2而言，其无须更新自己的投票，只是再次向集群中所有机器发出上一次投票信息即可。

(4) 统计投票。每次投票后，服务器都会统计投票信息，判断是否已经有过半机器接受到相同的投票信息，对于Server1、Server2而言，都统计出集群中已经有两台机器接受了(2, 0)的投票信息，此时便认为已经选出了Leader。

(5) 改变服务器状态。一旦确定了Leader，每个服务器就会更新自己的状态，如果是 Follower，那么就变更为FOLLOWING，如果是Leader，就变更为LEADING。

5.2.服务器运行时期的Leader选举
在Zookeeper运行期间，Leader与非Leader服务器各司其职，即便当有非Leader服务器宕机或新加入，此时也不会影响Leader，但是一旦Leader服务器挂了，那么整个集群将暂停对外服务，进入新一轮Leader选举，其过程和启动时期的Leader选举过程基本一致过程相同。

Znode 的特点
文件系统的核心是 Znode
如果想要选取一个 Znode , 需要使用路径的形式, 例如 /test1/test11
Znode 本身并不是文件, 也不是文件夹, Znode 因为具有一个类似于 Name 的路径, 所以可以从逻辑上实现一个树状文件系统
ZK 保证 Znode 访问的原子性, 不会出现部分 ZK 节点更新成功, 部分 ZK 节点更新失败的问题
Znode 中数据是有大小限制的, 最大只能为 1M Znode 是由三个部分构成
stat : 状态, Znode的权限信息, 版本等
data : 数据, 每个Znode都是可以携带数据的, 无论是否有子节点 children : 子节点列表
Znode 的类型
每个 Znode 有两大特性, 可以构成四种不同类型的 Znode 持久性
持久客户端断开时,不会删除持有的Znode
临时客户端断开时,删除所有持有的Znode,临时Znode不允许有子Znode
顺序性
有序创建的Znode有先后顺序,顺序就是在后面追加一个序列号,序列号是由父节点管理的自增
无序创建的Znode没有先后顺序

Znode 的属性
dataVersion 数据版本, 每次当 Znode 中的数据发生变化的时候, dataVersion 都会自增一下
cversion 节点版本, 每次当 Znode 的节点发生变化的时候, cversion 都会自增
aclVersion ACL(Access Control List) 的版本号, 当 Znode 的权限信息发生变化的时候aclVersion会自增
zxid 事务ID
ctime 创建时间
mtime 最近一次更新的时间
ephemeralOwner 如果 Znode 为临时节点, ephemeralOwner 表示与该节点关联
的 SessionId 通知机制
通知类似于数据库中的触发器, 对某个Znode设置 Watcher , 当Znode发生变化的时候, WatchManager 会调用对应的 Watcher
当Znode发生删除, 修改, 创建, 子节点修改的时候, 对应的 Watcher 会得到通知 Watcher 的特点
一次性触发一个 Watcher 只会被触发一次,如果需要继续监听,则需要再次添加 Watcher
事件封装: Watcher 得到的事件是被封装过的,包括三个内容 keeperState, eventType, path

会话
在ZK中所有的客户端和服务器的交互都是在某一个 Session 中的, 客户端和服务器创建一个连接的时候同时也会创建一个 Session
Session 会在不同的状态之间进行切换: CONNECTING , CONNECTED , RECONNECTING ,
RECONNECTED , CLOSED
ZK中的会话两端也需要进行心跳检测, 服务端会检测如果超过超时时间没收到客户端的心跳, 则会关闭连接, 释放资源, 关闭会话

【大数据之路11】多范式编程语言 Scala 程序员老五大数据 scala 开发语言
多范式编程语言Scala1.Scala概述1.Scala介绍2.学习Scala的必要性1.基于编程语⾔⾃身2.基于活跃度2.Scala基础语法1.HelloScala2.变量定义1.变量与常量2.Scala自动类型识别3.lazy懒加载3.数据类型1.相关概述1.Scala数据类型列表2.测试代码3.Scala数据类型结构图2.Scala基本类型操作3.编码规范4.流程控制1.if2.块表达式3.
我的大数据之路 - 基于HANA构建实时方案的历程小南家的青蛙经验总结大数据数据仓库
产品内部前期有一个共识，依据业务要求的时效性来选择技术平台，即：实时类业务，时效性小于2小时，则使用HANA构建。离线类业务，时效性大于2小时，则使用大数据平台构建。经过五月、六月两月的努力，离线类的业务已基本完成开发和验证完毕，后面待在生产环境对数完毕后，即可启动切换。因此实时类业务的方案分析和梳理，成为当下最重要、最紧急的事情。考虑到项目当前的痛点：直接从I层构建业务，没有复用主题层的模型和资
大数据之路—数据架构体系及模型设计长不大的大灰狼大数据大数据架构
大数据之路—数据架构体系及模型设计一、阿里巴巴数据整合及管理体系二、维度设计1、基本概念2、规范化和反规范化3、维度整合4、维度拆分5、维度变化6、特殊维度三、事实表设计1、事实表特性2、事实表类型3、事实表设计原则4、事务事实表5、周期快照事实表的注意事项6、累计快照事实表的物理实现7、三种事实表的比较8、聚集型事实表一、阿里巴巴数据整合及管理体系实施工作流：1、划分数据域：根据业务过程抽象出数
2. 《大数据之路：阿里巴巴大数据实践》学习笔记，持续更新ing helloooi #业务理解模型建设大数据学习笔记
笔记链接(飞书)：https://t0s016els2a.feishu.cn/docx/JrNydGljUonH1ExcGCpcoC8unTb密码：r6@61391该书籍部分目录如下：文章目录第1篇数据技术篇第2章日志采集2.1浏览器的页面日志采集2.1.1页面浏览日志采集流程2.1.2页面交互日志采集2.1.3页面日志的服务端清洗和预处理2.2无线客户端的日志采集2.2.1页面事件2.2.2控件
大数据之路-日志采集（第二章）小白15138 大数据
文章目录2.1浏览器的页面日志采集2.1.1页面浏览日志采集流程2.1.2页面交互日志采集流程2.1.3页面日志的服务器端清洗和预处理2.2无线客户端的日志采集2.2.1页面事件2.2.2控件点击及其他事件2.2.3特殊场景2.2.4H5&Native日志统一2.2.5设备标识2.2.6日志传输2.3日志采集的挑战2.3.1典型场景1.日志分流与定制处理2.3.2大促保障阿里巴巴的日志采集体系方案
大数据之路——数据同步（第三章）小白15138 大数据
文章目录3.1数据同步基础3.1.1直连同步3.1.2数据文件同步3.1.3数据库日志解析同步如第一章所述，我们将数据采集分为日志采集和数据库数据同步两部分。数据同步技术更通用的含义是不同系统间的数据流转，有多种不同的应用场景。主数据库与备份数据库之间的数据备份，以及主系统与子系统之间的数据更新，属于同类型不同集群数据库之间的数据同步。另外，还有不同地域、不同数据库类型之间的数据传输交换，比如
李浩然：从大数据能力提升项目出发，探索化工大数据之路 | 提升之路系列（一）... 数据派THU 大数据
导读为了发挥清华大学多学科优势，搭建跨学科交叉融合平台，创新跨学科交叉培养模式，培养具有大数据思维和应用创新的“π”型人才，由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块，形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式，显著提升了学生大数据分析能力和创新
数据仓库理论进阶 - 01 《阿里大数据之路》第二篇数据模型篇 :Concerto 数据仓库 big data 数据库
第8章大数据领域建模综述此文章为学习笔记，有兴趣的小伙伴可以根据以下指引获取更多，学习内容链接如下：视频：【一起啃书】阿里大数据之路数据仓库建模基础理论研读(已完结)_哔哩哔哩_bilibili书籍：《阿里大数据之路》8.1为什么需要数据建模建模目标：有序、有结构地分类组织和存储存储在hdfs等文件系统数据模型含义：就是数据组织和存储的方式，它强调从业务、数据存取和使用角度合理存储数据此处举例：表
我的大数据之路：2023年度总结话数Science 大数据面试大数据面试 spark
2023年度最值得骄傲的事从0到1搭建了离线数仓体系，针对Hadoop生态组件的原理和特性有了深入的理解。同时对“数据治理”有了一定的实践经验：存储治理：HDFS基于纠删码的存储空间占用上优于多副本存储；冷数据使用对象存储可以大幅降低成本。计算治理：基于RoaringBitmap的去重统计方案适合高性能的产品功能使用，但针对运营产品人员进行内部分析使用则不够友好，内部的多维分析可以考虑标签化的解法
也谈数据治理晓阳的数据小站
也谈数据治理|0x00数据治理是什么数据治理，在不同行业的概念，可能不同。比如在国家标准化管理委员会发布《信息技术服务治理第5部分：数据治理规范》，从非常宏观的角度来制定，侧重于拉通概念和达成共识，像一种“国家标准”；《华为数据之道》是从企业数字化的角度切入下去，侧重数据治理体系和方法论，属于一种“管理方案”；而阿里推出的《大数据之路》一书，则在数据技术层面给出了有价值的指导，算是具体的“实现方案
2019年05月记录本深海suke
【最近最想读的五本书】1阿里大数据之路2刺杀骑士团长3东方列车谋杀案4夜航西飞5洗澡【最近想看的电影】1海蒂与爷爷2调音师3东方快车谋杀案4切尔诺贝利5蹡蹡三人游
数据仓库理论宇宙中的Philip 数仓理论数据仓库大数据 hive
数仓理论知识点结构图本文初衷是为了学习归纳，若有错误，请指出。修改记录时间内容2020年9月13日第一次发布推荐书：《数据仓库工具书》（纯理论）、大数据之路-阿里巴巴大数据实践、一、数仓相关概念数据仓库：英文DataWareHouse，数据仓库是面向主题，为分析数据而设计的，是一个各种数据（包括历史数据和当前数据）的中心存储系统，主要服务于商业智能（也就是BI）和企业决策管理。商业智能：指用现代数
大数据之路-Hadoop-概述（2）胡萝卜土豆大数据 hadoop big data 云计算
Hadoop集群首先，区分下集群和分布式的概念。分布式结构就是将一个完整的系统，按照业务功能，拆分成一个个独立的子系统。比如我们在做一个项目时，团队中按角色可分为项目经理、产品经理、开发、测试等，不同角色做不同的事，互相之间也可能存在沟通和协作。集群，相对于单机而言，解决的都是同一个问题。以上一个例子来说，单机好比团队中只有一个测试，一个人做了所有的测试工作。因此扩招了2个测试人员，可以把这个3个
阿里巴巴大数据之路——数据技术篇 weixin_30730151 大数据数据库
一、整体架构从下至上依次分为数据采集层、数据计算层、数据服务层、数据应用层数据采集层：以DataX为代表的数据同步工具和同步中心数据计算层：以MaxComputer为代表的离线数据存储和计算平台数据服务层：以RDS为代表的数据库服务（接口或者视图形式的数据服务）数据应用层：包含流量分析平台等数据应用工具二、数据采集（离线数据同步）数据采集主要分为日志采集和数据库采集。日志采集暂略（参考书籍原文）。
阿里巴巴大数据之路 xiaokaiabcde 大数据大数据开发大数据学习阿里巴巴
阿里巴巴数据平台总共分为四个基本层级：数据采集层：数据采集包括日志采集和数据库数据同步两部分，其中日志采集包括：Aplus.JS是Web端日志采集技术方案；UserTrack是APP端日志采集技术方案。数据计算层：阿里巴巴的数据计算层包括两大体系：数据存储及计算云平台（离线计算平台MaxCompute和实时计算平台StreamCompute）和数据整合及管理体系（内部称之为“OneData”）。从
大数据之路-日志采集 ¤睿大数据之路大数据
数据采集作为大数据体系中的第一环节，对如何全面、高性能、规范完成海量数据的采集，并将其传输到大数据平台。1.浏览器的页面日志采集1.1页面浏览日志采集流程页面浏览日志是最基础的互联网日志，其中页面浏览量（PageView，PV）和访客数（UniqueVisitors，UV）是一切互联网数据分析得以展开的基础和前提。上图是一个典型的网页浏览过程，你认为从哪一个结点开始采集日志最为合适？答案是④，首先
大数据之路系列之flink(12) 居高声自远,非是藉秋风大数据 spark flink 大数据 hadoop
大数据之路系列之flink——快速上手快速上手大数据之路系列之flink——快速上手一、flink是什么二、flink的应用场景三、数据处理架构第一代、事务处理oltp第二代.、分析处理olap第三代、有状态的流式处理第四代、分布式的有状态的流式处理第五代、lambda架构第六代、kappa四、flinksqlorflinkapi？五、flinkonyarn两种使用方式flinkonyarn第一种
阿里大数据之路笔记帝乙岩
第二章笔记数据模型篇第八章建模综述为什么需要数据建模:性能:快速查询所需要的数据,减少数据IO吞吐率成本:降低存储和计算成本效率:提高数据使用效率质量:改善数据统计口径的不一致性维度模型设计步骤:选择要分析决策的业务过程:单业务过程,例:交易的支付,退款;事件状态,例:当前账户余额;业务事件组成的业务流程选择粒度:细分的程度,粒度是维度的组合.识别维表:设计维表,维度属性选择事实:确定分析需要衡量
大数据之路读书笔记-16数据应用潘小磊大数据之路读书笔记大数据人工智能数据挖掘
大数据之路读书笔记-16数据应用全球知名咨询公司麦肯锡称：“数据，已经透到当今每一个行业和业务职能领域，成为重要的生产要素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。”本书在前面的章节中已经深人介绍了大数据建设与管理的方法论和实践，“生产要素”已经准备好，需要通过合适的方式提供给不同类型的用户，让数据最大化地发挥价值。阿里巴巴作为一家天然的大数据公司，对数据的应用
《大数据之路》读书笔记：建模综述橘猫吃不胖
《大数据之路-阿里巴巴大数据实践》，作者阿里巴巴数据技术及产品部，第八章“大数据领域建模综述”阿里的这本书之前又翻看过，很多实践是很棒的，也学习应用过一些规范，最近比较闲（失业在家），整理一下。最近搬家，有好多书，哎，有些书看完就处理掉吧，二手卖掉，要不搬家太痛苦了。这一章是概述，主要介绍了关于建模相关的一些基础知识点，下面就总结下，算是对知识的回顾了。为什么需要数据建模记得面试的时候，有被问到过
Java大数据之路--HDFS详解（3）--基本命令 Normcorer Hadoop
HDFS(分布式文件存储系统)--基本命令目录HDFS(分布式文件存储系统)--基本命令一、常见命令二、其他命令一、常见命令命令说明hadoopfs-mkdir/park在hdfs的根目录下，创建park目录hadoopfs-ls/查看hdfs根目录下有哪些目录hadoopfs-put/root/1.txt/park将linux操作系统root目录下的1.txt放在hdfs的park目录下hado
数仓规范随记 mizuhokaga 总结大数据
数仓分层以《大数据之路：阿里巴巴大数据实践》中五层(ods/dwd/dws/dim/ads)分类为基础划分,有序列表记录是分层大类,分层大类下的无需列表是分层小类或者说真正落地的:ods:近源层/贴源层/数据Stage层stgb:从业务系统同步过来的原始数据,不保留历史数据stgd:类似stgb,但利用「拉链表」保留历史数据dw:数仓dwd:数据明细层（DataWarehouseDetail）,将
《阿里大数据之路》读书笔记：第三章数据同步蓦然_ 数据仓库大数据数据仓库
第三章数据同步数据同步技术含义：不同系统间的数据流转，有多种不同的应用场景。应用场景：同类型不同集群数据库之间的数据同步主数据库与备份数据库之间的数据备份主系统与子系统之间的数据更新不同地域、不同数据库类型之间的数据传输交换大数据系统中的数据同步数据从业务系统同步进入数据仓库数据从数据仓库同步进入数据服务或数据应用一、数据同步基础源业务系统的数据类型：关系型数据库的结构化数据：MySQL、Orac
JAVA CV工程师学习大数据之路---linux基本环境配置咸鱼哥哥大数据 java学习大数据 hadoop linux java 环境安装上网
先提供一些基本的软件链接，方便大家使用VMware、ISO文件、XManager链接：https://pan.baidu.com/s/1uwOBag5QCsSFqt3c2dz56A提取码：w2he安装流程和创建虚拟机过程直接跳过，直接到配置网络步骤，这儿采用NAT方式进行配置1.主要是修改/etc/sysconfig/network-scripts/ifcfg-enoXXX文件，因为文件名不一定是
《大数据之路》阅读笔记--数据同步杜小瑞大数据大数据 big data
数据同步同步方式主要分为三种：直连同步、数据文件同步和数据库日志解析同步。直连同步直连同步是指直接使用ODBC/JDBC接口的方式直接连接数据库来拉取数据，这种方式对源系统的性能影响较大，不适合大数据量的情况。数据文件同步数据文件同步通过约定好的文件编码、大小、格式等，直接从源系统生成数据的文本文件，由专门的文件服务器，如FTP服务器传输到目标系统后，加载到目标数据库系统中。当源数据来自多个不同的
《大数据之路》阅读笔记--数据采集杜小瑞大数据数据仓库大数据 big data
数据采集浏览器页面日志采集浏览器页面采集主要包括页面浏览日志采集以及页面交互日志采集两部分。页面浏览日志主要包括：页面浏览量（PageView,PV）和访客数（UniqueVisitors,UV）。页面浏览日志采集流程基本思路是在html文档内适当位置增加一个日志采集节点，当浏览器解析到这个节点时，将自动触发一个特定的http请求到日志采集服务器。页面交互日志采集主要流程如下：1、业务方在元数据管
Kafka基础理论理解，欲走大数据之路必铺石阶，行走的kafka！2018-08-14 飞上天的猫神
大数据编程理解，实际上是件很困难的事，大数据需要掌握的技能太多了，get到的技能点也实际更多！kafka作为一个大数据的必备内容，可以作为大数据的基本标志，下面我们将介绍如何学习大数据简介#概念：消息中间件（消息系统）//消息系统分类：点对点消息队列（peer-to-peer）替换高清大图发布/订阅消息队列消费者在消费时，是通过pull主动从broker中拉取数据的#作用：缓存地带#消息系统适用场
《大数据之路》 DouMiaoO_Oo 大数据数据库人工智能
维度表事实表明细事实表事务事实表周期快照事实表累计快照事实表汇总事实表lyw个人感觉部分周期快照事实表也属于汇总事实表指标体系解析派生指标=一个原子指标+多个修饰词(可选)+时间周期派生指标唯一归属一个原子指标，继承原子指标的数据域，与修饰词的数据域无关例如：原子指标:支付金额派生指标:最近1天海外买家支付金额则"最近1天"为时间周期"海外"为修饰词"买家"作为维度而不作为修饰词买家在表中通过ui
《大数据之路》 DouMiaoO_Oo 大数据数据库人工智能
维度表事实表明细事实表事务事实表周期快照事实表累计快照事实表汇总事实表lyw个人感觉部分周期快照事实表也属于汇总事实表指标体系解析派生指标=一个原子指标+多个修饰词(可选)+时间周期派生指标唯一归属一个原子指标，继承原子指标的数据域，与修饰词的数据域无关例如：原子指标:支付金额派生指标:最近1天海外买家支付金额则"最近1天"为时间周期"海外"为修饰词"买家"作为维度而不作为修饰词买家在表中通过ui
《阿里大数据之路》研读笔记（3）事实表后季暖笔记
不理解可以先看看这个例子例子里的start_time可以看成下单时间end看成确认收货时间这个例子中累计快照事实表和拉链表类似图解HIVE累积型快照事实表_累积快照事实表_小基基o_O的博客-CSDN博客累计快照事实表我的理解是根据上面的例子就是一行代表多个业务过程每个关键的业务过程都有对应的时间字段（这样方便计算一些需求）它跟多事务事实表的区别在于累计快照事实表只有一行是记录这个子订单的所以有新
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

2020.0521大数据笔记zookeeper

你可能感兴趣的:(大数据之路)