see you in September

20200710大数据学习笔记hadoop总结

Hadoop

Hadoop的优势(4高)
1)高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失

2)高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。

3)高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度

4)高容错性:能够自动将失败的任务重新分配

1.x 跟2.x区别 1.x中MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大，2.x的时候增加了Yarn，Yarn只负责资源的调度，MapReduce只负责运算。

MapReduce (计算)

Yarn(资源调度)

HDFS(数据存储)

1）NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。

2）DataNode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和。

3）Secondary NameNode(2nn)：用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照.

元数据（Metadata），为描述数据的数据（data about data），主要是描述数据属性（property）的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录，为了达到编制目录的目的，必须在描述并收藏数据的内容或特色，进而达成协助数据检索的目的。

第一次启动需要删除tmp目录以及格式化datnode的原因 || 为什么不能一直格式化NameNode，格式化NameNode，要注意什么？:
1)第二次启动时，原来的datanode数据并没有删除掉，它在与新namenode通信时连接不上。导致集群不能正常启动。
2）解决办法：在格式化之前，删除datanode里面的信息（默认在/tmp，如果配置了该目录，那就去你配置的目录下删除数据）

HDFS读写流程: 1.namenode请求上传文件。 2.响应可以上传文件. 3.请求上传第一个block(0-128M),请返回datanode.
4返回dn1，dn2，dn3节点，表示采用这三个节点存储数据. 5. 请求建立block传输通道 6 dn1应答成功 dn2应答成功
dn3应答成功 7 传输数据 packet 8 传输数据完成

机架问题 || 网络拓扑概念:
同一节点上的进程同一数据中心不同机架上的节点同一机架上的不同节点不同数据中心的节点

HDFS的读数据流程:
1.请求下载文件
2.返回目标文件的元数据
3.请求读数据blk_1
4.传输数据
5.请求读数据blk_2
6.传输数据

HDFS
1.1 HDFS产生背景
随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。

1.2HDFS定义
HDFS(hadoop distributed file system),它是一个文件系统，用于存储文件，通过目录树来定位文件，其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

HDFS的使用场景，适合一次写入，多次读出的场景，且不支持文件的修改，适合用来做数据分析，并不适合用来做网盘应用。

HDFS优缺点
1.21
1）高容错性
(1) 数据自动保存多个副本，它通过增加副本的形式，提供容错性
(2) 某一个副本丢失以后，它可以自动恢复

2)适合处理大数据
(1)数据规模：能够处理数据规模达到GB、TB、甚至PB级别的数据；
(2)文件规模：能够处理百万规模以上的文件数量，数量相当之大
3）可构建在廉价机器上，通过多副本机制，提供可靠性

1.2.2缺点
1)不适合低延时数据访问，比如毫秒级的存储数据，是做不到的
2）无法高效的对大量小文件进行存储
(1)存储大量小文件的话，它会占用NameNode大量的内存来存储文件目录和块信息。这样是不可取的，因为NameNode的内存总是有限的
(2)小文件存储的寻址时间会超越读取时间，它违反了HDFS的设计目标。
3）不支持并发写入，文件随机修改
(1) 一个文件只能有一个些，不允许多个线程同时写：
(2) 仅支持数据append(追加)，不支持文件的随机修改

为什么块的大小不能设置太小，也不能设置太大？
(1)HDFS的块设置太小，会增加寻址时间，程序一直在找块的开始位置；
(2)HDFS的块比磁盘的块大，其目的是为了最小化寻址开销；
(3)如果块设置的太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时，会非常慢。

总结：HDFS块的大小设置主要取决于磁盘传输速率

剖析文件写入
1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。
2）NameNode返回是否可以上传。
3）客户端请求第一个 Block上传到哪几个DataNode服务器上。
4）NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。
5）客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。
6）dn1、dn2、dn3逐级应答客户端。
7）客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。
8）当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）。

4.1.2 网络拓扑-节点距离计算
在HDFS写数据的过程中，NameNode会选择距离待上传数据最近距离的DataNode接收数据。那么这个最近距离怎么计算呢？
节点距离：两个节点到达最近的共同祖先的距离总和。

例如，假设有数据中心d1机架r1中的节点n1。该节点可以表示为/d1/r1/n1。利用这种标记，这里给出四种距离描述，如图3-9所示。
大家算一算每两个节点之间的距离，如图3-10所示。

机架感知副本节点选择

第一个副本在Client所处的节点上。如果客户端在集群外，随机选一个。

第二个副本和第一个副本位于相同机架，随机节点。

第三个副本位于不同机架，随机节点。

4.2 HDFS读数据流程
1）客户端通过Distributed FileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。
2）挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据。
3）DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校验）。
4）客户端以Packet为单位接收，先在本地缓存，然后写入目标文件。

第5章 NameNode和SecondaryNameNode（面试开发重点）
5.1 NN和2NN工作机制

1. 第一阶段：NameNode启动
（1）第一次启动NameNode格式化后，创建Fsimage和Edits文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。
（2）客户端对元数据进行增删改的请求。
（3）NameNode记录操作日志，更新滚动日志。
（4）NameNode在内存中对数据进行增删改。
2. 第二阶段：Secondary NameNode工作
   （1）Secondary NameNode询问NameNode是否需要CheckPoint。直接带回NameNode是否检查结果。
   （2）Secondary NameNode请求执行CheckPoint。
   （3）NameNode滚动正在写的Edits日志。
   （4）将滚动前的编辑日志和镜像文件拷贝到Secondary NameNode。
   （5）Secondary NameNode加载编辑日志和镜像文件到内存，并合并。
   （6）生成新的镜像文件fsimage.chkpoint。
   （7）拷贝fsimage.chkpoint到NameNode。
   （8）NameNode将fsimage.chkpoint重新命名成fsimage。

NN和2NN工作机制详解：
Fsimage：NameNode内存中元数据序列化后形成的文件。
Edits：记录客户端更新元数据信息的每一步操作（可通过Edits运算出元数据）。
NameNode启动时，先滚动Edits并生成一个空的edits.inprogress，然后加载Edits和Fsimage到内存中，此时NameNode内存就持有最新的元数据信息。Client开始对NameNode发送元数据的增删改的请求，这些请求的操作首先会被记录到edits.inprogress中（查询元数据的操作不会被记录在Edits中，因为查询操作不会更改元数据信息），如果此时NameNode挂掉，重启后会从Edits中读取元数据的信息。然后，NameNode会在内存中执行元数据的增删改的操作。
由于Edits中记录的操作会越来越多，Edits文件会越来越大，导致NameNode在启动加载Edits时会很慢，所以需要对Edits和Fsimage进行合并（所谓合并，就是将Edits和Fsimage加载到内存中，照着Edits中的操作一步步执行，最终形成新的Fsimage）。SecondaryNameNode的作用就是帮助NameNode进行Edits和Fsimage的合并工作。
SecondaryNameNode首先会询问NameNode是否需要CheckPoint（触发CheckPoint需要满足两个条件中的任意一个，定时时间到和Edits中数据写满了）。直接带回NameNode是否检查结果。SecondaryNameNode执行CheckPoint操作，首先会让NameNode滚动Edits并生成一个空的edits.inprogress，滚动Edits的目的是给Edits打个标记，以后所有新的操作都写入edits.inprogress，其他未合并的Edits和Fsimage会拷贝到SecondaryNameNode的本地，然后将拷贝的Edits和Fsimage加载到内存中进行合并，生成fsimage.chkpoint，然后将fsimage.chkpoint拷贝给NameNode，重命名为Fsimage后替换掉原来的Fsimage。NameNode在启动时就只需要加载之前未合并的Edits和Fsimage即可，因为合并过的Edits中的元数据信息已经被记录在Fsimage中。

Fsimage和Edits概念

(1)Fsimage文件：HDFS文件系统元数据的一个永久性的检查点，其中包含HDFS文件系统的所有目录和文件idnode的序列化信息

(2)Edits文件:存放HDFS文件系统的所有更新操作的路径，文件系统客户端执行的所有写操作首先会被记录到Edits文件中。

(3)seen_txid文件保存的是一个数字，就是最后一个edits_的数字

(4)每次NameNode启动的时候都会将Fsimage文件读入内存，加载Edits里面的更新操作，保证内存中的元数据信息是最新的、同步的，可以看成NameNode启动的时候就将Fsimage和Edits文件进行了合并。

NameNode故障处理
NameNode故障后，可以采用如下两种方法恢复数据。
方法一：将SecondaryNameNode中数据拷贝到NameNode存储数据的目录；
1. kill -9 NameNode进程
2. 删除NameNode存储的数据（/opt/module/hadoop-2.7.2/data/tmp/dfs/name）
[atguigu@hadoop102 hadoop-2.7.2]$ rm -rf /opt/module/hadoop-2.7.2/data/tmp/dfs/name/*
3. 拷贝SecondaryNameNode中数据到原NameNode存储数据目录
[atguigu@hadoop102 dfs]$ scp -r atguigu@hadoop104:/opt/module/hadoop-2.7.2/data/tmp/dfs/namesecondary/* ./name/
4. 重新启动NameNode
[atguigu@hadoop102 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start namenode

方法二：使用-importCheckpoint选项启动NameNode守护进程，从而将SecondaryNameNode中数据拷贝到NameNode目录中。
1. 修改hdfs-site.xml中的

dfs.namenode.checkpoint.period
120

dfs.namenode.name.dir
/opt/module/hadoop-2.7.2/data/tmp/dfs/name

2. kill -9 NameNode进程
3. 删除NameNode存储的数据（/opt/module/hadoop-2.7.2/data/tmp/dfs/name）
[atguigu@hadoop102 hadoop-2.7.2]$ rm -rf /opt/module/hadoop-2.7.2/data/tmp/dfs/name/*
4. 如果SecondaryNameNode不和NameNode在一个主机节点上，需要将SecondaryNameNode存储数据的目录拷贝到NameNode存储数据的平级目录，并删除in_use.lock文件
[atguigu@hadoop102 dfs]$ scp -r atguigu@hadoop104:/opt/module/hadoop-2.7.2/data/tmp/dfs/namesecondary ./

[atguigu@hadoop102 namesecondary]$ rm -rf in_use.lock

[atguigu@hadoop102 dfs]$ pwd
/opt/module/hadoop-2.7.2/data/tmp/dfs

[atguigu@hadoop102 dfs]$ ls
data name namesecondary
5. 导入检查点数据（等待一会ctrl+c结束掉）
[atguigu@hadoop102 hadoop-2.7.2]$ bin/hdfs namenode -importCheckpoint
6. 启动NameNode
[atguigu@hadoop102 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start namenode

5.5 集群安全模式

1.概述

1、NameNode启动

2.基本语法

集群处于安全模式，不能执行重要操作(写操作)。集群启动完成后，自动退出安全模式

（1）bin/hdfs dfsadmin -safemode get       （功能描述：查看安全模式状态）
（2）bin/hdfs dfsadmin -safemode enter     （功能描述：进入安全模式状态）
（3）bin/hdfs dfsadmin -safemode leave   （功能描述：离开安全模式状态）
（4）bin/hdfs dfsadmin -safemode wait   （功能描述：等待安全模式状态）

6.1 DataNode工作机制

1）一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。
2）DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。
3）心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用。
4）集群运行中可以安全加入和退出一些机器。
6.2 数据完整性
1）当DataNode读取Block的时候，它会计算CheckSum。
2）如果计算后的CheckSum，与Block创建时值不一样，说明Block已经损坏。
3）Client读取其他DataNode上的Block。
4）DataNode在其文件创建后周期验证CheckSum，

8.1 HA概述
1）所谓HA（High Available），即高可用（7*24小时不中断服务）。
2）实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制：HDFS的HA和YARN的HA。
3）Hadoop2.0之前，在HDFS集群中NameNode存在单点故障（SPOF）。
4）NameNode主要在以下两个方面影响HDFS集群
   NameNode机器发生意外，如宕机，集群将无法使用，直到管理员重启
   NameNode机器需要升级，包括软件、硬件升级，此时集群也将无法使用
HDFS HA功能通过配置Active/Standby两个NameNodes实现在集群中对NameNode的热备来解决上述问题。如果出现故障，如机器崩溃或机器需要升级维护，这时可通过此种方式将NameNode很快的切换到另外一台机器。
8.2 HDFS-HA工作机制
通过双NameNode消除单点故障
8.2.1 HDFS-HA工作要点
1.   元数据管理方式需要改变
内存中各自保存一份元数据；
Edits日志只有Active状态的NameNode节点可以做写操作；
两个NameNode都可以读取Edits；
共享的Edits放在一个共享存储中管理（qjournal和NFS两个主流实现）；
2.   需要一个状态管理功能模块
实现了一个zkfailover，常驻在每一个namenode所在的节点，每一个zkfailover负责监控自己所在NameNode节点，利用zk进行状态标识，当需要进行状态切换时，由zkfailover来负责切换，切换时需要防止brain split现象的发生。
3.   必须保证两个NameNode之间能够ssh无密码登录
4.   隔离（Fence），即同一时刻仅仅有一个NameNode对外提供服务
8.2.2 HDFS-HA自动故障转移工作机制
前面学习了使用命令hdfs haadmin -failover手动进行故障转移，在该模式下，即使现役NameNode已经失效，系统也不会自动从现役NameNode转移到待机NameNode，下面学习如何配置部署HA自动进行故障转移。自动故障转移为HDFS部署增加了两个新组件：ZooKeeper和ZKFailoverController（ZKFC）进程，如图3-20所示。ZooKeeper是维护少量协调数据，通知客户端这些数据的改变和监视客户端故障的高可用服务。HA的自动故障转移依赖于ZooKeeper的以下功能：
1）故障检测：集群中的每个NameNode在ZooKeeper中维护了一个持久会话，如果机器崩溃，ZooKeeper中的会话将终止，ZooKeeper通知另一个NameNode需要触发故障转移。
2）现役NameNode选择：ZooKeeper提供了一个简单的机制用于唯一的选择一个节点为active状态。如果目前现役NameNode崩溃，另一个节点可能从ZooKeeper获得特殊的排外锁以表明它应该成为现役NameNode。
ZKFC是自动故障转移中的另一个新组件，是ZooKeeper的客户端，也监视和管理NameNode的状态。每个运行NameNode的主机也运行了一个ZKFC进程，ZKFC负责：
1）健康监测：ZKFC使用一个健康检查命令定期地ping与之在相同主机的NameNode，只要该NameNode及时地回复健康状态，ZKFC认为该节点是健康的。如果该节点崩溃，冻结或进入不健康状态，健康监测器标识该节点为非健康的。
2）ZooKeeper会话管理：当本地NameNode是健康的，ZKFC保持一个在ZooKeeper中打开的会话。如果本地NameNode处于active状态，ZKFC也保持一个特殊的znode锁，该锁使用了ZooKeeper对短暂节点的支持，如果会话终止，锁节点将自动删除。
3）基于ZooKeeper的选择：如果本地NameNode是健康的，且ZKFC发现没有其它的节点当前持有znode锁，它将为自己获取该锁。如果成功，则它已经赢得了选择，并负责运行故障转移进程以使它的本地NameNode为Active。故障转移进程与前面描述的手动故障转移相似，首先如果必要保护之前的现役NameNode，然后本地NameNode转换为Active状态。

我的大数据之路 - 基于HANA构建实时方案的历程小南家的青蛙经验总结大数据数据仓库
产品内部前期有一个共识，依据业务要求的时效性来选择技术平台，即：实时类业务，时效性小于2小时，则使用HANA构建。离线类业务，时效性大于2小时，则使用大数据平台构建。经过五月、六月两月的努力，离线类的业务已基本完成开发和验证完毕，后面待在生产环境对数完毕后，即可启动切换。因此实时类业务的方案分析和梳理，成为当下最重要、最紧急的事情。考虑到项目当前的痛点：直接从I层构建业务，没有复用主题层的模型和资
大数据之路—数据架构体系及模型设计长不大的大灰狼大数据大数据架构
大数据之路—数据架构体系及模型设计一、阿里巴巴数据整合及管理体系二、维度设计1、基本概念2、规范化和反规范化3、维度整合4、维度拆分5、维度变化6、特殊维度三、事实表设计1、事实表特性2、事实表类型3、事实表设计原则4、事务事实表5、周期快照事实表的注意事项6、累计快照事实表的物理实现7、三种事实表的比较8、聚集型事实表一、阿里巴巴数据整合及管理体系实施工作流：1、划分数据域：根据业务过程抽象出数
2. 《大数据之路：阿里巴巴大数据实践》学习笔记，持续更新ing helloooi #业务理解模型建设大数据学习笔记
笔记链接(飞书)：https://t0s016els2a.feishu.cn/docx/JrNydGljUonH1ExcGCpcoC8unTb密码：r6@61391该书籍部分目录如下：文章目录第1篇数据技术篇第2章日志采集2.1浏览器的页面日志采集2.1.1页面浏览日志采集流程2.1.2页面交互日志采集2.1.3页面日志的服务端清洗和预处理2.2无线客户端的日志采集2.2.1页面事件2.2.2控件
大数据之路-日志采集（第二章）小白15138 大数据
文章目录2.1浏览器的页面日志采集2.1.1页面浏览日志采集流程2.1.2页面交互日志采集流程2.1.3页面日志的服务器端清洗和预处理2.2无线客户端的日志采集2.2.1页面事件2.2.2控件点击及其他事件2.2.3特殊场景2.2.4H5&Native日志统一2.2.5设备标识2.2.6日志传输2.3日志采集的挑战2.3.1典型场景1.日志分流与定制处理2.3.2大促保障阿里巴巴的日志采集体系方案
大数据之路——数据同步（第三章）小白15138 大数据
文章目录3.1数据同步基础3.1.1直连同步3.1.2数据文件同步3.1.3数据库日志解析同步如第一章所述，我们将数据采集分为日志采集和数据库数据同步两部分。数据同步技术更通用的含义是不同系统间的数据流转，有多种不同的应用场景。主数据库与备份数据库之间的数据备份，以及主系统与子系统之间的数据更新，属于同类型不同集群数据库之间的数据同步。另外，还有不同地域、不同数据库类型之间的数据传输交换，比如
李浩然：从大数据能力提升项目出发，探索化工大数据之路 | 提升之路系列（一）... 数据派THU 大数据
导读为了发挥清华大学多学科优势，搭建跨学科交叉融合平台，创新跨学科交叉培养模式，培养具有大数据思维和应用创新的“π”型人才，由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块，形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式，显著提升了学生大数据分析能力和创新
数据仓库理论进阶 - 01 《阿里大数据之路》第二篇数据模型篇 :Concerto 数据仓库 big data 数据库
第8章大数据领域建模综述此文章为学习笔记，有兴趣的小伙伴可以根据以下指引获取更多，学习内容链接如下：视频：【一起啃书】阿里大数据之路数据仓库建模基础理论研读(已完结)_哔哩哔哩_bilibili书籍：《阿里大数据之路》8.1为什么需要数据建模建模目标：有序、有结构地分类组织和存储存储在hdfs等文件系统数据模型含义：就是数据组织和存储的方式，它强调从业务、数据存取和使用角度合理存储数据此处举例：表
我的大数据之路：2023年度总结话数Science 大数据面试大数据面试 spark
2023年度最值得骄傲的事从0到1搭建了离线数仓体系，针对Hadoop生态组件的原理和特性有了深入的理解。同时对“数据治理”有了一定的实践经验：存储治理：HDFS基于纠删码的存储空间占用上优于多副本存储；冷数据使用对象存储可以大幅降低成本。计算治理：基于RoaringBitmap的去重统计方案适合高性能的产品功能使用，但针对运营产品人员进行内部分析使用则不够友好，内部的多维分析可以考虑标签化的解法
也谈数据治理晓阳的数据小站
也谈数据治理|0x00数据治理是什么数据治理，在不同行业的概念，可能不同。比如在国家标准化管理委员会发布《信息技术服务治理第5部分：数据治理规范》，从非常宏观的角度来制定，侧重于拉通概念和达成共识，像一种“国家标准”；《华为数据之道》是从企业数字化的角度切入下去，侧重数据治理体系和方法论，属于一种“管理方案”；而阿里推出的《大数据之路》一书，则在数据技术层面给出了有价值的指导，算是具体的“实现方案
2019年05月记录本深海suke
【最近最想读的五本书】1阿里大数据之路2刺杀骑士团长3东方列车谋杀案4夜航西飞5洗澡【最近想看的电影】1海蒂与爷爷2调音师3东方快车谋杀案4切尔诺贝利5蹡蹡三人游
数据仓库理论宇宙中的Philip 数仓理论数据仓库大数据 hive
数仓理论知识点结构图本文初衷是为了学习归纳，若有错误，请指出。修改记录时间内容2020年9月13日第一次发布推荐书：《数据仓库工具书》（纯理论）、大数据之路-阿里巴巴大数据实践、一、数仓相关概念数据仓库：英文DataWareHouse，数据仓库是面向主题，为分析数据而设计的，是一个各种数据（包括历史数据和当前数据）的中心存储系统，主要服务于商业智能（也就是BI）和企业决策管理。商业智能：指用现代数
大数据之路-Hadoop-概述（2）胡萝卜土豆大数据 hadoop big data 云计算
Hadoop集群首先，区分下集群和分布式的概念。分布式结构就是将一个完整的系统，按照业务功能，拆分成一个个独立的子系统。比如我们在做一个项目时，团队中按角色可分为项目经理、产品经理、开发、测试等，不同角色做不同的事，互相之间也可能存在沟通和协作。集群，相对于单机而言，解决的都是同一个问题。以上一个例子来说，单机好比团队中只有一个测试，一个人做了所有的测试工作。因此扩招了2个测试人员，可以把这个3个
阿里巴巴大数据之路——数据技术篇 weixin_30730151 大数据数据库
一、整体架构从下至上依次分为数据采集层、数据计算层、数据服务层、数据应用层数据采集层：以DataX为代表的数据同步工具和同步中心数据计算层：以MaxComputer为代表的离线数据存储和计算平台数据服务层：以RDS为代表的数据库服务（接口或者视图形式的数据服务）数据应用层：包含流量分析平台等数据应用工具二、数据采集（离线数据同步）数据采集主要分为日志采集和数据库采集。日志采集暂略（参考书籍原文）。
阿里巴巴大数据之路 xiaokaiabcde 大数据大数据开发大数据学习阿里巴巴
阿里巴巴数据平台总共分为四个基本层级：数据采集层：数据采集包括日志采集和数据库数据同步两部分，其中日志采集包括：Aplus.JS是Web端日志采集技术方案；UserTrack是APP端日志采集技术方案。数据计算层：阿里巴巴的数据计算层包括两大体系：数据存储及计算云平台（离线计算平台MaxCompute和实时计算平台StreamCompute）和数据整合及管理体系（内部称之为“OneData”）。从
大数据之路-日志采集 ¤睿大数据之路大数据
数据采集作为大数据体系中的第一环节，对如何全面、高性能、规范完成海量数据的采集，并将其传输到大数据平台。1.浏览器的页面日志采集1.1页面浏览日志采集流程页面浏览日志是最基础的互联网日志，其中页面浏览量（PageView，PV）和访客数（UniqueVisitors，UV）是一切互联网数据分析得以展开的基础和前提。上图是一个典型的网页浏览过程，你认为从哪一个结点开始采集日志最为合适？答案是④，首先
大数据之路系列之flink(12) 居高声自远,非是藉秋风大数据 spark flink 大数据 hadoop
大数据之路系列之flink——快速上手快速上手大数据之路系列之flink——快速上手一、flink是什么二、flink的应用场景三、数据处理架构第一代、事务处理oltp第二代.、分析处理olap第三代、有状态的流式处理第四代、分布式的有状态的流式处理第五代、lambda架构第六代、kappa四、flinksqlorflinkapi？五、flinkonyarn两种使用方式flinkonyarn第一种
阿里大数据之路笔记帝乙岩
第二章笔记数据模型篇第八章建模综述为什么需要数据建模:性能:快速查询所需要的数据,减少数据IO吞吐率成本:降低存储和计算成本效率:提高数据使用效率质量:改善数据统计口径的不一致性维度模型设计步骤:选择要分析决策的业务过程:单业务过程,例:交易的支付,退款;事件状态,例:当前账户余额;业务事件组成的业务流程选择粒度:细分的程度,粒度是维度的组合.识别维表:设计维表,维度属性选择事实:确定分析需要衡量
大数据之路读书笔记-16数据应用潘小磊大数据之路读书笔记大数据人工智能数据挖掘
大数据之路读书笔记-16数据应用全球知名咨询公司麦肯锡称：“数据，已经透到当今每一个行业和业务职能领域，成为重要的生产要素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。”本书在前面的章节中已经深人介绍了大数据建设与管理的方法论和实践，“生产要素”已经准备好，需要通过合适的方式提供给不同类型的用户，让数据最大化地发挥价值。阿里巴巴作为一家天然的大数据公司，对数据的应用
《大数据之路》读书笔记：建模综述橘猫吃不胖
《大数据之路-阿里巴巴大数据实践》，作者阿里巴巴数据技术及产品部，第八章“大数据领域建模综述”阿里的这本书之前又翻看过，很多实践是很棒的，也学习应用过一些规范，最近比较闲（失业在家），整理一下。最近搬家，有好多书，哎，有些书看完就处理掉吧，二手卖掉，要不搬家太痛苦了。这一章是概述，主要介绍了关于建模相关的一些基础知识点，下面就总结下，算是对知识的回顾了。为什么需要数据建模记得面试的时候，有被问到过
Java大数据之路--HDFS详解（3）--基本命令 Normcorer Hadoop
HDFS(分布式文件存储系统)--基本命令目录HDFS(分布式文件存储系统)--基本命令一、常见命令二、其他命令一、常见命令命令说明hadoopfs-mkdir/park在hdfs的根目录下，创建park目录hadoopfs-ls/查看hdfs根目录下有哪些目录hadoopfs-put/root/1.txt/park将linux操作系统root目录下的1.txt放在hdfs的park目录下hado
数仓规范随记 mizuhokaga 总结大数据
数仓分层以《大数据之路：阿里巴巴大数据实践》中五层(ods/dwd/dws/dim/ads)分类为基础划分,有序列表记录是分层大类,分层大类下的无需列表是分层小类或者说真正落地的:ods:近源层/贴源层/数据Stage层stgb:从业务系统同步过来的原始数据,不保留历史数据stgd:类似stgb,但利用「拉链表」保留历史数据dw:数仓dwd:数据明细层（DataWarehouseDetail）,将
《阿里大数据之路》读书笔记：第三章数据同步蓦然_ 数据仓库大数据数据仓库
第三章数据同步数据同步技术含义：不同系统间的数据流转，有多种不同的应用场景。应用场景：同类型不同集群数据库之间的数据同步主数据库与备份数据库之间的数据备份主系统与子系统之间的数据更新不同地域、不同数据库类型之间的数据传输交换大数据系统中的数据同步数据从业务系统同步进入数据仓库数据从数据仓库同步进入数据服务或数据应用一、数据同步基础源业务系统的数据类型：关系型数据库的结构化数据：MySQL、Orac
JAVA CV工程师学习大数据之路---linux基本环境配置咸鱼哥哥大数据 java学习大数据 hadoop linux java 环境安装上网
先提供一些基本的软件链接，方便大家使用VMware、ISO文件、XManager链接：https://pan.baidu.com/s/1uwOBag5QCsSFqt3c2dz56A提取码：w2he安装流程和创建虚拟机过程直接跳过，直接到配置网络步骤，这儿采用NAT方式进行配置1.主要是修改/etc/sysconfig/network-scripts/ifcfg-enoXXX文件，因为文件名不一定是
《大数据之路》阅读笔记--数据同步杜小瑞大数据大数据 big data
数据同步同步方式主要分为三种：直连同步、数据文件同步和数据库日志解析同步。直连同步直连同步是指直接使用ODBC/JDBC接口的方式直接连接数据库来拉取数据，这种方式对源系统的性能影响较大，不适合大数据量的情况。数据文件同步数据文件同步通过约定好的文件编码、大小、格式等，直接从源系统生成数据的文本文件，由专门的文件服务器，如FTP服务器传输到目标系统后，加载到目标数据库系统中。当源数据来自多个不同的
《大数据之路》阅读笔记--数据采集杜小瑞大数据数据仓库大数据 big data
数据采集浏览器页面日志采集浏览器页面采集主要包括页面浏览日志采集以及页面交互日志采集两部分。页面浏览日志主要包括：页面浏览量（PageView,PV）和访客数（UniqueVisitors,UV）。页面浏览日志采集流程基本思路是在html文档内适当位置增加一个日志采集节点，当浏览器解析到这个节点时，将自动触发一个特定的http请求到日志采集服务器。页面交互日志采集主要流程如下：1、业务方在元数据管
Kafka基础理论理解，欲走大数据之路必铺石阶，行走的kafka！2018-08-14 飞上天的猫神
大数据编程理解，实际上是件很困难的事，大数据需要掌握的技能太多了，get到的技能点也实际更多！kafka作为一个大数据的必备内容，可以作为大数据的基本标志，下面我们将介绍如何学习大数据简介#概念：消息中间件（消息系统）//消息系统分类：点对点消息队列（peer-to-peer）替换高清大图发布/订阅消息队列消费者在消费时，是通过pull主动从broker中拉取数据的#作用：缓存地带#消息系统适用场
《大数据之路》 DouMiaoO_Oo 大数据数据库人工智能
维度表事实表明细事实表事务事实表周期快照事实表累计快照事实表汇总事实表lyw个人感觉部分周期快照事实表也属于汇总事实表指标体系解析派生指标=一个原子指标+多个修饰词(可选)+时间周期派生指标唯一归属一个原子指标，继承原子指标的数据域，与修饰词的数据域无关例如：原子指标:支付金额派生指标:最近1天海外买家支付金额则"最近1天"为时间周期"海外"为修饰词"买家"作为维度而不作为修饰词买家在表中通过ui
《大数据之路》 DouMiaoO_Oo 大数据数据库人工智能
维度表事实表明细事实表事务事实表周期快照事实表累计快照事实表汇总事实表lyw个人感觉部分周期快照事实表也属于汇总事实表指标体系解析派生指标=一个原子指标+多个修饰词(可选)+时间周期派生指标唯一归属一个原子指标，继承原子指标的数据域，与修饰词的数据域无关例如：原子指标:支付金额派生指标:最近1天海外买家支付金额则"最近1天"为时间周期"海外"为修饰词"买家"作为维度而不作为修饰词买家在表中通过ui
《阿里大数据之路》研读笔记（3）事实表后季暖笔记
不理解可以先看看这个例子例子里的start_time可以看成下单时间end看成确认收货时间这个例子中累计快照事实表和拉链表类似图解HIVE累积型快照事实表_累积快照事实表_小基基o_O的博客-CSDN博客累计快照事实表我的理解是根据上面的例子就是一行代表多个业务过程每个关键的业务过程都有对应的时间字段（这样方便计算一些需求）它跟多事务事实表的区别在于累计快照事实表只有一行是记录这个子订单的所以有新
《阿里大数据之路》研读笔记（2）维度表后季暖笔记
前面的笔记地址：《阿里大数据之路》研读笔记（1）_后季暖的博客-CSDN博客规范化和反规范化总结就是规范化让总的单一维度变成多个维度然后每个维度就是一张表这样适合OLTP可以参考三范式这样是为了减少冗余比如一个商品有多个类目（类目还有一些相关的字信息字段），属于多个行业（行业也带有相关的信息字段）这样可以直接把类目和行业各拆分成一张表然后在商品表用两张维表的主键引用即可这样能减少冗余但是查询会比较
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

20200710大数据学习笔记hadoop总结

你可能感兴趣的:(大数据之路)