xiaoxaoyu

Flume架构原理

文章目录

- 1、Flume架构
- - 1.1 Agent：
  - 1.2 Event：
  - 1.3 Client：
- 2、Flume特性
- - 2.1 可靠性
  - 2.2 可恢复性
  - 2.3 可靠性保证（面试）
  - - 2.3.1 故障转移
    - 2.3.2 负载均衡
    - 2.3.3 多层代理
    - 2.3.4 多路复用
- 3、Flume原理
- - 3.1主要组件及其作用
  - 3.2 各组件作用如下
  - - 3.2.1 Source相关
    - 3.2.2 Channel相关
    - 3.2.3 Sink相关
  - 3.3 Flume工作流程
  - - 3.3.1Source->Channel
    - 3.3.2 Channel->Sink
    - 3.3.3Flume 工作流程图
- 4、核心常用组件
- - 4.1 Source
  - - 4.1.1 Exec Source
    - 4.1.2 Spooling Directory Source
    - 4.1.3 Avro Source
    - 4.1.4 Netcat Source（TCP）
    - 4.1.5 Taildir Source
  - 4.2 Channel
  - - 4.2.1 Memory Channel
    - 4.2.2 File Channel
    - 4.2.3 Kafka Channel
    - 4.2.4 JDBC Channel
  - 4.3 Sink
  - - 4.3.1 Logger Sink
    - 4.3.2 HDFS Sink
    - 4.3.3 Hive Sink
    - 4.3.4 HBase Sink
    - 4.3.5 Avro Sink
  - 4.4 拦截器
- 5、企业真实面试题（重点）
- - 5.1 你是如何实现 Flume数据传输的监控的
  - 5.2 Flume的 Source，Sink，Channel 的作用？你们 Source是什么类型？
  - 5.3 Flume的 Channel Selectors
  - 5.4 Flume 参数调优
  - - 5.4.1 Source
    - 5.4.2 Channel
    - 5.4.3 Sink
  - 5.5 Flume 的事务机制
  - 5.6 Flume 采集数据会丢失吗?
  - 5.6 Flume 采集数据会丢失吗?

1、Flume架构

Flume架构的三个部分：Client、Agent、Event

1.1 Agent：

是Flume的代理，是一个JVM进程，承载组件（Source、Channel、Sink等等），事件Event通过组件从外部源流向下一个目标

1.2 Event：

定义：数据流的一个单元，通常对应一行数据

源码中，是由Map结构的headers和一个字节数组的body组成

Event是数据流的数据对象，Flume数据流描述了数据从产生、传输、处理、最终写入目标的一条路径。

1.3 Client：

客户端，数据产生的地方，比如说：Web服务器（网页上用户行为信息记录的地方）

2、Flume特性

2.1 可靠性

在把收集来的数据送到目的地之前，缓存数据
使用事务性的方式保证Event会被成功存储，保障可靠性。
Sink在Events被成功存入在Channel后、或已经成功传到下一个Agent里、或已经成功被存入外部数据目的地之后，才会remove掉缓存的Channel

2.2 可恢复性

Events在通道中执行，由对应通道来管理失败任务的恢复
分为本地文件系统支持的持久稳健通道和内存通道。内存通道把Events存储在内存队列中速度快，但Agent死亡后，内存通道中的任何Events无法恢复

2.3 可靠性保证（面试）

2.3.1 故障转移

故障转移组逻辑处理器维护了一个发送Event 失败的 sink 的列表，保证有一个 sink 是可用的来发送 Event。
故障转移机制的工作原理是将故障 Sink 降级到一个池中，在池中为它们分配冷却期（超时时间），在重试之前随顺序故障而增加。 Sink 成功发送事件后，它将恢复到实时池。Sink 具有与之相关的优先级，数值越大，优先级越高。如果在发送Event 时Sink 发生故障，会继续尝试下一个具有最高优先级的 Sink。例如，在优先级为 80 的 Sink 之前激活优先级为 100 的 Sink。如果未指定优先级，则根据配置中的顺序来选取。
要使用故障转移选择器，不仅要设置 Sink 组的选择器为failover，还有为每一个 Sink 设置一个唯一的优先级数值。可以使用 maxpenalty 属性设置故障转移时间的上限（毫秒）。

a1.sinkgroups = g1
a1.sinkgroups.g1.sinks = k1 k2 #Sink 组逻辑器
a1.sinkgroups.g1.processor.type = failover

#组内 sink 的权重值，必须是当前组关联的 sink 之一。数值（绝对值）越高越早被激活
a1.sinkgroups.g1.processor.priority.k1 = 5

a1.sinkgroups.g1.processor.priority.k2 = 10

#发生异常的 sink 最大故障转移时间（默认 30000 毫秒）

a1.sinkgroups.g1.processor.maxpenalty = 10000

2.3.2 负载均衡

负载均衡 Sink 选择器提供了在多个 Sink 上进行负载均衡流量的功能。它维护一个活动Sink 列表的索引来实现负载的分配。默认支持了轮询（round_robin）和随机（random）两种选择机制分配负载。默认是轮询，可以通过配置来更改。也可以从 AbstractSinkSelector 继承写一个自定义的选择器。
工作时，此选择器使用其配置的选择机制选择下一个 Sink 并调用它。如果所选 Sink 无法正常工作，则处理器通过其配置的选择机制选择下一个可用 Sink。此实现不会将失败的 Sink 列入黑名单，而是继续乐观地尝试每个可用的 Sink。
如果所有 Sink 调用都失败了，选择器会将故障抛给 Sink 的运行器。
如果 backoff 设置为 true 则启用了退避机制，失败的Sink 会被放入黑名单，达到一定的超时时间后会自动从黑名单移除。如从黑名单出来后Sink 仍然失败，则再次进入黑名单而且超时时间会翻倍，以避免在无响应的 Sink 上浪费过长时间。如果没有启用退避机制，在禁用此功能的情况下，发生Sink 传输失败后，会将本次负载传给下一个 Sink 继续尝试，因此这种情况下是不均衡的。

a1.sinkgroups = g1 a1.sinkgroups.g1.sinks = k1 k2 #Sink 组逻辑器
a1.sinkgroups.g1.processor.type = load_balance

#失败的 sink 是否成倍地增加退避它的时间。

a1.sinkgroups.g1.processor.backoff = true

#负载均衡机制，可选值：round_robin （轮询）、 random （随机选择）、「自定义选择器的全限定类名」
a1.sinkgroups.g1.processor.selector = random

2.3.3 多层代理

当我们用 Flume 采集日志时，由于数据源的多样性，则往往需要配置多个Flume 进行采集，如果只是使用单层 Flume 的话，那么往往会产生很多个文件夹，单个文件夹也只是来自同一个节点的数据组成的。而实际开发中，为了减少HDFS 的压力，同时提高后续 MR 的处理效率。往往会将同一组多个节点的数据汇聚到同一个文件中，这样同时也较少了数据从生产到分析的时间。
如下图，第一次 agent 负责采集原始数据，第二层 agent 负责对第一层数据进行汇聚。这种多层代理的方式尤其适合 source 源数据量庞大的时候，效率会高很多。

2.3.4 多路复用

如果没有手动配置，source 的默认 channel 选择器类型是 replicating（复制），当然这个选择器只针对 source 配置了多个 channel 的时候。前面介绍过，一个source 可以向多个 channel 同时写数据，所以也就产生了以何种方式向多个channel 写的问题（比如自带的复制选择器，会把数据完整地发送到每一个channel，而多路复用选择器就可以通过配置来按照一定的规则进行分发，听起来很像负载均衡），channel 选择器也就应运而生。

复制选择器

#c3 配置成了可选的。向 c3 发送数据如果失败了会被忽略。
c1 和 c2 没有配置成可选的，向 c1 和 c2 写数据失败会导致事务失败回滚。
a1.sources = r1 a1.channels = c1 c2 c3
a1.sources.r1.selector.type = replicating a1.sources.r1.channels = c1 c2 c3
a1.sources.r1.selector.optional = c3	#向 c3 发送失败将忽略

多路复用选择器

a1.sources = r1 a1.channels = c1 c2 c3 c4
a1.sources.r1.selector.type = multiplexing

#以每个 Event 的 header 中的 state 这个属性的值作为选择 channel 的依据

a1.sources.r1.selector.header = state

#如果 state=CZ，则选择 c1 这个 channel a1.sources.r1.selector.mapping.CZ = c1
#如果 state=US，则选择 c2 和 c3 这两个 channel a1.sources.r1.selector.mapping.US = c2 c3
#默认使用 c4 这个 channel，如果没有被规则匹配到，默认会发到此 channel

a1.sources.r1.selector.default = c4

3、Flume原理

3.1主要组件及其作用

Source、Channel 及 Sink 为核心组件

3.1.1 source

可以理解为进入形式，也就是数据将通过怎样的一种形式进入，比较常用的为Taildr Source（可以断点续传，优化很好）

3.1.2 channel

通道，也就是source在将文件传给Sink时的临时缓冲区，分为内存和落盘两种形式，如果在内存中，agent挂掉的话有可能会丢失数据

3.1.3 Sink

出水口，也就是数据流出的形式，一般我们放在hdfs上的话就用hdfs sink

以上三点即是flume的主要整体架构，也就是jvm中的一个进程

综上所述，flume的作用就是监视给定的一片地方，这个地方一单有数据进来，我们就通过source，channel，sink等过程写入到hdfs中，形成流式数据存储。

完整组件包括： Source 、SourceRunner 、Interceptor 、Channel 、ChannelSelector 、ChannelProcessor、Sink，SinkRunner、SinkProcessor、SinkSelector。

3.2 各组件作用如下

3.2.1 Source相关

Source：用来获取 Event 并写入 Channel。
SourceRunner：SourceRunner 则负责启动 Source，一个 SourceRunner 包含一个 Source 对象。
Interceptor：（过滤器的意思？）即为拦截器，是简单的插件式组件，设置在 Source 和 Channel 之间。Source 接收到的事件Event，在写入 Channel 之前，拦截器都可以进行转换或者删除这些事件。每个拦截器只处理同一个 Source 接收到的事件。可以自定义拦截器。

3.2.2 Channel相关

Channel：中转 Event 的一个临时存储，保存有 Source 组件传递过来的Event，可以认为是一个队列。
ChannelSelector：作用是为 Source 选择下游的 Channel。有两种选择方式，复制和多路复用（面试）。所谓复制就是把 Source 中传递过来的 Event 复制给所有对应的下游的 Channel。多路复用是可以把 Source 传递过来的 Event 按照不同的属性传递到不同的下游 Channel 中去。
ChannelProcessor：通过 ChannelSelector 获取到 Channels 后，如何发送Event 到 Channel。一个 Source 对象包含一个 ChannelProcessor 对象，一个ChannelProcessor 对象包含多个Interceptor 对象和一个ChannelSelector 对象。如下图所示。

3.2.3 Sink相关

Sink：从 Channel 中读取并移除 Event，将 Event 传递到 Flow Pipeline 中的下一个 Agent 或者其他存储系统。一个 SinkRunner 对象包含一个SinkProcessor 对象，一个 SinkProcessor 包含多个 Sink 或者一个SinkSelector。
SinkRunner：负责启动 Sink。在 Agent 启动时，会同时启动 Channel， SourceRunner，SinkRunner，如下图所示。

SinkProcessor ： Flume 提供 FailoverSinkProcessor 和LoadBalancingSinkProcessor，顾名思义，一个是失效备援，一个是负载均衡，那么 SinkProcessor 不同子类的存在就是为了实现不同的分配操作和策略，而 sink 的 start()通常是启动线程去执行消费操作。
SinkSelector ： LoadBalancingSinkProcessor 包含 SinkSelector ，会根据SinkSelector 在 SinkGroup（逻辑上的一组 Sink）中选择 Sink 并启动。从源码中可看出，其为 LoadBalancingSinkProcessor 的内部接口。如下图所示。

3.3 Flume工作流程

下面从两个阶段分别描述。

3.3.1Source->Channel

数据由 Source 写入 Channel，主动模式，主要步骤如下：

1）SourceRunner 启动 Source，Source 接收 Event；
2）Source 调用 ChannelProcessor；
3）ChannelProcessor 调用 Interceptor 进行过滤 Event 操作；
4）ChannelProcessor 调用 ChannelSelector 对象根据配置的策略选择 Event 对应的 Channel（replication 和 multiplexing 两种）；
5）Source 将 Event 发送到对应的 Channel 中。

3.3.2 Channel->Sink

数据由 Sink 主动从 Channel 中拉取：

1）SinkRunner 启动 SinkProcesso（r DefaultSinkProcessor，FailoverSinkProcessor，LoadBalancingSinkProcessor 3 种）；
2）如果是 DefaultSinkProcessor 的话，直接启动单个 Sink；
3）FailoverSinkProcessor，LoadBalancingSinkProcessor 对应的是 SinkGroup；
4）FailoverSinkProcessor 从 SinkGroup 中选择出 Sink 并启动；
5）LoadBalancingSinkProcessor 包含 SinkSelector ，会根据 SinkSelector 在SinkGroup 中选择 Sink 并启动；
6） Sink 从 Channel 中消费 Event 信息。

3.3.3Flume 工作流程图

4、核心常用组件

4.1 Source

4.1.1 Exec Source

Exec Source 在启动时运行一个给定的 Unix 命令，并期望该进程不断地在标准输出上产生数据。

4.1.2 Spooling Directory Source

该 Source 将监视指定目录的新文件，一旦有新文件产生立即解析它们。将给定的文件完全读入 Channel 后，默认情况下通过重命名该文件来表示完成，或者可以删除该文件，或者使用 trackerDir 跟踪已处理的文件。

4.1.3 Avro Source

监听Avro 端口并从外部Avro 客户端流接收事件。当与另一个(前一跳)Flume Agent 上的 Avro Sink 一起使用时，它可以创建分层收集拓扑。

4.1.4 Netcat Source（TCP）

一个类似 netcat 的源，它监听给定的端口并将每行文本转换成一个事件。就像 nc -k -l主机。换句话说，它打开指定的端口并侦听数据。期望提供的数据是换行分隔的文本。每行文本被转换成一个 Flume 事件并通过连接的通道发送。

4.1.5 Taildir Source

Taildir Source 监控指定的一些文件，并在检测到新的一行数据产生的时候实时地读取它们，如果新的一行数据还没写完，Taildir Source 会等到这行写完后再读取。

Taildir Source 可以从任意指定的位置开始读取文件。默认情况下，它将从每个文件的第一行开始读取。
文件按照修改时间的顺序来读取。修改时间最早的文件将最先被读取（简单记成：先来先走）。
Taildir Source 不重命名、删除或修改它监控的文件。
当前不支持读取二进制文件。只能逐行读取文本文件。
Taildir Source 目前不能运行在windows 系统上。

4.2 Channel

Channel 接口中主要声明了 Channel 中的三个方法：

put 方法从指定的 Source 中获得 Event 放入指定的 Channel 中

#public void put(Event event) throws ChannelException;
take 方法主要是从 Channel 中取出 event 放入 Sink 中

#public Event take() throws ChannelException;
getTransaction 方法是获得当前 Channel 的事务实例

#public Transaction getTransaction();

常用的 Channel 有：

4.2.1 Memory Channel

event 保存在指定大小的内存队列中，高吞吐量。如果允许数据小量丢失，推荐使用。type设置“memory”

4.2.2 File Channel

event 保存在本地文件中写入磁盘，可靠性高，容量大，不会丢失文件，但吞吐量低于 Memory Channel。type设置“file”

4.2.3 Kafka Channel

event 保存在 Kafka 中。Kafka 提供了高可用性和可复制性，所以当 Flume Agent 或 Kafka broker 崩溃时，event 可以提供给其他Sinks。

4.2.4 JDBC Channel

event 保存在关系数据中，一般不推荐使用。

4.3 Sink

Sink 用于消费 Channel 中的 Event。在 Channel 的事务中进行处理，在成功交付时提交事务，在失败时回滚事务。

注意：一个 Sink 只能消费一个 Channel 的 Event。

4.3.1 Logger Sink

记录 INFO 级别的日志，一般用于调试。要求必须在“–conf”参数指定的目录下有 log4j 的配置文件，可以通过“-Dflume.root.logger=INFO,console”在命令启动时手动指定 log4j 参数。

Logger Sink 是唯一不需要额外配置的组件

4.3.2 HDFS Sink

HDFS Sink 将 Event 写入 Hadoop 分布式文件系统 HDFS。目前支持创建文本和序列文件。支持两种文件类型的压缩。可以根据写入的时间、文件大小或Event 数量定期滚动文件（关闭当前文件并创建新文件）。它还可以根据 Event自带的时间戳或系统时间等属性对数据进行分区。存储文件的 HDFS 目录路径可以使用格式转义符，会由 HDFS Sink 进行动态地替换，以生成用于存储 Event的目录或文件名。使用此 Sink 需要安装 Hadoop，以便 Flume 可以使用 Hadoop的客户端与 HDFS 集群进行通信。

4.3.3 Hive Sink

此 Sink 将包含分隔文本或 JSON 数据的 Event 直接流式传输到 Hive 表或分区上。 Event 使用 Hive 事务进行写入，一旦将一组 Event 提交给 Hive，它们就会立即显示给 Hive 查询。

即将写入的目标分区既可以预先自己创建，也可以选择让 Flume 创建它们。

写入的 Event 数据中的字段将映射到 Hive 表中的相应列。

4.3.4 HBase Sink

此 Sink 将数据写入 HBase。 Hbase 配置是从 classpath 中遇到的第一个hbase-site.xml 中获取的。配置指定的 HbaseEventSerializer 接口的实现类用于将Event 转换为 HBase put 或 increments。然后将这些 put 和 increments 写入 HBase。

该 Sink 提供与 HBase 相同的一致性保证，HBase 是当前行的原子性。如果 Hbase无法写入某些 Event，则 Sink 将重试该事务中的所有 Event

4.3.5 Avro Sink

这个 Sink 可以作为 Flume 分层收集特性的下半部分。发送到此 Sink 的Event 将转换为 Avro Event 发送到指定的主机/端口上。Event 从 Channel 中批量获取，数量根据配置的 batch-size 而定。

4.4 拦截器

Flume 支持在运行时对 Event 进行修改或丢弃，可以通过拦截器来实现。Flume 里面的拦截器是实现了 org.apache.flume.interceptor.Interceptor 接口的类。拦截器可以根据开发者的意图随意修改甚至丢弃 Event， Flume 也支持链式的拦截器执行方式，在配置文件里面配置多个拦截器就可以了。

拦截器的顺序取决于它们被初始化的顺序（实际也就是配置的顺序），Event就这样按照顺序经过每一个拦截器，如果想在拦截器里面丢弃 Event，在传递给下一级拦截器的 list 里面把它移除就行了。如果想丢弃所有的 Event，返回一个空集合就行了。

提示：Event 在拦截器之间流动的时候是以集合的形式，并不是逐个 Event 传输的，这样就能理解上面所说的“从 list 里面移除”、“返回一个空集合”了。做过Java web 开发的应该很容易理解拦截器，Flume 拦截器与spring MVC、struts2等框架里面的拦截器思路十分相似。

拦截器也是通过命名配置的组件

5、企业真实面试题（重点）

5.1 你是如何实现 Flume数据传输的监控的

使用第三方框架 Ganglia 实时监控 Flume。

5.2 Flume的 Source，Sink，Channel 的作用？你们 Source是什么类型？

1） Source 组件是专门用来收集数据的，可以处理各种类型、各种格式的日志数据，包括 avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy
2） Channel 组件对采集到的数据进行缓存，可以存放在 Memory 或File 中。
3） Sink 组件是用于把数据发送到目的地的组件，目的地包括HDFS、Logger、avro 、thrift、ipc、file、Hbase、solr、自定义。

我公司采用的 Source 类型为

1）监控后台日志：exec
2）监控后台产生日志的端口：netcat Exec spooldir

5.3 Flume的 Channel Selectors

5.4 Flume 参数调优

5.4.1 Source

增加 Source 个（使用Tair Dir Source 时可增加FileGroups 个数）可以增大 Source 的读取数据的能力。例如：当某一个目录产生的文件过多时需要将这个文件目录拆分成多个文件目录，同时配置好多个Source 以保证 Source 有足够的能力获取到新产生的数据。
batchSize 参数决定 Source 一次批量运输到 Channel 的 event 条数，适当调大这个参数可以提高Source 搬运Event 到Channel 时的性能。

5.4.2 Channel

type 选择 memory 时Channel 的性能最好，但是如果 Flume 进程意外挂掉可能会丢失数据。type 选择 file 时 Channel 的容错性更好，但是性能上会比 memory channel 差。
使用 file Channel 时dataDirs 配置多个不同盘下的目录可以提高性能。
Capacity 参数决定Channel 可容纳最大的event 条数。transactionCapacity 参数决定每次 Source 往 channel 里面写的最大 event 条数和每次 Sink 从 channel 里面读的最大 event 条数。\transactionCapacity 需要大于 Source 和 Sink 的 batchSize 参数。

5.4.3 Sink

增加 Sink 的个数可以增加 Sink 消费 event 的能力。Sink 也不是越多越好够用就行，过多的 Sink 会占用系统资源，造成系统资源不必要的浪费。
batchSize 参数决定 Sink 一次批量从 Channel 读取的 event 条数，适当调大这个参数可以提高 Sink 从Channel 搬出 event 的性能。

5.5 Flume 的事务机制

Flume 的事务机制（类似数据库的事务机制）：Flume 使用两个独立的事务分别负责从 Soucrce 到 Channel，以及从 Channel 到 Sink 的事件传递。比如 spooling directory source 为文件的每一行创建一个事件，一旦事务中所有的事件全部传递到 Channel 且提交成功，那么 Soucrce 就将该文件标记为完成。
同理，事务以类似的方式处理从 Channel 到 Sink 的传递过程，如果因为某种原因使得事件无法记录，那么事务将会回滚。且所有的事件都会保持到Channel 中，等待重新传递。

5.6 Flume 采集数据会丢失吗?

根据 Flume 的架构原理，Flume 是不可能丢失数据的，其内部有完善的事务机制， Source 到Channel 是事务性的，Channel 到Sink 是事务性的，因此这两个环节不会出现数据的丢失，唯一可能丢失数据的情况是 Channel 采用 memoryChannel，agent 宕机导致数据丢失，或者 Channel 存储数据已满，导致 Source 不再写入，未写入的数据丢失。
Flume 不会丢失数据，但是有可能造成数据的重复，例如数据已经成功由 Sink 发出，但是没有接收到响应，Sink 会再次发送数据，此时可能会导致数据的重复。

种原因使得事件无法记录，那么事务将会回滚。且所有的事件都会保持到Channel 中，等待重新传递。

5.6 Flume 采集数据会丢失吗?

根据 Flume 的架构原理，Flume 是不可能丢失数据的，其内部有完善的事务机制， Source 到Channel 是事务性的，Channel 到Sink 是事务性的，因此这两个环节不会出现数据的丢失，唯一可能丢失数据的情况是 Channel 采用 memoryChannel，agent 宕机导致数据丢失，或者 Channel 存储数据已满，导致 Source 不再写入，未写入的数据丢失。
Flume 不会丢失数据，但是有可能造成数据的重复，例如数据已经成功由 Sink 发出，但是没有接收到响应，Sink 会再次发送数据，此时可能会导致数据的重复。

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现程序员-石头山大数据实战案例大数据 hadoop 毕业设计毕设
博主介绍：✌全平台粉丝5W+,高级大厂开发程序员，博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来，同学门有不懂的毕设选题，项目以及论文编写等相关问题都可以和学长沟通，希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展，电商平台积累了海量的数据资源，这些数据不仅包括用户的基本信息、购物记录，还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
Hadoop常见面试题整理及解答叶青舟 Linux hdfs 大数据 hadoop linux
Hadoop常见面试题整理及解答一、基础知识篇：1.把数据仓库从传统关系型数据库转到hadoop有什么优势？答：（1）关系型数据库成本高，且存储空间有限。而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。（2）关系型数据库仅支持标准结构化数据格式，Hadoop不仅支持标准结构化数据格式
2025毕业设计指南：如何用Hadoop构建超市进货推荐系统？大数据分析助力精准采购计算机编程指导师 Java实战集 Python实战集大数据实战集课程设计 hadoop 数据分析 spring boot java 进货 python
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程序/安卓实战项目大数据实战项目⚡⚡文末获取源码文章目录⚡⚡文末获取源码基于hadoop的超市进货推荐系
Hadoop Common 之序列化机制小解猫君之上 #Apache Hadoop
1.JavaSerializable序列化该序列化通过ObjectInputStream的readObject实现序列化，ObjectOutputStream的writeObject实现反序列化。这不过此种序列化虽然跨病态兼容性强，但是因为存储过多的信息，但是传输效率比较低，所以hadoop弃用它。（序列化信息包括这个对象的类，类签名，类的所有静态，费静态成员的值，以及他们父类都要被写入）publ
深入理解hadoop(一)----Common的实现----Configuration maoxiao_jsd 深入理解----hadoop
属本人个人原创，转载请注明,希望对大家有帮助！！一,hadoop的配置管理a,hadoop通过独有的Configuration处理配置信息Configurationconf=newConfiguration();conf.addResource("core-default.xml");conf.addResource("core-site.xml");后者会覆盖前者中未final标记的相同配置项b
hadoop 0.22.0 部署笔记 weixin_33701564 大数据 java 运维
为什么80%的码农都做不了架构师？>>>因为需要使用hbase，所以开始对hbase进行学习。hbase是部署在hadoop平台上的NOSql数据库，因此在部署hbase之前需要先部署hadoop。环境：redhat5、hadoop-0.22.0.tar.gz、jdk-6u13-linux-i586.zipip192.168.1.128hostname：localhost.localdomain（
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(4) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！org.apache.hadoophadoop-com
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(3) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！xmlns:xsi="http://www.w3.or
深入解析HDFS：定义、架构、原理、应用场景及常用命令 CloudJourney hdfs 架构 hadoop
引言Hadoop分布式文件系统（HDFS，HadoopDistributedFileSystem）是Hadoop框架的核心组件之一，它提供了高可靠性、高可用性和高吞吐量的大规模数据存储和管理能力。本文将从HDFS的定义、架构、工作原理、应用场景以及常用命令等多个方面进行详细探讨，帮助读者全面深入地了解HDFS。1.HDFS的定义1.1什么是HDFSHDFS是Hadoop生态系统中的一个分布式文件系
解决flume在抽取不断产生的日志文件时，hdfs上出现很多小文件的问题 lzhlizihang flume hdfs 大数据
问题在使用flume时，需要编写conf文件，然后执行，明明sinks已经指定了roll的三个参数：a1.sinks.k1.hdfs.rollInterval=0（根据写入时间来切割）a1.sinks.k1.hdfs.rollSize=0（根据写入的文件大小来切割）a1.sinks.k1.hdfs.rollCount=0（根据Event数量来切割）其中0代表不根据其属性来切割文件但是hdfs上还会
Hadoop的搭建流程 lzhlizihang hadoop 大数据分布式
文章目录一、配置IP二、配置主机名三、配置主机映射四、关闭防火墙五、配置免密六、安装jdk1、第一步：2、第二步：3、第三步：4、第四步：5、第五步：七、安装hadoop1、上传2、解压3、重命名4、开始配置环境变量5、刷新配置文件6、验证hadoop命令是否可以识别八、全分布搭建7、修改配置文件core-site.xml8、修改配置文件hdfs-site.xml9、修改配置文件hadoop-en
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS

Flume架构原理

文章目录

1、Flume架构

1.1 Agent：

1.2 Event：

1.3 Client：

2、Flume特性

2.1 可靠性

2.2 可恢复性

2.3 可靠性保证（面试）

2.3.1 故障转移

2.3.2 负载均衡

2.3.3 多层代理

2.3.4 多路复用

3、Flume原理

3.1主要组件及其作用

3.2 各组件作用如下

3.2.1 Source相关

3.2.2 Channel相关

3.2.3 Sink相关

3.3 Flume工作流程

3.3.1Source->Channel

3.3.2 Channel->Sink

3.3.3Flume 工作流程图

4、核心常用组件

4.1 Source

4.1.1 Exec Source

4.1.2 Spooling Directory Source

4.1.3 Avro Source

4.1.4 Netcat Source（TCP）

4.1.5 Taildir Source

4.2 Channel

4.2.1 Memory Channel

4.2.2 File Channel

4.2.3 Kafka Channel

4.2.4 JDBC Channel

4.3 Sink

4.3.1 Logger Sink

4.3.2 HDFS Sink

4.3.3 Hive Sink

4.3.4 HBase Sink

4.3.5 Avro Sink

4.4 拦截器

5、企业真实面试题（重点）

5.1 你是如何实现 Flume数据传输的监控的

5.2 Flume的 Source，Sink，Channel 的作用？你们 Source是什么类型？

5.3 Flume的 Channel Selectors

5.4 Flume 参数调优

5.4.1 Source

5.4.2 Channel

5.4.3 Sink

5.5 Flume 的事务机制

5.6 Flume 采集数据会丢失吗?

5.6 Flume 采集数据会丢失吗?

你可能感兴趣的:(Flume,hadoop,flume)