Flume-NG源码阅读之AvroSink

　　org.apache.flume.sink.AvroSink是用来通过网络来传输数据的，可以将event发送到RPC服务器（比如AvroSource），使用AvroSink和AvroSource可以组成分层结构。它继承自AbstractRpcSink extends AbstractSink implements Configurable这跟其他的sink一样都得extends AbstractSink implements Configurable，所以重点也在confgure、start、process、stop这四个方法，实现了initializeRpcClient(Properties props)方法。

　　一、configure(Context context)方法，先获取配置文件中的主机hostname和端口port；设置clientProps的属性hosts=h1，hosts.h1=hostname:port；然后将配置信息中的所有信息放入clientProps中；获取cxnResetInterval表示重复建立连接的时间间隔，默认是0就是不重复建立连接。

　　二、start()方法是调用createConnection()建立连接，如果出现异常就调用destroyConnection()掐断连接，避免资源泄漏。createConnection()方法主要是初始化client = initializeRpcClient(clientProps)以及创建一个线程，并执行在给定延迟cxnResetInterval后执行一次销毁链接destroyConnection()，由于默认cxnResetInterval=0，所以是不会执行这个线程的。这点不是很明白，为什么要销毁？？？initializeRpcClient(clientProps)方法会根据配置文件中的信息进行构造相应的RpcClient：首先会获取"client.type"参数指定的类型可用的有四种(NettyAvroRpcClient(如果没有"client.type"则使用这个作为默认Client)、FailoverRpcClient、LoadBalancingRpcClient、ThriftRpcClient)，实例化之后需要对其在进行必要的配置执行client.configure(properties)进行配置：

　　(1)NettyAvroRpcClient.configure(Properties properties)方法首先会获取锁，检查connState连接状态要保证是没有配置过的；其次获取"batch-size"设置batchSize，如果配置的小于1则使用默认值100；获取“hosts”，如果配置了多个hosts则只使用第一个；获取"hosts."前缀，如果有多个则使用第一个，再解析出hostname和port，构建一个InetSocketAddress的对象address；获取连接超时时间"connect-timeout"，设置connectTimeout，如果配置的小于1000则使用默认值20000，单位是ms；获取相应时间"request-timeout"，设置requestTimeout，如果配置的小于1000，则使用默认值20000，单位ms；获取压缩类型"compression-type"，如果有配置压缩还需要获取压缩的等级compressionLevel；最后调用connect()链接RPC服务器。

　　实际的链接在connect(long timeout, TimeUnit tu)方法中，先构造一个线程池callTimeoutPool；然后根据是否有压缩构造相应的工厂类CompressionChannelFactory(有压缩配置)或者NioClientSocketChannelFactory(无压缩配置)；构造一个

NettyTransceiver(this.address,socketChannelFactory,tu.toMillis(timeout))收发器对象transceiver；根据transceiver返回一个avroClient；最后设置链接状态为READY。

　　(2)FailoverRpcClient.configure(Properties properties)方法会调用configureHosts(Properties properties)方法，这个方法会获取配置文件中的host列表hosts；获取最大尝试次数"max-attempts"，设置maxTries，默认是hosts的大小；获取批量大小

"batch-size"，设置batchSize，如果配置的小于1则使用默认大小100；将此client置为活动的isActive=true。可以看出这个client可以使用多个host。

　　(3)LoadBalancingRpcClient.configure(Properties properties)会获取配置文件中的host列表hosts，且不允许少于两个，否则爆异常；获取主机选择器"host-selector"，有两种内置的选择器：LoadBalancingRpcClient.RoundRobinHostSelector和LoadBalancingRpcClient.RandomOrderHostSelector，默认是ROUND_ROBIN(即RoundRobinHostSelector)轮询的方式(也可以自定义，要实现LoadBalancingRpcClient.HostSelector接口)；获取"backoff"，设置backoff(是否使用推迟算法，就是sink.process出问题后对这个sink设置惩罚时间，在此期间不再认为其可活动)的boolean值(默认false就是不启用)；获取最大推迟时间"maxBackoff"，设置maxBackoff；然后根据选择器是ROUND_ROBIN还是RANDOM选择对应的类并实例化selector，最后设置主机selector.setHosts(hosts)。

　　这两个内置选择器：RoundRobinHostSelector实际使用的是RoundRobinOrderSelector；RandomOrderHostSelector实际使用的是RandomOrderSelector，这两个都在Flume-NG源码阅读之SinkGroups和SinkRunner 这篇文章中有介绍，这里不再说明。

　　(4)ThriftRpcClient.configure(Properties properties)会获取状态锁stateLock.lock()；获取配置文件中的host列表中的第一个，只需要一个；获取批量大小"batch-size"，设置batchSize，如果配置的小于1则使用默认大小100；获取主机名hostname和端口port；获取响应时间requestTimeout，如果小于1000设置为默认的20000ms；获取连接池大小"maxConnections"，设置connectionPoolSize，如果大小小于1则设置为默认的值5；创建连接池管理对象connectionManager= new ConnectionPoolManager(connectionPoolSize)；设置连接状态为READY，connState = State.READY；最后状态锁解锁stateLock.unlock()。

　　这四个Client都是extends AbstractRpcClient implements RpcClient。

　　三、process()方法，代码如下：

 1   public Status process() throws EventDeliveryException {

 2     Status status = Status.READY;

 3     Channel channel = getChannel();    //获得channel

 4     Transaction transaction = channel.getTransaction();    //创建事务

 5 

 6     try {

 7       transaction.begin();    //事务开始

 8 

 9       verifyConnection();    //确保存在链接且处于活动状态，如果链接处于非活动状态销毁并重建链接

10 

11       List<Event> batch = Lists.newLinkedList();

12 

13       for (int i = 0; i < client.getBatchSize(); i++) {    //保证这批次的event数量不可能超过客户端批量处理的最大处理数量

14         Event event = channel.take();

15 

16         if (event == null) {        //表示channel中没有数据了

17           break;

18         }

19 

20         batch.add(event);    //加入event列表

21       }

22 

23       int size = batch.size();    //获取这批次取得的event的数量

24       int batchSize = client.getBatchSize();        //获取客户端可以批量处理的大小

25 

26       if (size == 0) {

27         sinkCounter.incrementBatchEmptyCount();

28         status = Status.BACKOFF;

29       } else {

30         if (size < batchSize) {

31           sinkCounter.incrementBatchUnderflowCount();

32         } else {

33           sinkCounter.incrementBatchCompleteCount();

34         }

35         sinkCounter.addToEventDrainAttemptCount(size);

36         client.appendBatch(batch);        //批量处理event

37       }

38 

39       transaction.commit();        //事务提交

40       sinkCounter.addToEventDrainSuccessCount(size);

41 

42     } catch (Throwable t) {

43       transaction.rollback();    //事务回滚

44       if (t instanceof Error) {

45         throw (Error) t;

46       } else if (t instanceof ChannelException) {

47         logger.error("Rpc Sink " + getName() + ": Unable to get event from" +

48             " channel " + channel.getName() + ". Exception follows.", t);

49         status = Status.BACKOFF;

50       } else {

51         destroyConnection();        //销毁链接

52         throw new EventDeliveryException("Failed to send events", t);

53       }

54     } finally {

55       transaction.close();    //事务关闭

56     }

57 

58     return status;

59   }

　　即使本批次event的数量达不到client.getBatchSize()(channel中没数据了)也会立即发送到RPC服务器。verifyConnection()方法是确保存在链接且处于活动状态，如果链接处于非活动状态销毁并重建链接。如果本批次没有event，则不会想RPC发送任何数据。client.appendBatch(batch)方法是批量发送event。

　　(1)NettyAvroRpcClient.appendBatch(batch)方法会调用appendBatch(events, requestTimeout, TimeUnit.MILLISECONDS)方法，该方法会首先确认链接处于READY状态，否则报错；然后将每个event重新封装成AvroFlumeEvent，放入avroEvents列表中；然后构造一个CallFuture和avroEvents一同封装成一个Callable放入线程池 handshake = callTimeoutPool.submit(callable)中去执行，其call方法内容是avroClient.appendBatch(avroEvents, callFuture)就是在此批量提交到RPC服务器；然后handshake.get(connectTimeout, TimeUnit.MILLISECONDS)在规定时间等待执行的返回结果以及等待append的完成waitForStatusOK(callFuture, timeout, tu)，详细的可看这里Flume的Avro Sink和Avro Source研究之二： Avro Sink ，有对于这两个future更深入的分析。一个批次传输的event的数量是min(batchSize,events.size())

　　(2)FailoverRpcClient.appendBatch(batch)方法会做最多maxTries次尝试直到获取到可以正确发送events的Client，通过localClient=getClient()--》getNextClient()来获取client，这个方法每次会获取hosts中的下一个HostInfo，并使用NettyAvroRpcClient来作为RPC Client，这就又回到了(1)中，这个方法还有一个要注意的就是会先从当前的lastCheckedhost+1位置向后找可以使用的Client，如果不行会再从开始到到lastCheckedhost再找，再找不到就报错。使用localClient.appendBatch(events)来处理events，可参考(1)。

　　(3)LoadBalancingRpcClient.appendBatch(batch)方法，首先会获取可以发送到的RPC服务器的迭代器Iterator<HostInfo> it = selector.createHostIterator()；然后取一个HostInfo,RpcClient client = getClient(host)这个Client和(2)一样都是NettyAvroRpcClient，但是getClient方法会设置一个保存名字和client映射的clientMap；client.appendBatch(events)执行之后就会跳出循环，下一次appendBatch会选择下一个client执行。

　　(4)ThriftRpcClient.appendBatch(batch)方法，从connectionManager.checkout()获取一个client，ConnectionPoolManager类主要维护俩对象availableClients用来存放可用的client(是一个ClientWrapper，维护一个ThriftSourceProtocol.Client client 是用来批量处理event的)、checkedOutClients用来存储从availableClients中拿出的Client表示正在使用的Client；ConnectionPoolManager.checkout()用于从availableClients中remove出client并放入checkedOutClients中，返回这个client；ConnectionPoolManager.checkIn(ClientWrapper client)方法用于将指定的Client从checkedOutClient中remove出并放入availableClients中；ConnectionPoolManager.destroy(ClientWrapper client)用于将checkedOutClients中的指定Client remove并close。appendBatch方法中获得client后，会每次封装min(batchSize,events.size())个event，把他们封装成ThriftFlumeEvent加入thriftFlumeEvents列表，然后如果thriftFlumeEvents>0则执行doAppendBatch(client, thriftFlumeEvents).get(requestTimeout,TimeUnit.MILLISECONDS)阻塞等待传输完毕。doAppendBatch方法会构建一个Callable其call方法执行client.client.appendBatch(e)，将这个Callable放入线程池callTimeoutPool中执行并返回执行结果Future。

　　以上四种RpcClient的append(Event event)方法也比较容易理解，不再讲述。

　　四、stop()方法主要是销毁链接，关闭cxnResetExecutor。

　　其实flume支持avro和thrift两种(目前)传输，上面的(2)和(3)只不过是对(1)的上层业务做了一次封装而已，本质上还是一样的都是avro(基于netty)。同时记住avrosink是支持压缩的。

　　在此，由于博主对avro、netty、thrift并未深入研究过，所以只能从flume层面讲解avrosink，对于某些人来说，可能讲的并不深入，相关内容请自行学习！！

在大数据求职面试中如何回答分布式协调与数据挖掘问题
在大数据求职面试中如何回答分布式协调与数据挖掘问题场景：小白的大数据求职面试小白是一名初出茅庐的程序员，今天他来到一家知名互联网公司的面试现场，面试官是经验丰富的老黑。以下是他们之间的对话：第一轮提问：分布式与数据采集老黑：小白，你对Zookeeper有了解吗？小白：当然，Zookeeper是一个分布式协调服务，主要用于分布式应用程序中的同步服务、命名服务和配置管理。老黑：不错，你能说说Flume
手把手教你玩转 Sqoop：从数据库到大数据的「数据搬运工」 AAA建材批发王师傅数据库 sqoop 大数据 hive hdfs
一、Sqoop是什么？——数据界的「超级搬运工」兄弟们，今天咱们聊个大数据圈的「搬运小能手」——Sqoop！可能有人会问：这玩意儿跟Flume啥区别？简单来说：Flume是专门搬日志数据的「快递员」而Sqoop是搬数据库数据的「搬家公司」它的名字咋来的？SQL+Hadoop，直接告诉你核心技能：在关系型数据库（比如MySQL）和Hadoop家族（HDFS、Hive、HBase）之间疯狂倒腾数据！核
Flum的组件和原理。以及配置和基础命令
ApacheFlume架构的原理和组成ApacheFlume是一个高可靠、高性能的服务，用于收集、聚合和移动大量日志数据。它的架构设计灵活且可扩展，能够适应各种不同的数据源和目的地。一、Flume的核心组件及其任务1.Agent定义：Flume的基本运行单元，是一个独立的进程。功能：负责执行数据采集任务，包含Source、Channel和Sink三个主要部分。2.Source（源）定义：数据进入F
Flume入门指南：大数据日志采集的秘密武器 £菜鸟也有梦大数据基础大数据 flume kafka hadoop hive
目录一、Flume是什么？为何如此重要？二、Flume核心概念大揭秘2.1Agent：Flume的核心引擎2.2Source：数据的入口大门2.3Channel：数据的临时港湾2.4Sink：数据的最终归宿2.5Event：数据的最小单元三、Flume工作原理深度剖析3.1数据如何流动3.2可靠性保障机制四、Flume安装与配置实战4.1安装前的准备工作4.2下载与解压4.3配置文件详解4.4启动
Flume进阶之路：从基础到高阶的飞跃 £菜鸟也有梦大数据基础 flume 大数据 hadoop hive
目录一、Flume高阶特性揭秘二、拦截器：数据的精细雕琢师2.1拦截器的概念与作用2.2常见拦截器类型及案例分析2.2.1时间添加戳拦截器2.2.2Host添加拦截器2.2.3正则表达式过滤拦截器三、选择器：数据流向的掌控者3.1选择器的概念与分类3.2不同选择器的工作原理与案例3.2.1复制选择器3.2.2多路复用选择器3.2.3自定义选择器四、Sink组逻辑处理器：数据传输的保障者4.1Sin
记一次·Spark读Hbase
记一次·Spark读Hbase一、背景过年回来，数仓发现hive的一个表丢数据了，需要想办法补数据。这个表是flume消费kafka写hive。但是kafka里只保存最近7天数据，有部分数据kafka里已经没有了。不过这份数据会同时被消费到HBase内存储一份，并且HBase内的数据是正常的。所以这次任务是读HBase数据写Hive表。HBase表内，只有一个列族info，列族内只有一个列valu
Kafka整合Flume 小顽童王 kafka flume
Kafka与flume1）准备jar包1、将Kafka主目录lib下的如下jar拷贝至Flume的lib目录下kafka_2.10-0.8.2.1.jar、kafka-clients-0.8.2.1.jar、jopt-simple-3.2.jar、metrics-core-2.2.0.jar、scala-library-2.10.4.jar、zkclient-0.3.jar等2、将如下jar拷贝至
电商数仓项目(八) Flume(3) 生产者和消费者配置涛2021 数据仓库:Hadoop+Hive flume kafka
目录一、生产数据写到kafka二、消费kafka数据写到hdfs本节讲解Flume生产者和消费者配置。源码下载一、生产数据写到kafka将上节生成的flume-interceptor-1.0.0.jar文件上传到$FLUME_HOME/lib目录下在$FLUME_HOME/conf目录中创建file-flume-kafka.conf文件，文件目录：/u01/gmall/data/in/log-da
运维-ES集群介绍 ww22652098814 运维 elasticsearch
什么是ElasticStackElasticStack早期名称为elk。elk分别代表了3个组件:-ElasticSearch负责数据存储和检索。-Logstash:负责数据的采集，将源数据采集到ElasticSearch进行存储。-Kibana:负责数据的展示。由于Logstash是一个重量级产品，安装包超过300MB+，很多同学只是用于采集日志，于是使用其他采集工具代替，比如flume，flu
《云计算》第三版总结冰菓Neko 书籍云计算
《云计算》第三版总结云计算体系结构云计算成本优势开源云计算架构Hadoop2.0Hadoop体系架构Hadoop访问接口Hadoop编程接口Hadoop大家族分布式组件概述ZooKeeperHbasePigHiveOozieFlumeMahout虚拟化技术服务器虚拟化存储虚拟化网络虚拟化桌面虚拟化OpenStack开源虚拟化平台NovaSwiftGlance云计算核心算法PaxosDHTGossi
数据采集与接入：Kafka、Flume、Flink CDC、Debezium（实时/离线数据获取方式）晴天彩虹雨 kafka flume flink 大数据
数据采集是大数据平台中的关键步骤，它负责将数据从多个数据源传输到数据处理系统。对于大数据处理平台来说，数据的实时与离线获取方式至关重要，能够确保系统的响应性与可扩展性。在本篇文章中，我们将深入探讨四种常见的数据采集与接入技术：Kafka、Flume、FlinkCDC、Debezium，并分析它们的适用场景。1.Kafka-分布式流处理平台概述：Kafka是一个分布式流平台，用于高吞吐量、低延迟的数
Flume启动报错，guava.java包冲突 Lion-ha 大数据
Flume启动时报错如下：(SinkRunner-PollingRunner-DefaultSinkProcessor)[ERROR-org.apache.flume.sink.hdfs.HDFSEventSink.process(HDFSEventSink.java:459)]processfailedjava.lang.NoSuchMethodError:com.google.common.b
Flume(二十一)Memory Channel 薛定谔的猫1982 #flume flume 大数据
MemoryChannel是将收集来的数据临时存储到内存队列中，如果不指定，那么该队列默认大小是100，即最多允许在队列中存储100条数据。如果队列被占满，那么后来的数据就会被阻塞(即Source收集到的数据就无法放入队列中,产生rollback回滚)，直到队列中有位置被空出。实际过程中，这个值一般会调大，一般会调节为10W~30W，如果数据量较大，那么也可以考虑调节为50W。需要注意的是，Mem
【课程笔记】华为 HCIA-Big Data 大数据总结淵_ken 华为 HCIA-Big Data 大数据大数据
目录HDFS分布式文件系统ZooKeeper分布式应用程序协调服务HBase非关系型分布式数据库Hive分布式数据仓库ClickHouse列式数据库管理系统MapReduce分布式计算框架Yarn资源管理调度器Spark分布式计算框架Flink分布式计算框架Flume日志采集工具Kafka分布式消息队列本课程主要围绕以下几个服务展开：HDFS(Hadoop分布式文件系统)ZooKeeper(分布式
Windows PC上创建大数据职业技能竞赛实验环境之三--Spark、Hive、Flume、Kafka和Flink环境的搭建 liu9ang 大数据平台 hadoop spark kafka flink
在前述hadoop-base基础容器环境的基础上，实现Spark、Hive、Flume、kafka和Flink实验环境的搭建。我们已将前述的hadoop-base基础容器进行可阶段的保存：sudodockercommit"hadoopbasev3"hadoop-basecentos/hadoop-base:v3现在，如果已经将前述作业的hadoop-base容器停用并删除，用保存的centos/h
[大数据技术与应用省赛学习记录一]——软件准备 Ench77 大数据技术与应用比赛筹备大数据
@JIAQI第一章大数据平台环境搭建在指定主机上完成Hadoop完全分布式、Spark、Flink、kafka、flume的安装配置赛前准备主办方要求使用以下相关版本软件环境，仅供参考：设备类型软件类别软件名称、版本号竞赛服务器竞赛环境大数据集群操作系统Centos7大数据平台组件unbuntu18.04Hadoop2.7.7Hive2.3.4Spark2.1.1Kafka2.0.0Redis4.
Flume+kafka+SparkStreaming整合逆水行舟如何大数据架构 kafka常用命令 flume进行数据收集的编写实时架构
一、需求模拟一个流式处理场景：我再说话，我编写好的一个sparkstreaming做词频统计1.模拟说话：nc-lk3399flumesource:avro(qyl01:3399)channel:memorysink:kafkasink模拟实时的日志生成：echoaabbcc>>/home/qyl/logs/flume.logflumesource：exec(tail-f)channel:memo
Flume Source原理与代码实例讲解 AI天才研究院计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
FlumeSource原理与代码实例讲解1.背景介绍ApacheFlume是一个分布式、可靠且高可用的海量日志采集、聚合和传输的系统,它是Apache软件基金会的一个顶级项目。在大数据时代,日志数据作为企业的重要资产,如何高效地收集和传输海量日志数据成为了一个迫切需要解决的问题。Flume应运而生,它可以从不同的数据源采集数据,经过聚合后再将数据传输到下一个节点,最终存储到HDFS、HBase或S
SparkStreaming概述淋一遍下雨天 spark 大数据学习
SparkStreaming主要用于流式计算，处理实时数据。DStream是SparkStreaming中的数据抽象模型，表示随着时间推移收到的数据序列。SparkStreaming支持多种数据输入源（如Kafka、Flume、Twitter、TCP套接字等）和数据输出位置（如HDFS、数据库等）。SparkStreaming特点易用性：支持Java、Python、Scala等编程语言，编写实时计
kafka spark java_Kafka与Spark整合 weixin_39630247 kafka spark java
本篇文章帮大家学习Kafka与Spark整合，包含了Kafka与Spark整合使用方法、操作技巧、实例演示和注意事项，有一定的学习价值，大家可以用来参考。在本章中，将讨论如何将apacheKafka与SparkStreamingAPI集成。Spark是什么？SparkStreamingAPI支持实时数据流的可扩展，高吞吐量，容错流处理。数据可以从Kafka，Flume，Twitter等许多来源获取
Spark-Streaming 美味的大香蕉笔记
探索Spark-Streaming：实时数据处理的得力助手在大数据处理领域，实时处理越来越重要。今天就来聊一聊Spark生态中处理流式数据的利器——Spark-Streaming。Spark-Streaming主要用于处理流式数据，像从Kafka、Flume等数据源来的数据，它都能轻松应对。它使用离散化流（DStream）作为核心抽象。简单来说，DStream就是把随时间收到的数据，按照时间区间封
数据中台架构与技术体系 Aurora_NeAr 架构大数据
数据中台整体架构设计数据中台分层架构数据采集层数据源类型：业务系统（ERP、CRM）、日志、IoT设备、第三方API等。采集方式：实时采集：Kafka、FlinkCDC（变更数据捕获）。离线采集：Sqoop、DataX（批量同步数据库）。日志采集：Flume、Filebeat。数据缓冲与预处理：使用消息队列（如Kafka）作为缓冲区，应对数据流量峰值。数据存储层数据湖（DataLake）：存储原始
大数据面试题目_综合面试_hadoop面试题_hive面试题_sqoop面试题_spark面试题_flume面试题_kafka面试题---大数据面试题007 添柴程序猿大数据 hadoop hive 大数据面试题 flume
大数据面试:1.说一下hadoop的集群部署模式有哪几种,完全分布式如何部署以及配置?2.hadoop的守护进程有哪些?2.之前的公司,为什么要离职?3.之前公司的待遇工资多少?4.用Flink处理过什么场景的业务,是如何实现的,说一下流程?5.有没有用过NIFI?6.做的时候后端是如何做的,用的什么框架?有没有了解过springcloudTencent?7.hadoop中的代理用户功能的作用,和
探索Hadoop生态圈：核心组件介绍放。756 hadoop 大数据分布式
Hadoop生态圈包括多个组件，如HDFS提供分布式存储，MapReduce处理大数据计算，YARN管理资源调度，HBase支持非结构化数据存储，Hive实现数据仓库功能，Pig提供高级数据流处理，Sqoop实现数据迁移，Flume处理日志收集等。这些组件共同构建起强大的大数据处理框架。
flume 负载均衡详解 goTsHgo flume 大数据分布式 flume 负载均衡大数据
ApacheFlume是一个分布式、可靠且可用的系统，旨在有效地从多个数据源收集、聚合和移动大量日志数据到集中存储系统（如HDFS、HBase等）。在数据传输过程中，负载均衡是Flume的一个重要功能，它有助于确保多个节点间的负载均匀分布，从而提高系统的稳定性和吞吐量。从Flume的架构角度来看，它的负载均衡涉及多个组件，包括Source、Channel和Sink，下面我们逐层从底层原理和部分源代
数据仓库：如何解决ODS数据零点漂移问题夜希辰数据仓库大数据
本篇文章讲解的是从业务库同步数据至数仓导致的零点漂移，查看flume+kafka同步数据导致的零点漂移参考该文章：业务数据采集_零点漂移处理方法(Flume+Kafka+HDFS)一、数据零点漂移概念1、什么是零点漂移：数据零点漂移指的是数据同步过程中，ODS表按时间字段分区时，同一个业务日期(分区)包含前一天的数据或丢失了当天的数据、或者包含后一天凌晨附近的数据。由于ODS需要承接面向历史的细节
Windows PC上创建大数据职业技能竞赛实验环境之六--Flume、Kafka和Flink编程 liu9ang 大数据平台 hadoop kafka flink redis
1Flume参看日志采集工具Flume的安装与使用方法_厦大数据库实验室博客(xmu.edu.cn)。查看Flume安装root@client1:~#flume-ngversionFlume1.7.0Sourcecoderepository:https://git-wip-us.apache.org/repos/asf/flume.gitRevision:511d868555dd4d16e6ce4
flume面试题整理狂飙婴儿车笔记 flume 数据库 flume hadoop
flume1.什么是flumeflume是一个分布式的基于流式架构的海量日志采集聚合传输的系统有高可用性和高可靠性2.flume由什么组成的？*Agent*：一个jvm进程以event（事件）为基本单元对数据进行传输由source、channel、sink组成source：收集数据以event为单元进行封装发送给channel常见的source有：1）netcattcpsource:用来监听端口数
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
Flume与Couchbase集成原理与实例 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Flume与Couchbase集成原理与实例作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着大数据时代的到来，企业对数据存储和处理的效率要求越来越高。在数据采集、存储、处理和分析的各个环节，都需要高效、可靠的技术支持。Flume和Couchbase正是这样两种优秀的工具，前者擅长于数据采集和传输，后者擅长于键值存储和文
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">

Flume-NG源码阅读之AvroSink

你可能感兴趣的:(Flume)