律为

最全Flume常用配置文件详情解析

1、Source配置项(常见配置项)
- 1.1 Avro Source
- 1.2 NetCat Source
- 1.3 Exec Source
- 1.4 Spooling Directory Source
- 1.5 Taildir Source
- 1.6 Thrift Source
- 1.7 Kafka Source
- 1.8 Sequence Generator Source
- 1.9 HTTP Source
2、Channels 配置项（常见配置项）
- 2.1 Memory Channel
- 2.2 JDBC Channel
- 2.3 kafka Channel
- 2.4 File Channel
3、Sink 配置项（常见配置项）
- 3.1 Logger Sink
- 3.2 HDFS Sink
- 3.3 Hive Sink
- 3.4 Avro Sink
- 3.5 Thrift Sink
- 3.6 File Roll Sink
- 3.7 HBaseSinks
- - 3.7.1 HBaseSink
  - 3.7.2 AsyncHBaseSink
- 3.8 ElasticSearchSink
- 3.9 Kafka Sink

注：以下配置项均为常见配置项，查询详细配置项可以访问 Flume官网。

1、Source配置项(常见配置项)

1.1 Avro Source

不同主机上的Agent通过网络传输数据可使用的Source，一般是接受Avro client的数据，或和是上一级Agent的Avro Sink成对存在。

配置项名称	默认值	描述
Channel	—
type	—	组件类型名称，必须为avro
bind	—	要监听的主机名或IP地址
port	—	要绑定的端口号
threads	—	产生的最大工作线程数
ipFilterRules	—	使用此配置定义N个netty ipFilter模式规则。
selector.type
selector.*
interceptors	—	拦截器列表
interceptors.*
compression-type	none	可设置为“none” 或 “deflate”. 压缩类型需要和AvroSource匹配

1.2 NetCat Source

NetCat Source可以使用TCP和UDP两种协议方式，使用方法基本相同，通过监听指定的IP和端口来传输数据，它会将监听到的每一行数据转化成一个Event写入到Channel中。

配置项名称	默认值	描述
channels	—
type	—	类型指定为：netcat
bind	—	绑定机器名或IP地址
port	—	端口号
max-line-length	512	一行的最大字节数
ack-every-event	true	对成功接受的Event返回OK
selector.type	replicating	选择器类型replicating or multiplexing
selector.*		选择器相关参数
interceptors	—	拦截器列表，多个以空格分隔
interceptors.*		拦截器相关参数

1.3 Exec Source

Exec source通过执行给定的Unix命令的传输结果数据，如，cat，tail -F等，实时性比较高，但是一旦Agent进程出现问题，可能会导致数据的丢失。

配置项名称	默认值	描述
channels
type	_	类型指定为：exec
command	–	需要去执行的命令
shell	_	运行命令的shell脚本文件
restartThrottle	10000	尝试重启的超时时间
restart	false	如果命令执行失败，是否重启
logStdErr	false	是否记录错误日志
batchSize	20	批次写入channel的最大日志数量
batchTimeout	3000	批次写入数据的最大等待时间（毫秒）
selector.type	replicating	选择器类型replicating or multiplexing
selector.*		选择器其他参数
interceptors	–	拦截器列表，多个空格分隔
interceptors.*

1.4 Spooling Directory Source

通过监控一个文件夹将新增文件内容转换成Event传输数据，特点是不会丢失数据，使用Spooling Directory Source需要注意的两点是，1)不能对被监控的文件夹下的新增的文件做出任何更改，2）新增到监控文件夹的文件名称必须是唯一的。由于是对整个新增文件的监控，Spooling Directory Source的实时性相对较低，不过可以采用对文件高粒度分割达到近似实时

配置项名称	默认值	描述
channels
type	_	类型指定：spooldir.
spoolDir	–	被监控的文件夹目录
fileSuffix	.COMPLETED	完成数据传输的文件后缀标志
deletePolicy	never	删除已经完成数据传输的文件时间：never or immediate
fileHeader	false	是否在header中添加文件的完整路径信息
fileHeaderKey	file	如果header中添加文件的完整路径信息时key的名称
basenameHeader	false	是否在header中添加文件的基本名称信息
basenameHeaderKey	basename	如果header中添加文件的基本名称信息时key的名称
includePattern	^.*$	使用正则来匹配新增文件需要被传输数据的文件
ignorePattern	^$	使用正则来忽略新增的文件
trackerDir	.flumespool	存储元数据信息目录
consumeOrder	oldest	文件消费顺序：oldest, youngest and random.
maxBackoff	4000	如果channel容量不足，尝试写入的超时时间，如果仍然不能写入，则会抛出ChannelException
batchSize	100	批次处理粒度
inputCharset	UTF-8	输入码表格式
decodeErrorPolicy	FAIL	遇到不可解码字符后的处理方式：FAIL，REPLACE，IGNORE
selector.type	replicating	选择器类型：replicating or multiplexing
selector.*		选择器其他参数
interceptors	—	拦截器列表，空格分隔
interceptors.*	–

1.5 Taildir Source

可以实时的监控指定一个或多个文件中的新增内容，由于该方式将数据的偏移量保存在一个指定的json文件中，即使在Agent挂掉或被kill也不会有数据的丢失，需要注意的是，该Source不能在Windows上使用。

配置项名称	默认值	描述
channels	-
type	-	指定类型：TAILDIR.
filegroups	-	文件组的名称，多个空格分隔
filegroups.< filegroupName>	-	被监控文件的绝对路径
positionFile	~/.flume/taildir_position.json	存储数据偏移量路径
headers.< filegroupName>.< headerKey>	-	Header key的名称
byteOffsetHeader	false	是否添加字节偏移量到key为‘byteoffset’值中
skipToEnd	false	当偏移量不能写入到文件时是否跳到文件结尾
idleTimeout	120000	关闭没有新增内容的文件超时时间（毫秒
writePosInterval	3000	在positionfile 写入每一个文件lastposition的时间间隔
batchSize	100	批次处理行数
fileHeader	false	是否添加header存储文件绝对路径
fileHeaderKey	file	fileHeader启用时，使用的key

1.6 Thrift Source

监听节省端口并从外部节省客户端流接收事件。当与另一个(前一个跃点)Flume代理上的内置ThriftSink配对时，它可以创建分层的集合拓扑。通过启用kerberos身份验证，可以将Thrift source配置为以安全模式启动。代理-主体和代理-keytab是Thrift源用于向kerberos KDC进行身份验证的属性。所需属性以粗体显示。

配置项名称	默认值	描述
Channel	-
type	-	组件类型名称，必须为Thrift
bind	–	要监听的主机名或IP地址
port	-	要绑定到的端口#
threads	-	产生的最大工作线程数
selector.type	–
selector.*
interceptors	-	空格分隔的拦截器列表
interceptors.*	–
ssl	false	将其设置为true以启用SSL加密。您还必须指定“密钥存储库”和“密钥存储库-密码”。
keystore		这是Java密钥存储库文件的路径。SSL所必需的。
keystore-password	–	Java密钥存储库的密码。SSL所必需的。
keystore-type	JKS	Java密钥存储库的类型。可以是“JKS”或“PKCS12”。
exclude-protocols	SSLv3	要排除的SSL/TLS协议的空格分隔列表。SSLv3总是被排除在外除了指定的协议。
kerberos	false	设置为true以启用kerberos身份验证。在kerberos模式下，成功的身份验证需要代理-主体和代理-keytab。在安全模式下的节约源将只接受来自启用kerberos并成功地通过kerberos KDC身份验证的节约客户机的连接。
agent-principal	-	节约源用于对kerberos KDC进行身份验证的kerberos主体。
agent-keytab	-	节约源与代理-主体组合使用的用于向kerberos KDC进行身份验证的keytab位置。

1.7 Kafka Source

Kafka Source是一个Apache Kafka消费者，它读取来自Kafka主题的消息。如果有多个Kafka源在运行，可以将它们配置为相同的使用者组，这样每个使用者都将为主题读取一组惟一的分区。

配置项名称	默认值	描述
channels	-
type	-	组件类型名需要为org.apache.flume.source.kafka.KafkaSource
kafka.bootstrap.servers	-	源使用的Kafka集群中的代理列表
kafka.consumer.group.id	flume	消费者群体的唯一标识。在多个源或代理中设置相同的id表明它们属于同一使用者组
kafka.topics	–	以逗号分隔的主题从kafka消费者将读取消息。
kafka.topics.regex	-	定义源订阅的主题集的正则表达式。这个属性比kafka具有更高的优先级。主题和超越kafka,如果存在主题
batchSize	1000	在一个批处理中写入信道的最大消息数
batchDurationMillis	1000	最大时间(在ms)之前批将被写入通道批将被写入第一个大小和时间将达到。
backoffSleepIncrement	1000	当Kafka主题为空时触发的初始和增量等待时间。等待时间将减少空洞的kafka主题的侵略性脉冲。对于摄入用例来说，一秒是理想的，但是对于使用拦截器的低延迟操作，可能需要更低的值。
maxBackoffSleep	5000	当Kafka主题显示为空时触发的最大等待时间。对于摄入用例，5秒是理想的，但是对于使用拦截器的低延迟操作，可能需要更低的值。
useFlumeEventFormat	false	默认事件作为字节从卡夫卡的话题直接进入身体。设置为true以Flume Avro二进制格式读取事件。与KafkaSink上的相同属性或Kafka通道上的parseAsFlumeEvent属性一起使用，这将保留在生成端发送的所有Flume头文件。
migrateZookeeperOffsets	true	当没有找到Kafka存储的偏移量时，在Zookeeper中查找偏移量并将其提交给Kafka。这应该是真实的，以支持无缝Kafka客户端迁移从旧版本的Flume。迁移后可以将其设置为false，但通常不需要这样做。如果没有发现Zookeeper偏移量，则Kafka配置Kafka .consumer.auto.offset。reset定义如何处理偏移量。查看Kafka文档了解详细信息
kafka.consumer.security.protocol	PLAINTEXT	SASL_PLAINTEXT, SASL_SSL或SSL如果写信给卡夫卡使用某种程度的安全。参见下面的附加信息安全设置。
more consumer security props	–	如果使用sasl_明文，则SASL_SSL或SSL引用Kafka安全性来获得需要在消费者上设置的其他属性。
Other Kafka Consumer Properties		这些属性用于配置Kafka使用者。可以使用Kafka支持的任何消费者属性。惟一的要求是在属性名前加上前缀kafka.consumer。例如:kafka.consumer.auto.offset.reset

弃用属性

配置项名称	默认值	描述
topic	-	使用kafka.topics
groupId	-	使用kafka.consumer.group.id
zookeeperConnect	-	从0.9.x开始kafka消费者客户端不再支持它。使用kafka.bootstrap。服务器与kafka集群建立连接

1.8 Sequence Generator Source

一个简单的序列生成器，它通过一个计数器连续地生成事件，计数器从0开始，递增1，并在totalEvents停止。重试的时候无法发送事件通道。主要用于测试。所需属性以粗体显示。

配置项名称	默认值	描述
channels	-
type	-	组件类型名称，需要seq
selector.type	-	复制或多路复用
selector.*	replicating	取决于选择器。类型值
interceptors	-	空格分隔的列表的拦截器
interceptors.*
batchSize	1
totalEvents	Long.MAX_VALUE	long类型最大值，由源发送的唯一事件数。

1.9 HTTP Source

源通过HTTP POST和GET接受水槽事件。GET只能用于实验。HTTP请求被一个必须实现HTTPSourceHandler接口的可插入“处理程序”转换为flume事件。这个处理程序接受一个HttpServletRequest并返回一个flume事件列表。从一个Http请求处理的所有事件都在一个事务中提交给通道，从而提高了通道(如文件通道)的效率。如果处理程序抛出异常，该源将返回HTTP状态为400。如果通道已满，或源无法向通道追加事件，则源将返回HTTP 503 -暂时不可用状态。

在一个post请求中发送的所有事件被视为一个批处理，并插入到一个事务中的通道中。

配置项名称	默认值	描述
type	-	组件类型名称，需要是http
port	-	应该绑定到的端口。
bind	0.0.0.0	监听的主机名或IP地址
handler	org.apache.flume.source.http.JSONHandler	处理程序类的FQCN。
handler.*	-	处理程序的配置参数
selector.type	replicating	复制或多路复用
selector.*		取决于选择器。类型值
interceptors		空格分隔的列表的拦截器
interceptors.*	–
enableSSL	false	将属性设置为true，以启用SSL。HTTP源不支持SSLv3。
excludeProtocols	SSLv3	要排除的SSL/TLS协议的空格分隔列表。SSLv3总是被排除在外。
keystore	–	密钥存储库的位置，包括密钥存储库文件名
keystorePassword	Keystore password

2、Channels 配置项（常见配置项）

2.1 Memory Channel

Memory Channel是使用内存来存储Event，使用内存的意味着数据传输速率会很快，但是当Agent挂掉后，存储在Channel中的数据将会丢失。

配置项名称	默认值	描述
type	-	组件名称，必须为 memory
capacity	100	channel最大能存储的event数量
transactionCapacity	300	每次事务中能从source中拉取或下沉到sink的最大event数量
keep-alive	3	添加
byteCapacityBufferPercentage	20	定义byteCapacityBuffer 的占比，它与 byteCapacity之和为100%，byteCapacity见下栏
byteCapacity	see 描述	在这个channel中允许存放的最大字节数这个字节数只计算event body,这也是需要提供 byteCapacityBufferPercentage 配置参数的原因。默认为JVM可用最大内存的80% (即通过命令行传递的-Xmx值的80%)。注意，如果一个agent里面包含了多个channel，channel里面又包含了多个相同的events，那么这些events会被重复计算。将它设为 0 将会导致这个值强制设定为200GB的容量

2.2 JDBC Channel

事件存储在由数据库支持的持久存储中。JDBC通道目前支持嵌入式Derby。这是一个持久的通道，对于可恢复性非常重要的流来说非常理想。

配置项名称	默认值	描述
type	–	组件类型名需要是jdbc
db.type	DERBY	数据库供应商，需要是DERBY。
driver.class	org.apache.derby.jdbc.EmbeddedDriver	用于供应商的JDBC驱动程序的类
driver.url	(constructed from other properties)	JDBC连接URL
db.username	“sa”	数据库连接的用户id
db.password	–	db连接密码
connection.properties.file	–	JDBC连接属性文件的路径
create.schema	true	如果为真，则创建db模式
create.index	true	创建索引以加速查找
create.foreignkey	true
transaction.isolation	“READ_COMMITTED”	db会话的隔离级别:READ_UNCOMMITTED, READ_COMMITTED, SERIALIZABLE, REPEATABLE_READ
maximum.connections	10	允许db的最大连接数
maximum.capacity	0 (unlimited)	通道中事件的最大数量
sysprop.*		供应商特定属性
sysprop.user.home	–	存储嵌入式Derby数据库的主路径

2.3 kafka Channel

事件存储在Kafka集群中(必须单独安装)。Kafka提供了高可用性和复制，因此在代理或Kafka代理崩溃时，其他接收器可以立即使用这些事件

配置项名称	默认值	描述
type	-	组件类型名，需要是org.apache.flume.channel. kafkar . kafkachannel
kafka.bootstrap.servers	-	通道使用的Kafka集群中的代理列表这可以是代理列表的一部分，但是我们建议对于HA至少有两个。格式是用逗号分隔的主机名列表:端口
kafka.topic	flume-channe	频道将使用kafka主题
kafka.consumer.group.id	flume	通道用于向Kafka注册的消费者组ID。多个通道必须使用相同的主题和组，以确保当一个代理失败时，另一个代理可以获得数据。注意，具有相同ID的非通道使用者可能会导致数据丢失。
parseAsFlumeEvent	true	期望在通道中使用FlumeEvent模式的Avro datums。如果Flume source写入到该频道，则为true;如果其他生产者写入到该频道使用的主题，则为false。可以使用org.apache.flume.source.avro在Flume外部解析给Kafka的Flume源消息。AvroFlumeEvent flume-ng-sdk提供的工件
migrateZookeeperOffsets	true	当没有找到Kafka存储的偏移量时，在Zookeeper中查找偏移量并将其提交给Kafka。这应该是真实的，以支持无缝Kafka客户端迁移从旧版本的Flume。迁移后可以将其设置为false，但通常不需要这样做。如果没有找到Zookeeper偏移量，则kafkar .consumer.auto.offset。重置配置定义了如何处理偏移量。
pollTimeout	500	在使用者的“poll()”调用中等待的时间(以毫秒为单位)。https://kafka.apache.org/090/javadoc/org/apache/kafka/clients/consumer/KafkaConsumer.html调查(长)
defaultPartitionId	-	指定此通道中要发送到的所有事件的Kafka分区ID(整数)，除非partitionIdHeader覆盖。默认情况下，如果没有设置此属性，则事件将由Kafka生成器的分词器分发——如果指定，包括按键分发(或者由Kafka .partitioner.class指定的分词器分发)。
partitionIdHeader	–	设置后，生成器将从事件头获取使用此属性值命名的字段的值，并将消息发送到主题的指定分区。如果该值表示无效分区，则通道将不接受该事件。如果头值存在，则此设置将覆盖defaultPartitionId。
kafka.consumer.auto.offset.reset	latest	当没有初始偏移kafka或如果当前偏移量不存在服务器上的任何更多的(例如,因为数据已被删除):最早:自动重置抵消最早抵消最新:自动重置抵消最新抵消没有:抛出异常的消费者如果没有找到以前的抵消消费者集团其他:消费者抛出例外。
kafka.producer.security.protocol	PLAINTEXT	SASL_PLAINTEXT, SASL_SSL或SSL如果写信给卡夫卡使用某种程度的安全。参见下面的附加信息安全设置。
kafka.consumer.security.protocol	PLAINTEXT	kafka.producer.security一样。协议，但读取/消费从kafka
more producer/consumer security props	-	如果使用sasl_明文，则SASL_SSL或SSL引用Kafka安全性来获得需要在生产者/消费者上设置的其他属性。

弃用模式

配置项名称	默认值	描述
brokerList	-	通道使用的Kafka集群中的代理列表这可以是代理列表的一部分，但是我们建议对于HA至少有两个。格式是用逗号分隔的主机名列表:端口
topic	flume-channel	使用kafka.topic
groupId	flume	使用kafka.consumer.group.id
readSmallestOffset	false	使用kafka.consumer.auto.offset.reset

2.4 File Channel

File Channel使用磁盘来存储Event，速率相对于Memory Channel较慢，但数据不会丢失。

配置项名称	默认值	描述
type	–	组件名称，必须为 file.
checkpointDir	~/.flume/file-channel/checkpoint	checkpoint文件的存储目录
useDualCheckpoints	false	备份checkpoint文件，如果它为 true, backupCheckpointDir 必须被设置
backupCheckpointDir	–	用于备份的checkpoint目录，它必须不能与原checkpoint目录一样
dataDirs	~/.flume/file-channel/data	‘，’分隔的目录列表，用于存储日志文件。在不同的磁盘上使用多个目录可以提高filechannel的性能
transactionCapacity	10000	channel支持的最大事务数
checkpointInterval	30000	checkpoint之间的最大时间间隔
maxFileSize	2146435071	单个日志文件最大的字节数
minimumRequiredSpace	524288000	最少需要的空闲空间(以字节为单位)。为了避免数据损坏，当空闲空间低于此值时，filechannel将停止接受take/put请求
capacity	1000000	单个channel存储的最大容量
keep-alive	3	一个put操作执行的最大时间
checkpointOnClose	true	在关闭时是否创建检查点，如果设置为true，可以加速filechannel的后续启动。

3、Sink 配置项（常见配置项）

3.1 Logger Sink

Logger Sink以INFO 级别的日志记录到log日志中，这种方式通常用于测试。

配置项名称	默认值	描述
channel	–
type	–	类型指定：logger
maxBytesToLog	16	能够记录的最大Event Body字节数

3.2 HDFS Sink

Sink数据到HDFS，目前支持text 和 sequence files两种文件格式，支持压缩，并可以对数据进行分区，分桶存储。’

配置项名称	默认值	描述
channel	–
type	–	指定类型：hdfs
hdfs.path	–	HDFS的路径，eg hdfs://namenode/flume/webdata/
hdfs.filePrefix	FlumeData	保存数据文件的前缀名
hdfs.fileSuffix	–	保存数据文件的后缀名
hdfs.inUsePrefix	–	临时写入的文件前缀名
hdfs.inUseSuffix	.tmp	临时写入的文件后缀名
hdfs.rollInterval	30	间隔多长将临时文件滚动成最终目标文件，单位：秒，如果设置成0，则表示不根据时间来滚动文件
hdfs.rollSize	1024	当临时文件达到多少（单位：bytes）时，滚动成目标文件，如果设置成0，则表示不根据临时文件大小来滚动文件
hdfs.rollCount	10	当 events 数据达到该数量时候，将临时文件滚动成目标文件，如果设置成0，则表示不根据events数据来滚动文件
hdfs.idleTimeout	0	当目前被打开的临时文件在该参数指定的时间（秒）内，没有任何数据写入，则将该临时文件关闭并重命名成目标文件
hdfs.batchSize	100	每个批次刷新到 HDFS 上的 events 数量
hdfs.codeC	–	文件压缩格式，包括：gzip, bzip2, lzo, lzop, snappy
hdfs.fileType	SequenceFile	文件格式，包括：SequenceFile, DataStream,CompressedStre，当使用DataStream时候，文件不会被压缩，不需要设置hdfs.codeC; 当使用CompressedStream时候，必须设置一个正确的hdfs.codeC值；
hdfs.maxOpenFiles	5000	最大允许打开的HDFS文件数，当打开的文件数达到该值，最早打开的文件将会被关闭
hdfs.minBlockReplicas	–	HDFS副本数，写入 HDFS 文件块的最小副本数。该参数会影响文件的滚动配置，一般将该参数配置成1，才可以按照配置正确滚动文件
hdfs.writeFormat	Writable	写 sequence 文件的格式。包含：Text, Writable（默认）
hdfs.callTimeout	10000	执行HDFS操作的超时时间（单位：毫秒）
hdfs.threadsPoolSize	10	hdfs sink 启动的操作HDFS的线程数
hdfs.rollTimerPoolSize	1	hdfs sink 启动的根据时间滚动文件的线程数
hdfs.kerberosPrincipal	–	HDFS安全认证kerberos配置
hdfs.kerberosKeytab	–	HDFS安全认证kerberos配置
hdfs.proxyUser	–	代理用户
hdfs.round	false	是否启用时间上的”舍弃”
hdfs.roundValue	1	时间上进行“舍弃”的值
hdfs.roundUnit	second	时间上进行”舍弃”的单位，包含：second,minute,hour
hdfs.timeZone	Local Time	时区。
hdfs.useLocalTimeStamp	false	是否使用当地时间
hdfs.closeTries 0	Number	hdfs sink 关闭文件的尝试次数；如果设置为1，当一次关闭文件失败后，hdfs sink将不会再次尝试关闭文件，这个未关闭的文件将会一直留在那，并且是打开状态；设置为0，当一次关闭失败后，hdfs sink会继续尝试下一次关闭，直到成功
hdfs.retryInterval	180	hdfs sink 尝试关闭文件的时间间隔，如果设置为0，表示不尝试，相当于于将hdfs.closeTries设置成1
serializer	TEXT	序列化类型
serializer.*

3.3 Hive Sink

此接收器将包含分隔文本或JSON数据的事件直接流到Hive表或分区中。事件是使用Hive事务编写的。只要将一组事件提交到Hive，它们就会立即对Hive查询可见。flume将流到的分区既可以预先创建，也可以选择在缺少分区时创建它们。来自传入事件数据的字段被映射到Hive表中的相应列。

配置项名称	默认值	描述
channel	–
type	–	组件类型名称，需要为hive
hive.metastore	–	Hive metastore URI(例如thrift://a.b.com:9083)
hive.database	–	数据库名称
hive.table	–	表名称
hive.partition	–	逗号分隔标识要写入的分区的分区值列表。可能包含转义序列。E。g:如果表按(continent: string, country:string, time:string)分区，那么’ Asia,India,2014-02-26-01-21 '将表示continent=Asia,country=India,time=2014-02-26-01-21
hive.txnsPerBatchAsk	100	Hive像Flume一样向流客户端授予一批事务而不是单个事务。此设置配置每个事务批处理所需的事务数量。来自单个批处理的所有事务的数据最终会出现在单个文件中。Flume将在批处理中的每个事务中写入批大小事件的最大值。此设置与batchSize一起提供了对每个文件大小的控制。注意这些文件到最终蜂巢将透明地紧凑的大文件。
heartBeatInterval	240	发送到Hive的连续心跳之间的时间间隔(以秒为单位)，以防止未使用的事务过期。将此值设置为0可禁用心跳。
autoCreatePartitions	true	Flume将自动创建流到的必要的Hive分区
batchSize	15000	单个Hive事务中能写入的最大event数量
maxOpenConnections	500	只允许此数目的打开连接。如果超过此数字，则关闭最近最少使用的连接。
callTimeout	10000	(毫秒)Hive & HDFS I/O操作的超时，比如openTxn、写、提交、中止。
serializer		Serializer负责从事件中解析出字段，并将它们映射到hive表中的列。序列化器的选择取决于事件中数据的格式。支持序列化器:分隔和JSON
roundUnit	minute	四舍五入值的单位——second, minute 或 hour.
roundValue	1	四舍五入到该时间的最高倍数(在使用hive.roundUnit配置的单元中)，小于当前时间
timeZone	Local Time	用于解析分区中的转义序列的时区名称，例如America/Los_Angeles。
useLocalTimeStamp	false	在替换转义序列时使用本地时间(而不是事件头中的时间戳)。

3.4 Avro Sink

发送到此接收器的Flume事件被转换为Avro事件，并发送到配置的主机名/端口对。事件以配置的批大小批次从配置的通道获取。

配置项名称	默认值	描述
channel	–
type	–	组件类型名，需要是avro。
hostname	–	要绑定到的主机名或IP地址。
port	–	要监听的端口
batch-size	100	要一起批处理以发送的事件数目
connect-timeout	20000	允许第一次(握手)请求的时间量(ms)。
request-timeout	20000	允许第一次请求之后的时间量(ms)。
reset-connection-interva	none	重置到下一跳的连接之前的时间量。这将迫使Avro接收器重新连接到下一跳。这将允许接收在添加新主机时连接到硬件负载均衡器后的主机，而无需重新启动代理。
compression-type	none	这可以是“none”或“deflate”。压缩类型必须与匹配的AvroSource的压缩类型匹配
compression-leve	6	压缩事件的压缩级别。0 =无压缩，1-9为压缩。数字越高压缩越多
ssl	false	设置为true为此AvroSink启用SSL。在配置SSL时，您可以选择设置“信任库”、“信任库-密码”、“信任库-类型”，并指定是否设置“信任-所有证书”。
trust-all-certs	false	如果将此设置为true，则不会检查用于远程服务器(Avro源)的SSL服务器证书。不应该在生产环境中使用这种方法，因为它使攻击者更容易执行中间人攻击并“监听”加密连接
truststore	–	自定义Java信任库文件的路径。Flume使用此文件中的证书权威信息来确定是否应该信任远程Avro源的SSL身份验证凭据。如果没有指定，将使用默认的Java JSSE证书权威文件(通常是Oracle JRE中的“jssecacerts”或“cacerts”)。
truststore-password	–	指定信任存储库的密码
truststore-type	JKS	Java信任存储的类型。可以是“JKS”或其他受支持的Java信任存储库类型。
exclude-protocols	SSLv3	要排除的SSL/TLS协议的空格分隔列表。SSLv3总是被排除在外除了指定的协议。
maxIoWorkers	2 * the number of available processors in the machine	I/O工作线程的最大数目。这是在NettyAvroRpcClient NioClientSocketChannelFactory上配置的。

3.5 Thrift Sink

通过启用kerberos身份验证，可以将节约接收配置为以安全模式启动。要与在安全模式下启动的节省源通信，节省接收器也应该在安全模式下操作。客户机-主体和客户机-keytab是节省接收器用于对kerberos KDC进行身份验证的属性。服务器主体表示此接收器配置为以安全模式连接的节约源的主体。

配置项名称	默认值	描述
channe
type		组件类型名称，需要thrift
hostname	–	要绑定到的主机名或IP地址。
port		要监听的端口#。
batch-size	100	要一起批处理以发送的事件数目。
connect-timeout	20000	允许第一次(握手)请求的时间量(ms)。
request-timeout	20000	允许第一次请求之后的时间量(ms)。
connection-reset-interval	none	重置到下一跳的连接之前的时间量。这将迫使节俭接收器重新连接到下一跳。这将允许接收在添加新主机时连接到硬件负载均衡器后的主机，而无需重新启动代理。
ssl	false	设置为true为这个ThriftSink启用SSL。在配置SSL时，您可以选择设置“信任库”、“信任库-密码”和“信任库类型”
truststore	–	自定义Java信任库文件的路径。Flume使用此文件中的证书权威信息来确定是否应该信任远程节约源的SSL身份验证凭据。如果没有指定，将使用默认的Java JSSE证书权威文件(通常是Oracle JRE中的“jssecacerts”或“cacerts”)。
truststore-password	–	指定信任存储库的密码。
truststore-type	JKS	Java信任存储的类型。可以是“JKS”或其他受支持的Java信任存储库类型。
exclude-protocols	SSLv3	要排除的SSL/TLS协议的空格分隔列表
kerberos	false	设置为true以启用kerberos身份验证。在kerberos模式中，客户机-主体、客户机-keytab和服务器-主体是成功进行身份验证和与启用kerberos的节约源通信所必需的。
client-principal	–	节约接收用于对kerberos KDC进行身份验证的kerberos主体。
client-keytab	–	节约接收器与客户机-主体组合使用的用于对kerberos KDC进行身份验证的keytab位置。
server-principal	–	节省源的kerberos主体，节省接收器被配置连接到该源。

3.6 File Roll Sink

在本地文件系统上存储事件。

配置项名称	默认值	描述
channel	–
type	–	组件类型名需要是file_roll。
sink.directory	–	将存储文件的目录
sink.pathManager	DEFAULT	要使用的PathManager实现。
sink.pathManager.extension	–	如果使用默认的PathManager，则为文件扩展名。
sink.pathManager.prefix	–	如果使用默认的PathManager，要添加到文件名开头的字符串
sink.rollInterval	30	每30秒滚动一次文件。指定0将禁用滚动，并导致将所有事件写入单个文件。
sink.serializer	TEXT	其他可能的选项包括avro_event或EventSerializer实现的FQCN。构建器接口。
batchSize	100

3.7 HBaseSinks

这个接收器将数据写入HBase。Hbase配置从类路径中遇到的第一个Hbase -site.xml中获取。一个实现由配置指定的HbaseEventSerializer的类用于将事件转换为HBase put和/或增量。然后将这些put和增量写入HBase。这个接收器提供了与HBase相同的一致性保证，HBase目前是行原子性。如果Hbase无法写入某些事件，接收将重播该事务中的所有事件。

HBaseSink支持写入数据来保护HBase。要写入以保护HBase，代理运行的用户必须对接收器配置为写入的表具有写权限。可以在配置中指定用于对KDC进行身份验证的主体和keytab。Flume代理的类路径中的HBase -site.xml必须将身份验证设置为kerberos(有关如何做到这一点的详细信息，请参阅HBase文档)。

为了方便起见，提供了两个带有水槽的序列化器。SimpleHbaseEventSerializer按原样将事件体写入HBase，并可选择在HBase中增加一列。这主要是一个示例实现。RegexHbaseEventSerializer基于给定的正则表达式分解事件体，并将每个部分写入不同的列中。

类型是FQCN: org.apache.flume.sink.hbase.HBaseSink。

3.7.1 HBaseSink

配置项名称	默认值	描述
channel	–
–	–	–
type	–	组件类型名，需要是hbase
table	–	在Hbase中要写入的表的名称。
columnFamily	–	Hbase中要写入的列族。
zookeeperQuorum	–	法定人数规范。这是属性hbase.zookeeper的值。在hbase-site.xml法定人数
znodeParent	/hbase	根区域的znode的基本路径。zookeeper.znode的价值。父母在hbase-site.xml
batchSize	100	每个txn要写入的事件数。
coalesceIncrements	false	在每个批处理中，接收将多个增量合并到一个单元。如果对有限数量的单元进行多次递增，则可能会获得更好的性能。
serializer	org.apache.flume.sink.hbase.SimpleHbaseEventSerializer	默认增量列= " iCol "，有效负载列= " pCol "。
serializer.*	–	要传递给序列化器的属性。
kerberosPrincipal	–	用于访问安全HBase的Kerberos用户主体
kerberosKeytab	–	用于访问安全HBase的Kerberos keytab

3.7.2 AsyncHBaseSink

这个接收器使用异步模型将数据写入HBase。使用配置中指定的实现AsyncHbaseEventSerializer的类将事件转换为HBase put和/或增量。然后将这些put和增量写入HBase。这个接收器使用Asynchbase API来写入HBase。这个接收器提供了与HBase相同的一致性保证，HBase目前是行原子性。如果Hbase无法写入某些事件，接收将重播该事务中的所有事件。类型是FQCN: org.apache.flume.sink.hbase.AsyncHBaseSink

配置项名称	默认值	描述
channel	–
type	–	组件类型名称，需要是asynchbase
table	-	在Hbase中要写入的表的名称。
zookeeperQuorum	–	法定人数规范。这是属性hbase.zookeeper的值。在hbase-site.xml法定人数
znodeParent	/hbase	根区域的znode的基本路径。zookeeper.znode的价值。父母在hbase-site.xml
columnFamily	–	Hbase中要写入的列族。
batchSize	100	每个txn要写入的事件数。
coalesceIncrements	false	在每个批处理中，接收将多个增量合并到一个单元。如果对有限数量的单元进行多次递增，则可能会获得更好的性能。
timeout	60000	接收为事务中的所有事件从hbase等待ack的时间长度(以毫秒为单位)。
serializer	org.apache.flume.sink.hbase.SimpleAsyncHbaseEventSerializer
serializer.*	–	要传递给序列化器的属性。

3.8 ElasticSearchSink

这个接收器将数据写入一个elasticsearch集群。默认情况下，事件将被编写，以便Kibana图形界面可以显示它们——就像logstash编写它们一样。

您的环境所需的elasticsearch和lucene-core jar文件必须放在Apache Flume安装的lib目录中。Elasticsearch要求客户端JAR的主版本与服务器的主版本匹配，并且两者都运行相同的JVM小版本。如果不正确，将出现serializationexception。选择所需的版本首先确定elasticsearch和JVM版本的版本目标集群正在运行。然后选择一个与主版本匹配的elasticsearch客户端库。0.19。客户端可以与0.19通话。x集群;0.20。x可以和0.20通话。0.90 x和。x可以0.90.x说话。一旦确定了elasticsearch版本，然后读取pomc .xml文件，以确定要使用的正确lucene-core JAR版本。运行ElasticSearchSink的Flume代理还应该匹配目标集群正在运行的JVM，直到小版本。

事件将每天写入一个新索引。名称将是-yyyy-MM-dd，其中是indexName参数。接收器将在UTC午夜开始写入新索引。

默认情况下，事件由ElasticSearchLogStashEventSerializer为elasticsearch序列化。可以用序列化器参数覆盖此行为。这个参数接受org.apache.flume.sink.elasticsearch的实现。ElasticSearchEventSerializer或org.apache.flume.sink.elasticsearch.ElasticSearchIndexRequestBuilderFactory。实现ElasticSearchEventSerializer被弃用，取而代之的是更强大的ElasticSearchIndexRequestBuilderFactory。

类型是FQCN: org.apache.flume.sink.elasticsearch.ElasticSearchSink

配置项名称	默认值	描述
channel	–
type	–	组件类型名称，需要是org.apache.flume.sink.elasticsearch.ElasticSearchSink
hostNames	–	用逗号分隔的主机名列表:端口，如果端口不存在，将使用默认端口’ 9300 ’
indexName	flume	将添加日期的索引的名称。例如，“flume”->“flume-yyyy- mm -dd”支持任意头替换。%{header}替换为指定事件头的值
indexType	logs	文档索引的类型默认为“log”，支持任意头替换，例如。%{header}替换为指定事件头的值
clusterName	elasticsearch	要连接的ElasticSearch集群的名称
batchSize	100	每个txn要写入的事件数。
ttl	–	TTL在天，设置时将导致过期的文档被自动删除，如果没有设置文档将永远不会被自动删除。TTL只接受在早些时候的整数形式如a1.sinks.k1。ttl = 5,还限定符女士(毫秒),s(第二),m(分钟),h(小时)、d(天)和w(一周)。a1.sinks.k1示例。ttl = 5d将ttl设置为5天。请访问http://www.elasticsearch.org/guide/reference/mapping/ttl-field/获取更多信息。
serializer	org.apache.flume.sink.elasticsearch.ElasticSearchLogStashEventSerializer	使用的ElasticSearchIndexRequestBuilderFactory或ElasticSearchEventSerializer。这两个类的实现都被接受，但是ElasticSearchIndexRequestBuilderFactory是首选。
serializer.*	–	要传递给序列化器的属性。

注意，头替换可以方便地使用事件头的值来动态决定存储事件时要使用的indexName和indexType。在使用此特性时应谨慎，因为事件提交者现在已经控制了indexName和indexType。此外，如果使用了elasticsearch REST客户端，那么事件提交者就可以控制所使用的URL路径。

3.9 Kafka Sink

这是一个水槽实现，可以将数据发布到Kafka主题。目标之一是将水槽与Kafka集成，这样基于拉的处理系统就可以处理来自各种水槽源的数据。它目前支持Kafka 0.9。x系列发布。
这个版本的Flume（1.7.0）不再支持Kafka的旧版本(0.8.x)。

配置项名称	默认值	描述
type	–	必须设置为org.apache.flume.sink.kafka.KafkaSink
kafka.bootstrap.servers	–	Kafka-Sink将连接到的代理列表，为了获得主题分区的列表，这可以是代理列表的一部分，但是我们建议对于HA至少要有两个。格式是用逗号分隔的主机名列表:端口
kafka.topic	default-flume-topic	在kafka中，信息将被发布的主题。如果配置了此参数，则消息将发布到此主题。如果事件标头包含“topic”字段，则该事件将发布到该主题，覆盖此处配置的主题。
flumeBatchSize	100	在一个批处理中要处理的消息数量。更大的批在增加延迟的同时提高吞吐量。
kafka.producer.acks	1	在消息被认为成功写入之前，必须确认多少个副本。可接受的值为0 (Never wait for acknowledgement)、1 (wait for leader only)、-1 (wait for all副本)。将这个值设置为-1，以避免在某些leader失败的情况下丢失数据。
useFlumeEventFormat	false	默认情况下，事件作为字节直接从事件体放到Kafka主题中。设置为true将事件存储为Flume Avro二进制格式。与KafkaSource上的相同属性或与Kafka通道上的parseAsFlumeEvent属性一起使用，这将为生产方保留所有水槽头。
defaultPartitionId	–	指定此通道中要发送到的所有事件的Kafka分区ID(整数)，除非partitionIdHeader覆盖。默认情况下，如果没有设置此属性，则事件将由Kafka生成器的分词器分发——如果指定，包括按键分发(或者由Kafka .partitioner.class指定的分词器分发)。
partitionIdHeader	–	设置后，接收器将从事件头获取使用此属性值命名的字段的值，并将消息发送到主题的指定分区。如果该值表示一个无效的分区，则将抛出一个EventDeliveryException。如果头值存在，则此设置将覆盖defaultPartitionId
kafka.producer.security.protocol	PLAINTEXT	设置为sasl_明文，SASL_SSL或SSL(如果使用某种安全级别写入Kafka)。有关安全设置的更多信息，请参见下面。
more producer security props		如果使用sasl_明文，则SASL_SSL或SSL引用Kafka安全性来获得需要在producer上设置的其他属性。
Other Kafka Producer Properties	–	这些属性用于配置Kafka生成器。可以使用Kafka支持的任何生成器属性。惟一的要求是在属性名前加上前缀kafka.producer。例如:kafka.producer.linger.ms

注意，Kafka Sink使用来自FlumeEvent头部的主题和键属性将事件发送给Kafka。如果标题中存在主题，则事件将发送到该特定主题，覆盖为接收配置的主题。如果密钥存在于标题中，Kafka将使用该密钥在主题分区之间划分数据。具有相同键的事件将被发送到相同的分区。如果键为null，事件将被发送到随机分区。

Kafka接收器还为key.serializer和value.serializer提供了默认值。不建议修改这些参数。

弃用属性

配置项名称	默认值	描述
brokerList	–	使用kafka.bootstrap.servers
topic	default-flume-topic	使用kafka.topic
batchSize	100	使用kafka.flumeBatchSize
requiredAcks	1	使用kafka.producer.acks

你可能感兴趣的:(Flume,flume,大数据)

【前端开发】Uniapp分页器：新增输入框跳转功能
基于UniApp官方扩展组件库uni-ui中的uni-pagination分页器组件，针对大数据量场景进行优化主要优化以下内容：新增输入框跳转功能：在原有分页器基础上，新增了一个输入框区域，允许用户直接输入目标页码进行跳转双向页码绑定优化：实现了输入框与当前页码的双向绑定机制。当用户通过其他方式（如点击上一页、下一页、页码按钮）切换页面时，输入框会自动更新显示当前页码。同时，当用户在输入框中输入页
大数据技术之Flink
第1章Flink概述1.1Flink是什么1.2Flink特点1.3FlinkvsSparkStreaming表Flink和Streaming对比FlinkStreaming计算模型流计算微批处理时间语义事件时间、处理时间处理时间窗口多、灵活少、不灵活（窗口必须是批次的整数倍）状态有没有流式SQL有没有1.4Flink的应用场景1.5Flink分层API第2章Flink快速上手2.1创建项目在准备
如何在YashanDB中实现多级缓存策略数据库
随着大数据时代的到来，数据存储和访问的效率要求越来越高。数据库技术在面对海量数据、高并发访问时，性能瓶颈逐渐凸显，尤其是响应时间和系统吞吐量成为开发者和DBA关注的重点。为了解决这些问题，缓存策略被引入作为一种有效的解决方案。然而，不同类型的缓存（如内存缓存、磁盘缓存等）之间需要协调工作，以达到最佳性能。在此背景下，YashanDB作为一个云原生数据库，支持多级缓存策略，为数据访问提供了灵活的加速
蛋白质结构预测/功能注释/交互识别/按需设计，中国海洋大学张树刚团队直击蛋白质智能计算核心任务 hyperai
蛋白质作为生命活动的主要承担者，在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设计效率低下等挑战。近年来，生命科学对蛋白质复杂特性解析的需求日益迫切，大数据、深度学习、多模态计算等技术的突破性发展，为构建蛋白质智能计算体系提供了全新的发展契机。蛋白质智能计算体系的构建，使得蛋白质在大规模功能注释、交互预测及三维结构建模等领域取得显著成果，为药物发现与生
管理大数据存储的十大技巧 weixin_34238633 大数据数据库运维
在1990年，每一台应用服务器都倾向拥有直连式系统(DAS)。SAN的构建则是为了更大的规模和更高的效率提供共享的池存储。Hadoop已经逆转了这一趋势回归DAS。每一个Hadoop集群都拥有自身的——虽然是横向扩展型——直连式存储，这有助于Hadoop管理数据本地化，但也放弃了共享存储的规模和效率。如果你拥有多个实例或Hadoop发行版，那么你就将得到多个横向扩展的存储集群。而我们所遇到的最大挑
【计算机毕业设计】基于Springboot的办公用品管理系统+LW 枫叶学长(专业接毕设) Java毕业设计实战案例课程设计 spring boot 后端
博主介绍：✌全网粉丝3W+,csdn特邀作者、CSDN新星计划导师、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：
深入解析Spring Boot与Kafka集成：构建高性能消息驱动应用 Uranus^ Java Spring Boot Kafka 消息队列分布式系统
深入解析SpringBoot与Kafka集成：构建高性能消息驱动应用引言在现代分布式系统中，消息队列是实现异步通信和解耦的关键组件之一。ApacheKafka作为一种高性能、分布式的消息队列系统，被广泛应用于大数据处理、实时流处理以及事件驱动的架构中。本文将深入探讨如何在SpringBoot应用中集成Kafka，构建高性能的消息驱动应用。Kafka简介ApacheKafka是一个分布式流处理平台，
掌握大数据领域数据湖的部署要点
掌握大数据领域数据湖的部署要点关键词：数据湖,大数据部署,数据治理,存储架构,元数据管理,数据质量,湖仓一体摘要：在数据爆炸的时代，企业面临着"数据多却用不好"的困境——结构化数据藏在数据库里，非结构化数据堆在服务器上，半结构化数据散落在日志文件中。数据湖就像一个"智能中央仓库"，能统一存储所有类型的数据，并通过灵活的管理让数据"活起来"。本文将用"图书馆管理员建仓库"的故事，从概念理解、架构设计
（阳：算法霸权 / 阴：数据确权）→当GDPR类法规覆盖53%经济体量时，催生出隐私计算新范式百态老人人工智能机器学习深度学习算法
当GDPR类法规覆盖53%经济体量时，隐私计算新范式的兴起可归因于以下多维度因素的相互作用：一、算法霸权与数据确权的矛盾激化算法霸权的危害大型科技公司通过算法歧视、大数据杀熟等手段形成垄断优势，利用数据优势操控用户行为，导致消费者权益受损。这种"算法黑箱"不仅加剧市场不公平，还阻碍数据要素的自由流动。例如，算法框架的底层逻辑掌握在少数企业手中，产生"数据黑箱"问题。数据确权的立法需求数据权属不明确
解析大数据领域结构化数据的管理模式大数据洞察大数据 ai
解码结构化数据：大数据时代的高效管理模式与实践指南关键词结构化数据、大数据管理、数据建模、分布式数据库、数据仓库、数据治理、性能优化摘要在大数据的洪流中，结构化数据犹如隐藏在波涛之下的磐石，虽然不如非结构化数据那般引人注目，却是企业决策的基石。本文深入剖析了大数据环境下结构化数据的管理模式，从传统关系型数据库到现代分布式系统，从数据建模到存储架构，全面解读了结构化数据管理的核心技术与实践方法。通过
ClickHouse【理论篇】01：什么是ClickHouse
ClickHouse是一款开源的列式数据库管理系统（Column-OrientedDBMS），专为高性能实时数据分析（OLAP,OnlineAnalyticalProcessing）场景设计。它由俄罗斯搜索引擎公司Yandex开发（2016年开源），目前由独立基金会ClickHouse,Inc.维护，广泛应用于大数据分析、日志处理、用户行为洞察等领域。一、核心定位：OLAP场景的“性能标杆”传统关
【大数据入门核心技术-DolphinScheduler】（二）DolphinScheduler安装部署-集群模式 forest_long 大数据技术入门到21天通关大数据 spark hive hadoop 交互 flink mapreduce
目录一、部署模式1、单机模式2、伪集群模式3、集群模式二、部署安装1、下载2、创建mysql元数据库3、配置一键部署脚本4、初始化数据库5、一键部署DolphinScheduler6、访问DolphinSchedulerUI三、启停命令一、部署模式DolphinScheduler支持多种部署模式，包括单机模式（Standalone）、伪集群模式（PseudoCluster）、集群模式（Cluste
利用已有的 PostgreSQL 和 ZooKeeper 服务，启动dolphinscheduler-standalone-server3.1.9 镜像云游大数据平台 zookeeper docker postgresql 工作流任务调度
ApacheDolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。ApacheDolphinScheduler旨在解决复杂的大数据任务依赖关系，并为应用程序提供数据和各种OPS编排中的关系。解决数据研发ETL依赖错综复杂，无法监控任务健康状态的问题。DolphinSchedule
Alpha系统联结大数据、GPT两大功能，助力律所管理降本增效资讯分享周大数据 gpt
如何通过AI工具实现法律服务的提质增效,是每一位法律人都积极关注和学习的课题。但从AI技术火爆一下,法律人一直缺乏系统、实用的学习资料,来掌握在法律场景下AI的使用技巧。今年5月,iCourt携手贵阳律协大数据与人工智能专业委员会,联合举办了《人工智能助力律师行业高质量发展巡回讲座》,超过100家律所的律师参与活动。讲座上,iCourtAIGC研究员、AlphaGPT产品研发负责人兰洋,为贵州律协
电商API性能优化：策略体系与实施要点 Joe13265449558 性能优化电商返回值淘宝 API 接口京东
电商API性能优化策略介绍在电商领域，API（应用程序编程接口）作为连接电商平台与外部系统、服务或应用的关键桥梁，其性能直接关系到用户体验、业务效率以及系统的整体稳定性。随着电商业务的快速发展，API接口面临着高并发、大数据量处理等挑战，因此，对电商API进行性能优化显得尤为重要。本文将从多个维度探讨电商API性能优化的策略。一、数据库优化策略数据库是电商API接口的核心组件之一，其性能直接影响A
ECharts 智慧医疗大屏制作实例详解
在大数据时代，数据可视化已成为信息传递和决策支持的重要手段。ECharts作为一款功能强大、易于上手的开源可视化库，凭借其丰富的图表类型、灵活的配置项和良好的跨平台兼容性，广泛应用于企业级数据大屏、BI报表、实时监控等场景。本教程以“智慧医疗大屏”为例，完整演示了从页面搭建、图表配置到动态交互与响应式适配的全过程。通过循序渐进的讲解，读者将掌握如何使用ECharts构建专业、美观、可交互的数据可视
大数据 ETL 工具 Sqoop 深度解析与实战指南
一、Sqoop核心理论与应用场景1.1设计思想与技术定位Sqoop是Apache旗下的开源数据传输工具，核心设计基于MapReduce分布式计算框架，通过并行化的Map任务实现高效的数据批量迁移。其特点包括：批处理特性：基于MapReduce作业实现导入/导出，适合大规模离线数据迁移，不支持实时数据同步。异构数据源连接：支持关系型数据库（如MySQL、Oracle）与Hadoop生态（HDFS、H
Python（28）Python循环语句指南：从语法糖到CPython字节码的底层探秘一个天蝎座白勺程序猿 Python爬虫入门到高阶实战 python 开发语言
目录引言一、推导式家族全解析1.1基础语法对比1.2性能对比测试二、CPython实现揭秘2.1字节码层面的秘密2.2临时变量机制三、高级特性实现3.1嵌套推导式优化3.2条件表达式处理四、性能优化指南4.1内存使用对比4.2执行时间优化技巧五、最佳实践建议六、总结Python爬虫相关文章（推荐）引言在Python编程中，循环语句是控制流程的核心工具。传统for循环虽然直观，但在处理大数据时往往面
大数据分析技术的学习路径，不是绝对的，仅供参考水云桐程序员学习大数据数据分析学习方法
阶段一：基础筑基（1-3个月）1.编程语言：Python：掌握基础语法、数据结构、流程控制、函数、面向对象编程、常用库（NumPy,Pandas）。SQL：精通SELECT语句（过滤、排序、分组、聚合、连接）、DDL/DML基础。理解关系型数据库概念（表、主键、外键、索引）。MySQL或PostgreSQL是很好的起点。Java/Scala：深入理解Hadoop/Spark等框架会更有优势。初学者
React金融数据分析应用性能优化实战：借助AI辅助解决18万数据量栈溢出Bug 马特说 REACT react.js 金融数据分析
React金融数据分析应用性能优化实战：借助AI辅助解决18万数据量栈溢出Bug前言在现代前端开发中，处理大数据量的实时金融应用已成为常态。最近我在开发一个React-based金融数据分析应用时，遇到了典型的"Maximumcallstacksizeexceeded"错误。通过AI辅助分析和系统性优化，最终成功解决了这个复杂的性能问题。这篇文章将分享从问题发现到最终解决的完整过程。项目背景这是一
python模拟内置函数reversed_Python内置函数reversed weixin_39594895
{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技术人对外发布原创技术内容的最大平台；社区覆盖了云计算、大数据、人工智能、IoT、云原生、数据库、微服务、安全、开发与运维9大技术领域。","link1":
RabbitMQ消息队列在大数据系统中的实战应用案例 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据 rabbitmq 分布式 ai
RabbitMQ消息队列在大数据系统中的实战应用案例关键词：RabbitMQ、消息队列、大数据系统、实战案例、高并发处理、分布式架构、数据管道摘要：本文深入探讨RabbitMQ消息队列在大数据系统中的核心应用场景，结合具体技术实现和实战案例，详细解析其在数据采集、实时处理、异步解耦等关键环节的技术优势。通过架构设计原理、核心算法实现、数学模型分析和项目实战，展示如何利用RabbitMQ构建高可靠、
大数据开发高频面试题：Spark与MapReduce解析
被招网约司机的盯上了好几天实习了六个月，到期被通知不能转正。外包裁员让我去友商我该去吗？offer比较华为状态码浏览器插件嵌入式项目推荐2019秋招总结+云从语音算法面经+银行群面面经科大讯飞语音算法面经语音算法美团一面已挂科大讯飞智能语音方向值得去吗？语音算法oc科大讯飞语音算法二面荣耀一面语音算法面经，已挂荣耀_语音算法工程一面科大讯飞语音一面凉经8.18携程机器学习（语音方向）一面【vivo
HTML表格导出为Excel文件的实现方案 ~风清扬~ 前端技术 html excel 前端
1、前端javascript可通过mime类型、blob对象或专业库（如sheetjs）实现html表格导出excel，适用于中小型数据量；2、服务器端方案利用后端语言（如python的openpyxl、java的apachepoi）处理复杂报表和大数据，确保安全性与格式控制；3、常见问题包括数据类型识别错误、样式丢失、大文件卡顿、浏览器兼容性及乱码，需通过设置单元格类型、使用后端样式api、分页
数据库锁等待时间过长问题的深度解析与大数据解决方案百态老人数据库大数据
一、锁等待问题的核心原因与日志特征锁等待超时是数据库高并发场景下的典型瓶颈问题，其根本原因与日志特征可归纳为以下维度：事务管理缺陷原因：未提交的长事务（如代码分支遗漏提交）、隐式事务（自动提交关闭）导致锁持有时间过长。日志特征：information_schema.innodb_trx表中存在trx_started时间早于当前时间数分钟的事务。错误日志中频繁出现Lockwaittimeoutexc
科学的第五范式：人工智能如何重塑发现之疆田园Coder 人工智能科普人工智能科普
在人类探索未知的壮阔史诗中，科学方法的演进如同照亮迷雾的灯塔。从基于经验的第一范式（描述自然现象），到以理论推演为核心的第二范式（牛顿定律、麦克斯韦方程），再到以计算机模拟为标志的第三范式（气候模型、分子动力学），直至以大数据挖掘为驱动的第四范式（基因组学、高能物理），每一次范式跃迁都极大地拓展了认知的疆界。如今，我们正站在一个更恢弘转折的门槛上——第五范式：人工智能驱动的科学（AIforScie
数据结构与算法中外部排序的详细剖析数据结构与算法学习网络 ai
数据结构与算法中外部排序的详细剖析关键词：外部排序、归并排序、多路归并、置换选择排序、败者树、磁盘I/O优化、大数据处理摘要：本文将深入探讨外部排序技术，这是处理大规模数据时不可或缺的算法。我们将从基本概念出发，逐步解析多路归并、置换选择排序等核心技术，并通过实际代码示例展示如何实现高效的外部排序。文章还将分析外部排序在现代大数据处理中的应用场景和优化策略。背景介绍目的和范围本文旨在全面介绍外部排
阿里云Flink：开启大数据实时处理新时代云资源服务商阿里云大数据云计算
走进阿里云Flink在大数据处理的广袤领域中，阿里云Flink犹如一颗璀璨的明星，占据着举足轻重的地位。随着数据量呈指数级增长，企业对数据处理的实时性、高效性和准确性提出了前所未有的挑战。传统的数据处理方式逐渐难以满足这些严苛的需求，而阿里云Flink凭借其卓越的特性和强大的功能，成为众多企业实现数据价值挖掘与业务创新的关键技术。它不仅继承了开源Flink的优秀基因，还融入了阿里云自主研发的创新技
java毕业设计-基于java的电商网购平台，网购商城管理系统(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥 spring boot vue jave java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
Python机器学习实战——逻辑回归（附完整代码和结果）小白熊XBX 机器学习机器学习 python 逻辑回归
Python机器学习实战——逻辑回归（附完整代码和结果）关于作者作者：小白熊作者简介：精通c#、Halcon、Python、Matlab，擅长机器视觉、机器学习、深度学习、数字图像处理、工业检测识别定位、用户界面设计、目标检测、图像分类、姿态识别、人脸识别、语义分割、路径规划、智能优化算法、大数据分析、各类算法融合创新等等。联系邮箱：[email protected]科研辅导、知识付费答疑、个性化定制
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb

最全Flume常用配置文件详情解析

最全Flume常用配置文件详情解析

1、Source配置项(常见配置项)

1.1 Avro Source

1.2 NetCat Source

1.3 Exec Source

1.4 Spooling Directory Source

1.5 Taildir Source

1.6 Thrift Source

1.7 Kafka Source

1.8 Sequence Generator Source

1.9 HTTP Source

2、Channels 配置项 （常见配置项）

2.1 Memory Channel

2.2 JDBC Channel

2.3 kafka Channel

2.4 File Channel

3、Sink 配置项 （常见配置项）

3.1 Logger Sink

3.2 HDFS Sink

3.3 Hive Sink

3.4 Avro Sink

3.5 Thrift Sink

3.6 File Roll Sink

3.7 HBaseSinks

3.7.1 HBaseSink

3.7.2 AsyncHBaseSink

3.8 ElasticSearchSink

3.9 Kafka Sink

你可能感兴趣的:(Flume,flume,大数据)

2、Channels 配置项（常见配置项）

3、Sink 配置项（常见配置项）