不吃香菜lw

Flume

1.Flume概述

1.1 Flume定义

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。

1.2 Flume基础架构

Flume组成架构如下图所示。

1.2.1 Agent

Agent是一个JVM进程，它以事件的形式将数据从源头送至目的。

Agent主要有3个部分组成，Source、Channel、Sink。

1.2.2 Source

Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据，包括avro、thrift、exec、jms、spooling directory、netcat、taildir、sequence generator、syslog、http、legacy。

1.2.3 Sink

Sink不断地轮询Channel中的事件且批量地移除它们，并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。

Sink组件目的地包括hdfs、logger、avro、thrift、ipc、file、HBase、solr、自定义。

1.2.4 Channel

Channel是位于Source和Sink之间的缓冲区。因此，Channel允许Source和Sink运作在不同的速率上。Channel是线程安全的，可以同时处理几个Source的写入操作和几个Sink的读取操作。

Flume自带两种Channel：Memory Channel和File Channel。

Memory Channel是内存中的队列。Memory Channel在不需要关心数据丢失的情景下适用。如果需要关心数据丢失，那么Memory Channel就不应该使用，因为程序死亡、机器宕机或者重启都会导致数据丢失。

File Channel将所有事件写到磁盘。因此在程序关闭或机器宕机的情况下不会丢失数据。

1.2.5 Event

传输单元，Flume数据传输的基本单元，以Event的形式将数据从源头送至目的地。Event由Header和Body两部分组成，Header用来存放该event的一些属性，为K-V结构，Body用来存放该条数据，形式为字节数组。

2. Flume安装部署

解压，改名

[root@kb129 install]# tar -xvf ./apache-flume-1.9.0-bin.tar.gz -C ../soft/

复制一份配置文件，并进行配置

[root@kb129 conf]# cp flume-env.sh.template flume-env.sh

[root@kb129 conf]# vim ./flume-env.sh

22 export JAVA_HOME=/opt/soft/jdk180

25 export JAVA_OPTS="-Xms2000m -Xmx2000m -Dcom.sun.management.jmxremote"

将lib文件夹下的guava-11.0.2.jar删除以兼容Hadoop 3.1.3

找到flume下现有的guava jar包并删除

[root@kb129 lib]# find ./ -name guava*

./guava-11.0.2.jar

[root@kb129 lib]# rm -rf ./guava-11.0.2.jar

拷贝新hadoop内的guava至flume内

[root@kb129 lib]# pwd

/opt/soft/hadoop313/share/hadoop/hdfs/lib

[root@kb129 lib]# cp ./guava-27.0-jre.jar /opt/soft/flume190/lib/

安装工具

[root@kb129 conf]# yum install -y net-tools

[root@kb129 conf]# yum install -y nc #安装netcat服务

[root@kb129 conf]# yum install -y telnet-server #安装netcat服务

[root@kb129 conf]# yum install -y telnet.* #安装netcat客户端

测试工具

启动服务端口

[root@kb129 conf]# nc -lk 7777

连接服务器

[root@kb129 conf]# telnet localhost 7777

查看端口是否占用

[root@kb129 conf]# netstat -lnp | grep 7777

tcp 0 0 0.0.0.0:7777 0.0.0.0:* LISTEN 9264/nc

tcp6 0 0 :::7777 :::* LISTEN 9264/nc

2.2 Flume入门案例

2.2.1 监控端口数据官方案例

1）案例需求：

使用Flume监听一个端口，收集该端口数据，并打印到控制台。

2）需求分析：本次使用的端口为7777

3）实现步骤：

创建myconf2文件夹，写入监控配置文件

[root@kb129 lib]# cd ../conf/myconf2/

[root@kb129 myconf2]# vim ./netcat-logger.conf

a1.sources=r1

a1.channels=c1

a1.sinks=k1


# Describe/configure the source

a1.sources.r1.type=netcat

a1.sources.r1.bind=localhost

a1.sources.r1.port=7777


# Use a channel which buffers events in memory

a1.channels.c1.type=memory


# Describe the sink

a1.sinks.k1.type=logger


# Bind the source and sink to the channel

a1.sources.r1.channels=c1

a1.sinks.k1.channel=c1

启动监控命令（a1，conf目录，conf文件，指定控制台输出info信息）

[root@kb129 flume190]# ./bin/flume-ng agent --name a1 --conf ./conf/ --conf-file ./conf/myconf2/netcat-logger.conf -Dflume.root.logger=INFO,console

参数说明：

--conf/-c：表示配置文件存储在conf/目录

--name/-n：表示给agent起名为a1

--conf-file/-f：flume本次启动读取的配置文件是在job文件夹下flume-telnet.conf文件。

-Dflume.root.logger=INFO,console ：-D表示flume运行时动态修改flume.root.logger参数属性值，并将控制台日志打印级别设置为INFO级别。日志级别包括:log、info、warn、error。

[root@kb129 conf]# telnet localhost 7777

输入内容，控制台可监控输入在Flume监听页面观察接收数据情况

2.2.2 实时监控单个追加文件

1）案例需求：使用Flume监听单个的文件

2）需求分析：

3）实现步骤：

[root@kb129 myconf2]# vim ./ filelogger.conf

a2.sources=r1
a2.channels=c1
a2.sinks=k1

# Describe/configure the source
a2.sources.r1.type=exec
a2.sources.r1.command=tail -f /opt/tmp/flumelog.log

# Use a channel which buffers events in memory
a2.channels.c1.type=memory
a2.channels.c1.capacity=1000
a2.channels.c1.transactionCapacity=100

# Describe the sink
a2.sinks.k1.type=logger

# Bind the source and sink to the channel
a2.sources.r1.channels=c1
a2.sinks.k1.channel=c1

开启flume监听端口

[root@kb129 flume190]# ./bin/flume-ng agent -n a2 -c ./conf/ -f ./conf/myconf2/filelogger.conf -Dflume.root.logger=INFO,console

2.2.3 实时监控单个追加文件

1）案例需求：使用Flume监听整个目录的文件，并上传至HDFS

2）需求分析：

3）实现步骤：

[root@kb129 myconf2]# vim ./file-flume-hdfs.conf

a3.sources=r1

a3.sinks=k1

a3.channels=c1


# Describe/configure the source

a3.sources.r1.type=exec

a3.sources.r1.command=tail -f /opt/tmp/flumelog.log


# Use a channel which buffers events in memory

a3.channels.c1.type=memory

a3.channels.c1.capacity=1000

a3.channels.c1.transactionCapacity=100


# Describe the sink

a3.sinks.k1.type=hdfs

a3.sinks.k1.hdfs.fileType=DataStream

a3.sinks.k1.hdfs.filePrefix=flumetohdfs

a3.sinks.k1.hdfs.fileSuffix=.txt

a3.sinks.k1.hdfs.path=hdfs://kb129:9000/kb23flume/


# Bind the source and sink to the channel

a3.sources.r1.channels=c1

a3.sinks.k1.channel=c1

启动监控

[root@kb129 flume190]# ./bin/flume-ng agent -n a3 -c ./conf/ -f ./conf/myconf2/file-flume-hdfs.conf -Dflume.root.logger=INFO,console

2.2.4 实时监控单个追加文件，多个输出

1）案例需求：使用Flume监听整个目录的文件，并上传至HDFS和本地logger

2）实现步骤：

[root@kb129 myconf2]# vim ./file-flume-hdfslogger.conf

a4.sources=r1

a4.channels=c1 c2

a4.sinks=k1 k2


# Describe/configure the source

a4.sources.r1.type=exec

a4.sources.r1.command=tail -f /opt/tmp/flumelog.log


# Use a channel which buffers events in memory

a4.channels.c1.type=memory

a4.channels.c2.type=memory

a4.channels.c1.capacity=1000

a4.channels.c1.transactionCapacity=100


# Describe the sink

a4.sinks.k1.type=logger

a4.sinks.k2.type=hdfs

a4.sinks.k2.hdfs.fileType=DataStream

a4.sinks.k2.hdfs.filePrefix=flumetohdfs

a4.sinks.k2.hdfs.fileSuffix=.txt

a4.sinks.k2.hdfs.path=hdfs://kb129:9000/kb23flume1/


# Bind the source and sink to the channel

a4.sources.r1.channels=c1 c2

a4.sinks.k1.channel=c1

a4.sinks.k2.channel=c2

启动flume监控

[root@kb129 flume190]# ./bin/flume-ng agent -n a4 -c ./conf/ -f ./conf/myconf2/file-flume-hdfslogger.conf -Dflume.root.logger=INFO,console

追加文件，可以在控制台和hdfs中查看到监控日志

2.2.5 实时监控端口数据，输出至HDFS

1）案例需求：使用Flume监听整个目录的文件，并上传至HDFS和本地logger

2）实现步骤：

使用Flume监听一个端口，收集该端口数据，并输出到hdfs

[root@kb129 myconf2]# vim ./demo.conf

a5.sources=r1

a5.sinks=k1

a5.channels=c1


# Describe/configure the source

a5.sources.r1.type=netcat

a5.sources.r1.bind=localhost

a5.sources.r1.port=7777


# Use a channel which buffers events in memory

a5.channels.c1.type=memory

a5.channels.c1.capacity=1000

a5.channels.c1.transactionCapacity=100


# Describe the sink

a5.sinks.k1.type=hdfs

a5.sinks.k1.hdfs.fileType=DataStream

a5.sinks.k1.hdfs.filePrefix=flumetohdfs

a5.sinks.k1.hdfs.fileSuffix=.txt

a5.sinks.k1.hdfs.path=hdfs://kb129:9000/kb23flume2/


# Bind the source and sink to the channel

a5.sources.r1.channels=c1

a5.sinks.k1.channel=c1

启动监听

[root@kb129 flume190]# ./bin/flume-ng agent -n a5 -c ./conf/ -f ./conf/myconf2/demo.conf -Dflume.root.logger=INFO,console

开启通信端口，发送数据，在hdfs查看

2.2.6 实时监控目录下指定文件（spooldir、正则、断点续传、sink至kafka）

Exec source适用于监控一个实时追加的文件，不能实现断点续传；Spooldir Source适合用于同步新文件，但不适合对实时追加日志的文件进行监听并同步；而Taildir Source适合用于监听多个实时追加的文件，并且能够实现断点续传。总结：exec source从外部命令的输出中读取数据，spooldir source适用于处理已存在的文件，而taildir source适用于实时产生的日志文件。

（1）读取文件，管道类型memory

[root@kb129 myconf2]# vim events-flume-logger.conf

events.sources=eventsSource

events.channels=eventsChannel

events.sinks=eventsSink


# Describe/configure the source

events.sources.eventsSource.type=spooldir

events.sources.eventsSource.spoolDir=/opt/kb23/flumelogfile/events

#反序列化类型为LINE

events.sources.eventsSource.deserializer=LINE

#反序列化 每行的最大长度

events.sources.eventsSource.deserializer.maxLineLength=32000

events.sources.eventsSource.includePattern=events.csv


# Use a channel which buffers events in memory

events.channels.eventsChannel.type=memory


# Describe the sink

events.sinks.eventsSink.type=logger


# Bind the source and sink to the channel

events.sources.eventsSource.channels= eventsChannel

events.sinks.eventsSink.channel= eventsChannel

（2）读取文件，加正则过滤，管道类型file

1. 文件管道（file）：文件管道将事件数据写入磁盘上的文件中。这种管道适用于需要持久化存储数据的场景。文件管道可以在系统重启后继续读取未处理的数据，因为数据被写入了磁盘。但是，由于写入和读取都需要磁盘操作，所以文件管道的性能可能相对较低。

2. 内存管道（memory）：内存管道将事件数据保存在内存中。这种管道适用于对性能要求较高的场景，因为内存操作比磁盘操作更快。内存管道不会将数据持久化到磁盘，所以在系统重启后，未处理的数据将会丢失。因此，内存管道适用于对数据可靠性要求不高的场景。

[root@kb129 myconf2]# vim events-flume-logger.conf

events.sources=eventsSource

events.channels=eventsChannel

events.sinks=eventsSink


# Describe/configure the source

events.sources.eventsSource.type=spooldir

events.sources.eventsSource.spoolDir=/opt/kb23/flumelogfile/events

#反序列化类型为LINE

events.sources.eventsSource.deserializer=LINE

#反序列化 每行的最大长度

events.sources.eventsSource.deserializer.maxLineLength=32000

events.sources.eventsSource.includePattern=events_[0-9]{4}-[0-9]{2}-[0-9]{2}.csv

#正则过滤器

events.sources.eventsSource.interceptors=head_filter

events.sources.eventsSource.interceptors.head_filter.type=regex_filter

events.sources.eventsSource.interceptors.head_filter.regex=^event_id*

events.sources.eventsSource.interceptors.head_filter.excludeEvents=true


# Use a channel which buffers events in memory

events.channels.eventsChannel.type=file

events.channels.eventsChannel.checkpointDir=/opt/kb23/checkpoint/events

events.channels.eventsChannel.dataDirs=/opt/kb23/data/events


# Describe the sink

events.sinks.eventsSink.type=logger


# Bind the source and sink to the channel

events.sources.eventsSource.channels=eventsChannel

events.sinks.eventsSink.channel=eventsChannel

（3）sink输出指向kafka，topic

[root@kb129 myconf2]# vim ./events-flume-kafka.conf

events.sources=eventsSource
events.channels=eventsChannel
events.sinks=eventsSink

# Describe/configure the source
events.sources.eventsSource.type=spooldir
events.sources.eventsSource.spoolDir=/opt/kb23/flumelogfile/events
#反序列化类型为LINE
events.sources.eventsSource.deserializer=LINE
#反序列化 每行的最大长度
events.sources.eventsSource.deserializer.maxLineLength=32000
events.sources.eventsSource.includePattern=events_[0-9]{4}-[0-9]{2}-[0-9]{2}.csv
#正则过滤器
events.sources.eventsSource.interceptors=head_filter
events.sources.eventsSource.interceptors.head_filter.type=regex_filter
events.sources.eventsSource.interceptors.head_filter.regex=^event_id*
events.sources.eventsSource.interceptors.head_filter.excludeEvents=true

# Use a channel which buffers events in memory
events.channels.eventsChannel.type=file
events.channels.eventsChannel.checkpointDir=/opt/kb23/checkpoint/events
events.channels.eventsChannel.dataDirs=/opt/kb23/data/events

# Describe the sink
events.sinks.eventsSink.type=org.apache.flume.sink.kafka.KafkaSink
events.sinks.eventsSink.topic=events
events.sinks.eventsSink.brokerList=192.168.142.129:9092
events.sinks.eventsSink.batchSize=640

# Bind the source and sink to the channel
events.sources.eventsSource.channels=eventsChannel
events.sinks.eventsSink.channel=eventsChannel

2.2.7 自定义Interceptor

）案例需求

2.用Flume采集服务器本地日志，需要按照日志类型的不同，将不同种类的日志发往不同的分析系统。

2）需求分析

在实际的开发中，一台服务器产生的日志类型可能有很多种，不同类型的日志可能需要发送到不同的分析系统。此时会用到Flume拓扑结构中的Multiplexing结构，Multiplexing的原理是，根据event中Header的某个key的值，将不同的event发送到不同的Channel中，所以我们需要自定义一个Interceptor，为不同类型的event的Header中的value赋予不同的值。

在该案例中，我们以端口数据模拟日志，以数字（单个）和字母（单个）模拟不同类型的日志，我们需要自定义interceptor区分数字和字母，将其分别发往不同的分析系统（Channel）。

重要组件：

1）ChannelSelector

ChannelSelector的作用就是选出Event将要被发往哪个Channel。其共有两种类型，分别是Replicating（复制）和Multiplexing（多路复用）。

ReplicatingSelector会将同一个Event发往所有的Channel，Multiplexing会根据相应的原则，将不同的Event发往不同的Channel。

2）SinkProcessor

SinkProcessor共有三种类型，分别是DefaultSinkProcessor、LoadBalancingSinkProcessor和FailoverSinkProcessor

DefaultSinkProcessor对应的是单个的Sink，LoadBalancingSinkProcessor和FailoverSinkProcessor对应的是Sink Group，LoadBalancingSinkProcessor可以实现负载均衡的功能，FailoverSinkProcessor可以错误恢复的功能。

3）实现步骤

（1）创建一个maven项目，并引入以下依赖。


  org.apache.flume
  flume-ng-core
  1.9.0

（2）定义类并实现Interceptor接口。编写完成后打包传至flume中lib目录下

import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.interceptor.Interceptor;

import java.util.ArrayList;
import java.util.List;
import java.util.Map;

public class InterceptorDemo implements Interceptor {
    private ArrayList opList;

    public void initialize() {
        opList = new ArrayList();
    }

    public Event intercept(Event event) {
        Map headers = event.getHeaders();
        final String body = new String(event.getBody());
        if (body.startsWith("hello")){
            headers.put("type","hello");
        } else if (body.startsWith("hi")) {
            headers.put("type","hi");
        } else {
            headers.put("type","other");
        }
        return event;
    }

    public List intercept(List events) {
        opList.clear();
        for (Event event : events) {
            opList.add(intercept(event));
        }
        return opList;
    }

    public void close() {
        opList.clear();
        opList = null;
    }

    public static class Builder implements Interceptor.Builder{

        public Interceptor build() {
            return new InterceptorDemo();
        }

        public void configure(Context context) {
        }
    }
}

（3）编辑flume配置文件

[root@kb129 myconf2]# vim ./netcat-myinterceptor.conf

myinterceptor.sources=s1

myinterceptor.channels=helloChannel hiChannel otherChannel

myinterceptor.sinks=helloSink hiSink otherSink


# Describe/configure the source

myinterceptor.sources.s1.type=netcat

myinterceptor.sources.s1.bind=localhost

myinterceptor.sources.s1.port=7777

myinterceptor.sources.s1.interceptors=myinterceptors

myinterceptor.sources.s1.interceptors.myinterceptors.type=nj.zb.kb23.InterceptorDemo$Builder

myinterceptor.sources.s1.selector.type=multiplexing

myinterceptor.sources.s1.selector.mapping.hello=helloChannel

myinterceptor.sources.s1.selector.mapping.hi=hiChannel

myinterceptor.sources.s1.selector.mapping.other=otherChannel

myinterceptor.sources.s1.selector.header=type


# Use a channel which buffers events in memory

myinterceptor.channels.helloChannel.type=memory

myinterceptor.channels.hiChannel.type=memory

myinterceptor.channels.otherChannel.type=memory


# Describe the sink

myinterceptor.sinks.helloSink.type=hdfs

myinterceptor.sinks.helloSink.hdfs.fileType=DataStream

myinterceptor.sinks.helloSink.hdfs.filePrefix=hellocontent

myinterceptor.sinks.helloSink.hdfs.fileSuffix=.txt

myinterceptor.sinks.helloSink.hdfs.path=hdfs://kb129:9000/kb23hello/


#myinterceptor.sinks.hiSink.type=org.apache.flume.sink.kafka.KafkaSink

#myinterceptor.sinks.hiSink.kafka.topic=hitopic

#myinterceptor.sinks.hiSink.kafka.bootstrap.servers=192.168.142.129:9092

#myinterceptor.sinks.hiSink.kafka.producer.acks=1

#myinterceptor.sinks.hiSink.kafka.flumeBatchSize=640

myinterceptor.sinks.hiSink.type=org.apache.flume.sink.kafka.KafkaSink

myinterceptor.sinks.hiSink.topic=hitopic

myinterceptor.sinks.hiSink.brokerList=192.168.142.129:9092


myinterceptor.sinks.otherSink.type=logger


# Bind the source and sink to the channel

myinterceptor.sources.s1.channels=helloChannel hiChannel otherChannel

myinterceptor.sinks.helloSink.channel=helloChannel

myinterceptor.sinks.hiSink.channel=hiChannel

myinterceptor.sinks.otherSink.channel=otherChannel

3.Flume事务

SQLite 数据库在大数据分析中的应用潜力数据库管理艺术数据库 sqlite 数据分析 ai
SQLite数据库在大数据分析中的应用潜力关键词：SQLite、大数据分析、轻量级数据库、嵌入式数据库、数据仓库、OLAP、性能优化摘要：本文深入探讨了SQLite这一轻量级嵌入式数据库在大数据分析领域的应用潜力。我们将从SQLite的核心架构出发，分析其在大数据场景下的优势和限制，并通过实际案例展示如何通过优化策略和扩展技术使SQLite能够处理大规模数据集。文章包含性能对比测试、优化技巧和实际
利用大数据领域Doris提升企业数据决策效率大数据洞察大数据网络 ai
利用大数据领域Doris提升企业数据决策效率关键词：大数据、Doris、企业数据决策、数据处理、效率提升摘要：本文围绕利用大数据领域的Doris来提升企业数据决策效率展开。首先介绍了背景，包括目的、预期读者、文档结构和相关术语。接着阐述了Doris的核心概念、架构以及与其他系统的联系。详细讲解了Doris的核心算法原理和具体操作步骤，并给出Python代码示例。同时介绍了相关的数学模型和公式。通过
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案 mmlihaio 数据库云原生 python
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案1.引言在当今的人工智能和大数据时代，高效的向量检索已成为许多应用场景的关键需求。Tair作为阿里云开发的云原生内存数据库服务，不仅提供了丰富的数据模型和企业级能力，还引入了基于非易失性内存(NVM)存储介质的持久内存优化实例。本文将深入探讨如何利用Tair向量数据库功能，实现高性能的向量存储和检索。2.Tair向量数据库概述Ta
解锁阿里云E-MapReduce：大数据处理的超能力秘籍云资源服务商阿里云云计算人工智能云原生
一、引言在数字化浪潮汹涌澎湃的当下，大数据已然成为推动各行业创新发展的核心驱动力。从电商平台精准的个性化推荐，到金融机构严密的风险评估，再到医疗领域高效的疾病预测，大数据的应用场景无处不在，深刻地改变着我们的生活与工作方式。在这片充满机遇与挑战的大数据领域中，阿里云E-MapReduce宛如一颗璀璨的明星，占据着举足轻重的地位。它凭借强大的大数据处理能力、卓越的性能表现以及丰富的功能特性，为企业和
大数据面试必备：Kafka性能优化 Producer与Consumer配置指南
Kafka面试题-在Kafka中，如何通过配置优化Producer和Consumer的性能?回答重点在Kafka中，通过优化Producer和Consumer的配置，可以显著提高性能。以下是一些关键配置项和策略：1、Producer端优化:batch.size：批处理大小。增大batch.size可以使Producer每次发送更多的消息，但要注意不能无限制增大，否则会导致内存占用过多。linger
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
vue大数据量列表渲染性能优化：虚拟滚动原理 Java小卷 Vue3开源组件实战 vue3 自定义Tree 虚拟滚动
前面咱完成了自定义JuanTree组件各种功能的实现。在数据量很大的情况下，我们讲了两种实现方式来提高渲染性能：前端分页和节点数据懒加载。前端分页小节：Vue3扁平化Tree组件的前端分页实现节点数据懒加载小节：ElementTreePlus版功能演示：数据懒加载关于扁平化结构Tree和嵌套结构Tree组件的渲染嵌套结构的Tree组件是一种递归渲染，性能上比起列表结构的v-for渲染比较一般。对于
redis的scan使用详解，结合spring使用详解黑皮爱学习 redis自学笔记 redis spring 数据库
Redis的SCAN命令是一种非阻塞的迭代器，用于逐步遍历数据库中的键，特别适合处理大数据库。下面详细介绍其使用方法及在Spring框架中的集成方式。SCAN命令基础SCAN命令的基本语法：SCANcursor[MATCHpattern][COUNTcount]cursor：迭代游标，初始为0，每次迭代返回新的游标值。MATCHpattern：可选，用于过滤键的模式（如user:*）。COUNTc
MongoDB 高性能应用场景与实践 AI自闭实验者 mongodb 数据库
```htmlMongoDB高性能应用场景与实践MongoDB高性能应用场景与实践随着大数据时代的到来，数据库作为数据存储和管理的核心工具，其性能和可扩展性显得尤为重要。在众多的数据库解决方案中，MongoDB凭借其灵活的数据模型、高性能和易于扩展的特点，在许多场景下成为开发者的首选。什么是MongoDB？MongoDB是一个开源的、面向文档的NoSQL数据库管理系统。它以JSON样式的文档存储数
缓存与加速技术实践-MongoDB数据库应用曼汐 . 数据库缓存 mongodb
一.什么是MongoDBMongoDB是一个文档型数据库，数据以类似JSON的文档形式存储。MongoDB的设计理念是为了应对大数据量、高性能和灵活性需求。MongoDB使用集合（Collections）来组织文档（Documents），每个文档都是由键值对组成的。数据库（Database）：存储数据的容器，类似于关系型数据库中的数据库。集合（Collection）：数据库中的一个集合，类似于关系
自学Java怎么入门 Java鼠鼠吖 java 开发语言
自学Java其实没有想象中那么难，只要找对方法，循序渐进地学习，很快就能上手。下面我结合自己的经验，给你整理一条清晰的学习路径，咱们一步步来。一、先了解Java能做什么在开始之前，建议你先看看Java都能用在哪些地方。比如开发企业级系统、Android应用、大数据处理等等。这样你就能明白为什么要学它，也更有动力。Java最大的特点就是"一次编写，到处运行"，这要归功于JVM虚拟机。二、准备好学习环
计算机毕业设计项目、管理系统、可视化大屏、大数据分析、协同过滤、推荐系统、SSM、SpringBoot、Spring、Mybatis、小程序项目编号1000-1499 lonzgzhouzhou spring 课程设计 spring boot
大家好，我是DeBug，很高兴你能来阅读！作为一名热爱编程的程序员，我希望通过这些教学笔记与大家分享我的编程经验和知识。在这里，我将会结合实际项目经验，分享编程技巧、最佳实践以及解决问题的方法。无论你是初学者还是有一定经验的程序员，我都希望能够为你提供有价值的内容，帮助你更好地理解编程世界。让我们一起探索编程的乐趣，一起成长，一起学习，谢谢你们的支持与关注！【源码咨询】可接Java程序设计，Bug
智能汽车图像及视频处理方案，支持视频智能包装创作能力美摄科技汽车
在这个日新月异的智能时代，每一帧画面都承载着超越想象的力量。随着自动驾驶技术的飞速发展，智能汽车不仅成为了未来出行的代名词，更是技术与艺术完美融合的典范。在这场变革的浪潮中，美摄科技以创新为翼，推出了领先的智能汽车图像及视频处理方案，为智能汽车行业带来了前所未有的视觉盛宴，重新定义了智能出行的视觉体验。一、智能重塑，视觉新境界美摄科技的智能汽车图像及视频处理方案，是基于深度学习、人工智能及大数据处
蜂鸟云平台大更新：地图空间定价重塑与功能全面升级蜂鸟视图fengmap 信息可视化蜂鸟云地图编辑器地图绘制工具室内外地图一体化智慧园区蜂鸟视图
1.引言随着云计算、大数据以及人工智能技术的快速发展，企业对云平台的需求日益增长。蜂鸟云平台作为一款创新性的地图服务平台，已逐渐成为众多企业、政府及科研机构的核心依赖。为了更好地满足用户需求，提高平台的市场竞争力，蜂鸟云平台定期进行功能更新与优化。2024年9月21日，蜂鸟云平台将在晚上20:00至24:00进行一轮重要的系统更新。本次更新的核心内容包括地图空间的重新定价与功能优化，涉及制图、微程
【笔记-软考】大数据架构-Lambda与Kappa架构对比我叫白小猿软考软考架构大数据 Kappa Lambda
Author：赵志乾Date：2024-07-28Declaration：AllRightReserved！！！1.简介大数据系统架构的设计思想很大程度受技术条件和思维模式的限制；Lambda架构在提出初期面向小范围业务，直接将成熟离线处理技术(Hadoop)和实时处理技术(Storm)相结合，用View模型将二者处理后得到的输出结果结合起来，在服务层进行统一后，再开放给上层服务，是相当可行且高效
大数据领域数据工程的消息中间件选型大数据洞察大数据与AI人工智能大数据 ai
大数据领域数据工程的消息中间件选型关键词：消息中间件、数据工程、大数据处理、选型标准、分布式系统、实时数据流、可靠性保障摘要：在大数据领域的数据工程实践中，消息中间件是构建高可靠、高可扩展数据管道的核心组件。本文从技术架构、功能需求、应用场景等维度，系统解析消息中间件选型的关键要素。通过对比Kafka、Pulsar、RabbitMQ、RocketMQ等主流中间件的技术特性，结合数学模型分析吞吐量、
合规视角下银行智能客服风险防控 AI 智能服务智能客服人工智能 AIGC 数据库 chatgpt
1.AI驱动金融变革的政策与技术背景政策导向：我国《新一代人工智能发展规划》明确提出发展智能金融，要求：构建金融大数据平台，提升多媒体数据处理能力；创新智能金融产品与服务形态；推广智能客服、监控等技术应用；建立智能风控预警体系。技术支撑：云计算、大数据技术成熟为AI发展奠定了基础。深度学习算法的突破则引爆了本轮AI浪潮，显著提升了复杂任务处理精度，进而推动了计算机视觉、机器学习、自然语言处理（NL
存得快查得准，但就是算不动？试试时序数据库 TDengine × Spark 的组合拳
每个工程师可能都遇到过类似场景：时序数据沉淀在数据库中，格式规范、查询快捷，但当任务升级——比如滑窗聚合、多源拼接、机器学习训练——一些业务可能就需要更强的计算能力和更灵活的分析工具。TDengine专注于高效存储与极速查询，而在数据“算力”层面，我们选择了更强的伙伴。现在，TDengine正式开放与ApacheSpark的无缝集成通道。一个是高性能、低成本的时序数据库，一个是横扫大数据世界的分析
微算法科技融合Grover算法与统一哈希函数的混合经典-量子算法技术，可在多领域高效提升文本处理效率 MicroTech2025 量子计算哈希算法
随着数据规模的不断扩大，尤其是在大数据和人工智能驱动的应用中，这些经典算法的线性复杂度逐渐成为瓶颈。面对数十亿级别的文本数据，线性时间的算法仍然难以满足实时性的要求。此外，经典算法在处理无序或随机文本时，性能往往会显著下降，进一步限制了其在特定场景中的适用性。量子计算是一种基于量子力学原理的新型计算范式。它与经典计算的根本区别在于量子叠加和量子纠缠的特性，使得量子计算能够并行处理大量状态，从而在某
ICBDDM2025：大数据与数字化管理前沿峰会鸭鸭鸭进京赶烤学术会议大数据图像处理计算机视觉 AI编程人工智能机器人考研
在选择大学专业时，可以先从自身兴趣、能力和职业规划出发，初步确定几个感兴趣的领域。然后结合外部环境因素，如专业前景、教育资源和就业情况等，对这些专业进行深入的分析和比较。大数据专业：是一个热门且前沿的学科领域，它涉及到数据的收集、存储、处理、分析和应用等多个方面。课程设置基础课程数学基础：高等数学、线性代数、概率论与数理统计等。这些课程为大数据分析提供了必要的数学工具，例如线性代数在机器学习算法中
WIND金融客户端Python接口文档：Python环境下的金融大数据利器邴韵芯
WIND金融客户端Python接口文档：Python环境下的金融大数据利器【下载地址】WIND金融客户端Python接口文档WINDPY是WIND金融客户端为Python开发者提供的强大接口，支持在Python环境中便捷访问WIND金融数据库。它提供了丰富的函数和命令，涵盖历史数据、实时行情、交易操作等多种功能，适用于量化交易、数据分析等场景。无论是获取股票、基金、债券等金融产品的历史序列、分钟数
Flink部署与应用——Flink集群模式黄雪超从0开始学Flink flink 大数据
Flink集群模式在大数据处理领域，ApacheFlink凭借其卓越的流批一体化处理能力，成为众多企业的首选框架。而Flink集群模式的选择与运用，对于充分发挥Flink的性能优势、满足不同业务场景的需求至关重要。接下来，我们将深入探讨Flink的多种集群模式，剖析其特点、适用场景及相互间的差异。集群部署模式对比Flink的集群部署模式可依据两个关键维度进行分类：一是集群的生命周期和资源隔离方式；
【TIDB】了解，MySQL和TiDB的取舍，差异 {⌐■_■} tidb mysql 数据库
一句话总结：MySQL好用，但扩展性差；TiDB像MySQL，但能轻松应对大数据、高并发。为什么用TiDB而不是MySQL？场景MySQLTiDB数据量很大（几百GB～TB）容易卡顿、查询慢水平扩展，性能稳定业务快速增长、分库分表难维护需要人工做分库分表自动水平扩展，无需分库分表高并发写入（比如秒杀、交易）主从延迟、写入瓶颈多副本写入，强一致性，吞吐更高高可用要求需要额外搭建主从/集群内建高可用（
Python爬虫（56）Python数据清洗与分析实战：Pandas+Dask双剑合璧处理TB级结构化数据一个天蝎座白勺程序猿 Python爬虫入门到高阶实战 python 爬虫 pandas
目录引言：大数据时代的清洗革命一、数据清洗基础：Pandas核心方法论1.1数据去重策略深度解析1.1.1精确去重与模糊去重1.1.2智能去重策略1.2缺失值处理金字塔模型1.2.1基础处理方法1.2.2智能缺失处理二、Dask架构解析：突破单机内存限制2.1Dask核心组件图谱2.2DaskDataFrame核心API映射表三、TB级数据清洗实战：电商订单数据分析3.1场景描述3.2分布式清洗流
[创业之路-441]：行业 - 互联网+移动互联网和大数据时代的100个预言：技术个性、商业变革、社会重构、文化娱乐、环境、教育、健康医疗、未来生活方式文火冰糖的硅基工坊创业之路大数据重构人工智能架构科技系统架构健康医疗
目录一、技术革新二、商业变革三、社会重构四、文化与娱乐六、环境与可持续发展七、教育与知识传播八、健康与医疗九、伦理与法律十、未来生活方式十一、终极预言结语在移动互联网和大数据时代，技术革新正以前所未有的速度重塑社会、经济与文化。以下是基于当前趋势和未来可能性的100个预言，涵盖技术、商业、社会、文化等多个维度：一、技术革新通信-5G与6G的普及：未来5年内，5G将覆盖全球90%的人口，6G技术开始
面试宝典：深入理解这110道python面试题，AI和大数据向你招手喜欢打酱油的老鸟 Python
https://www.toutiao.com/a6672867099800502795/1、一行代码实现1--100之和利用sum()函数求和2、如何在一个函数内部修改全局变量函数内部global声明修改全局变量3、列出5个python标准库os：提供了不少与操作系统相关联的函数sys:通常用于命令行参数re:正则匹配math:数学运算datetime:处理日期时间4、字典如何删除键和合并两个字
MapReduce原理详解：大数据处理的基石与实战应用 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶 mapreduce 大数据 ai
MapReduce原理详解：大数据处理的基石与实战应用关键词：MapReduce、大数据处理、原理、算法、实战应用摘要：本文深入探讨了MapReduce这一在大数据处理领域具有基石地位的技术。首先介绍了MapReduce的背景，包括其目的、适用读者、文档结构和相关术语。接着详细阐述了核心概念、算法原理、数学模型，通过Python代码进行了算法的详细说明。然后给出了项目实战案例，从开发环境搭建到代码
实时数仓工具-SelectDB 清平乐的技术博客实时数仓数据仓库
一、SelectDB简介官网：https://www.selectdb.com/1、ApacheDorisApacheDoris是一款采用MPP架构的实时分布式OLAP数据仓库，专注于高效的实时数据分析。Doris项目于2013年内部开发，2017年正式开源，目前在GitHub上获得了接近13,000星，全球已有超过5,000家企业采用，社区活跃度极高，累计贡献者超过650人，且曾连续数月在大数据
MySQL派生表查询大数据量无结果问题分析与解决 GreatSQL社区 mysql 数据库
MySQL派生表查询大数据量无结果问题分析与解决一、问题发现在客户现场的一次问题报告中发现某个带有派生表进行查询的时候，数据量少的时候有结果，但是数据量大的时候返回无记录。看下面例子：1、准备表CREATETABLE`cmdb_item`(`cm_item_id`varchar(350)NOTNULL,`cm_model_id`varchar(350)NOTNULL,PRIMARYKEY(`cm_
解锁 AnalyticDB for PostgreSQL 的潜力：从数据仓库到矢量数据库 aehrutktrjk 数据库 postgresql 数据仓库 python
引言在大数据时代，快速分析大量数据已成为企业竞争的关键。AnalyticDBforPostgreSQL是阿里云提供的一个强大的并行处理数据仓库服务，适用于在线分析海量数据。本文将探讨其基本功能及在矢量数据库中的应用，包括如何与Langchain进行集成。主要内容AnalyticDBforPostgreSQL的核心功能大规模并行处理(MPP)：允许高效地处理和分析大量数据。兼容性：支持ANSISQL
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

Flume

Flume

1.Flume概述

1.1 Flume定义

1.2 Flume基础架构

1.2.1 Agent

1.2.2 Source

1.2.3 Sink

1.2.4 Channel

1.2.5 Event

2. Flume安装部署

2.2 Flume入门案例

2.2.1 监控端口数据官方案例

2.2.2 实时监控单个追加文件

2.2.3 实时监控单个追加文件

2.2.4 实时监控单个追加文件，多个输出

2.2.5 实时监控端口数据，输出至HDFS

2.2.6 实时监控目录下指定文件（spooldir、正则、断点续传、sink至kafka）

2.2.7 自定义Interceptor

3.Flume事务

你可能感兴趣的:(flume,大数据)