是小先生

大数据笔记--Flume（第一篇）

一、Flume的简介

1、概述

2、基本概念

3、流动模型/拓扑结构

①、单级流动

②、多级流动

③、扇入流动

④、扇出流动

⑤、复杂流动

二、执行流程

三、安装Flume

四、Source

1、AVRO Source

①、概述

②、配置属性

③、案例

2、Exec Source

①、概述

②、配置属性

③、案例

3、Spooling Directory Source

①、概述

②、配置属性

③、案例

4、Netcat Source

①、概述

②、配置属性

③、案例

5、Sequence Generator Source

①、概述

②、配置属性

③、案例

6、HTTP Source

①、概述

③、案例

五、Custom Source

1、概述

2、步骤

一、Flume的简介

1、概述

①、Flume原本是由Cloudera公司开发的后来贡献给了Apache的一套分布式的、可靠的、针对日志数据进行收集(collecting)、汇聚(aggregating)和传输(moving)的机制

②、在大数据中，实际开发中有超过70%的数据来源于日志，日志是大数据的基石

③、Flume针对日志提供了非常简单且灵活的流式传输机制

④、版本

Flume0.X：又称之为Flume-og。依赖于Zookeeper，结构配置相对复杂，现在市面上已经停用这个版本

Flume1.X：又称之为Flume-ng。不依赖于Zookeeper，结构配置相对简单，是市面上常用的版本

2、基本概念

①、Event

在Flume中，会将收集到的每一条日志封装成一个Event对象 - 在Flume中，一个Event就对应了一条日志

Event本质上是一个json串，固定的包含两部分：headers和body - Flume将收集到的日志封装成一个json，而这个json就是Event。Event的结构是{"headers":{},"body":""}

②、Agent：是Flume流动模型的基本组成结构，固定的包含了三个部分：

        Source：从数据源采集数据的 - collecting

        Channel：临时存储数据 - aggregating

        Sink：将数据写往目的地 - moving

3、流动模型/拓扑结构

①、单级流动

②、多级流动

理解：就像城市中从小河取水，为了防止雨天城市被水淹，我们将城市与小河相隔较远，但是取水如何方便，我们可以建立蓄水此，建立一个实际上就是三个阶段，从小河引水，蓄水池蓄水，送到城市。一个蓄水池，可以理解为单极流动，多个就可以理解为多级流动。

③、扇入流动

理解：可以看成多个水源的合并过程。

④、扇出流动

⑤、复杂流动

复杂流动：实际过程中，根据不同的需求来将上述的流动模型进行组合，就构成了复杂流动结构

二、执行流程

1、Source会先采集数据，然后将数据发送给ChannelProcessor进行处理

2、ChannelProcessor处理之后，会将数据交给Interceptor来处理，注意，在Flume允许存在多个Interceptor来构成拦截器链

3、Interceptor处理完成之后，会交给Selector处理，Selector存在两种模式：replicating和multiplexing。Selector收到数据之后会根据对应的模式将数据交给对应的Channel来处理

4、Channel处理之后会交给SinkProcessor。SinkProcessor本质上是一个Sinkgroup，包含了三种方式：Default，Failover和Load Balance。SinkProcessor收到数据之后会根据对应的方式将数据交给Sink来处理

5、Sink收到数据之后，会将数据写到指定的目的地

三、安装Flume

1、要求虚拟机或者云主机上必须安装JDK1.8，最好安装Hadoop

2、进入/home/software目录下，上传apache-flume-1.9.0-bin.tar.gz

cd /home/software/

3、解压Flume的安装包

tar -xvf apache-flume-1.9.0-bin.tar.gz

4、让Flume和Hadoop兼容(如果没有安装Hadoop，那么这一步不需要执行)

cd apache-flume-1.9.0-bin/lib

rm -rf guava-11.0.2.jar

5、新建目录用于存储Flume的格式文件

cd ..

mkdir data

cd data

6、编辑格式文件

vim basic.conf

添加格式文件内容

# 给Agent起名
# 给Source起名
a1.sources = s1
# 给Channel起名
a1.channels = c1
# 给Sink起名
a1.sinks = k1

# 配置Source
a1.sources.s1.type = netcat
a1.sources.s1.bind = 0.0.0.0
a1.sources.s1.port = 8090

# 配置Channel
a1.channels.c1.type = memory

# 配置Sink
a1.sinks.k1.type = logger

# 将Source和Channel绑定
a1.sources.s1.channels = c1
# 将Sink和Channel绑定
a1.sinks.k1.channel = c1

7、启动Flume

../bin/flume-ng agent -n a1 -c ../conf -f basic.conf -Dflume.root.logger=INFO,console

参数解释:

参数	解释
-n,--name	指定要运行的Agent的名字
-c,--conf	指定Flume运行的原生配置
-f,--conf-file	指定要运行的文件
-Dflume.root.logger	指定Flume本身运行日志的打印级别及打印方式

四、Source

1、AVRO Source

①、概述

AVRO Source监听指定的端口，接收其他节点发送来的被AVRO序列化的数据

AVRO Source结合AVRO Sink可以实现更多的流动模型，包括多级流动、扇入流动以及扇出流动

②、配置属性

属性	解释
type	必须是avro
bind	要监听的主机的主机名或者IP
port	要监听的端口

③、案例

编辑格式文件vim avrosource.conf，在格式文件添加指定的内容

a1.sources = s1
a1.channels = c1
a1.sinks = k1


# 配置AVRO Source
# 必须是avro
a1.sources.s1.type = avro
# 指定要监听的主机
a1.sources.s1.bind = hadoop01
# 指定要监听的端口
a1.sources.s1.port = 8090

a1.channels.c1.type = memory

a1.sinks.k1.type = logger

a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1

启动Flume

../bin/flume-ng agent -n a1 -c ../conf -f avrosource.conf -Dflume.root.logger=INFO,console

在另一个窗口中，进入指定目录，编辑文件

cd /home/software/apache-flume-1.9.0-bin/data

vim a.txt

运行AVRO客户端

../bin/flume-ng avro-client -H hadoop01 -p 8090 -F a.txt

在flume窗口可以看到监听内容

2、Exec Source

①、概述

Exec Source会运行指定的命令，然后将命令的执行结果作为日志进行收集

利用这个Source可以实现对文件或者其他操作的实时监听

②、配置属性

属性	解释
type	必须是exec
command	要执行和监听的命令
shell	最好指定这个属性，表示指定Shell的运行方式

③、案例

需求：实时监听/home/a.txt文件的变化

编辑vim execsource.conf格式文件，添加如下内容

a1.sources = s1
a1.channels = c1
a1.sinks = k1

# 配置Exec Source
# 必须是exec
a1.sources.s1.type = exec
# 指定要运行的命令
a1.sources.s1.command = tail -F /home/a.txt
# 指定Shell的运行方式/类型
a1.sources.s1.shell = /bin/bash -c

a1.channels.c1.type = memory

a1.sinks.k1.type = logger

a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1

启动Flume

../bin/flume-ng agent -n a1 -c ../conf -f execsource.conf -Dflume.root.logger=INFO,console

修改文件内容

echo "hello java" >> a.txt

在一个窗口执行操作

flume窗口就会监听到文件变化

3、Spooling Directory Source

①、概述

Spooling Directory Source是监听指定的目录，自动将目录中出现的新文件的内容进行收集

如果不指定，默认情况下，一个文件被收集之后，会自动添加一个后缀.COMPLETED，通过通过属性fileSuffix来修改

②、配置属性

属性	解释
type	必须是spooldir
spoolDir	要监听的目录
fileSuffix	收集之后添加的文件后缀，默认是.COMPLETED

③、案例

编辑vim spoolingdirsource.conf格式文件，添加如下内容

a1.sources = s1
a1.channels = c1
a1.sinks = k1

# 配置Spooling Directory Source
# 必须是spooldir
a1.sources.s1.type = spooldir
# 指定要监听的目录
a1.sources.s1.spoolDir = /home/flumedata

a1.channels.c1.type = memory

a1.sinks.k1.type = logger

a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1

启动flume

../bin/flume-ng agent -n a1 -c ../conf -f spoolingdirsource.conf -Dflume.root.logger=INFO,console

在另一个窗口操作

我们会发现，监听窗口将a.txt的文件内容放到flumedata这个操作日志打印出来了

4、Netcat Source

①、概述

Netcat Source在Flume1.9之后分为Netcat TCP Source和Netcat UDP Source

如果不指定，那么Netcat Source监听的是TCP请求

②、配置属性

属性	解释
type	如果监听TCP请求，那么使用netcat；如果监听UDP请求，那么使用netcatudp
bind	要监听的主机的主机名或者IP
port	要监听的端口

③、案例

上面入门案例监听的是TCP请求。

现在我们编辑vim netcatudpsource.conf格式文件，添加如下内容(以UDP为例)：

a1.sources = s1
a1.channels = c1
a1.sinks = k1

# 配置Netcat UDP Source
# 必须是netcatudp
a1.sources.s1.type = netcatudp
# 指定要监听的主机
a1.sources.s1.bind = 0.0.0.0
# 指定要监听的端口
a1.sources.s1.port = 8090

a1.channels.c1.type = memory

a1.sinks.k1.type = logger

a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1

启动Flume

../bin/flume-ng agent -n a1 -c ../conf -f netcatudpsource.conf -Dflume.root.logger=INFO,console

启动nc

nc -u hadoop01 8090

5、Sequence Generator Source

①、概述

Sequence Generator Source本质上就是一个序列产生器，会从0开始每次递增1个单位

如果不指定，默认情况下递增到Long.MAX_VALUE

②、配置属性

属性	解释
type	必须是seq
totalEvents	递增的结束范围

③、案例

编辑vim seqsource.conf格式文件，添加如下内容

a1.sources = s1
a1.channels = c1
a1.sinks = k1

# 配置Sequence Generator Source
# 必须是seq
a1.sources.s1.type = seq
# 指定结束范围
a1.sources.s1.totalEvents = 10

a1.channels.c1.type = memory

a1.sinks.k1.type = logger

a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1

启动flume

../bin/flume-ng agent -n a1 -c ../conf -f seqsource.conf -Dflume.root.logger=INFO,console

6、HTTP Source

①、概述

HTTP Source用于监听HTTP请求，但是只能监听POST和GET请求

GET请求只用于试验阶段，所以实际过程中只用这个Source来监听POST请求

②、配置属性

属性	解释
type	必须是http
port	要监听的端口

③、案例

编辑vim httpsource.conf格式文件，添加如下内容

a1.sources = s1
a1.channels = c1
a1.sinks = k1

# 配置HTTP Source
# 必须是http
a1.sources.s1.type = http
# 指定要监听的端口
a1.sources.s1.port = 8090

a1.channels.c1.type = memory

a1.sinks.k1.type = logger

a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1

启动flume

../bin/flume-ng agent -n a1 -c ../conf -f httpsource.conf -Dflume.root.logger=INFO,console

发送POST请求

curl -X POST -d '[{"headers":{"kind":"test","class":"bigdata"},"body":"testing"}]' http://hadoop01:8090http://hadoop01:8090http://hadoop01:8090

五、Custom Source

1、概述

①、自定义Source：需要定义一个类实现Source接口的子接口：EventDrivenSource或者PollableSource

EventDrivenSource：事件驱动源 - 被动型Source。需要自己定义线程来获取数据处理数据

PollableSource：拉取源 - 主动型Source。提供了线程来获取数据，只需要考虑怎么处理数据即可

②、除了实现上述两个接口之一，这个自定义的类一般还需要考虑实现Configurable接口，通过接口的方法来获取指定的属性

2、步骤

①、需要构建Maven工程，导入对应的POM依赖


        
            org.apache.flume
            flume-ng-core
            1.9.0
        
        
            org.apache.flume
            flume-ng-sdk
            1.9.0
        
        
            org.apache.flume
            flume-ng-configuration
            1.9.0

②、定义类继承AbstractSource，实现EventDrivenSource和Configurable接口

③、覆盖configure，start和stop方法

package org.example.flume.source;

import org.apache.flume.Context;
import org.apache.flume.Event;
import org.apache.flume.EventDrivenSource;
import org.apache.flume.channel.ChannelProcessor;
import org.apache.flume.conf.Configurable;
import org.apache.flume.event.EventBuilder;
import org.apache.flume.source.AbstractSource;

import java.nio.charset.StandardCharsets;
import java.util.HashMap;
import java.util.Map;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;

// 模拟：Sequence Generator Source
public class AuthSource extends AbstractSource implements EventDrivenSource, Configurable {
    private ExecutorService es;
    private  long end;
    private  long step;
    // 启动Source
    @Override
    public synchronized void start() {
        //构建线程池
        es = Executors.newFixedThreadPool(5);
        // 获取Channel处理器
        ChannelProcessor cp = this.getChannelProcessor();
        //提交任务
        es.submit(new Add(end, step,cp));
    }

    @Override
    public synchronized void stop() {
        if (es != null){
            es.shutdown();
        }

    }

    //通过这个方法来获取指定的属性值
    @Override
    public void configure(Context context) {
        //获取自增的最大值，如果不指定，默认是Long.MAX_VALUE
        end = context.getLong("end", Long.MAX_VALUE);
        //获取自增的步长，如果不指定，默认是1
        step = context.getLong("step", 1L);
    }
}

class Add implements Runnable{
    private  final long end;
    private final long step;
    private  final ChannelProcessor cp;

    Add(long end, long step,ChannelProcessor cp) {
        this.end = end;
        this.step = step;
        this.cp=cp;
    }

    @Override
    public void run() {
        for(long i=0;i headers = new HashMap<>();
            headers.put("time",System.currentTimeMillis()+"");
            // 构建Event对象
            Event e = EventBuilder.withBody(body,headers);
            // 将Event对象交给Channel处理器处理
            cp.processEvent(e);
        }
    }
}

④、定义完成之后，需要将类打成jar包放到Flume安装目录的lib目录下

⑤、编写格式文件，例如

a1.sources = s1
a1.channels = c1
a1.sinks = k1

# 配置自定义Source
# 必须是类的全路径名
a1.sources.s1.type =org.example.flume.source.AuthSource
# 指定结束范围
a1.sources.s1.end = 100
# 指定递增的步长
a1.sources.s1.step = 5

a1.channels.c1.type = memory

a1.sinks.k1.type = logger

a1.sources.s1.channels = c1
a1.sinks.k1.channel = c1

⑥、启动flume

../bin/flume-ng agent -n a1 -c ../conf -f authsource.conf -Dflume.root.logger=INFO,console

Elasticsearch 介绍：分布式搜索与分析引擎吱屋猪_ elasticsearch
在如今大数据时代，企业和开发者面临着前所未有的数据量和实时性要求。为了能够高效地处理、存储和查询这些数据，Elasticsearch作为一种强大的分布式搜索引擎，已经成为了很多组织和开发者的首选解决方案。1.什么是Elasticsearch？Elasticsearch是一个开源的、基于ApacheLucene构建的全文搜索引擎。它提供了高效的搜索功能，并且非常适合处理大量数据，尤其是在需要快速搜索
java 实现数据库备份李逍遙️ mysql 数据库 java mysql
importcom.guangyi.project.model.system.DataBaseInFo;importjava.io.BufferedReader;importjava.io.File;importjava.io.FileOutputStream;importjava.io.IOException;importjava.io.InputStream;importjava.io.Inp
数仓建模—Data Warebase AI 时代数据平台应当的样子不二人生数仓建模人工智能数据仓库数仓建模
DataWarebaseAI时代数据平台应当的样子引言：在这个AI技术飞速发展的时代，我们有能力更深入地发掘数据潜在的价值，而数据处理不应当成为阻碍。云原生分布式DataWarebase将开启处理数据的新范式，它让数据的使用返璞归真，不论是存储还是查询，一个系统满足业务全方位数据需求。打破复杂数据架构的束缚，大大降低数据的使用门槛，释放数据潜能，让数据涌现智能。背景近二十年大数据发展史2002年我
Flink 通过 Chunjun Oracle LogMiner 实时读取 Oracle 变更日志并写入 Doris 的方案 roman_日积跬步-终至千里 #flink 实战 flink oracle 大数据
文章目录一、技术背景二、关键技术1、OracleLogMiner2、Chunjun的LogMiner关键流程3、修复ChunjunOracleLogMiner问题一、技术背景在大数据实时同步场景中，需要将Oracle数据库的变更数据（CDC）采集并写入ApacheDoris，以支持数据分析、BI报表、实时数据仓库等应用。本方案基于Flink+Chunjun，通过OracleLogMiner解析Re
【第11章】亿级电商平台订单系统-海量数据架构设计 cherry5230 架构系统架构架构分布式
1-1本章导学课程导学课程定位：大型系统架构设计核心难点解析核心项目：BToB电商平台订单系统（年交易额200亿级）本章知识体系1.核心概念辨析海量数据vs大数据本质区别解析常见认知误区说明2.方法论框架海量数据处理核心思想分布式计算原理数据分片策略弹性扩展机制3.数据库架构设计方法论体系读写分离模式分库分表策略数据分区方案缓存层设计4.数据处理体系海量数据处理之道批处理与流处理数据压缩技术异步处
NET Core 大数据处理 Gene Z .Net C#c#
在.NETCore里处理10万条以上的大数据时，可采用以下几种方式，同时也适用于不同的应用场景。1.批量处理方式借助批量操作一次性处理大量数据，从而减少与数据库或外部系统的交互次数，提高性能。例如，在向数据库插入大量数据时，可使用批量插入操作。应用场景适用于数据导入、数据迁移等场景。比如将CSV文件中的大量数据批量导入到数据库中。2.并行处理方式运用并行编程技术（像Parallel.ForEach
火山云与腾讯云的优势对比苹果企业签名分发腾讯云云计算
首先，我需要确定用户的需求是什么。可能他们是在选择云服务提供商，或者在做市场调研。用户可能是企业的IT决策者，或者是开发人员，需要了解哪个平台更适合他们的项目。接下来，我得收集火山云和腾讯云的基本信息。火山云是字节跳动旗下的，虽然进入市场较晚，但可能有字节的技术支持，比如大数据和AI方面的优势。腾讯云作为老牌厂商，生态完善，产品线全，尤其在游戏、社交等领域有优势。需要对比的方面包括：背景与市场地位
Flume与Couchbase集成原理与实例 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Flume与Couchbase集成原理与实例作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着大数据时代的到来，企业对数据存储和处理的效率要求越来越高。在数据采集、存储、处理和分析的各个环节，都需要高效、可靠的技术支持。Flume和Couchbase正是这样两种优秀的工具，前者擅长于数据采集和传输，后者擅长于键值存储和文
Couchbase Analytics 的结构 PersistDZ 数据存储 couchbase
CouchbaseAnalytics的结构CouchbaseAnalytics服务专为大规模、并发、复杂的分析查询而设计，同时不会影响事务性工作负载的性能。下面将详细介绍其结构和架构，以帮助您深入理解CouchbaseAnalytics的运作方式。1.Couchbase集群架构CouchbaseServer是一个多维度可扩展的分布式数据库，其核心架构由多个服务组成：数据服务（DataService
微信小程序检测滚动到某元素位置的计算方法萧寂173 微信小程序微信小程序小程序
wxml{{item}}回到顶部jsPage({data:{arr:['111','222','333','444','555','666','777','888','999','101010','111111','121212','131313','141414'],btnShow:false,//是否显示btntargetViewHeight:0//目标view的高度},onLoad(){th
echarts柱状图区间滚动没有天赋的搬砖者 echarts 前端 javascript
constxData=['00:00','01:00','02:00','03:00','04:00','05:00','06:00'];constbarData=[5,20,36,10,10,20];option={tooltip:{show:true,trigger:'axis',confine:true,formatter(item){consthtml=`${xData[item[0].d
【机器视觉】少量样本图片情况下的图片识别技术方案 yuanpan 机器学习人工智能计算机视觉
在只有少量图片样本的情况下，进行图像识别是一个具有挑战性的任务。以下是一些应对小样本问题的有效方案：1.数据增强（DataAugmentation）通过对现有样本进行各种变换来生成更多的训练数据，例如：几何变换：旋转、缩放、平移、翻转等。颜色变换：调整亮度、对比度、饱和度等。噪声添加：高斯噪声、椒盐噪声等。裁剪和填充：随机裁剪图像的一部分或填充边缘。工具：Keras：ImageDataGenera
table点击行事件，且点击行高亮爱吃玉米的兔子 vue.js javascript elementui
consttableData=[{id:1,date:"2025-03-20",name:"Tom",},{id:2,date:"2025-03-21",name:"Hom",},{id:3,date:"2025-03-22",name:"Rem",},];constselectedRow=ref(null);//储存选中的行//点击行操作事件constrowChange=(row)=>{sele
大数据最新大数据StarRocks(七)：数据表创建(2) 2401_84182271 程序员大数据
2.1表分为内部表和外部表默认未内部表，3.0版本开始集成外部数据建议使用catalog，外部表的建表方式将被弃用2.2列定义语法：col_namecol_type[agg_type][NULL|NOTNULL][DEFAULT"default\_value"][AUTO_INCREMENT][ASgeneration_expr]col_name：列名称注意，在一般情况下，不能直接创建以以__op
都快3202年了，你还不会用Java生成计算机统一标识符 Heping_Ge2333 java
Java生成计算机统一标识符计算机统一标识符的概念什么是计算机统一标识符？计算机统一标识符就相当于每台电脑每个系统的“身份证”。它是唯一的。通常，计算机统一标识符是根据电脑的硬件情况（主板、cpu的序列号，mac地址）和系统情况（windows/linux/unix）生成的。Java语言的实现下面这段代码浅浅的实现了计算机统一标识符importlombok.Data;importlombok.ex
DMA工作原理，过程超详解凭君语未可软考 DMA
DMADMA的工作原理DMA传输数据的步骤1.设备发出DMA请求2.CPU暂停并授权DMA控制器3.DMA控制器接管总线4.数据传输（传输周期）5.中断与总线释放DMA传输占用的总线周期详解（1）请求周期（RequestCycle）（2）仲裁周期（ArbitrationCycle）（3）地址周（AddressCycle）（4）数据周期（DataCycle）（5）释放周期（ReleaseCycle）
android MutableLiveData setValue 响应速速 postValue 快 mmsx Android 常用开发技术 android livedata
MutableLiveData是LiveData的一个可变版本，常用于在ViewModel中保存和管理UI相关的数据。MutableLiveData提供了两种主要的方法来更新其值：setValue和postValue。关于这两者的响应速度，通常认为setValue比postValue更快。下面详细解释这两者的区别以及影响响应速度的因素。一、setValuevspostValue1.setValue
Moodle + Websoft9：创新教育的强大组合，助力教学与学习开源软件
Moodle+Websoft9：构建未来课堂的技术基石一、Moodle：开源生态的深度解析•模块化设计：支持超800个官方插件，如H5P交互内容创作、BigBlueButton虚拟课堂，满足个性化教学需求。•学习分析引擎：内置LearningAnalyticsAPI，可集成Python/R语言进行深度学习，预测学生学业风险。•移动优先战略：MoodleApp支持离线学习、扫码签到，2023年新增A
Trading星周二Space第三期：理性应对波动，聚焦长期价值 web3区块链比特币
作者：Trading星周二在3月20日美联储利率决议这一关键节点前夕，TechubNews王牌栏目「Trading星周二」第三期以「加密资产仓位攻防战：政策拐点下的BTC/ETH配置法则」为主题，引发行业高度关注。数据显示，本期由主持人茄哥与Balance（Kingdata&Geniidata联合创始人）、A神（RITDLab联合创始人）、交易员Beyond、Cassie（LYSLab研究员）组成
K8S学习之基础三十六：node-exporter部署云上艺旅 K8S学习 kubernetes 学习贪心算法 prometheus 云原生
Prometheusv2.2.1编写yaml文件，包含创建ns、configmap、deployment、service#创建monitoring空间viprometheus-ns.yamlapiVersion:v1kind:Namespacemetadata:name:monitoring#创建SA并绑定权限kubectlcreateserviceaccountmonitor-nmonitori
快速上手系列丨如何管理 PieCloudDB Database 虚拟数仓云原生数据库教程管理
为增强社区用户的体验，PieCloudDBDatabase社区版已于8月完成了全面改版升级。同时，PieCloudDB社区还特别制作了《快速入门PieCloudDB社区版》系列课程，旨在帮助大家全面了解新版本，逐步探索PieCloudDB的强大功能。PieCloudDB社区版提供免费下载，可用于体验产品新特性、个人学习、PoC验证等场景，方便社区用户快速体验领先的数仓虚拟化技术。PieCloudD
python pip报错：Preparing metadata (pyproject.toml) ... error 我有一个魔盒其他 python pip 开发语言
环境：win11（Python3.9.13）原因：想安装低版本python，结果安装成了32位的，但是依赖包基本都是64位的。解决办法：重装64位python（可能还需要VisualStudio内安装“使用C++的桌面开发”）异常报错：Collectingmatplotlib~=3.0(fromgradio)Usingcachedhttps://pypi.tuna.tsinghua.edu.cn/
【使用 Element UI 实现手动上传文件：FormData 追加文件和其他参数，支持单文件覆盖上传】 Hermione_log vue.js elementui 前端
在开发Web应用时，文件上传是一个常见的需求。ElementUI提供了强大的el-upload组件，可以轻松实现文件上传功能。本文将详细介绍如何使用ElementUI实现以下功能：手动触发文件上传：用户选择文件后，点击按钮手动上传。使用FormData追加文件和其他参数：将文件和其他表单数据一起提交。单文件覆盖上传：只允许上传一个文件，新文件会覆盖旧文件。1.实现思路为了实现上述功能，我们需要以下
数据重放和数据倒灌的意思一样吗赛恩斯 android
数据重放与数据倒灌在机制上有相似性，但设计目的和适用场景存在本质差异：‌1.核心定义对比‌‌维度‌‌数据倒灌‌‌数据重放‌‌技术场景‌LiveData特有的现象，新观察者自动接收最后一次数据更新‌78通用异步流机制（如Flow的StateFlow/SharedFlow），允许新订阅者获取历史数据‌45‌设计意图‌LiveData的默认行为，旨在确保观察者始终获取最新数据‌38开发者主动配置的数据保
RAMS数据处理程序—垂直剖面分析程序 Hardess-god RAMS 人工智能算法
该程序的主要特点：使用Cartopy创建地图投影添加海岸线、国界线等地理要素绘制等值线图显示气象要素分布自动设置颜色标尺和标题支持不同层次的数据展示importmatplotlib.pyplotaspltdefplot_vertical_cross_section(data,start_lat,start_lon,end_lat,end_lon):"""绘制垂直剖面图"""#计算剖面线上的点num
BigemapPro 图斑名称自定义修改全攻略 Bigemap软件软件需求信息可视化
在地图制作中，图斑名称的显示和修改是一个常见但重要的任务。今天，我们就来详细讲解如何使用BigemapPro自定义修改图斑名称，并通过字段信息组合显示它的名称，让你的地图更加专业和直观！在完成图斑绘制后，若想让图斑名称即刻显示在地图上，操作非常简便。只需选中图层文件夹，点击鼠标右键，选择【显示图元名称】选项，图斑名称便会迅速出现在地图对应位置，帮助我们快速识别各个图斑。一、单个图斑名称修改手动修改
Bigemap Pro：国产数据要素设计软件(DED)正式发布 Bigemap软件信息可视化
在数字化时代，数据如同新时代的石油，蕴含着巨大的价值。从商业决策到科研探索，从城市规划到环境监测，海量数据的高效处理、精准分析与直观可视化，已成为各行业突破发展瓶颈、实现转型升级的关键所在。历经十年精心打磨与自主研发，BigemapPro这款国产数据要素设计软件犹如一匹黑马，强势闯入数据应用领域。接下来，就让我们一同揭开BigemapPro的神秘面纱，深入探寻其独特魅力，见证它如何重塑基础数据应用
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
python学习笔记之异常（内置标准异常总结） Molly_DD Python学习笔记 python 软件测试
python异常处理机制异常处理是python的一种高级工具，当异常发生时，程序会停止当前的所有工作，跳转到异常处理部分去执行。异常既可以是程序错误引发的，也可以由代码主动触发。异常处理基本结构try:可能引发异常的代码except异常类型名称：异常处理代码else：没有发生异常时执行的代码异常报错：try：classtest:defgetdata(self):returnself.datay=t
物联网为什么用MQTT不用 HTTP 或 UDP？工程师焱记物联网 http udp 硬件架构嵌入式硬件开源协议网络
先来两个代码对比，上传温度数据给服务器。MQTT代码示例//MQTT客户端连接到MQTT服务器mqttClient.connect("mqtt://broker.server.com:8883",clientId)//订阅特定主题mqttClient.subscribe("sensor/data",qos=1)//发布消息到主题mqttClient.publish("sensor/data","t
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe

大数据笔记--Flume（第一篇）

一、Flume的简介

1、概述

2、基本概念

3、流动模型/拓扑结构

①、单级流动

②、多级流动

③、扇入流动

④、扇出流动

⑤、复杂流动

二、执行流程

三、安装Flume

四、Source

1、AVRO Source

①、概述

②、配置属性

③、案例

2、Exec Source

①、概述

②、配置属性

③、案例

3、Spooling Directory Source

①、概述

②、配置属性

③、案例

4、Netcat Source

①、概述

②、配置属性

③、案例

5、Sequence Generator Source

①、概述

②、配置属性

③、案例

6、HTTP Source

①、概述

③、案例

五、Custom Source

1、概述

2、步骤

你可能感兴趣的:(大数据04-Flume,big,data,flume,大数据)