yasuofenglei

Flume

Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of streaming event data.

Version 1.9.0 is the eleventh Flume release as an Apache top-level project. Flume 1.9.0 is stable, production-ready software, and is backwards-compatible with previous versions of the Flume 1.x codeline.

Flume最早是Cloudera开发的一套分布式的日志收集系统，后来贡献给了Apache。

Flume是一套分布式的，可靠的，能够进行日志的收集，汇聚和传输的框架

版本：

a.Flume-og：Flume0.9及以前的版本

b.Flume-ng:Flume1.0及以后的版本

基本概念

1. Event：

Flume会将收集到的每一条日志封装成一个Event对象。

Event对象本质是一个json串

json串固定的包含两个部分：header,body.

2.Agent

在Flume中，Agent是Flume组成的基本单位

每一个Agent固定的包含三个组件：source,channel,sink.

(source==>channel==>sink)单级流动

(source==>channel==>sink==source==>channel==>sink)多级流动

（source,source==>channel,channel==>sink,sink=source==>channel==>sink）扇入流动

(source==>channel==>sink==source,source==>channel,channel==>sink,sink)扇出流动

复杂流动

Source

AVRO:接收序列化数据

SpoolDir:监听给定的目录只要目录下的文件发生变化，会自动收集文件中的内容。

HTTP:监听HTTP请求，注意只能接收GET和POST,get仅用于测试

自定义Source

AbstractSource抽象类，实现了基本的方法

如果需要自定义Source,那么需要实现POllableSource或者EventDrivenSource.

PollableSource:拉取型Source，会主动访问数据源然后去获取数据，所以在PollableSource中已经定义好获取数据线程。

EventDrivenSource:事件驱动型Source，在数据源发生变化的时候才会获取数据，所以EventDriverSource不会预定义线程

流动模型

单级流动：只有1个Agent

多级流动：有多个Agent

因为数据在节点之间的传输必须经过序列化。所以结点间的source和sink必须是avro类型。

基本配置

a1.sources = s1
a1.channels = c1
a1.sinks = k1

a1.sources.s1.type = netcat
a1.sources.s1.bind = 0.0.0.0
a1.sources.s1.port = 8090

a1.channels.c1.type = memory
a1.channels.c1.capacity = 10000
a1.channels.c1.transactionCapacity = 1000

a1.sinks.k1.type = logger

a1.sources.s1.channels = c1
a1.sinks.k1.channel =c1

启动：../bin/flume-ng agent -n a1 -c ../conf -f basic.conf -Dflume.root.logger=INFO,console（改路径和配置文件名）

Source配置

Avro Source

   1. 监听Avro 端口来接收外部avro客户端的事件流
   2. avro-source接收到的是经过avro序列化后的数据，然后反序列化数据继续传输。
   3. 源数据必须是经过avro序列化后的数据
   4. 利用Avro source可以实现多级流动、扇出流、扇入流等效果
   5. 可以接收通过flume提供的avro客户端发送的日志信息

配置项   说明
channels   绑定通道
type   avro
bind   需要监听的主机名或IP
port   要监听的端口
threads   工作线程最大线程数
selector.*   选择器配置
interceptors.*   拦截器配置

   a1.sources.s1.type=avro
   a1.sources.s1.bind=0.0.0.0
   a1.sources.s1.port=8090

Exec Source

1. 可以将命令产生的输出作为源来进行传递

配置项   说明
channels   绑定的通道
type       exec
command   要执行的命令
selector.*   选择器配置
interceptors.*   拦截器列表配置

a1.sources.r1.type=exec
a1.sources.r1.command=ping 192.168.234.163

Spooling Directory Source

   1. flume会持续监听指定的目录，把放入这个目录中的文件当做source来处理
   2. 注意：一旦文件被放到“自动收集”目录中后，便不能修改，如果修改，flume会报错
   3. 此外，也不能有重名的文件，如果有，flume也会报错

配置项   说明
channels   绑定通道
type   spooldir
spoolDir   读取文件的路径，即"搜集目录"
selector.*   选择器配置
interceptors.*      拦截器配置

   #描述/配置a1的source1
   a1.sources.s1.type=spooldir
   a1.sources.s1.spoolDir=/home/work/data

NetCat Source

   1. 一个NetCat Source用来监听一个指定端口，并接收监听到的数据
   2. 接收的数据是字符串形式
配置项   说明
channels   绑定通道
type   netcat
port   指定要绑定到的端口号
selector.*   选择器配置
interceptors.*       拦截器配置

a1.sources.s1.type=netcat

a1.sources.s1.bind=0.0.0.0

a1.sources.s1.port=44444

Squence Generator Source

   1. 一个简单的序列发生器，不断的产生事件，值是从0开始每次递增1
   2. 主要用来测试
配置项   说明
channels   绑定的通道
type   seq
selector.*   选择器配置
interceptors.*   拦截器配置
batchSize   递增步长，默认是1

a1.sources.s1.type=seq

HTTP Source

   1. 此Source接受HTTP的GET和POST请求作为Flume的事件
   2. GET方式只用于试验，所以实际使用过程中以POST请求居多
   3. 如果想让flume正确解析Http协议信息，比如解析出请求头、请求体等信息，需要提供一个可插拔的"处理器"来将请求转换为事件对象，这个处理器必须实现HTTPSourceHandler接口。
   4. 这个处理器接受一个 HttpServletRequest对象，并返回一个Flume Envent对象集合

二、常用Handler
JSONHandler
   1. 可以处理JSON格式的数据，并支持UTF-8 UTF-16 UTF-32字符集
   2. 该handler接受Event数组，并根据请求头中指定的编码将其转换为Flume Event
   3. 如果没有指定编码，默认编码为UTF-8
   4. 格式：
   [
       {
           "headers" : {
               "timestamp" : "434324343",
               "host" : "random_host.example.com"
           }
           "body" : "random_body"
       },
       {
           "headers" : {
               "namenode" : "namenode.example.com",
               "datanode" : "random_datanode.example.com"
           },
           "body" : "really_random_body"
       }
   ]
BlobHandler
   1. BlobHandler是一种将请求中上传文件信息转化为event的处理器
   2. BlobHandler适合大文件的传输

三、可配置选项说明
配置项   说明
channels   绑定的通道
type      http
selector.*   选择器配置
interceptors.*   拦截器配置
port   端口

#描述/配置a1的source1

a1.sources.s1.type=http

a1.sources.s1.port=8888

Channel

File Channel

1. 将数据临时存储到计算机的磁盘的文件中
2. 性能比较低，但是即使程序出错数据不会丢失

配置项   说明
type   file
dataDirs   指定存放的目录，逗号分隔的目录列表，用以存放日志文件。使用单独的磁盘上的多个目录可以提高文件通道效率。
   a1.channels.c1.type=file
   a1.channels.c1.dataDirs=/home/filechannel

其他Channel

一、JDBC Channel

1. 事件会被持久化（存储）到可靠的数据库里
2. 目前只支持嵌入式Derby数据库。但是Derby数据库不太好用，所以JDBC Channel目前仅用于测试，不能用于生产环境。

二、内存溢出通道

1. 优先把Event存到内存中，如果存不下，在溢出到文件中
2. 目前处于测试阶段，还未能用于生产环境

Sink

Logger Sink

   1. 记录指定级别（比如INFO，DEBUG，ERROR等）的日志，通常用于调试
   2. 要求，在 --conf（-c )参数指定的目录下有log4j的配置文件
   3. 根据设计，logger sink将body内容限制为16字节，从而避免屏幕充斥着过多的内容。如果想要查看调试的完整内容，那么你应该使用其他的sink，也许可以使用file_roll sink，它会将日志写到本地文件系统中

二、可配置项说明
配置项   说明
channel   绑定通道
type   logger

#描述a1的s1

a1.sinks.k1.type=logger

File_roll Sink

1. 在本地系统中存储事件
2. 每隔指定时长生成文件保存这段时间内收集到的日志信息

二、可配置选项说明
配置项   说明
channel   绑定通道
type   file_roll
sink.directory   文件被存储的目录
sink.rollInterval   30 记录日志到文件里，每隔30秒生成一个新日志文件。如果设置为0，则禁止滚动，从而导致所有数据被写入到一个文件中。

#描述sink

a1.sinks.k1.type=file_roll

a1.sinks.k1.sink.directory=/home/work/rolldata

a1.sinks.k1.sink.rollInterval=60

HDFS Sink

   1. 此Sink将事件写入到Hadoop分布式文件系统HDFS中
   2. 目前它支持创建文本文件和序列化文件，并且对这两种格式都支持压缩
   3. 这些文件可以分卷，按照指定的时间或数据量或事件的数量为基础
   4. 它还通过类似时间戳或机器属性对数据进行 buckets/partitions 操作
   5. HDFS的目录路径可以包含将要由HDFS替换格式的转移序列用以生成存储事件的目录/文件名
   6. 使用这个Sink要求haddop必须已经安装好，以便Flume可以通过hadoop提供的jar包与HDFS进行通信

二、可配置选项说明
配置项   说明
channel   绑定的通道
type   hdfs
hdfs.path   HDFS 目录路径（hdfs://namenode/flume/webdata/)
hdfs.inUseSuffix   .tmp   Flume正在处理的文件所加的后缀
hdfs.rollInterval   文件生成的间隔事件，默认是30，单位是秒
hdfs.rollSize   生成的文件大小，默认是1024个字节，0表示不开启此项
hdfs.rollCount   每写几条数据就生成一个新文件，默认数量为10
   每写几条数据就生成一个新文件，
hdfs.fileType   SequenceFile/DataStream/CompressedStream
hdfs.retryInterval   80   Time in seconds between consecutive attempts to close a file. Each close call costs multiple RPC round-trips to the Namenode, so setting this too low can cause a lot of load on the name node. If set to 0 or less, the sink will not attempt to close the file if the first attempt fails, and may leave the file open or with a ”.tmp” extension.

#描述sink

a1.sinks.s1.type=hdfs

a1.sinks.s1.hdfs.path=hdfs://192.168.234.21:9000/flume

a1.sinks.s1.hdfs.fileType=DataStream

Avro Sink

一、概述
1. 将源数据进行利用avro进行序列化之后写到指定的节点上
2. 是实现多级流动、扇出流(1到多) 扇入流(多到1) 的基础

二、可配置选项说明
配置项   说明
channel   绑定的通道
type   avro
hostname   要发送的主机
port   要发往的端口号

#描述sink

a1.sinks.s1.type=avro

a1.sinks.s1.hostname=flume02

a1.sinks.s1.port=9999

Selector

复制模式

一、概述
1. Selector 默认是复制模式(replicating)，即把source复制，然后分发给多个sink

二、可配置选项说明
配置项   说明
selector.type   replicating 表示复制模式，source的selector如果不配置，默认就是这种模式
   在复制模式下，当source接收到数据后，会复制多分，分发给每一个avro sink
selector.optional   标志通道为可选

a1.sources = r1
a1.channels = c1 c2 c3
a1.source.r1.selector.type = replicating(这个是默认的)
a1.source.r1.channels = c1 c2 c3
a1.source.r1.selector.optional = c3

多路复用模式

一、概述
1. 在这种模式下，用户可以指定转发的规则。selector根据规则进行数据的分发

二、可配置选项说明
配置项   说明
selector.type   multiplexing 表示路由模式
selector.header   指定要监测的头的名称
selector.mapping.*   匹配规则
selector.default       如果未满足匹配规则，则默认发往指定的通道

三、示例
概述
01机利用http source接收数据，根据路由规则，发往02，03机。02，03通过avro source接收数据，通过logger sink 打印数据

#描述/配置a1的source1

a1.sources.r1.type=http

a1.sources.r1.port=8888

a1.sources.r1.selector.type=multiplexing

a1.sources.r1.selector.header=state

a1.sources.r1.selector.mapping.cn=c1

a1.sources.r1.selector.mapping.us=c2

a1.sources.r1.selector.default=c2

Interceptor

   1. Flume有能力在运行阶段修改/删除Event，这是通过拦截器（Interceptors）来实现的
   2. 拦截器需要实现org.apache.flume.interceptor.Interceptor接口
   3. 拦截器可以修改或删除事件基于开发者在选择器中选择的任何条件
   4. 拦截器采用了责任链模式，多个拦截器可以按指定顺序拦截
   5. 一个拦截器返回的事件列表被传递给链中的下一个拦截器
   6. 如果一个拦截器需要删除事件，它只需要在返回的事件集中不包含要删除的事件即可
   7. 如果要删除所有事件，只需返回一个空列表

Timestamp Interceptor

一、概述
   1. 这个拦截器在事件头中插入以毫秒为单位的当前处理时间
   2. 头的名字为timestamp，值为当前处理的时间戳
   3. 如果在之前已经有这个时间戳，则保留原有的时间戳

二、可配置项说明
配置项   说明
type   timestamp
preserveExisting   false   如果时间戳已经存在是否保留

a1.sources.s1.interceptors = i1
a1.sources.s1.interceptors.i1.type = timestamp

Host Interceptor

一、概述
   1. 这个拦截器插入当前处理Agent的主机名或ip
   2. 头的名字为host或配置的名称
   3. 值是主机名或ip地址，基于配置

二、可配置项说明
配置参数   说明
type   host
preserveExisting   false   如果主机名已经存在是否保留
useIP   true   如果配置为true则用IP，配置为false则用主机名
hostHeader   host   加入头时使用的名称

Static Interceptor

一、概述
   1. 此拦截器允许用户增加静态头信息使用静态的值到所有事件
   2. 目前的实现中不允许一次指定多个头
   3. 如果需要增加多个静态头可以指定多个Static interceptors

二、可配置项说明
配置项   说明
type   static
preserveExisting   true
key   key   要增加的头名
value   value   要增加的头值

UUID Interceptor

一、概述
1. 这个拦截器在所有事件头中增加一个全局一致性标志，其实就是UUID

二、可配置项说明
配置项   说明
type   org.apache.flume.sink.solr.morphline.UUIDInterceptor$Builder
headerName   id   头名称
preserveExisting   true   如果头已经存在，是否保留
prefix   “”   在UUID前拼接的字符串前缀

Search And Replace Interceptor

1. 这个拦截器提供了简单的基于字符串的正则搜索和替换功能

二、可配置项说明
配置项   说明
type   search_replace
searchPattern   要搜索和替换的正则表达式
replaceString   要替换为的字符串
charset       UTF-8   字符集编码，默认utf-8

Regex Filtering Interceptor

1. 此拦截器通过解析事件体去匹配给定正则表达式来筛选事件
2. 所提供的正则表达式即可以用来包含或刨除事件

二、可配置项说明
配置项   说明
type   regex_filter
regex   ”.*” 所要匹配的正则表达式
excludeEvents   false   如果是true则刨除匹配的事件，false则包含匹配的事件。

Regex Extractor Interceptor

1. 使用指定正则表达式匹配事件，并将匹配到的组作为头加入到事件中
2. 它也支持插件化的序列化器用来格式化匹配到的组在加入他们作为头之前

二、可配置项说明
配置项   说明
type   regex_extractor
regex   要匹配的正则表达式
serializers   匹配对象列表

Processor

Sink Group允许用户将多个Sink组合成一个实体
Flume Sink Processor 可以通过切换组内Sink用来实现负载均衡的效果，或在一个Sink故障时切换到另一个Sink

Default Sink Processor

一、概述
1. 只接受一个 Sink
2. 这是默认的策略。即如果不配置Processor，用的是这个策略

二、可配置选项说明
配置项   说明
sinks   用空格分隔的Sink集合
processor.type   default

Failover Sink Processor

一、概述
   1. 维护一个sink们的优先表。确保只要一个是可用的就事件就可以被处理
   2. 失败处理原理是，为失效的sink指定一个冷却时间，在冷却时间到达后再重新使用
   3. sink们可以被配置一个优先级，数字越大优先级越高
   4. 如果sink发送事件失败，则下一个最高优先级的sink将会尝试接着发送事件
   5. 如果没有指定优先级，则优先级顺序取决于sink们的配置顺序，先配置的默认优先级高于后配置的
   6. 在配置的过程中，设置一个group processor ，并且为每个sink都指定一个优先级
   7. 优先级必须是唯一的
   8. 另外可以设置maxpenalty属性指定限定失败时间

二、可配置项说明
配置项   说明
sinks   绑定的sink
processor.type   failover
processor.priority   设置优先级，注意，每个sink的优先级必须是唯一的
processor.maxpenalty   30000   The maximum backoff period for the failed Sink (in millis)

三、示例
a1.sinkgroups = g1
a1.sinkgroups.g1.sinks = k1 k2
a1.sinkgroups.g1.processor.type = failover
a1.sinkgroups.g1.processor.priority.k1 = 5
a1.sinkgroups.g1.processor.priority.k2 = 10
a1.sinkgroups.g1.processor.maxpenalty = 10000

Load Balancing Sink Processor

一、概述
   1. 提供了在多个sink之间实现负载均衡的能力
   2. 它维护了一个活动sink的索引列表
   3. 它支持轮询或随机方式的负载均衡，默认值是轮询方式，可以通过配置指定
   4. 也可以通过实现AbstractSinkSelector接口实现自定义的选择机制

二、可配置项说明
配置项   说明
processor.sinks   绑定的sink
processor.type       load_balance
processor.selector   round_robin（轮叫调度）random（随机）

三、示例
01的配置示例：
#配置Agent a1 的组件
a1.sources=r1
a1.sinks=s1 s2
a1.channels=c1
a1.sinkgroups=g1

#描述/配置a1的source1
a1.sources.r1.type=http
a1.sources.r1.port=8888
a1.sinkgroups.g1.sinks=s1 s2
a1.sinkgroups.g1.processor.type=load_balance
a1.sinkgroups.g1.processor.selector=round_robin
轮叫调度算法（轮询发送）

#描述sink
a1.sinks.s1.type=avro
a1.sinks.s1.hostname=192.168.234.212
a1.sinks.s1.port=9999

a1.sinks.s2.type=avro
a1.sinks.s2.hostname=192.168.234.213
a1.sinks.s2.port=9999
#描述内存channel
a1.channels.c1.type=memory
a1.channels.c1.capacity=1000
a1.channels.c1.transactionCapacity=100

#为channel 绑定 source和sink
a1.sources.r1.channels=c1
a1.sinks.s1.channel=c1
a1.sinks.s2.channel=c1

02,03的配置示例：
#配置Agent a1 的组件
a1.sources=r1
a1.sinks=s1
a1.channels=c1

#描述/配置a1的source1
a1.sources.r1.type=avro
a1.sources.r1.bind=0.0.0.0
a1.sources.r1.port=9999

#描述sink
a1.sinks.s1.type=logger

#描述内存channel
a1.channels.c1.type=memory
a1.channels.c1.capacity=1000
a1.channels.c1.transactionCapacity=100

#为channel 绑定 source和sink
a1.sources.r1.channels=c1
a1.sinks.s1.channel=c1

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
数字化（电子化）招标采购平台系统核心功能详细介绍 xinyuan_123456 oracle
数智化招标采购平台覆盖全业务类型、全采购流程、全采购方式，是郑州信源公司运用“互联网+”、大数据、人工智能、区块链、物联网等新兴技术，结合供应链管理理念，以招标采购为核心，提供交易、管理、数据、服务、监管为一体的高标准采购管理平台，赋能政企用户实现采购业务全流程的电子化、数字化、智慧化。根据产品功能及应用领域，产品包括：企业数智化招采供应链平台、金融数智化招采平台、政府数智化采购平台、公共资源数智
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h

Flume

基本概念

自定义Source

流动模型

基本配置

Source配置

Avro Source

Exec Source

Spooling Directory Source

NetCat Source

Squence Generator Source

HTTP Source

Channel

Memory Channel

File Channel

其他Channel

一、JDBC Channel

二、内存溢出通道

1. 优先把Event存到内存中，如果存不下，在溢出到文件中
2. 目前处于测试阶段，还未能用于生产环境

Sink

Logger Sink

File_roll Sink

HDFS Sink

Avro Sink

Selector

复制模式

多路复用模式

Interceptor

Timestamp Interceptor

Host Interceptor

Static Interceptor

UUID Interceptor

Search And Replace Interceptor

Regex Filtering Interceptor

Regex Extractor Interceptor

Processor

Default Sink Processor

Failover Sink Processor

Load Balancing Sink Processor

你可能感兴趣的:(大数据)

Flume

基本概念

自定义Source

流动模型

基本配置

Source配置

Avro Source

Exec Source

Spooling Directory Source

NetCat Source

Squence Generator Source

HTTP Source

Channel

Memory Channel

File Channel

其他Channel

一、JDBC Channel

二、内存溢出通道 1. 优先把Event存到内存中，如果存不下，在溢出到文件中 2. 目前处于测试阶段，还未能用于生产环境

Sink

Logger Sink

File_roll Sink

HDFS Sink

Avro Sink

Selector

复制模式

多路复用模式

Interceptor

Timestamp Interceptor

Host Interceptor

Static Interceptor

UUID Interceptor

Search And Replace Interceptor

Regex Filtering Interceptor

Regex Extractor Interceptor

Processor

Default Sink Processor

Failover Sink Processor

Load Balancing Sink Processor

你可能感兴趣的:(大数据)

二、内存溢出通道

1. 优先把Event存到内存中，如果存不下，在溢出到文件中
2. 目前处于测试阶段，还未能用于生产环境