javastart

分布式日志收集收集系统：Flume(转)

http://www.geekbus.cn/flume-a-distributed-log-collecting-system/

大数据 Killua 7个月前 (08-15) 1248浏览 0评论

Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。Flume 初始的发行版本目前被统称为 Flume OG（original generation），属于 cloudera。但随着 Flume 功能的扩展，Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来，尤其是在 Flume OG 的最后一个发行版本 0.94.0 中，日志传输不稳定的现象尤为严重。为了解决这些问题，2011 年 10 月 22 号，cloudera 完成了 Flume-728，对 Flume 进行了里程碑式的改动：重构核心组件、核心配置以及代码架构，重构后的版本统称为 Flume NG（next generation）；改动的另一原因是将 Flume 纳入 apache 旗下，cloudera Flume 改名为 Apache Flume。IBM 的这篇文章：Flume NG：Flume 发展史上的第一次革命，从基本组件以及用户体验的角度阐述 Flume OG 到 Flume NG 发生的革命性变化。

一、Flume OG

Flume OG的设计目标：

可靠性：当节点出现故障时，日志能够被传送到其他节点上而不会丢失。Flume提供了三种级别的可靠性保障，从强到弱依次分别为：end-to-end（收到数据agent首先将event写到磁盘上，当数据传送成功后，再删除；如果数据发送失败，可以重新发送。），Store on failure（这也是scribe采用的策略，当数据接收方crash时，将数据写到本地，待恢复后，继续发送），Best effort（数据发送到接收方后，不会进行确认）。
可扩展性：Flume采用了三层架构，分别为agent，collector和storage，每一层均可以水平扩展。其中，所有agent和collector由master统一管理，这使得系统容易监控和维护，且master允许有多个（使用ZooKeeper进行管理和负载均衡），这就避免了单点故障问题。
可管理性：所有agent和Collector由master统一管理，这使得系统便于维护。多master情况，Flume利用ZooKeeper和gossip，保证动态配置数据的一致性。用户可以在master上查看各个数据源或者数据流执行情况，且可以对各个数据源配置和动态加载。Flume提供了web 和shell script command两种形式对数据流进行管理。
功能可扩展性：用户可以根据需要添加自己的agent，collector或者storage。此外，Flume自带了很多组件，包括各种agent（file，syslog等），collector和storage（file，HDFS等）。

Flume OG的架构：

在Flume中，最重要的抽象是data flow（数据流），data flow描述了数据从产生，传输、处理并最终写入目标的一条路径。

对于agent数据流配置就是从哪得到数据，把数据发送到哪个collector。
对于collector是接收agent发过来的数据，把数据发送到指定的目标机器上。

Flume框架对hadoop和zookeeper的依赖只是在jar包上，并不要求flume启动时必须将hadoop和zookeeper服务也启动。

如前面提到的，Flume采用了分层架构：分别为Agent，Collector和Storage。Agent用于采集数据，Agent是Flume中产生数据流的地方。同时，Agent会将产生的数据流传输到Collector。Collector用于对数据进行聚合，往往会产生一个更大的流，然后传输到Storage。其中，Agent和Collector均由两部分组成：source和sink，source是数据来源，sink是数据去向。Flume使用两个组件：Master和Node，Node根据在Master shell或web中动态配置，决定其是作为Agent还是Collector。

1、Agent

Agent的作用是将数据源的数据发送给collector。Flume自带了很多直接可用的数据源（source），如：

text(“filename”)：将文件filename作为数据源，按行发送
tail(“filename”)：探测filename新产生的数据，按行发送出去
fsyslogTcp(5140)：监听TCP的5140端口，并且接收到的数据发送出去
tailDir(“dirname”[, fileregex=”.*”[, startFromEnd=false[, recurseDepth=0]]])：监听目录中的文件末尾，使用正则去选定需要监听的文件（不包含目录），recurseDepth为递归监听其下子目录的深度

更多可参见这位朋友的整理：http://www.cnblogs.com/zhangmiao-chp/archive/2011/05/18/2050465.html

同时提供了很多sink，如：

console[("format")] ：直接将将数据显示在consolr上
text(“txtfile”)：将数据写到文件txtfile中
dfs(“dfsfile”)：将数据写到HDFS上的dfsfile文件中
syslogTcp(“host”,port)：将数据通过TCP传递给host节点
agentSink[(“machine”[,port])]：等价于agentE2ESink，如果省略，machine参数，默认使用flume.collector.event.host与flume.collector.event.port作为默认collecotr
agentDFOSink[(“machine” [,port])]：本地热备agent，agent发现collector节点故障后，不断检查collector的存活状态以便重新发送event，在此间产生的数据将缓存到本地磁盘中
agentBESink[(“machine”[,port])]：不负责的agent，如果collector故障，将不做任何处理，它发送的数据也将被直接丢弃
agentE2EChain：指定多个collector提高可用性。当向主collector发送event失效后，转向第二个collector发送，当所有的collector失败后，它会非常执着的再来一遍

更多可参见这位朋友的整理：http://www.cnblogs.com/zhangmiao-chp/archive/2011/05/18/2050472.html

2、Collector

Collector的作用是将多个Agent的数据汇总后，加载到Storage中。它的source和sink与agent类似。

数据源（source），如：

collectorSource[(port)]：Collector source，监听端口汇聚数据
autoCollectorSource：通过master协调物理节点自动汇聚数据
logicalSource：逻辑source，由master分配端口并监听rpcSink

sink，如：

collectorSink( “fsdir”,”fsfileprefix”,rollmillis)：collectorSink，数据通过collector汇聚之后发送到hdfs, fsdir 是hdfs目录，fsfileprefix为文件前缀码
customdfs(“hdfspath”[, "format"])：自定义格式dfs

3、Storage

storage是存储系统，可以是一个普通file，也可以是HDFS，HIVE，HBase，分布式存储等。

4、Master

Master是管理协调Agent和Collector的配置等信息，是flume集群的控制器。

二、Flume NG

对于Flume OG ,可以说他是一个分布式日志收集系统，有Mater概念，依赖于Zookeeper，Agent用于采集数据，Agent是Flume中产生数据流的地方，同时，Agent会将产生的数据流传输到Collector。对应的，collector用于对数据进行聚合，往往会产生一个更大的流。而对于Flume NG，它摒弃了Master和zookeeper，collector也没有了，web配置台也没有了，只剩下source，sink和channel，此时一个Agent的概念包括source、channel和sink，完全由一个分布式系统变成了传输工具。不同机器之间的数据传输不再是OG那样由agent->collector，而是由一个Agent端的sink流向另一个agent的source。

Flume NG中的核心概念：

Client：生产数据，运行在一个独立的线程。
Source：从Client收集数据，传递给Channel。可以接收外部源发送过来的数据。不同的 source，可以接受不同的数据格式。比如有目录池(spooling directory)数据源，可以监控指定文件夹中的新文件变化，如果目录中有文件产生，就会立刻读取其内容。
Channel：是一个存储地，接收source的输出，直到有sink消费掉channel中的数据。Channel中的数据直到进入到下一个channel中或者进入终端才会被删除。当sink写入失败后，可以自动重启，不会造成数据丢失，因此很可靠。
Sink：会消费channel中的数据，然后送给外部源或者其他source。如数据可以写入到HDFS或者HBase中。
Agent：使用JVM 运行Flume。每台机器运行一个agent，但是可以在一个agent中包含多个sources和sinks。
Events：Flume NG传输的数据的基本单位是event，如果是文本文件，通常是一行记录，这也是事务的基本单位。

Flume NG相对于Flume OG的主要变化：

sources和sinks 使用channels 进行链接
两个主要channel：in-memory channel，非持久性支持，速度快； JDBC-based channel 持久性支持。
不再区分逻辑和物理node，所有物理节点统称为agents,每个agents 都能运行0个或多个sources 和sinks
不再需要master节点和对zookeeper的依赖，配置文件简单化。
插件化，一部分面对用户，工具或系统开发人员。
使用Thrift、Avro Flume sources 可以从flume0.9.4 发送 events 到flume 1.x

Flume OG节点组成图：

Flume NG节点组成图：

对应于 OG 的特点，FLUM NG 的特点是：

NG 只有一种角色的节点：代理节点（agent）。
没有 collector、master 节点。这是核心组件最核心的变化。
去除了 physical nodes、logical nodes 的概念和相关内容。
agent 节点的组成也发生了变化。

Flume NG 以agent为最小的独立运行单位。一个agent就是一个JVM。单agent由Source、Sink和Channel三大组件构成。

Flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位，它携带日志数据(字节数组形式)并且携带有头信息，这些Event由Agent外部的Source，比如上图中的Web Server生成。当Source捕获事件后会进行特定的格式化，然后Source会把事件推入(单个或多个)Channel中。可以把Channel看作是一个缓冲区，它将保存事件直到Sink处理完该事件。Sink负责持久化日志或者把事件推向另一个Source。值得注意的是，Flume提供了大量内置的Source、Channel和Sink类型。不同类型的Source、Channel和Sink可以自由组合。组合方式基于用户设置的配置文件，非常灵活。比如：Channel可以把事件暂存在内存里，也可以持久化到本地硬盘上。Sink可以把日志写入HDFS, HBase，甚至是另外一个Source等等。Flume支持用户建立多级流，也就是说，多个agent可以协同工作，并且支持Fan-in、Fan-out、Contextual Routing、Backup Routes。如下图：

Flume 允许多个 agent 连在一起，形成前后相连的多级跳：

1、 source

Flume 支持 Avro，log4j，syslog 和 http post(body为json格式)。可以让应用程序同已有的Source直接打交道，如AvroSource，SyslogTcpSource。也可以写一个 Source，以 IPC 或 RPC 的方式接入自己的应用，Avro和 Thrift 都可以(分别有 NettyAvroRpcClient 和 ThriftRpcClient 实现了 RpcClient接口)，其中 Avro 是默认的 RPC 协议。具体代码级别的 Client 端数据接入，可以参考官方手册。对现有程序改动最小的使用方式是使用是直接读取程序原来记录的日志文件，基本可以实现无缝接入，不需要对现有程序进行任何改动。对于直接读取文件 Source,有两种方式：

ExecSource: 以运行 Linux 命令的方式，持续的输出最新的数据，如 tail -F 文件名指令，在这种方式下，取的文件名必须是指定的。 ExecSource 可以实现对日志的实时收集，但是存在Flume不运行或者指令执行出错时，将无法收集到日志数据，无法保证日志数据的完整性。
SpoolSource: 监测配置的目录下新增的文件，并将文件中的数据读取出来。需要注意两点：拷贝到 spool 目录下的文件不可以再打开编辑；spool 目录下不可包含相应的子目录。SpoolSource 虽然无法实现实时的收集数据，但是可以使用以分钟的方式分割文件，趋近于实时。如果应用无法实现以分钟切割日志文件的话，可以两种收集方式结合使用。在实际使用的过程中，可以结合 log4j 使用，使用 log4j的时候，将 log4j 的文件分割机制设为1分钟一次，将文件拷贝到spool的监控目录。log4j 有一个 TimeRolling 的插件，可以把 log4j 分割文件到 spool 目录。基本实现了实时的监控。Flume 在传完文件之后，将会修改文件的后缀，变为 .COMPLETED（后缀也可以在配置文件中灵活指定）

2、Channel

当前有几个 channel 可供选择，分别是 Memory Channel, JDBC Channel , File Channel，Psuedo Transaction Channel。比较常见的是前三种 channel。

MemoryChannel 可以实现高速的吞吐，但是无法保证数据的完整性。
MemoryRecoverChannel 在官方文档的建议上已经建义使用FileChannel来替换。
FileChannel保证数据的完整性与一致性。在具体配置FileChannel时，建议FileChannel设置的目录和程序日志文件保存的目录设成不同的磁盘，以便提高效率。

File Channel 是一个持久化的隧道（channel），它持久化所有的事件，并将其存储到磁盘中。因此，即使 Java 虚拟机当掉，或者操作系统崩溃或重启，再或者事件没有在管道中成功地传递到下一个代理（agent），这一切都不会造成数据丢失。Memory Channel 是一个不稳定的隧道，其原因是由于它在内存中存储所有事件。如果 java 进程死掉，任何存储在内存的事件将会丢失。另外，内存的空间收到 RAM大小的限制,而 File Channel 这方面是它的优势，只要磁盘空间足够，它就可以将所有事件数据存储到磁盘上。

3、sink

Sink在设置存储数据时，可以向文件系统、数据库、hadoop存数据，在日志数据较少时，可以将数据存储在文件系中，并且设定一定的时间间隔保存数据。在日志数据较多时，可以将相应的日志数据存储到Hadoop中，便于日后进行相应的数据分析。更多sink的内容可以参考官方手册。

从整体上讲，NG 在核心组件上进行了大规模的调整，核心组件的数目由 7 删减到 4。由于 Flume 的使用涉及到众多因素，如 avro、thrift、hdfs、jdbc、zookeeper 等，而这些组件和 Flume 的整合都需要关联到所有组件。所以核心组件的改革对整个 Flume 的使用影响深远：

大大降低了对用户的要求，如不再依赖 zookeeper，用户无需去搭建 zookeeper 集群
用户也不再纠结于 OG 中的模糊概念（尤其是 physical nodes、logical nodes，agent、collector）
有利于 Flume 和其他技术、hadoop 周边组件的整合，比如在 NG 版本中，Flume 轻松实现了和 jdbc、hbase 的集成
将 OG 版本中复杂、大规模、不稳定的标签移除，Flume 实现了向灵活、轻便的转变，而且在功能上更加强大、可扩展性更高

参考链接：

Flume官方网站：http://flume.apache.org/
Flume用户文档：http://flume.apache.org/FlumeUserGuide.html
Flume开发文档：http://flume.apache.org/FlumeDeveloperGuide.html
Scribe、Chukwa、Kafka、Flume日志系统对比：http://www.ttlsa.com/log-system/scribe-chukwa-kafka-flume-log-system-contrast/
关于Flume-ng那些事：http://www.ttlsa.com/?s=flume
Flume 1.4.0 User Guide：http://archive.cloudera.com/cdh4/cdh/4/flume-ng-1.4.0-cdh4.7.0/FlumeUserGuide.html
Flume日志采集：http://blog.csdn.net/sunmeng_007/article/details/9762507
Flume-NG + HDFS + HIVE 日志收集分析：http://eyelublog.wordpress.com/2013/01/13/flume-ng-hdfs-hive-%E6%97%A5%E5%BF%97%E6%94%B6%E9%9B%86%E5%88%86%E6%9E%90/
Flume-ng+Kafka+Storm+HDFS 实时系统搭建：http://blog.csdn.net/weijonathan/article/details/18301321
Flume-NG + HDFS + PIG 日志收集分析：http://hi.baidu.com/life_to_you/item/a98e2ec3367486dbef183b5e
Flume 示例一收集tomcat日志：http://my.oschina.net/88sys/blog/71529
Flume-ng 多节点集群示例： http://my.oschina.net/u/1401580/blog/204052
试用Flume-ng 1.1：http://heipark.iteye.com/blog/1617995
基于Flume的美团日志收集系统(一)架构和设计：http://tech.meituan.com/mt-log-system-arch.html
基于Flume的美团日志收集系统(二)改进和优化：http://tech.meituan.com/mt-log-system-optimization.html
美团对 flume 的改进代码：https://github.com/dashengju/mt-flume

本文转载自互联网，如有涉及侵权行为，请联系网站管理员删除。
原文链接：分布式日志收集收集系统：Flume
原文作者：标点符

继续浏览有关 Flume 的文章

Zabbix监控系统搭建&飞书机器人告警 wdy0078 zabbix
Zabbix监控系统搭建&飞书机器人告警操作系统：CentOS7x64Zabbix版本：5.0LTS参考官网链接：下载Zabbix5.0LTSforCentOS7,MySQL,NGINX安装Zabbix源rpm-Uvhhttps://repo.zabbix.com/zabbix/5.0/rhel/7/x86_64/zabbix-release-5.0-1.el7.noarch.rpmyumclea
未来十年，鸿蒙开发前景如何？琢磨先生David harmonyos 华为鸿蒙
一、鸿蒙诞生的时代背景：从“备胎”到自主创新的必然选择在中美科技博弈的大背景下，鸿蒙操作系统（HarmonyOS）的诞生被赋予了特殊的历史意义。自2019年美国将华为列入“实体清单”，华为在芯片、操作系统等核心领域遭遇技术封锁，其智能手机业务海外市场份额大幅下滑。为应对“卡脖子”风险，华为于2015年启动鸿蒙系统研发，初期定位为物联网（IoT）领域的“备胎”。但随着制裁升级，鸿蒙逐渐从幕后走向台前
【STM32】系统滴答计时器systick 不被定义的~wolf STM32 stm32 单片机嵌入式硬件
目录一、什么是系统滴答计时器二、相关寄存器三、具体操作相关函数示例1常见问题LOAD的准确值中断导致`SysTick`停止越限问题-八分延时问题示例2一、什么是系统滴答计时器系统滴答定是Cortex-M内核内置的一个24位递减计数定时器，专门用于操作系统的时基（tick），但也可以用于普通的定时任务。24位倒计时计数器，每次溢出触发中断时钟源可以选择AHB或AHB/8适用于系统滴答定时、延时、定时
常用Dos命令命令提示符 CMD 看夜还未央 java 入门学习 bash linux 学习方法
常用Dos命令命令提示符CMD打开方式开始+系统+命令提示符win键+R+cmd我的电脑+地址栏输入cmd在任意文件夹下，按住shift键+鼠标右键点击，在此处打开命令提示符Powershell窗口管理员方式运行：开始+系统+命令提示符+点击以管理员方式运行#盘符切换盘符+:#查看当前目录下的所有文件dir#目录切换cd进入E盘：cd：/dE:进入同级目录：cd..#清屏cls#退出控制台exit
理解本真的REST架构风格熊猫小牛牛系统架构技术架构 rest
转自：http://blog.csdn.net/j080624/article/details/56025356引子在移动互联网、云计算迅猛发展的今天，作为一名Web开发者，如果您还没听说过“REST”这个buzzword，显然已经落伍了。夸张点说，甚至“出了门都不好意思跟别人打招呼”。尽管如此，对于REST这个泊来品的理解，大多数人（包括一些资深的架构师）仍然停留在“盲人摸象”的阶段。常常听到各
REST 架构风格 maweitao2014 Web 架构 rest
目前基于网络应用的架构风格主要有三种：RPC架构风格将服务器看作是由一些过程组成，客户端调用这些过程来执行特定的任务。SOAP就是RPC风格的一种架构。过程是动词性的（做某件事），因此RPC建模是以动词为中心的。分布式对象架构风格认为服务器是由一些对象和对象上的方法组成，客户端通过调用这些对象上的方法来执行特定的任务。并且客户端调用这些对象上的方法应该就像是调用本地对象上的方法一样，这样开发就可以
Spring Boot网站性能优化全解析 weixin_30777913 spring boot 性能优化 linux java jvm
在开发SpringBoot网站时，性能优化涵盖Java应用、操作系统、Java虚拟机（JVM）等多个层面。下面将从SpringBoot应用层、Linux系统、JVM参数等方面，详细介绍优化方案，同时阐述操作系统差异处理、验证与监控以及注意事项。通过以下多层级优化组合，可实现从应用代码到系统底层的整体性能提升。建议依据实际监控数据持续调优，不同场景侧重不同优化方向。一、SpringBoot应用层优化
用于 AI 驱动的 Web 自动化的开源 Chrome 扩展程序（本地化运行）。使用您自己的 LLM API 密钥运行多代理工作流程。OpenAI Operator 的替代品。 struggle2025 人工智能自动化运维 chrome deepseek
一、软件介绍文末提供程序和源码下载Nanobrowser是一种在浏览器中运行的开源AIWeb自动化工具。OpenAIOperator的免费替代品，具有灵活的LLM选项和多代理系统。Nanobrowser的多智能体系统实时分析HuggingFace，Planner在遇到障碍物时智能地自我纠正，并动态指示Navigator调整其方法——所有这些都在您的浏览器中本地运行。二、为什么选择Nanobrows
什么是 Embedding？——从直觉到应用的全面解读忍者算法人工智能深度学习神经网络机器学习
什么是Embedding？——从直觉到应用的全面解读在机器学习和深度学习的世界里，我们经常会听到“Embedding”这个词。它是深度学习中最核心的概念之一，尤其在自然语言处理（NLP）和推荐系统中应用广泛。但很多初学者对Embedding的理解可能只是：“它是把一个东西转换成数字的方式。”这种解释虽然没错，但过于简略，难以真正理解Embedding的作用。这篇文章将用最直观的方式，带你深入理解E
飞桨Paddle Inference模型转ONNX模型的方法 Sweet锦 AI paddlepaddle 人工智能 AI编程
ONNX是个好东西，其全称OpenNeuralNetworkExchange，是一种用于表示和交换深度学习模型的开放标准格式。由Microsoft和Facebook在2017年共同推出的一个开放标准，旨在促进不同深度学习框架之间的互操作性，并采用相同格式存储模型数据。ONNX有诸多优势，简直让人爱不释手呀。以下简单列举几个：在不同深度学习框架（如PaddlePaddle、PyTorch、Tenso
Fastadmin框架 lang任意文件读取漏洞攻略故事与他645 前端 javascript 开发语言 java 网络安全 web安全 spring
漏洞介绍FastAdmin是一个免费开源的后台管理框架，基于ThinkPHP5.1框架开发而成，具有功能全面、界面美观、易于上手的特点。它提供了丰富的后台管理功能模块，包括权限管理、数据库管理、文件管理、图表统计等，可以帮助开发者快速搭建起一个稳定可靠的后台管理系统。其lang存在任意文件读取漏洞，未授权攻击者可以利用其读取网站配置文件等敏感信息。「Fofa」body="/assets/js/re
南邮深入理解计算机系统实验一源码 Datalab1 bits.c文件爱吃程序猿的喵 njupt 实验报告计算机系统 Datalab
/**CS:APPDataLab****bits.c-SourcefilewithyoursolutionstotheLab.*Thisisthefileyouwillhandintoyourinstructor.**WARNING:Donotincludetheheader;itconfusesthedlc*compiler.Youcanstilluseprintffordebuggingwit
C#客户端嵌入Chrome浏览器的实现（非IE）赖龙工具
客户端软件，也就是传统的Winform软件，在很多时候是很好用的。因为在做一些打印、本地设备操作的时候，纯Web系统还是存在很多局限性的。例如很多驱动你需要单独写cab包啦，交互式实现调试很困难啦，浏览器适配问题啦等等。这个时候，Winform结合Web的方式，就是一种比较好的选择。虽然.net本身支持WebBrowser，但是WebBrowser这个东西是基于本地操作系统IE浏览器的，一些CSS
Java并发实战——线程池的监控和调优 1加1等于 Java并发 java 多线程
在生产环境中，监控和调优线程池对保证系统的性能和稳定性很关键。本文将详细介绍监控和调优线程池的方法。本文目录一、监控线程池1.ThreadPoolExecutor内置方法2.JMX二、线程池调优1.根据任务类型设置线程数2.选择合适的任务队列3.选择合适的拒绝策略一、监控线程池1.ThreadPoolExecutor内置方法ThreadPoolExecutor类提供了多个方法来获取线程池的状态信息
【转】C# 开发Chrome内核浏览器(WebKit.net) weixin_34163741
WebKit.net是对WebKit的.Net封装，使用它.net程序可以非常方便的集成和使用webkit作为加载网页的容器。这里介绍一下怎么用它来显示一个网页这样的一个最简单的功能。第一步：下载WebKit.net的bin文件。别小看这一步，你不一定能下载成功，原因你懂的。WebKit.net的主页是http://webkitdotnet.sourceforge.net/直接下载0.5版本的wi
分布式训练：（Pytorch）达柳斯·绍达华·宁分布式 pytorch 人工智能
分布式训练是将机器学习模型的训练过程分散到多个计算节点或设备上，以提高训练速度和效率，尤其是在处理大规模数据和模型时。分布式训练主要分为数据并行和模型并行两种主要策略：1.数据并行(DataParallelism)数据并行是最常见的分布式训练方式。在这种方法中，模型副本会被复制到多个计算设备上，每个设备处理不同的批次（batch）数据。工作流程：每个设备上都有一个完整的模型副本。数据集被分割成多个
Python爬虫：Feapder 的详细使用和案例数据知道 2025年爬虫和逆向教程 python 爬虫开发语言
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.Feapder概述1.1Feapder介绍1.2Feapder核心特点1.3Feapder主要组件1.4Feapder的安装2.基础爬虫编写2.1创建爬虫2.2运行爬虫3.数据采集案例3.1新闻网站采集3.2电商商品采集3.3使用Spider类创建更强大爬虫4.高级功能使用4.1分布式爬虫4.2浏览器渲染4.3文件下载4.4监控与报警5.数据
MYSQL学习心得没有网名L MYSQL学习笔记数据库 mysql mariadb
安装mysql首先找到免安装版的mysql包，之后书写一个.ini文件进行初始化配置，可参考csdn网址MySql的配置——详细教程_二哈喇子！的博客-CSDN博客_配置mysql在控制台输入mysql直接进入mysql操作界面，首先需要找到mysql的目录，如C:\Users\wei\Desktop\mysql-5.7.26-winx64，后在环境变量中的系统变量添加变量名：MYSQL_HOME
如何排查常见的 Windows 应用程序错误和崩溃 ManageEngine卓豪日志管理 windows 应用程序日志管理故障排除
当像AdobePhotoshop这样的关键应用程序在系统上崩溃时，系统管理员必须分析崩溃的原因并修复问题。通常，Windows应用程序崩溃会以日志的形式记录错误信息，可以使用事件查看器查看和分析这些日志。本文介绍如何通过事件日志分析来分析应用程序错误和崩溃的根本原因。什么是应用程序错误或崩溃？以及与它们相关的常见事件ID应用程序崩溃或错误是指破坏软件程序正常运行的意外故障，这可以通过多种方式表现出
Python（4）Python函数编程性能优化全指南：从基础语法到并发调优一个天蝎座白勺程序猿 python 性能优化开发语言
目录一、Lambda性能优化原理1.1内联执行优势1.2并行计算加速二、工程级优化策略2.1内存管理机制2.2类型提示增强三、生产环境最佳实践3.1代码可读性平衡3.2异常处理模式四、性能调优案例4.1排序算法优化4.2数据管道加速五、未来演进方向5.1JIT编译优化5.2类型系统增强六、优化总结1.性能优势对比‌2.工程级优化策略‌3.生产环境实践‌一、Lambda性能优化原理1.1内联执行优势
STM32单片机学习记录（2.9）宣宣猪的小花园. STM32 空气动力学 stm32 无人机嵌入式硬件单片机空气动力学
一、STM3215.1-FLASH闪存1.FLASH简介（1）STM32系列的FLASH包含程序存储器、系统存储器和选项字节三个部分，通过闪存存储器接口（外设）可以对程序存储器和选项字节进行擦除和编程；（2）读写FLASH的用途：利用程序存储器的剩余空间来保存掉电不丢失的用户数据，通过在程序中编程（IAP），实现程序的自我更新；（3）在线编程（In-CircuitProgramming-lCP）用
【HarmonyOS Next】拒绝权限二次申请授权处理
【HarmonyOSNext】拒绝权限二次申请授权处理一、问题背景：在鸿蒙系统中，对于用户权限的申请，会有三种用户选择方式：1.单次使用允许2.使用应用期间（长时）允许3.不允许当用户选择不允许后，再次向用户申请权限，该弹框就不会再显示。因为鸿蒙系统机制处理如此，为了避免骚扰用户。之前的通用方案是，跳转到应用设置界面，让用户自己去手动设置同意所需的权限。但是这样的操作，对于用户来说是跳出，体验并不
MateChat：前端智能化场景解决方案集，轻松构建你的AI应用开源项目精选人工智能
MateChat致力于构建不同业务场景下高一致性的GenAI体验系统语言，同时匹配各种工具/平台的原生业务场景和界面特征，提供更适合研发工具领域的对话组件，打造流畅亲和、跨界一致、易学易用的用户体验，以及易接入、易维护、易扩展的开发体验。主要特点开箱即用的解决方案：一站式智能对话解决方案内置对话逻辑及常用模板，支持自由定制与二次开发组件丰富，功能全面：基于DevUI基础组件，提供了50+基础组件，
AI训练师速成攻略（二）：数据收集与清洗人工智能算法数据挖掘深度学习
一、从原生态矿山里淘金子如果说训练AI是养孩子，那么数据就是奶粉——但这里没有超市货架上整齐排列的进口奶粉，只有混杂着石子、过期品和宝藏的原生态矿山。今天我们要干的活，就是手持数字筛子，在这片混沌中淘出真金白银。二、数据矿脉勘探指南1.找矿脉(1)矿脉定位法则目标导向：给电商AI找数据？先锁定用户评价、商品图片、购买记录三座富矿场景预判：训练医疗影像AI？必须包含罕见病例样本，避免成为只会看感冒的
Linux开发工具使用大大大蠢驴 linuxc++学习笔记 linux c++后端
Linux开发工具使用2.1Linux软件包管理器yumYUM（YellowdogUpdater,Modified）是Linux系统中的一个软件包管理工具，主要用于安装、更新、卸载和管理RPM软件包。它基于RPM（RedHatPackageManager）进行包管理，并自动处理依赖关系，避免手动安装时出现缺少依赖包的问题。YUM语法格式:yum[options][command][package_
鸿蒙NEXT开发中使用星闪服务
大家好，我是V哥，学习鸿蒙开发的星闪服务，整理了这个学习笔记分享给大家。NearLinkKit（星闪服务）是鸿蒙操作系统提供的一种低功耗、高速率的短距离通信服务，它允许设备之间进行连接和数据交互。以下是一些具体的使用案例和步骤，以帮助理解如何在实际业务中使用星闪服务。以下这些场景使用星闪智能座舱车内降噪：使用星闪服务在车辆内部进行音频信号的传输，以实现主动降噪功能。互动投屏：通过星闪服务将手机或其
只需三步，就可以在KubeBlocks上集成和使用NebulaGraph集群啦！
NebulaGraph是一款开源分布式图数据库，凭借高可用、可扩展、易运维、高性能等特性，NebulaGraph已被美团、京东、快手和腾讯等多家企业选用，应用于数据治理、实时推荐、反欺诈、风险控制等多种场景。数据库的部署和运维是常见的用户痛点。对于开源数据库，上手难度则更高，因为用户往往需要自己不断摸索如何完成这些事情，这也对开源数据库的流行度带来不利的影响。因此，开源数据库社区中往往都会有开发者
音视频一看书的笔记基础视频知识魑魅魍魉都是鬼音视频笔记
视频编码：通过特定的压缩技术，将某个视频格式文件转换成另外一种视频格式文件目的：应该是使保存/传输等更节省空间带宽流量等等等等复杂就是为了节俭O(∩_∩)O~~例如现在常用滴：以下是总结这个的编码格式H.264（AVC）编码效率高视频画质好压缩技术的效率高网络适应能力强兼容性好编码选项少编码计算复杂度高，解码复杂度高对播放的硬件系统要求高会产生特别大体积文件压缩视频的效率不高不支持4K以上分辨率的
一文读懂 Python 开发环境配置 felixmicrospace Python学习记录 python
文章目录Python多版本管理1.多版本使用需求2.Windows下多版本管理[^1]3.Linux系统下多版本管理[^2]Python虚拟环境配置1.原理和配置需求操作系统的环境变量虚拟环境运行和PATH修改Python解释器和虚拟环境关系2.安装&配置使用Virtualenv管理[^3]使用venv管理使用[pipenv](https://pipenv.pypa.io/en/latest/)管
NoSQL数据库：从理论到实践的全面解析小李独爱秋 linux操作系统杂谈数据库 nosql
一、NoSQL的核心概念与特性1.1什么是NoSQL？NoSQL全称为"NotOnlySQL"，即非关系型数据库，是应对Web2.0时代海量数据存储和高并发访问需求而诞生的数据库技术。与传统关系型数据库（RDBMS）不同，NoSQL数据库打破了固定表结构的限制，支持灵活的数据模型。1.2六大核心特性无模式设计：无需预定义数据结构，支持动态调整水平扩展能力：通过分布式架构实现线性扩展高性能读写：采用
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l

分布式日志收集收集系统：Flume(转)

你可能感兴趣的:(分布式日志收集收集系统：Flume(转))