000X000

基于Clickhouse日志系统技术

1、背景

唯品会日志系统dragonfly 1.0是基于EFK构建，于2014年服务至今已长达7年，支持物理机日志采集，容器日志采集，特殊分类日志综合采集等，大大方便了全公司日志的存储和查询。

随着公司的业务发展，日志应用场景逐渐遇到了一些瓶颈，主要表现在应用数量和打印的日志越来越多，开发需要打印更多日志，定位业务问题，做出运营数据分析；另外外部攻击问题和审计要求，需要更多安全相关的日志数据要上报并且能够提供半年以上的保存时长，以应对潜在的攻击和攻击发生时调查原因和受影响面。ELK的架构的缺点显现，ES集群规模达260台机器，需要的硬件和维护成本高达千万，如果通过扩容的方法去满足上述业务场景，ES集群会太大会变动不稳定，创建独立集群，也需要更高成本，两者都会使得成本和维护工作量剧增。

鉴于这些问题，去年六月份我们开始探索新的日志系统架构，以彻底解决上面的问题。

2、日志系统演进之路

标准日志格式

规范标准日志格式，有利于正确的识别出日志关键元信息，以满足查询，告警和聚合计算的需求。从以上格式日志，通过filebeat转换后的结果如下：

时间戳，日志级别，线程名，类名，eventName，和自定义字段将被日志采集Agent解析后和其他元数据如域名，容器名或主机名一起以JSON格式上报。

自定义字段是开发人员根据业务需要打印到日志，主要支持功能:

①查询时支持各种聚合分析场景

②根据自定义字段进行聚合函数告警。

ES存储方案问题

ES日志存储模型

EFK日志存储在elasticsearch，每个域的日志以天粒度在ES创建一个索引，索引大小是根据前几日数据大小计算得出，每个索引分片大小不超过30G，日志量越多的域分片越多。如果一个域的日志量写入过大或超长，将会占用ES节点大量CPU来做解析和segment合并，这会影响其他域日志的正常写入，导致整体写入吞吐下降。排查是哪个域的哪个分片日志过大通常较为困难，在面对这种热点问题时经常要花很长时间。我们ES版本使用的是5.5，还不支持索引自动删除和冷热迁移，有几个脚本每日定时执行，完成删除索引，关闭索引，移动冷索引，创建新索引的任务，其中移动索引和创建新索引都是耗时非常长的操作。整个生命周期每天循环执行，如果突然一天某个步骤执行失败，或者执行时间太长，会导致整个生命周期拉长甚至无法完成，第二天的新数据写入将受到严重影响，甚至无法写入。另外ES的倒排索引需要对日志进行分词，产生的索引文件较大，占用了大量磁盘空间。

不过ES也有其优点，基于倒排索引的特性使得ES查询时，1个分片只需要一个核即可完成查询，因为查询速度通常较快，QPS较高。下面是在大规模(或海量)日志存储场景下ES的主要存储优点和缺点：

日志系统2.0方案

选择clickhouse的原因

2019年我们尝试了另外一种HDFS存储方案，把每个域的数据按照域名+toYYDDMMHH(timestamp)+host作为键在客户端缓存，当大小或过期时间到了之后，提交到HDFS生成一个独立的文件，存储路径包含了域，主机和时间信息，搜索时即可根据这几个标签过滤，这种存储方式有点类似loki，它的缺点显而易见，优点是吞吐和压缩率都非常高，可以解决我们吞吐和压缩率不足的问题。如果基于此方案继续增强功能，如添加标签，简单的跳数索引，查询函数，多节点并发查询，多字段存储，需要开发的工作量和难度都非常大。我们对比了业界前沿使用的一些存储方案，最终选择了clickhouse，他的批量写入和列式存储方案完全满足我们的要求(基于HDFS存储)，另外还提供了占用磁盘空间非常小的主键索引和跳数索引，相比ES的全文索引，优势明显。

将近26G的应用日志分别使用clickhouse的lz4，zstd和ES的lz4压缩算法对比

实际生产环境中zstd的日志压缩比更高，这和应用日志的相似度有关，最大达到15.8。

Clickhouse压缩率这么高，但没有索引，其查询速度如何？虽然没有索引，但其向量执行和SIMD配合多核CPU，可以大大缓解没有全文索引的缺点。经过多次测试对比后，其查询速度在绝大多数场景下和ES不相上下，在部分场景下甚至比ES还要快。

下图是实际生产环境的数千个应用真实运行数据，查询24小时时间范围内日志和24小时以上时间范围日志的耗时对比

通过对日志的应用场景分析，我们发现万亿级别的日志，真正能被查询的日志数量是非常非常少的，这意味着ES对所有日志的分词索引，大多数是无效的，日志越多，这个分词消耗的资源越浪费。相对比clickhouse的MergeTree引擎专一的多，主要资源消耗是日志排序压缩和存储。

另外Clickhouse的MPP架构使得集群非常稳定，几乎不要太多运维工作。下面以一幅图综合对比ES和Clickhouse的优缺点，说明为什么我们选择将clickhouse作为下一代日志存储数据库。

3、技术详解

EFK架构发展这么多年体系要成熟得多，ES默认参数和倒排索引使得你不需要对ES有太多了解即可轻松使用，开源kibana又提供丰富的查询界面和图形面板，对于日志量不大的场景来讲，EFK架构仍然是首选。Clickhouse是近几年OLAP领域比较热门的数据库，其成熟度和生态仍在快速发展中，用来存储日志的开源方案不是很多，要用好它不但需要对Clickhouse有深入的了解，还需要做很多开发工作。

3.1 日志摄入 - vfilebeat

起初dragonfly使用logstash来做日志采集，但logstash的配置较复杂并且无法支持配置文件下发，不便于容器环境下的日志采集，当时另一个使用GO语言开发的采集工具vfilebeat在性能和扩展性方面较好，我们在此基础上做了定制开发自己的日志采集组件vfilebeat。

vfilebeat运行在宿主机上，启动时可以通过参数指定采集的宿主机日志所属的域，如果没有指定，则读取安装时CMDB配置文件的域名和主机名，宿主机采集的每条日志均带上域名和主机名作为标签。

容器环境下vfilebeat还会监听容器的创建和销毁，当容器创建时，读取容器的POD信息获取到域名和主机名，然后从ETCD拉取到域的日志采集路径等配置参数，按照域名和POD名称生成容器所属目录的日志文件采集路径，并在本地生成新的配置文件，vfilebeat重新加载配置文件，即可滚动采集。

现在我们环境绝大部分应用均使用vfilebeat采集，少部分场景保留使用logstash采集。vfilebeat将采集到的日志附带上应用和系统环境等标签，序列化配置的数据格式，上报到kafka集群，应用日志是JSON，Accesslog为文本行。

3.2 日志解析 - flink writer

采集到kafka的日志将被一个flink writer任务实施消费后再写入到clickhouse集群。

writer把从kafka消费的数据先转换为结构化数据，vfilebeat上报的时候可能会上报一些日期较久的数据，太久的数据，报上来意义不大，并且会导致产生比较多的小part，消耗clickhosue cpu资源，这一步把这些过期超过三天的日期丢掉，无法解析的数据或者缺少必须字段的日志也会丢掉。经解析过滤后的数据再经过转换步骤，转换为clickhouse的表字段和类型。

转换操作从schema和metadata表读取域日志存储的元信息，schema定义了clickhouse本地表和全局表名，字段信息，以及默认的日志字段和表字段的映射关系。metadata定义了域日志具体使用的schema信息，日志存储的时长，域分区字段值，域自定义字段映射到的表字段，通过这些域级别的配置信息，我们做到可以指定域存储的表，存储的时长，超大日志域独立分区存储，降低日志合并的CPU消耗。自定义字段默认是按照数组存储，有些域打印的自定义日志字段较多，在日志量大的情况下，速度较慢，配置了自定义映射物理字段存储，可以提供比数组更快的查询速度和压缩率。

clickhouse表schema信息

域自定义存储元数据信息

经过转换后的数据，携带了存储到CK表所需要的所有信息，将临时存储在本地的一个队列内，本地队列可能混合存储了多个域多张表的日志，达到指定的长度或时间后，再被提交到一个进程级的全局队列内。

因为writer进程是多线程消费多个kafka分区，全局队列将同一个表多个线程的数据合并到一起，使得单次提交的批次更大，全局线程短暂缓冲，当满足写入条数，大小或超时后，数据将被作为一次写入，提交到submit worker线程。submit worker负责数据的写入，高可用，负载均衡，容错和重试等逻辑。

submit收到提交的批量数据后，随机寻找一个可用的clickhosue分片，提交写入到分片节点。clickhouse集群配置是双副本，当一个副本节点失败时，将尝试切换写入到另一个节点上，如果两个都失败，则暂时剔除分片，重新寻找一个健康的分片写入。

写入数据到Clickhouse我们使用的是clickhouse-jdbc，起初写入时消耗内存和CPU都较大，对jdbc源码进行分析后，我们发现jdbc写入数据时，先把所有数据转换成一个List对象，这个list对象相当于提交数据的byte[]副本格式，为了降低这个占用，在数据转换步骤我们进行优化，每条日志数据直接转换为jdbc可以直接使用的List数据，这样jdbc在构造生成SQL的时候，拿到的数据其实是List的一个引用，这个优化降低了约三分之一内存消耗。

另外对writer进程做火焰图分析时，我们发现jdbc在生成SQL时，会把提交数据的每个字符进行判定，识别出特殊字符如'\', '\n', '\b'等做转义，这个转义操作使用的是map函数，在数据量大时，消耗了约17%的CPU，我们对此做了优化，使用swtich后，内存大幅降低，节约了13%的CPU消耗。

clickhouse的弱集群概念保证了单节点宕机时，整个集群几乎不受影响，submit高可用保证了当节点异常时，数据仍然可以正常写入到健康节点，从而使得整个日志写入非常稳定，几乎没有因为节点宕机导致的延迟情况。

关于日志摄入Clickhouse的方式，石墨开源了另一种摄入方式，创建KafkaEngine表直接消费clickhouse，再将数据导入到物化视图内，通过物化视图最终导入到本地表。这种方式好处是节省了一个writer的组件，上报到kafka的数据直接就可以存储到clickhouse，但缺点非常多：

每个topic都需要创建独立的KafkaEngine，如果需要切换表，增加topic，都要变更DDL，并且无法支持一个topic不同域存储到不同表
另外解析kafka数据和物化视图都要消耗节点CPU资源，而clickhouse合并和查询都是非常依赖cpu资源的操作，这会加重clickhouse的负载，从而限制了clickhosue整体吞吐，影响了查询性能，需要扩容更多的节点来缓解此问题，clickhouse的单台服务器需要更多核数，SSD和大磁盘存储，因此扩容成本很高。

选择了将解析写入组件独立出来，可解决上面提到的很多问题，也为后期很多扩展功能提供了很大灵活性，好处很多，不再一一列举。

3.3 存储 - Clickhouse

高吞吐写入

提交到Clickhouse的数据以二维表的形式存储，二维表我们使用的是Clickhouse最常用的MergeTree引擎，关于MergeTree更详细的描述可以参考网上这篇文章《MergeTree的存储结构》。

https://developer.aliyun.com/article/761931spm=a2c6h.12873639.0.0.2ab34011q7pMZK

数据在磁盘的逻辑存储示意图

MergeTree采用类似LSM-Tree数据结构存储，每次提交的批量数据，按照表的分区键，分别保存到不同的part目录内，一个part内的行数据按照排序键进行排序后，再按列压缩存储到不同的文件内，Clickhouse后台任务会持续对这些每个小型的part进行合并，生成更大的part。

MergeTree虽然没有ES的倒排索引，但有更轻量级的分区键，主键索引和跳数索引。

分区键可以确保查找的时候快速过滤掉很多part，例如按照时间搜索时，只命中时间范围的part。
主键索引和关系型数据库的主键不同，是用来对排序数据块进行快速查找的轻量级索引。
跳数索引则根据索引类型对字段值进行索引，例如minmax索引指定字段的最大值和最小值，set存储了字段的唯一值进行索引，tokenbf_v1则对字段进行切分，创建bloomfilter索引，查询的时候可以直接根据关键字计算日志是否在对应数据块内.

一个part的数据会被按照排序键进行排序，然后按照大小切分成一个个较小的块(index_granularity)，块默认有8192行，同时主键索引对每个块的边界进行索引，跳数索引则根据索引的字段生成索引文件，通常这三者生成的索引文件都非常小，可缓存在内存中加速查询。

了解了MergeTree的实现原理，我们可以发现，影响Clickhouse写入的一个关键因素是part的数量，每次写入都会产生一个part，part越多，那么后台合并任务也将越繁忙。除了这个因素外，part的生成和合并均需要消耗CPU和磁盘IO。

所以总结一下，三个影响写入的因素：

①part数量 - 少

②CPU核数 - 多

③磁盘IO - 高

要提高写入吞吐，就需要从这三个因素入手，降低part数量，提高CPU核数，提高磁盘IO

将图中的方法按照实现手段进行分类

硬件：CPU核数越多越好，我们生产环境40+，磁盘SSD是标配，由于SSD价格贵容量小，采用SSD+HDD冷热分离模式

表结构：长日志量又大的域使用bloomfilter索引加速查询，其他域则使用普通跳数索引即可，我们测试观察能节约近一半的CPU。

数据写入：Writer提交的数据，按照分区键进行分批提交，或者部分分区字段都可，也即单次提交的分区键基数尽可能小，最理想为1，此方法可大大降低小part数量。分区键的选择上，可根据应用日志的数量选择独立分区键，存储大日志量域，大日志量应用通常会达到条数阈值提交，可使得合并的part都是较大part，效率高；或者混合分区键，将小应用混合在一个分区提交。

高速查询

很多次，我和别人解释为什么日志系统没有(全文索引)仍然这么快的原因时，我都直接丢出这张图，图源自商用产品Humio公司的网站，也是我们老板多次推荐我们学习参考的一个产品，2021年初已被CrowdStrike以4亿美元收购。

1PB的数据存储，没有了全文索引的情况，直接暴力检索一个关键字，肯定是超时的，如果先经过时间，标签以及bloomfilter进行过滤筛选后，再执行暴力搜索，则需要检索的数据量会小的多。MergeTree引擎是列式存储，压缩率很高，高压缩率有很多优势，从磁盘读取的数据量少，页面缓存需要的内存少，更多的文件可以缓存在高速内存中，Clickhouse有和Humio一样的向量化执行和SIMD，在查询时，这些内存中的压缩数据块会被CPU批量的执行SIMD指令，由于块足够小，通常为压缩前1M，这样函数向量执行和SIMD计算的数据足够全部放在cpu缓存内，不仅减少了函数调用次数，并且cpu cache的miss率大大降低。查询速度相比没有向量执行和SIMD有数倍提升。

3.4 应用维度日志TTL

起初我们计划使用表级别的TTL来管理日志，将不同存储时长的日志放入不同的表内，但这样会导致表和物化视图变得非常多，不方便管理，后来使用了一个改进方案，将TTL放在表分区字段内，开发一个简单的定时任务，每天扫描删除所有超过TTL日期的part，这样做到了一张表支持不同TTL的日志存储，灵活性非常高，应用可以通过界面很方便查看和调整存储的时长。

3.5 自定义字段存储方案

标准格式日志内的自定义字段名称由业务输出，基数是不确定的，我们第一版方案是创建数百个字符串，整数和浮点数的扩展字段，由开发自行配置这个自定义映射，后来发现这个方案存在严重缺陷：

①开发需要将日志的每一个字段均手动配置到映射上去，随着日志的变更，这样的字段越来越多，随着数量膨胀将难以维护，

②Clickhouse需要创建大量的列来保存这些字段，由于所有应用混合在一起存储，对于大多数应用，太多列不但浪费，并且降低了存储速度，占用了大量的文件系统INODE节点

后来借鉴了Uber日志存储的方案，每种数据类型的字段，分别创建两个数组，一个保存字段名称，另一个保存字段值，名字和值按顺序一一对应，查询时，使用clickhouse的数组检索函数来检索字段，这种用法支持所有的Clickhouse函数计算。

[type]_names和[type]_values分别存储对应数据类型字段的名称和值

插入

多层嵌套的json字段将被打平存储，例如{"json": {"name": "tom"}}将转换为 json_name="tom"字段

不再支持数组的存储，数组字段值将被转换为字符串存储，例如：{"json": [{"name": "tom", "age": 18}]}，转换为json="[{\"name\": \"tom\", \"age\": 18}]"

查询

原来的映射自定义字段目前仍然保留10个，如果不够，可以随时添加，可以支持一些域的固定自定义字段，或者一些特殊类型的日志，例如审计日志，系统日志等，这些字段在查询的时候用户可以使用原来的名称，访问Clickhouse之前会被替换为表字段名称

自定义字段的另一个方案是存储在map内，可以节约两个字段，查询也更简单，但经过我们测试，查询性能没有数组好：

①数组存储压缩率相比比Map略好

②数组查询速度比Map快1.7倍以上

③Map的查询语法比数组简单，在前端简化了数组的查询语法情况下，这个优势可忽略

4.前端日志查询系统

日志系统第一版是基于kibana开发的，版本较老。2.0系统我们直接抛弃旧版，自研了一套查询系统，效果如下：

新版查询会自动对用户输入的查询语句进行分析，添加上查询的应用域名和时间范围等，降低用户操作难度，支持多租户隔离。

自定义字段的查询是非常繁琐的，我们也做了一个简化操作：

string_values[indexOf(string_names, 'name')] 简化为：str.name

number_values[indexOf(number_names, 'height')] 简化为：num.height

Clickhouse一次执行一条语句，日志查询时柱状图和TOP示例日志是两条语句，会使得查询时间范围翻倍，参考携程的优化方法，查询详情时，我们会根据柱状图的结果，将时间范围缩小至TOP条记录所在的时间区间。

丰富查询用法

Clickhouse丰富的查询语法，让我们新日志系统的查询分析功能非常强大，从海量日志提取关键字，非常容易，下面列举两个查询用法:

①从文本和JSON混合的日志数据中提取JSON字段

②从日志计算分位数

5、正确使用姿势

1、打印日志不要太长，不超过10K

2、查询条件带上有跳数索引的标签，或者其他非日志详情的字段，召回日志数越小，查询速度越快

OLAP数据库Clickhouse是处理大规模数据密集型场景的利器，非常适合海量日志存储和查询分析，构建了一个低成本，无单点，高吞吐，高速查询的下一代日志系统。

你可能感兴趣的:(ClickHouse,数据分析,大数据,big,data,Clickhouse日志系统,Clickhouse)

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Linux MariaDB使用OpenSSL安装SSL证书 Meta39 MySQL Oracle MariaDB Linux Windows ssl linux mariadb
进入到证书存放目录，批量删除.pem证书警告：确保已经进入到证书存放目录find.-typef-iname\*.pem-delete查看是否安装OpenSSLopensslversion没有则安装yuminstallopensslopenssl-devel开启SSL编辑/etc/my.cnf文件（没有的话就创建，但是要注意，在/etc/my.cnf.d/server.cnf配置了datadir的，
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
4.C_数据结构_队列荣世蓥数据结构数据结构
概述什么是队列：队列是限定在两端进行插入操作和删除操作的线性表。具有先入先出(FIFO)的特点相关名词：队尾：写入数据的一段队头：读取数据的一段空队：队列中没有数据，队头指针=队尾指针满队：队列中存满了数据，队尾指针+1=队头指针循环队列1、基本内容循环队列是以数组形式构成的队列数据结构。循环队列的结构体如下：typedefintdata_t;//队列数据类型#defineN64//队列容量typ
vue项目element-ui的table表格单元格合并酋长哈哈 vue.js elementui javascript 前端
一、合并效果二全部代码exportdefault{name:'CellMerge',data(){return{tableData:[{id:'1',name:'王小虎',amount1:'165',amount2:'3.2',amount3:10},{id:'1',name:'王小虎',amount1:'162',amount2:'4.43',amount3:12},{id:'1',name:'
python tif转png Python与遥感 python 开发语言
importosfromosgeoimportgdalimportnumpyasnpfromPILimportImage#提取432三波段fromspectralimport*#输入文件夹路径defget_img(dataset_img):width=dataset_img.RasterXSize#获取行列数height=dataset_img.RasterYSizebands=dataset_i
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Vue中table合并单元格用法 weixin_30613343 javascript ViewUI
地名结果人名性别{{item.name}}已完成未完成{{item.groups[0].name}}{{item.groups[0].sex}}{{item.groups[son].name}}{{item.groups[son].sex}}exportdefault{data(){return{list:[{name:'地名1',result:'1',groups:[{name:'张三',sex
uniapp map组件自定义markers标记点以对_ uni-app学习记录 uni-app javascript 前端
需求是根据后端返回数据在地图上显示标记点，并且根据数据状态控制标记点颜色，标记点背景通过两张图片实现控制{{item.options.labelName}}exportdefault{data(){return{storeIndex:0,locaInfo:{longitude:120.445172,latitude:36.111387},markers:[//标点列表{id:1,//标记点idin
放松的一天 4da9b7687fa0
20190325总结起床07:20图片发自App睡觉:23:00天气:晴今日任务清单学习·信息·阅读•水滴阅读Day40Alice’sAdventuresinWonderlandChapter6.2图片发自App•BBC跟读训练营Day24图片发自App图片发自App图片发自App•潘多拉口语训练营Day6Wow.Whatabigboy!•文化知识学习今日无•阅读时间地狱健康·饮食·锻炼•饮食目标
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
vue + Element UI table动态合并单元格我家媳妇儿萌哒哒 element UI vue.js 前端 javascript
一、功能需求1、根据名称相同的合并工作阶段和主要任务合并这两列，但主要任务内容一样，但要考虑主要任务一样，但工作阶段不一样的情况。（枞向合并）2、落实情况里的定量内容和定性内容值一样则合并。（横向合并）二、功能实现exportdefault{data(){return{tableData:[{name:'a',address:'1',age:'1',six:'2'},{name:'a',addre
Python实现TIFF 文件转换为 PNG 和 JPG 格式 sand&wich python 开发语言
在日常的图像处理工作中，可能会遇到需要将TIFF格式的图像转换为其他格式的情况，例如PNG和JPG。下面，本文将介绍如何使用Python和GDAL库实现这一功能。准备工作在开始之前，请确保已经安装了必要的库：GDAL（GeospatialDataAbstractionLibrary）可以使用以下命令安装GDAL：pipinstallgdal代码实现以下是一个将TIFF文件转换为PNG文件的示例代码
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
Python数据分析与可视化 jun778895 python 数据分析开发语言
Python数据分析与可视化是一个涉及数据处理、分析和以图形化方式展示数据的过程，它对于数据科学家、分析师以及任何需要从数据中提取洞察力的专业人员来说至关重要。以下将详细探讨Python在数据分析与可视化方面的应用，包括常用的库、数据处理流程、可视化技巧以及实际应用案例。一、Python数据分析与可视化的重要性数据可视化是将数据以图形或图像的形式表示出来，以便人们能够更直观地理解数据背后的信息和规
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
使用datepicker和uploadify的冲突解决（IE双击才能打开附件上传对话框） zhanglb12
在开发的过程当中，IE的兼容无疑是我们的一块绊脚石，在我们使用的如期的datepicker插件和使用上传附件的uploadify插件的时候，两者就产生冲突，只要点击过时间的插件，uploadify上传框要双才能打开ie浏览器提示错误Missinginstancedataforthisdatepicker解决方案//if(.browser.msie&&'9.0'===.browser.version
golang获取用户输入的几种方式余生逆风飞翔 golang 开发语言后端
一、定义结构体typeUserInfostruct{Namestring`json:"name"`Ageint`json:"age"`Addstring`json:"add"`}typeReturnDatastruct{Messagestring`json:"message"`Statusstring`json:"status"`DataUserInfo`json:"data"`}二、get请求的
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts