融极

ELK简介与学习路线-ELK

概述

人工智能、大数据快速发展的今天，对于 TB 甚至 PB 级大数据的快速检索已然成为刚需。Elasticsearch 作为开源领域的后起之秀，从2010年至今得到飞跃式的发展。 Elasticsearch 以其开源、分布式、RESTFul API 三大优势，已经成为当下风口中“会飞的猪”。

ELK认知

ELK Stack（ELK技术栈）由最早期的最核心的Elasticsearch（以下部分简称ES）、集合Logstash（日志存储）、Kibana、beats等发展而来，形成ELK Stack体系，如下图所示：

Elasticsearch认知

Elasticsearch为开源的、分布式、基于Restful API、支持PB甚至更高数量级的搜索引擎工具。
相对于MySQL，给出如下的对应关系表更容易理解。

从上表可以看出：

MySQL中的数据库（DataBase）等价与ES中的索引（Index）。
MySQL中的一个数据库下面有N张表（Table），等价与1个索引下面有N多类型（Type）。
MySQL中一个数据表（Table）下有多行（Row）多列（column，属性）组成，等价与1个Type由多个文档（Document）和多Field组成。
MySQL中定义表结构、设定字段类型等价于ES中的Mapping。举例说明，在一个关系型数据库里面，Schema定义了表、每个表的字段，还有表和字段之间的关系。与之对应的，在ES中，Mapping定义索引下的Type的字段处理规则，即索引如何建立、索引类型、是否保存原始索引JSON文档、是否压缩原始JSON文档、是否需要分词处理、如何进行分词处理等。
MySQL中的增insert、删delete、改update、查select操作等价于ES中的增PUT/POST、删Delete、改Update、查GET。其中的修改指定条件的更新update等价于ES中的update_by_query，指定条件的删除等价于ES中的delete_by_query。
MySQL中的group by、avg、sum等函数类似于ES中的Aggregations的部分特性。
MySQL中的去重distinct类似ES中的cardinality操作。
MySQL中的数据迁移等价于ES中的reindex操作。
以上，通过类比，能加快理解Elasticsearch的速度。

传统的关系型数据库、非关系型的数据库做不到的地方

如下是传统的关系型数据库（如Oracle、MySQL）、非关系型的数据库（如 Mongo）所做不到的：

传统的关系型数据库虽然能支持类型“like 待检索词"模糊语句匹配，但无法进行全文检索（分词检索）。

这里的全文检索，举例如下：
“公路局正在治理解放大道路面积水问题”，对于这段检索的文字，经过细粒度分词后能得出如下的分词结果：

公路局、公路、路局、路、局正、正在、正、治理、治、理解、理、解放、解、放大、大道、大、道路、道、路面、路、面积、面、积水、积、水、问题

如果进行全文检索，是针对以上分词后的结果逐个进行匹配，并由得分的高低快速的返回匹配结果。
这点，传统数据库几乎不可能做到。

非关系型数据库Mongo虽能进行简单的全文检索，但对中文支持的不好，数据量大性能会有问题，这点是在实际应用中总结的

Logstash认知

可以把Logstash理解成流入、流程Elasticsearch的传送带。
支持：不同类型的数据或实施数据流经过Logstash写入ES或者ES中读出写入文件或者对应的实施数据流。
包括但不限于：

本地或远程文件；
kafka 实时数据流一一核心插件有 logstash input kafka/logstatsh output kafka；
MySQL、Oracle等关系型数据库一一核心插件有logstash input jdbc/logstash output jdbc；
Mongo非关系型数据库一一核心插件有logstash input mongo/logstash output mongo；
Redis数据流
…

Kibana认知

Kibana是ES大数据的图形化展示工具。集成了DSL命令行查看、数据处理插件、继承了x-pack（收费）安全管理插件等。

Beats认知

Beats是一个开源的用来构建轻量级数据汇集的平台，可用于将各种类型的数据发送至Elasticsearch与Logstash。
Beats目前官方支持的多个子产品，如下：

Packetbeat：用于监控局域网内服务器之间的网络流量信息；
Filebeat：收集服务器上的日志信息一一它是用来替代Logstash Forwarder的下一代Logstash收集器，是为了更快更稳定轻量低耗低进行收集工作，它可以很方便的与Logstash还有直接与Elasticsearch进行对接。
新推出的 Metricbeat，可以定期获取外部系统的监控指标信息。除了以上三个核心产品外，还有：Winlogbeat(Windows事件日志轻量级工具)、Auditbeat(审计数据的轻量级工具)、Heartbeat(用于时间监控的轻量级工具)。除此以外，你还可以非常方便的基于 libbeat 框架来构建你属于自己的专属 Beat。

小结

通过以上的介绍，我们对 ELK Stack 中的核心成员：Elasticsearch、Logstash、Kibana、Beats 是什么以及能干什么有了相对一致的认知。

版本选择

海量的版本中，告诉你明确的选择。

ELK历史版本跟跌

Elasticsearch 于2010年提交到 GitHub。
2010年2月8日推出了 V0.4.0 的发行版本，2010年2月12日推出 V1.0.0 版本，2016年2月2日推出 V1.7.5 版本，此为 1.X 最终版本，不再更新。
2015年10月28日推出 V2.0.0 版本，2017年7月25日推出 V2.4.6 版本，此为 2.X 最终版本，不再更新。
2016年10月26日推出 V5.0.0 版本，2018年2月20日推出 V5.6.8 版本，此并不是 5.X 的最终版本，还在更新中……
2017年11月14日推出 V6.0.0 版本，2018年2月20日推出 V6.2.2 版本。
……
Elasticsearch 版本更新还在持续迭代进行中。
从以上更新我们也能得出，ES5.X 的末期版本和 ES6.X 的初期版本时间存在重叠。
在 Elasticsearch5.X 之前的版本中，Kibana 和 Logstash 各有自己的一套版本管理体系。如 Kibana4.X 对应 Elasticsearch2.3.X。
为统一规范化版本管理，Elasticsearch 跃过 3.X 大版本、4.X 大版本，直接和 Kibana、Logstash、Feat 升级为相同的 5.X、6.X 乃至以后的 7.X 版本。

ELK Stack 版本的选择

新手直接选择最新版本。
如果你是初次接触Elasticsearch，建议从最新版本学起。
最新版本的优点：

由于ELK都是开源的，历史版本发现的问题，GitHub上的issue都已经得到解决。
新的大版本往往都做个比较大的改动。
比如 5.X 版本较之前的 2.X、1.X 等历史版本，做过很大的改动——5.X 的字符串类型区改为分词相关的 text 和不区分分词的 keyword，不再使用 string 类型。
比如 Elasticsearch6.X 较 5.X，不再支持1个 index 下有多个 type，而是变成严格意义的一对一的关系。
新版本的缺点有：
最新版本Elasticsearch插件的支持可能没有那么好；
新特性未被实际的生产环境做过最充分的验证。
权衡以上优缺点，如果能接受新版本的缺点，那么使用最新的 Elasticsearch 版本是最好的选择。
再明确点说：
如果你是第一次接触 ELK Stack，建议你直接使用最新版本的。
如果你之前的项目/产品或自学的过程中，接触过早期的版本 1.X、2.X，一方面为了提升性能，建议升级为最新的版本，另一方面，由于各种外部原因（如代码升级成本高、业务系统已经稳定等），建议也要抽时间了解 Elasticsearch 的新版本的新特性。因为，这些新特性都是前人遇到坑的相对最优解决方案的优化后的结果。

5.X 哪个版本相对稳定？

根据一位携程架构师 wood 于2017年11月29日表示的，生产环境 5.3.2 有大规模部署，稳定性还不错。测试环境也有部署 5.6.4，目前也没发现什么不稳定的问题。

不建议再以2.X、1.X或更早的版本进行学习。

主要基于以下三点原因：
从版本历史可以看出，近7年多的 ELK Stack 得到长足的发展。
早期版本的一些设计缺陷历史问题、一些开源社区 Bug，在新版本都已经纠正。
新版本在性能方面也得到较大幅度的提升。

ELK Stack的应用场景

ELK Stack基础应用场景

场景一：使用ES作为业务系统的后端

此时，ES的作用类似传统业务系统中的MySQL、PostgreSQL、Oracle或者Mongo等的基础关系型数据库或非关系型数据库的作用。
我们举例说明。使用 ES 对基础文档进行检索操作，如将传统的 word 文档、PDF 文档、PPT 文档等通过 Openoffice 或者 pdf2htmlEX 工具转换为 HTML，再将 HTML 以JSON 串的形式录入到 ES，以对外提供检索服务。

场景二：在原有系统中增加ES、Logstash、Kibana等

原有的业务系统中存在MySQL、Oracle、Mongo等基础数据，但想实现全文检索服务，就在原有业务系统的基础上加异常ELK。
举例一，将原有系统中 MySQL 中的数据通过 logstashinputjdbc 插件导入到 ES 中，并通过 Kibana 进行图形化展示。
举例二，将原有存储在 Hadoop HDFS 中的数据导入到 ES 中，对外提供检索服务。

场景三：使用ELK Stack结合现有工具对外提供服务

举例一，日志检索系统。将各种类型的日志通过 Logstash 导入 ES 中，通过 Kibana 或者 Grafana 对外提供可视化展示。
举例二，通过 Flume 等将数据导入 ES 中，通过 ES 对外提供全文检索服务。

场景四：其他综合业务场景

主要借助 ES 强大的全文检索功能实现，如分页查询、各类数据结果的聚合分析、图形化展示（饼图、线框图、曲线图等）。
举例说明，像那些结合实际业务的场景，如安防领域、金融领域、监控领域等的综合应用。

小结

本小节主要探讨了 ELK Stack 三种基础应用场景和一种扩展综合应用场景，让你对 ES 的应用有个全局的认知。

ELK Stack的学习优先级

建议Elasticsearch为第一优先级，需要掌握的内容如下：

掌握Elasticsearch的基本概念

索引（index）
类型（type）
映射（mapping）
文档（document）
倒排索引原理
文档打分机制
集群（cluster）一一单节点、集群安装与部署
健康状态（red/yellow/gree）
数据存储
数据类型（long/date/text、keyword/nested等）
数据展示（结合Head插件的基础可视化）
…

掌握Elasticserach的基本操作

新增（insert）
删除（delete/deletebyquery）
修改（update/updatebyquery）
查找（search）
精确匹配检索（term、terms、range、exists）
模糊匹配检索（wildcard、prefix、negix正则）
分词全文检索（match/match_phrase等）
多条件bool检索（must/must_not/should多重组合）
分词（英文分词、拼音分词、中文分词）
高亮
分页查询
指定关键词返回
批量操作bulk
scroll查询
reindex操作
…

掌握Elasticsearch高级操作，主要包括：

聚合统计（数量聚合、最大值、最小值、平均值、求和等聚合操作）
图像化展示（hisgram按照日期等聚合）
集合后分页
父子文档
数组类型
nested嵌套类型
ES插件错误排查（集群问题、检索问题、性能问题）
ES性能调优（配置调优、集群调优等）
…

掌握Elasticsearch Java/Python等API

Elasticsearch原生自带API、JEST、Springboot等API选型
Elasticsearch多条件bool复杂检索API
Elasticsearch分页API
Elasticsearch高亮API
Elasticsearch集合API
Elasticsearch相关JSON数据解析
…

Elasticsearch结合场景开发实战

数据可视化（Kibana、Grafana 等其中 Grafana 比较适合监控类场景）
通过 logstash/beats 等导入数据
Elasticsearch 和 Kafka 结合的应用场景
Elasticsearch 和 Mongo 结合的应用场景
Elasticsearch 和 Hadoop 结合的应用场景
结合业务需求的定制化应用场景（日志分析、文档检索、全文检索、金融等各行业检索）
…

建议的第二学习优先级为 Kibana

Kibana 安装与部署
ES 节点数据同步到 Kibana
Kibana Dev Tools 开发工具熟练使用
Kibana 图像化组合展示
将 Kibana 图像化展示效果图应用到自己的开发环境中
……

第三学习优先级为 Logstash

Logstash 的安装与部署
Logstash 将本地文件导入 ES
logstashinputjdbc 插件（5.X后无需安装）将 MySQL/Oracle 等关系型数据库数据导入 ES，全量导入和增量导入实现。
logstashinputmongo插件将 Mongo 数据导入 ES
logstashinputkafaka 插件将 Kafak 数据导入 ES
logstashoutput* 插件将 ES 数据导入不同的数据库和实时数据流中
……

第四学习优先级为 Beats

不同类型的 Beats 安装与部署
将业务数据通过 Beats 导入 ES
……

小结

本小节详细讲述了 Elasticsearch 由初级到高级逐步深入的学习优先级，以及 Kibana、Logstash、Beats 的实践优先级，使得你的基础和进阶学习不再迷茫。

Elasticsearch 高效进阶方法论

掌握最高效工具

推荐以下几种

Kibana 工具

除了支持各种数据的可视化之外，最重要的是支持 Dev Tool 进行 RESTFUL API 增删改查操作。比 Postman 工具和 cURL 都要方便。如下面图所示。

head 插件

可实现 ES 集群状态查看、索引数据查看、ES DSL 实现（增、删、改、查操作），比较实用的地方是 JSON 串的格式化。

Cerebro 工具

用于实现 ES 集群状态查看（堆内存使用率、CPU使用率、内存使用率、磁盘使用率）。

ElasticHD工具

其强势功能包括支持 SQL 转 DSL，不要完全依赖，可以借鉴用。

中文分词工具

比如有 IK分词、ANSJ分词、结巴分词。网上还有结巴分词的其他最新版本。
在这里建议选用 IK 分词，原因有以下几点：

IK 分细粒度 ikmaxword 和粗粒度 ik_smart 两种分词方式。
IK 更新字典只需要在词典末尾添加关键词即可，支持本地和远程词典两种方式。
IK 分词插件的更新速度更快，和最新版本保持高度一致。

类 SQL 查询工具

在此，推荐 elasticsearch-SQL，其支持的 SQL，极大缩小了复杂 DSL 的实现成本。
通过 elasticsearch-SQL 工具可以基于以下 SQL 语句方式请求 ES 集群。

select COUNT(*),SUM(age),MIN(age) as m, MAX(age),AVG(age)FROM bank GROUP BY gender ORDER BY SUM(age), m DESC

测试工具

在原来执行的 DSL 的基础上新增 profile 参数，我把它称作“测试工具”。
profile API的目的是，将 ES 高层的 ES 请求拉平展开，直观的让你看到请求做了什么，每个细分点花了多少时间。
profile API给你改善性能提供相关支撑工作。
使用举例如下：

GET /_search
{  "profile": true,  "query" : {    "match" : { "message" : "message number" }
  }
}

ES 性能分析工具

推荐 rally。相比传统的发包请求测试工具，rally 更加直观和准确、且指标很丰富。

升级认知，不要惧怕新知识

整理了以下几个常见的问题，并做出了回复。
Q：没有 Lucene 基础，能不能学习 Elasticsearch？
A：这个完全不需要Lucence基础的，遇到了相关底层问题，再回头查Lucene基础完全可以。

Q：C/C++ 程序员，能不能进行 Elasticsearch 开发？
A：这个问题就是 C/C++ 转 Java 的问题，几乎没有难度。

Q：Elasticsearch 如何部署（Linux、Windows等）？
A：如果没有 Linux 环境，Windows 搭建 Demo 无可厚非；如果有 Linux 环境，请不要在 Windows 上浪费时间，没有必要。
如果作为业务系统对外提供服务，建议至少搭建到配置相对高 Linux 服务器（CPU24核心以上、内存64GB以上、磁盘1TB左右以上）上。

现在各种新技术（VR、AR、深度学习、区块链技术等）层出不穷，但大神刘未鹏告诉我们“底层的技术永远不过时”，对于 Elasticsearch 而言，倒排索引、打分机制、全文检索原理、分词原理等底层技术属于“永远不过时”的技术，要深究。
相信这点，由浅入深夯实基础，各种看似复杂的问题回头再去看都是“小Kiss”。

找最快的方法

现身说法，我曾经对 Jest 使用摸索了很久。久久不能知道正确使用的方式。
最终发现，GitHub 官网的 readme.md 上面提供了详尽的说明，其他地方找的资料都是徒劳。
我的反思中，不要读别人的二手、三手的翻译资料，直接参考官网来的更快。
不要惧怕英文，看似最难的，往往是最快的。
在这点，ES 相关 API 的使用更是如此。比如，ES 的聚合后分页等操作实现，在官网 API 的介绍中都有详尽的描述。

相信社区的力量

首先推荐几个英文社区。
优先级1：Google
英文能解决的，效率往往会很高。某度差的非常远。
例如，我在2018年2月23日遇到的集群状态为红色的解决方案。在 Google 输入关键词：elasticsearch ALLOCATION_FAILED，Google 搜索就能很快定位到集群状态为红色的解决方案。

优先级2：Elasticsearch 英文官方论坛
问题回答得都很深入，需要翻到底，结合 Google 翻译 translate.google.cn（无需）查看。

优先级3： Stack Overflow
一些问题的版本比较老，1.X 或者 2.X，不过问题的解决思路可以参考。

优先级4：GitHub
注意，GitHub的 issue 上有很多问题的解决方案，不要忽略了。

接着看一下中文社区，这里主要推荐 www.elasticsearch.cn 的 Elastic 中文社区。
相信你也会说有 CSDN 中文问答社区、Segmentfault 社区、相关 QQ 群、微信群等。

但是，我要说的是，毕竟 Elastic 中文社区是目前国内最专业的 ELK Stack 技术交流平台，这里的问题回复率非常快、有多位大牛常驻、质量非常好。

更为重要的是，每天都会有 ES 顶级大牛为你遴选最新的、最专业的 Elasticsearch 日报。

再强调一下，Elasticsearch 日报是最好的学习 ELK Stack 技术的方式，没有之一。

站在巨人的肩上

这里推荐两位 ELK Stack 领域大牛 Medcl 和携程 Wood 大神。
Medcl，Elasticsearch 布道者、ES 员工、中国最早接触 ES 的人、ES-IK 开源分词插件作者、gopa 开源爬虫作者。
携程 Wood 大神，他的文章质量都是源码级实战剖析的结果，很深入、非常实用。
如何向两位大神学习呢？
方法一：精准方法。关注他们在 Elasticsearch 中文社区发表过的文章和回复过的问题，一个个的过一遍。
方法二：没有办法的办法——技术难题向他俩进行提问。

ELK Stack学习指南清单

主要包含：
《Elasticsearch 全文指南》英文官网文档，待更新。
《Elasticsearch 全文指南》中文官网文档，请注意版本基于2.X，相关技术可以参考。
Elasticsearch 6.2 最新版本 JavaAPI 文档集合，请注意，各种 API 的使用很详尽，最上方有搜索按钮，可以输入关键词搜索。
Elasticsearch5.X 必知必会清单，还有中文版。
此清单言简意赅，非常实用。

形成问题清单

学习和实践 ELK Stack 的过程中，势必会遇到很多问题，这些问题当时解决了，回头还可能会遇到。
建议形成自己专属的问题清单，记录各种遇到的问题。
比如，ELK 集群搭建部署清单、ELK 上线清单、ELK 集群优化清单、ES 聚合操作清单、ELK 常见问题排查清单。
这种思维方式来源于《清单革命》这本医学领域的巨著，对于我们学习 ELK Stack 也非常有帮助。

形成属于自己的技术积累

问题清单是技术积累的一小部分内容，这里的技术积累还包括：

原理的透彻理解和积累——可以画画图、画成脑图、形成文字或博客加深印象。
bool 组合查询语句、聚合语句 DSL 的积累——积小成多，慢慢的效率就提升了。
相关问题的排查思路、解决方案积累——形成问题排查集合。
大牛就是菜鸟解决了无数个问题逐步积累的结果。

参考

死磕 Elasticsearch 方法论述
死磕 Elasticsearch 方法论：普通程序员高效精进的 10 大狠招！

ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
ChatGPT 高效学习套路揭秘：让知识获取事半功倍的秘诀 kkai人工智能 chatgpt 人工智能学习媒体 ai
最近这段时间，AI热潮因ChatGPT的火爆再次掀起。如今，网上大部分内容都在调侃AI，但很少有人探讨如何正经使用ChatGPT做事情。作为一名靠搜索引擎和GitHub自学编程的开发者，第一次和ChatGPT深度交流后，我就确信：ChatGPT能够极大提高程序员学习新技术的效率。使用ChatGPT一个月后，我越发感受到它的颠覆性。因此，我想从工作和学习的角度，分享它的优势及我的一些使用技巧，而非娱
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二十八）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
ElasticSearch查询超过10000条（1000页）时出现Result window is too large的问题王月亮17
问题当ES数据量较大，使用分页查询超过10000条（1000页）时，出现如下错误：Cannotexecutejestaction,responsecode:500,error:{"root_cause":[{"type":"query_phase_execution_exception","reason":"Resultwindowistoolarge,from+sizemustbelesstha
网站推广爬虫 Bearjumpingcandy 爬虫
网站推广爬虫是一种用于升网站曝光度和推广效果的工具。它通过自动化地访问和收集网站信息，从而实现对目标网站的广告、关键词、排名等数据进行分析和优化。以下是网站推广爬虫的一些介绍：数据收集：网站推广爬虫可以自动访问目标网站，并收集相关的数据，如网站流量、关键词排名、竞争对手信息等。这些数据可以帮助网站推广人员了解网站的现状和竞争环境，从而制定相应的推广策略。关键词优化：通过分析搜索引擎的关键词排名情况
SpringBoot整合ES搜索引擎实现网站热搜词及热度计算码踏云端 springboot Elasticsearch spring boot elasticsearch 后端热搜词热度计算 java
博主简介：历代文学网（PC端可以访问：https://literature.sinhy.com/#/literature?__c=1000，移动端可微信小程序搜索“历代文学”）总架构师，15年工作经验，精通Java编程，高并发设计，Springboot和微服务，熟悉Linux，ESXI虚拟化以及云原生Docker和K8s，热衷于探索科技的边界，并将理论知识转化为实际应用。保持对新技术的好奇心，乐于
2019.1.6 root_restart
1.新版研学行程公众号推送及页面改动，以后继续尝试无logo版行程单方便转发，附带一篇研学政策解读2.百家号，头条号，搜狐号注册认证及审核，后续每天会在上面更新以往研学活动，增加搜索引擎中山大研学和雨滴教育的关联3.与鹿老师探讨研究方便代理的新宣传模式
只有一个诚字最重要（3.22）胡同学的读书笔记
1人们会认为谷歌是搜索引擎。而事实上，谷歌是第一个以机器为主导的搜索引擎，这个分类在谷歌之前是不存在的，而你必须要认识到谷歌的这个秘密才能判断它与其他公司的不同之处。2如果我目前在一个公司，当大家不知道未来的路怎么走，过去的路也已经彻底放弃了，我会先把事实摆在所有人面前，然后让大家讨论，在争论的过程中产生一个纲领性的共识，让每个部门在大的纲领下去寻求一种变化，不再以增长和竞争为纲，而是转移到产品和
写出渗透测试信息收集详细流程卿酌南烛_b805
一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。二、子域名探测：1、dns域传送漏洞2、搜索引擎查找（通过Google、bing、搜索c段）3、通过ssl证书查询网站：https://myssl.com/ssl.html和https://www.chinassl.net/ssltools
【ShuQiHere】快速排序（Quick Sort）：揭开高效排序算法的神秘面纱 ShuQiHere 排序算法算法数据结构
【ShuQiHere】引言在计算机科学中，排序算法是我们日常编程不可或缺的一部分。无论是处理大量数据、优化搜索引擎，还是进行系统性能提升，排序算法都起到了至关重要的作用。在所有的排序算法中，快速排序（QuickSort）凭借其高效性和灵活的分治策略成为最受欢迎的排序算法之一。在这篇博客中，我们将深入探讨快速排序的原理、性能分析以及如何通过优化策略进一步提升其效率。1.什么是快速排序？（QuickS
Elasticsearch7.7.0 配置用户名和密码 i0208 Elasticsearch
配置用户和密码需要在配置文件中开启x-pack验证,修改config目录下面的elasticsearch.yml文件，在里面添加如下内容,并重启ES[root@localhostesuser]#vim/opt/es/elasticsearch-7.7.0/config/elasticsearch.ymlxpack.security.enabled:truexpack.license.self_ge
海量数据查找最大K个值：数据结构与算法的选择星辰@Sea 数据结构 Java 数据结构
在处理大数据集时，经常需要找到数据集中最大的K个元素，这样的需求在很多领域都有广泛应用，例如推荐系统中寻找评分最高的K个商品、数据分析中找出最重要的K个特征、搜索引擎中找到排名前K的结果等等。面对海量数据，传统的排序方法可能不再适用，因为它们通常具有较高的时间复杂度。因此，选择合适的数据结构和算法对于提高效率至关重要。本文将详细介绍如何在海量数据集中查找最大的K个值，探讨不同的数据结构与算法选择，
elasticsearch数据迁移之elasticdump 迷茫运维路 elasticsearch 中间件 elasticsearch linux 运维
系列文章目录第一章es集群搭建第二章es集群基本操作命令第三章es基于search-guard插件实现加密认证第四章es常用插件文章目录系列文章目录前言一、elasticdump是什么？二、安装elasticdump工具1.离线安装2.在线安装三、elasticdump相关参数四、使用elasticdump进行数据备份五、使用elasticdump进行数据恢复前言在企业实际生产环境中,避免不了要对
K8S - Volume - NFS 卷的简介和使用 nvd11 K8S kubernetes 容器云原生
在之前的文章里已经介绍了K8S中两个简单卷类型hostpath和emptydirk8s-Volume简介和HostPath的使用K8S-Emptydir-取代ELK使用fluentd构建loggingsaidcar但是这两种卷都有同1个限制，就是依赖于k8snodes的空间如果某个servicepod中需要的volumn空间很大，这时我们就需要考虑网络磁盘方案，其中NAS类型的Volume是常用且
fluentd 简介，日志收集并导入BigQuery nvd11 Cloud spring Etl spring boot
日志收集的工具有很多种例如Splunk，很多大公司都在使用，但是个人使用的话并不合适，主要是需要license的…钱是1个大问题另1个常见开源的解决方案是ELK,但是搭建和学习成本高，如果只是为了日志收集并不值。对于k8s方案，还有1个开源选择，就是fluentd，本文的主题。Fluentd的简介Fluentd是一个开源的数据收集器，旨在实现日志数据的统一收集、处理和转发。它支持多种数据源和数据格
ELK 架构中 ES 性能优化 xianjie0318 elk 架构 elasticsearch
1.背景由于目前日志采集流程中,经常遇到用户磁盘IO占用超过90%以上的场景,但是观察其日志量大约在2k~5k之间,整体数据量不大,所以针对该问题进行了一系列的压测和实验验证,最后得出这篇优化建议文档2.压测前期准备2.1制造大量日志该阶段为数据源输入阶段,为了避免瓶颈在数据制造侧,所以需要保证filebeat具有足够的日志制造能力最后效果,filebeat可以达到70kQPS的数据发往logst
K8S - Emptydir - 取代ELK 使用fluentd 构建logging saidcar nvd11 K8S kubernetes
由于k8s的无状态service通常部署在多个POD中，实现多实例面向高并发。但是k8s本身并没有提供集中查询多个pod的日志的功能其中1个常见方案就是ELK.本文的方案是利用fluentdsidecar和emptydir把多个pod的日志导向到bigquery的table中。Emptydir的简介Kubernetes中的EmptyDir是一种用于容器之间共享临时存储的空目录卷类型。EmptyDi
在生产环境中部署Elasticsearch：最佳实践和故障排除技巧——聚合与搜索（三）不会编程的小孩子 elasticsearch 大数据搜索引擎
#在生产环境中部署Elasticsearch：最佳实践和故障排除技巧——聚合与搜索（三）前言文章目录前言-聚合和分析-执行聚合操作-1.使用JavaAPI执行聚合操作-2.使用CURL命令执行聚合操作-1.使用JavaAPI执行度量操作-2.使用CURL命令执行度量操作-使用缓存-调整分片大小和数量-使用搜索建议-结论-节点发现-负载均衡-故障转移-结论-访问控制-加密-身份验证-结论-RESTA
Elasticsearch Java API 的使用（22）—实现桶聚合迷途码界 Elasticsearch Java API 桶聚合
分组聚合使用terms实现分组集合publicclassEsTermsAggthrowsUnknownHostException{publicvoidTermsAgg(TransportClientclient){AggregationBuilderagg=AggregationBuilders.terms("terms").field("agg");SearchResponseresponse=
Elasticsearch之bool查询 cyt涛 java elasticsearch 大数据搜索引擎 bool 布尔查询全文检索
bool查询是Elasticsearch中最常用的复合查询类型，允许将多个查询组合在一起。它通过逻辑操作符（如must、should、must_not和filter）来构建复杂的查询条件，从而满足多条件匹配、逻辑与（AND）、或（OR）、非（NOT）的查询需求。bool查询主要由四个部分组成：must：必须满足的条件（类似于SQL中的AND）。should：应该匹配的条件（类似于SQL中的OR）。
全面解析MeiliSearch及其Go语言实现寻找09之夏 Meilisearch golang 开发语言后端 Meilisearch
前言随着互联网的发展和数字化进程的加速，无论是企业还是个人用户，都需要面对海量的信息。在这个背景下，搜索技术的重要性日益凸显。MeiliSearch是一款开源搜索引擎，它的出现为开发者提供了一个高效、灵活的选择。本文将从多个角度探讨MeiliSearch的特性、使用方法及其实现原理，并通过Go语言示例展示如何构建一个高性能的搜索系统。一、MeiliSearch特性MeiliSearch之所以受到欢
5分钟熟练上手ES的具体使用佚名涙 elasticsearch jenkins 大数据学习
5分钟上手ES的具体使用相信有很多同学想要去学习elk时会使用docker等一些方式去下载相关程序，但提到真正去使用es的一系列操作时又会知之甚少。于是这一篇博客应运而生。本文就以下载好elk/efk系统后应该如何去使用为例，介绍es的具体操作。es关键字基本概念索引（Index）：类似于关系型数据库中的“数据库”，是数据存储的容器。文档（Document）：类似于关系型数据库中的“行”，是JSO
面对信息茧房，我们如何破局？听风便是雨_
当我们进入了互联网时代，信息的交互变得无比地便捷，当你需要什么样的信息，只需要在搜索引擎上输入，便可立马查询到你想要的结果，而且现在随着抖音、微博之类的应用APP的出现，我们本应从这些APP中获得更加丰富的知识或者信息，来开阔我们的眼界。但是事实上，我们仿佛没有获得预期的效果，更甚至于陷入更大的怪圈当中——缺乏耐心，不能容忍与自己想法不一样的他人建议，失去了与外界良好沟通的能力以及开拓自己的眼界的
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（十一）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
80%的人都知道的——内容营销老泊
我们已经知道内容营销是依靠内容来进行营销，一起看一下内容营销的工作流吧。选题创作投放主要内容营销的选题类型-常青树：用户长时间关心的，比如房价，教育-热点：用户短时间关心的，比如八卦，实事二八原则常青树话题等等选题来源：访谈法：寻找目标用户尽可能一对一进行访谈，用户反馈的问题都可以成为你的选题来源数据法：利用搜索引擎获取内容选题。利用爬虫工具看看人们都比较关心哪些话题来作为选题基于时事的选题数据工
50.复盘变现之路 506小棉袄
1.昨天下载了头条，用搜索引擎找到了如何写文章。注册了一下。这一切其实都好简单，但是自己就是拖着没有做，而且还心安理得。现在在管理别人，于是用自己做到了才能教别人去做到来要求自己发现也不难。2.日更被我捡了起来。后面没有特殊情况，我会一直更下去。放弃一件事很容易，坚持自己喜欢的事也不会太难。3.今天完成了50关的最后一关，接下来就要挑战100关。想看看自己的极限在哪里。具体做法：1.每天早起一小时
Elasticsearch 安装哒哒-blog Elasticsearch elasticsearch jenkins 大数据
下载安装elasticsearch下载链接运行：bin\elasticsearch.bat设置密码：.\bin\elasticsearch-setup-passwordsinteractive这边设置密码遇到一个坑PSG:\elasticsearch-8.8.1>.\bin\elasticsearch-setup-passwordsinteractiveFailedtoauthenticateus
NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
Docker启动Elasticsearch(挂载数据、配置文件、插件) 程序员迪迦项目实战 Java elasticsearch docker
Docker启动Elasticsearch拉取镜像dockerpullelasticsearch:7.4.2修改配置文件mkdir-p/mydata/elasticsearch/configmkdir-p/mydata/elasticsearch/data/mkdir-p/mydata/elasticsearch/pluginsecho"http.host:0.0.0.0">>/mydata/el
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi