ronon77

使用 Elasticsearch2.1 实现博客站内搜索

一直以来，为了优化本博客站内搜索效果和速度，我使用 bing 的 site: 站内搜索做为数据源，在服务端获取、解析、处理并缓存搜索结果，直接输出 HTML。这个方案唯一的问题是时效性难以保证，尽管我可以在发布和修改文章时主动告诉 bing，但它什么时候更新索引则完全不受我控制。

本着不折腾就浑身不自在的原则，我最终还是使用 Elasticsearch 搭建了自己的搜索服务。Elasticsearch 是一个基于 Lucene 构建的开源、分布式、RESTful 搜索引擎，很多大公司都在用，程序员的好伙伴 Github 的搜索也用的是它。本文记录我使用 Elasticsearch 搭建站内搜索的过程，目前支持中文分词、同义词、标题匹配优先等常见策略，请「点击这里」体验。

安装 Elasticsearch

部署 Elasticsearch 最简单的方法是使用 Elasticsearch Dockerfile。为了更彻底地折腾，我没有使用 Docker，好在手动安装过程也不复杂。

我的虚拟机和线上环境都是 Ubuntu 14.04.3 LTS，Elasticsearch 用的是目前最新的 2.1.1。一切开始之前，先要检查机器上是否装有 java 环境，如果没有可以通过以下命令安装：

sudo apt-get install openjdk-7-jre-headless

下载 Elasticsearch 2.1.1 压缩包并解压：

wget -c https://download.elasticsearch.org/elasticsearch/release/org/elasticsearch/distribution/zip/elasticsearch/2.1.1/elasticsearch-2.1.1.zip
unzip elasticsearch-2.1.1.zip

我将解压得到的 elasticsearch-2.1.1 目录重命名为 ~/es_root（名称及位置没有限制，可以将它挪到你认为合适的任何位置）。Elasticsearch 无需安装，直接可以运行：

SHELLcd ~/es_root/bin/
chmod a+x elasticsearch
./elasticsearch

如果屏幕上没有打印错误信息，说明 Elasticsearch 服务已经成功启动。新建一个终端，用 curl 验证下：

SHELLcurl -XGET http://127.0.0.1:9200/?pretty

{
  "name" : "Goblyn",
  "cluster_name" : "elasticsearch",
  "version" : {
    "number" : "2.1.1",
    "build_hash" : "40e2c53a6b6c2972b3d13846e450e66f4375bd71",
    "build_timestamp" : "2015-12-15T13:05:55Z",
    "build_snapshot" : false,
    "lucene_version" : "5.3.1"
  },
  "tagline" : "You Know, for Search"
}

如果看到以上信息，说明一切正常，否则请根据屏幕上的错误信息查找原因。尽管 Elasticsearch 本身是用 java 写的，但它对外可以通过 RESTful 接口交互，十分方便。

默认情况下 Elasticsearch 的 RESTful 服务只有本机才能访问，也就是说无法从主机访问虚拟机中的服务。为了方便调试，可以修改 ~/es_root/config/elasticsearch.yml 文件，加入以下两行：

network.bind_host: "0.0.0.0"
network.publish_host: _non_loopback:ipv4_

但线上环境切忌不要这样配置，否则任何人都可以通过这个接口修改你的数据。

安装 IK Analysis

Elasticsearch 自带的分词器会粗暴地把每个汉字直接分开，没有根据词库来分词。为了处理中文搜索，还需要安装中文分词插件。我使用的是 elasticsearch-analysis-ik，支持自定义词库。

首先，下载与 Elasticsearch 2.1.1 匹配的 elasticsearch-analysis-ik 插件。根据文档，当前需要使用 master 版：

wget -c https://github.com/medcl/elasticsearch-analysis-ik/archive/master.zip
unzip master.zip

解压后，进入插件源码目录编译：

SHELLsudo apt-get install maven
cd elasticsearch-analysis-ik-master/
mvn package

如果一切顺利，在 target/releases/ 目录下可以找到编好的文件。将其解压并拷到 ~/es_root 对应目录：

mkdir -p ~/es_root/plugins/ik/
unzip target/releases/elasticsearch-analysis-ik-1.6.2.zip -d ~/es_root/plugins/ik/

再将 elasticsearch-analysis-ik 的配置也拷贝到 ~/es_root 对应目录：

mkdir -p ~/es_root/config/ik
cp -r config/ik/* ~/es_root/config/ik/

elasticsearch-analysis-ik 的配置文件中很多都是词表，直接用文本编辑器打开就可以修改，改完记得保存为 utf-8 格式。

现在再启动 Elasticsearch 服务，如果看到类似下面这样的信息，说明 IK Analysis 插件已经装好了：

[plugins] [Libra] loaded [elasticsearch-analysis-ik]

配置同义词

Elasticsearch 自带一个名为 synonym 的同义词 filter。为了能让 IK 和 synonym 同时工作，我们需要定义新的 analyzer，用 IK 做 tokenizer，synonym 做 filter。听上去很复杂，实际上要做的只是加一段配置。

打开 ~/es_root/config/elasticsearch.yml 文件，加入以下配置：

YAMLindex:
  analysis:
    analyzer:
      ik_syno:
          type: custom
          tokenizer: ik_max_word
          filter: [my_synonym_filter]
      ik_syno_smart:
          type: custom
          tokenizer: ik_smart
          filter: [my_synonym_filter]
    filter:
      my_synonym_filter:
          type: synonym
          synonyms_path: analysis/synonym.txt

以上配置定义了 ik_syno 和 ik_syno_smart 这两个新的 analyzer，分别对应 IK 的 ik_max_word 和 ik_smart 两种分词策略。根据 IK 的文档，二者区别如下：

ik_max_word：会将文本做最细粒度的拆分，例如「中华人民共和国国歌」会被拆分为「中华人民共和国、中华人民、中华、华人、人民共和国、人民、人、民、共和国、共和、和、国国、国歌」，会穷尽各种可能的组合；
ik_smart：会将文本做最粗粒度的拆分，例如「中华人民共和国国歌」会被拆分为「中华人民共和国、国歌」；

ik_syno 和 ik_syno_smart 都会使用 synonym filter 实现同义词转换。为了方便后续测试，建议创建 ~/es_root/config/analysis/synonym.txt 文件，输入一些同义词并存为 utf-8 格式。例如：

ua,user-agent,userAgent
js,javascript
internet explore=>ie

使用 JavaScript API

通过前面的示例，我们知道通过 curl 或者 Chrome 的 Postman 扩展能轻松地与 Elasticsearch 服务交互。为了更好与已有系统集成，我们还可以使用 Elasticsearch Client。Elasticsearch Client 只是将 RESTful 接口包装了一层，常见语言都有对应的实现（查看官方 Client），自己写一套也不难。

我的博客系统是 Node.js 写的，在项目里直接 npm install elasticsearch --save 就可以安装 Elasticsearch 的 Node.js 包。

无论进行什么操作，首先都需要实例化 Elasticsearch Client 对象：

JSvar elasticsearch = require('elasticsearch');

var client = new elasticsearch.Client({
    host: '10.211.55.23:9200', //服务 IP 和端口
    log: 'trace' //输出详细的调试信息
});

然后就可以调用 client 对象提供的各种方法了，client 对象拥有大量方法，请查看官方文档。这个库支持两种调用方式：callback 和 promise：

JS//callback
client.info({}, function(err, data) {
    if(!err) {
        console.log('result:', data);
    } else {
        console.log('error:', err);
    }
});

//promise
client.info({}).then(function(data) {
    console.log('result:', data);
}, function(err) {
    console.log('error:', err);
});

为了节约篇幅，本文后续贴出的代码都采用 promise 写法，并且省略 then 函数。

全文搜索

到现在为止，所有准备工作都已经完成，马上就要大功告成了。在进行下一步之前，先简单介绍一下 Elasticsearch 几个名词：

Elasticsearch 集群可以包含多个索引（Index），每个索引可以包含多个类型（Type），每个类型可以包含多个文档（Document），每个文档可以包含多个字段（Field）。以下是 MySQL 和 Elasticsearch 的术语类比图，帮助理解：

MySQL	Elasticsearch
Database	Index
Table	Type
Row	Document
Column	Field
Schema	Mappping
Index	Everything Indexed by default
SQL	Query DSL

就像使用 MySQL 必须指定 Database 一样，要使用 Elasticsearch 首先需要创建 Index：

client.indices.create({index : 'test'});

这样就创建了一个名为 test 的 Index。Type 不用单独创建，在创建 Mapping 时指定就可以。Mapping 用来定义 Document 中每个字段的类型、所使用的 analyzer、是否索引等属性，非常关键。创建 Mapping 的代码示例如下：

JSclient.indices.putMapping({
    index : 'test',
    type : 'article',
    body : {
        article: {
            properties: {
                title: {
                    type: 'string',
                    term_vector: 'with_positions_offsets',
                    analyzer: 'ik_syno',
                    search_analyzer: 'ik_syno',
                },
                content: {
                    type: 'string',
                    term_vector: 'with_positions_offsets',
                    analyzer: 'ik_syno',
                    search_analyzer: 'ik_syno',
                },
                slug: {
                    type: 'string',
                },
                tags: {
                    type: 'string',
                    index : 'not_analyzed',
                },
                update_date: {
                    type : 'date',
                    index : 'not_analyzed',
                }
            }
        }
    }
});

以上代码为 test 索引下的 article 类型指定了字段特征：title 和 content 字段使用 ik_syno 做为 analyzer，说明它使用 ik_max_word 做为分词，并且应用 synonym 同义词策略；slug、tags 和 update_date 字段都没有指定 analyzer，说明他们使用默认分词；同时 tags 和 update_date 字段不会被分词。

接着，写入测试数据并索引：

JSclient.index({
    index : 'test',
    type : 'article',
    id : '100',
    body : {
        title : '什么是 JS？',
        slug :'what-is-js',
        tags : ['JS', 'JavaScript', 'TEST'],
        content : 'JS 是 JavaScript 的缩写！',
        update_date : '2015-12-15T13:05:55Z',
    }
})

id 参数如果不指定，系统会自动生成一个并返回，后续在更新、删除时都要用到它。至于如何更新、删除，这里就不写了，请自行查看文档。

搜一下试试：

JSclient.search({
    index : 'test',
    type : 'article',
    q : 'JS',
});

没有问题，可以搜出来！查询结果数量和具体内容都在 hits 字段中：

result:
{"took":50,"timed_out":false,"_shards":{"total":5,"successful":5,"failed":0},"hits":{"total":1,"max_score":0.076713204,"hits":[{"_index":"test","_type":"article","_id":"100","_score":0.076713204,"_source":{"title":"什么是 JS？","slug":"what-is-js","tags":["JS","JavaScript","TEST"],"content":"JS 是 JavaScript 的缩写！","update_date":"2015-12-15T13:05:55Z"}}]}}

如果要实现更复杂的查询策略该怎么办？那就要请出前面表格中与 SQL 对应的 Query DSL 了。例如以下是本博客站内搜索所使用的 Query DSL：

JS{
    index : 'test',
    type : 'article',
    from : start,
    body : {
        query : { 
            dis_max : { 
                queries : [
                    {
                        match : {
                            title : { 
                                query : keyword, 
                                minimum_should_match : '50%',
                                boost : 4,
                            }
                        } 
                    }, {
                        match : {
                            content : { 
                                query : keyword, 
                                minimum_should_match : '75%',
                                boost : 4,
                            }
                        } 
                    }, {
                        match : {
                            tags : { 
                                query : keyword, 
                                minimum_should_match : '100%',
                                boost : 2,
                            }
                        } 
                    }, {
                        match : {
                            slug : { 
                                query : keyword, 
                                minimum_should_match : '100%',
                                boost : 1,
                            }
                        } 
                    }
                ],
                tie_breaker : 0.3
            }
        },
        highlight : {
            pre_tags : [''],
            post_tags : [''],
            fields : {
                title : {},
                content : {},
            }
        }
    }
}

from 参数指定从开始跳过多少条结果，用来实现分页。这份复杂的 Query DSL 搜出来的结果如下：

result:
{"took":108,"timed_out":false,"_shards":{"total":5,"successful":5,"failed":0},"hits":{"total":1,"max_score":0.29921508,"hits":[{"_index":"test","_type":"article","_id":"100","_score":0.29921508,"_source":{"title":"什么是 JS？","slug":"what-is-js","tags":["JS","JavaScript","TEST"],"content":"JS 是 JavaScript 的缩写！","update_date":"2015-12-15T13:05:55Z"},"highlight":{"content":["JS 是 JavaScript 的缩写！"],"title":["什么是 JS？"]}}]}}

可以看到，同义词策略和关键词高亮功能都正常。跑通 Elasticsearch 基本流程，剩余工作就是导入更多数据、配置更多词表和尝试不同策略了，略过不写。

我接触 Elasticsearch 一共才几小时，我的出发点也很简单，只是为了给博客加上站内搜索，故本文既不全面也不深入，甚至还包含各种错误，仅供参考。Elasticsearch 功能十分强大和复杂，远远不是花几个小时就能玩明白的。最后推荐「Elasticsearch 权威指南（中文版）」这本书，非常细致和全面，我对 Elasticsearch 仅有的一点了解都来自于这本书和官方文档。

本文链接：https://imququ.com/post/elasticsearch.html

ELK7.8部署：Elasticsearch+Logstash+Kibana搭建分布式日志平台 _海风_ 运维分布式
ELK7.8部署：Elasticsearch+Logstash+Kibana搭建分布式日志平台一、前言1、ELK简介2、ELK工作流二、准备工作1、服务器&软件环境说明2、ELK环境准备三、Elasticsearch部署1、准备工作2、配置四、Logstash部署1、准备工作2、Logstash配置五、Kibana部署1、准备工作2、Kibana配置与访问测试六、测试1、日志写入2、访问七、备注1
Elasticsearch + Logstash + Filebeat + Kibana搭建ELK日志分析平台（官方推荐的BEATS架构）博学谷狂野架构师
file俗话话说的号，没有金刚钻，也不揽那瓷器活；日志分析可以说是所有大小系统的标配了，不知道有多少菜鸟程序员有多喜欢日志，如果没了日志，那自己写的bug想不被别人发现，可就难了；有了它，就可将bug们统统消化在自己手里。当然了，作为一个架构师搭建动手搭建一个日志平台也基本是必备技能了，虽然我们说架构师基本不咋写代码了，但是如果需要的时候，还是能扛枪的大家可以看下架构师要具备的能力：那些年薪50万
Spring Boot 日志平台 ELK + Filebeat 入门 weixin_42073629 Spring Boot 链路追踪 Elasticsearch
1.概述在《SpringBoot日志集成Logging入门》文章中，我们学习了SpringBoot如何集成并使用日志框架，进行日志的打印。友情提示：对于本文来说，即使胖友未阅读过《SpringBoot日志集成Logging入门》文章，也毫无影响，不要慌~不过正如我们在文末所说，在生产环境下，我们会集群部署我们的应用。那么我们可能需要登陆多台服务器，查看不用应用节点下的日志，这样会非常不方便。所以，
GrayLog日志平台的基本使用-ssh之Email报警 qq_31292011 graylog
1、首先编辑并添加邮件配置到server.conf（注意：是添加）vim/etc/graylog/server/server.conf#Emailtransporttransport_email_enabled=truetransport_email_hostname=smtp.qq.comtransport_email_port=465transport_email_use_auth=truet
ELK Stack 7.3.0构建多系统多用户安全认证日志平台（二）程序员之成长路
Elasticsearch集群搭建，操作系统Linuxcentos7三台机器：192.168.137.55192.168.137.56192.168.137.571、192.168.137.55这台机器Elasticsearch安装，进入安装目录/usr/local/elkstack，先下载安装包cd/usr/local/elkstackCurl-L-Ohttps://artifacts.elas
日志平台搭建手册萧十一郎君运维 ELK FileBeat Kibana Kafka
1.Java环境安装和配置JDK要求安装1.8版本，安装可以参考《Linux安装JDK完整步骤》。2.创建用户创建elk用户，用来管理elk相关的服务，包括：filebeat、logstash、elasticsearch、kibana。执行命令：useraddelk#创建用户passwdelk#设置elk用户密码采用同样的方法创建用户zookeeper和kafka，这两个用户分别管理zookeep
一次线上死锁问题的排查小汪哥写代码
“bug是程序员的天敌，同时也是程序员进步的阶梯”前情提要—前段时间，同事反馈又一批业务数据入库非常慢，而且有些数据和合作方数据对不上，偶尔会有出入。于是，作为对疑难问题感兴趣的我就开始协助排查。事故现场—经过登录日志平台排查日志发现：com.mysql.jdbc.exceptions.jdbc4.MySQLTransactionRollbackException:Deadlockfoundwhe
一次生产 KubeSphere 日志无法正常采集事件解决记录 KubeSphere 云原生 k8s 容器平台 kubesphere 云计算
作者：宇轩辞白，运维研发工程师，目前专注于云原生、Kubernetes、容器、Linux、运维自动化等领域。前言2023年11月7号下午，研发同事反馈，项目线上日志平台某个服务无法查看近期的日志。我登上KubeSphere平台进行查看，发现日志收集展示停留在10月15号那天，而其它的服务是正常的。问题跟踪定位分析结合已有的经验积累，我做了如下猜想：一种原因，是不是日志系统对应的PVC存储卷被打满了
男人要慢，SQL要快：记一次慢SQL优化艾小仙人
问题这是一个线上问题，从日志平台查询到的SQL执行情况，该SQL执行的时间为11.146s，可以认定为是一个慢查询，美化后的SQL如下：image先找到这个表的定义以及索引情况如下：image可见，主要有两个联合索引：status,to_account_id和status,from_account_id问题分析我们先用explain查看执行计划：image先看看explain的含义吧。id：没什么
日志平台--graylog-web配置、接入微服务日志迷茫运维路日志平台系统 graylog 微服务运维
系列文章目录第一章搭建es集群第二章mongodb搭建第三章graylog搭建与反向代理文章目录系列文章目录前言一、graylog-web界面操作二、分流操作三、分流示例四、graylog查看某个服务的日志五、graylog创建不同用户的流程及权限分类总结前言通过第三章内容，已成功搭建完成graylog,并且使用nginx实现了反向代理。因此在本章中，主要是针对graylog-web界面的熟悉、配
ELK+Filebeat+Kafka搭建Oracle数据库日志平台木子87 linux nginx 运维
数据流向结构图2注意：需要JDK支持安装配置Filebeat收集日志文件2.1安装配置#解压tar-xffilebeat-*-linux-x86_64.tar.gz-C/ups/app/elasticcd/ups/app/elasticln-sfilebeat-*filebeat2.2配置数据采集conf文件filebeat.inputs:-type:logenabled:truepaths:-/
Logback、Log4j2、Log4j全局限制单条日志打印长度雪落夜 log4j logback
开发过程中会打印一些流和极长的报文等，将服务器或日志平台撑爆，这些日志业务意义不大，建议全局对日志超过固定长度截取做限制。1.logback限制打印长度资料：Chapter6:Layouts例如限制单条日志长度10k，将%msg替换为%.-10240msg，从左侧截取固定长度。2.log4j2限制日志打印长度Log4j–Log4j2Layouts例如限制单条日志长度10k，将%m替换为%maxLe
GrayLog日志平台的基本使用-Windows日志接入 qq_31292011 graylog
Windows服务器安装graylog-sidecar实现系统日志快速接入Graylog1、Github上下载安装sidecarWindows版本安装包https://github.com/Graylog2/collector-sidecar2、创建sidecar的APItoken这个token需要记下来，wind安装时需要用到3、创建Beats类型的InputGrayLog后台在防火墙上放通In
GrayLog日志平台的基本使用-java日志接入 qq_31292011 graylog
1）、先创建一些准备工作先创建token，不知道如何创建的看前面的文章---GrayLog日志平台的基本使用-Windows日志接入-CSDN博客在input里创建接收器，之前win的需要停掉，否则都使用5044端口会冲突2)、客户端上安装filebeat、graylog-sidecar下载地址：https://github.com/Graylog2/collector-sidecar/relea
GrayLog日志平台的基本使用-docker容器日志接入 qq_31292011 graylog
1、/etc/docker/daemon.json中加入如下配置并重启服务[root@localhostsrc]#cat/etc/docker/daemon.json{"registry-mirrors":["https://dhq9bx4f.mirror.aliyuncs.com"],"log-driver":"gelf","log-opts":{"gelf-address":"udp://19
GrayLog日志平台的基本使用-收集系统日志 qq_31292011 graylog
1、新建Indices2、新建InputInputs新增syslogUDP的类型，接收端口为1514UDP用于接收Linux服务器使用rsyslog转发过来的系统日志Input配置后，需要开放端口：firewall-cmd--permanent--zone=public--add-port=1514/udp;firewall-cmd--reload3、再新建Stream第二步编辑Linux服务器以
GrayLog日志平台的基本使用-ssh接入Dashboards展示 qq_31292011 graylog
这里使用的版本为graylog4.2.101、一键安装graylog4.2.10，解压zip包，执行脚本就行链接：https://pan.baidu.com/s/11U7GpBZ1B7PXR8pyWVcHNw?pwd=udln提取码：udln2、通过rsyslog采集系统日志，具体操作参考前面文章GrayLog日志平台的基本使用-收集系统日志-CSDN博客3、下载需要的安装包Releases·P3
分享：有赞百亿级日志系统架构设计 linjingyg elasticsearch big data kafka
日志是记录系统中各种问题信息的关键，也是一种常见的海量数据。日志平台为集团所有业务系统提供日志采集、消费、分析、存储、索引和查询的一站式日志服务。主要为了解决日志分散不方便查看、日志搜索操作复杂且效率低、业务异常无法及时发现等等问题。随着有赞业务的发展与增长，每天都会产生百亿级别的日志量（据统计，平均每秒产生50万条日志，峰值每秒可达80万条）。日志平台也随着业务的不断发展经历了多次改变和升级。本
2023最新ELK日志平台（elasticsearch+logstash+kibana）搭建程序员白日梦 elasticsearch kibana logstash
去年公司由于不断发展，内部自研系统越来越多，所以后来搭建了一个日志收集平台，并将日志收集功能以二方包形式引入自研系统，避免每个自研系统都要建立一套自己的日志模块，节约了开发时间，管理起来也更加容易。这篇文章主要介绍ELK最新版本的搭建，二方包的介绍可以看小霸王的另外一篇文章。ELK介绍Elasticsearch是一个分布式、Restful风格的搜索和数据分析引擎，能够解决不断涌现出的各种用例。作为
Uber 如何使用 ClickHouse 建立快速可靠且与模式无关的日志分析平台？ qianshanding0708 分布式大数据数据库 java python
在Uber，我们提供了一个集中的、可靠的、交互式的日志平台，让工程师们可以快速完成大规模日志分析工作。这些日志被标记为一组丰富的上下文键值对，工程师可以使用它们来切分数据，以显示异常或有趣的模式，从而指导产品改进。当前，该平台每秒从不同区域数以千计的服务摄取数以百万计的日志，存储几个PB的数据，每秒为来自仪表盘和程序的数百个查询提供服务。自从2014年开始使用ELK进行日志记录以来，我们的系统流量
使用 ClickHouse 做日志分析夜莺云原生监控 clickhouse
原作：MonikaSingh&PradeepChhetri这是我们在Monitorama2022上发表的演讲的改编稿。您可以在此处找到包含演讲者笔记的幻灯片和此处的视频。当Cloudflare的请求抛出错误时，信息会记录在我们的requests_error管道中。错误日志用于帮助解决特定于客户或网络范围的问题。我们，站点可靠性工程师(SRE)，负责管理日志平台。我们已经运行Elasticsearc
可视化的mysql慢日志平台，帮助数据库管理员（DBA）和开发者更好地管理和监控 MySQL 数据库的慢查询日志小小哭包数据库数据库 mysql dba
慢日志查询慢日志查询通常指的是在数据库管理中，用于识别和记录执行时间超过预设阈值的数据库查询操作的功能。这种功能在数据库如MySQL、PostgreSQL、MongoDB等中广泛存在，旨在帮助开发人员和数据库管理员找出可能影响数据库性能的低效查询，以便进行优化。一个查询被视为“慢查询”通常是基于它执行的时间是否超过了一个预设的阈值。例如，在MySQL中，可以设置一个参数`long_query_ti
阿里PB级Kubernetes日志平台建设实践阿里云技术日志分析容器数据采集
阿里PB级Kubernetes日志平台建设实践QCon是由InfoQ主办的综合性技术盛会，每年在伦敦、北京、纽约、圣保罗、上海、旧金山召开。有幸参加这次QCon10周年大会，作为分享嘉宾在刘宇老师的运维专场发表了《阿里PB级Kubernetes日志平台建设实践》，现将PPT和文字稿整理下来，希望和更多的爱好者分享。计算形态的发展与日志系统的演进在阿里的十多年中，日志系统伴随着计算形态的发展在不断演
docker 部署日志平台出错汇总 Snower_2022 容器化部署 docker 容器运维
第一次运行elasticsearch:8.11.1镜像，报错如下：[root@master~]#dockerrun--namees03--netelastic-p9200:9200-it-m1GBdocker.elastic.co/elasticsearch/elasticsearch:8.11.1docker:Errorresponsefromdaemon:driverfailedprogram
基于Hadoop开发的大数据实战项目——电商日志分享系统搞程序的菇凉 big data 大数据 database hadoop 数据库
项目介绍大数据电商日志平台项目以某电商网站真实的业务数据架构为基础，将数据从收集到使用通过前端应用程序，后端程序，数据分析，平台部署等多方位的闭环的业务实现。形成了一套符合教学体系的电商日志分析项目。bf_dataapi项目的主要目标有两个：第一个就是我们需要提供一个提供json数据的RestAPI；另外一个目标就是提供一个展示结果的demo页面。bf_dataapi使用spring+mybati
ELK配置记录（filebeat+kafka+Logstash+Elasticsearch+Kibana） xz060585 kafka elasticsearch elk
一、简介elk日志平台：日志收集、分析和展示的解决方案。满足用户对⽇志的查询、排序、统计需求。elk架构:filebeat（采集）（+kafka）+Logstash（管道）+Elasticsearch（存储、搜索）+Kibana（日志应用）各组件功能：Filebeat：监听并收集日志数据kafka：高吞吐量的分布式发布订阅消息，大吞吐数据的临时队列。Kafka的吞吐性能很好，可以对付N个fileb
ELK+Kafka+Beats实现海量日志收集平台（一）竹影入风华 Linux学习 ELK elk kafka
ELK+Kafka+Beats实现海量日志收集平台（一）目录一、应用场景二、实现原理一、应用场景利用ELK+Kafka+Beats来实现一个统一日志平台，它是一款针对大规模分布式系统日志的统一采集、存储、分析的APM工具。在分布式系统中，有大量的服务部署在不通的服务器上，客服端的一个请求查询，就可能会调用后端多个服务，每个服务之间可能会相互调用或一个服务又会调用其它服务，最终才将请求的结果返回，汇
搭建 ELK 实时日志平台并在 Spring Boot 和 Nginx 项目中使用大碍桃花开 Elasticsearch and Kibana ELK搭建
在排查线上异常的过程中，查询日志总是必不可缺的一部分。现今大多采用的微服务架构，日志被分散在不同的机器上，使得日志的查询变得异常困难。工欲善其事，必先利其器。如果此时有一个统一的实时日志分析平台，那可谓是雪中送碳，必定能够提高我们排查线上问题的效率。本文带您了解一下开源的实时日志分析平台ELK的搭建及使用。ELK简介ELK是一个开源的实时日志分析平台，它主要由Elasticsearch、Logst
日志平台搭建第五章：Linux安装Kafka bill447 日志平台搭建 kafka 分布式
相关链接http://kafka.apache.org/downloads1.使用Docker安装zookeeper下载镜像：dockerpullzookeeper:3.4.14创建容器：dockerrun--namezookeeper\-v/opt/data/zksingle:/data\-p2181:2181\-eZOO_LOG4J_PROP="INFO,ROLLINGFILE"\-dzook
日志平台搭建第六章：logstash通过kafka通道采集日志信息 bill447 日志平台搭建 kafka 分布式
1.修改文件/opt/app/elk/logstash-7.5.1/config.d/config1.conf，在input下添加kafka采集配置#192.168.128.130:9103:kafka地址#topics:主题kafka{bootstrap_servers=>["192.168.128.130:9103"]group_id=>"logstash"topics=>["demo"]co
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23