Elastic 中国社区官方博客

Elastic：利用 Elastic Stack 来分析浏览器历史访问数据

在今天的文章中，我将展示一个如果使用 Elastic Stack 来对我们的电脑上的浏览数据进行分析。浏览器的历史数据保存于一个叫做 SQLite 的数据库中。下面的所有浏览器将设置和历史记录数据保存到SQLite数据库。

我们可以通过编程的语言把这个数据文件读出来，并变为可以被 Elastic Stack 摄入的文件格式，从而把数据导入到 Elasticsearch 中，并使用 Kibana 对数据进行分析。

整个项目的源码在地址 https://github.com/liu-xiao-guo/elastic-stack-browser-history

准备工作

我们首先使用如下的命令把 github 上的代码下载下来：

git clone https://github.com/liu-xiao-guo/elastic-stack-browser-history

然后我们进入到该项目的根目录中：

$ pwd
/Users/liuxg/python/elastic-stack-browser-history
liuxg:elastic-stack-browser-history liuxg$ tree -L 2
.
├── LICENSE
├── README.md
├── docker-compose-ingest.yml
├── docker-compose.yml
├── elastic-stack
│   └── config
├── images
│   ├── BrowserHistory.png
│   ├── BrowserHistoryDashboard.png
│   ├── brave-logo.png
│   ├── chrome-logo.png
│   ├── edge-logo.png
│   ├── edge_logo.png
│   ├── firefox-logo.png
│   └── safari-logo.png
└── scripts
    ├── __pycache__
    ├── browser_history.py
    └── local.py

从上面我们可以看出来有一个叫做 scripts 的子目录，它里面含有一个叫做 browser_history.py 的 python 文件：

browser_history.py

import json
import os
import sqlite3
import time
from local import LOG_DIR
from pathlib import Path

# Update the list based on the Browsers you use
browsers = ['brave','chrome','firefox','safari','edge']

USER_PATH = str(Path.home())

def get_path(browser,browser_params):
    if browser == 'brave':
        BRAVE_PATH = "/Library/Application Support/BraveSoftware/Brave-Browser/Default/History"
        hist_path = USER_PATH + BRAVE_PATH
        hist_sql = "SELECT datetime(last_visit_time/1000000-11644473600,'unixepoch','localtime') AS visit_date, url, title AS url_title  FROM urls ORDER BY visit_date DESC"
        browser_params['browser_name'] = browser
        browser_params['hist_path'] = hist_path
        browser_params['hist_sql'] = hist_sql
        return browser_params
    elif browser == 'chrome':
        CHROME_PATH = "/Library/Application Support/Google/Chrome/Default/History"
        hist_path = USER_PATH + CHROME_PATH
        hist_sql = "SELECT datetime(last_visit_time/1000000-11644473600,'unixepoch','localtime') AS visit_date, url, title AS url_title  FROM urls ORDER BY visit_date DESC"
        browser_params['browser_name'] = browser
        browser_params['hist_path'] = hist_path
        browser_params['hist_sql'] = hist_sql
        return browser_params
    elif browser == 'edge':
        EDGE_PATH = "/Library/Application Support/Microsoft Edge/Default/History"
        hist_path = USER_PATH + EDGE_PATH
        hist_sql = "SELECT datetime(last_visit_time/1000000-11644473600,'unixepoch','localtime') AS visit_date, url, title AS url_title  FROM urls ORDER BY visit_date DESC"
        browser_params['browser_name'] = browser
        browser_params['hist_path'] = hist_path
        browser_params['hist_sql'] = hist_sql
        return browser_params
    elif browser == 'firefox':
        FIREFOX_PATH = "/Library/Application Support/Firefox/Profiles/qs6kpgry.default-release/places.sqlite"
        hist_path = USER_PATH + FIREFOX_PATH
        hist_sql = "SELECT datetime(moz_historyvisits.visit_date/1000000,'unixepoch','localtime') AS visit_date, moz_places.url AS url, moz_places.title AS url_title FROM moz_places, moz_historyvisits WHERE moz_places.id = moz_historyvisits.place_id ORDER BY visit_date DESC"
        browser_params['browser_name'] = browser
        browser_params['hist_path'] = hist_path
        browser_params['hist_sql'] = hist_sql
        return browser_params
    elif browser == 'safari':
        SAFARI_PATH = "/Library/Safari/History.db"
        hist_path = USER_PATH + SAFARI_PATH
        hist_sql = "SELECT datetime(visit_time + 978307200, 'unixepoch', 'localtime') AS visit_date, url, title AS url_title FROM history_visits INNER JOIN history_items ON history_items.id = history_visits.history_item ORDER BY visit_date DESC"
        browser_params['browser_name'] = browser
        browser_params['hist_path'] = hist_path
        browser_params['hist_sql'] = hist_sql
        return browser_params

def dict_factory(cursor, row):
    d = {}
    for idx, col in enumerate(cursor.description):
        d[col[0]] = row[idx]
    return d

def get_browser_hist(browser_params,timestr):
    bn = browser_params['browser_name']
    # connect to the SQlite databases
    print("browser: " + bn)
    print("hist_path: " + browser_params['hist_path'])

    try:
        connection = sqlite3.connect(browser_params['hist_path'])
    except:
        print("Connection to SQLite: " + bn + " failed!")
        print("It may not be installed or not closed")
        return

    connection.row_factory = dict_factory
    cursor = connection.cursor()
    try:
        cursor.execute(browser_params['hist_sql'])
    except:
        browser_open = ("\t" + bn + "!! " +"is open. Please close your browser and retry.")
        print(browser_open.upper())

    tables = cursor.fetchall()
    results = len(tables)
    print("{}: Results {}".format(bn, results))
    print()

    if results >0:
        dict_bn = {"browser":bn}
        jsonFile = open(LOG_DIR + "/"+ bn + "-" + timestr + ".json","w")

        for v in tables:
            v.update(dict_bn)
            jsonFile.write(json.dumps(v) + '\n')


def main():
    timestr = time.strftime("%Y%m%d-%H%M%S")
    for browser in browsers:
        print("Starting {}".format(browser))
        browser_params = {}
        path = get_path(browser,browser_params)
        if path:
            get_browser_hist(browser_params,timestr)
main()

上面的历史数据路径是在我的 MacOS 电脑上的。你需要根据自己的实际使用电脑的操作系统来进行修改这些路径。在我使用 terminal 进行导入数据时，我发现 terminal 的权限不够，我需要做如下的配置才可以：

我们可以进入到 scripts 的目录中，打入如下的命令：

$ python3 browser_history.py

在我的电脑上显示：

$ python3 browser_history.py 
Starting brave
browser: brave
hist_path: /Users/liuxg/Library/Application Support/BraveSoftware/Brave-Browser/Default/History
Connection to SQLite: brave failed!
It may not be installed or not closed
Starting chrome
browser: chrome
hist_path: /Users/liuxg/Library/Application Support/Google/Chrome/Default/History
chrome: Results 28647

Starting firefox
browser: firefox
hist_path: /Users/liuxg/Library/Application Support/Firefox/Profiles/qs6kpgry.default-release/places.sqlite
firefox: Results 9

Starting safari
browser: safari
hist_path: /Users/liuxg/Library/Safari/History.db
safari: Results 325

Starting edge
browser: edge
hist_path: /Users/liuxg/Library/Application Support/Microsoft Edge/Default/History
Connection to SQLite: edge failed!
It may not be installed or not closed

上面显示我有三个浏览器：chrome， safari 及 firefox。针对这几个浏览器，通过 python 的脚本把 SQLite 中的数据导入到项目根目录下 data\logs 目录下的 .json 文件：

$ pwd
/Users/liuxg/python/elastic-stack-browser-history
liuxg:elastic-stack-browser-history liuxg$ ls 
LICENSE                   docker-compose-ingest.yml images
README.md                 docker-compose.yml        scripts
data                      elastic-stack
liuxg:elastic-stack-browser-history liuxg$ ls data/logs
chrome-20200819-160808.json  safari-20200819-160808.json
firefox-20200819-160808.json

如上图所示，我们可以看到有三个生产的 json 文件生成，分别对应于我电脑上的三个浏览器。在这三个文件中，它们分别含有各个浏览器所对应的访问的历史数据：

{"visit_date": "2020-08-19 16:04:37", "url": "https://github.com/liu-xiao-guo/elastic-stack-browser-history", "url_title": "liu-xiao-guo/elastic-stack-browser-history: Import your browser history into Elastic Stack", "browser": "chrome"}
{"visit_date": "2020-08-19 16:04:36", "url": "https://github.com/liu-xiao-guo/elastic-stack-browser-history/tree/main/scripts", "url_title": "elastic-stack-browser-history/scripts at main \u00b7 liu-xiao-guo/elastic-stack-browser-history", "browser": "chrome"}
{"visit_date": "2020-08-19 16:03:59", "url": "https://github.com/liu-xiao-guo/elastic-stack-browser-history/blob/main/scripts/browser_history.py", "url_title": "elastic-stack-browser-history/browser_history.py at main \u00b7 liu-xiao-guo/elastic-stack-browser-history", "browser": "chrome"}
{"visit_date": "2020-08-19 16:03:46", "url": "https://github.com/?q=brow", "url_title": "GitHub", "browser": "chrome"}

它们的数据如上面所示。每天记录如下：

{
  "visit_date": "2020-08-19 16:04:37",
  "url": "https://github.com/liu-xiao-guo/elastic-stack-browser-history",
  "url_title": "liu-xiao-guo/elastic-stack-browser-history: Import your browser history into Elastic Stack",
  "browser": "chrome"
}

整个上面的数据显然不是很结构化的数据，我们需要使用 Logstash 或其它的方法来对这个结构的数据来进行结构化，比如我们分析每个记录的 domain 名称等等。

启动 Elastic Stack

在今天的练习中，我们将使用 docker 来安装 Elastic Stack:

Elasticsearch
Kibana
Logstash

我们可以通过 docker-compose.yml 文件来启动这三个 docker。在项目的根目录中，我们会发现一个叫做 docker-compose-ingest.yml 的文件：

docker-compose-ingest.yml

version: '2'

services:

  #Elasticsearch container
  elasticsearch:
    image: docker.elastic.co/elasticsearch/elasticsearch:${ELASTIC_VERSION}
    environment:
      # - cluster.name=docker-pocket
      - bootstrap.memory_lock=true
      - "ES_JAVA_OPTS=-Xms512m -Xmx512m"
      - "discovery.type=single-node"
    ulimits:
      memlock:
        soft: -1
        hard: -1
    mem_limit: 1g
    volumes:
      - esdata1:/usr/share/elasticsearch/data
    ports:
      - 9200:9200
    networks:
      - esnet

  #Logstash container
  logstash:
    image: docker.elastic.co/logstash/logstash:${ELASTIC_VERSION}
    volumes:
      - ./elastic-stack/config/logstash/logstash.yml:/usr/share/logstash/config/logstash.yml
      - ./elastic-stack/config/logstash/pipeline:/usr/share/logstash/pipeline
      - ./data/logs:/usr/share/data
    ports:
      - 5000:5000
      - 9600:9600
    environment:
      LS_JAVA_OPTS: "-Xmx256m -Xms256m"
    networks:
      - esnet

  #Kibana container      
  kibana:
    image: docker.elastic.co/kibana/kibana:${ELASTIC_VERSION}
    ports:
      - 5601:5601      
    networks:
      - esnet

volumes:
  esdata1:
    driver: local

networks:
  esnet:

上面的文件非常简单。我们可以看到一个被定义的变量 ELASTIC_VERSION。这个变量被定义于 .env 文件中：

ELASTIC_VERSION=7.8.0

也就是说，我们将使用 7.8.0 版本来进行安装。

由于我们要使用 Logstash 来对我们的数据进行处理，并导入到 Elasticsearch 中，如上图所示，它的配置文件在位置：

./elastic-stack/config/logstash/pipeline

定义：

logstash.conf

# Logstash Input Plugin
# File: https://www.elastic.co/guide/en/logstash/current/plugins-inputs-file.html
# JSON Codec: https://www.elastic.co/guide/en/logstash/current/plugins-codecs-json.html

input {
  file {
    path => [ "/usr/share/data/*.json"]
    # sincedb_path => "/usr/share/data/sincedb"
    start_position => "beginning"
    codec => "json"
  }
}

# Logstash Filter Plugins
# Grok: https://www.elastic.co/guide/en/logstash/current/plugins-filters-grok.html
# Date: https://www.elastic.co/guide/en/logstash/current/plugins-filters-date.html
# Mutate: https://www.elastic.co/guide/en/logstash/current/plugins-filters-mutate.html
# Urldecode: https://www.elastic.co/guide/en/logstash/current/plugins-filters-urldecode.html

filter { 

  date {
    match => ["visit_date","yyyy-MM-dd HH:mm:ss"]
    timezone =>"America/Los_Angeles"
    target => ["@timestamp"]
    locale => "en"
  }

  if [url] {
    grok {
      break_on_match => "false"
      match => { "[url]" => "%{URIPROTO:url_proto}://%{URIHOST:domain}%{URIPATH:url_path}%{URIPARAM:url_params}?" }
      keep_empty_captures => "false"      
    }

    if "." not in [domain] {

      if ":" in [domain] {

        mutate {
          split => ["domain",":"]
            add_field => ["site_domain", "%{[domain][0]}" ]  
        }

        mutate {
            replace => {
              "domain" => "%{[domain][0]}" 
            }  
        }        

      }
      else {
        mutate {
          copy => ["domain","site_domain"]
        }
      }
    }

    else {
      mutate {
        copy => {"domain" => "domain_copy"}
      }

      mutate {
        split => ["domain_copy","."]
          add_field => ["sub_domain", "%{[domain_copy][0]}" ]  
          add_field => ["site_domain", "%{[domain_copy][-2]}.%{[domain_copy][-1]}" ]  
      }

      mutate {  
          # Join together whats left as the class name.
          remove_field  => ["domain_copy"]
      }
    }

    urldecode { 
      field => "url_path" 
    }
  }
}


# Logstash Output Plugins 
# Elasticsearch: https://www.elastic.co/guide/en/logstash/current/plugins-outputs-elasticsearch.html
# StdOut: https://www.elastic.co/guide/en/logstash/current/plugins-outputs-stdout.html

output {
  elasticsearch {
    hosts    => [ 'elasticsearch:9200' ]
    manage_template => "false"
    index => "logstash-browser"
  }
  stdout { }
}

经过 Logstash 的处理，它会把之前的 json 文件中每一个文档都进行提取，结构化，并导入到 Elasticsearch 中。从上面我们可以看到被导入的索引的名字叫做 logstash-browser。

我们通过如下的方式来进行启动 Elastic Stack。在项目的根目录中：

docker-compose -f docker-compose-ingest.yml up

这样我们就启动了 Elastic Stack。如果你还没有下载过 7.8.0 的镜像的话，你需要耐心等待下载所有需要的镜像。等安装完后，Elasticsearch, Kibana 及 Logtash 将会被自动启动：

如果一切正常的话，你可以在浏览器器中查看 Kibana：

Hooray ! 我们的 Elastic Stack 已经成功起来了。

分析历史数据

我们首先打开 Kibana，并查看被导入的索引：

GET logstash-browser/_count

上面显示已经被导入的文档数目。我们需要为这个索引建立 index pattern。在这里我就不累述了。在我之前的很多教程中已经讲过了。

我们可以打开 Discover 来分分析数据：

点击上面的 Add 按钮，添加 domain。我们也可以按照同样的方法来添加 url：

上面的 url 是不可以被点击的。我们可以按照如下的步骤，把 url 这个字段的格式进行改变：

选择 url 并保存。我们再次回到之前的 Discover 界面：

这次，我们可以看到在 url 这里显示的是可以被点击的链接了。

我们可以在 Discover 中进行我们想要的搜索。

可视化

我们可以运用 Kibana 所提供的可视化工具对我们的数据进行可视化分析。

上面显示我使用的 browser 的情况。我主要是使用 chrome browser:

我最常用的几个 domains。

我最常常访问的几个网站。

在项目中，有一个如下的文件：

$ pwd
/Users/liuxg/python/elastic-stack-browser-history
liuxg:elastic-stack-browser-history liuxg$ ls elastic-stack/config/kibana/BrowserHistory-Kibana.ndjson 
elastic-stack/config/kibana/BrowserHistory-Kibana.ndjson

这个文件是已经被制作好的一个 dashboard 的文件。我们可以在 Kibana 中直接进行导入：

选择我们项目里的 BrowserHistory-Kibana.ndjson 文件，并选择 import：

我们看到如上的图。我们进入到 dashboard:

我们将看到所有的访问的统计情况。

ElasticSearch Java查询实现详解当牛作馬 ElasticSearch使用 elasticsearch java jenkins
文章目录前言一、环境准备二.连接到ElasticSearch三.实现各种查询1匹配查询（MatchQuery）2术语查询（TermQuery）3范围查询（RangeQuery）4复合查询（BoolQuery）5.术语聚合（TermsAggregation）5.平均值聚合（AvgAggregation）6.最大值聚合（MaxAggregation）与最小值聚合（MinAggregation）7.日期
sc命令在windows上将elasticsearch和kibana自动作为服务开机启动 windowselastic
sc是Windows自带的命令行工具，用于管理服务。1.创建服务：打开命令提示符，运行以下命令：sccreateElasticsearchbinPath="D:\elasticsearch\bin\elasticsearch.bat"start=auto2.启动服务：创建后，启动服务：scstartElasticsearch亲测可用
Elasticsearch 介绍：分布式搜索与分析引擎吱屋猪_ elasticsearch
在如今大数据时代，企业和开发者面临着前所未有的数据量和实时性要求。为了能够高效地处理、存储和查询这些数据，Elasticsearch作为一种强大的分布式搜索引擎，已经成为了很多组织和开发者的首选解决方案。1.什么是Elasticsearch？Elasticsearch是一个开源的、基于ApacheLucene构建的全文搜索引擎。它提供了高效的搜索功能，并且非常适合处理大量数据，尤其是在需要快速搜索
《Linux运维总结：基于银河麒麟V10+ARM64架构部署多机elasticsearch7.17.21分布式集群+单机kibana7.17.21二进制版ssl集群》东城绝神《Linux运维实战总结》运维 linux elasticsearch ssl
总结：整理不易，如果对你有帮助，可否点赞关注一下？更多详细内容请参考：Linux运维实战总结一、背景elasticsearch是一个分布式、实时、高性能的搜索和分析引擎，它广泛应用于企业级搜索、日志分析、实时数据处理等领域。随着elasticsearch的广泛应用，安全性变得越来越重要。这里将从安全策略和访问控制两方面来部署elasticsearch集群安全策略涉及到数据安全、访问安全和操作安全等
Rocky Linux安装部署Elasticsearch（ELK日志服务器）_rockylinux elk 2401_83739411 程序员服务器 linux elasticsearch
一、Elasticsearch的简介Elasticsearch是一个强大的开源搜索和分析引擎，可用于实时处理和查询大量数据。它具有高性能、可扩展性和分布式特性，支持全文搜索、聚合分析、地理空间搜索等功能，是构建实时应用和大规模数据分析平台的首选工具。二、RockyLinux系统安装链接：VMwareWorkstation下载安装（含秘钥）链接：VMwareWorkstation创建虚拟机链接：Ro
Spring Boot 整合 Elasticsearch 实践：从入门到上手遇见伯灵说 mysql Spring elasticsearch jenkins springboot
引言Elasticsearch是一个开源的分布式搜索引擎，广泛用于日志分析、搜索引擎、数据分析等场景。本文将带你通过一步步的教程，在SpringBoot项目中整合Elasticsearch，轻松实现数据存储与查询。1.创建SpringBoot项目首先，你需要创建一个SpringBoot项目。如果你还没有创建，可以使用SpringInitializr快速生成一个项目。在生成项目时，确保选择了以下依赖
CentOS下安装ElasticSearch（日志分析）墨痕诉清风安全建设 elasticsearch 大数据日志分析
准备目录搞一个自己喜欢的目录mkdir/usr/local/app切换到该目录cd/usr/local/app下载wgethttps://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.9.2-linux-x86_64.tar.gz选择其他版本点击进入官网
docker 安装elasticsearch kibana，设置密码 biguojun docker elasticsearch kibana
安装elasticsearchdockerpulldocker.elastic.co/elasticsearch/elasticsearch:7.17.28dockerrun-d--namedocker-es-e"ES_JAVA_OPTS=-Xms512m-Xmx512m"-e"discovery.type=single-node"-vD:\docker\es\data:/usr/share/el
ElasticSearch-7.17.10集群升级至ElasticSearch-7.17.24 程序终结者 elasticsearch elasticsearch 大数据
文章目录集群概览主机名系统版本es01CentOS_7.6-aaarch64ElasticSearch-7.17.10es02CentOS_7.6-aaarch64ElasticSearch-7.17.10es03CentOS_7.6-aaarch64ElasticSearch-7.17.10需求1.将三台ES节点从ElasticSearch-7.17.10升级至ElasticSearch-7.1
ES中_cat/nodes返回结果参数的解释以及性能调优指南 Elastic开源社区 elasticsearch 运维调优 ES 全文检索 ES角色
文章目录1、Elasticsearch`_cat/nodes?v`字段详解2、常用字段说明3、`node.role`字段详解4、示例输出5、其他可选参数6、总结1、Elasticsearch_cat/nodes?v字段详解在Elasticsearch中，_cat/nodesAPI用于查看集群中所有节点的信息。通过添加?v参数，可以返回带有表头的详细输出，便于理解每个字段的含义。以下是_cat/no
ES 中时间日期类型 “yyyy-MM-dd HH:mm:ss” 的完全避坑指南 Elastic开源社区 elasticsearch es 分布式数据库
文章目录1、ES中的日期类型有何不同2、案例2.1案例介绍2.2原理揭秘3、路为何这么不平4、又一个坑5、总结6、ES的时间类型为什么这么难用，有没有什么办法可以解决？7、更优的生产解决方案1、ES中的日期类型有何不同时间和日期类型是我们作为开发每天都会遇到的一种常见数据类型。和Java中有所不同，Elasticsearch在索引创建之前并不是必须要创建索引的mapping。关系型数据库的思维就是
Search after解决ES深度分页问题 Elastic开源社区 elasticsearch 大数据 search after 深度分页 ES
文章目录1、search_after的作用和意义2、search_after的工作原理3、search_after的使用方法4、注意事项5、与传统分页的对比6、总结search_after是Elasticsearch中用于实现深度分页的一种机制。相比于传统的from和size分页方式，search_after更适合处理大数据集的分页查询，因为它避免了深度分页带来的性能问题。1、search_aft
[利用RAG和Elasticsearch打造智能检索系统：详解实现过程] afTFODguAKBF elasticsearch jenkins 大数据 python
引言在信息爆炸的时代，如何高效地从海量数据中提取有用信息成为了一个重要课题。通过结合RAG（Retrieval-AugmentedGeneration）和Elasticsearch，一种强大的信息检索和生成系统可以被实现。本文将详细介绍如何利用RAG和Elasticsearch打造一个智能检索系统。主要内容1.环境设置首先，我们需要设置必要的环境变量来访问Elasticsearch实例和OpenA
Elasticsearch：为推理端点配置分块设置 Elastic 中国社区官方博客 Elasticsearch AI Elastic elasticsearch 大数据搜索引擎人工智能全文检索数据库 ai
推理端点对一次可处理的文本量有限，具体取决于模型的输入容量。分块（Chunking）是指将输入文本拆分成符合这些限制的小块的过程，在将文档摄取到semantic_text字段时会进行分块。分块不仅有助于保持输入文本在可处理范围内，还能使内容更加易读。相比返回一整篇长文档，在搜索结果中提供最相关的文本片段更有价值。每个分块都会包含文本片段以及从中生成的对应嵌入。默认情况下，文档会被拆分为句子（sen
MySQL 与 Elasticsearch 联合查询墨瑾轩一起学学数据库【一】mysql elasticsearch adb
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣嘿，小伙伴们！今天我们要来聊聊MySQL与Elasticsearch如何携手合作，共同完成高效的联合查询和数据检索任务。MySQL是一款非常流行的数据库管理系统，而Elasticsearch则是一款基于Lucene的搜索引擎，擅长全文搜索和实时数据分析。两者结
Spring boot with ELK(Elasticsearch + Logstash + Kibana) netkiller-BG7NYT 多维度架构 spring boot elk elasticsearch
SpringbootwithELK(Elasticsearch+Logstash+Kibana)节选自《NetkillerSpringCloud手札》将Springboot日志写入ELK有多种实现方式，这里仅提供三种方案：Springboot->logback->Tcp/IP->logstash->elasticsearch这种方式实现非常方便不需要而外包或者软件Springboot->logba
Java面试系列-ElasticSearch面试题20道，文档，索引，搜索，聚合，分词器，集群管理，索引模版，数据备份和恢复，安全机制，集群扩展，实时搜索，索引生命周期，节点发现，批量操作，基本架构图苑 java 面试 elasticsearch
文章目录1.Elasticsearch的基本架构是什么？2.Elasticsearch中的Shard和Replica是如何工作的？3.Elasticsearch中的文档是如何存储的？4.Elasticsearch中的索引是如何创建的？5.Elasticsearch中的搜索是如何工作的？6.Elasticsearch中的聚合是如何工作的？7.Elasticsearch中的分词器是如何工作的？8.El
Spark任务读取hive表数据导入es 小小小小小小小小小小码农 hive elasticsearch spark java
使用elasticsearch-hadoop将hive表数据导入es，超级简单1.引入pomorg.elasticsearchelasticsearch-hadoop9.0.0-SNAPSHOT2.创建sparkconf//spark参数设置SparkConfsparkConf=newSparkConf();//要写入的索引sparkConf.set("es.resource","");//es集
windows安装es怎么在后台运行_Windows-ElasticSearch安装和启动 weixin_39531037
步骤二：安装ES服务Window版的ElasticSearch的安装很简单，类似Window版的Tomcat，解压开即安装完毕，解压后的ElasticSearch的目录结构如下：修改elasticsearch配置文件，config/elasticsearch.yml文件，增加文件内容如下：http.cors.enabled:truehttp.cors.allow-origin:"*"添加配置是为了
ES的预置分词器阿湯哥 elasticsearch 服务器 linux
Elasticsearch（简称ES）提供了多种预置的分词器（Analyzer），用于对文本进行分词处理。分词器通常由字符过滤器（CharacterFilters）、分词器（Tokenizer）和词元过滤器（TokenFilters）组成。以下是一些常用的预置分词器及其示例：1.StandardAnalyzer（标准分词器）默认分词器，适用于大多数语言。处理步骤：使用标准分词器（StandardT
AWS DevOps 面试问题及答案 m0_65697474 1024程序员节
常规AWSDevOps问题什么是DevOps？DevOps是一套集成软件开发(Dev)和IT运营(Ops)的实践，旨在缩短开发生命周期并根据业务目标频繁提供功能、修复和更新。使用AWS进行DevOps有哪些好处？AWS提供弹性计算云(EC2)、弹性容器服务(ECS)和ElasticBeanstalk等灵活服务，可帮助自动化和扩展开发和部署管道。功能包括可扩展性、自动化、CI/CD、基础设施即代码(
探索未来架构：基于AWS的响应式微服务框架柏赢安Simona
探索未来架构：基于AWS的响应式微服务框架reactive-refarch-cloudformationReactiveMicroservicesArchitectureswithAmazonECS,AWSLambda,AmazonKinesisStreams,AmazonElastiCache,andAmazonDynamoDB项目地址:https://gitcode.com/gh_mirror
elasticsearch 备份恢复步骤 qq_35640866 elasticsearch chrome 大数据
1、查看仓库，GET_snapshot返回，仓库名是aliyun_auto_snapshot{"aliyun_auto_snapshot":{"type":"oss","settings":{"compress":"true","base_path":"fb632b-1241148226163200/xxx","endpoint":"http://oss-cn-shenzhen-internal.
elasticsearch 横向扩展-添加节点 yp2800 elasticsearch elasticsearch
ELKELK运维都会接触到，是一个分布式日志收集平台。logstash收集数据写到elasticsearch里，kibana从elasticsearch里读取数据。数据在elasticsearch里可以被检索，各种查询api,数据聚合等，功能很强大，不多说。environments目前现状：os:centos6.6elasticsearch:2.4cpu:8mem:48disk:8Tindex:4
Elasticstack-日志分析平台尼古拉斯-邓 linux kafka centos
#ElasticStack-日志分析平台##1.Filebeat```shellvim/etc/hostsip1dijiaip2meimeiip3biaobei```###Filebeat安装```shellcurl-L-Ohttps://artifacts.elastic.co/downloads/beats/filebeat/filebeat-7.13.2-linux-x86_64.tar.g
使用Spring Boot和Elastic Stack构建实时日志分析系统微赚淘客系统开发者@聚娃科技 spring boot jenkins 后端
使用SpringBoot和ElasticStack构建实时日志分析系统大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！随着现代应用程序的复杂性增加，实时日志分析成为确保系统稳定性和性能的重要手段。本文将介绍如何利用SpringBoot和ElasticStack（Elasticsearch、Logstash、Kibana）构建一个高效的实时日志分析系统，实现日志的收集、
Elastic Stack 8.16.0 日志收集平台的搭建 JingAi_jia917 Elastisearch Logstash Filebeat Kibana Elastic stack ELK日志平台
简介1.1ELK介绍ELK是‌Elasticsearch‌、‌Logstash‌、‌Kibana‌三款开源工具的首字母缩写，构成了一套完整的日志管理解决方案，主要用于日志的采集、存储、分析与可视化‌。1）Logstash：数据管道工具，负责从多种来源（如文件、数据库、消息队列）采集日志，进行过滤、格式化后输出到目标（如Elasticsearch）‌；2）Elasticsearch：分布式实时搜索与
springboot2.2.x对接elasticsearch7.2.0，实现分页搜索情况下的高亮和摘要功能 lyc613 elasticsearch
springboot2.2.x对接elasticsearch7.2.0，实现分页搜索情况下的高亮和摘要功能相关依赖2.2.0.RELEASEorg.springframework.bootspring-boot-starter-data-elasticsearches配置spring:elasticsearch:rest:#es地址uris:http://192.168.125.12:9200功能
Java与Elasticsearch集成详解，以及使用指南 qzw1210 java elasticsearch jenkins
Java与Elasticsearch集成详解1.环境配置首先，你需要在Maven项目中添加ElasticsearchJava客户端依赖：co.elastic.clientselasticsearch-java8.10.0com.fasterxml.jackson.corejackson-databind2.15.2jakarta.jsonjakarta.json-api2.1.12.客户端初始化E
Elasticsearch大文件检索性能提升20倍实践（干货）_elasticsearch 查询优化 2401_84247505 2024年程序员学习 elasticsearch jenkins 大数据
3、问题排查与定位步骤1：限定返回记录条数。不提供直接访问末页的入口。baidu，360，搜狗等搜索引擎都不提供访问末页的请求方式。都是基于如下的请求方式：通过点击上一下、下一页逐页访问。这个从用户的角度也很好理解，搜索引擎返回的前面都是相关度最高的，也是用户最关心的信息。Elasticsearch的默认支持的数据条数是10000条，可以通过post请求修改。最终，本步骤将支持ES最大返回值100
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

Elastic：利用 Elastic Stack 来分析浏览器历史访问数据

准备工作

启动 Elastic Stack

分析历史数据

可视化

你可能感兴趣的:(Elastic,Kibana,Logstash)