山鸟与鱼！

ElasticSearch快速开始

全文检索

全文检索的原理

什么是倒排索引

ElasticSearch介绍

ElasticSearch应用场景

ElasticSearch下载安装（windows）

客户端Kibana安装

Elasticsearch安装分词插件

ElasticSearch快速开始

ElasticSearch索引操作

创建索引

查询索引

删除索引

设置Settings

设置文档映射Mapping

动态映射

静态映射

使用ReIndex重建索引

ElasticSearch文档操作

全文检索

全文检索是一种通过对文本内容进行全面索引和搜索的技术。它可以快速地在大量文本数据中查找包含特定关键词或短语的文档，并返回相关的搜索结果。全文检索广泛应用于各种信息管理系统和应用中，如搜索引擎、文档管理系统、电子邮件客户端、新闻聚合网站等。它可以帮助用户快速定位所需信息，提高检索效率和准确性。

查询：有明确的搜索条件边界。比如，年龄 15~25 岁，颜色 = 红色，价格 < 3000，这里的 15、25、红色、3000 都是条件边界。即有明确的范围界定。

检索：即全文检索，无搜索条件边界，召回结果取决于相关性，其相关性计算无明确边界性条件，如同义词、谐音、别名、错别字、混淆词、网络热梗等均可成为其相关性判断依据。

全文检索的原理

在全文检索中，首先需要对文本数据进行处理，包括分词、去除停用词等。然后，对处理后的文本数据建立索引，索引会记录每个单词在文档中的位置信息以及其他相关的元数据，如词频、权重等。这个过程通常使用倒排索引（inverted index）来实现，倒排索引将单词映射到包含该单词的文档列表中，以便快速定位相关文档。

当用户发起搜索请求时，搜索引擎会根据用户提供的关键词或短语，在建立好的索引中查找匹配的文档。搜索引擎会根据索引中的信息计算文档的相关性，并按照相关性排序返回搜索结果。用户可以通过不同的搜索策略和过滤条件来精确控制搜索结果的质量和范围。

什么是倒排索引

正排索引（Forward Index）和倒排索引（Inverted Index）是全文检索中常用的两种索引结构，它们在索引和搜索的过程中扮演不同的角色。

正排索引（正向索引）

正排索引是将文档按顺序排列并进行编号的索引结构。每个文档都包含了完整的文本内容，以及其他相关的属性或元数据，如标题、作者、发布日期等。在正排索引中，可以根据文档编号或其他属性快速定位和访问文档的内容。正排索引适合用于需要对文档进行整体检索和展示的场景，但对于包含大量文本内容的数据集来说，正排索引的存储和查询效率可能会受到限制。

在MySQL 中通过 ID 查找就是一种正排索引的应用。

倒排索引（反向索引）

倒排索引是根据单词或短语建立的索引结构。它将每个单词映射到包含该单词的文档列表中。倒排索引的建立过程是先对文档进行分词处理，然后记录每个单词在哪些文档中出现，以及出现的位置信息。通过倒排索引，可以根据关键词或短语快速找到包含这些词语的文档，并确定它们的相关性。倒排索引适用于在大规模文本数据中进行关键词搜索和相关性排序的场景，它能够快速定位文档，提高搜索效率。

我们在创建文章的时候，建立一个关键词与文章的对应关系表，就可以称之为倒排索引。如下图所示：

ElasticSearch介绍

ElasticSearch（简称ES）是一个开源的分布式搜索和数据分析引擎，是用Java开发并且是当前最流行的开源的企业级搜索引擎，能够达到近实时搜索，它专门设计用于处理大规模的文本数据和实现高性能的全文检索。

Elasticsearch 的特点和优势：

1. 分布式架构：Elasticsearch 是一个分布式系统，可以轻松地水平扩展，处理大规模的数据集和高并发的查询请求。

2. 全文检索功能：Elasticsearch 提供了强大的全文检索功能，包括分词、词项查询、模糊匹配、多字段搜索等，并支持丰富的查询语法和过滤器。

3. 多语言支持：Elasticsearch 支持多种语言的分词器和语言处理器，可以很好地处理不同语言的文本数据。

4. 高性能：Elasticsearch 使用倒排索引和缓存等技术，具有快速的搜索速度和高效的查询性能。

5. 实时性：Elasticsearch 支持实时索引和搜索，可以几乎实时地将文档添加到索引中，并立即可见。

6. 易用性：Elasticsearch 提供了简单易用的 RESTful API，方便进行索引管理、查询操作和数据分析。

ElasticSearch应用场景

只要用到搜索的场景，ES几乎都可以是最好的选择。国内现在有大量的公司都在使用 Elasticsearch，包括携程、滴滴、今日头条、饿了么、360安全、小米、vivo等诸多知名公司。除了搜索之外，结合Kibana、Logstash、Beats，Elastic Stack还被广泛运用在大数据近实时分析领域，包括日志分析、指标监控、信息安全等多个领域。

ElasticSearch下载安装（windows）

下载地址： https://www.elastic.co/cn/downloads/past-releases#elasticsearch

选择版本：7.17.3

ElasticSearch文件目录结构

设置ES_JAVA_HOME和ES_HOME的环境变量

启动ElasticSearch服务

进入bin目录，直接运行elasticsearch.bat

浏览器中访问：http://localhost:9200/

客户端Kibana安装

Kibana是一个开源分析和可视化平台，旨在与Elasticsearch协同工作。

下载并解压缩Kibana

下载地址：https://www.elastic.co/cn/downloads/past-releases#kibana

选择版本：7.17.3

修改Kibana.yml，路径config/kibana.yml

server.port: 5601   #指定Kibana服务器监听的端口号
server.host: "localhost"  #指定Kibana服务器绑定的主机地址
elasticsearch.hosts: ["http://localhost:9200"]  #指定Kibana连接到的Elasticsearch实例的访问地址
i18n.locale: "zh-CN"   #将 Kibana 的界面语言设置为简体中文

运行Kibana：直接执行kibana.bat

访问 http://127.0.0.1:5601/app/dev_tools#/console

cat API

cat API 是 Elasticsearch 提供的一个用于查看和显示集群信息的 RESTful API。它可以用于获取关于索引、节点、分片、健康状态等各种集群相关的信息。

/_cat/allocation         #查看单节点的shard分配整体情况
/_cat/shards          #查看各shard的详细情况
/_cat/shards/{index}     #查看指定分片的详细情况
/_cat/master          #查看master节点信息
/_cat/nodes           #查看所有节点信息
/_cat/indices         #查看集群中所有index的详细信息
/_cat/indices/{index}      #查看集群中指定index的详细信息
/_cat/segments        #查看各index的segment详细信息,包括segment名, 所属shard, 内存(磁盘)占用大小, 是否刷盘
/_cat/segments/{index}#查看指定index的segment详细信息
/_cat/count           #查看当前集群的doc数量
/_cat/count/{index}   #查看指定索引的doc数量
/_cat/recovery        #查看集群内每个shard的recovery过程.调整replica。
/_cat/recovery/{index}#查看指定索引shard的recovery过程
/_cat/health          #查看集群当前状态：红、黄、绿
/_cat/pending_tasks   #查看当前集群的pending task
/_cat/aliases         #查看集群中所有alias信息,路由配置等
/_cat/aliases/{alias} #查看指定索引的alias信息
/_cat/thread_pool     #查看集群各节点内部不同类型的threadpool的统计信息,
/_cat/plugins         #查看集群各个节点上的plugin信息
/_cat/fielddata       #查看当前集群各个节点的fielddata内存使用情况
/_cat/fielddata/{fields}     #查看指定field的内存使用情况,里面传field属性对应的值
/_cat/nodeattrs              #查看单节点的自定义属性
/_cat/repositories           #输出集群中注册快照存储库
/_cat/templates              #输出当前正在存在的模板信息

Elasticsearch安装分词插件

http://127.0.0.1:5601/app/dev_tools#/console在线安装analysis-icu分词插件

#查看已安装插件
bin/elasticsearch-plugin list
#安装插件
bin/elasticsearch-plugin install analysis-icu
#删除插件
bin/elasticsearch-plugin remove analysis-icu

注意：安装和删除完插件后，需要重启ES服务才能生效。

测试分词效果

# _analyzer API可以用来查看指定分词器的分词结果
POST _analyze
{
    "analyzer":"icu_analyzer",
    "text":"中华人民共和国"
}

#ES的默认分词设置是standard，会单字拆分
POST _analyze
{
    "analyzer":"standard",
    "text":"中华人民共和国"
}

#ik_smart:会做最粗粒度的拆
POST _analyze
{
    "analyzer": "ik_smart",
    "text": "中华人民共和国"
 }

#ik_max_word:会将文本做最细粒度的拆分
POST _analyze
{
    "analyzer":"ik_max_word",
    "text":"中华人民共和国"
}

ElasticSearch快速开始

节点：Node

一个节点就是一个Elasticsearch的实例，可以理解为一个 ES 的进程。

注意：一个节点 ≠ 一台服务器

角色：Roles

ES的角色分类：

1. 主节点（active master）：一般指活跃的主节点，一个集群中只能有一个，主要作用是对集群的管理。

2. 候选节点（master-eligible）：当主节点发生故障时，参与选举，也就是主节点的替代节点。

3. 数据节点（data node）：数据节点保存包含已编入索引的文档的分片。数据节点处理数据相关操作，如 CRUD、搜索和聚合。这些操作是 I/O 密集型、内存密集型和 CPU 密集型的。监控这些资源并在它们过载时添加更多数据节点非常重要。

4. 预处理节点（ingest node）：预处理节点有点类似于logstash的消息管道，所以也叫ingest pipeline，常用于一些数据写入之前的预处理操作。

注意：如果 node.roles 为缺省配置，那么当前节点具备所有角色。

索引：Index

在 ES 中，索引在不同的特定条件下可以表示三种不同的意思：

1. 表示源文件数据：当做数据的载体，即类比为数据表，通常称作 index。例如：通常说集群中有 product 索引，即表述当前 ES 的服务中存储了 product 这样一张“表”。

2. 表示索引文件：以加速查询检索为目的而设计和创建的数据文件，通常承载于某些特定的数据结构，如哈希、FST 等。例如：通常所说的正排索引和倒排索引（也叫正向索引和反向索引）。就是当前这个表述，索引文件和源数据是完全独立的，索引文件存在的目的仅仅是为了加快数据的检索，不会对源数据造成任何影响，

3. 表示创建数据的动作：通常说创建或添加一条数据，在 ES 的表述为索引一条数据或索引一条文档，或者 index 一个 doc 进去。此时索引一条文档的含义为向索引中添加数据。

索引的组成部分：

alias：索引别名

settings：索引设置，常见设置如分片和副本的数量等。

mapping：映射，定义了索引中包含哪些字段，以及字段的类型、长度、分词器等。

类型：Type（ES 7.x 之后版本已删除此概念）

ES 8.x不再支持在请求中指定类型。该include_type_name参数被删除。

文档：Document

文档是ES中的最小数据单元。它是一个具有结构化JSON格式的记录。文档可以被索引并进行搜索、更新和删除操作。

文档元数据，所有字段均以下划线开头，为系统字段，用于标注文档的相关信息：

_index：文档所属的索引名。

_type：文档所属的类型名。

_id：文档唯一id。

_source: 文档的原始Json数据。

_version: 文档的版本号，修改删除操作_version都会自增1。

_seq_no: 和_version一样，一旦数据发生更改，数据也一直是累计的。Shard级别严格递增，保证后写入的Doc的_seq_no大于先写入的Doc的_seq_no。

_primary_term: _primary_term主要是用来恢复数据时处理当多个文档的_seq_no一样时的冲突，避免Primary Shard上的写入被覆盖。每当Primary Shard发生重新分配时，比如重启，Primary选举等，_primary_term会递增1。

ElasticSearch索引操作

创建索引

格式: PUT /索引名称

索引命名规范：

1. 以小写英文字母命名索引

2. 不要使用驼峰命名法则

3. 如过出现多个单词的索引名称，以全小写 + 下划线分隔的方式：如test_index。

ES 索引创建成功之后，以下属性将不可修改：

1. 索引名称

2. 主分片数量

3. 字段类型

#创建索引
PUT /索引名

查询索引

格式: GET /索引名称

#查询索引
GET /test

#test是否存在
HEAD /test

删除索引

格式: DELETE /索引名称

DELETE /test

设置Settings

创建索引的时候指定 settings

创建索引时可以设置分片数和副本数。

#创建索引test，指定其主分片数量为 3，每个主分片的副本数量为 2
PUT /test
{
    "settings" : {
        "number_of_shards" : 3,
        "number_of_replicas" : 2
    }
}

创建索引时可以指定IK分词器作为默认分词器

PUT /test
{
    "settings" : {
        "index" : {
            "analysis.analyzer.default.type": "ik_max_word"
        }
    }
}

设置文档映射Mapping

ES中Mapping可以分为动态映射和静态映射。

查看完整的索引 mapping
GET //_mappings

查看索引中指定字段的 mapping
GET //_mappings/field/

mapping的使用禁忌:

ES 没有隐式类型转换

ES 不支持类型修改

生产环境尽可能的避免使用动态映射（dynamic mapping）

动态映射

在关系数据库中，需要事先创建数据库，然后在该数据库下创建数据表，并创建表字段、类型、长度、主键等，最后才能基于表插入数据。而Elasticsearch中不需要定义Mapping映射，在文档写入Elasticsearch时，会根据文档字段自动识别类型，这种机制称之为动态映射。

自动类型推断规则

#创建文档(ES根据数据类型, 会自动创建映射)
PUT /user/_doc/1
{
  "name":"zhagsan",
  "age":18,
  "address":"北京"
}

#获取文档映射
GET /user/_mapping

静态映射

在索引文档写入之前，人为创建索引并且指定索引中每个字段类型、分词器等参数。

PUT /user
{
  "settings": {
    "number_of_shards": "1",
    "number_of_replicas": "1"
  },
  "mappings": {
    "properties": {
      "name": {
        "type": "keyword"
      },
      "age" : {
          "type" : "long"
      },
      "address" : {
          "type" : "text"
      }
    }
  }
}

使用ReIndex重建索引

具体方法：

1）如果要推倒现有的映射,你得重新建立一个静态索引。

2）然后把之前索引里的数据导入到新的索引里。

3）删除原创建的索引。

4）为新索引起个别名,为原索引名。

通过这几个步骤可以实现了索引的平滑过渡,并且是零停机。

PUT /user2
{
  "mappings": {
    "properties": {
      "name": {
        "type": "text"
      },
      "address": {
        "type": "text",
        "analyzer": "ik_max_word"
      }
    }
  }
}
# 2. 把之前索引里的数据导入到新的索引里    
POST _reindex
{
"source": {
"index": "user"
},
"dest": {
"index": "user2"
}
}
# 3. 删除原创建的索引        
DELETE /user
# 4. 为新索引起个别名, 为原索引名
PUT /user2/_alias/user

GET /user

ElasticSearch文档操作

索引文档

格式: [PUT | POST] /索引名称/[_doc | _create ]/id

# 创建文档,指定id
# 如果id不存在，创建新的文档，否则先删除现有文档，再创建新的文档，版本会增加
PUT /user/_doc/1
{
"name": "张三",
"sex": 1,
"age": 25,
"address": "北京",
"remark": "java"
}    

#创建文档，ES生成id
POST /user/_doc
{
"name": "张三",
"sex": 1,
"age": 25,
"address": "北京",
"remark": "java"
}

注意:POST和PUT都能起到创建/更新的作用，PUT需要对一个具体的资源进行操作也就是要确定id才能进行更新/创建，而POST是可以针对整个资源集合进行操作的，如果不写id就由ES生成一个唯一id进行创建新文档，如果填了id那就针对这个id的文档进行创建/更新。

简单查询文档

根据id查询文档，格式: GET /索引名称/_doc/id

GET /user/_doc/1

条件查询 _search，格式： /索引名称/_doc/_search

GET /test/_doc/_search

修改文档

全量更新，整个json都会替换，格式: [PUT | POST] /索引名称/_doc/id，如果文档存在，现有文档会被删除，新的文档会被索引。

# 全量更新，替换整个json
PUT /user/_doc/1
{
"name": "张三",
"sex": 1,
"age": 25
}

#查询文档
GET /user/_doc/1

使用_update部分更新，格式: POST /索引名称/_update/id，update不会删除原来的文档，而是实现真正的数据更新。

# 部分更新：在原有文档上更新
# Update -文档必须已经存在，更新只会对相应字段做增量修改
POST /user/_update/1
{
  "doc": {
    "age": 28
  }
}

#查询文档
GET /user/_doc/1

使用 _update_by_query 更新文档

POST /test/_update_by_query
{
  "query": { 
    "match": {
      "_id": 1
    }
  },
  "script": {
    "source": "ctx._source.age = 30"
  }
}

并发场景下修改文档

_seq_no和_primary_term是对_version的优化，7.X版本的ES默认使用这种方式控制版本，所以当在高并发环境下使用乐观锁机制修改文档时，要带上当前文档的_seq_no和_primary_term进行更新：

POST /user/_doc/2?if_seq_no=21&if_primary_term=6
{
  "name": "李四xxx"
}

删除文档

格式: DELETE /索引名称/_doc/id

DELETE /test/_doc/1

批量写入

批量对文档进行写操作是通过_bulk的API来实现的

{"actionName":{"_index":"indexName", "_type":"typeName","_id":"id"}}
{"field1":"value1", "field2":"value2"}

actionName：表示操作类型，主要有create,index,delete和update

批量创建文档create

POST _bulk
{"create":{"_index":"article", "_type":"_doc", "_id":3}}
{"id":3,"title":"zhangsan","content":"666","tags":["java", "面向对象"]}
{"create":{"_index":"article", "_type":"_doc", "_id":4}}
{"id":4,"title":"lisi","content":"777","tags":["java", "面向对象"]}

如果原文档不存在，则是创建

如果原文档存在，则是替换(全量修改原文档)

批量删除delete

POST _bulk
{"delete":{"_index":"article", "_type":"_doc", "_id":3}}
{"delete":{"_index":"article", "_type":"_doc", "_id":4}}

批量修改update

POST _bulk
{"update":{"_index":"article", "_type":"_doc", "_id":3}}
{"doc":{"title":"888"}}
{"update":{"_index":"article", "_type":"_doc", "_id":4}}
{"doc":{"title":"999"}}

批量读取

es的批量查询可以使用mget和msearch两种。其中mget是需要我们知道它的id，可以指定不同的index，也可以指定返回值source。msearch可以通过字段查询来进行一个批量的查找。

_mget

#可以通过ID批量获取不同index和type的数据
GET _mget
{
"docs": [
{
"_index": "user",
"_id": 1
},
{
"_index": "test",
"_id": 4
}
]
}

#可以通过ID批量获取es_db的数据
GET /user/_mget
{
"docs": [
{
"_id": 1
},
{
"_id": 4
}
]
}
#简化后
GET /user/_mget 
{
 "ids":["1","2"]  
 }

_msearch

在_msearch中，请求格式和bulk类似。查询一条数据需要两个对象，第一个设置index和type，第二个设置查询语句。查询语句和search相同。如果只是查询一个index，我们可以在url中带上index，这样，如果查该index可以直接用空对象表示。

GET /test/_msearch
{}
{"query" : {"match_all" : {}}, "from" : 0, "size" : 2}
{"index" : "user"}
{"query" : {"match_all" : {}}}

你可能感兴趣的:(分布式中间件,elasticsearch,大数据,搜索引擎,全文检索,后端)

利用长尾关键词优化SEO策略提升网站流量的实用建议老陈头聊SEO 其他
内容概要在当今数字营销的环境中，网站流量的获取是一项至关重要的任务。随着搜索引擎优化（SEO）技术的发展，长尾关键词逐渐被越来越多的网站管理员和内容创作者所重视。长尾关键词一般指的是那些较长且具体的搜索词组，虽然搜索量相对较少，但通常具有更高的转化率和更低的竞争度。因此，理解和利用长尾关键词，将为提升网站流量提供了有效手段。“要想在竞争激烈的网络环境中脱颖而出，主动挖掘和应用长尾关键词，将为您带来
阿里巴巴大数据系统体系架构大连赵哥大数据架构
数据应用层：这是最顶层，面向不同的用户群体提供服务，包括对内（公司内部使用）、对平台（平台用户）、对商家（商家使用）、对公众（普通消费者）。数据服务与基础工具层：这一层提供了一些基础服务和工具，例如：OneService：可能是一种服务或工具，用于统一数据服务。TDDL+MySQL：TDDL是淘宝分布式数据层的缩写，与MySQL结合使用，提供数据库服务。HBase：一个分布式列存储系统，适合于存储
新站如何快速获得搜索引擎收录？百度网站快速收录搜索引擎
本文来自：百万收录网原文链接：https://www.baiwanshoulu.com/8.html新站想要快速获得搜索引擎收录，需要采取一系列有针对性的策略。以下是一些具体的建议：一、网站内容优化高质量原创内容：确保网站内容原创、独特且有价值，满足搜索引擎和用户的需求。定期更新内容，保持网站的活跃度和吸引力。关键词布局：在标题、正文、图片alt标签等位置合理分布关键词，提高网页的相关性。避免关键
微信小程序上传图片使用compressImage压缩前端搬砖达人微信小程序小程序
在上传图片时，如果太大体积得图片，往往会上传很慢，而且还加大服务器的压力，所以在性能考虑方面来说，可以处理上传图片时先压缩再传给后端目前原生小程序开发有两种方式进行压缩（原生方法，不排除有第三方接入，但是我目前没找到第三方插件，有找到的大佬们分享一下）这篇先写官方api压缩compressImage压缩这个是官方api压缩方法，但是偶现兼容问题，仅对jpg图片有效1、选择图片使用wx.choose
ImportError: DLL load failed while importing _rust: 找不到指定的程序的解决方案爱编程的喵喵 Python基础课程 python ImportError DLL load failed _rust 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:DLLloa
Node多终端前后端同时执行锐视创想前端 node nodejs
当前项目为node-vue-ele-app(服务端）└client（前端客户端）安装concurrentlynpmiconcurrently进入Client文件夹，编辑package.json"scripts":{"serve":"vue-cli-serviceserve","build":"vue-cli-servicebuild","start":"npmrunserve"}
Haproxy入门学习二 DawnEillen 学习运维
一、Haproxy的算法1.haproxy通过固定参数balance指明对后端服务器的调度算法，其中balance参数可以配置在listen或backend选项中2.haproxy的调度算法分为静态和动态调度算法，其中有些算法可以根据参数在静态和动态算法中相互转换3.静态算法：按照事先定义好的规则轮询公平调度不关心后端服务器的当前负载、连接数和响应速度等并且不可以实时修改权重，只能靠重启hapro
python 分布式集群_Python搭建Spark分布式集群环境小国阁下 python 分布式集群
前言ApacheSpark是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark最大的特点就是快，可比HadoopMapReduce的处理速度快100倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群，而是使用三台电脑来搭建一个小型分布式集群环境安装。本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群，同样适用于搭建Spark1.6.2
【yolo目标检测】交通标志检测鱼弦【HOT】技术热谈 YOLO 目标检测人工智能
鱼弦：CSDN内容合伙人、CSDN新星导师、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）YOLO（YouOnlyLookOnce）是一种流行的实时目标检测算法，可用于交通标志检测。以下是关于YOLO目标检测的原理详细解释、使用场景解释以及相关文献材料的链接：原理详细解释：YOLO目标检测
微信小程序实战十五：Https服务搭建及Nginx配置博主逸尘微信小程序微信小程序 Https Nginx
文章目录1.最终效果预览2.后端jar包部署及启动3.前端管理系统部署4.Nginx的配置5.https证书申请6.小程序后台中配置子域名这篇文章重点介绍下微信小程序正式版上线前https服务的搭建及配置过程，之前整个流程都操作过，时隔一年再次从零开始操作有些地方的印象已经模糊了，好记性不如烂笔头，仅以此篇文章记录那些年所学的点点滴滴。1.最终效果预览在微信开发工具中去掉开发时的配置不校验合法域名
【硬刚大数据】2021年从零到大数据专家之Hbase八股文王知无(import_bigdata)
欢迎关注博客主页：https://blog.csdn.net/u013411339欢迎点赞、收藏、留言，欢迎留言交流！本文由【王知无】原创，首发于CSDN博客！本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)
史上最强！Spring Boot 3.3 高效批量插入万级数据的多种方案 m0_74825074 面试学习路线阿里巴巴 spring boot 后端 java
SpringBoot3.3多种方式实现高效批量插入万级数据，史上最强！在大数据处理场景下，如何高效地将大量数据插入数据库是一个重要课题。本文基于SpringBoot3.3及MyBatis-Plus，介绍几种高效的批量插入数据的方法，包括：使用JDBC批处理使用自定义SQL批处理单条插入（for循环）拼接SQL语句插入MyBatis-Plus的saveBatch方法循环插入+开启批处理模式每种方式都
多租户架构未提供足够的租户安全培训和教育图幻未来网络安全
多租户架构下租户安全培训与教育的需求分析与解决方案引言随着云计算和大数据技术的飞速发展，多租户架构已成为企业数字化转型的重要基石。多租户架构允许一个应用程序实例为多个租户提供服务，从而降低了企业的运营成本。然而，这种架构也带来了一系列的安全挑战。为了解决这些问题，企业需要加强对租户的安全培训和教育，确保租户了解如何在使用多租户架构时保护自己的数据和应用程序。本文将探讨多租户架构下的租户安全培训和教
mayavi实例鄧寜 matlab python 开发语言
Mayavi是一个用于三维可视化的Python库。它可以用于绘制三维图形、曲面、等值线和点云数据。它使用VTK后端进行绘图，并提供了一个类似于MATLAB的界面，使用户能够轻松地创建复杂的三维图形。示例：frommayaviimportmlab#生成等值线数据x,y,z=mlab.test_plot3d()#使用mlab.contour3d绘制等值线mlab.contour3d(x,y,z)#显示
一文了解大数据概论程序员
一.大数据概论1.1大数据概念大数据（bigdata）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决，海量数据的存储和海量数据的分析计算问题。按顺序给出数据存储单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte=8bit
Vue2-集成路由Vue Router介绍与使用来一杯龙舌兰前端 #Vue2 vue.js 前端 javascript VueRouter 路由
文章目录路由（Vue2）1.SPA与前端路由2.vue-router基本使用创建路由组件声明路由链接和占位标签创建路由模块挂载路由模块3.vue-router进阶路由重定向嵌套路由动态路由编程式导航导航守卫本篇小结更多相关内容可查看路由（Vue2）1.SPA与前端路由路由是根据不同的url地址来显示不同的页面或内容的功能，这个概念很早是由后端提出的，既浏览器向不同的地址发送请求，后端返回相应的内容
demo之springboot-vue前后端分离session过期重新登录 djryygn6576 java javascript 后端 ViewUI
简单回顾cookie和sessioncookie和session都是回话管理的方式Cookiecookie是浏览器端存储信息的一种方式服务端可以通过响应浏览器set-cookie标头(header)，浏览器接收到这个标头信息后，将以文件形式将cookie信息保存在浏览器客户端的计算机上。之后的请求，浏览器将该域的cookie信息再一并发送给服务端cookie默认的存活期限关闭浏览器后失效，即浏览器
JAVA毕业设计高校学生智慧党建系统设计与开发计算机源码+lw文档+系统+调试部署+数据库瑞致网络 java 开发语言
JAVA毕业设计高校学生智慧党建系统设计与开发计算机源码+lw文档+系统+调试部署+数据库JAVA毕业设计高校学生智慧党建系统设计与开发计算机源码+lw文档+系统+调试部署+数据库本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：MySQ
JAVA儿童教育系统计算机毕业设计Mybatis+系统+数据库+调试部署七七科技数据库 java mybatis
JAVA儿童教育系统计算机毕业设计Mybatis+系统+数据库+调试部署JAVA儿童教育系统计算机毕业设计Mybatis+系统+数据库+调试部署本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：MySQL5.7/8.0源码地址：https
由于代码生成涉及到具体的实现细节和平台选择，我将为你提供几种不同编程语言的游戏商城代码框架或示例。请注意，这些示例将非常基础，并且不会包含完整的后端逻辑、数据库交互、用户界面等。 1. Python DoloresBerna 游戏数据库交互
由于代码生成涉及到具体的实现细节和平台选择，我将为你提供几种不同编程语言的游戏商城代码框架或示例。请注意，这些示例将非常基础，并且不会包含完整的后端逻辑、数据库交互、用户界面等。Python(Flask)Flask是一个用于构建Web应用的Python微框架。pythonfromflaskimportFlask,render_template,requestapp=Flask(name)假设的商品
创建一个完整的购物商城系统通常涉及前端和后端的开发，而且使用多种编程语言来实现整个系统可能会很复杂，因为通常我们会选择一种或两种主要语言来构建整个应用。不过，我可以为你概述一下使用不同编程语言和技术栈 DoloresBerna 前端
后端Python(Django或Flask)chanpang888.comDjango示例（这里只给出模型和一个视图的框架）：pythonmodels.pyfromdjango.dbimportmodelsclassProduct(models.Model):name=models.CharField(max_length=100)price=models.DecimalField(max_dig
创建一个完整的购物商城代码涉及多个方面，包括前端、后端、数据库等，并且通常不会只用一种语言来完成。不过，我可以为你概述一个购物商城的基本架构，并给出不同部分可能使用的编程语言示例。 DoloresBerna 前端数据库架构
前端yangzhie289.comHTML/CSS/JavaScript:负责用户界面和用户体验。示例：使用HTML构建页面结构，CSS进行样式设计，JavaScript处理交互逻辑。html.........javascript//app.js//示例：使用FetchAPI从后端获取商品数据fetch('/api/products').then(response=>response.json()
全面信息收集指南：渗透测试中的关键步骤与技巧 Clockwiseee 信息收集安全 web安全渗透测试漏洞挖掘
文章目录一、什么是信息收集二、信息收集的分类1.服务器相关信息2.网站指纹识别3.Whois及目标背景信息4.子域名及关联资产5.GoogleHacking（搜索引擎利用）6.网站目录和敏感文件7.传输协议与漏洞利用8.第三方依赖与拓展信息三、信息收集的方式1.whois在线查询使用技巧2.在线网站备案查询3.收集子域名3.1网络空间绘测绘测的目的和意义3.2子域名爆破工具四、端口五、查找真实IP
【项目初始化】自定义异常处理阳光阿盖尔自定义异常项目初始化异常异常处理 Java
我们在项目初始化的工作之一就是要自定义异常处理，用来处理项目中出现的各种异常，如业务异常、系统异常等等。这些属于项目的通用基础代码，在任何后端中都可以复用。1.自定义错误码自定义错误码，对错误进行收敛，便于前端统一处理小技巧：自定义错误码时，建议和主流的错误码含义保持一致，如HTTP错误码错误码不要连续，预留一些间隔，便于后续扩展importlombok.Getter;@Getterpublice
中国BI步入增长大周期，腾讯云ChatBI加速AI+BI融合大数据在线 AI 云静思园人工智能腾讯云大数据 ChatBI AI+BI
过去十年，大数据技术的快速发展，让数据消费前进一大步，数据价值得到一定程度的挖掘与释放，真正开启了“用数”的大时代。但数据分析繁杂的技术栈、复杂的处理过程以及程式化的交互方式，让“数据消费”的门槛始终降不下来，一定程度制约着企业迈向“用好数”的新阶段。如今，随着大模型和生成式AI的迅猛发展，数据消费正迎来一场巨大变革。大模型与数据分析天然的融合属性，使得商业智能（以下简称：BI）迎来全面重塑，BI
Adobe软件隐藏功能大揭秘：5个冷门小技巧助你效率倍增 shelby_loo adobe
作为设计师和创意工作者，我们对Adobe系列软件的强大功能一定不陌生。但你是否知道，通过申请Edu教育邮箱，学生和教师可以免费或以极低的价格订阅这些软件，享受专业的创作体验呢？这不仅能让你远离破解软件带来的不稳定和安全隐患，还能让你合法地使用正版软件，充分发挥创意。如果你还没有Edu邮箱，也不用担心。网上有很多关于如何申请Edu邮箱的教程和经验分享。你可以通过搜索引擎查找相关信息，或者参考一些知识
乐学智伴：基于人工智能与大数据的学生个性化学习辅助平台 IT源码大师人工智能大数据学习
详细描述：1.引言：教育科技的时代背景在信息化和数字化的浪潮下，教育领域正经历着深刻的变革。传统的教学模式以教师为中心，难以满足学生个性化学习的需求。随着人工智能、大数据和云计算等技术的快速发展，教育科技（EdTech）为个性化学习提供了全新的解决方案。通过智能化工具和数据分析，学生可以根据自身的学习特点和进度，制定个性化的学习计划，从而提高学习效率和效果。“乐学智伴”是一款基于人工智能与大数据技
android前台服务 Android西红柿 Android基础 android
关于作者：CSDN内容合伙人、技术专家，从零开始做日活千万级APP。专注于分享各领域原创系列文章，擅长java后端、移动开发、商业变现、人工智能等，希望大家多多支持。未经允许不得转载目录一、导读二、使用2.1添加权限2.2新建一个服务2.3构建通知消息2.4启动与停止服务三、推荐阅读一、导读我们继续总结学习基础知识，温故知新。今天记录下android前台服务（ForegroundService），
NLTK命名实体识别（NER） Mr数据杨 Python 自然语言技术 NLTK 自然语言处理 1024程序员节
命名实体识别（NamedEntityRecognition,NER）是自然语言处理（NLP）中的一项核心技术，旨在从文本中识别出具有特定意义的实体，如人名、地名、组织名等。通过对文本的自动化处理，NER能够帮助计算机理解和组织大量的非结构化数据，为信息抽取、搜索引擎优化、数据分析等领域提供强有力的技术支持。NLTK（NaturalLanguageToolkit）是一个广泛使用的Python库，提供
Hive存储系统全面测试报告蚂蚁质量软件测试测试用例功能测试
引言在大数据时代，数据存储和处理技术的重要性日益凸显。ApacheHive作为一个基于Hadoop的数据仓库工具，因其能够提供类SQL查询功能（HiveQL）而广受欢迎。Hive的设计初衷是为了简化大数据集的查询和管理，它允许用户通过简单的SQL语句来操作存储在Hadoop分布式文件系统（HDFS）上的大规模数据集。然而，随着数据量的激增和业务需求的多样化，Hive存储系统的功能、性能和安全性面临
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa