橙子园

【ELK系列四】肝了两晚，你想要的elasticsearch内容放在这了

文章目录

- ES的核心概念及使用
- - 一、概述
  - 二、Elasticsearch核心概念
  - - 索引 index
    - 类型 type
    - 映射 mapping
    - 文档 document
    - 字段Field
    - 接近实时 NRT
    - 集群 cluster
    - 节点 node
    - 分片和复制 shards&replicas
  - 三、Elasticsearch操作
  - - 1、使用XPUT创建索引
    - 2、插入文档
    - 3、查询文档
    - 4、更新文档
    - 5、搜索文档
    - 6、删除文档
    - 7、删除索引
    - 8、条件查询
    - - 8.1 使用match_all做查询
      - 8.2 关键字段进行查询
      - 8.3 bool的复合查询
      - 8.4 term、terms匹配
      - 8.5 Range过滤
      - 8.6 exists和 missing过滤
      - 8.7 查询与过滤条件合并
  - 四、定义字段类型mappings
  - - 1、基本用法
    - 2、管理索引库分片数以及副本数settings
    - 3、分页解决方案
    - - 3.1 from和size浅分页
      - 3.2、scroll深分页
    - 4、ES的中文分词器IK

注意：文章比较长，你忍一下

ES的核心概念及使用

一、概述

Elasticsearch是面向文档(document oriented)的，可以存储整个对象或文档(document)、索引(index)每个文档的内容，可以快速搜索。Elasticsearch中，可以对文档（而非成行成列的数据）进行索引、搜索、排序、过滤。
Elasticsearch和传统关系型数据库类比如下：
Relational DB -> Databases -> Tables -> Rows -> Columns
Elasticsearch -> Indices -> Types -> Documents -> Fields

二、Elasticsearch核心概念

索引 index

一个索引就是很多文档的集合。比如说，你可以有客户数据的索引、产品目录的索引、订单数据的索引。一个索引由一个名字来标识（必须全部是小写字母的），当要对于这个索引中的文档进行查询、搜索、更新和删除的时候，都要使用到这个名字。一个集群中，可以定义任意多的索引。

类型 type

在一个索引中，你可以定义一种或多种类型。一个类型是你的索引的一个逻辑上的分类/分区。通常，会为具有一组共同字段的文档定义一个类型。比如说，我们假设你运营一个博客平台并且将你所有的数据存储到一个索引中。在这个索引中，可以为用户数据定义一个类型、为博客数据定义一个类型、评论数据定义一个类型等。

映射 mapping

mapping是处理数据的方式和规则方面做一些限制，如某个字段的数据类型、默认值、分析器、是否被索引等等，这些都是映射里面可以设置的，其它就是处理es里面数据的一些使用规则设置也叫做映射，按着最优规则处理数据对性能提高很大，因此才需要建立映射，并且需要思考如何建立映射才能对性能更好。

文档 document

一个文档是一个可被索引的基础信息单元。比如，你可以拥有某一个客户的文档，某一个产品的一个文档，当然，也可以拥有某个订单的一个文档。文档以JSON（Javascript Object Notation）格式来表示，而JSON是一个到处存在的互联网数据交互格式。
在一个index/type里面，你可以存储任意多的文档。注意，尽管一个文档，物理上存在于一个索引之中，文档必须被索引/赋予一个索引的type。

字段Field

相当于是数据表的字段，对文档数据根据不同属性进行的分类标识

接近实时 NRT

Elasticsearch是一个接近实时的搜索平台。这意味着，从索引一个文档直到这个文档能够被搜索到有一个轻微的延迟（通常是1秒以内）

集群 cluster

一个集群就是由一个或多个节点组织在一起，它们共同持有整个的数据，并一起提供索引和搜索功能。一个集群由一个唯一的名字标识，这个名字默认就是“elasticsearch”。这个名字是重要的，因为一个节点只能通过指定某个集群的名字，来加入这个集群

节点 node

一个节点是集群中的一个服务器，作为集群的一部分，它存储数据，参与集群的索引和搜索功能。一个节点也是由一个名字来标识的，名字会在启动的时候赋予节点。这个名字对于管理工作来说挺重要的，因为在这个管理过程中，你会去确定网络中的哪些服务器对应于Elasticsearch集群的哪些节点。
一个节点可以通过配置集群名称的方式来加入一个指定的集群。默认情况下，每个节点都会被安排加入到一个叫做elasticsearch的集群中，这意味着，如果你在你的网络中启动了若干个节点，并假定它们能够相互发现彼此，它们将会自动地形成并加入到一个叫做elasticsearch的集群中。
在一个集群里，只要你想，可以拥有任意多个节点。而且，如果当前你的网络中没有运行任何Elasticsearch节点，这时启动一个节点，会默认创建并加入一个叫做elasticsearch的集群。

分片和复制 shards&replicas

一个索引可以存储超出单个结点硬件限制的大量数据。比如，一个具有10亿文档的索引占据1TB的磁盘空间，而任一节点都没有这样大的磁盘空间；或者单个节点处理搜索请求，响应太慢。为了解决这个问题，Elasticsearch提供了将索引划分成多份的能力，这些份就叫做分片。当你创建一个索引的时候，你可以指定你想要的分片的数量。每个分片本身也是一个功能完善并且独立的“索引”，这个“索引”可以被放置到集群中的任何节点上。分片很重要，主要有两方面的原因：
1）允许你水平分割/扩展你的内容容量。
2）允许你在分片（潜在地，位于多个节点上）之上进行分布式的、并行的操作，进而提高性能和吞吐量。
至于一个分片怎样分布，它的文档怎样聚合回搜索请求，是完全由Elasticsearch管理的，对于作为用户的你来说，这些都是透明的。
在一个网络/云的环境里，失败随时都可能发生，在某个分片/节点不知怎么的就处于离线状态，或者由于任何原因消失了，这种情况下，有一个故障转移机制是非常有用并且是强烈推荐的。为此目的，Elasticsearch允许你创建分片的一份或多份拷贝，这些拷贝叫做复制分片，或者直接叫复制。
复制的重要性，有两个主要原因：在分片/节点失败的情况下，提供了高可用性。因为这个原因，注意到复制分片从不与原/主要（original/primary）分片置于同一节点上是非常重要的。扩展你的搜索量/吞吐量，因为搜索可以在所有的复制上并行运行。总之，每个索引可以被分成多个分片。一个索引也可以被复制0次（意思是没有复制）或多次。一旦复制了，每个索引就有了主分片（作为复制源的原来的分片）和复制分片（主分片的拷贝）之别。分片和复制的数量可以在索引创建的时候指定。在索引创建之后，你可以在任何时候动态地改变复制的数量，但是你事后不能改变你分片的数量。
在7.0.0版本之前默认情况下，Elasticsearch中的每个索引被分片5个主分片和1个复制，这意味着，如果你的集群中至少有两个节点，你的索引将会有5个主分片和另外5个复制分片（1个完全拷贝），这样的话每个索引总共就有10个分片。
注意：在7.0.0版本之后默认只有1个分片

三、Elasticsearch操作

curl是利用URL语法在命令行方式下工作的开源文件传输工具，使用curl可以简单实现常见的get/post请求。简单的认为是可以在命令行下面访问url的一个工具。在centos的默认库里有curl工具的，如果没有请yum安装即可。
curl
-X 指定http的请求方法有HEAD GET POST PUT DELETE
-d 指定要传输的数据
-H 指定http请求头信息
在下面的内容里，我们先使用curl在shell中实验，后面的例子为了看的更清楚，使用kibana来操作。

1、使用XPUT创建索引

在我们的kibana的dev tools当中执行以下语句

curl -XPUT http://companynode01:9200/book/?pretty

2、插入文档

前面的命令使用 PUT 动词将一个文档添加到 /journal(文档类型)，并为该文档分配 ID 为1。URL 路径显示为index/doctype/ID（索引/文档类型/ID）。指定内容类型，可以防止es严格内容类型检查报错。

curl -XPUT http://companynode01:9200/book/journal/1?pretty -d '{"id": 1, "title": "Solr is a search engine", "num": "200", "is_start": "yes", "pub_date": "2017-02-08"}' -H "Content-Type: application/json"

3、查询文档

curl -XGET http://companynode01:9200/book/journal/1?pretty -H "Content-Type: application/json"

对返回的内容部分字段进行解释：

took: 值告诉我们执行整个搜索请求耗费了多少毫秒
_shards: 告诉我们在查询中参与分片的总数，以及这些分片成功了多少个失败了多少个
timed_out: 告诉我们查询是否超时。默认情况下，搜索请求不会超时

4、更新文档

curl -XPUT http://companynode01:9200/book/journal/1?pretty -d '{"id": 1, "title": "Elasticsearch is a search engine", num": "200", "is_start": "yes", "pub_date": "2017-02-08"}' -H "Content-Type: application/json"

5、搜索文档

curl -XGET "http://companynode01:9200/book/journal/_search?q=title:elasticsearch" -H "Content-Type: application/json"

6、删除文档

curl -XDELETE "http://companynode01:9200/book/journal/1?pretty" -H "Content-Type: application/json"

7、删除索引

curl -XDELETE "http://companynode01:9200/book?pretty" -H "Content-Type: application/json"

8、条件查询

使用post请求插入数据：

curl -XPOST "http://companynode01:9200/book/journal/1?pretty" -d '{"id": 1, "title": "Lunce is a search engine", "num": "1000", "is_start": "yes", "pub_date": "2018-01-08"}' -H "Content-Type: application/json"

curl -XPOST "http://companynode01:9200/book/journal/2?pretty" -d '{"id": 2, "title": "Elasticsearch is a search engine", "num": "200", "is_start": "yes", "pub_date": "2017-02-08"}' -H "Content-Type: application/json"

curl -XPOST "http://companynode01:9200/book/journal/3?pretty" -d '{"id": 3, "title": "Solr is a search engine", "num": "300", "is_start": "no", "pub_date": "2017-12-05"}' -H "Content-Type: application/json"

curl -XPOST "http://companynode01:9200/book/journal/4?pretty" -d '{"id": 4, "title": "search is good", "num": "200", "is_start": "yes", "pub_date": "2017-08-05"}' -H "Content-Type: application/json"

curl -XPOST "http://companynode01:9200/book/journal/5?pretty" -d '{"id": 5, "title": "This is a search engine", "num": "800", "is_start": "no", "pub_date": "2021-02-05"}' -H "Content-Type: application/json"

8.1 使用match_all做查询

curl -XGET "http://companynode01:9200/book/journal/_search?pretty" '{"query": {"match_all": {}}}' -H "Content-Type: application/json"

注意：通过match_all匹配后，会把所有的数据检索出来，但是往往真正的业务需求并非要找全部的数据，而是检索出自己想要的；并且对于es集群来说，直接检索全部的数据，很容发生GC，所以我们要学会如何进行高效的检索数据

为了方便，使大家看的更清晰，我下面使用的语句格式都是在kibana中展示的，格式会更清晰一些

8.2 关键字段进行查询

GET /book/journal/_search?pretty
{
  "query": {
      "match": {"title": "search"}
  }
}

查询title中匹配到search的数据

注意：match不能多条件查询，即不能使用match查询num大于300，且is_start是no的数据，这样的查询需要使用复合查询

8.3 bool的复合查询

当出现多个查询语句组合的时候，可以用bool来查询。

1、must (must字段对应的是个列表，也就是说可以有多个并列的查询条件，一个文档满足各个子条件后才最终返回)
2、should (只要符合其中一个条件就返回)
3、must_not (与must相反，也就是说可以有多个并列的查询条件，一个文档各个子条件后才最终的结果都不满足)
4、filter(条件过滤查询，过滤条件的范围用range表示gt表示大于、lt表示小于、gte表示大于等于、lte表示小于等于)

例子1：查询title匹配到search字符串内容的，且is_start是yes的数据

GET /book/journal/_search?pretty
{
"query": {
   "bool": {
      "must": [
        {"match": {"title": "search"}}, 
        {"match": {"is_start": "yes"}}
      ]
     }
  }
}

例子2：查询title匹配到search字符串内容的，且is_start不是no的数据

GET /book/journal/_search?pretty
{
"query": {
   "bool": {
      "must": {"match": {"title": "search"}},
      "must_not": {"match": {"is_start": "no"}}
     }
  }
}

例子3：查询title匹配到search字符串内容的，或者is_start是no的数据。

GET /book/journal/_search?pretty
{
"query": {
   "bool": {
      "should": [
        {"match": {"title": "search"}}, 
        {"match": {"is_start": "no"}}
      ]
     }
  }
}

例子4：获取num大于200，且is_start是yes的数据。

8.4 term、terms匹配

使用term进行精确匹配（比如数字，日期，布尔值或 not_analyzed的字符串(未经分析的文本数据类型)，和match做区分，match是经过分析的文本数据类型匹配（非精确匹配））
语法:

{"term": {"id": 2}}
{"term": {"pub_date": "2021-02-05"}}
{"term": {"is_start": "yes"}}
{"term": {"num": "200" }}

{"terms": {"num": ["200", "300"]}}

例子1：获取title字段精确匹配到search字符串，且is_start为no的数据

GET /book/journal/_search?pretty
{
"query": {
   "bool": {
      "must": [
        {"term": {"title": "search"}}, 
        {"term": {"is_start": "no"}}
      ]
     }
  }
}

例子2：获取num为200、300的数据

GET /book/journal/_search?pretty
{
"query": {
   "bool": {
      "must": {"terms": {"num": ["200", "300"]}}
     }
  }
}

8.5 Range过滤

Range过滤允许我们按照指定的范围查找一些数据：操作范围：gt::大于，gte::大于等于,lt::小于，lte::小于等于

例子：找出id大于2，小于5的数据

GET /book/journal/_search?pretty
{
"query": {
    "range": {
      "id": {"gt":2, "lt": 5}
    }
  }
}

8.6 exists和 missing过滤

exists和missing过滤可以找到文档中是否包含某个字段或者是没有某个字段

例子：查找字段中包含title的文档

GET /book/journal/_search?pretty
{
  "query": {
    "exists": {"field": "title"}
  }
}

8.7 查询与过滤条件合并

通常复杂的查询语句，我们也要配合过滤语句来实现缓存，用filter语句就可以来实现

例子：查询title匹配到search字符串的，并且id为5的数据

GET /book/journal/_search?pretty
{
  "query": {
   "bool": {
     "must": {"match": {"title": "search"}},     
     "filter": [{"term":{"id": 5}}]
     }
  }
}

四、定义字段类型mappings

在es当中，每个字段都会有默认的类型，根据我们第一次插入数据进去，es会自动帮我们推断字段的类型，当然我们也可以通过设置mappings来提前自定义我们字段的类型

使用mappings来提前定义字段类型使用mapping的映射管理，提前指定字段的类型，防止后续的程序问题。

1、基本用法

DELETE book
PUT book
{
  "mappings": {
    "journal" : {
      "properties": {"title" : {"type": "text"}}
    }
  }
}

添加索引：book，文档类型分类为journal，索引字段为title ，字段的类型为text

获取对应的字段类型mappings

GET /book/_mapping/journal

继续添加字段

POST /book/_mapping/journal
{
  "properties": {
    "id": {"type": "integer"},
    "num": {"type": "text"},
    "is_start": {"type": "text"},
    "pub_date": {"type": "date"}
  }
}

查看所有的mappings

GET /book/_mapping/journal

查看指定field的mapping

GET /book/_mapping/journal/field/title

2、管理索引库分片数以及副本数settings

所谓的settings就是用来修改索引分片和副本数的；
比如有的重要索引，副本数很少甚至没有副本，那么我们可以通过setting来添加副本数
查看settings，红框内代表的是副本数

GET /book/_settings

把副本数修改为2

PUT /book/_settings
{
  "number_of_replicas": 2
}

查看

注意：副本可以改，分片不能改

3、分页解决方案

导入数据

DELETE us
POST /_bulk
{ "create": { "_index": "us", "_type": "tweet", "_id": "1" }}
{ "email" : "[email protected]", "name" : "John Smith", "username" : "@john" }
{ "create": { "_index": "us", "_type": "tweet", "_id": "2" }}
{ "email" : "[email protected]", "name" : "Mary Jones", "username" : "@mary" }
{ "create": { "_index": "us", "_type": "tweet", "_id": "3" }}
{ "date" : "2014-09-13", "name" : "Mary Jones", "tweet" : "Elasticsearch means full text search has never been so easy", "user_id" : 2 }
{ "create": { "_index": "us", "_type": "tweet", "_id": "4" }}
{ "date" : "2014-09-14", "name" : "John Smith", "tweet" : "@mary it is not just text, it does everything", "user_id" : 1 }
{ "create": { "_index": "us", "_type": "tweet", "_id": "5" }}
{ "date" : "2014-09-15", "name" : "Mary Jones", "tweet" : "However did I manage before Elasticsearch?", "user_id" : 2 }
{ "create": { "_index": "us", "_type": "tweet", "_id": "6" }}
{ "date" : "2014-09-16", "name" : "John Smith",  "tweet" : "The Elasticsearch API is really easy to use", "user_id" : 1 }
{ "create": { "_index": "us", "_type": "tweet", "_id": "7" }}
{ "date" : "2014-09-17", "name" : "Mary Jones", "tweet" : "The Query DSL is really powerful and flexible", "user_id" : 2 }
{ "create": { "_index": "us", "_type": "tweet", "_id": "8" }}
{ "date" : "2014-09-18", "name" : "John Smith", "user_id" : 1 }
{ "create": { "_index": "us", "_type": "tweet", "_id": "9" }}
{ "date" : "2014-09-19", "name" : "Mary Jones", "tweet" : "Geo-location aggregations are really cool", "user_id" : 2 }
{ "create": { "_index": "us", "_type": "tweet", "_id": "10" }}
{ "date" : "2014-09-20", "name" : "John Smith", "tweet" : "Elasticsearch surely is one of the hottest new NoSQL products", "user_id" : 1 }
{ "create": { "_index": "us", "_type": "tweet", "_id": "11" }}
{ "date" : "2014-09-21", "name" : "Mary Jones", "tweet" : "Elasticsearch is built for the cloud, easy to scale", "user_id" : 2 }
{ "create": { "_index": "us", "_type": "tweet", "_id": "12" }}
{ "date" : "2014-09-22", "name" : "John Smith", "tweet" : "Elasticsearch and I have left the honeymoon stage, and I still love her.", "user_id" : 1 }
{ "create": { "_index": "us", "_type": "tweet", "_id": "13" }}
{ "date" : "2014-09-23", "name" : "Mary Jones", "tweet" : "So yes, I am an Elasticsearch fanboy", "user_id" : 2 }
{ "create": { "_index": "us", "_type": "tweet", "_id": "14" }}
{ "date" : "2014-09-24", "name" : "John Smith", "tweet" : "How many more cheesy tweets do I have to write?", "user_id" : 1 }

3.1 from和size浅分页

理解集群分页大概如何运行
按照一般的查询流程来说，如果我想查询前5条数据：
1、客户端请求发给某个节点
2、节点转发给各个分片，查询每个分片上的前5条
3、结果返回给节点，整合数据，提取前5条
4、返回给请求客户端

示例：
from定义了目标数据的偏移值，size定义当前返回数目
1、获取第一页的5个结果

GET /us/_search?pretty
{
  "from" : 0 , "size" : 5
}

2、获取第二页的5个结果

GET /us/_search?pretty
{
  "from" : 5 , "size" : 5
}

这种方法只适合少量数据，随着from增大，查询的时间就会越大，而且数据量越大，查询的效率指数下降
优点：from+size在数据量不大的情况下，效率比较高
缺点：在数据量非常大的情况下，from+size分页会把全部记录加载到内存中，这样做会导致es内存不足挂掉。

3.2、scroll深分页

上面的浅分页，当Elasticsearch响应请求时，它必须确定docs的顺序，排列响应结果。
如果请求的页数较少（假设每页10个docs）, Elasticsearch不会有什么问题，但是如果页数较大时，比如请求第20页，Elasticsearch不得不取出第1页到第20页的所有docs，再去除第1页到第19页的docs，得到第20页的docs。

如果使用scroll，scroll就是维护了当前索引段的一份快照信息–缓存（这个快照信息是你执行这个scroll查询时的快照）。
可以把 scroll 分为初始化和遍历两步：

初始化时将所有符合搜索条件的搜索结果缓存起来，可以想象成快照。
初始化的时候就像是普通的search一样，其中的scroll=3m代表当前查询的数据缓存3分钟，Size：4 代表遍历时每次查询4条数据

GET us/_search?scroll=3m
{ 
  "query": {"match_all": {}},
  "size": 4
}

遍历时，从这个快照里取数据。在遍历时候，拿到上一次遍历中的scroll_id，然后带scroll参数，重复上一次的遍历步骤，知道返回的数据为空，就表示遍历完成

GET /_search/scroll
{
  "scroll": "1m",
  "scroll_id" : "初始化的_scroll_id"
}

【注意】：每次都要传参数scroll，刷新搜索结果的缓存时间，另外不需要指定index和type（不要把缓存的时时间设置太长，占用内存）

比较：
浅分页，每次查询都会去索引库（本地文件夹）中查询pageNum*page条数据，然后截取掉前面的数据，留下最后的数据。这样的操作在每个分片上都会执行，最后会将多个分片的数据合并到一起，再次排序，截取需要的分页数据。

深分页，可以一次性将所有满足查询条件的数据，都放到内存中。分页的时候，在内存中查询。相对浅分页，就可以避免多次读取磁盘。

4、ES的中文分词器IK

ES默认对英文文本的分词器支持较好，但和lucene一样，如果需要对中文进行全文检索，那么需要使用中文分词器，同lucene一样，在使用中文全文检索前，需要集成IK分词器。那么我们接下来就来安装IK分词器，以实现中文的分词

第1步：对之前安装配置的es安装IK分词器
之前的安装在这篇文章中：https://blog.csdn.net/Chenftli/article/details/122614838
将安装包上传到companynode01机器的/book/soft（谁便，这只是我自己规划的路径）路径下

cd /book/soft
wget https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.7.0/elasticsearch-analysis-ik-6.7.0.zip

# 将ik分词器的插件，解压到对应路径下 
mkdir -p /book/install/elasticsearch-6.7.0/plugins/analysis-ik

unzip elasticsearch-analysis-ik-6.7.0.zip -d /book/install/elasticsearch-6.7.0/plugins/analysis-ik/

将安装包分发到集群其他机器上

cd /book/install/elasticsearch-6.7.0/plugins 
scp -r analysis-ik/ companynode02:$PWD 
scp -r analysis-ik/ companynode03:$PWD

集群所有机器重启es服务，执行以下命令停止es服务并重启es服务

ps -ef|grep elasticsearch | grep bootstrap | awk '{print $2}' |xargs kill -9
nohup /book/install/elasticsearch-6.7.0/bin/elasticsearch 2>&1 &

第2步、创建索引库并配置IK分词器，测试一下效果

创建索引库，这里指定分词方式为ik_max_word，会对中文进行最细粒度的切分

DELETE testik
PUT /testik?pretty
{
    "settings" : {
        "analysis" : {
            "analyzer" : {
                "ik" : {
                    "tokenizer" : "ik_max_word"
                }
            }
        }
    },
    "mappings" : {
        "article" : {
            "dynamic" : true,
            "properties" : {
                "subject" : {
                    "type" : "text",
                    "analyzer" : "ik_max_word"
                }
            }
        }
    }
}

测试：

GET _analyze?pretty
{
  "analyzer": "ik_max_word",
  "text": "今天的天气是个雨天"
}

示例一：匹配测试效果

POST /iktest/article/_bulk?pretty
{"index": {"_id": "1" }}
{"subject": "打工人的春运破防瞬间" }
{"index": {"_id": "2"}}
{"subject": "科比去世两周年"}
{"index": {"_id": "3"}}
{"subject": "3年后还偷你!本泽马家中被盗" }
{"index": {"_id": "4"}}
{"subject": "最惨购房人称自己损失超千万"}
{"index": {"_id": "5"}}
{"subject": "博物馆称学生打碎展品并非130万"}

查看分词器
对"打工人和购房"进行分词查询并标出
ikmaxword分词后的效果：打工|打|工人|人和|购房

POST /iktest/article/_search?pretty
{
    "query": {"match": {"subject": "打工人和购房"}},
    "highlight": {
      "pre_tags": [""],
        "post_tags": [""],
        "fields": {
          "subject": {}
        }
    }
}

第3步、配置热词更新、并测试效果

先查看一下没有配置新热词的分词效果

GET _analyze?pretty
{
  "analyzer": "ik_max_word",
  "text": "老铁，双击屏幕，给个小红心！"
}

分词：老|铁|双击|屏幕|给|个|小红|心

我们会发现，随着时间的推移和发展，有些网络热词我们并不能进行分词，因为网络热词并没有定义在我们的词库里面，这就需要我们经常能够实时的更新我们的网络热词，我们可以通过tomcat来实现远程词库来解决这个问题。

1、companynode03配置Tomcat（找一台配置即可）
使用book用户来进行配置tomcat，此处我们将tomcat装在companynode03机器上面即可，将我们的tomcat安装包上传到node03服务器的/book/soft路径下，然后进行解压

cd /book/soft/
tar -zxvf apache-tomcat-8.5.34.tar.gz -C /book/install/

tomcat当中添加配置hot_word.dic

cd /book/install/apache-tomcat-8.5.34/webapps/ROOT
vim hot_dict.dic

添加：

老铁
小红心

启动tomcat

cd /book/install/apache-tomcat-8.5.34/
bin/startup.sh

访问以验证tomcat是否安装成功，能够访问到，则证明tomcat安装成功

http://companynode03:8080/hot_dict.dic

2、所有机器修改配置文件
所有机器都要修改es的配置文件（使用book用户来进行修改）
第一台机器companynode01修改es的配置

cd /book/install/elasticsearch-6.7.0/plugins/analysis-ik/config
vim IKAnalyzer.cfg.xml

修改为：




        IK Analyzer 扩展配置
        
        
         
        
        
        http://companynode03:8080/hot_dict.dic

修改完成之后分发到集群其他机器上面去
可以按照下面，companynode01执行以下命令

cd /book/install/elasticsearch-6.7.0/plugins/analysis-ik/config
scp IKAnalyzer.cfg.xml companynode02:$PWD
scp IKAnalyzer.cfg.xml companynode03:$PWD

3、所有机器重新启动es
所有机器执行如下命令，杀死并重新启动es服务

ps -ef|grep elasticsearch | grep bootstrap | awk '{print $2}' |xargs kill -9
nohup /book/install/elasticsearch-6.7.0/bin/elasticsearch 2>&1 &

再次查看分词效果：

GET _analyze?pretty
{
  "analyzer": "ik_max_word",
  "text": "老铁，双击屏幕，给个小红心！"
}

分词：老铁|双击|屏幕|给|个|小红心|小红|红心

你可能感兴趣的:(大数据工程师成神之路,数据库,elasticsearch,elk,搜索引擎,大数据,核心内容)

Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
突破性能瓶颈，几个高性能Python网络框架，高效实现网络应用
引言随着互联网和大数据时代的到来，高性能网络应用的需求日益增加。Python作为一种流行的编程语言，在高性能网络编程领域也具有广泛的应用。本文将深入探讨基于Python的几种高性能网络框架，分析它们各自的优势和适用场景，帮助开发者选择最适合自己需求的网络框架这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python
python程序基本架构_Python 程序基本架构尤尔小喵喵 python程序基本架构
Python的一般程序基本架构为：输入，处理，输出，这三块。输入：包括两个内容，变量赋值与输入语句处理：包括算术运算，逻辑运算，算法处理这三方面输出：包括打印输出，写入文件，写入数据库这三块下面举两个例子具体了解一下Python的程序基本架构1输入：变量赋值处理：算术运算输出：打印输出x=12#变量赋值x=12y=13#变量赋值y=13z=x+y#算术运算print(z)#打印输出252输入：输入
C#.NET log4net 详解 c#.net
简介log4net是.NET平台上非常成熟的日志组件，源自Java世界的log4j。它功能丰富、性能高、配置灵活，是企业应用中常见的日志框架之一。核心特点支持多种输出目标（Appender）：文件、数据库、控制台、远程服务等支持多种格式化（Layout）支持按级别（Level）记录日志支持日志分类（Logger分组、命名空间隔离）配置灵活，可通过XML文件配置，也可通过代码配置支持异步日志、按文件
Navicat导出数据库表结构 qq_42676307 数据库 mysql
每一份完善的文档都是为后期维护铺平的道路：针对MySQL导出表结构文档，工具：navicat第一步：navicat新建查询SELECTCOLUMN_NAME列名,COLUMN_COMMENT名称,COLUMN_TYPE数据类型,DATA_TYPE字段类型,CHARACTER_MAXIMUM_LENGTH长度,IS_NULLABLE是否必填,COLUMN_DEFAULT描述FROMINFORMATI
navicat premium导出数据库表结构到Excel（Oracle、MYSQL、SQLServer） Amy_Victoria 数据库数据库 oracle mysql sqlserver
这里使用的navicatpremium是12.0.24版1.Oracle的语句SELECTA.cloumn列名,datatype数据类型,datalength长度,nullable是否为空,b.comments注释FROM(SELECTCOLUMN_NAMEcloumn,DATA_TYPEdatatype,DATA_LENGTHdatalength,NULLABLEnullableFROMALL_
百万并发稳如磐石：Redis穿透/雪崩避坑实战与架构精要今天你慧了码码码码码码码码码码 Redis redis 架构数据库
某社交平台在明星官宣离婚时突发崩溃：每秒50万查询涌向数据库，导致核心服务不可用30分钟。事后分析发现，恶意用户伪造海量不存在的用户ID发起请求，同时大量热点Key集中失效，引发缓存穿透与雪崩的双重风暴。这个千万级损失的案例，揭示了缓存异常处理的生死攸关。一、缓存穿透：恶意请求的隐形杀手1.穿透原理与危害分析恶意用户缓存数据库循环其他恶意用户系统告警查询不存在的数据(user_9999999)缓存
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
day49-ansible初体验朱包林 linux python 运维服务器云计算
1.选型工具说明缺点xshell不适应机器过多场景，需要连接后才能用for+ssh/scp+密钥认证密钥认证，免密码登录scp传输文本/脚本ssh远程执行命令或脚本串行saltstack需要安装客户端ansible无客户端（密钥认证）批量部署环境需要新python版本，被红帽收购了Terraform关注基础设施（云环境），一键创建100台云服务器，一键创建负载均衡，数据库产品2.ansible架构
百度地图迁徙大数据深度解析与实战指南
百度地图迁徙大数据深度解析与实战指南在数字化时代，人口流动数据已成为洞察社会经济活动的关键指标。百度地图依托海量位置数据和AI算法打造的"迁徙大数据"平台，为城市规划、交通管理、商业选址等领域提供了重要决策支持。本文将系统性解析百度地图迁徙大数据的查看方法、核心功能及实战应用场景，帮助读者快速掌握这一数据驱动的决策工具。一、迁徙大数据的核心价值迁徙大数据通过聚合手机用户的定位信息，构建全国范围的人
百度搜索下拉框,下拉菜单怎么做?如何刷? mt_187 日常记录技术收藏 html5
搜索下拉菜单反馈性关键词是用户在搜索时与搜索引擎的第一步互动，在互动过程中，搜索引擎的反馈关键词不断调整来满足用户的个性需求。搜索下拉框存在的下拉词，每天的点击浏览量都很高，这意味着很多企业都在抢这个位置，在网民搜索自己的行业主关键词时，下拉中的词条是行业关键词和自己品牌词或其他营销类词的整体呈现。搜索下拉框菜单怎么做?如何刷?在本篇文章中您将会了解到以下信息。第一部分搜索下拉框菜单原理第二部分怎
Python 通过IP地址查询地理位置
文章目录Python通过IP地址查询地理位置一、在线API查询（简单快速，依赖网络）1.**使用`requests`+ipinfo.io**2.**使用`requests`+ip-api.com**二、本地数据库查询（离线高效，需下载数据库）1.**使用`geoip2`+GeoLite2数据库**2.**其他本地库对比**️三、结果可视化（增强展示）使用`folium`生成交互地图⚖️四、方法选择
数据库管理工具 Navicat 17（Mac电脑） fengyun2891 数据库 macos mac MySQL
Navicat17Mac是一款专业的数据库管理工具，适用于开发人员、数据库管理员和分析师等用户。它提供了强大的数据管理功能和丰富的工具，使用户能够轻松地管理和维护数据库，提高数据处理效率。原文地址：NavicatPremium17Mac数据库管理
MySQL 统计信息详解：从原理到实践我科绝伦（Huanhuan Zhou） mysql mysql android 数据库
MySQL统计信息是数据库优化器生成查询执行计划的关键依据，记录了表和索引的基本特性，辅助优化器估算查询成本、选择最优执行路径。一、统计信息主要内容分为表级、索引级和列级三类。1.1表级统计信息描述表基本属性，如行数（TABLE_ROWS）、平均行长度（AVG_ROW_LENGTH）、数据大小（DATA_LENGTH）、索引大小（INDEX_LENGTH）、空闲空间（DATA_FREE）。获取方式
MySQL如何查看某个表所占空间大小？（表空间大小查看方法） lwb_0118 面试学习路线阿里巴巴 mysql android 数据库
文章目录一、使用SQL查询查看表空间1.1查询所有表的大小（包括数据和索引）1.2查询特定数据库的表大小1.3查询单个表的详细空间信息二、使用命令行工具查看表空间2.1使用`mysql`客户端查询2.2查看物理文件大小（适用于MyISAM/InnoDB）三、查看InnoDB表的空间使用详情3.1查看InnoDB表空间状态3.2查看InnoDB引擎状态（包含缓冲池等信息）3.3查询InnoDB表空间
恒创科技：香港站群服务器做seo站群优化效果如何海外空间恒创科技科技服务器运维
香港站群服务器做SEO站群优化效果如何?在当前搜索引擎优化竞争日益激烈的环境下，越来越多的企业开始关注站群策略这一高效的SEO手段。作为亚洲重要的网络枢纽，香港站群服务器因其独特优势，正成为实施SEO站群优化的热门选择。本文将客观分析香港服务器在SEO站群优化中的实际效果，帮助您做出明智的技术选型决策。香港站群服务器的先天优势：地理位置和网络基建香港站群服务器就像个“黄金地段”的商铺——背靠中国大
ClickHouse高频面试题野老杂谈数据库
ClickHouse高频面试题1、简单介绍一下ClickHouse2、ClickHouse具有哪些特点3、ClickHouse作为一款高性能OLAP数据库，存在哪些不足4、ClickHouse有哪些表引擎5、介绍下Log系列表引擎应用场景共性特点不支持6、简单介绍下MergeTree系列引擎7、简单介绍下外部集成表引擎ODBCJDBCMySQLHDFSKafkaRabbitMQ8、ClickHou
Python爬虫实战：利用Selenium与反反爬技术高效爬取天眼查企业信息 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy selenium
摘要本文将详细介绍如何使用Python爬虫技术获取天眼查的企业信息数据。我们将从爬虫基础开始，逐步深入到高级反反爬技术，最终构建一个能够稳定获取天眼查数据的爬虫系统。文章包含完整的代码实现、技术原理分析以及实际应用场景，帮助读者全面掌握企业信息爬取的核心技术。关键词：Python爬虫、天眼查、Selenium、反反爬技术、企业信息采集、数据挖掘一、引言在当今大数据时代，企业信息数据对于市场分析、商
【零基础必看的数据库教程】——SQL 简介小洪爱分享 SQL学习数据库 sql oracle 数据库系统数据库开发笔记经验分享
目录SQL是什么SQL能做什么在您的网站中使用SQLRDBMSSQL发展历史总结SQL是什么SQL（StructuredQueryLanguage：结构化查询语言）是用于管理关系数据库管理系统（RDBMS）。SQL通过一系列的语句和命令来执行数据定义、数据查询、数据操作和数据控制等功能，包括数据插入、查询、更新和删除，数据库模式创建和修改，以及数据访问控制。SQL让您可以访问和处理数据库，包括数据
智慧城市大脑解决方案
智慧城市大脑背景与意义智慧城市大脑作为城市管理的创新模式，通过集成大数据、人工智能等技术，实现了对城市运行的全面感知与智能决策。它不仅提升了城市管理效率，还为市民带来了更加便捷、安全的生活体验。智慧城市大脑建设历程某城市作为智慧城市大脑的创新策源地，自2016年起便与阿里巴巴集团深度合作，投入巨资自主研发城市数据大脑“交通小脑”平台。该平台成功接入了大量视频和数据，实现了对道路和时间资源的再分配，
智慧城市大脑：城市治理的新引擎 Fulima_cloud 智慧城市人工智能
在科技日新月异的今天，智慧城市的概念已经深入人心。而智慧城市大脑，作为智慧城市的中枢神经系统，运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系，正逐步成为提升城市治理能力、优化城市服务、推动城市可持续发展的重要力量。智慧城市大脑是什么，简而言之，是运用大数据、云计算、物联网、人工智能等先进技术，构建的城市级智能化管理体系。它如同城市的“智慧中枢”，通过对城市全域运行数据的
小架构step系列08：logback.xml的配置秋千码途 logback xml java
1概述logback.xml配置文件的详细配置，很多地方都说得比较细，本文主要从几个重点来看一下原理，了解原理能够帮助确定哪些应该配置，以及如何配置。logback.xml是为打印日志服务的，打印的内容一般打印到控制台(Console)和文件(file)里，在生产环境中主要是打印到文件里，然后用扫描工具汇总到某个地方方便查询(如ELK)。打印的内容要符合一定的格式，提供足够的信息，方便进行日志查询
基于 Java 的电商业务秒杀商品高并发、数据一致性、系统性能等多个方面设计方案一杯冰美式_丶 java 开发语言
1.需求分析高并发：大量用户同时抢购，系统需要支持高并发请求。库存一致性：避免超卖（库存减为负数）或数据不一致。高性能：响应时间要短，用户体验要好。公平性：先到先得，避免作弊。2.技术选型缓存：使用Redis缓存商品库存和秒杀结果，减少数据库压力。消息队列：使用RabbitMQ或Kafka异步处理订单，削峰填谷。数据库：MySQL存储订单和商品信息，使用事务保证数据一致性。分布式锁：使用Redis
告别重复订单！分布式ID生成核心方案全揭秘山海上的风分布式 java
《告别重复订单！分布式ID生成核心方案全揭秘》你可能用过UUID，却饱受索引性能折磨；你尝试过数据库自增ID，却在分库分表时束手无策；你研究过雪花算法，却被时钟回拨问题困扰……分布式订单ID生成究竟有没有完美方案？本文将为你一一拆解，并给出企业级最优解！一、为什么订单ID如此关键？（示意图：分布式订单系统）需求维度技术指标灾难案例全局唯一零冲突概率重复订单导致财务对账崩溃高性能10万+TPS秒杀活
从单体到微服务：Spring Cloud 开篇与微服务设计 chanalbert SpringCloud 微服务 spring cloud 架构
一、单体架构的核心痛点与微服务化目标1.单体架构的致命缺陷问题表现后果可维护性差百万行代码耦合，修改一处需全量测试迭代周期长，创新停滞扩展性受限无法按模块独立扩缩容（如订单模块需扩容时，用户模块被迫一起扩容）资源浪费30%+技术固化全系统必须使用同一技术栈（如数据库选型）新技术无法局部试点部署风险高全量部署导致停机时间长，回滚困难业务中断损失每分钟数万美元2.微服务化的设计目标自治性：每个服务独立
Redis有哪些常用应用场景?
大家好，我是锋哥。今天分享关于【Redis有哪些常用应用场景?】面试题。希望对大家有帮助；Redis有哪些常用应用场景?超硬核AI学习资料，现在永久免费了！Redis是一种高性能的内存数据库，常用于以下应用场景：缓存Redis常作为缓存解决方案，提高数据读取效率，减轻数据库负担。常用于存储热点数据、频繁访问的资源。会话存储Redis可以高效存储用户会话信息（Session），支持大规模高并发的读写
mybatis 模糊查询时只能查询数字和英文，中文查询不到(mysql数据库)，已解决！光头才能变强后端 mysql
1.问题描述在使用mybatis模糊查询的时候,不能对中文模糊查询，发现却能对数字，英文进行模糊查询(使用的是mysql数据库)。本人是确定SQL语句没有出错的情况下！2.解决方法(亲测有效)最后锁定是编码的问题，数据库url链接上没加编码也可以直接复制我的urljdbc:mysql://localhost:3306/xxx?useUnicode=true&characterEncoding=ut
踩坑：mysql 查询时间结果少了一天
1.场景：本人是在springboot项目中从数据库获取时间传到前端进行展示，所以在实体类上使用注解@JsonFormat进行格式转换。最后发现时间少了一天，最后锁定是时区的问题。@JsonFormat默认是标准时区的时间，会出现少8小时的情况。使用时，加上时区timezone="GMT+8"2.解决方案：在实体类需要时间转换的字段上加上下面其中任意一个就可以了@JsonFormat(patter
Spring Boot 项目中多数据源配置使用场景冰糖心书房微服务实战系列 spring boot 后端 java 多数据源
在SpringBoot中配置多数据源是一个非常常见的需求，主要用于以下场景：读写分离：一个主数据库（Master）负责写操作，一个或多个从数据库（Slave）负责读操作，以提高性能和可用性。业务拆分：不同的业务模块使用不同的数据库（例如，用户库、订单库、商品库）。连接异构数据库：同时连接MySQL、PostgreSQL等不同类型的数据库。下面我将详细介绍两种主流的实现方式：静态方式（推荐用于业务隔
Springboot计算机毕业设计协同过滤的就业系统的设计与实现qd11f（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。
系统程序文件列表项目功能：学生,企业单位,岗位信息,春招信息,应聘信息,应聘通知,秋招信息,实训项目,项目选择,学院信息开题报告内容SpringBoot计算机毕业设计协同过滤的就业系统的设计与实现开题报告一、研究背景与意义1.1研究背景随着高等教育的普及与就业市场的多元化发展，高校毕业生数量逐年攀升，2025年全国毕业生预计突破1200万人。然而，传统就业服务模式存在以下问题：信息不对称：招聘信息
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情