单人影i

Elastic Stack入门

Elastic Stack简介
- 如果你没有听说过Elastic Stack，那你一定听说过ELK，实际上ELK是三款软件的简称，分别是ElasticsearchLogstash、Kibana组成，在发展的过程中，又有新成员Beats的加入，所以就形成了Elastic Stack。所以说，ELK是旧的称呼，Elastic Stack是新的名字。
- 官网：https://www.elastic.co/cn/products/elasticsearch
- Elasticsearch
  - Elasticsearch 基于java，是个开源分布式搜索引擎，它的特点有：分布式，零配置，自动发现，索引自动分片，索引副本机制，restful风格接口，多数据源，自动搜索负载等。
- Logstash
  - Logstash 基于java，是一个开源的用于收集,分析和存储日志的工具。
- Kibana
  - Kibana 基于nodejs，也是一个开源和免费的工具，Kibana可以为 Logstash 和 ElasticSearch 提供的日志分析友好的 Web 界面，可以汇总、分析和搜索重要数据日志。
- Beats
  - Beats是elastic公司开源的一款采集系统监控数据的代理agent，是在被监控服务器上以客户端形式运行的数据收集器的统称，可以直接把数据发送给Elasticsearch或者通过Logstash发送给Elasticsearch，然后进行后续的数据分析活动。
  - Beats由如下组成:
    - Packetbeat：是一个网络数据包分析器，用于监控、收集网络流量信息，Packetbeat嗅探服务器之间的流量，解析应用层协议，并关联到消息的处理，其支持ICMP (v4 and v6)、DNS、HTTP、Mysql、PostgreSQL、Redis、MongoDB、Memcache等协议；
    - Filebeat：用于监控、收集服务器日志文件，其已取代 logstash forwarder；
    - Metricbeat：可定期获取外部系统的监控指标信息，其可以监控、收集 Apache、HAProxy、MongoDB
    - MySQL、Nginx、PostgreSQL、Redis、System、Zookeeper等服务；
    - Winlogbeat：用于监控、收集Windows系统的日志信息；
版本说明
- Elasticsearch的发展是非常快速的，所以在ES5.0之前，ELK的各个版本都不统一，出现了版本号混乱的状态，所以从5.0开始，所有Elastic Stack中的项目全部统一版本号。目前最新版本是6.5.4
- 下载地址: https://www.elastic.co/cn/downloads/elasticsearch
- 链接：https://pan.baidu.com/s/1LchVTTXG4abcJIPvLx7jkA
  提取码：ig8w
  复制这段内容后打开百度网盘手机App，操作更方便哦
  - 包含Ik中文分词器

单机版安装命令:

#创建elsearch用户，Elasticsearch不支持root用户运行 
useradd elsearch

#权限问题,建议不要用root用户传.
#解压安装包  到当前目录的 /data/es目录下
tar -xvf elasticsearch-6.5.4.tar.gz -C /data/es/

#修改配置文件 
vim conf/elasticsearch.yml 
network.host: 172.16.55.185 #绑定的地址

#说明：在Elasticsearch中如果，network.host不是localhost或者127.0.0.1的话，就会认为是生产环 境，会对环境的要求比较高，我们的开发环境不一定能够满足，一般情况下需要修改2处配置，如下： 
#1：修改jvm启动参数  默认1G
vim conf/jvm.options
-Xms128m #根据自己机器情况修改
-Xmx128m
#2：单个进程中的最大线程数
vim /etc/sysctl.conf 
vm.max_map_count=655360

#启动ES服务
su - elsearch 
cd bin 
./elasticsearch 或 ./elasticsearch -d #后台系统


#通过访问http://172.16.55.185:9200进行测试，看到如下信息，就说明ES启动成功了
{ 
"name": "dSQV6I8", 
"cluster_name": "elasticsearch", 
"cluster_uuid": "v5GPTWAtT5emxFdjigFg-w", 
"version": { 
    "number": "6.5.4", 
    "build_flavor": "default", 
    "build_type": "tar", 
    "build_hash": "d2ef93d", 
    "build_date": "2018-12-17T21:17:40.758843Z", 
    "build_snapshot": false, 
    "lucene_version": "7.5.0", 
    "minimum_wire_compatibility_version": "5.6.0",        
    "minimum_index_compatibility_version": "5.0.0"              
  },
  "tagline": "You Know, for Search" 
}

#停止: 
输入 jps 查看进程端口号
68709 Jps 
68072 Elasticsearch
然后使用kill 68072 结束进程

使用docker安装

#拉取镜像
docker pull elasticsearch:6.5.4

#创建容器 
docker create --name elasticsearch --net host -e "discovery.type=single-node" -e "network.host=172.16.55.185" elasticsearch:6.5.4

#启动 
docker start elasticsearch

#查看日志 
docker logs elasticsearch

现在docker安装是开发环境模式，并没有配置目录挂载等内容.

elasticsearch-head (可视化的管理工具)

由于ES官方并没有为ES提供界面管理工具，仅仅是提供了后台的服务。elasticsearch-head是一个为ES开发的一个页面客户端工具，其源码托管于GitHub，地址为：https://github.com/mobz/elasticsearch-head

head提供了4种安装方式

1.源码安装，通过npm run start启动（不推荐）
2.通过docker安装（推荐）
3.通过chrome插件安装（推荐
4.通过ES的plugin方式安装（不推荐)

docker安装

#拉取镜像 
docker pull mobz/elasticsearch-head:5 
#创建容器 
docker create --name elasticsearch-head -p 9100:9100 mobz/elasticsearch-head:5 
#启动容器 
docker start elasticsearch-head


注意：
由于前后端分离开发，所以会存在跨域问题，需要在服务端做CORS的配置，如下：
vim elasticsearch.yml

http.cors.enabled: true 
http.cors.allow-origin: "*"
通过chrome插件的方式安装不存在该问题。

chrome插件的方式安装
- 打开chrome的应用商店，即可安装
- https://chrome.google.com/webstore/detail/elasticsearch-head/ffffmkiejjmecolpflfloofpjologoblkegm

基本概念

索引

1.索引（index）是Elasticsearch对逻辑数据的逻辑存储，所以它可以分为更小的部分。
2.可以把索引看成关系型数据库的表，索引的结构是为快速有效的全文索引准备的，特别是它不存储原始值。
3.可以把Elasticsearch的索引看成MongoDB里的一个集合。
4.Elasticsearch可以把索引存放在一台机器或者分散在多台服务器上，每个索引有一或多个分片（shard），           
  每个分片可以有多个副本（replica）。

文档

1.存储在Elasticsearch中的主要实体叫文档（document）。用关系型数据库来类比的话，一个文档相当于数据
库表中的一行记录。
2.Elasticsearch和MongoDB中的文档类似，都可以有不同的结构，但Elasticsearch的文档中，相同字段必须有相同类型。
3.文档由多个字段组成，每个字段可能多次出现在一个文档里，这样的字段叫多值字段（multivalued）。
4.每个字段的类型，可以是文本、数值、日期等。字段类型也可以是复杂类型，一个字段包含其他子文档或者
数组。

映射

所有文档写进索引之前都会先进行分析，如何将输入的文本分割为词条、哪些词条又会被过滤，这种行为叫
做映射（mapping）。一般由用户自己定义规则。

文档类型

1.在Elasticsearch中，一个索引对象可以存储很多不同用途的对象。例如，一个博客应用程序可以保存文章和
评论。
2.每个文档可以有不同的结构。
3.不同的文档类型不能为相同的属性设置不同的类型。例如，在同一索引中的所有文档类型中，一个叫title的字
段必须具有相同的类型。

创建非结构化索引
- 在Lucene中，创建索引是需要定义字段名称以及字段的类型的，在Elasticsearch中提供了非结构化的索引，就是不需要创建索引结构，即可写入数据到索引中，实际上在Elasticsearch底层会进行结构化操作，此操作对用户是透明的。
  - 可视化界面:
- 使用请求的方式. 使用postman之类的工具:
  - ```
  #访问
  PUT http://172.16.55.185:9200/test1
  参数
  { "settings": { 
      "index": { 
          "number_of_shards": "2", 
          "number_of_replicas": "0" } 
      } 
  }
  
  
  解释:
  "number_of_shards": "2", #分片数 
  "number_of_replicas": "0" #副本数 
  
  
  #删除索引 
  DELETE http://172.16.55.185:9200/test1
  参数
  { "acknowledged": true }
```

插入数据

URL规则: POST http://172.16.55.185:9200/{索引}/{类型}/{id}

POST http://172.16.55.185:9200/test/user/1001


#数据 
{ "id":1001, "name":"张三", "age":20, "sex":"男" }

#响应
{ "_index": "test", "_type": "user", "_id": "1", "_version": 1, "result": "created", "_shards": { "total": 1, "successful": 1, "failed": 0 },"_seq_no": 0, "_primary_term": 1 }

说明：非结构化的索引，不需要事先创建，直接插入数据默认创建索引。


不指定id插入数据的时候, 会自动生成id.

更新数据

在Elasticsearch中，文档数据是不为修改的，但是可以通过覆盖的方式进行更新。

#全量更新  重新插入就会覆盖
PUT http://172.16.55.185:9200/test/user/1001

{ "id":1001, "name":"张三", "age":21, "sex":"女" }


问题来了，可以局部更新吗？ -- 可以的。
前面不是说，文档数据不能更新吗？ 其实是这样的：
在内部，依然会查询到这个文档数据，然后进行覆盖操作，步骤如下：
1. 从旧文档中检索JSON
2. 修改它
3. 删除旧文档
4. 索引新文档


#注意：这里多了_update标识
POST http://172.16.55.185:9200/test/user/1001/_update

{"doc":{ "age":23 } }
可以看到数据已经被局部更新了。

删除数据

在Elasticsearch中，删除文档数据，只需要发起DELETE请求即可。

DELETE http://172.16.55.185:9200/test/user/1001

需要注意的是，result表示已经删除，version也更加了。
如果删除一条不存在的数据，会响应404：

说明：
删除一个文档也不会立即从磁盘上移除，它只是被标记成已删除。Elasticsearch将会在你之后添加更多索引
的时候才会在后台进行删除内容的清理。

搜索数据

根据id搜索数据

GET http://172.16.55.185:9200/test/user/BbPe_WcB9cFOnF3uebvr

搜索全部数据(默认返回10条数据)

GET http://172.16.55.185:9200/test/user/_search

关键字搜素数据

#查询年龄等于20的用户 
GET http://172.16.55.185:9200/test/user/_search?q=age:20

DSL搜索

Elasticsearch提供丰富且灵活的查询语言叫做DSL查询(Query DSL),它允许你构建更加复杂、强大的查询。
DSL(Domain Specific Language特定领域语言)以JSON请求体的形式出现。

POST http://172.16.55.185:9200/test/user/_search

#请求体 
#match只是查询的一种 
{ 
    "query" : 
        { "match" : { "age" : 20} 
    } 
}


#查询年龄大于30岁的男性用户。
#请求数据 
{ "query": { "bool": { "filter": {"range": { "age": { "gt": 30 } } },"must": { "match": { "sex": "男" } } } } }

#gt 大于的意思

#must    match是匹配.  
#filter  range是过滤

全文搜索

POST http://172.16.55.185:9200/test/user/_search
#请求数据 
{ "query": { "match": { "name": "张三 李四" } } }

这样会查出来 张三和李四两条数据.其实是分词器的作用.

高亮显示 : highlight fields 里面是要高亮的字段

POST http://172.16.55.185:9200/haoke/user/_search

{ "query": { "match": { "name": "张三 李四"} },"highlight": { "fields": { "name": {} } } }

聚合在Elasticsearch中，支持聚合操作，类似SQL中的group by操作。

POST http://172.16.55.185:9200/test/user/_search 
{ "aggs": { "all_interests": { "terms": { "field": "age" } } } }

核心
- 文档
  - 在Elasticsearch中，文档以JSON格式进行存储，可以是复杂的结构，如：
  - ```
  { "_index": "test", "_type": "user", "_id": "1005", "_version": 1, "_score": 1,"_source": { "id": 1005, "name": "孙七", "age": 37, "sex": "女", "card": { "card_number": "123456789" } } }
  
  
  其中，card是一个复杂对象，嵌套的Card对象。 
  一个文档不只有数据。它还包含了元数据(metadata)——关于文档的信息。三个必须的元数据节点是：
  
  节点         说明
  _index      文档存储的地方
  _type       文档代表的对象的类
  _id         文档的唯一标识
```
- _index
  - 索引(index)类似于关系型数据库里的“数据库”——它是我们存储和索引关联数据的地方。
    - 提示：事实上，我们的数据被存储和索引在分片(shards)中，索引只是一个把一个或多个分片分组在一起的逻辑空间。然而，这只是一些内部细节——我们的程序完全不用关心分片。对于我们的程序而言，文档存储在索引(index)中。剩下的细节由Elasticsearch关心既可。
  - _type
    - 在应用中，我们使用对象表示一些“事物”，例如一个用户、一篇博客、一个评论，或者一封邮件。每个对象都属于一个类(class)，这个类定义了属性或与对象关联的数据。 user 类的对象可能包含姓名、性别、年龄和Email地址。在关系型数据库中，我们经常将相同类的对象存储在一个表里，因为它们有着相同的结构。同理，在Elasticsearch中，我们使用相同类型(type)的文档表示相同的“事物”，因为他们的数据结构也是相同的。每个类型(type)都有自己的映射(mapping)或者结构定义，就像传统数据库表中的列一样。所有类型下的文档被存储在同一个索引下，但是类型的映射(mapping)会告诉Elasticsearch不同的文档如何被索引。_type 的名字可以是大写或小写，不能包含下划线或逗号。我们将使用 blog 做为类型名。
  - _id
    - id仅仅是一个字符串，它与 _index 和 _type 组合时，就可以在Elasticsearch中唯一标识一个文档。当创建一个文档，你可以自定义 _id ，也可以让Elasticsearch帮你自动生成（32位长度）。

查询响应

pretty
- 可以在查询url后面添加pretty参数，使得返回的json更易查看。
  - 格式化数据.postman的话就不需要了.postman自动格式化了.

指定响应字段

在响应的数据中，如果我们不需要全部的字段，可以指定某些需要的字段进行返回

GET http://172.16.55.185:9200/test/user/1005?_source=id,name 
#响应 
{ "_index": "test", "_type": "user", "_id": "1005", "_version": 1, "found": true, "_source": { "name": "孙七", "id": 1005 } }

如果只返回元数据. 不会返回_index 这些数据. 只返回存放的实体类.
GET http://172.16.55.185:9200/test/user/1005/_source?_source=id,name

判断文档是否存在

如果我们只需要判断文档是否存在，而不是查询文档内容，那么可以这样：

HEAD http://172.16.55.185:9200/test/user/1005

这只表示你在查询的那一刻文档不存在，但并不表示几毫秒后依旧不存在。另一个进程在这期间可能
创建新文档。

批量操作 : 有些情况下可以通过批量操作以减少网络请求。如：批量查询、批量插入数据。

批量查询

POST http://172.16.55.185:9200/test/user/_mget

{ "ids" : [ "1001", "1003" ] }

如果，某一条数据不存在，不影响整体响应，需要通过found的值进行判断是否查询到数据。

POST http://172.16.55.185:9200/haoke/user/_mget

{ "ids" : [ "1001", "1006" ] }  

#查询不到found = false

_bulk操作

在Elasticsearch中，支持批量的插入、修改、删除操作，都是通过_bulk的api完成的。请求格式如下：（请求格式不同寻常）

示例:
{ action: { metadata }}\n 
{ request body }\n 
{ action: { metadata }}\n 
{ request body }\n ...

#注意最后一行的回车。

Demo:
{"create":{"_index":"test","_type":"user","_id":2001}} 
{"id":2001,"name":"name1","age": 20,"sex": "男"} 
{"create":{"_index":"test","_type":"user","_id":2002}} 
{"id":2002,"name":"name2","age": 20,"sex": "男"} 
{"create":{"_index":"test","_type":"user","_id":2003}} 
{"id":2003,"name":"name3","age": 20,"sex": "男"}

批量删除

{"delete":{"_index":"test","_type":"user","_id":2001}} 
{"delete":{"_index":"test","_type":"user","_id":2002}} 
{"delete":{"_index":"test","_type":"user","_id":2003}}

#由于delete没有请求体，所以，action的下一行直接就是下一个action。

其他操作就类似了。

一次请求多少性能最高？

1.整个批量请求需要被加载到接受我们请求节点的内存里，所以请求越大，给其它请求可用的内存就越小。有
一个最佳的bulk请求大小。超过这个大小，性能不再提升而且可能降低。
2.最佳大小，当然并不是一个固定的数字。它完全取决于你的硬件、你文档的大小和复杂度以及索引和搜索的
负载。
3.幸运的是，这个最佳点(sweetspot)还是容易找到的：试着批量索引标准的文档，随着大小的增长，当性能开
始降低，说明你每个批次的大小太大了。开始的数量可以在1000~5000个文档之间，如果你的文档非常大，
可以使用较小的批次。
4.通常着眼于你请求批次的物理大小是非常有用的。一千个1kB的文档和一千个1MB的文档大不相同。一个好的
批次最好保持在5-15MB大小间。

分页
- 和SQL使用 LIMIT 关键字返回只有一页的结果一样，Elasticsearch接受 from 和 size 参数：
  - size: 结果数，默认10 . from: 跳过开始的结果数，默认0
    - ```
    如果你想每页显示5个结果，页码从1到3，那请求如下：
    GET /_search?size=5
    GET /_search?size=5&from=5 
    GET /_search?size=5&from=10
    
    
    应该当心分页太深或者一次请求太多的结果。结果在返回前会被排序。但是记住一个搜索请求常常涉及多个
    分片。每个分片生成自己排好序的结果，它们接着需要集中起来排序以确保整体排序正确。
    
    GET http://172.16.55.185:9200/haoke/user/_search?size=1&from=2
```
- 在集群系统中深度分页
  - 为了理解为什么深度分页是有问题的，让我们假设在一个有5个主分片的索引中搜索。当我们请求结果的第一页（结果1到10）时，每个分片产生自己最顶端10个结果然后返回它们给请求节点(requesting node)，它再排序这所有的50个结果以选出顶端的10个结果。现在假设我们请求第1000页——结果10001到10010。工作方式都相同，不同的是每个分片都必须产生顶端的10010个结果。然后请求节点排序这50050个结果并丢弃50040个！
  - 你可以看到在分布式系统中，排序结果的花费随着分页的深入而成倍增长。这也是为什么网络搜索引擎中任何语句不能返回多于1000个结果的原因。

映射

前面我们创建的索引以及插入数据，都是由Elasticsearch进行自动判断类型，有些时候我们是需要进行明确字段类型的，否则，自动判断的类型和实际需求是不相符的。

自动判断的规则如下：    
JSON type                         Field type
Boolean:true or false             "boolean"
Whole number: 123                 "long"
Floating point: 123.45            "double"
String, valid date: "2014-09-15"  "date"
String: "foo bar"                 "string"


Elasticsearch中支持的类型如下：
类型                             表示的数据类型
String                           string , text , keyword
Whole number                     byte , short , integer , long
Floating point                   float , double
Boolean                          boolean
Date                             date

1.string类型在ElasticSearch 旧版本中使用较多，从ElasticSearch 5.x开始不再支持string，由text和 keyword类型替代。
2.text 类型，当一个字段是要被全文搜索的，比如Email内容、产品描述，应该使用text类型。设置text类
型以后，字段内容会被分析，在生成倒排索引以前，字符串会被分析器分成一个一个词项。text类型的
字段不用于排序，很少用于聚合。
3.keyword类型适用于索引结构化的字段，比如email地址、主机名、状态码和标签。如果字段需要进行
过滤(比如查找已发布博客中status属性为published的文章)、排序、聚合。keyword类型的字段只能通
过精确值搜索到。

创建明确类型的索引：

PUT http://172.16.55.185:9200/test1

{ "settings": { "index": { "number_of_shards": "2","number_of_replicas": "0" } },"mappings": { "person": { "properties": { "name": { "type": "text" },"age": { "type": "integer" },"mail": { "type": "keyword" },"hobby": { "type": "text" } } } } }


#查看映射：

GET http://172.16.55.185:9200/test1/_mapping

结构化查询
- term查询
  - term 主要用于精确匹配哪些值，比如数字，日期，布尔值或 not_analyzed 的字符串(未经分析的文本数据类型)：
    - ```
    { "term": { "age": 26 }} 
    { "term": { "date": "2014-09-01" }} 
    { "term": { "public": true }} 
    { "term": { "tag": "full_text" }}
    
    示例：
    POST http://172.16.55.185:9200/test1/person/_search 
    { "query" : { "term" : { "age" : 20 } } }
```
- terms查询
  - terms 跟 term 有点类似，但 terms 允许指定多个匹配条件。如果某个字段指定了多个值，那么文档需要一起去做匹配：
    - ```
    { "terms": { "tag": [ "search", "full_text", "nosql" ] } }
    
    
    示例：
    POST http://172.16.55.185:9200/test/person/_search 
    { "query" : { "terms" : { "age" : [20,21] } } }
```
- range查询
  - range 过滤允许我们按照指定范围查找一批数据
    - ```
    { "range": { "age": { "gte": 20, "lt": 30 } } }
    
    范围操作符包含：
    gt :: 大于
    gte :: 大于等于
    lt :: 小于
    lte :: 小于等于
    
    示例：
    POST http://172.16.55.185:9200/test1/person/_search 
    { "query": { "range": { "age": { "gte": 20, "lte": 22 } } } }
```
- exists 查询
  - exists 查询可以用于查找文档中是否包含指定字段或没有某个字段，类似于SQL语句中的 IS_NULL 条件
    - ```
    { "exists": { "field": "title" } }
    
    #这两个查询只是针对已经查出一批数据来，但是想区分出某个字段是否存在的时候使用。
    示例：
    POST http://172.16.55.185:9200/test1/user/_search 
    { "query": { "exists": {"field": "card" } } }    
    
     #必须包含 
```
- match查询
  - match 查询是一个标准查询，不管你需要全文本查询还是精确查询基本上都要用到它。如果你使用 match 查询一个全文本字段，它会在真正查询之前用分析器先分析 match 一下查询字符：
    - ```
    { "match": { "tweet": "About Search" } }
    如果用 match 下指定了一个确切值，在遇到数字，日期，布尔值或者 not_analyzed 的字符串时，它将为你搜索你给定的值
    { "match": { "age": 26 }} 
    { "match": { "date": "2014-09-01" }} 
    { "match": { "public": true }} 
    { "match": { "tag": "full_text" }}
```
- bool查询
  - bool 查询可以用来合并多个条件查询结果的布尔逻辑，它包含一下操作符：
    - must :: 多个查询条件的完全匹配,相当于 and 。
    - must_not :: 多个查询条件的相反匹配，相当于 not 。
    - should :: 至少有一个查询条件匹配, 相当于 or 。
      - 这些参数可以分别继承一个查询条件或者一个查询条件的数组： { "bool": { "must": { "term": { "folder": "inbox" }}, "must_not": { "term": { "tag": "spam" }}, "should": [ { "term": { "starred": true }}, { "term": { "unread": true }} ] } }
- 过滤查询
  - Elasticsearch也支持过滤查询，如term、range、match等。
    - ```
    查询年龄为20岁的用户。
    POST http://172.16.55.185:9200/test1/person/_search 
    { "query": { "bool": { "filter": { "term": { "age": 20 } } } } }
```
- 查询和过滤的对比
  - 一条过滤语句会询问每个文档的字段值是否包含着特定值。
  - 查询语句会询问每个文档的字段值与特定值的匹配程度如何。
    - 一条查询语句会计算每个文档与查询语句的相关性，会给出一个相关性评分 _score，并且按照相关性对匹配到的文档进行排序。这种评分方式非常适用于一个没有完全配置结果的全文本搜索.
  - 一个简单的文档列表，快速匹配运算并存入内存是十分方便的，每个文档仅需要1个字节。这些缓存的过滤结
    果集与后续请求的结合使用是非常高效的。
  - 查询语句不仅要查找相匹配的文档，还需要计算每个文档的相关性，所以一般来说查询语句要比过滤语句更耗时，并且查询结果也不可缓存.
  - 建议：
    - 做精确匹配搜索时，最好用过滤语句，因为过滤语句可以缓存数据。

中文分词

分词

分词就是指将一个文本转化成一系列单词的过程，也叫文本分析，在Elasticsearch中称之为Analysis。
- 举例：我是中国人 --> 我/是/中国人

分词api

POST http://172.16.55.185:9200/_analyze 
{ "analyzer":"standard", "text":"hello world" }

在结果中不仅可以看出分词的结果，还返回了该词在文本中的位置。

指定索引分词

POST http://172.16.55.185:9200/test/_analyze 
{ "analyzer": "standard", "field": "hobby", "text": "听音乐" }

内置分词

Standard:Standard 标准分词，按单词切分，并且会转化成小写

POST http://172.16.55.185:9200/_analyze 
{ "analyzer": "standard", "text": "A man becomes learned by asking questions." }


返回结果:
{
	"tokens": [{
		"token": "a",
		"start_offset": 0,
		"end_offset": 1,
		"type": "",
		"position": 0
	}, {
		"token": "man",
		"start_offset": 2,
		"end_offset": 5,
		"type": "",
		"position": 1
	}, {
		"token": "becomes",
		"start_offset": 6,
		"end_offset": 13,
		"type": "",
		"position": 2
	}, {
		"token": "learned",
		"start_offset": 14,
		"end_offset": 21,
		"type": "",
		"position": 3
	}, {
		"token": "by",
		"start_offset": 22,
		"end_offset": 24,
		"type": "",
		"position": 4
	}, {
		"token": "asking",
		"start_offset": 25,
		"end_offset": 31,
		"type": "",
		"position": 5
	}, {
		"token": "questions",
		"start_offset": 32,
		"end_offset": 41,
		"type": "",
		"position": 6
	}]
}

Simple :Simple分词器，按照非单词切分，并且做小写处理

POST http://172.16.55.185:9200/_analyze 
{ "analyzer": "simple", "text": "If the document doesn't already exist" }

结果

{
	"tokens": [{
		"token": "if",
		"start_offset": 0,
		"end_offset": 2,
		"type": "word",
		"position": 0
	}, {
		"token": "the",
		"start_offset": 3,
		"end_offset": 6,
		"type": "word",
		"position": 1
	}, {
		"token": "document",
		"start_offset": 7,
		"end_offset": 15,
		"type": "word",
		"position": 2
	}, {
		"token": "doesn",
		"start_offset": 16,
		"end_offset": 21,
		"type": "word",
		"position": 3
	}, {
		"token": "t",
		"start_offset": 22,
		"end_offset": 23,
		"type": "word",
		"position": 4
	}, {
		"token": "already",
		"start_offset": 24,
		"end_offset": 31,
		"type": "word",
		"position": 5
	}, {
		"token": "exist",
		"start_offset": 32,
		"end_offset": 37,
		"type": "word",
		"position": 6
	}]
}

Whitespace :Whitespace是按照空格切分。

POST http://172.16.55.185:9200/_analyze 
{ "analyzer": "whitespace", "text": "If the document doesn't already exist" }

结果:
{
	"tokens": [{
		"token": "If",
		"start_offset": 0,
		"end_offset": 2,
		"type": "word",
		"position": 0
	}, {
		"token": "the",
		"start_offset": 3,
		"end_offset": 6,
		"type": "word",
		"position": 1
	}, {
		"token": "document",
		"start_offset": 7,
		"end_offset": 15,
		"type": "word",
		"position": 2
	}, {
		"token": "doesn't",
		"start_offset": 16,
		"end_offset": 23,
		"type": "word",
		"position": 3
	}, {
		"token": "already",
		"start_offset": 24,
		"end_offset": 31,
		"type": "word",
		"position": 4
	}, {
		"token": "exist",
		"start_offset": 32,
		"end_offset": 37,
		"type": "word",
		"position": 5
	}]
}

Stop :Stop分词器，是去除Stop Word语气助词，如the、an等。

POST http://172.16.55.185:9200/_analyze 
{ "analyzer": "stop", "text": "If the document doesn't already exist" }

结果:
{
	"tokens": [{
		"token": "document",
		"start_offset": 7,
		"end_offset": 15,
		"type": "word",
		"position": 2
	}, {
		"token": "doesn",
		"start_offset": 16,
		"end_offset": 21,
		"type": "word",
		"position": 3
	}, {
		"token": "t",
		"start_offset": 22,
		"end_offset": 23,
		"type": "word",
		"position": 4
	}, {
		"token": "already",
		"start_offset": 24,
		"end_offset": 31,
		"type": "word",
		"position": 5
	}, {
		"token": "exist",
		"start_offset": 32,
		"end_offset": 37,
		"type": "word",
		"position": 6
	}]
}

Keyword:Keyword分词器，意思是传入就是关键词，不做分词处理。

POST http://172.16.55.185:9200/_analyze 
{ "analyzer": "keyword", "text": "If the document doesn't already exist" }

结果:
{
	"tokens": [{
		"token": "If the document doesn't already exist",
		"start_offset": 0,
		"end_offset": 37,
		"type": "word",
		"position": 0
	}]
}

中文分词

中文分词的难点在于，在汉语中没有明显的词汇分界点，如在英语中，空格可以作为分隔符，如果分隔不正确就会

造成歧义。如：我/爱/炒肉丝我/爱/炒/肉丝

常用中文分词器，IK、jieba、THULAC等，推荐使用IK分词器。

IK Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始，
IKAnalyzer已经推出了3个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析
算法的中文分词组件。新版本的IK Analyzer 3.0则发展为面向Java的公用分词组件，独立于Lucene项目，同
时提供了对Lucene的默认优化实现。
采用了特有的“正向迭代最细粒度切分算法“，具有80万字/秒的高速处理能力 采用了多子处理器分析模式，支
持：英文字母（IP地址、Email、URL）、数字（日期，常用中文数量词，罗马数字，科学计数法），中文词
汇（姓名、地名处理）等分词处理。 优化的词典存储，更小的内存占用。

IK分词器 Elasticsearch插件地址：https://github.com/medcl/elasticsearch-analysis-ik

#安装方法：将下载到的elasticsearch-analysis-ik-6.5.4.zip解压到/elasticsearch/plugins/ik 目录下即可。

#如果使用docker运行 
docker cp /tmp/elasticsearch-analysis-ik-6.5.4.zip 
elasticsearch:/usr/share/elasticsearch/plugins/ 
#进入容器 
docker exec -it elasticsearch /bin/bash 
mkdir /usr/share/elasticsearch/plugins/ik 
cd /usr/share/elasticsearch/plugins/ik 
unzip elasticsearch-analysis-ik-6.5.4.zip 
#重启容器即可 
docker restart elasticsearch

测试:
POST http://172.16.55.185:9200/_analyze 
{ "analyzer": "ik_max_word", "text": "我是中国人" }

结果:
{
	"tokens": [{
		"token": "我",
		"start_offset": 0,
		"end_offset": 1,
		"type": "CN_CHAR",
		"position": 0
	}, {
		"token": "是",
		"start_offset": 1,
		"end_offset": 2,
		"type": "CN_CHAR",
		"position": 1
	}, {
		"token": "中国人",
		"start_offset": 2,
		"end_offset": 5,
		"type": "CN_WORD",
		"position": 2
	}, {
		"token": "中国",
		"start_offset": 2,
		"end_offset": 4,
		"type": "CN_WORD",
		"position": 3
	}, {
		"token": "国人",
		"start_offset": 3,
		"end_offset": 5,
		"type": "CN_WORD",
		"position": 4
	}]
}

你可能感兴趣的:(工具,后端)

QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
利用Requests Toolkit轻松完成HTTP请求 nseejrukjhad http 网络协议网络 python
RequestsToolkit的力量：轻松构建HTTP请求Agent在现代软件开发中，API请求是与外部服务交互的核心。RequestsToolkit提供了一种便捷的方式，帮助开发者构建自动化的HTTP请求Agent。本文旨在详细介绍RequestsToolkit的设置、使用和潜在挑战。引言RequestsToolkit是一个强大的工具包，可用于构建执行HTTP请求的智能代理。这对于想要自动化与外
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
CX8903：Ebike自行车仪表电源方案开发,Ebike智能仪表电源芯片诚芯微科技社交电子
CX8903：电动Ebike自行车仪表电源方案开发,Ebike智能仪表电源芯片推荐。电动助力自行车EBIKE凭借其环保、健康、低噪、和便捷等特点，成为了越来越受欢迎的骑行便利交通工具。提供电动Ebike自行车仪表电源方案开发、E-BIKE电动助力自行车仪表供电电源解决方案。CX8903采用100V高压制造工艺（芯片最高耐压可到100V以上），SOP-8L贴片封装，CX8903内置100V/90mΩ
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Low Power概念介绍-Voltage Area 飞奔的大虎
随着智能手机，以及物联网的普及，芯片功耗的问题最近几年得到了越来越多的重视。为了实现集成电路的低功耗设计目标，我们需要在系统设计阶段就采用低功耗设计的方案。而且，随着设计流程的逐步推进，到了芯片后端设计阶段，降低芯片功耗的方法已经很少了，节省的功耗百分比也不断下降。芯片的功耗主要由静态功耗（staticleakagepower）和动态功耗(dynamicpower)构成。静态功耗主要是指电路处于等
mac电脑命令行获取电量小米人er 我的博客 macos 命令行
在macOS上，有几个命令行工具可以用来获取电量信息，最常用的是pmset命令。你可以通过以下方式来查看电池状态和电量信息：查看电池状态：pmset-gbatt这个命令会返回类似下面的输出：Nowdrawingfrom'BatteryPower'-InternalBattery-0(id=1234567)95%;discharging;4:02remainingpresent:true输出中包括电
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
摩托车加装车载手机充电usb方案/雅马哈USB充电方案开发诚芯微科技社交电子
长途骑行需要给手机与行车记录仪等设备供电，那么，加装USB充电器就相继在两轮电动车上应用起来了。摩托车加装usb充电方案主要应用于汽车、电动自行车、摩托车、房车、渡轮、游艇等交通工具。提供电动车USB充电器方案/摩托车加装usb充电方案/渡轮加装usb充电方案/游艇加装usb充电方案开发。摩托车加装车载手机充电usb方案、汽车游艇改装四孔面板装双USB车充点烟器5V/4A电动车USB充电器输入4.
如何选择最适合你的项目研发管理软件？TAPD卓越版全面解析北京云巴巴信息技术有限公司产品经理需求分析
在当今快速发展的科技时代，项目研发管理软件已成为企业不可或缺的重要工具。面对市场上琳琅满目的产品，如何选择一款适合自己团队的项目研发管理软件呢？本文将围绕项目研发管理软件的选择标准，重点介绍TAPD卓越版的特点、优势以及使用体验，让你更好地理解和选择适合自己的项目研发管理软件。项目研发管理软件的选择标准在选择项目研发管理软件时，我们需要考虑以下几个方面的因素：功能全面性：软件是否覆盖了从需求管理、
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
一次冒险追梦少年_4509
每个人应该都会经历很多冒险，这样你才能变得坚强起来，变得勇敢起来，冒险就是用来磨练自己，勇气的工具，接下来就给大家说说，我经历过的最吓人的冒险。2016年的夏天我和大爷大娘一起去北地捉知了我们边走边找，我负责拿着罐子大娘拿了一个电灯四处照，大爷就拿着一个棍子负责把知了，弄下来我们边走边捉，一会儿罐子就满了，就在我四处看分神的时候看见了一个知了接着我叫大爷大娘来拿知了我一看旁边没有人，我的心里十分害
视频号买1000个粉多少钱?视频号可以购买粉丝吗？开橱窗需要多少粉？爱吃菠萝的鱼
在视频号的发展初期，很多人都认为，视频号可以通过购买粉丝来提升用户质量。而这个说法，在我们使用视频号的过程中，发现了它是可以购买粉丝的。但是我们要知道，视频号的本质，是一款社交工具。而不是一个私域流量池。而很多人在做私域流量池的时候，就想着怎么通过购买粉丝来提升用户质量。但我觉得你真的是想多了。视频号涨粉咨询号码：1776206920517753965895视频号粉丝1000有什么好处1、视频号粉
果冻宝盒邀请码怎么填好，附6个顶级有效邀请码小小编007
在当今的电商时代，返利app已经成为了很多网购达人的必备工具。其中，果冻宝盒作为一款备受好评的返利软件，吸引了大量用户。而对于一些新手用户来说，填写果冻宝盒的邀请码可能会让他们感到困惑。本文将详细介绍果冻宝盒返利app，并指导用户如何正确填写邀请码。一、果冻宝盒返利app简介果冻宝盒是一款集折扣、返利、分享为一体的购物app。用户在果冻宝盒上购物时，不仅可以享受到商家提供的折扣，还可以获得果冻宝盒
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S