wolvesqun

es 分词配置

ElasticSearch是一个基于Lucene构建的开源，分布式，RESTful搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。支持通过HTTP使用JSON进行数据索引。

官方站点：http://www.elasticsearch.com/
中文站点：http://es-cn.medcl.net/

1.安装

必须先安装Java环境，并设置 JAVA_HOME => C:\Program Files\Java\jdk1.6.0_18

elasticsearch-rtf 中文入门集成包 https://github.com/medcl/elasticsearch-rtf
使用git签出，下载到本地。windows下，执行bin下面的elasticsearch.bat。linux下，执行bin下面或者service下面elasticsearch。

2.角色关系对照

elasticsearch 跟 MySQL 中定义资料格式的角色关系对照表如下

MySQL             elasticsearch
database                 index
table                         type

table schema mapping
row                          document
field                         field

选用原因

    主要原因有：实时性能优越；安装配置简单；RESTful API 和 JSON 格式的文档型数据，降低开发调试的难度。另外，Tire 这个 Gem 可以简单方便的与 ActiveRecord 整合。测试中发现：ES 自带了中文分词，支持中文搜索，但是，可以换用更高效精确的分词插件。
    业界资讯：GitHub searches 20TB of data using Elasticsearch, including 1.3 billion files and 130 billion lines of code.

简单介绍

    ElasticSearch 是开源搜索平台领域的一个新成员。 ElasticSearch（简称 ES）是一个基于 Lucene 构建的开源，分布式，RESTful 搜索引擎。设计用于云计算中，能够达到搜索实时、稳定、可靠和快速，并且安装使用方便。支持通过 HTTP 请求，使用 JSON 进行数据索引。

特点优势

    （1）Open Source（开源）
    （2）Apache Lucene（基于 Lucene）
    （3）Schema Free(模式自由)
    （4）Document Oriented(面向文档型的设计)
    （5）Real Time Data & Analytics（实时索引数据）
    （6）Distributed（分布式）
    （7）High Availability（高可靠性）
    （8）其他特性：RESTful API；JSON format；multi-tenancy；full text search；conflict management；per-operation persistence

================================================
分布式搜索elasticsearch 中文分词集成

对于索引可能最关系的就是分词了一般对于es 来说默认的smartcn 但效果不是很好

一个是ik的，一个是mmseg的，下面分别介绍下两者的用法，其实都差不多的，先安装插件，命令行：

下载ik相关配置词典文件到config目录:
   cd config

   wget http://github.com/downloads/medcl/elasticsearch-analysis-ik/ik.zip --no-check-certificate

   unzip ik.zip

   rm ik.zip

分词配置
ik分词配置，在elasticsearch.yml文件中加上
   index:
      analysis:
        analyzer:
          ik:
          alias: [ik_analyzer]
          type: org.elasticsearch.index.analysis.IkAnalyzerProvider
或
   index.analysis.analyzer.ik.type : “ik”

安装mmseg插件：
   bin/plugin -install medcl/elasticsearch-analysis-mmseg/1.1.0
下载相关配置词典文件到config目录
   cd config

   wget http://github.com/downloads/medcl/elasticsearch-analysis-mmseg/mmseg.zip --no-check-certificate

   unzip mmseg.zip

   rm mmseg.zip
mmseg分词配置，也是在在elasticsearch.yml文件中
   index:
      analysis:
        analyzer:
          mmseg:
          alias: [news_analyzer, mmseg_analyzer]
          type: org.elasticsearch.index.analysis.MMsegAnalyzerProvider


mmseg分词还有些更加个性化的参数设置如下
   index:
      analysis:
        tokenizer:
          mmseg_maxword:
          type: mmseg
          seg_type: "max_word"
          mmseg_complex:
          type: mmseg
          seg_type: "complex"
          mmseg_simple:
          type: mmseg
          seg_type: "simple"

这样配置完后插件安装完成，启动es就会加载插件。

定义mapping

在添加索引的mapping时就可以这样定义分词器

{
   "page":{
      "properties":{
         "title":{
            "type":"string",
            "indexAnalyzer":"ik",
            "searchAnalyzer":"ik"
         },
         "content":{
            "type":"string",
            "indexAnalyzer":"ik",
            "searchAnalyzer":"ik"
         }
      }
   }
}

indexAnalyzer为索引时使用的分词器，searchAnalyzer为搜索时使用的分词器。

java mapping代码如下：

XContentBuilder content = XContentFactory.jsonBuilder().startObject()
        .startObject("page")
          .startObject("properties")
            .startObject("title")
              .field("type", "string")
              .field("indexAnalyzer", "ik")
              .field("searchAnalyzer", "ik")
            .endObject()
            .startObject("code")
              .field("type", "string")
              .field("indexAnalyzer", "ik")
              .field("searchAnalyzer", "ik")
            .endObject()
          .endObject()
         .endObject()
       .endObject()

测试分词可用调用下面api，注意indexname为索引名，随便指定一个索引就行了

http://localhost:9200/indexname/_analyze?analyzer=ik&text=测试elasticsearch分词器

附：

ik分词插件项目地址：https://github.com/medcl/elasticsearch-analysis-ik

mmseg分词插件项目地址：https://github.com/medcl/elasticsearch-analysis-mmseg

配置好的es版本，地址如下：https://github.com/medcl/elasticsearch-rtf

================================================

cluster

　　代表一个集群，集群中有多个节点，其中有一个为主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来说的。es的一个概念就是去中心化，字面上理解就是无中心节点，这是对于集群外部来说的，因为从外部来看es集群，在逻辑上是个整体，你与任何一个节点的通信和与整个es集群通信是等价的。

shards

　　代表索引分片，es可以把一个完整的索引分成多个分片，这样的好处是可以把一个大的索引拆分成多个，分布到不同的节点上。构成分布式搜索。分片的数量只能在索引创建前指定，并且索引创建后不能更改。

replicas

　　代表索引副本，es可以设置多个索引的副本，副本的作用一是提高系统的容错性，当个某个节点某个分片损坏或丢失时可以从副本中恢复。二是提高es的查询效率，es会自动对搜索请求进行负载均衡。

recovery

　　代表数据恢复或叫数据重新分布，es在有节点加入或退出时会根据机器的负载对索引分片进行重新分配，挂掉的节点重新启动时也会进行数据恢复。

river

　　代表es的一个数据源，也是其它存储方式（如：数据库）同步数据到es的一个方法。它是以插件方式存在的一个es服务，通过读取river中的数据并把它索引到es中，官方的river有couchDB的，RabbitMQ的，Twitter的，Wikipedia的。

gateway

　　代表es索引快照的存储方式，es默认是先把索引存放到内存中，当内存满了时再持久化到本地硬盘。gateway对索引快照进行存储，当这个es集群关闭再重新启动时就会从gateway中读取索引备份数据。es支持多种类型的gateway，有本地文件系统（默认），分布式文件系统，Hadoop的HDFS和amazon的s3云存储服务。

discovery.zen

　　代表es的自动发现节点机制，es是一个基于p2p的系统，它先通过广播寻找存在的节点，再通过多播协议来进行节点之间的通信，同时也支持点对点的交互。

Transport

　　代表es内部节点或集群与客户端的交互方式，默认内部是使用tcp协议进行交互，同时它支持http协议（json格式）、thrift、servlet、memcached、zeroMQ等的传输协议（通过插件方式集成）。

------------------------------------------------

云计算平台(检索篇)-Elasticsearch-配置篇

ElasticSearch安装好后我们需要对ElasticSearch的Config进行一系列配置,具体如下:



cluster.name: rmscloud

集群名称



node.name: "rcnode21"

节点名称



node.tag: "tag21"

节点标签



node.data: true

节点是否存储数据



index.number_of_shards: 5

索引分片数



index.number_of_replicas: 1

索引副本数



path.data: /data/elasticsearch/data

数据目录存放位置



path.logs: /data/elasticsearch/log

日志数据存放位置

bootstrap.mlockall: true

内存



index.cache.field.max_size: 500000

索引缓存



index.cache.field.expire: 5m

索引缓引过期时间



其它配置基本上不用调，具体可参考附录。另外需要的调配置是分词具体例子如下：

index:

analysis:

    tokenizer:

      my_pinyin:

          type: pinyin

          first_letter: "prefix"

          padding_char: ""

      pinyin_first_letter:

          type: pinyin

          first_letter: "only"

      mmseg_maxword:

          type: mmseg

          seg_type: "max_word"

      mmseg_complex:

          type: mmseg

          seg_type: "complex"

      mmseg_simple:

          type: mmseg

          seg_type: "simple"

      semicolon_spliter:

          type: pattern

          pattern: ";"

      pct_spliter:

          type: "pattern"

          pattern: "[%]+"



    filter:

      ngram_min_2:

          max_gram: 10

          min_gram: 2

          type: nGram

      ngram_min_1:

          max_gram: 10

          min_gram: 1

          type: nGram

      min2_length:

          min: 2

          max: 4

          type: length



    analyzer:

      lowercase_keyword:

          type: custom

          filter: [standard,lowercase]

          tokenizer: standard

      lowercase_keyword_ngram_min_size1:

          type: custom

          filter: [ngram_min_1,standard,lowercase]

          tokenizer: nGram

      lowercase_keyword_ngram_min_size2:

          type: custom

          filter: [ngram_min_2,standard,lowercase,min2_length,stop]

          tokenizer: nGram

      lowercase_keyword_ngram:

          type: custom

          filter: [ngram_min_1,standard,lowercase]

          tokenizer: nGram

      lowercase_keyword_without_standard:

          type: custom

          filter: [lowercase]

          tokenizer: keyword

      lowercase_whitespace:

          type: custom

          filter: [lowercase]

          tokenizer: whitespace

      ik:

          alias: [ik_analyzer]

          type: org.elasticsearch.index.analysis.IkAnalyzerProvider

      ike:

          alias: [ike_analyzer]

          type: org.elastichsearch.ik.index.IkAnalyzerProvider

          usermode: true

      mmseg:

          alias: [mmseg_analyzer]

          type: org.elasticsearch.index.analysis.MMsegAnalyzerProvider

      comma_spliter:

          type: "pattern"

          pattern: "[,|\\s]+"

      pct_spliter:

          type: "pattern"

          pattern: "[%]+"

      custom_snowball_analyzer:

          type: "snowball"

          language: "English"

      simple_english_analyzer:

          type: "custome"

          tokenizer: whitespace

          filter: [standard,lowercase,snowball]

      edge_ngram:

          type: custom

          tokenizer: edgeNGram

          filter: [lowercase]

      pinyin_ngram_analyzer:

          type: custom

          tokenizer: my_pinyin

          filter: [standard,lowercase,nGram]

      pinyin_first_letter_analyzer:

          type: custom

          tokenizer: pinyin_first_letter

          filter: [standard,lowercase]

      custom_auth_en_analyzer:

          type: custom

          tokenizer: semicolon_spliter

          filter: [standard,snowball,lowercase,trim]



index.analysis.analyzer.default.type : "keyword"





进行完Config的配置后还需要对bin目录下面的elastichsearch进行配置，此处主要是控制JVM的一些参数

ES_MIN_MEM=27G

ES_MAX_MEM=27G

调整JVM的最大内存和最小内存就可以了,其它JVM参数见附录。

------------------------------------------------

云计算平台(检索篇)-Elasticsearch-Linux优化篇

Elasticsearch在Linux系统环境中运行，需要对Linux系统进行一系列调优，这样可以提高ElasticSearch的检索效率。主要的需要调优的参数如下：



    1.       Linux调整文件数

/etc/security/limits.conf

在文件中增加

* soft nofile 8192

* hard nofile 20480

* - memlock unlimited



在登陆中添加下面命令行

/etc/pam.d/login

session required /lib64/security/pam_limits.so(在不同系统中文件位置不同)



    2.       关闭文件的更新时间

/etc/fstab

在文件中添加一行

/dev/sda7               /data/elasticsearch     ext4    noatime,nodiratime 0 0

(此处的/dev/sda7 可以通过df –h查看目录所在分区)

    3.       修改防火墙设置

为方便调适暂时关闭

/etc/init.d/iptables stop

------------------------------------------------
云计算平台(检索篇)-Elasticsearch-索引篇

Es索引的我们可以理解为数据入库的一个过程。我们知道Es是基于Lucene框架的一个分布式检索平台。索引的同样也是基于Lucene创建的，只不过在其上层做了一些封闭。

         Es的索引过程比较通用的大体上有两种方式，其一是得用自身Rvier从数据库中拉数据，当然现在已经有了很多相关插件，Mysql、MDB等数据库。这种方式可以做到近时实索引，因为River是定时从数据库拉数据与索引数据进行比对。这种方式经较适合数据有周期的更新。

         下面以Mysql-River plugins为例：

1、    安装Mysql-River 插件

bin/plugin -install /path/to/plugin/river-mysql.zip

2、    当安装好Mysql-River plugin 后，一般可以马上使用，但建立重新加载Es集群。查看log中是否正确的加载了Mysql-River Plugin(在后面我们讲到如何开发相关Plugin)。

3、    配置Es索引与Mysql 数据之间的对应关系。

建立索引(相关Mapping 信息如下:)

curl -XPUT 127.0.0.1:9200/elasticsearchindexname/elasticsearchtypename/_mapping -d

"elasticsearchtypename" : {

                   "_timestamp":{

                            "enabled":true

                   }

}

                   将River索引的配置也提交到Es集群中:

                   curl -XPUT 127.0.0.1:9200/_river/river-mysql/_meta –d

                   {

             "type":"mysql",

                "mysql":{

        "index":"elasticsearchindexname",(索引名称)

        "type":"elasticsearchtypename",(类型)

        "hostname":"127.0.0.1:3306",(服务器)

        "database":"ESDATA",(数据库名称)

        "username":"root",(用户名)

        "password":"",(密码)

        "uniqueIdField":"_ID",(标识)

        "query":"select RID,PNAME FROM wf_mds_chn_biaozhun",(SQL语句)

        "deleteOldEntries":"false",

        "interval":"60000"(更新周期)

    }

}

同时你会在Es看到你的索引中开始导数据了，当然些时也会出现一个对应的保存配置的索引，现在很多River都只能索引字段与数据库的字段一一对应。如果需要个性化定制，可以到Github上下载相关代码进行修改。我们可以看到只要继续River(接口)和AbstractRiverComponent（类）便可以进行相关开发了。

public class MysqlRiver extends AbstractRiverComponent implements River



         另外一种索引方式当然就是我们把数据Put到Es中去了，最简单的我们可以用下面命令就完成:

$ curl -XPUT 'http://localhost:9200/twitter/tweet/1' -d '{

    "user" : "kimchy",

    "post_date" : "2009-11-15T14:12:12",

    "message" : "trying out Elastic Search"

}'

对上面的命令解释一下:

Twitter:索引名称

Tweet：类型名称

1：ID值

具体我会在下篇中讲解索引名称和类型的关系，当然-d 后面的就是值了。这是单条Put数据的方式虽然简单，但是如果说数据量很大的情况下还是不建议用这种方式，可以改用批量导入的方式也就是传说中的Bluk了，Bluk原量很简单，我们把数据放到缓存中，一次Put多条数据到Es集群中去,Bluk当然要用代码实现了，给出一个例子如下：

public static void Index() throws ElasticSearchException, IOException, NumberFormatException, SQLException {

                   // TODO Auto-generated method stub

                   // Node node = nodeBuilder().client(true).node();

                   Settings settings = ImmutableSettings.settingsBuilder()

                                     .put("cluster.name", "elasticsearch_wf").build();

                   Client client = new TransportClient(settings)

                                     .addTransportAddress(new InetSocketTransportAddress(

                                                        "168.160.200.250", 9300));



                   ��е��ܼ�¼��ֳ�5000��һ��ѯ

                   int countRe=100000000; //MySqlClass.getCount("select count(*) from test");

                   if(countRe>0)

                   {

                            int readercount=1;

                            if(countRe>5000)

                            {

                                     readercount=countRe%5000==0?countRe/5000:countRe/5000+1;

                            }



                            ÿ�ζ�ȡ5000��¼

                            for(int j=0;j
                            {

                                     ResultSet rs = MySqlClass.executeQuery("select * from test");

                                     BulkRequestBuilder bulkRequest = client.prepareBulk();

                                     try {



                                               if (rs != null) {

                                                        int i = 1;

                                                        while (rs.next()) {

                                                                 bulkRequest.add(client.prepareIndex("qtest", String.valueOf(i++)).setSource(

                                                                                    jsonBuilder().startObject()

                                                                                                       .field("id", rs.getInt("id"))

                                                                                                       .field("�й�", rs.getString("title"))

                                                                                                       .field("AB_EN", rs.getString("descript"))

                                                                                                       .field("AF_CN",rs.getString("text"))

                                                                                                       .endObject()));

                                                        }

                                                        BulkResponse bulkResponse = bulkRequest.execute().actionGet();

                                                        if (bulkResponse.hasFailures()) {

                                                                 /* has Failures handler Error */

                                                        }

                                               }

                                     } catch (Exception e) {

                                               e.printStackTrace();

                                     }

                            }

                   }

                   client.close();

         }

上面只是一个简单的例子，大量可以考虑用从线程方式，另外Client链接数其实还是比较占资源的，大家可以考虑将出封闭到一个链接池中，提供效率。

         整个建索引的过程Es在Lucene的基础上还是做了很多的优化，但主体上我们对应到Lucene里面基实就是如下代码：

         public class Index {

         private IndexWriter writer = null;

         private static Analyzer ANALYZER = new IKAnalyzer();

         private String FilePath = null;



         public Index(String FilePath, String IndexPath) {

                   try {

                            IndexWriterConfig writerConfig = new IndexWriterConfig(

                                               Version.LUCENE_36, ANALYZER);

                            this.writer = new IndexWriter(

                                               FSDirectory.open(new File(IndexPath)), writerConfig);

                            this.FilePath = FilePath;

                   } catch (Exception e) {

                            e.printStackTrace();

                   }

         }



         /*

          * Init Create Index

          */

         public void Init() {

                   try {

                            if (FilePath.length() > 0) {

                                     // 读目录中txt文件

                                     File file = new File(FilePath);

                                     List files = new ArrayList();

                                     this.ListAllFile(file, files);



                                     // //将File转换为 Document对象

                                     for (File sfs : files) {

                                               this.writer.addDocument(this.getDocument(sfs));

                                     }

                            }

                   } catch (Exception e) {

                            e.printStackTrace();

                   }

         }



         /*

          * Close Index

          */

         public void Close() {

                   try {

                            this.writer.commit();

                            this.writer.close();

                   } catch (Exception e) {

                            e.printStackTrace();

                   }

         }



         /*

          * 获取所有txt文件

          */

         private List ListAllFile(File fileOrDir, List files)

                            throws Exception {

                   if (fileOrDir != null && files != null) {

                            if (fileOrDir.isDirectory()) {

                                     File[] fs = fileOrDir.listFiles();

                                     for (File sfs : fs) {

                                               if (sfs.isDirectory())

                                                        this.ListAllFile(sfs, files);

                                               else files.add(sfs);

                                     }

                            } else {

                                     files.add(fileOrDir);

                            }

                   }

                   return null;

         }



         /*

          * Get Document

          */

         private Document getDocument(File f) throws Exception {

                   Document doc = new Document();

                   FileInputStream is = new FileInputStream(f);

                   byte[] buf = new byte[is.available()];

                   is.read(buf);

                   String contentStr = new String(buf,"GBK");

                   Field content = new Field("content", contentStr, Field.Store.YES,

                                     Field.Index.ANALYZED);

                   doc.add(content);

                   Field path = new Field("path", f.getAbsolutePath(), Field.Store.YES,

                                     Field.Index.ANALYZED);

                   Field size=new Field("size",String.valueOf(f.getTotalSpace()),Field.Store.YES,Field.Index.NOT_ANALYZED);

                   doc.add(size);

                   Random rm=new Random();

                   int year=rm.nextInt(20);

                   Field time=new Field("time",String.valueOf(1990+year),Field.Store.YES,Field.Index.NOT_ANALYZED);

                  doc.add(time);

                   doc.add(path);

                   is.close();

                   return doc;

         }

}

------------------------------------------------
云计算平台(检索篇)-Elasticsearch-Mapping篇

         Es Mapping篇主要是讲解Mapping的一些相关配置与需要注意的地方，说到Mapping大家可能觉得有些不解，其实我大体上可以将Es 理解为一个数据管理平台，那么index 当然就是库了，type可以理解为表,mapping可以理解为表的结构和相关设置的信息（当然mapping有更大范围的意思）。Mapping的作用域也是从cluster、node、index、type。

curl -XPOST localhost:9200/wf_mds_org（索引名称） -d '{

    "settings": {

        "number_of_shards": 1,

        "number_of_replicas": 0,

        "index.refresh_interval": "-1",

        "index.translog.flush_threshold_ops": "100000"

    },

    "mappings": {

        "org": {   //(类型)

            "_all": {

                "analyzer": "ike"

            },

            "_source": {

                "compress": true

            },

            "properties": {

                "_ID": {

                    "type": "string",

                    "include_in_all": true,

                    "analyzer": "keyword"

                },

                                     "NAME": {

                    "type": "multi_field",

                    "fields": {

                        "NAME": {

                            "type": "string",

                            "analyzer": "keyword"

                        },

                        "IKO": {

                            "type": "string",

                            "analyzer": "ike"

                        }

                    }

                },

                                     "SHORTNAME": {

                    "type": "string",

                    "index_analyzer": "pct_spliter",

                    "search_analyzer": "keyword",

                    "store": "no"

                },

                                     "OLDNAME": {

                    "type": "multi_field",

                    "fields": {

                        "OLDNAME": {

                            "type": "string",

                            "analyzer": "keyword"

                        },

                        "IKO": {

                            "type": "string",

                            "analyzer": "ike"

                        }

                    }

                },

                                     "TNAME": {

                    "type": "string",

                    "analyzer":"custom_snowball_analyzer",

                    "store": "no"

                },

                                     "TSNAME": {

                    "type": "string",

                    "index": "no",

                    "store": "no"

                },

                                     "TONAME": {

                    "type": "string",

                    "index": "no",

                    "store": "no"

                }

            }

        }

    }

}'

上面给出了一个完整Mapping，我们可将Mapping信息大致分成settings和mappings两个部分，settings主要是作用于index的一些相关配置信息，如分片数、副本数等（分片和副本在es简介中讲过，更加详细的东西会在索引优化篇中讲）、tranlog同步条件、refresh条条等。Mappings部分主是要结果构的一些说明,mappings 我们可以看到主体上大致又分成_all、_source、properites这三个部分。

1、_all:主要指的是All Field字段，我们可以将一个或都多个包含进不，在进行检索时无需指定字段的情况下检索多个字段。前提是你得开启All Field字段

"_all" : {"enabled" : true}

2、_source：主要指的是Source Field字段Source可以理解为Es除了将数据保存在索引文件中，另外还有一分源数据。_source字段我在们进行检索时相当重要，如果在{"enabled" : false}情况下默认检索只会返回ID，你需通过Fields字段去倒索索引中去取数据，当然效率不是很高。如果觉得enabale:true时，索引的膨涨率比较大的情况下可以通过下面一些辅助设置进行优化：

Compress:是否进行压缩，建议一般情况下将其设为true

"includes" : ["author", "name"],

"excludes" : ["sex"]

上面的includes和 excludes主要是针对默认情况下面_source一般是保存全部Bulk过去的数据，我们可以通过include,excludes在字段级别上做出一些限索。

3、properites部分是最重要的部分主要是针对索引结构和字段级别上面的一些设置

"NAME": { //字段项名称对应lucene里面FiledName

        "type": "string",//type为字段项类型

        "analyzer": "keyword"//字段项分词的设置对应Lucene里面的Analyzer

        },

在Es中字段项的 type是一个很重要的概念，在Es中在Lucene的基础上提供了比较多的类型，而这些类型对应这一些相关的检索特性如 Date型我可以使用 [2001 TO 2012]的方式进行范围检索等，Es 的类型有如下一些：

简单类型：

String:字符型最常用的

Integer:整型

Long:长整型

Float:浮点型

Double:双字节型

Boolean：布尔型

复杂类型：

Array：数组型

“lists”:{{“name”:”…”},{“name”:”…”}}

Object:对象类型

“author”:{“type”:”object”,”perperites”:{“name”:{“type”:”string”}}}

说到Array和Object有一个性能上的问题，Es中提供了Facet检索，据Es的作者提供的消息，在做Facet时object类型相比与array的内存要占用的少，但我本人经过测试效果不是很明显有兴趣的可以测试一下。

Multi_field：多分词字段，针对一个字段提供多种分词方式

Nested: 嵌入类型用的还是比较多的

         类型常用的也就这些了，还有一些类型大家可以参考官网，另外一个比较重的方面的就是分词了（analyzer），不管在目前任何检索系统是分词决定这检索的查全与查准及索引的膨涨率等。在Es中analyzer的作用域也是从cluster、index、filed这三个作用域。Cluster的配置在配置中讲过，下面以Field为主（另外具体的分词一些相关东西会在分词篇中讲）

Analyzer，在Lucene中是一个分词器的概念，我们知道Es是建立在Lucene之上的，所以这里的Analzyer同样的也适用，Mapping 中的Analyzer主在是指定字段采用什么分词器，具体的程序和配置分词在插件和配置都有过一些说明。

Analyzer在Es中分为index_analyzer和search_analyzer

Index_analzyer：指的是索引过程中采用的分词器

Search_analyzer:指的是检索过程中采用的分词器

我们知道index和search是两个过程，但是尽量保证这两个过程和分词方式一致这样可以保证查全和查准，否则再牛B的分词，index和search采用的不相同也是无用功。

         与analyzer与之相关的就是别外一项index项

"HC":{ "type":"string", "index":"no", "store":"no"}

         Index表示该字段是否索引，如果index为no那个analyzer设为啥也没用。

最后是”store”项了store项表示该项是否存储到倒索索引中去，并不是_source，当项mapping中还有很多可以设置和优化的地方，会面在慢慢讨论。在mapping中index和store如果大家有时候觉得有点和source搞不清楚，大家可以参考lucene中的Field.Store.YES,Field.Index.NOT_ANALYZED,Field.Index等相关设置就比较明白了。

-----------------------------------------------
云计算平台(检索篇)-Elasticsearch-索引优化篇

         ES索引优化篇主要从两个方面解决问题，一是索引数据过程；二是检索过程。

索引数据过程我在上面几篇文章中有提到怎么创建索引和导入数据，但是大家可能会遇到索引数据比较慢的过程。其实明白索引的原理就可以有针对性的进行优化。ES索引的过程到相对Lucene的索引过程多了分布式数据的扩展，而这ES主要是用tranlog进行各节点之间的数据平衡。所以从上我可以通过索引的settings进行第一优化：

         "index.translog.flush_threshold_ops": "100000"

         "index.refresh_interval": "-1",

         这两个参数第一是到tranlog数据达到多少条进行平衡，默认为5000，而这个过程相对而言是比较浪费时间和资源的。所以我们可以将这个值调大一些还是设为-1关闭，进而手动进行tranlog平衡。第二参数是刷新频率，默认为120s是指索引在生命周期内定时刷新，一但有数据进来能refresh像lucene里面commit,我们知道当数据addDoucment会，还不能检索到要commit之后才能行数据的检索所以可以将其关闭，在最初索引完后手动refresh一之，然后将索引setting里面的index.refresh_interval参数按需求进行修改，从而可以提高索引过程效率。

         另外的知道ES索引过程中如果有副本存在，数据也会马上同步到副本中去。我个人建议在索引过程中将副本数设为0，待索引完成后将副本数按需量改回来，这样也可以提高索引效率。

         "number_of_replicas": 0

         上面聊了一次索引过程的优化之后，我们再来聊一下检索速度比较慢的问题，其实检索速度快度与索引质量有很大的关系。而索引质量的好坏与很多因素有关。

一、分片数

分片数，与检索速度非常相关的的指标，如果分片数过少或过多都会导致检索比较慢。分片数过多会导致检索时打开比较多的文件别外也会导致多台服务器之间通讯。而分片数过少为导至单个分片索引过大，所以检索速度慢。

在确定分片数之前需要进行单服务单索引单分片的测试。比如我之前在IBM-3650的机器上，创建一个索引，该索引只有一个分片，分别在不同数据量的情况下进行检索速度测试。最后测出单个分片的内容为20G。

所以索引分片数=数据总量/单分片数

目前，我们数据量为4亿多条，索引大小为近1.5T左右。因为是文档数据所以单数据都中8K以前。现在检索速度保证在100ms 以下。特别情况在500ms以下，做200,400,800，1000，1000+用户长时间并发测试时最坏在750ms以下.

二、副本数

副本数与索引的稳定性有比较大的关系，怎么说，如果ES在非正常挂了，经常会导致分片丢失，为了保证这些数据的完整性，可以通过副本来解决这个问题。建议在建完索引后在执行Optimize后，马上将副本数调整过来。

大家经常有一个误去副本越多，检索越快，这是不对的，副本对于检索速度其它是减无增的我曾做过实现，随副本数的增加检索速度会有微量的下降，所以大家在设置副本数时，需要找一个平衡值。另外设置副本后，大家有可能会出现两次相同检索，出现出现不同值的情况，这里可能是由于tranlog没有平衡、或是分片路由的问题，可以通过?preference=_primary 让检索在主片分上进行。

三、分词

其实分词对于索引的影响可大可小，看自己把握。大家越许认为词库的越多，分词效果越好，索引质量越好，其实不然。分词有很多算法，大部分基于词表进行分词。也就是说词表的大小决定索引大小。所以分词与索引膨涨率有直接链接。词表不应很多，而对文档相关特征性较强的即可。比如论文的数据进行建索引，分词的词表与论文的特征越相似，词表数量越小，在保证查全查准的情况下，索引的大小可以减少很多。索引大小减少了，那么检索速度也就提高了。

四、索引段

索引段即lucene中的segments概念，我们知道ES索引过程中会refresh和tranlog也就是说我们在索引过程中segments number不至一个。而segments number与检索是有直接联系的，segments number越多检索越慢，而将segments numbers 有可能的情况下保证为1这将可以提到将近一半的检索速度。

$ curl -XPOST 'http://localhost:9200/twitter/_optimize? max_num_segments =1'

五、删除文档

删除文档在Lucene中删除文档，数据不会马上进行硬盘上除去，而进在lucene索引中产生一个.del的文件，而在检索过程中这部分数据也会参与检索，lucene在检索过程会判断是否删除了，如果删除了在过滤掉。这样也会降低检索效率。所以可以执行清除删除文档。

$ curl -XPOST 'http://localhost:9200/twitter/_optimize? only_expunge_deletes =true'

-----------------------------------------------
ES JVM 设置

JVM参数


ES默认值


环境变量名

-Xms


256m




-Xmx


1g




-Xms   and –Xmx







-Xmn







-XX:MaxDirectMemorySize







-Xss


256k




-XX:UseParNewGC


+




-XX:UseConcMarkSweepGC


+






-XX:CMSInitiatingOccupancyFraction


75





75




-XX:UseCMSInitiatingOccupancyOnly







-XX:UseCondCardMark





我们可以注意到ES JVM Heap内存设置为在256M在1GB之间.

         这个设置是为在开发和示范环境中使用的,开发人员可以通过简单地安装ES就可以使用了，但是这样的内存设置在很多情况下都是不够用的，我在需要设置更大的值。

ES_MIN_MEM/ES_MAX_MEM 用于控制jvm的堆内存，另外还有ES_HEAP_SEIZ,这样我可以设置更多的堆内存用于ES,另外建议不在启动内存堆平衡，因为这样会浪费很大的性能。

ES_HEAP_NEWSIZE这个参数用于控制堆内存的子集，即新生代堆控制

ES_DIRECT_SIZE，我们可以对应到Direct Memory Size这个参数，在JVM管理数据中使用的是NIO，本机内存可以映射到虚拟地址空间，在X64的架构上更有效，在ES中没有选择进行设置，但是有一个问题，本机直接内存的分配不会受到Java堆大小的限制，但是即然是内存那肯定还是要受到本机物理内存（包括SWAP区或者Windows虚拟内存）的限制的，一般服务器管理员配置JVM参数时，会根据实际内存设置-Xmx等参数信息，但经常忽略掉直接内存，使得各个内存区域总和大于物理内存限制（包括物理的和操作系统级的限制），而导致动态扩展时出现OutOfMemoryError异常。

下面例出一些JVM参数设置

JVM parameter   Garbage collector

-XX:+UseSerialGC   serial collector

-XX:+UseParallelGC   parallel collector

-XX:+UseParallelOldGC   Parallel compacting collector

-XX:+UseConcMarkSweepGC   Concurrent-Mark-Sweep ( CMS ) collector

-XX:+UseG1GC         Garbage-First   collector (G1)

UseParNewGC和UseConcMarkSweepGC是结并并行和行发性的垃圾回收机制，在JAVA6中将默认为UserParNewGC和UseGoncMarkSweepGC并禁用串行收集器.

UseCondCardMark 将在在高度并发的情况下，将些值注释掉

总结：

       1、修改MAX 和MIN Heap大小设置。

         2、设置垃圾回收百分比

         3、如果在JAVA7中禁用默认的G1垃圾回收机制。

JVM内存分为如下几段：

         JVM CODE用于内部代码存放

         Noe-heap memory用于加载类

         Stack memory 用于存放本地变量和线程操作数

         Heap memory 存放引用类型对象

         Direct Buffer，缓冲输入，输出数据

         Heap memory大小设置是非常重要的，因为java的运行取决于一个合理的heap的大小,如果设置太小，在许多垃圾回收或是高性能的情况下就会出现OutOfMemory异常。如果堆太大，垃圾回收将需要更大的数据，该算法将要面对更高数量的存活堆，这样操作系统也会面对较大的压力。

         Non-heap内存分配是由java应用程序自动设置的，没有办法控制这个参数，因为它是由JAVA应用程序代码决定的。

垃圾回收与Lucene段

        在ES中的垃圾回收器是集用的CMS垃圾回收，这种回收器不是提高敢回收的效率可是降低了回收的次数，但是面对比较大的数据集合时，这种回收可能需要的时间更长。

         而这种大的数据集合主要是在Lucene的索引中，因些可以将索引的段进行一行调优工作，提高GC的效率。

index.merge.policy.segments_per_tier

减少分页

         在大堆内存的情况下，如果内存不足时会与操作系统的SWAP空间进行分页数据的交换，但是这种交换是非常慢的，这种会降低整体性能。

垃圾回收器的选择

JAVA 7中的默认是G1垃圾回收器，这种回收器和CMS回收相对，他在于处理吞吐量，但是如果在大堆的情况下CMS回收器在性能上将超过G1.

性能调优策略

1、收集日志

2、对日志进行分析

3、选择你要优化的目标

4、计划优化

5、应用新有设置

6、监控程序在新设置后的运行情况

7、反复试尝

ES 垃圾回收日志格式

将日志等级调用警告在垃圾回收时你能看到如下信息:

LogFile


说明

Gc


垃圾回收运行

ParNew


新生代垃圾回收器

duration 2.6m


垃圾回收花费时间

collections [1]/[2.7m]


一个收集器运行花费2.7M

memory [2.4gb]


预设2.4GB

[2.3gb]/[3.8gb]


现在使用2.3GB/总共3.8GB

Code Cache [13.7mb]->[13.7mb]/[48mb]


代码缓存

Par Eden Space [109.6mb]->[15.4mb]/[1gb]


Par   Eden Space使用空间

Par Survivor Space[136.5mb]->[0b]/[136.5mb]


Par   Survivor Space

CMS Old Gen [2.1gb]->[2.3gb]/[2.6gb]


CMS Old Gen

CMS Perm Gen [35.1mb]->[34.9mb]/[82mb]


CMS Perm Gen



建议：

1、ES不要运行在6U22之前因之多版本的JDK存在许多的bug,尽量使用Sun/Oracle比较最出的JDK6-7因为里面修复很多bug.

         如果在JAVA7正式发布的情况下最好使用JDK7(不过要到2013了)

2、考虑到ES是一个比较新的软件，利用最先的技术来获取性能，尽量从JVM中来挤压性能，另外检索您的操作系统是否是最新版的，尽量使用最新版的操作系统。

3、做好随时更新JAVA版本和ES的版本的情况，因为每季度或是每年都会有新的版本出来。所以在做好版本更新的准备

4、测试从小到大，因为ES的强在多个节点的部署，一个节点是不足以测试出其性能，一个生产系统至少在三个节点以上。

5、测试JVM

6、如果索引有更新请记住对索引段的操作(index.merge.policy.segments_per_tier)

7、在性能调优之前，请先确定系统的最大性能和最大吞吐量

8、启用日志记录对JAVA垃圾回怍机制，有助于更好的诊断，以至于来调整你的系统

9、提高CMS垃圾收集器,您可以添加一个合理的- xx:CMSWaitDuration参数

10、如果堆大小趣过6-8GB,请选择使用CMS

-----------------------------------------------
ElasticSearch教程（3）——ElasticSearch的插件
更多 0
插件 ElasticSearch 教程

插件作为一种普遍使用的，用来增强原系统核心功能的机制，得到了广泛的使用，elasticsearch也不例外。
1. 安装elasticsearch插件

从0.90.2安装其实很简单，有三种方式，

1.1 在确保你网络顺畅的情况下，执行如下格式的命令即可：

plugin --install //

具体的//可参加各插件的使用说明。

1.2 如果网络不太顺畅，可以下载好插件的压缩包后以如下方式安装：

bin/plugin --url file://path/to/plugin --install plugin-name

1.3 你也可以直接将插件的相关文件拷贝到plugins目录下面，需要注意的是，这种方式需要特别留意插件的种类。
2. 如何查看当前已经加载的插件

curl -XGET 'http://localhost:9200/_nodes/plugin'

或者可以指定某个实例

curl -XGET 'http://localhost:9200/_nodes/10.0.0.1/plugin'

3. 个人强力推荐的插件

要想知道整个插件的列表，请访问http://www.elasticsearch.org/guide/reference/modules/plugins/ 插件还是很多的，个人认为比较值得关注的有以下几个，其他的看你需求，比如你要导入数据当然就得关注river了。

3.1 BigDesk

该插件可以查看集群的jvm信息，磁盘IO，索引创建删除信息等，适合查找系统瓶颈，监控集群状态等，可以执行如下命令进行安装，或者访问项目地址:https://github.com/lukas-vlcek/bigdesk

bin/plugin -install lukas-vlcek/bigdesk

说明：ElasticSearch HQ功能跟这个插件也很强大。

3.2 Head

可以查看索引情况，搜索索引，查看集群状态和分片分布等，可以执行如下命令进行安装，或者访问项目地址:https://github.com/mobz/elasticsearch-head

bin/plugin -install mobz/elasticsearch-head

3.3 elasticsearch中文分词插件

官方的中文分词插件：Smart Chinese Analysis Plugin

Medcl开发的中午分词插件： IK Analysis Plugin 以及 Pinyin Analysis Plugin

3.4 ZooKeeper Discovery Plugin

elasticsearch 默认是使用Zen作为集群发现和存活管理的，ZooKeeper作为一个分布式高可用性的协调性系统，在这方面有着天然的优势，如果你比较信任zookeeper，那么你可以使用这个插件来替代Zen。

总结：本文主要介绍了elasticsearch的插件安装方法，如何查看当前加载的插件的方法，以及个人认为比较值得关注的一些插件。

REFERENCE FROM : http://www.cnblogs.com/Jrain/p/3595390.html

你可能感兴趣的:(es 分词配置)

深入理解Linux内核－进程苦茶子12138 Linux上岸手册 linux 服务器运维
1、进程的静态特性进程：程序执行时的一个实例进程描述符（task_struct）:进程的基本信息（thread_info）、指向内存区描述符的指针（mm_struct）、进程相关的tty(tty_struct)、当前目录(fs_struct)、指向文件描述符的指针(files_struct)、所接收的信号(signal_struct)进程状态：1、可运行状态(TASK_RUNNING)：正在运行或
大白话讲【2】DHCP服务器配置学习向前冲服务器运维网络华为
DHCP动态主机配置协议是应用层协议；作用是分配IP地址，子网掩码，网关地址和DNS（可设置IP地址租期等）DHCP服务器可以是路由器，三交换机，Windowsserver2016（后续编写），linux服务器（后续编写）1.三层交换机上搭DHCP服务器1.1在三层交换机开启DHCP功能sy[Huawei]dhcpenable1.2创建地址池[Huawei]ippolicy-based-route
云手机网络加速全攻略：解决游戏卡顿与APP连接失败困扰
用云手机玩游戏、挂脚本、跑自动任务，明明后台显示在线，但画面卡顿、操作延迟、甚至APP直接“转圈圈连不上”，是不是很抓狂？问题出在哪里？云手机不卡，网络卡？其实，大多数云手机的性能瓶颈，根本不是配置不够，而是网络掉了链子。今天，就把**“云手机网络加速”**这事儿掰开了讲，帮你彻底解决卡顿和连接失败的困扰。网络为什么会卡？别把问题想简单了很多人以为云手机的卡顿就是“带宽不够”，但真相远没那么简单。
冰与火之歌卷Ⅳ：群鸦的盛宴中英文双语同步对照版第9篇 BRIENNE上 yakamoz001
Ⅳ群鸦的盛宴Chapter9布蕾妮BRIENNE暮谷城城门紧闭，上好门闩，城墙在黎明前的黑暗中微微透着白光。城垛之上，一丝丝雾气仿如幽灵哨兵。十几辆马车和牛车已聚集在城门外，等待日出。布蕾妮在一堆芜菁后面下马，她小腿酸痛，伸展一下感觉很舒服。不久，又一辆拖车隆隆地从树林里出来。等到天空开始放亮，队伍已经延伸了四分之一里长。ThegatesofDuskendalewereclosedandbarre
牛客：HJ26 字符串排序[华为机考][map]
学习要点multimap.equal_range题目链接字符串排序_牛客题霸_牛客网题目描述解法：multimap#include#include#include#includeusingnamespacestd;intmain(){stringline_big_str;getline(cin,line_big_str);multimap>ch_bool_pos_map;vectorret_ch(
DELPHI 字符串与日期格式互转 wnjnfn Delphi 日期转换 Delphi
procedureTForm1.Button1Click(Sender:TObject);varD:TDateTime;s:string;beginD:=VarToDateTime('05-10-1404:35PM');S:=FormatDatetime('YYYY/MM/DDHH:MM:SS',D);showmessage(s);end;看到有人这样用VarToDateTime、存下来、强大的日
如何为微信小程序添加二维码扫描和识别功能
为微信小程序添加二维码扫描和识别功能需要使用到微信提供的扫描二维码API以及相关的库函数。下面将详细介绍如何实现这个功能。一、创建小程序首先，你需要在微信开发者工具中创建一个小程序项目。在项目中，我们需要添加一个页面用于扫描二维码，以及相关的代码逻辑。二、添加扫描二维码页面在小程序项目的pages文件夹下创建一个新的页面，命名为scan。在scan页面的js文件中添加如下代码：constapp=g
Flutter Json数据转为和自动生成模板代码 Good Weking json flutter 前端
使用json_serializable插件生成模板代码1.添加依赖库打开跟目录pubspec.yaml文件添加依赖库：dependencies:json_annotation:^4.4.0//注解依赖dev_dependencies:json_serializable:^6.1.4//json格式化build_runner:^1.6.12.利用json生成模板代码可以使用网页https://cai
Android OkHttp使用和源码详解，flutter跳转到appstore m0_64603743 程序员面试 android 移动开发
.cache(cache);//设置缓存Requestrequest=newRequest.Builder().url(url).build();builder.build().newCall(request).enqueue(newCallback(){@OverridepublicvoidonFailure(Callcall,IOExceptione){}@Overridepublicvoid
Python批量爬取谷歌原图，2021年最新可用版
文章目录前言一、环境配置1.安装selenium2.使用正确的谷歌浏览器驱动二、使用步骤1.加载chromedriver.exe2.设置是否开启可视化界面3.输入关键词、下载图片数、图片保存路径三、爬取效果四、完整代码前言作为一名CVer，数据集获取少不了用到数据、图片爬虫技术，谷歌作为全球最大的数据搜索网站，如何从中快速获取大量有用图片数据尤为重要，但是技术更新，很多代码大多就会失效，爬与反爬永
[特殊字符] Spring Boot 常用注解全解析：20 个高频注解 + 使用场景实例库库林_沙琪马 springboot spring boot 后端 java
一文掌握SpringBoot中最常用的20个注解，涵盖开发、配置、Web、数据库、测试等场景，配合示例讲解，一站式掌握！一、核心配置类注解1.@SpringBootApplication作用：标记为SpringBoot应用的入口类，包含了@Configuration、@EnableAutoConfiguration和@ComponentScan。使用场景：主启动类上唯一标注一次。@SpringBo
PWA进阶：打造离线可用的Web应用天天进步2015 前端开发前端
引言在移动互联网时代，用户对Web应用的期望已不仅限于可访问性，更要求其具备类似原生应用的体验。ProgressiveWebApp(PWA)技术的出现，使Web应用能够提供接近原生应用的用户体验，尤其是在网络连接不稳定或完全离线的情况下仍然可以使用。本文将深入探讨如何构建真正离线可用的PWA，帮助开发者掌握这一强大技术的核心要点。PWA核心技术回顾在深入探讨离线功能之前，让我们简要回顾PWA的三个
前端安全指南：防御XSS与CSRF攻击天天进步2015 前端开发前端安全 xss
引言随着互联网的快速发展，Web应用安全问题日益突出。作为前端开发者，了解常见的安全威胁及其防御措施至关重要。本文将重点介绍两种最常见的前端安全威胁：跨站脚本攻击（XSS）和跨站请求伪造（CSRF），并提供实用的防御策略。XSS攻击解析什么是XSS攻击？XSS（Cross-SiteScripting，跨站脚本）攻击是一种注入类型的攻击，攻击者通过在目标网站上注入恶意脚本代码，当用户浏览该页面时，恶
Flutter Android 实现 APP跳转 leftstrange Flutter 基础学习 flutter android java
一、APP实现被打开创建URLscheme修改/app/src/mian/AndroidManifest.xml配置配置scheme="xxxxxx"android:host="xxxxxx"android:pathPrefix="/xxxxxx"重新编译APP；注册完成，APP已经可以被第三方调用了；二、打开第三方APP安装插件：url_launcher:^5.7.10launchURL()as
ABP VNext + GitHub Actions：CI/CD 全流程自动化 Kookoos Abp vNext .net github ci/cd 自动化 ABP vNext
ABPVNext+GitHubActions：CI/CD全流程自动化目录ABPVNext+GitHubActions：CI/CD全流程自动化TL;DR全局流程概览1️⃣准备工作与项目结构1.1️工具链与Secrets1.2项目目录示例2️⃣Build&Test（并行编译与单测）子流程图3️⃣️StaticAnalysis（SonarCloud&CodeQL）子流程图4️⃣Package&Publi
孙金鹏、姜长涛、孔炜又又又登顶刊！Nature余热未尽，Science揭秘神经酰胺和FPR2受体竟是脂肪代谢 “操控大师” Biotree_2025 r语言
英文标题：MetabolicsignalingofceramidesthroughtheFPR2receptorinhibitsadipocytethermogenesis中文标题：神经酰胺通过FPR2介导的代谢信号传导抑制脂肪细胞产热发表期刊：Science影响因子：44.7研究背景神经酰胺是鞘磷脂代谢关键产物，与多种代谢疾病密切相关，但其作为系统信号分子的体内作用机制尚不明晰。脂肪细胞产热对维
Yarn 与 CI_CD 集成：自动化前端项目部署前端视界前端艺匠馆前端大数据与AI人工智能 ci/cd 自动化前端 ai
Yarn与CI/CD集成：自动化前端项目部署关键词：Yarn、CI/CD、前端部署、自动化构建、持续集成、持续交付、DevOps摘要：本文深入探讨如何将Yarn与CI/CD流程集成，实现前端项目的自动化部署。我们将从基础概念讲起，逐步介绍配置方法、最佳实践和常见问题的解决方案，帮助开发者构建高效可靠的部署流程。背景介绍目的和范围本文旨在指导前端开发者如何利用Yarn包管理工具与CI/CD系统集成，
SpringBoot服装推荐系统实战 KENYCHEN奉孝 java AI spring boot 后端人工智能
SpringBoot服装推荐系统实例以下是基于SpringBoot实现的服装推荐系统的30个实例代码示例，涵盖核心功能和实现方法。用户注册与登录功能@RestController@RequestMapping("/api/auth")publicclassAuthController{@AutowiredprivateUserServiceuserService;@PostMapping("/re
Delphi EDI 需求分析与对接指南
德尔福科技（DelphiTechnologies）是全球领先的汽车零部件及系统顶级供应商之一，尤其在动力总成和电子电气技术领域实力雄厚。如今，德尔福科技专注于燃油喷射系统、电气化解决方案、售后市场部件等。本文将主要介绍Delphi的EDI需求以及如何基于知行之桥EDI系统实现与Delphi的EDI对接。DelphiEDI需求分析成功对接DelphiEDI，供应商必须满足以下核心目标，这些正是知行之
LeetCode-179-最大数刻苦驴哝
给定一组非负整数nums，重新排列它们每个数字的顺序（每个数字不可拆分）使之组成一个最大的整数。注意：输出结果可能非常大，所以你需要返回一个字符串而不是整数。示例1：输入：nums=[10,2]输出："210"示例2：输入：nums=[3,30,34,5,9]输出："9534330"来源：力扣（LeetCode）链接：https://leetcode-cn.com/problems/largest
openGauss数据库源码解析 | openGauss简介(七） openGauss小助手数据库 openGauss
1.5.5数据库安全1.访问控制管理用户对数据库的访问控制权限涵盖数据库系统权限和对象权限。openGauss数据库支持基于角色的访问控制机制（role-basedaccesscontrol，RBAC），将角色和权限关联起来，通过将权限赋予给对应的角色，再将角色授予给用户，可实现用户访问控制权限管理。其中登录访问控制通过用户标识和认证技术来共同实现，而对象访问控制则基于用户在对象上的权限，通过对象
Python 代码生成 LaTeX 数学公式：latexify 示例 examples
文中内容仅限技术学习与代码实践参考，市场存在不确定性，技术分析需谨慎验证，不构成任何投资建议。latexify示例本notebook提供了多个使用latexify的示例。更多细节请参阅官方文档。如有任何疑问，请在issuetracker中提出。安装latexify#运行下方示例前请先重启运行时。%pipinstalllatexify-pyCollectinglatexify-pyDownloadi
C#8.0—非空引用类型 weixin_30642267 c#
C#8.0—非空引用类型原文:C#8.0—非空引用类型非空引用类型——C#8.0原文地址：https://devblogs.microsoft.com/dotnet/try-out-nullable-reference-types/?utm_source=vs_developer_news&utm_medium=referral该新增的特性最关键的作用是处理泛型和更高级API的使用场景。这些都是我
第8天 | openGauss中一个数据库可以存储在多个表空间中 yBmZlQzJ openGauss 数据库 oracle gaussdb opengauss
接着昨天继续学习openGauss,今天是第8天了。今天学习内容是o一个数据库可以存储在多个表空间中。老规矩，先登陆墨天轮为我准备的实训实验室root@modb:~#su-ommomm@modb:~$gsql-r作业要求1.创建表空间newtbs1、ds_location1，查看表空间omm=#CREATETABLESPACEnewtbs1RELATIVELOCATION'tablespace/t
第10天 | openGauss逻辑结构：表空间管理 yBmZlQzJ oracle 数据库 opengauss gaussdb
接着昨天继续学习openGauss,今天是第10天了。今天学习内容是openGauss逻辑结构：表空间管理。老规矩，先登陆墨天轮为我准备的实训实验室root@modb:~#su-ommomm@modb:~$gsql-r作业要求1、创建表空间t_tbspace、用户test，并使用test，在这个表空间上创建表t1omm=#CREATETABLESPACEt_tbspaceRELATIVELOCAT
第7天 | openGauss中一个数据库中可以创建多个模式 yBmZlQzJ openGauss 数据库 oracle opengauss
接着昨天继续学习openGauss,今天是第7天了。今天学习内容是openGauss数据库、用户和模式的关系和访问方式，理解模式是在数据库层面，用户是在实例层面。今早去参加了区里的一个会议，学习来晚了点，抓紧交作业了。老规矩，先登陆墨天轮为我准备的实训实验室，并创建好表空间和数据库root@modb:~#su-ommomm@modb:~$gsql-romm=#CREATETABLESPACEmus
Zephyr_FileSystems LikeShadows zephyr filesystem zephyr api RTOS 文件系统
1.文件系统（FileSystems）ZephyrRTOS的虚拟文件系统开关允许应用程序在不同的挂载点（如：/fatfs和/nffs）挂载多个文件系统。挂载点数据结构包含实例化、挂载和操作文件系统所需的所有必要的信息。文件系统开关通过引入文件系统注册机制，将应用程序从直接访问一个文件系统指定的API或内部函数分离开。在Zephyr中，任何文件系统的实现或库可以通过一个文件系统注册API插入或拔出。
【SpringCloud微服务实战09】Elasticsearch 搜索引擎李维山 Java elasticsearch spring cloud 搜索引擎
一、Elasticsearch安装1、Docker安装ES#创建一个网络dockernetworkcreatees-net#拉取ES镜像（这里使用7.17.18版本）dockerpullelasticsearch:7.17.18#新建一个目录存放es数据mkdirescdes#docker运行单机启动esdockerrun-d\--namees\-e"ES_JAVA_OPTS=-Xms512m-X
【华为od刷题（C++）】HJ89 24点运算 m0_64866459 华为od c++开发语言
我的代码：#include//包含了如排序、排列等常用算法#include//用于输入输出操作#include//无序映射，用于将扑克牌的字符映射到对应的数字#include//动态数组，用于存储输入的扑克牌usingnamespacestd;charops[4]={'+','-','*','/'};//这是一个操作符数组，包含了四个基本的数学运算符：加、减、乘、除unordered_mapmap
【算法300题】：双指针
双指针板块925.长按键入leetcode链接你的朋友正在使用键盘输入他的名字name。偶尔，在键入字符c时，按键可能会被长按，而字符可能被输入1次或多次。你将会检查键盘输入的字符typed。如果它对应的可能是你的朋友的名字（其中一些字符可能被长按），那么就返回True。思路这道题目只要是末尾的边界条件比较恶心一点classSolution{public:boolisLongPressedName
[星球大战]阿纳金的背叛 comsci
本来杰迪圣殿的长老是不同意让阿纳金接受训练的......... 但是由于政治原因,长老会妥协了...这给邪恶的力量带来了机会所以......现代的地球联邦接受了这个教训...绝对不让某些年轻人进入学院
看懂它，你就可以任性的玩耍了！ aijuans JavaScript
javascript作为前端开发的标配技能，如果不掌握好它的三大特点：1.原型 2.作用域 3. 闭包 ,又怎么可以说你学好了这门语言呢？如果标配的技能都没有撑握好，怎么可以任性的玩耍呢？怎么验证自己学好了以上三个基本点呢，我找到一段不错的代码，稍加改动，如果能够读懂它，那么你就可以任性了。 function jClass(b
Java常用工具包 Jodd Kai_Ge java jodd
Jodd 是一个开源的 Java 工具集，包含一些实用的工具类和小型框架。简单，却很强大！写道 Jodd = Tools + IoC + MVC + DB + AOP + TX + JSON + HTML < 1.5 Mb Jodd 被分成众多模块，按需选择，其中工具类模块有： jodd-core &nb
SpringMvc下载 120153216 springMVC
@RequestMapping(value = WebUrlConstant.DOWNLOAD) public void download(HttpServletRequest request,HttpServletResponse response,String fileName) { OutputStream os = null; InputStream is = null;
Python 标准异常总结 2002wmj python
Python标准异常总结 AssertionError 断言语句（assert）失败 AttributeError 尝试访问未知的对象属性 EOFError 用户输入文件末尾标志EOF（Ctrl+d） FloatingPointError 浮点计算错误 GeneratorExit generator.close()方法被调用的时候 ImportError 导入模块失
SQL函数返回临时表结构的数据用于查询 357029540 SQL Server
这两天在做一个查询的SQL，这个SQL的一个条件是通过游标实现另外两张表查询出一个多条数据，这些数据都是INT类型，然后用IN条件进行查询，并且查询这两张表需要通过外部传入参数才能查询出所需数据，于是想到了用SQL函数返回值，并且也这样做了，由于是返回多条数据，所以把查询出来的INT类型值都拼接为了字符串，这时就遇到问题了，在查询SQL中因为条件是INT值，SQL函数的CAST和CONVERST都
java 时间格式化 | 比较大小| 时区个人笔记 7454103 java eclipse tomcat c MyEclipse
个人总结！不当之处多多包含！引用 1.0 如何设置 tomcat 的时区：位置：(catalina.bat---JAVA_OPTS 下面加上) set JAVA_OPT
时间获取Clander的用法 adminjun Clander 时间
/** * 得到几天前的时间 * @param d * @param day * @return */ public static Date getDateBefore(Date d,int day){ Calend
JVM初探与设置 aijuans java
JVM是Java Virtual Machine（Java虚拟机）的缩写，JVM是一种用于计算设备的规范，它是一个虚构出来的计算机，是通过在实际的计算机上仿真模拟各种计算机功能来实现的。Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。 JVM屏蔽了与具体操作系统平台相关的信息，使Java程序只需生成在Java虚拟机上运行的目标代码（字节码）,就可以在多种平台
SQL中ON和WHERE的区别 avords
SQL中ON和WHERE的区别数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。 www.2cto.com 在使用left jion时，on和where条件的区别如下： 1、 on条件是在生成临时表时使用的条件，它不管on中的条件是否为真，都会返回左边表中的记录。
说说自信 houxinyou 工作生活
自信的来源分为两种,一种是源于实力,一种源于头脑.实力是一个综合的评定,有自身的能力,能利用的资源等.比如我想去月亮上,要身体素质过硬,还要有飞船等等一系列的东西.这些都属于实力的一部分.而头脑不同,只要你头脑够简单就可以了!同样要上月亮上,你想,我一跳,1米,我多跳几下,跳个几年,应该就到了!什么?你说我会往下掉?你笨呀你!找个东西踩一下不就行了吗? 无论工作还
WEBLOGIC事务超时设置 bijian1013 weblogic jta 事务超时
系统中统计数据，由于调用统计过程，执行时间超过了weblogic设置的时间，提示如下错误：统计数据出错! 原因：The transaction is no longer active - status: 'Rolling Back. [Reason=weblogic.transaction.internal
两年已过去，再看该如何快速融入新团队 bingyingao java 互联网融入架构新团队
偶得的空闲，翻到了两年前的帖子该如何快速融入一个新团队，有所感触，就记下来，为下一个两年后的今天做参考。时隔两年半之后的今天，再来看当初的这个博客，别有一番滋味。而我已经于今年三月份离开了当初所在的团队，加入另外的一个项目组，2011年的这篇博客之后的时光，我很好的融入了那个团队，而直到现在和同事们关系都特别好。大家在短短一年半的时间离一起经历了一
【Spark七十七】Spark分析Nginx和Apache的access.log bit1129 apache
Spark分析Nginx和Apache的access.log，第一个问题是要对Nginx和Apache的access.log文件进行按行解析，按行解析就的方法是正则表达式： Nginx的access.log解析正则表达式 val PATTERN = """([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\&q
Erlang patch bookjovi erlang
Totally five patchs committed to erlang otp, just small patchs. IMO, erlang really is a interesting programming language, I really like its concurrency feature. but the functional programming style
log4j日志路径中加入日期 bro_feng java log4j
要用log4j使用记录日志，日志路径有每日的日期，文件大小5M新增文件。实现方式 log4j: <appender name="serviceLog" class="org.apache.log4j.RollingFileAppender"> <param name="Encoding" v
读《研磨设计模式》-代码笔记-桥接模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 个人觉得关于桥接模式的例子，蜡笔和毛笔这个例子是最贴切的：http://www.cnblogs.com/zhenyulu/articles/67016.html * 笔和颜色是可分离的，蜡笔把两者耦合在一起了：一支蜡笔只有一种
windows7下SVN和Eclipse插件安装 chenyu19891124 eclipse插件
今天花了一天时间弄SVN和Eclipse插件的安装，今天弄好了。svn插件和Eclipse整合有两种方式，一种是直接下载插件包，二种是通过Eclipse在线更新。由于之前Eclipse版本和svn插件版本有差别，始终是没装上。最后在网上找到了适合的版本。所用的环境系统：windows7JDK：1.7svn插件包版本：1.8.16Eclipse：3.7.2工具下载地址：Eclipse下在地址：htt
[转帖]工作流引擎设计思路 comsci 设计模式工作应用服务器 workflow 企业应用
作为国内的同行，我非常希望在流程设计方面和大家交流，刚发现篇好文(那么好的文章，现在才发现，可惜)，关于流程设计的一些原理，个人觉得本文站得高，看得远，比俺的文章有深度，转载如下 ================================================================================= 自开博以来不断有朋友来探讨工作流引擎该如何
Linux 查看内存，CPU及硬盘大小的方法 daizj linux cpu 内存硬盘大小
一、查看CPU信息的命令 [root@R4 ~]# cat /proc/cpuinfo |grep "model name" && cat /proc/cpuinfo |grep "physical id" model name : Intel(R) Xeon(R) CPU X5450 @ 3.00GHz model name :
linux 踢出在线用户 dongwei_6688 linux
两个步骤： 1.用w命令找到要踢出的用户，比如下面： [root@localhost ~]# w 18:16:55 up 39 days, 8:27, 3 users, load average: 0.03, 0.03, 0.00 USER TTY FROM LOGIN@ IDLE JCPU PCPU WHAT
放手吧,就像不曾拥有过一样 dcj3sjt126com
内容提要：静悠悠编著的《放手吧就像不曾拥有过一样》集结“全球华语世界最舒缓心灵”的精华故事，触碰生命最深层次的感动，献给全世界亿万读者。《放手吧就像不曾拥有过一样》的作者衷心地祝愿每一位读者都给自己一个重新出发的理由，将那些令你痛苦的、扛起的、背负的，一并都放下吧！把憔悴的面容换做一种清淡的微笑，把沉重的步伐调节成春天五线谱上的音符，让自己踏着轻快的节奏，在人生的海面上悠然漂荡，享受宁静与
php二进制安全的含义 dcj3sjt126com PHP
PHP里，有string的概念。 string里，每个字符的大小为byte（与PHP相比，Java的每个字符为Character，是UTF8字符，C语言的每个字符可以在编译时选择）。 byte里，有ASCII代码的字符，例如ABC，123，abc，也有一些特殊字符，例如回车，退格之类的。特殊字符很多是不能显示的。或者说，他们的显示方式没有标准，例如编码65到哪儿都是字母A，编码97到哪儿都是字符
Linux下禁用T440s，X240的一体化触摸板(touchpad) gashero linux ThinkPad 触摸板
自打1月买了Thinkpad T440s就一直很火大，其中最让人恼火的莫过于触摸板。 Thinkpad的经典就包括用了小红点(TrackPoint)。但是小红点只能定位，还是需要鼠标的左右键的。但是自打T440s等开始启用了一体化触摸板，不再有实体的按键了。问题是要是好用也行。实际使用中，触摸板一堆问题，比如定位有抖动，以及按键时会有飘逸。这就导致了单击经常就
graph_dfs hcx2013 Graph
package edu.xidian.graph; class MyStack { private final int SIZE = 20; private int[] st; private int top; public MyStack() { st = new int[SIZE]; top = -1; } public void push(i
Spring4.1新特性——Spring核心部分及其他 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
配置HiveServer2的安全策略之自定义用户名密码验证 liyonghui160com
具体从网上看 http://doc.mapr.com/display/MapR/Using+HiveServer2#UsingHiveServer2-ConfiguringCustomAuthentication LDAP Authentication using OpenLDAP Setting
一位30多的程序员生涯经验总结 pda158 编程工作生活咨询
1.客户在接触到产品之后，才会真正明白自己的需求。　　这是我在我的第一份工作上面学来的。只有当我们给客户展示产品的时候，他们才会意识到哪些是必须的。给出一个功能性原型设计远远比一张长长的文字表格要好。 2.只要有充足的时间，所有安全防御系统都将失败。　　安全防御现如今是全世界都在关注的大课题、大挑战。我们必须时时刻刻积极完善它，因为黑客只要有一次成功，就可以彻底打败你。 3.
分布式web服务架构的演变自由的奴隶 linux Web 应用服务器互联网
最开始，由于某些想法，于是在互联网上搭建了一个网站，这个时候甚至有可能主机都是租借的，但由于这篇文章我们只关注架构的演变历程，因此就假设这个时候已经是托管了一台主机，并且有一定的带宽了，这个时候由于网站具备了一定的特色，吸引了部分人访问，逐渐你发现系统的压力越来越高，响应速度越来越慢，而这个时候比较明显的是数据库和应用互相影响，应用出问题了，数据库也很容易出现问题，而数据库出问题的时候，应用也容易
初探Druid连接池之二——慢SQL日志记录 xingsan_zhang 日志连接池 druid 慢SQL
由于工作原因，这里先不说连接数据库部分的配置，后面会补上，直接进入慢SQL日志记录。 1.applicationContext.xml中增加如下配置： <bean abstract="true" id="mysql_database" class="com.alibaba.druid.pool.DruidDataSourc