Richaaaard

ElasticSearch 2 (13) - 深入搜索系列之结构化搜索

摘要

结构化查询指的是查询那些具有内在结构的数据，比如日期、时间、数字都是结构化的。它们都有精确的格式，我们可以对这些数据进行逻辑操作，比较常见的操作包括比较时间区间，或者获取两个数字间的较大值。

文本也可以是结构化的。比如彩笔可以有红、绿、蓝颜色集合，一个博客可以有关键字标签 分布式 和搜索。电商网站上的商品都有UPC（Universal Product Codes）或者其他需要严格结构化格式的唯一标识。

在结构化查询中，我们得到的结果通常是是或非，要么是处于集合中的，要么是集合之外的。结构化查询通常不需要操心文件之间的相关性或者准确的相关程度，对于结果来说，要么包含，要么排除。

这在逻辑上是说得通的，对于一个数字来说，我们不能说它比其他数字更适合在某一集合中。确切的结果只能是：要么在范围中，要么反之。同理，对于一个结构化文本，一个值要么相等，要么不等。在结构化查询中，没有更相似 这种概念

版本

elasticsearch版本: elasticsearch-2.x

内容

精确查询

当进行精确查询时，过滤器filter是十分重要的，因为它们效率非常高，过滤器不计算相关性（直接跳过了整个记分阶段）而且很容易进行缓存。我们会在本片文章的后面介绍缓存为filter带来的性能优势。现在需要记住的只是：尽可能多的使用filter。

过滤数字

我们首先看 term filter，它最常用，可以用来处理数字，布尔值，日期和文本。

例如我们有一些产品：

POST /my_store/products/_bulk
{ "index": { "_id": 1 }}
{ "price" : 10, "productID" : "XHDK-A-1293-#fJ3" }
{ "index": { "_id": 2 }}
{ "price" : 20, "productID" : "KDKE-B-9947-#kL5" }
{ "index": { "_id": 3 }}
{ "price" : 30, "productID" : "JODL-X-1937-#pV7" }
{ "index": { "_id": 4 }}
{ "price" : 30, "productID" : "QQPX-R-3956-#aD8" }

我们想要做的是要查询具有某个价格的所有产品，如果对于SQL熟悉，那么它的表达式是：

SELECT document
FROM   products
WHERE  price = 20

在ElasticSearch查询DSL里，我们使用 term 达到相同的目的：

{
    "term" : {
        "price" : 20
    }
}

但是在ElasticSearch里，term 不能单独使用，search API期望的是一个 query 而不是 filter，所以，我们需要把 term 放在一个filter query里进行使用：

GET /my_store/products/_search
{
    "query" : {
        "filtered" : { #1
            "query" : {
                "match_all" : {} #2
            },
            "filter" : {
                "term" : { #3
                    "price" : 20
                }
            }
        }
    }
}

#1 filtered 查询同时接受一个 query 和 filter
#2 match_all 会返回所有匹配的文件，这是个默认行为
#3 term 过滤我们之前说到的，需要注意的是这里 term块 是处于 filter 之内的

执行结果正如我们期望一样，它只会返回文档2，这里我们称为命中hit。

"hits" : [
    {
        "_index" : "my_store",
        "_type" :  "products",
        "_id" :    "2",
        "_score" : 1.0, #1
        "_source" : {
          "price" :     20,
          "productID" : "KDKE-B-9947-#kL5"
        }
    }
]

\1 之前我们说到filter不会进行记分或相关性计算，这里的分数来自于我们查询时使用的关键字 match_all ，它会同等对待所有的文件，并对所有的结果都给以1的记分。

过滤文本

term 同样可以用来过滤文本，如果我们想要查询某个具体UPC id的产品，SQL语句会是下面这样：

SELECT product
FROM   products
WHERE  productID = "XHDK-A-1293-#fJ3"

转换成DSL，同样使用 term 来查询：

GET /my_store/products/_search
{
    "query" : {
        "filtered" : {
            "filter" : {
                "term" : {
                    "productID" : "XHDK-A-1293-#fJ3"
                }
            }
        }
    }
}

但这里有个小问题，我们没有如预期得到想要的结果！为什么呢？问题并不出在 term 查询上，问题出在数据索引的方式。如果使用 analyze API（Test Analyzers），我们可以看到这里的UPC码以及被拆分成多个小的token：

GET /my_store/_analyze?field=productID
XHDK-A-1293-#fJ3

结果

{
  "tokens" : [ {
    "token" :        "xhdk",
    "start_offset" : 0,
    "end_offset" :   4,
    "type" :         "<ALPHANUM>",
    "position" :     1
  }, {
    "token" :        "a",
    "start_offset" : 5,
    "end_offset" :   6,
    "type" :         "<ALPHANUM>",
    "position" :     2
  }, {
    "token" :        "1293",
    "start_offset" : 7,
    "end_offset" :   11,
    "type" :         "<NUM>",
    "position" :     3
  }, {
    "token" :        "fj3",
    "start_offset" : 13,
    "end_offset" :   16,
    "type" :         "<ALPHANUM>",
    "position" :     4
  } ]
}

这里有些几点需要注意的：

这个UPC我们有4个不同的token而不是1个
所有token的字母都变成了小写
我们都掉了短横线（-）和哈希符（#）

所以，当我们用 term 去过滤值 XHDK-A-1293-#fJ3 的时候，找不到任何文件，因为这个token不在我们的反向索引（inverted index）之中，正如上面呈现的，索引里面有4个token。

显然，这种对于id码或其他任何精确值的处理方式不是我们想要的。

为了避免这种问题，我们需要告诉ElasticSearch这个字段具有精确值，需要被设置成 not_analyzed 。我们可以在定制化字段mapping中找到相关内容。为了修正这个问题，我们需要首先删除老的index，然后再创建一个新的

DELETE /my_store #1

PUT /my_store #2
{
    "mappings" : {
        "products" : {
            "properties" : {
                "productID" : {
                    "type" : "string",
                    "index" : "not_analyzed" #3
                }
            }
        }
    }

}

#1 删除索引是必须的，因为我们不能更新已存在的mapping（Immutable）。
#2 在索引被删除后，我们可以创建自定义的mapping。
#3 我们在这里告诉ElasticSearch，我们不想对 productID 做任何分析。

然后我们就可以对文件重索引了：

POST /my_store/products/_bulk
{ "index": { "_id": 1 }}
{ "price" : 10, "productID" : "XHDK-A-1293-#fJ3" }
{ "index": { "_id": 2 }}
{ "price" : 20, "productID" : "KDKE-B-9947-#kL5" }
{ "index": { "_id": 3 }}
{ "price" : 30, "productID" : "JODL-X-1937-#pV7" }
{ "index": { "_id": 4 }}
{ "price" : 30, "productID" : "QQPX-R-3956-#aD8" }

此时，如果我们再次搜索就会得到我们想要的结果。

过滤器的内部操作

在内部，当ElasticSearch运行时，会执行多个操作：

找到匹配的文件

term 过滤器在反向索引表中查找 XHDK-A-1293-#fJ3 然后返回有这个 term 的所有文件，这个例子中，只有1个文件满足。
创建位集合（bitset）

filter会创建一个包含有0和1的 bitset ，这个数组描述了哪个文档有这个 term 。对于匹配的文件标志位为1，在我们的这个例子中，位集合的值为 [1,0,0,0]。
缓存位集合

最后，bitset会存在于内存之中，因为我们可以用这个值来直接跳过步骤1和2，这使得filter处理更快，性能更好。

当执行 filtered 查询时，filter 在 query 之前执行，所以在filter产生的bitset会传给 query，query 会依据bitset的内容，直接排除掉已被filter过滤掉的文件，这是提高处理性能的一种方式，更少的文档意味着更小的相应时间。

组合过滤器

上面的两个例子都是单个filter的使用方式，在实际中，我们很多情况下会同时会对多个值或字段使用filter。例如，在ElasticSearch中，如何标识下面这个SQL？

SELECT product
FROM   products
WHERE  (price = 20 OR productID = "XHDK-A-1293-#fJ3")
  AND  (price != 30)

在这种情况下，我们需要 bool filter。这是一个复合过滤器（compound filter）可以接收多个参数，然后将他们组合成布尔组合（Boolean combination）。

布尔过滤器（Bool Filter）

bool filter包括三部分：

{
   "bool" : {
      "must" :     [],
      "should" :   [],
      "must_not" : [],
   }
}

must

所有的语句必须匹配，与 AND 等价。
must_not

所有的语句都不能匹配，与 NOT 等价。
should

至少有一个语句匹配，与 OR 等价。

需要注意的是：bool filter的每个部分都是可选的（例如，我们可以只有一个 must 语句），而且每个部分内部可以只有一个filter，或者一组（array）filter。

用ElasticSearch的DSL实现我们上面SQL里的查询：

GET /my_store/products/_search
{
   "query" : {
      "filtered" : { #1
         "filter" : {
            "bool" : {
              "should" : [
                 { "term" : {"price" : 20}}, #2
                 { "term" : {"productID" : "XHDK-A-1293-#fJ3"}} #3
              ],
              "must_not" : {
                 "term" : {"price" : 30} #4
              }
           }
         }
      }
   }
}

#1 注意，我们仍然需要一个 filtered 查询将所有的东西包裹起来。
#2 这两个在 should 条件块里面的 term 是 bool filter的子过滤器，
#3 should 条件块里面，其一需要满足
#4 如果一个产品的价格是 30，那么它会自动被排除，因为它处于 must_not 条件块里面。

我们搜索的结果返回了2个hits，两个文件各满足其中一个条件：

"hits" : [
    {
        "_id" :     "1",
        "_score" :  1.0,
        "_source" : {
          "price" :     10,
          "productID" : "XHDK-A-1293-#fJ3" 
        }
    },
    {
        "_id" :     "2",
        "_score" :  1.0,
        "_source" : {
          "price" :     20, 
          "productID" : "KDKE-B-9947-#kL5"
        }
    }
]

嵌套布尔过滤器（Nesting Boolean Filters）

尽管 bool 是一个复合的过滤器，可以接受多个子过滤器，需要注意的是 bool 过滤器本身仍然是一个过滤器（filter）。这意味着我们可以将一个bool过滤器置于另外一个bool过滤器内部，这为我们提供了复杂布尔逻辑的处理能力：

对于一个SQL语句：

SELECT document
FROM   products
WHERE  productID      = "KDKE-B-9947-#kL5"
  OR (     productID = "JODL-X-1937-#pV7"
       AND price     = 30 )

我们将其转换成一个嵌套的 bool 过滤器：

GET /my_store/products/_search
{
   "query" : {
      "filtered" : {
         "filter" : {
            "bool" : {
              "should" : [
                { "term" : {"productID" : "KDKE-B-9947-#kL5"}}, #1
                { "bool" : { #2
                  "must" : [
                    { "term" : {"productID" : "JODL-X-1937-#pV7"}}, #3
                    { "term" : {"price" : 30}} #4
                  ]
                }}
              ]
           }
         }
      }
   }
}

#1 因为 term 和 bool 过滤器是兄弟关系，他们都处于 should 过滤器内部，
#2 命中返回的文件中，需要至少满足其中一个filter的条件。
#3 这两个 term 兄弟关系的条件同时处于 must 语句之中，所以
#4 命中返回的文件，必须同时满足这两个条件。

得到的结果有两个文件，他们各满足 should 中的一个条件：

"hits" : [
    {
        "_id" :     "2",
        "_score" :  1.0,
        "_source" : {
          "price" :     20,
          "productID" : "KDKE-B-9947-#kL5" #1
        }
    },
    {
        "_id" :     "3",
        "_score" :  1.0,
        "_source" : {
          "price" :      30, #2
          "productID" : "JODL-X-1937-#pV7" #3
        }
    }
]

#1 这个 productID 匹配 bool 过滤器 should 里的第一个 term
#2 这两个字段匹配 bool 过滤器 should 里嵌套的 bool 过滤器

这只是一个简单的例子，但足以呈现 Boolean filter 可以用来构建复杂逻辑条件的能力。

多值精确查询

term 过滤器对于查找单个值非常有用，但是在很多时候我们想要进行多值查询。如果我们想要找到价格为 $20 或 $30 的产品文件该怎么办呢？

不需要使用多个 term 过滤器，我们只需要为 term 加上 s 告诉ElasticSearch就行，terms 只是 term 过滤器的复数形式（以英语单词做比）。

我们要做的只是要将 price 的值改为数组：

{
    "terms" : {
        "price" : [20, 30]
    }
}

完整的形式和 term 过滤器一样，我们只需要将其置入 filtered 查询块中：

GET /my_store/products/_search
{
    "query" : {
        "filtered" : {
            "filter" : {
                "terms" : { 
                    "price" : [20, 30]
                }
            }
        }
    }
}

运行结果返回第二、三、四个文档

"hits" : [
    {
        "_id" :    "2",
        "_score" : 1.0,
        "_source" : {
          "price" :     20,
          "productID" : "KDKE-B-9947-#kL5"
        }
    },
    {
        "_id" :    "3",
        "_score" : 1.0,
        "_source" : {
          "price" :     30,
          "productID" : "JODL-X-1937-#pV7"
        }
    },
    {
        "_id":     "4",
        "_score":  1.0,
        "_source": {
           "price":     30,
           "productID": "QQPX-R-3956-#aD8"
        }
     }
]

包含，但不是相等

需要了解的是 term 和 terms 是包含操作，而非等值判断，如何理解这句话呢？

如果我们有一个term过滤器

{ "term" : { "tags" : "search" } }

它会与以下两个文件匹配：

{ "tags" : ["search"] }
{ "tags" : ["search", "open_source"] } #1

#1 尽管第二个文件包含除 search 之外的其他词，它也会被匹配到。

回想 term 过滤器是如何工作的？ElasticSearch会在反向索引表中查找相应的term，然后创建一个bitset。在我们的例子中，反向索引表如下：

-------------------------------------------
    Token           |       DocIDs
-------------------------------------------
    open_source     |       2
-------------------------------------------
    search          |       1,2
-------------------------------------------

这里 term 过滤器直接在反向索引表中找到 search 相关的文档ID，这里即为文件1、文件2，所以两个文件都会作为结果返回。

注意：
由于反向索引表自身的特性，整个字段是否相等比较难以计算，如果确定一个文件只包含我们想要查找的词呢？首先我们需要在反向索引表中找到相关的记录，然后再扫描记录，看他们是否包含其他的词，可以想象这样做的代价是非常高的。正因如此，term和terms是must contain 操作，而非 must equal。

Equals Exactly

如果一定期望得到我们上面说的那种行为 must equal，最好的方式是添加另一个字段，这个字段用来存储比较字段词个数，同样以上面提到的两个文件为例：

{ "tags" : ["search"], "tag_count" : 1 }
{ "tags" : ["search", "open_source"], "tag_count" : 2 }

我们增加了tag_count以满足我们的要求，这个我们可以通过 bool 来确保查询满足我们的要求：

GET /my_index/my_type/_search
{
    "query": {
        "filtered" : {
            "filter" : {
                 "bool" : {
                    "must" : [
                        { "term" : { "tags" : "search" } }, 
                        { "term" : { "tag_count" : 1 } } 
                    ]
                }
            }
        }
    }
}

范围查询

到目前为止，我们只讲到了数字的精确查询。在实际中，按照数字的范围进行查找也非常普遍，例如，我们想要找到价格大于 $20 而且小于 $40 的产品。

在SQL语句中，这句话可以表示成：

SELECT document
FROM   products
WHERE  price BETWEEN 20 AND 40

在ElasticSearch中，我们对应有：

"range" : {
    "price" : {
        "gt" : 20,
        "lt" : 40
    }
}

range 过滤器同时提供包含和排除两种范围表达式，可以组合使用一下选项：

gt: > greater than
lt: < less than
gte: >= greater than or equal to
lte: <= less than or equal to

这里有一个完整的例子

GET /my_store/products/_search
{
    "query" : {
        "filtered" : {
            "filter" : {
                "range" : {
                    "price" : {
                        "gte" : 20,
                        "lt"  : 40
                    }
                }
            }
        }
    }
}

如果需要一边无界（例如>20），将lt部分删除即可：

"range" : {
    "price" : {
        "gt" : 20
    }
}

时间范围

range同样可以应用到时间字段上：

"range" : {
    "timestamp" : {
        "gt" : "2014-01-01 00:00:00",
        "lt" : "2014-01-07 00:00:00"
    }
}

当使用range处理时间字段时，range 过滤器支持时间计算（date math）操作，例如，我们可以查找时间戳在过去一小时内的所有文件：

"range" : {
    "timestamp" : {
        "gt" : "now-1h"
    }
}

这个过滤器会时刻查找过去一个小时内的所有文件，这样我们也实现了通过移动的时间窗过滤文件的功能。

时间计算还可以指定某一具体时间，只要在某一时间后面加上一个pipe (||)就能实现

"range" : {
    "timestamp" : {
        "gt" : "2014-01-01 00:00:00",
        "lt" : "2014-01-01 00:00:00||+1M" 
    }
}

上面所要查找的是2014年1月1日加上1月的时间。

Date本身是日历相关的，所以它自己知道每个月具体的日期，也知道一年有多少天（闰年），具体的内容可以在时间格式相关的文档中找到。

字符串的范围

range同样可以应用到字符串字段，字符串范围可以按照 lexicographically 来，也可以根据alphabetically来，例如下面一串字符串是根据lexicographically来排序的：

5, 50, 6, B, C, a, ab, abb, abc, b

在反向索引表中的词就是根据lexicographically的顺序来排列的，这也是为什么字符串可以使用这个顺序来确定范围。

查找自 a 开始，以 b （不包括）结束的所有词：

"range" : {
    "title" : {
        "gte" : "a",
        "lt" :  "b"
    }
}

注意Cardinality：
数字和日期的索引方式使他们可以高效的进行range查询，但是对于字符串来说，ElasticSearch只是简单的比较每个反向索引表中的每个词，看他们是否处于范围之中，但是这比时间和数字的范围查找要慢许多。

字符串范围查找在 low cardinality （即具有少数唯一值）的时候可以正常使用，但是唯一值越多，对于字符串的范围查询会越慢。

处理Null

回想我们之前的一个例子，有字段名为 tags 的一组文件，这个字段有多个值，一个文件可能有一个tag（标签），多个tag，也有可能没有tag，如果一个字段没有任何值，那么它在反向索引中是如何存储的呢？

这是个具有欺骗性的问题，因为答案是，什么都不存。让我们回头看看之前那个反向索引表：

-------------------------------------------
    Token           |       DocIDs
-------------------------------------------
    open_source     |       2
-------------------------------------------
    search          |       1,2
-------------------------------------------

那么如何存储一个数据结构中不存在的字段呢？这样可似乎我们做不到，一个反向索引表只是一个简单的token以及包含它的文件列表，如果一个字段不存在，那么它也不会有任何token，也就是说它不会在反向索引表中存在。

这就意味着，null，[]（空数组）和 [null] 是等价的。它们都不在反向索引表中。

但是世界并不简单，有很多情况字段没有数据，或者有显式的 null 或者空数组。为了解决这个问题，ElasticSearch提供了一些工具。

存在过滤器（exists Filter）

第一个武器是 exists 过滤器，让我们以下面这些文档为例：

POST /my_index/posts/_bulk
{ "index": { "_id": "1"              }}
{ "tags" : ["search"]                }  #1
{ "index": { "_id": "2"              }}
{ "tags" : ["search", "open_source"] }  #2
{ "index": { "_id": "3"              }}
{ "other_field" : "some data"        }  #3
{ "index": { "_id": "4"              }}
{ "tags" : null                      }  #4
{ "index": { "_id": "5"              }}
{ "tags" : ["search", null]          }  #5

#1 tags字段有1个值
#2 tags字段有2个值
#3 The tags field is missing altogether.
#4 The tags field is set to null.
#5 The tags field has one value and a null.

上面的文件集合对应的反向索引表是这样：

-------------------------------------------
    Token           |       DocIDs
-------------------------------------------
    open_source     |       2
-------------------------------------------
    search          |       1,2,5
-------------------------------------------

我们的目的是找到那些设置过tag的文件，并不关心tag具体是什么，只要它存在于文档中即可，在SQL里，我们会使用 IS NOT NULL 进行查询。

SELECT tags
FROM   posts
WHERE  tags IS NOT NULL

在ElasticSearch中，我们使用 exists 过滤器：

GET /my_index/posts/_search
{
    "query" : {
        "filtered" : {
            "filter" : {
                "exists" : { "field" : "tags" }
            }
        }
    }
}

这个查询返回3个文件

"hits" : [
    {
      "_id" :     "1",
      "_score" :  1.0,
      "_source" : { "tags" : ["search"] }
    },
    {
      "_id" :     "5",
      "_score" :  1.0,
      "_source" : { "tags" : ["search", null] } #1
    },
    {
      "_id" :     "2",
      "_score" :  1.0,
      "_source" : { "tags" : ["search", "open source"] }
    }
]

#1 尽管文件5有null，但它也会被返回。字段因为有真实值而存在，null对过滤不会产生任何影响。

结果显而易见，只要含有字段tags文件都会返回，只有两个文件3、4被排除在外。

缺失过滤器（missing Filter）

missing 过滤器本质上与 exists 相反，它返回某个字段没有值的文件，如果用类似SQL表示

SELECT tags
FROM   posts
WHERE  tags IS  NULL

我们将前面例子里面的 exists 换成 missing

GET /my_index/posts/_search
{
    "query" : {
        "filtered" : {
            "filter": {
                "missing" : { "field" : "tags" }
            }
        }
    }
}

按照我们期望的那样，3、4两个文件会返回

"hits" : [
    {
      "_id" :     "3",
      "_score" :  1.0,
      "_source" : { "other_field" : "some data" }
    },
    {
      "_id" :     "4",
      "_score" :  1.0,
      "_source" : { "tags" : null }
    }
]

当null是null

有时候我们需要区分一个字段是没有值，还是一个字段被显式的设置成了null。我们看到之前的系统默认行为是无法做到的；数据丢失了。不过幸运的是，我们可以选择将显试的 null 替换成一个我们定义的占位符。

同样，在字符串，数字，布尔值或时间为 null 的时候，我们可以为之设置 null_value，对于没有任何值的字段还是会被排除在反向索引表之外。

当我们选择合适的 null_value 的时候，我们需要保证以下几点：

它会匹配字段类型，我们不能为一个时间字段设置一个字符串类型的 null_value。
它必须与一般平常的值不一样，这样可以避免把真实值当成 null 的情况。

对象上的存在或缺失（exists/missing on Objects）

exists 和 missing 除了过滤核心类型外，还可以过滤一个对象的内部字段。下面这个文件：

{
   "name" : {
      "first" : "John",
      "last" :  "Smith"
   }
}

我们可以直接检查 name.first 和 name.last 的存在性，也可以只检查 name 的存在性，正如在类型与映射中说的，上面这个对象的结构在内部会扁平化存储，类似下面这样：

{
   "name.first" : "John",
   "name.last"  : "Smith"
}

那我们如何去用 exists 和 missing 过滤 name 字段呢？它并不在反向索引表中真实存在，

原因是当我们执行下面这个过滤的时候：

{
    "exists" : { "field" : "name" }
}

实际上执行的是：

{
    "bool": {
        "should": [
            { "exists": { "field": { "name.first" }}},
            { "exists": { "field": { "name.last"  }}}
        ]
    }
}

这也就意味着，如果 first 和 last 都是空的情况下，name 的命名空间也不存在

关于缓存

在前面 过滤器的内部操作 中我们以及简单介绍过滤器是如何计算的。他们的内部实际上是用一个bitset记录与过滤器匹配的文件。ElasticSearch把这些内容缓存起来，以备将来使用。一旦缓存成功，如果重复使用相同的过滤器，这些bitset可以被复用，而不需要重新计��整个过滤器。

这些bitset缓存是非常智能的，他们可以做到增量更新，当我们索引新文件时，只需要将新文档的计算结果加入到现有的bitset中，而不是对整个缓存一遍又一遍的重新计算。过滤器是实时的，我们不需要担心缓存失效的问题。

独立的过滤器缓存

每个过滤器是独立计算并独立缓存的，与他们具体的使用场景无关，如果两个完全不同的查询使用了相同的过滤器，相同的缓存bitset会被复用。同样，如果一个查询在多个地方使用到了相同的过滤器，bitset只会计算一次然后被重复使用。

让我们看看下面这个例子，它查询了需要满足以下条件的email：

在收件箱中而且没有被读过
不在收件箱中但是被标注了重要

示例：

"bool": {
   "should": [
      { "bool": {
            "must": [
               { "term": { "folder": "inbox" }}, #1
               { "term": { "read": false }}
            ]
      }},
      { "bool": {
            "must_not": {
               "term": { "folder": "inbox" } #2
            },
            "must": {
               "term": { "important": true }
            }
      }}
   ]
}

#1 #2两个过滤器是相同的，所以也会使用同一bitset。

尽管一个inbox语句是 must，另一个是 must_not ，但是他们两个是一样的，这意味着第一个语句执行之后，这个过滤器的bitset会被缓存起来，供第二个使用。当这个查询再次执行时，这个过滤器已经被缓存，所以两个语句都会使用已缓存的bitset。

这点与DSL查询结合得很好。它可以被移动到任何地方，也可以在同一查询中的多个位置反复使用。这不仅仅能方便开发者，而且对性能有直接的好处。

缓存控制

多数叶子过滤器（leaf filters）是被缓存的。叶子过滤器是指那些直接处理字段的term过滤器，但是不会缓存复合过滤器，如bool过滤器。

注意：
叶子过滤器会要访问磁盘上的反向索引表，所以我们有理由将他们缓存起来，但是组合过滤器运用快速的位逻辑将内部语句的bitset合并起来，所以即使每次计算效率也很高。

对于某些叶子过滤器，默认状态下不会缓存，因为缓存它们没有任何意义，比如：

脚本过滤（Script filters）

因为对于ElasticSearch来说脚本的含义是含糊的。
地理位置过滤（GEO filters）

因为地理位置的信息通常是和用户相关的，所以每次过滤的结果都会不太一样，对它做缓存意义不大。
日期范围（Date ranges）

时间范围用了 now 的。每次过滤的时候 now 都会返回一个最新的时间，所以旧的过滤器不会被复用，所以也不需要缓存。但是，当如果我们将 now 与rounding一起使用表示最近的一天时（now/d）,它也会缓存。

有时默认的缓存策略并不正确。可能我们需要反复使用一个非常复杂的bool查询，或者我们对时间字段有一个过滤器但永远不会复用。默认的缓存策略可以几乎在所有filter上进行覆盖重写，只要设置标志位 *_cache* 就行：

{
    "range" : {
        "timestamp" : {
            "gt" : "2014-01-02 16:15:14" #1
        },
        "_cache": false #2
    }
}

#1 我们通常情况下不会再次使用这个时间戳
#2 关闭这个过滤器的缓存功能

过滤顺序

在 bool 过滤器中，过滤器的顺序对性能是非常重要的，更具体的过滤器需要放在次具体的过滤器前面，这样可以帮更早的排除更多的文件。

如果语句A可以匹配10,000,000个文件，语句B只能匹配100个，那么语句B需要放在语句A的前面。

缓存的过滤器非常快，他们需要放在不能缓存的过滤器前，如果我们对1小时内的数据非常感兴趣：

GET /logs/2014-01/_search
{
    "query" : {
        "filtered" : {
            "filter" : {
                "range" : {
                    "timestamp" : {
                        "gt" : "now-1h"
                    }
                }
            }
        }
    }
}

因为使用了now，ElasticSearch不会缓存这个过滤器，这意味着我们每次查询时都需要检查一个月的日志数据。

我们可以将这个查询与一个缓存过滤器结合，让它变得更高效，我们可以通过增加昨天凌晨的时间点，将大量日志排除：

"bool": {
    "must": [
        { "range" : {
            "timestamp" : {
                "gt" : "now-1h/d" #1
            }
        }},
        { "range" : {
            "timestamp" : {
                "gt" : "now-1h" #2
            }
        }}
    ]
}

#1 这个过滤器会被缓存，因为它用到了now字段，并将其截断到凌晨
#2 这个过滤器不会被缓存，因为它没有用到now时间截取

now-1h/d 这个句子将时间置为凌晨，把今日之前所有的文件都排除掉了，这意味着bitset每天只会被执行一次，这次发生在昨日凌晨（midnight-last-night）这个时间发生变化的时候。由于第一个过滤器可以帮我们过滤掉之前的大量文件，第二个过滤器只会从剩下的文件中过滤出最近一小时的文件。

语句的顺序非常重要，这个方法只在 since-midnight 语句置于 last-hour 之前有效。如果顺序相反，那么 last-hour 语句就需要过滤整月的文件，而非当天的文件。

参考

elastic.co: Structured Search

你可能感兴趣的:(ElasticSearch 2 (13) - 深入搜索系列之结构化搜索)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
《策划经理回忆录之二》路基雅虎
话说三年变六年，飘了，飘了……眨眼，2013年5月，老吴回到了他的家乡——油城从新开启他的工作幻想症生涯。很庆幸，这是一家很有追求，同时敢于尝试的，且实力不容低调的新星房企——金源置业(前身泰源置业)更值得庆幸的是第一个盘就是油城十路的标杆之一:金源盛世。2013年5月，到2015年11月，两年的陪伴，迎来了一场大爆发。2000个筹，5万/筹，直接回笼1个亿！！！这……让我开始认真审视这座看似五线
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
30天风格练习-DAY2 黄希夷
Day2（重义）在一个周日/一周的最后一天，我来到位于市中心/市区繁华地带的一家购物中心/商场，中心内人很多/熙熙攘攘。我注意到/看见一个独行/孤身一人的年轻女孩/，留着一头引人注目/长过腰际的头发，上身穿一件暗红色/比正红色更深的衣服/穿在身体上的东西。走下扶梯的时候，她摔倒了/跌向地面，在她正要站起来/让身体离开地面的时候，过长/超过一般人长度的头发被支撑身体/躯干的手掌压/按在下面，她赶紧用
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
向内而求陈陈_19b4
10月27日，阴。阅读书目:《次第花开》。作者:希阿荣博堪布，是当今藏传佛家宁玛派最伟大的上师法王，如意宝晋美彭措仁波切颇具影响力的弟子之一。多年以来，赴海内外各地弘扬佛法，以正式授课、现场开示、发表文章等多种方法指导佛学弟子修行佛法。代表作《寂静之道》、《生命这出戏》、《透过佛法看世界》自出版以来一直是佛教类书籍中的畅销书。图片发自App金句:1.佛陀说，一切痛苦的根源在于我们长期以来对自身及外
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
开心蒋泳频
从无比抗拒来上课到接受，感动，收获～看着波哥成长，晶晶幸福笑容满面。感觉自己做的事情很有意义，很开心！还有3个感召目标就是还有三个有缘人，哈哈。明天感召去明日计划：8：30-11：00小公益11：00-21点上班，感召图片发自App图片发自App图片发自App
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
水平垂直居中的几种方法（总结） LJ小番茄 CSS_玄学语言 html javascript 前端 css css3
1.使用flexbox的justify-content和align-items.parent{display:flex;justify-content:center;/*水平居中*/align-items:center;/*垂直居中*/height:100vh;/*需要指定高度*/}2.使用grid的place-items:center.parent{display:grid;place-item
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
本周第二次约练 2cfbdfe28a51
中原焦点团队中24初26刘霞2021.12.3约练161次，分享第368天当事人虽然是带着问题来的，但是咨询过程中发现，她是经过自己不断地调整和努力才走到现在的，看到当事人的不容易，找到例外，发现资源，力量感也就随之而来。增强画面感，或者说重温，会给当事人带来更深刻的感受。
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
今日联对0306 诗图佳得
自对联：烟销皓月临江浒，水漫金山荡塔裙。一一肖士平2020.3.6.1、试对肖老师联：烟销皓月临江浒，夜笼寒沙梦晚舟。耀哥求正2、试对萧老师联:烟销浩月临江浒，雾散乾坤解汉城。秀霞习作请各位老师校正3、自对联：烟销皓月临江浒，水漫金山荡塔裙。一一肖士平2020.3.6.4、试对肖老师垫场联：烟销皓月临江浒，雾锁寒林缈葉丛。小智求正[抱拳]5、试对肖老师联：烟销皓月临江浒；风卷乱云入峰巅。一一五品6
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修