机智兵

【ElasticSearch】（五）—— DSL查询文档

1）DSL查询分类

2）全文检索查询

1、使用场景

2、基本语法

3、示例

4、总结

3）精准查询

1、term 查询

2、range查询

3、总结

4）地理坐标查询

1、矩形范围查询

2、附近查询

5）复合查询

1、相关性算分

2、算分函数查询

3、布尔查询

elasticsearch的查询依然是基于JSON风格的DSL来实现的。

1）DSL查询分类

Elasticsearch提供了机遇JSON的DSL（Domain Specific Language）来定义查询，常用的查询类型包括：

查询所有：查询出所有的数据，一般测试用。例如：match_all

全文检索（full text）查询：利用分词器对用户输入内容分词，然后去倒排索引库中匹配。例如： match_query ; multi_match_query

精确查询：根据精确词条值查找数据，一般是查找keyword、数值、日前、boolean等类型字段。例如：ids ；range; term

地理（geo）查询：根据经纬度查询。例如： geo_distance ;geo_bounding_box

复合（compound）查询：复合查询可以将上述各种查询条件组合起来，合并查询条件。例如：bool ; function_score

查询的语法基本一致：

GET /indexName/_search
{
  "query": {
    "查询类型": {
      "查询条件": "条件值"
    }
  }
}

我们以查询所有为例，其中：

查询类型为match_all
没有查询条件

// 查询所有
GET /indexName/_search
{
  "query": {
    "match_all": {
    }
  }
}

其它查询无非就是查询类型、查询条件的变化。

2)全文检索查询

1、使用场景

全文检索查询的基本流程如下：

对用户搜索的内容做分词，得到词条

根据词条去倒排索引库中匹配，得到文档id

根据文档id找到文档，返回给用户

比较常用的场景包括：

商城的输入框搜索
百度输入框搜索

例如淘宝：

因为是拿着词条去匹配，因此参与搜索的字段也必须是可分词的text类型的字段。

2、基本语法

常用的全文检索查询包括：

match查询：单字段查询
multi_match：多字段查询，任意一个字段符合条件就可算符合查询条件

match 查询语法如下：

GET /indexName/_search
{
  "query": {
    "match": {
      "FIELD": "TEXT"
    }
  }
}

multi_match语法如下：

GET /indexName/_search
{
  "query": {
    "multi_match": {
      "query": "TEXT",
      "fields": ["FIELD1", " FIELD12"]
    }
  }
}

3、示例

match查询示例：

multi_match 查询示例：

可以看到，两种查询结果是一样的，为什么？

因为我们将brand、name、business值都利用copy_to复制到了all字段中。因此你根据三个字段搜索，和根据all字段搜索效果当然一样了。

但是，搜索字段越多，对查询性能影响越大，因此建议采用copy_to，然后单字段查询的方式。

4、总结

match和multi_match的区别是什么？

match：根据一个字段查询

multi_match：根据多个字段查询，参与查询字段越多，查询性能越差

3）精准查询

精确查询一般是查找keyword、数值、日期、boolean等类型字段。所以不会对搜索条件分词。常见的有：

term：根据词条精确值查询

range：根据值的范围查询

1、term 查询

因为精确查询的字段搜是不分词的字段，因此查询的条件必须是不分词的词条，查询时，用户输入的内容跟字段值完全匹配时才认为符合条件。如果用户输入的内容过多，反而搜索不到数据。

语法说明：

// term查询
GET /indexName/_search
{
  "query": {
    "term": {
      "FIELD": {
        "value": "VALUE"
      }
    }
  }
}

示例：

当我搜索的是精确词条时，能正确查询出结果：

但是，当我搜索的内容不是词条，而是多个词语形成的短语时，反而搜索不到：

2、range查询

范围查询，一般应用在对数值类型做范围过滤的时候。比如做价格范围过滤。

基本语法：

// range查询
GET /indexName/_search
{
  "query": {
    "range": {
      "FIELD": {
        "gte": 10, // 这里的gte代表大于等于，gt则代表大于
        "lte": 20 // lte代表小于等于，lt则代表小于
      }
    }
  }
}

示例：

3、总结

精确查询常见的有哪些？

term查询：根据词条精确匹配，一般搜索keyword类型、数值类型、布尔类型、日期类型字段
range查询：根据数值范围查询，可以是数值、日期的范围

4)地理坐标查询

所谓的地理坐标查询，其实就是根据经纬度查询，官方文档：Geo queries | Elasticsearch Guide [8.2] | Elastic

常见的使用场景包括：

携程：搜索我附近的酒店
滴滴：搜索我附近的出租车
微信：搜索我附近的人

附近的酒店：

附近的车：

1、矩形范围查询

矩形范围查询，也就是geo_bounding_box查询，查询坐标落在某个矩形范围的所有文档：

查询时，需要指定矩形的左上、右下两个点的坐标，然后画出一个矩形，落在该矩形内的都是符合条件的点。

语法如下：

// geo_bounding_box查询
GET /indexName/_search
{
  "query": {
    "geo_bounding_box": {
      "FIELD": {
        "top_left": { // 左上点
          "lat": 31.1,
          "lon": 121.5
        },
        "bottom_right": { // 右下点
          "lat": 30.9,
          "lon": 121.7
        }
      }
    }
  }
}

2、附近查询

附近查询，也叫做距离查询（geo_distance）：查询到指定中心点小于某个距离值的所有文档。

换句话来说，在地图上找一个点作为圆心，以指定距离为半径，画一个圆，落在圆内的坐标都算符合条件：

语法说明：

// geo_distance 查询
GET /indexName/_search
{
  "query": {
    "geo_distance": {
      "distance": "15km", // 半径
      "FIELD": "31.21,121.5" // 圆心
    }
  }
}

示例：

我们先搜索深圳北站附近15km的酒店：

发现还有34家，我们将范围缩小到5km

可以发现，搜索到的酒店数量减少到了2家。

5）复合查询

复合（compound）查询：复合查询可以将其它简单查询组合起来，实现更复杂的搜索逻辑。常见的有两种：

fuction score：算分函数查询，可以控制文档相关性算分，控制文档排名
bool query：布尔查询，利用逻辑关系组合多个其它的查询，实现复杂搜索

1、相关性算分

当我们利用match查询时，文档结果会根据与搜索词条的关联度打分（_score），返回结果时按照分值降序排列。

例如，我们搜索 "深圳维也纳"，结果如下：

[
  {
    "_score" : 17.850193,
    "_source" : {
      "name" : "深圳维也纳酒店真不错",
    }
  },
  {
    "_score" : 12.259849,
    "_source" : {
      "name" : "维也纳酒店真不错",
    }
  },
  {
    "_score" : 11.91091,
    "_source" : {
      "name" : "深圳7天酒店真不错",
    }
  }
]

在elasticsearch中，早期使用的打分算法是TF-IDF算法，公式如下：

在后来的5.1版本升级中，elasticsearch将算法改进为BM25算法，公式如下：

TF-IDF算法有一各缺陷，就是词条频率越高，文档得分也会越高，单个词条对文档影响较大。而BM25则会让单个词条的算分有一个上限，曲线更加平滑：

小结：elasticsearch会根据词条和文档的相关度做打分，算法由两种：

TF-IDF算法
BM25算法，elasticsearch5.1版本后采用的算法

2、算分函数查询

根据相关度打分是比较合理的需求，但合理的不一定是产品经理需要的。

以百度为例，你搜索的结果中，并不是相关度越高排名越靠前，而是谁掏的钱多排名就越靠前。如图：

要想人为的控制相关性算分，就需要利用elasticsearch中的function_score 查询了。

1-语法说明

function score 查询中包含四部分内容：

原始查询条件：query部分，基于这个条件搜索文档，并且基于BM25算法给文档打分，原始算分（query score)

过滤条件：filter部分，符合该条件的文档才会重新算分

算分函数：符合filter条件的文档要根据这个函数做运算，得到的函数算分（function score），有四种函数

weight：函数结果是常量

field_value_factor：以文档中的某个字段值作为函数结果

random_score：以随机数作为函数结果

script_score：自定义算分函数算法

运算模式：算分函数的结果、原始查询的相关性算分，两者之间的运算方式，包括：

multiply：相乘

replace：用function score替换query score

其它，例如：sum、avg、max、min

function score的运行流程如下：

1）根据原始条件查询搜索文档，并且计算相关性算分，称为原始算分（query score）

2）根据过滤条件，过滤文档

3）符合过滤条件的文档，基于算分函数运算，得到函数算分（function score）

4）将原始算分（query score）和函数算分（function score）基于运算模式做运算，得到最终结果，作为相关性算分。

因此，其中的关键点是：

过滤条件：决定哪些文档的算分被修改

算分函数：决定函数算分的算法

运算模式：决定最终算分结果

2-示例

需求：给“维也纳”这个品牌的酒店排名靠前一些

翻译一下这个需求，转换为之前说的四个要点：

原始条件：不确定，可以任意变化

过滤条件：brand = "维也纳"

算分函数：可以简单粗暴，直接给固定的算分结果，weight

运算模式：比如求和

因此最终的DSL语句如下：
GET /hotel/_search
{
  "query": {
    "function_score": {
      "query": {  .... }, // 原始查询，可以是任意条件
      "functions": [ // 算分函数
        {
          "filter": { // 满足的条件，品牌必须是如家
            "term": {
              "brand": "维也纳"
            }
          },
          "weight": 2 // 算分权重为2
        }
      ],
      "boost_mode": "sum" // 加权模式，求和
    }
  }
}

测试，在未添加算分函数时，维也纳得分如下：

添加了算分函数后，维也纳得分就提升了：

3）小结

function score query定义的三要素是什么？

过滤条件：哪些文档要加分

算分函数：如何计算function score

加权方式：function score 与 query score如何运算

3、布尔查询

布尔查询是一个或多个查询子句的组合，每一个子句就是一个子查询。子查询的组合方式有：

must：必须匹配每个子查询，类似“与”

should：选择性匹配子查询，类似“或”

must_not：必须不匹配，不参与算分，类似“非”

filter：必须匹配，不参与算分

比如在搜索酒店时，除了关键字搜索外，我们还可能根据品牌、价格、城市等字段做过滤：

每一个不同的字段，其查询的条件、方式都不一样，必须是多个不同的查询，而要组合这些查询，就必须用bool查询了。

需要注意的是，搜索时，参与打分的字段越多，查询的性能也越差。因此这种多条件查询时，建议这样做：

搜索框的关键字搜索，是全文检索查询，使用must查询，参与算分

其它过滤条件，采用filter查询。不参与算分

1-语法示例：
GET /hotel/_search
{
  "query": {
    "bool": {
      "must": [
        {"term": {
          "city": {
            "value": "深圳"
          }
        }}
      ],
      "should": [
        {"term": { "brand": { "value": "汉庭" } } },
          {"term": { "brand": { "value": "维也纳" } } }
      ],
      "must_not": [
        { 
          "range": {
            "price": {
              "lte": 500
            }
          }
        }
      ],
      "filter": [
        {"range": {
          "score": {
            "gte": 45
          }
        }}
      ]
    }
  }
}
2-示例

需求：搜索城市在“深圳”，价格不高于500，在坐标 22.52,114.06 周围10km范围内的酒店。

分析：

名称搜索，属于全文检索查询，应该参与算分。放到must中

价格不高于500，用range查询，属于过滤条件，不参与算分。放到must_not中

周围10km范围内，用geo_distance查询，属于过滤条件，不参与算分。放到filter中
GET /hotel/_search
{
  "query": {
    "bool": {
      "must": [
        {"term": {
          "city": {
            "value": "深圳"
          }
        }}
      ],
      "should": [
        {"term": { "brand": { "value": "汉庭" } } },
          {"term": { "brand": { "value": "维也纳" } } }
      ],
      "must_not": [
        { 
          "range": {
            "price": {
              "lte": 500
            }
          }
        }
      ],
      "filter": [
        {"geo_distance": {
          "distance": "10km",
           "location": "22.528101,114.064221"
           
        }}
        
      ]
    }
  }
}
3-小结

bool查询有几种逻辑关系？

must：必须匹配的条件，可以理解为“与”

should：选择性匹配的条件，可以理解为“或”

must_not：必须不匹配的条件，不参与打分

filter：必须匹配的条件，不参与打分

java和ptyhon对比悟能不能悟 java 开发语言
1.语言特性对比维度JavaPython语法风格静态类型，需显式声明变量类型；代码冗长（需分号、大括号）动态类型，变量类型自动推断；简洁（缩进代替大括号，无分号）编程范式严格面向对象（OOP），强制类与对象结构多范式支持（OOP、函数式、命令式），更灵活执行方式编译型（JVM运行字节码）解释型（逐行执行）⚡2.性能与效率执行速度：Java：编译优化后运行效率高，尤其擅长高并发（如电商秒杀系统）。P
python如何抓取网页里面的文字_如何利用python抓取网页文字、图片内容？ weixin_39917437
想必新老python学习者，对爬虫这一概念并不陌生，在如今大数据时代，很多场景都需要利用爬虫去爬取数据，而这刚好时python领域，如何实现？怎么做？一起来看下吧~获取图片：1、当我们浏览这个网站时，会发现，每一个页面的URL都是以网站的域名+page+页数组成，这样我们就可以逐一的访问该网站的网页了。2、当我们看图片列表时中，把鼠标放到图片，右击检查，我们发现，图片的内容由ul包裹的li组成，箭
JavaScript基本语法（二）——数据类型 OmewSPG
常用数据类型#ECMAScript有6种简单的数据类型（原始类型）：Undefined，Null，Boolean，Number，String和Symbol（ES6新增Symbol类型的值，在此不会过多涉及）此外还有一种复杂的数据类型：Object在ECMAScript中无法定义自己的数据类型，所有值都必须采用以上七种数据类型之一来进行表示，好在ECMAScript数据类型比较灵活，一种数据类型可以
ConcurrentHashMap深度解析编程界的彭于晏qaq java java
ConcurrentHashMap深度解析引言：并发容器的"扛鼎之作"在Java并发编程领域，ConcurrentHashMap无疑是最核心的容器之一。作为HashMap的线程安全替代品，它既解决了Hashtable全表锁导致的性能瓶颈，又规避了HashMap在并发环境下的数据不一致风险（如死循环、数据丢失）。自JDK1.5引入以来，ConcurrentHashMap经历了三次重大演进（JDK7分
JavaScript 模块化开发完全指南小李也疯狂前端技术 javascript 开发语言 ecmascript 模块化开发
目录前言一、模块化的基本概念1.1什么是模块化？1.2为什么需要模块化？二、JavaScript模块化的发展历程2.1早期解决方案2.1.1命名空间模式2.1.2立即执行函数表达式（IIFE）2.2社区规范2.2.1CommonJS2.2.2AMD（AsynchronousModuleDefinition）2.2.3CMD（CommonModuleDefinition）2.3ES6模块（ESM）三
最简单控制台版输入框学生信息处理平台
功能实现支持添加、删除、修改、查询、排序功能。使用并行数组nos,names,scores，学生信息统一下标。使用Scanner交互输入。使用冒泡排序实现成绩排序。packagecom.xiangmu.day04;importjava.util.Scanner;publicclassTest01{publicstaticvoidmain(String[]args){Scannersc=newSca
docker-compose部署java项目小瞿慢慢跑 docker docker-compose
docker-compose是定义和运行多容器的工具。换句话说就是通过配置yml文件来运行容器，简化了每次输入dockerrun等命令，把这些命令配置在yml文件统一管理，而且可以用一个yml文件一次启动多个容器，启动时还可以设置各个容器的依赖关系等。如下为测试docker-compose启动java程序1.docker-compose.ymlversion:'3'services:java05:
深入理解 synchronized 锁与你久处不厌 Java java
文章目录一、实现原理对象头Monitor二、synchronized优化1.锁的状态2.锁的升级一、实现原理Java中的每一个对象都可以作为锁。具体表现为以下3种形式。对于普通同步方法，锁是当前实例对象。对于静态同步方法，锁是当前类的Class对象。对于同步方法块，锁是Synchonized括号里配置的对象。代码块同步：使用monitorenter和monitorexit指令实现。方法同步：使用另
网站藏着的「机器人红绿灯」：5 分钟看懂 Robots 协议 incidite 机器人
你有没有想过：当搜索引擎爬取网站时，是谁在指挥它们“该去哪、不该去哪”？答案就藏在一个名叫Robots协议的简单规则里。这个看似神秘的技术，其实就像网站门口的“交通信号灯”，用几句明文代码就能规范爬虫的行为。今天，我们用5分钟揭开它的面纱，新手也能轻松掌握。什么是Robots协议？简单说，Robots协议是网站给搜索引擎爬虫看的“说明书”。它通过一个名为robots.txt的文本文件，告诉爬虫哪些
Java EE的历史（转）古剑诛仙
转自公众号码农翻身。前言：昨天下午有同学问我JavaEE是干什么用的，能开发什么系统，我在QQ中敲了很多字，掰扯了半天，终于给他整明白了。我突然意识在其实很多初学者对JavaEE的来龙去脉并去清楚，大家并不知道为什么会出现这个技术，要解决什么问题。所以就写了这篇文章介绍下JavaEE的历史。先把时间扯的远一点，94年我上高中的时候，见过亲戚家有过电脑，很好奇，虽然上面都是一些单机桌面程序，根本上不
延迟队列的入门使用
延迟队列的入门使用思考：1.什么是延迟队列？延迟队列运用场景？2.延迟队列的排队过程如何实现？真的是先进先出吗？3.如何实现运用延迟队列一.什么是延迟队列DelayQueue是Java中的一个基于优先级队列的实现的线程安全的延迟队列。运用场景：实现定时任务或者延迟任务的调度。DelayQueue实现BlockingQueue，加入这个队列的元素必须实现Delayed接口，当生产者提交元素进入队列时
Java DelayQueue延迟队列的使用和源码分析 °Fuhb Java基础与进阶 java DelayQueue 延迟队列
文章目录概述示例原理分析概述DelayQueue是JAVA提供的延时队列，队列内部的对象必须实现Delayed接口，该接口只有一个getDelay方法，返回延迟执行的时长。publicinterfaceDelayedextendsComparable{longgetDelay(TimeUnitunit
DelayQueue延时队列简单使用泉泉写Java java 开发语言
DelayQueue是JDK1.5引入到工具，位置在java.util.concurrent。从包路径我们就能知道该工具是给多线程使用到。我们先看看官方注释：AnunboundedblockingqueueofDelayedelements,inwhichanelementcanonlybetakenwhenitsdelayhasexpired.TheheadofthequeueisthatDel
Java性能监测工具JMC的使用介绍
一、JMC介绍JMC是源自JRockitJVM的一套监控和管理工具,Oracle在发布JAVA7u4(Java7Update40)时将其包含在JDK中,用户不再需要单独下载。使用JMC可以监视和管理Java应用程序，不会导致相关工具类的大幅度性能开销，它使用为Java虚拟机(JVM)的普通自适应动态优化收集的数据。官方地址：https://www.oracle.com/java/technolog
Spring Boot 3.0新特性全面解析与实战应用天天进步2015 Java spring boot
SpringBoot3.0新特性全面解析与实战应用引言SpringBoot3.0作为Spring生态系统的一个重要里程碑，带来了众多令人兴奋的新特性和改进。本文将深入解析SpringBoot3.0的核心变化，并通过实战示例展示如何在项目中应用这些新特性。核心变化概览Java版本要求提升SpringBoot3.0最显著的变化是Java版本要求提升至Java17。这一变化不仅仅是版本号的更新，更是对现
ChatGPT 与 AIGC 简问乱答 MatrixOnEarth
ChatGPT与AIGC简问乱答**仅代表个人观点。**[Q1]ChatGPT最近非常火爆，2个月突破1亿月活，从产品形态来看，我们知道的微软、谷歌的搜索引擎都会嵌入。那么我们如何看待它的用户粘性，真的会有那么多人持续使用吗还是说只是一阵热潮？[A1]首先，工业界长久以来对搜索引擎的最终产品形态的定义是：信息问答助理。目前的信息检索黄页的产品形态个人认为其实是在技术发展未能满足最终产品形态目标的情
Flink-Hadoop实战项目 Dylan_muc hadoop hdfs flink
项目说明文档1.项目概述1.1项目简介本项目是一个基于ApacheFlink的大数据流处理平台，专门用于处理铁路系统的票务和车次信息数据。系统包含两个核心流处理作业：文件处理作业和数据合并作业，采用定时调度机制，支持Kerberos安全认证，实现从文件读取到数据仓库存储的完整数据处理链路。1.2技术栈流处理引擎:ApacheFlink1.18.1存储系统:HDFS(Hadoop分布式文件系统)数据
飞算科技：以原创技术为翼，赋能产业数字化转型
在数字经济浪潮席卷全球的当下，一批专注于技术创新的中国企业正加速崛起，飞算数智科技（深圳）有限公司（简称“飞算科技”）便是其中的佼佼者。作为一家国家级高新技术企业，飞算科技以自主创新为核心驱动力，凭借互联网科技、大数据、人工智能等前沿技术，为各行业客户插上数字化转型的翅膀。飞算科技的定位清晰而坚定——自主创新型数字科技公司。这一定位不仅体现在其技术研发的方向上，更融入到为客户服务的每一个环节。无论
这个导航站，竟然藏着6000+实用网站
在互联网的浩瀚海洋中，我们常常为寻找一个合适的资源而耗费大量时间，从搜索引擎的海量结果中筛选出真正有用的网站，就像在沙堆里淘金一样艰难。然而，E导航的出现，就像一位贴心的向导，将网络世界中那些闪闪发光的宝藏网站汇聚在一起，为我们的探索之旅点亮了一盏明灯。网站地址：E导航-以极简之名,探索网络之境E导航–以极简之名,探索网络之境。以极简的设计理念和丰富的资源分类，为用户提供了一个高效、便捷的网络探索
2018-03-19新零售是未来的商业模式吗？马云对新零售到底什么看法? 拼自己想要的梦想
马云对新零售到底什么不雅观不雅观点?其实，在此之前，新零售一词就已经在业界出现过，而马云此次的提出，使其作为一个正式的名词传布开来。马云认为互联网时代，传统零售行业受到了电商互联网的打击。将来，线下与线上零售将深度连系，再加当代物流，办事商把持大数据、云计较等立异手艺，构成将来新零售的概念。纯电商的时代很快将竣事，纯零售的情势也将被冲破，新零售将引领将来全新的商业形式。新零售是从哪里来的?新零售是
JAVA面试八股文，万字长文！ Java进阶八股文 java 面试开发语言职场和发展 spring boot spring jvm
1、多态的作用多态的实现要有继承、重写，父类引用指向子类对象。它的好处是可以消除类型之间的耦合关系，增加类的可扩充性和灵活性。多态允许你通过统一的接口来处理不同类型的对象，这样在添加新的类型时，不需要修改现有的代码，只需要实现相同的接口或继承相同的父类即可。这使得代码的扩展性大大增强。2、什么是反射？反射机制是在运行时，对于任意一个类，都能够知道这个类的所有属性和方法；对于任意个对象，都能够调用它
大数据集群运维常见的一些问题以及处理方式
态）；若为YARN节点，重启NodeManager后手动将其加入集群。若为节点整体宕机：排查电源和网络，重启节点后，依次启动HDFS、YARN等服务进程，确认数据块完整性（避免因节点宕机导致副本不足）。2.网络问题现象：节点间通信超时（如HDFS心跳超时、YARN任务调度延迟）、数据传输卡顿。可能原因：交换机故障、网线松动、网络带宽过载、防火墙规则拦截。处理方式：用ping、traceroute检
学习人工智能开发的详细指南 Ws＿学习人工智能 python
一、引言人工智能（AI）开发是一个充满挑战与机遇的领域，它融合了数学、计算机科学、统计学、认知科学等多个学科的知识。随着大数据、云计算和深度学习技术的快速发展，AI已经成为推动社会进步和产业升级的关键力量。本文将为初学者提供一份详细的学习指南，帮助大家逐步掌握AI开发的核心技能。二、基础知识准备数学基础：线性代数：理解向量、矩阵、线性变换等基本概念，掌握矩阵运算和特征值分解等技巧。概率论与统计学：
设计模式-工厂方法模式 Java
模式概述工厂方法模式(FactoryMethodPattern)又称为工厂模式，定义创建对象的接口，但将具体实现延迟到子类，实现对象创建与使用的解耦。简单代码示例//1.抽象产品：日志记录器接口interfaceLogger{voidlog(Stringmessage);}//2.具体产品：文件日志记录器classFileLoggerimplementsLogger{@Overridepublic
大数据技术是解决什么问题的？ @佳瑞大数据
基础知识1TB（太字节）=1024GB1PB（拍字节）=1024TB大数据核心框架HadoopHadoop作为大数据技术生态的核心框架，主要解决了海量数据（TB/PB级）的存储、处理和分析难题，尤其是在传统数据库（如MySQL）和单机计算无法应对的场景下，提供了低成本、高可靠、可扩展的解决方案。其核心解决的问题可归纳为以下几点：海量数据的存储问题传统痛点：单机存储容量有限（如单服务器硬盘通常在TB
Python爬虫【四十五章】爬虫攻防战：异步并发+AI反爬识别的技术解密程序员_CLUB Python入门到进阶 python 爬虫人工智能
目录引言：当爬虫工程师遇上AI反爬官一、异步并发基础设施层1.1混合调度框架设计1.2智能连接池管理二、机器学习反爬识别层2.1特征工程体系2.2轻量级在线推理三、智能决策系统3.1动态策略引擎3.2实时对抗案例四、性能优化实战4.1全链路压测数据4.2典型故障处理案例五、总结：构建智能化的爬虫生态系统Python爬虫相关文章（推荐）引言：当爬虫工程师遇上AI反爬官在大数据采集领域，我们正经历着技
实时时间钟表命苦的孩子 java梦 java jvm spring
目录一、前提二、代码2.1窗口2.2时间显示三、代码整合一、前提在之前我们学会了JDK时间相关类，那我们就来小小地利用它来写一个”小玩意儿”。没看过的快去看一遍，在初识JDK时间相关类二、代码2.1窗口首先，你是不是得有一个窗口，那就用得上Swing了。importjavax.swing.*;publicclasstestextendsJFrame{privateJPanelwindonpanel
【Java代码审计 | 第五篇】XSS漏洞成因+实战案例秋说 Java代码审计 java xss
未经许可，不得转载。文章目录XSS漏洞成因1、直接输出用户输入2、在JSP中使用EL表达式输出用户输入3、在Thymeleaf模板中输出用户输入4、在JavaScript中嵌入用户输入实战案例案例1案例2案例3XSSXSS（跨站脚本攻击，Cross-SiteScripting）是一种常见的Web安全漏洞，攻击者通过在网页中注入恶意脚本，使得这些脚本在用户的浏览器中执行。XSS攻击通常分为以下三种类
Python处理MySQL大数据量：分页查询与性能优化 AI天才研究院 AI人工智能与大数据 python mysql 性能优化 ai
Python处理MySQL大数据量：分页查询与性能优化关键词：Python分页查询、MySQL性能优化、大数据量处理、LIMITOFFSET、索引优化摘要：当数据库表数据量达到百万级时，传统的LIMITOFFSET分页查询会出现明显性能瓶颈。本文从实际场景出发，用“图书馆找书”的通俗比喻拆解分页原理，结合Python代码示例和MySQL执行计划分析，详细讲解传统分页的痛点、优化思路（索引分页/覆盖
java二叉树遍历
在Java中，二叉树遍历通常有三种方式：先序遍历(PreorderTraversal)：首先访问根节点，然后递归遍历左子树，最后递归遍历右子树。中序遍历(InorderTraversal)：首先递归遍历左子树，然后访问根节点，最后递归遍历右子树。后序遍历(PostorderTraversal)：首先递归遍历左子树，然后递归遍历右子树，最后访问根节点。例如，对于以下二叉树：1/\23/\/4567先
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

【ElasticSearch】（五）—— DSL查询文档

1）DSL查询分类

2)全文检索查询

1、使用场景

2、基本语法

3、示例

4、总结

3）精准查询

1、term 查询

2、range查询

3、总结

4)地理坐标查询

1、矩形范围查询

2、附近查询

5）复合查询

1、相关性算分

2、算分函数查询

3、布尔查询

你可能感兴趣的:(elasticsearch,elasticsearch,搜索引擎,大数据,java,全文检索)