FocusBigData

Elasticsearch全文检索解决方案（下）

ES文档

文档的三大元数据：

_index 存放位置
_type 文档表示的对象类别
_id 文档的唯一标识

自己设置文档的id：

PUT /{index}/{type}/{id}

curl -X PUT 127.0.0.1:9200/articles/article/150000 -H 'Content-Type:application/json' -d '
{
  "article_id": 150000,
  "user_id": 1,
  "title": "python是世界上最好的语言",
  "content": "确实如此",
  "status": 2,
  "create_time": "2019-04-03"
}'

使用es自动生成的id：（不加id即可）

PUT /{index}/{type}

获取指定文档

curl 127.0.0.1:9200/articles/article/150000?pretty

# 获取一部分
curl 127.0.0.1:9200/articles/article/150000?_source=title,content\&pretty

判断文档是否存在

curl -i -X HEAD 127.0.0.1:9200/articles/article/150000

存在 200状态码
不存在 404状态码

更新文档

在 Elasticsearch 中文档是 不可改变 的，不能修改它们（感觉矛盾）。相反，如果想要更新现有的文档，需要 重建索引或者进行替换。我们可以使用相同的 index API 进行实现。

例如修改title字段的内容，不可进行以下操作（仅传递title字段内容）

curl -X PUT 127.0.0.1:9200/articles/article/150000 -H 'Content-Type:application/json' -d '
{
  "title": "python必须是世界上最好的语言"
}'

而是要索引完整文档内容

curl -X PUT 127.0.0.1:9200/articles/article/150000 -H 'Content-Type:application/json' -d '
{
  "article_id": 150000,
  "user_id": 1,
  "title": "python必须是世界上最好的语言",
  "content": "确实如此",
  "status": 2,
  "create_time": "2019-04-03"
}'

上面的意思也就是说，默认是不可以修改文档的，如果你去修改的话**，底层是先删除原来的文档，然后在建立一个新的文档**，这也是为什么要索引完整的文档内容了。

删除文档

curl -X DELETE 127.0.0.1:9200/articles/article/150000

取回多个文档

curl -X GET 127.0.0.1:9200/_mget -d '
{
  "docs": [
    {
      "_index": "articles",
      "_type": "article",
      "_id": 150000
    },
    {
      "_index": "articles",
      "_type": "article",
      "_id": 150001
    }
  ]
}'

Logstash工具

需求：从Mysql导入数据到ES中

创建配置文件logstash_mysql.conf

input{
     jdbc {
         jdbc_driver_library => "/home/python/mysql-connector-java-8.0.13/mysql-connector-java-8.0.13.jar"
         jdbc_driver_class => "com.mysql.jdbc.Driver"
         jdbc_connection_string => "jdbc:mysql://127.0.0.1:3306/toutiao?tinyInt1isBit=false"
         jdbc_user => "root"
         jdbc_password => "mysql"
         jdbc_paging_enabled => "true" //分批量导入
         jdbc_page_size => "1000" //每批1000条
         jdbc_default_timezone =>"Asia/Shanghai" //时区
         statement => "select a.article_id as article_id,a.user_id as user_id, a.title as title, a.status as status, a.create_time as create_time,  b.content as content from news_article_basic as a inner join news_article_content as b on a.article_id=b.article_id"
         use_column_value => "true"  
         tracking_column => "article_id"  //让es库的文档id和mysql的主键一致，而不是由es产生
         clean_run => true
     }
}
output{
      elasticsearch {
         hosts => "127.0.0.1:9200"
         index => "articles"
         document_id => "%{article_id}"
         document_type => "article"
      }
      stdout {
         codec => json_lines
     }
}

导入数据: sudo /usr/share/logstash/bin/logstash -f ./logstash_mysql.conf

(其实就是两个系统进行数据传输，规定源数据地址和目标地址即可)

基本查询

根据文档ID

  curl -X GET 127.0.0.1:9200/articles/article/1
  curl -X GET 127.0.0.1:9200/articles/article/1?_source=title,user_id //指定的字段
  curl -X GET 127.0.0.1:9200/articles/article/1?_source=false//返回结果没有source字段

查询所有

  curl -X GET 127.0.0.1:9200/articles/article/_search?_source=title,user_id

分页

from 起始

size 返回文档的数量

curl -X GET 127.0.0.1:9200/articles/article/_search?_source=title,user_id\&size=3

curl -X GET 127.0.0.1:9200/articles/article/_search?_source=title,user_id\&size=3\&from=10

全文检索

  curl -X GET 127.0.0.1:9200/articles/article/_search?q=content:python%20web\&_source=title,article_id\&pretty

  curl -X GET 127.0.0.1:9200/articles/article/_search?q=title:python%20web,content:python%20web\&_source=title,article_id\&pretty

  curl -X GET 127.0.0.1:9200/articles/article/_search?q=_all:python%20web\&_source=title,article_id\&pretty
  
 # 如果知道字段就从对应字段检索，q=xxx,不然就些_all,_source只是返回结果展现出来的字段！！！

%20 表示空格

高级查询（推荐）

全文检索 match

  curl -X GET 127.0.0.1:9200/articles/article/_search -d'
  {
      "query" : {
          "match" : {
              "title" : "python web"
          }
      }
  }'
# 这样漂亮多了
  curl -X GET 127.0.0.1:9200/articles/article/_search?pretty -d'
  {
      "from": 0, //分页
      "size": 5,
      "_source": ["article_id","title"],
      "query" : {
          "match" : {
              "title" : "python web"
          }
      }
  }'

  curl -X GET 127.0.0.1:9200/articles/article/_search?pretty -d'
  {
      "from": 0,
      "size": 5,
      "_source": ["article_id","title"],
      "query" : {
          "match" : {
              "_all" : "python web 编程"
          }
      }
  }'

短语搜索 match_phrase

  curl -X GET 127.0.0.1:9200/articles/article/_search?pretty -d'
  {
      "size": 5,
      "_source": ["article_id","title"],
      "query" : {
          "match_phrase" : {
              "_all" : "python web"  #不拆分，整体比较
          }
      }
  }'

精确查找 term

  curl -X GET 127.0.0.1:9200/articles/article/_search?pretty -d'
  {
      "size": 5,
      "_source": ["article_id","title", "user_id"],
      "query" : {
          "term" : {
              "user_id" : 1
          }
      }
  }'

范围查找 range

  curl -X GET 127.0.0.1:9200/articles/article/_search?pretty -d'
  {
      "size": 5,
      "_source": ["article_id","title", "user_id"],
      "query" : {
          "range" : {
              "article_id": { 
                  "gte": 3,
                  "lte": 5
              }
          }
      }
  }'

高亮搜索 highlight

  curl -X GET 127.0.0.1:9200/articles/article/_search?pretty -d '
  {
      "size":2,
      "_source": ["article_id", "title", "user_id"],
      "query": {
          "match": {
               "title": "python web 编程"
           }
       },
       "highlight":{
            "fields": {
                "title": {} #对应上面的字段，将它高亮显示
            }
       }
  }
  '

组合查询

must

文档必须匹配这些条件才能被包含进来。
must_not

文档 必须不 匹配这些条件才能被包含进来。
should

如果满足这些语句中的任意语句，将增加 _score ，否则，无任何影响。它们主要用于修正每个文档的相关性得分。

filter

必须匹配，但它以不评分、过滤模式来进行。这些语句对评分没有贡献，只是根据过滤标准来排除或包含文档。

curl -X GET 127.0.0.1:9200/articles/article/_search?pretty -d '
{
  "_source": ["title", "user_id"],
  "query": {
      "bool": {  #bool表示组合一堆条件
          "must": {
              "match": {
                  "title": "python web"
              }
          },
          "filter": {  #直接过滤出id为2的文档，不影响分数
              "term": {
                  "user_id": 2 
              }
          }
      }
  }
}
'

排序

  curl -X GET 127.0.0.1:9200/articles/article/_search?pretty -d'
  {
      "size": 5,
      "_source": ["article_id","title"],
      "query" : {
          "match" : {
              "_all" : "python web"
          }
      },
      "sort": [
          { "create_time":  { "order": "desc" }}, 1.首先按照时间排序
          { "_score": { "order": "desc" }} 2.然后再按分数排序
      ]
  }'

boost 提升权重，优化排序

  curl -X GET 127.0.0.1:9200/articles/article/_search?pretty -d'
  {
      "size": 5,
      "_source": ["article_id","title"],
      "query" : {
          "match" : {
              "title" : {
                  "query": "python web",
                  "boost": 4  #分数翻4倍
              }
          }
      }
  }'

ES之Python客户端操作

对于elasticsearch 5.x 版本需要按以下方式导入

from elasticsearch5 import Elasticsearch

# elasticsearch集群服务器的地址
ES = [
    '127.0.0.1:9200'
]

# 创建elasticsearch客户端
es = Elasticsearch(
    ES,
    # 启动前嗅探es集群服务器（就是说我们只连接了一个节点，顺着这个节点发现整个集群）
    sniff_on_start=True,
    # es集群服务器结点连接异常时是否刷新es结点信息
    sniff_on_connection_fail=True,
    # 每60秒刷新结点信息
    sniffer_timeout=60
)

搜索使用方式

query = {
    'query': {
        'bool': {
            'must': [
                {'match': {'_all': 'python web'}}
            ],
            'filter': [
                {'term': {'status': 2}}
            ]
        }
    }
}
ret = es.search(index='articles', doc_type='article', body=query)

需求：应用运行中，如何新增文章数据如何加入ES库，然后也能被检索呢？

就是在自媒体发布文章后，将文章加入es库即可

doc = {
          'article_id': article.id,
          'user_id': article.user_id,
          'title': article.title,
          'content': article.content.content,
          'status': article.status,
          'create_time': article.ctime
      }
current_app.es.index(index='articles', doc_type='article', body=doc, id=article.id)

需求：拼写纠错

对于已经建立的articles索引库，elasticsearch还提供了一种查询模式，suggest建议查询模式

curl 127.0.0.1:9200/articles/article/_search?pretty -d '
{
    "from": 0,
    "size": 10,
    "_source": false,
    "suggest": { #对错误数据的建议
        "text": "phtyon web",  #错误输入，es根据索引库得出正确结果
        "word-phrase": {  #自定义的返回字段名称，依据来源_all（所有字段）
            "phrase": {
                "field": "_all",
                "size": 1 #这个就是设置1条建议即可哦
            }
        }
    }
}'
#返回结果
"suggest":{
	"word-phrase":[
		{
			"text":"phtyon web", 
			"offset":0
			"length":10
			"option":[
				"text":"python web",#一条建议的结果
				"score":0.0001213
			]
		}
	]
}

当我们输入错误的关键词phtyon web时，es可以提供根据索引库数据得出的正确拼写python web

需求：自动补全

使用elasticsearch提供的自动补全功能，因为文档的类型映射要特殊设置-completion，所以原先建立的文章索引库不能用于自动补全，需要再建立一个自动补全的索引库

curl -X PUT 127.0.0.1:9200/completions -H 'Content-Type: application/json' -d'
{
   "settings" : {
       "index": {
           "number_of_shards" : 3,
           "number_of_replicas" : 1
       }
   }
}
'
curl -X PUT 127.0.0.1:9200/completions/_mapping/words -H 'Content-Type: application/json' -d'
{
     "words": {
          "properties": {
              "suggest": {
                  "type": "completion", # 按照completion构建倒排索引！！！
                  "analyzer": "ik_max_word"
              }
          }
     }
}
'

使用logstash导入初始数据

编辑logstash_mysql_completion.conf

input{
     jdbc {
         jdbc_driver_library => "/home/python/mysql-connector-java-8.0.13/mysql-connector-java-8.0.13.jar"
         jdbc_driver_class => "com.mysql.jdbc.Driver"
         jdbc_connection_string => "jdbc:mysql://127.0.0.1:3306/toutiao?tinyInt1isBit=false"
         jdbc_user => "root"
         jdbc_password => "mysql"
         jdbc_paging_enabled => "true"
         jdbc_page_size => "1000"
         jdbc_default_timezone =>"Asia/Shanghai"
         statement => "select title as suggest from news_article_basic"
         clean_run => true
     }
}
output{
      elasticsearch {
         hosts => "127.0.0.1:9200"
         index => "completions"
         document_type => "words"
      }
}

执行命令导入数据

sudo /usr/share/logstash/bin/logstash -f ./logstash_mysql_completion.conf

自动补全建议查询

curl 127.0.0.1:9200/completions/words/_search?pretty -d '
{
    "suggest": {
        "title-suggest" : { #自定义建议字段
            "prefix" : "pyth",  #指明前半部分
            "completion" : { 
                "field" : "suggest" 
            }
        }
    }
}
'

需求：先补全拼写，后纠错拼写

class SuggestionResource(Resource):
    """
    联想建议
    """
    def get(self):
        """
        获取联想建议
        """
        qs_parser = RequestParser()
        qs_parser.add_argument('q', type=inputs.regex(r'^.{1,50}$'), required=True, location='args')
        args = qs_parser.parse_args()
        q = args.q

        # 先尝试自动补全建议查询
        query = {
            'from': 0,
            'size': 10,
            '_source': False,
            'suggest': {
                'word-completion': {
                    'prefix': q,
                    'completion': {
                        'field': 'suggest'
                    }
                }
            }
        }
        ret = current_app.es.search(index='completions', body=query)
        options = ret['suggest']['word-completion'][0]['options']

        # 如果没得到查询结果，进行纠错建议查询
        if not options:
            query = {
                'from': 0,
                'size': 10,
                '_source': False,
                'suggest': {
                    'text': q,
                    'word-phrase': {
                        'phrase': {
                            'field': '_all',
                            'size': 1
                        }
                    }
                }
            }
            ret = current_app.es.search(index='articles', doc_type='article', body=query)
            options = ret['suggest']['word-phrase'][0]['options']

        results = []
        for option in options:
            if option['text'] not in results:
                results.append(option['text'])

        return {'options': results}

关于博主

【如果文章有错误，或者想一起学习大数据或者人工智能的朋友可以加下面微信，
在朋友圈不定期直播自己的一些学习心得和面试经历。（请备注CSDN）】

万字详解PHP+Sphinx中文亿级数据全文检索实战（实测亿级数据0.1秒搜索耗时）小松聊PHP进阶 MySQL PHP 全文检索 php sphinx mysql sql 数据库服务器
Sphinx查询性能非常厉害，亿级数据下输入关键字，大部分能在0.01~0.1秒，少部分再5秒之内查出数据。Sphinx官方文档：http://sphinxsearch.com/docs/sphinx3.html极简概括：由C++编写的高性能全文搜索引擎的开源组件，C/S架构，跨平台（支持Linux、Windows、MacOS），支持分布式部署，并可直接适配MySQL。解决问题：因为MySQL的l
Python知识点：如何使用Elasticsearch与Elasticsearch-py进行全文检索超哥同学 Python系列全文检索 python elasticsearch 面试编程
使用Elasticsearch与elasticsearch-py库进行全文检索可以分为以下几个步骤：1.安装elasticsearch-py首先，确保你已经安装了elasticsearch-py库。你可以使用pip来安装它：pipinstallelasticsearch2.连接到Elasticsearch实例使用elasticsearch-py库，你需要先连接到你的Elasticsearch实例。
国开（电大）2024秋《文献检索与论文写作》综合练习2 电大题园（1）学习方法经验分享笔记
国开（电大）2024秋《文献检索与论文写作》综合练习2一、单选题(14题)1.什么数据库为用户提供深入到图书章节和内容的全文检索(C)A、知网B、万方C、读秀知识库D、维普解析:“读秀”是由海量全文数据及资料基本信息组成的超大型数据库，为用户提供深入到图书章节和内容的全文检索。2.信息检索根据检索对象不同，一般分为:(D)A、二次检索、高级检索B、分类检索、主题检索C、计算机检索、手工检索D、数据
elasticsearch详解(一)——es是什么、能做什么？万里长江雪 java elasticsearch 搜索引擎大数据 linux docker
es是什么elasticsearch简写es，es是一个高扩展、开源的全文检索和分析引擎，它可以准实时地快速存储、搜索、分析海量的数据。什么是全文检索全文检索是指计算机索引程序通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时，检索程序就根据事先建立的索引进行查找，并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。全文搜
全文检索服务 ElasticSearch---------IK分词器的使用 Connection Reset 全文检索服务 ElasticSearch elasticsearch 全文检索搜索引擎
全文检索服务ElasticSearch其他相关：介绍入门及安装Field整合SpringBoot集群管理1.IK分词器1.1测试分词器在添加文档时会进行分词，索引中存放的就是一个一个的词（term），当你去搜索时就是拿关键字去匹配词，最终找到词关联的文档。测试当前索引库使用的分词器：POST/_analyze{"text":"测试分词器，后边是测试内容：springcloud实战"}结果如下：
Elasticsearch 2301_78085386 elasticsearch 大数据搜索引擎
ElasticsearchES概述Elasticsearch，简称为ES，是一款非常强大的开源的高扩展的分布式全文检索引擎，可以帮助我们从海量数据中快速找到需要的内容,它可以近乎实时的存储、检索数据.还可以可以实现日志统计、分析、系统监控等功能.官网:https://www.elastic.co/cn例如京东,淘宝,头条等站内搜索功能mysql搜索匹配机制性能低,数量大的情况下影响性能采用正向索引
Obsidian 0x03：Obsidian 常用插件 Kevin骑熊猫打老虎笔记工具其他
文章目录Obsidian常用插件设置附件文件夹路径删除笔记中不再使用的图片的遗留附件文件表格记录阅读位置在文件列表显示文件夹中包含的笔记数目最近打开文件格式转换样式全文检索绘图笔记特征检索其他常用插件Obsidian常用插件设置附件文件夹路径名称用途CustomAttachmentlocation像typora一样在路径中使用变量${filename}设置附件文件夹名直接写${filename}比
Linux 非root用户部署elasticsearch 7.17.23和ik分词器 XMYX-0 linux elasticsearch ik分词器
文章目录下载安装包环境安装JDK（三台）注解安装supervisor（三台）注解环境初始化（三台）注解部署Elasticsearch（三台）解压配置elasticsearch.yml192.168.0.1192.168.10.2192.168.10.3注解配置Supervisor管理Elasticsearch注解部署IK分词器(三台)测试IK分词器注解下载安装包首先，我们将Elasticsearc
asp.net core集成ElasticSearch+实现全文检索功能战族狼魂 Elasticsearch 全文检索 asp.net 全文检索 elasticsearch 大数据
ASP.NETCore中集成Elasticsearch以实现全文检索功能通常涉及几个关键步骤：目录一.安装Elasticsearch1.准备环境2.下载Elasticsearch3.解压安装包4.运行Elasticsearch5.验证安装6.常见问题及解决方案7.安装为Windows服务（可选）二、创建Elasticsearch索引1.选择并连接REST客户端2.指定索引名称和参数3.定义索引映射
Elastic Search常用命令胖毁青春，瘦解百病 ES es
1测试环境信息ElasticSearch服务器：192.168.0.100用户：docker启停：dockerstart/stop/restartelasticsearchKibana控制台：http://192.168.0.100:5601/app/kibana#/dev_tools/console2基本概念Elasticsearch也是基于Lucene的全文检索库，本质也是存储数据，很多概念与
Redis 全文检索及使用示例凌虚（失业了求个工作） Redis &MQ redis 全文检索后端架构 golang java elasticsearch
序言Redis除了我们所熟知的缓存功能之外，还通过RedisJSON、RediSearch、RedisTimeSeries、RedisBloom等模块支持了JSON数据、查询与搜索（包括全文检索、向量搜索、GEO地理位置等）、时序数据、概率计算等等扩展功能。这些模块既可以按需导入，也被全部打包到了RedisStack中方便我们直接使用。本文将会简述如何使用Redis进行全文检索。Redis全文检索
ELK日志系统星殇曦落 elk
ELKELK日志系统ELK是什么？是一套完整的日志集中处理方案。E：ElasticSearch简称ES分布式索引型非关系型数据库存储logstash输出的日志全文检索引擎，保存的格式是json格式L：logstash基于java语言开发的，数据收集引擎。日志的收集，可以对数据进行过滤，分析，汇总，以标准格式输出K：Kiabana是ES的可视化工具。对ES存储的数据进行可视化展示，分析和检索。ELK
javaweb个人博客系统-第二版—项目概述 Sunflow007
22.jpg2018.11.08更新：代码更新已提交github，更新如下：1.Elasticsearch全文检索——之前说过的Elasticseach，现在终于加上了，附带Logstash定时增量导入Mysql中的数据。2.增加和完善了用户收藏、评论区创建讨论和点赞的功能3.个人中心查看已收藏文章的功能、个人中心上传图片(按时间线排列的照片墙)的功能下一步要做的事：1.完善功能、修改bug和代码
前端（十八）要你何用杀了算了
1.正则正则//校验QQ/*//JS的方式比较麻烦functioncheckQQ(qq){varflag=true;//默认符合要求if(qq.length>=5&&qq.length2.正则表达式正则表达式//匹配字母a，i表示忽略大小写，g表示全文检索varre=newRegExp('a','ig');varre2=/a/ig;varstr='abc';//调用test方法进行匹配，匹配成功返
10、全文检索 -- Elasticsearch -- 介绍、下载、安装、配置、开启权限认证、为 Elasticsearch 启用 SSL 和 HTTPS 支持 _L_J_H_ #全文检索（Solr 和 Elasticsearch）Java 相关应用软件安装全文检索 elasticsearch 安全
目录全文检索--Elasticsearch--介绍、下载、安装、配置、开启安全机制、设置用户密码、为Elasticsearch启用SSL和HTTPS支持Elasticsearch介绍官网下载Elasticsearch安装Elasticsearch1、bin目录介绍2、配置环境变量3、修改配置文件4、启动Elasticsearch5、查看Elasticsearch启动结果：开启XPach安全机制（S
08、全文检索 -- Solr -- 使用 SolrClient 连接 Solr（演示手动配置自定义的SolrClient 并在测试类使用 solrClient 进行添加、查询、删除文档的操作） _L_J_H_ #全文检索（Solr 和 Elasticsearch）全文检索 solr lucene
目录SolrClientSolrClient的功能SolrClient这个API包含如下常用方法：SolrClient方法的说明：SpringBootStarterDataSolr的不足手动配置自定义的SolrClientSolrClient代码演示配置自定义的SolrClient1、创建一个SpringBoot项目，添加依赖2、SolrAutoConfiguration解析3、手动配置自定义的S
java 商城全文搜索_利用solr实现商品的搜索功能闲侃数码 java 商城全文搜索
后期补充：为什么要用solr服务，为什么要用luncence？问题提出：当我们访问购物网站的时候，我们可以根据我们随意所想的内容输入关键字就可以查询出相关的内容，这是怎么做到呢？这些随意的数据不可能是根据数据库的字段查询的，那是怎么查询出来的呢，为什么千奇百怪的关键字都可以查询出来呢？答案就是全文检索工具的实现，luncence采用了词元匹配和切分词。举个例子：北京天安门------luncenc
09、全文检索 -- Solr -- SpringBoot 整合 Spring Data Solr （生成DAO组件和实现自定义查询方法） _L_J_H_ #全文检索（Solr 和 Elasticsearch）spring 全文检索 solr
目录SpringBoot整合SpringDataSolrSpringDataSolr的功能（生成DAO组件）：SpringDataSolr大致包括如下几方面功能：@Query查询（属于半自动）代码演示：1、演示通过dao组件来保存文档1、实体类指定索引库2、修改日志级别3、创建Dao接口4、先删除所有文档5、创建测试类6、演示结果2、根据title_cn字段是否包含关键字来查询3、查询指定价格范围
基于SpringBoot+Dubbo构建的电商平台-微服务架构、商城、电商、微服务、高并发、kafka、Elasticsearc+源代码+文档说明 ldxxxxll 架构 spring boot dubbo
文章目录项目用到的技术前端使用的技术后端使用的技术项目模块说明项目搭建方式项目开发进度源码下载地址项目基于springboot2.1.6.RELEASE+Dubbo2.7.3来构建微服务。业务模块划分，尽量贴合互联网公司的架构体系。所以，除了业务本身的复杂度不是很高之外，整体的架构基本和实际架构相差无几。但实际上，真实的生产级的项目由于用户量以及业务的复杂度，会变得非常复杂。所以我们会让更多的人参
【ES从入门到实战】十七、全文检索-ElasticSearch-进阶-aggregations聚合分析 runewbie
接第16节9)、aggregations(执行聚合)聚合提供了从数据中分组和提取数据的能力。最简单的聚合方法大致等于SQLGROUPBY和SQL聚合函数。在Elasticsearch中，您有执行搜索返回hits(命中结果)，并且同时返回聚合结果，把一个响应中的所有hits(命中结果)分隔开的能力。这是非常强大且有效的，您可以执行查询和多个聚合，并且在一次使用中得到各自的(任何一个的)返回结果，使用
MySQL高级特性篇(3)-全文检索的实现与优化俞兆鹏 MySQL学习指南 mysql
MySQL数据库全文检索是指对数据库中的文本字段进行高效地搜索和匹配。在MySQL数据库中，可以使用全文检索来实现快速的文本搜索功能，并且可以通过一些优化手段提高全文检索的性能。一、MySQL全文检索的基本概念全文检索是一种将关键字搜索与自然语言处理技术结合起来的搜索方法。与传统的基于索引的搜索不同，全文检索可以对文本内容进行分词、权重计算和相关度排序，以提供更准确和相关的搜索结果。MySQL的全
solr —— 1 全文检索Solr8.0第一部分苏打饼干没加心 solr
solr，毕设啊，快被写完吧1solr介绍什么是solrLucene与Solr与ES为什么要用slor2HelloWorld2.1项目安装部署2.2项目安装配置创建核心创建document(表)添加文件查询数据3solr后台管理页面详解控制面板5全文检索千万级别数据实战，全面剖析架构设计，大数据瓶颈突破6数据库导入索引BV1Dt411G7eF1solr介绍什么是solrsolr简化了程序员的操作L
Elasticsearch实战（二）--- 高级查询语法使用 jzjie ElasticSearch elasticsearch 全文检索 es高级查询 es And查询 es聚合操作
Elasticsearch实战-高级查询语法使用文章目录Elasticsearch实战-高级查询语法使用1.ElasticSearch基本语法查询1.1Match_all匹配所有查询1.2Match查询具体字段1.3全文检索匹配match1.4短语匹配match_phrase1.5from，to分页查询1.6order结果排序1.7查询指定列结果_source2.ElasticSearch高级查询
Elasticsearch 数据类型系列大口吃饭大口吐
核心数据类型字符串类型string(被取代了)：这是一个已经过期的字符串类型。在es5之前，用这个来描述字符串，现在的话，它已经被text和keyword替代了text：如果一个字段是要被全文检索的，比如说博客内容、产品描述，那么可以使用text。用了text之后，字段内容会被分析，在生成倒排索引之前，字符串会被分词器分成一个个词项。text类型的字段不用于排序，很少用于聚合，这种字符串也被称为a
03-03 elasticsearch nan得糊涂
入门篇使用场景海量存储：支持分布式存储实时搜索：lucene倒排索引，海量数据下近乎实时搜索a.日志分析，es+logstash+kibanab.Github代码数据分析：支持数据分析及处理基本功能分布式的搜索引擎和数据分析引擎全文检索，结构化检索，数据分析海量数据实时处理根据这些功能，可以实现的使用场景某张表有海量数据，需要实时快速查询数据分析带来的问题ES用在海量数据实时查询，基本的数据分析等
基于Java开发的全文检索、知识图谱、工作流审批机制的知识库老街老街
一、项目介绍image.png一款全源码，可二开，可基于云部署、私有部署的企业级知识库云平台，应用在需要进行常用文档整理、分类、归集、检索的地方，适合知识密集型单位/历史文档丰富的单位，或者大型企业、集团。获取方式：平台私信。为什么建立知识库平台？image.png二、项目所用技术springboot+vue+tinyMce+activiti+elasticsearch+neo4j+redis+m
全文检索原理禅与计算机程序设计艺术
搜索简介搜索实现方案传统实现方案根据用户输入的关键词(java),应用服务器使用SQL语句查询数据库,将查询到的结果返回给用户.特点:如果数据量很大,用户量大,数据库服务器压力随之增大,导致查询速度变慢.Lucene实现方案根据用户输入的关键词(java),应用服务器通过Lucene提供的API查询索引库,索引库返回搜索结果给应用服务器,服务器再将查询到的结果返回给用户特点:解决数据量大、用户量大
ElasticSearch级查询Query DSL下山鸟与鱼！分布式中间件 elasticsearch 搜索引擎大数据全文检索后端
目录全文检索matchquery匹配查询multi_matchquery多字段查询match_phrasequery短语查询query_stringquerysimple_query_stringboolquery布尔查询highlight高亮自定义高亮html标签多字段高亮全文检索全文检索查询（FullTextQueries）和术语级别查询（Term-LevelQueries）是Elastics
ElasticSearch快速开始山鸟与鱼！分布式中间件 elasticsearch 大数据搜索引擎全文检索后端
目录全文检索全文检索的原理什么是倒排索引ElasticSearch介绍ElasticSearch应用场景ElasticSearch下载安装（windows）客户端Kibana安装Elasticsearch安装分词插件ElasticSearch快速开始ElasticSearch索引操作创建索引查询索引删除索引设置Settings设置文档映射Mapping动态映射静态映射使用ReIndex重建索引El
Django+haystack+whoosh+jieba实现全局搜索和关键词高亮--简单包会与世无争小菜鸡
引言最近要做一个项目，要用到Django了，才发现自己已经忘了好多Django的相关知识了，这次趁着这个项目也复习一下，本篇文章主要是django+haystack+whoosh实现全文检索及关键字高亮，话不多说，我们这就开始。DjangoDjango是一个开放源代码的Web应用框架，由Python写成。采用了MTV的框架模式，即模型M，视图V和模版T。它最初是被开发来用于管理劳伦斯出版集团旗下的
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo