鹤啸九天-西木

Elasticsearch总结

一、概述

Elasticsearch（es）是建立在全文搜索引擎库 Apache Lucene™ 基础上的实时分布式搜索分析引擎。它通过隐藏 Lucene 的复杂性，提供一套简单的 RESTful API。它不仅有Lucene的能力，还是一个分布式的实时文档存储，每个字段可以被索引与搜索、还是一个分布式实时分析搜索引擎、能胜任上百个服务节点的扩展，并支持 PB 级别的结构化或者非结构化数据。es常被用作全文检索、结构化搜索、分析以及这三个功能的组合。

es是面向文档的，对文档而不是像结构化数据那样的行列数据进行索引、检索、排序和过滤。它在存储整个对象或文档的同时会索引每个文档的内容，使之可以被检索。正因为es是在面向文档的，才使es能支持复杂的全文检索。es中很重要的一个数据结构是倒排索引（反向索引），它把要搜索的词作为key，把包含该词的文档作为value，由于包含该词的文档不止一个，所以这个value是文档的数组。

一个es集群可以包含多个节点，每个节点可以包含多个索引。相应的每个索引可以包含多个类型（高版本逐渐取消多类型）。每个类型存储着多个文档，每个文档又有多个字段（es叫域），每个域都有自己的类型。需要注意的是相同索引不同类型下文档的域必须相同。

es域的简单类型有：

关键字	说明
string	字符串，es5后被移除，被拆成keyword和text
keyword	精确匹配的字符串，不会做分词处理
text	全文检索的字符串，分析器会做分词处理
byte、short、integer、long	整型
float、double	浮点数
boolean	布尔型
date	日期

es域的复杂类型有：

类型	说明	示例
多值域	域包含多个值，类似数组。用[ ]包围多个值，这些值的类型必须一样	{ "sex": [ "male", "female" ]}
空域	存在null值的域即为空域，包括：null、[]、[null]
多层级对象	多层JSON对象嵌套
内部对象的映射	属性type为"object"，属性properties中又是内部的对象映射

用法在官方手册已经有很多示例，请参考：

es官网：https://www.elastic.co/cn/

es中文官网：https://www.elastic.co/cn/

es中文文档：https://www.elastic.co/guide/cn/index.html

es参考手册：https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html

es Github源码：https://github.com/elastic/elasticsearch

二、集群和节点

集群（cluster）由一个或多个拥有相同cluster.name配置的节点（实例）组成，它们共同承担数据和负载的压力。当有新节点加入集群中或者从集群中移除节点时，集群将会重新平均分布所有的数据。节点有主节点和非主节点之分，主节点负责管理集群范围内所有的变更。

分片（_shards）是数据的容器，被分配到集群内的各个节点里。分片其实就是Lucene实例，所以一个分片就是一个完整的搜索引擎。分片有主分片和副本分片之分，索引内任意一个文档都归属于一个主分片，所以主分片的数目决定着索引能够保存的最大数据量。实际上最大数据量还跟硬件、文档的大小和复杂程度、索引和查询文档的方式以及期望的响应时长等有关。主分片的数量在创建时被确定并且不能改变，因为每个文档存储在哪个主分片上是根据公式：shard = hash(routing) % number_of_primary_shards确定的，如果number_of_primary_shards发生了变化，原本保存的文档在主分片的位置就错误了。副本分片只是主分片的拷贝，作为硬件故障时保护数据不丢失的冗余备份，并为搜索和返回文档等读操作提供服务。

elasticsearch.yml配置说明如下：

配置项	说明
cluster.name	集群名称
node.name	节点名称
node.master	是否是主节点。es默认集群中的第一台机器为主节点，如果这台机挂了就会重新选主节点
node.data	该节点是否存储索引数据，默认为true
index.number_of_shards	索引的主分片个数，默认为5
index.number_of_replicas	索引的副本分片个数，默认为1
path.conf	配置文件的存储路径，默认是es根目录下的config文件夹
path.data	索引数据的存储路径，默认是es根目录下的data文件夹，可以设置多个存储路径，用逗号隔开
path.work	临时文件的存储路径，默认是es根目录下的work文件夹
path.logs	日志文件的存储路径，默认是es根目录下的logs文件夹
path.plugins	插件的存放路径，默认是es根目录下的plugins文件夹
bootstrap.mlockall	是否锁住内存，因为当jvm开始swapping时es的效率会降低，所以要保证它不swap
network.bind_host	设置绑定的ip地址，可以是ipv4或ipv6的，默认为0.0.0.0
network.publish_host	设置其它节点和该节点交互的ip地址，如果不设置它会自动判断，值必须是个真实的ip地址
network.host	同时设置bind_host和publish_host
transport.tcp.port	节点间交互的tcp端口，默认是9300
transport.tcp.compress	是否压缩tcp传输时的数据，默认为false
http.port	对外服务的http端口，默认为9200
http.max_content_length	内容的最大容量，默认100mb
http.enabled	是否使用http协议对外提供服务，默认为true
gateway.type	gateway的类型，默认为local即为本地文件系统。可以设置为本地文件系统，分布式文件系统，hadoop的HDFS、amazon的s3服务器以及其它文件系统
gateway.recover_after_nodes	集群中N个节点启动后进行数据恢复，默认为1
gateway.recover_after_time	初始化数据恢复进程的超时时间，默认是5分钟
gateway.expected_nodes	集群中节点的数量，默认为2，一旦这N个节点启动，就会立即进行数据恢复
cluster.routing.allocation.node_initial_primaries_recoveries	初始化数据恢复时，并发恢复线程的个数，默认为4
cluster.routing.allocation.node_concurrent_recoveries	添加删除节点或负载均衡时并发恢复线程的个数，默认为4
indices.recovery.max_size_per_sec	数据恢复时限制的带宽，单位mb，默认为0，即无限制
indices.recovery.concurrent_streams	限制从其它分片恢复数据时最大同时打开并发流的个数，默认为5
discovery.zen.minimum_master_nodes	有主节点资格的节点个数，默认为1
discovery.zen.ping.timeout	自动发现其它节点时ping连接超时时间，默认为3秒
discovery.zen.ping.multicast.enabled	是否打开多播发现节点，默认是true
discovery.zen.ping.unicast.hosts	设置主节点的初始列表，可以通过这些节点来自动发现新加入集群的节点
action.auto_create_index	是否自动创建索引
action.destructive_requires_name	是否禁止使用_all和通配符删除索引
script.groovy.sandbox.enabled	是否启用脚本

修改配置有两种方式：

1、持久性修改，使用关键字：persistent，集群重启后不失效；

2、临时性修改，使用关键字：transient，集群重启后就会失效；

PUT http://$user:$passwd@$host:$port/_cluster/settings
{
    "persistent" : {
        配置名 : 值
    },
    "transient" : {
        配置名 : 值
    }
}

常用API：

1：查看集群信息：

GET http://$user:$passwd@$host:$port/

2：查看集群的健康信息：

GET http://$user:$passwd@$host:$port/_cluster/health

三、分析器

文档的每个域都有两个重要属性：index和analyzer：

1、index：控制怎样索引字符串，它可以是下面三个值：

1>analyzed：只有string类型的index属性才可能有此值。默认会用分析器进行处理，以便进行全文检索；

2>not_analyzed：不使用分析器处理，所以只能进行精确匹配；

3>no：不索引这个域，所以这个域不会被搜索到；

2、analyzer：指定在搜索和索引时使用的分析器。默认使用标准分析器（standard）分析器。

分析器对文档内容的分析包含以下过程：

1、将文本分成适合倒排索引的独立的词条；

2、将这些词条统一为标准格式以提高它们的“可搜索性”，比如：

1>大小写转换；

2>词根提取；

3>同义词转换；

分析器实际上是将三个功能封装到了一个包里：

1、字符过滤器

字符串按顺序通过每个字符过滤器，过滤器的任务是在分词前整理字符串。一个字符过滤器可以用来去掉HTML，或者将&转化成 `and`；

2、分词器

字符串被分词器分为单个的词条。一个简单的分词器遇到空格和标点的时候，可能会将文本拆分成词条；

3、token过滤器

词条按顺序通过每个token过滤器。这个过程可能会改变词条（比如转换大小写），删除词条（比如像`a`，`and`，`the`等无用词），或者增加词条（比如增加同义词）。

es常见的内置分析器有：

1、标准分析器（standard）：根据Unicode联盟定义的单词边界划分文本，删除绝大部分标点，最后将词条小写；

2、简单分析器（simple）：在任何不是字母的地方分隔文本，将词条小写；

3、空格分析器（whitespace）：在空格的地方划分文本；

4、语言分析器：根据指定语言的特点，对文本进行划分；

常用API：

1、查看文本放入字段后的拆词结果：

GET http://$user:$passwd@$host:$port/$index/_analyze
{
    "field": 字段名,
    "text": 文本内容
}

2、查看文本经过分析器处理后的结果：

GET http://$user:$passwd@$host:$port/$index/_analyze
{
    "analyzer": 分析器名,
    "text": 文本内容
}

3、创建自定义分析器：

PUT http://$user:$passwd@$host:$port/$index
{
    "settings": {
        "analysis": {
            "analyzer": {
                "dash_remove_analyzer": { //创建名为dash_remove_analyzer的分析器，用于去“-”
                    "tokenizer": "standard",
                    "stopwords": "_spanish_", //停用词使用预定义的西班牙语停用词列表
                    "char_filter": [
                        "dash_remove_char_filter"
                    ]
                }
            },
            "char_filter": {
                "dash_remove_char_filter": {
                    "type": "pattern_replace",
                    "pattern": "(\\S*)-(\\S*)|(\\S*)",
                    "replacement": "$1$2"
                }
            }
        }
    }
}

四、用户

五、索引

常用API：

1：查看所有索引信息

GET http://$user:$passwd@$host:$port/$index/_cat/indices?v

2、查看某个索引信息：

GET http://$user:$passwd@$host:$port/$index

3、查看索引下类型下的映射信息：

GET http://$user:$passwd@$host:$port/$index/_mapping/$type

4：创建索引：

PUT http://$user:$passwd@$host:$port/$index
{
    "settings": {
        "number_of_shards": 1, //索引的主分片个数，默认值是5，这个配置在索引创建后不能修改
        "number_of_replicas" : 0 //每个主分片的副本分片个数，默认值是1，对于活动的索引库，这个配置可以随时修改
    },
    "mappings": {
        "$type": {
            "properties": {
                字段名1: {
                    "type": "text",
                    "analyzer": "english",
                    "fields": {
                        "keyword": {//定义分析器：字段名1.keyword
                            "type": "keyword",
                            "ignore_above": 512
                        },
                        "standard": {//定义分析器：字段名1.standard
                            "type": "text",
                            "analyzer": "standard"
                        }
                    }
                },
                字段名2: {
                    "type": "boolean"
                },
                字段名3: {
                    "type": "date",
                    "format": "yyyy-MM-dd HH:mm:ss"
                },
                字段名4: {
                    "type": "long"
                }
            }
        }
    }
}

5：修改索引配置：

PUT http://$user:$passwd@$host:$port/$index/_settings
{
    "refresh_interval": "2s"
}

6：新增域：

PUT http://$user:$passwd@$host:$port/$index/_mappings/$type
{
    "properties": {
        字段名: {
            "type": "string",
            "index": "not_analyzed"
        }
    }
}

7：删除索引，可以有多种方式：

DELETE /$index
DELETE /$index0,$index1
DELETE /$index*
DELETE /_all
DELETE /*

六、文档维护

文档类似于传统关系数据库中表的一条记录，es用关键字_doc表示。每个文档必须包含三个元素：文档在哪存放（_index）、文档表示的对象类别（_type）、文档唯一标识（_id）。

1、新增或修改：

PUT /$index/$type/$id
{
    "name": "tom",
    "age": 32,
    "about": "I love to go rock climbing",
    "interests": [ "music" , "sport"]
}

PUT /$index/$type/$id?version=5&version_type=external //创建或修改成功后的版本号是5的文档
{
    "name": "tom",
    "age": 32,
    "about": "I love to go rock climbing",
    "interests": [ "music" , "sport"]
}

新增

POST /$index/$type/
{
    "name": "tom",
    "age": 32,
    "about": "I love to go rock climbing",
    "interests": [ "music" , "sport"]
}

新增，如果存在则返回409 Conflict，如果创建成功返回201 Created。

PUT /$index/$type/$id?op_type=create
{
    "name": "tom",
    "age": 32,
    "about": "I love to go rock climbing",
    "interests": [ "music" , "sport"]
}

PUT /$index/$type/$id/_create
{
    "name": "tom",
    "age": 32,
    "about": "I love to go rock climbing",
    "interests": [ "music" , "sport"]
}

修改

POST /$index/$type/$id/_update
{
    "doc":{
        "height":185
    }
}

使用脚本修改

POST /$index/$type/$id/_update
{
    "script" : "ctx._source.height+=1"
}

或者：

POST /$index/$type/$id/_update
{
    "script" : "ctx._source.interests+=new_interests",
    "params" : {
      "new_interests" : "film"
   }
}

或者指定ctx.op=delete进行删除：

POST /$index/$type/$id/_update
{
    "script" : "ctx.op = ctx._source.height > height ? 'delete' : 'none'",
    "params" : {
        "height": 185
    }
}

指定id的文档如果不存在时需要es自动新增，如果由于版本冲突更新失败时可以用retry_on_conflict指定重试的次数，比如：

POST /$index/$type/$id/_update?retry_on_conflict=5
{
    "script" : "ctx._source.height+=1",
    "upsert": {
        "height": 0
   }
}

删除，成功返回200 ok，失败返回404 Not Found

DELETE /$index/$type/$id

_delete_by_query

批量操作：

POST /$index/$type/_bulk
{"index":{"_index":"website","_type":"blog"}}\n
{"title":"Mysecondblogpost"}\n
{"create":{"_index":"website","_type":"blog","_id":"123"}}\n
{"title":"Myfirstblogpost"}\n
{"update":{"_index":"website","_type":"blog","_id":"123","_retry_on_conflict":3}}\n
{"doc":{"title":"Myupdatedblogpost"}}\n
{"delete":{"_index":"website","_type":"blog","_id":"123"}}\n

2、查询：

支持多索引，多类型搜索：

GET /_search?size=5&from=0 //分页查询指定节点下所有索引的文档，每页显示5条，显示第1页

GET /$index1/_search //查询指定节点下索引index1的文档

GET /$index1,$index2/_search //查询指定节点下索引index1、index2的文档

GET /a*,b*/_search //查询指定节点下以a,b开头的索引的文档

GET /$index1/$type1/_search //查询指定节点下索引是index1，类型是type1的文档

GET /$index1,$index2/$type1,$type2/_search //查询指定节点下索引是index1和index2，类型是type1和type2的文档

GET /_all/$type1,$type2/_search //查询指定节点下所有索引中类型是type1和type2的文档

GET /$index/$type/$id?pretty //pretty方式展示文档信息

GET /$index/$type/$id?_source=title,text //只展示title和text字段

GET /$index/$type/$id?_source //只返回_source中的字段

如果存在指定id的文档，则返回200 ok的状态码，否则返回404 Not Found的状态码。

GET /index/type/_search //查询所有文档

GET /_search?timeout=10ms //10ms必须返回，所以返回的文档可能为空

轻量搜索，查name包含tom的文档，条件与条件之间空格分隔，+前缀表示必须与查询条件匹配，-前缀表示一定不与查询条件匹配，没有+或者-的所有其他条件都是可选的（匹配的越多，文档就越相关）。

GET /index/type/_search?q=+title:完善 -content:认证

轻量搜索，查不管哪个字段，包含tom的文档。

GET /index/type/_search?q=认证

GET /index/type/_search?q=+name:(mary john) +date:>2014-09-10 +(aggregations geo)

请求体查询，在es中是支持GET请求的请求体的。但因为带请求体的GET请求并不被广泛支持，所以同时支持POST请求的请求体。

空查询：

GET /_search
{}

分页

GET /_search
{
  "from": 30,
  "size": 10
}

查询表达式：

match_all：常用于空查询或与filter结合使用：

GET /_search
{
    "query": {
        "match_all": {}
    }
}

match：根据字段是否是text类型，决定是否用分词器进行分词：

GET /_search
{
    "query" : {
        "match" : {
            "name" : "tom" 
        }
    }
}

multi_match：可以在多个字段上执行相同的match查询：

{
    "multi_match": {
        "query": "full text search",
        "fields": [ "title", "body" ]
    }
}

match_phrase：查询短语的match查询：

{
    "match_phrase": {
        "content": {
            "query": "my name is Tom",
            "slop":  1
        }
    }
}

range：找出那些落在指定区间内的数字或者时间，可以使用：gt（大于）、gte（大于等于）、lt（小于）、lte（小于等于）：

{
    "range": {
        "age": {
            "gte": 20,
            "lt": 30
        }
    }
}

term：用于精确值匹配，这些精确值可能是数字、时间、布尔或者那些not_analyzed的字符串，区分大小写：

{"term": {"age": 26}}
{"term": {"date": "2014-09-01"}}
{"term": {"public": true}}
{"term": {"tag":  "full_text"}}

terms：用于精确值匹配，但它允许你指定多值进行匹配，区分大小写。如果这个字段包含了指定值中的任何一个值，那么这个文档满足条件：

{"terms": {"tag": ["search","full_text","nosql"]}}

exists、missing：用于查询指定字段中是否有值，相当于sql中的IS NOT NULL和IS NULL：

{
    "exists": {
        "field": "title"
    }
}

GET /index/type/_search
{
    "query" : {
        "match" : { //查询表达式，查name是tom的文档
            "name" : "tom" 
        }
    },
    "highlight": { //高亮显示
        "fields" : {
            "about" : {}
        }
    }
}

复合查询

GET /index/type/_search 
{
    "query" : {
        "bool": {
            "must": {
                "match" : { //查name是tom
                    "name" : "tom" 
                }
            },
            "filter": { //过滤器，并且年龄大于30 
                "range" : {
                    "age" : { "gt" : 30 } 
                }
            }
        }
    }
}

GET /index/type/_search 
{
    "query" : {
        "match" : { //全文检索：即查询包含rock、climbing或两个词都包含（即使顺序颠倒）的文档
            "about" : "rock climbing"
        }
    }
}

GET /index/type/_search 
{
    "query" : {
        "match_phrase" : { //短语搜索，即查询包含整个短语的文档，只包含单个词的不会查到
            "about" : "rock climbing"
        }
    }
}

GET /index/type/_search
{
  "aggs": { //聚合，查字段interests中每个元素出现的次数
    "all_interests": {
      "terms": { "field": "interests" }
    }
  }
}

GET /index/type/_search
{
    "aggs" : {
        "all_interests" : {
            "terms" : { "field" : "interests" },
            "aggs" : { //分级聚合，查询每个interests元素中，age的平均值
                "avg_age" : {
                    "avg" : { "field" : "age" }
                }
            }
        }
    }
}

同时获取多个文档，必须通过docs数组指定_index，_type以及_id，还可以使用_source指定文档内容返回的字段。

GET /_mget
{
   "docs" : [
      {
         "_index" : "website",
         "_type" :  "blog",
         "_id" :    2
      },
      {
         "_index" : "website",
         "_type" :  "pageviews",
         "_id" :    1,
         "_source": "views"
      }
   ]
}

如果是相同的_index或_type，可以统一放在URL的path中

GET /$index/$type/_mget
{
   "docs" : [
      {
         "_id" :    1
      },
      {
         "_id" :    2,
         "_source": "views"
      }
   ]
}

如果只有ID不同，可以使用ids代替docs：

GET /$index/$type/_mget
{
   "ids" : [ "1", "2" ]
}

你可能感兴趣的:(elasticsearch,es,Lucene,全文检索,分布式,检索)

C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
mysql禁用远程登录 igotyback mysql
去mysql库中的user表里，将host都改成localhost之后刷新权限FLUSHPRIVILEGES;
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
C#中使用split分割字符串互联网打工人no1 c#
1、用字符串分隔：usingSystem.Text.RegularExpressions;stringstr="aaajsbbbjsccc";string[]sArray=Regex.Split(str,"js",RegexOptions.IgnoreCase);foreach(stringiinsArray)Response.Write(i.ToString()+"");输出结果：aaabbbc
linux sdl windows.h,Windows下的SDL安装奔跑吧linux内核 linux sdl windows.h
首先你要下载并安装SDL开发包。如果装在C盘下，路径为C:\SDL1.2.5如果在WINDOWS下。你可以按以下步骤：1.打开VC++，点击"Tools",Options2,点击directories选项3.选择"Includefiles"增加一个新的路径。"C:\SDL1.2.5\include"4，现在选择"Libaryfiles“增加"C:\SDL1.2.5\lib"现在你可以开始编写你的第
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
Git常用命令－修改远程仓库地址猿大师 Linux Java git java
查看远程仓库地址gitremote-v返回结果originhttps://git.coding.net/＊＊＊＊＊.git(fetch)originhttps://git.coding.net/＊＊＊＊＊.git(push)修改远程仓库地址gitremoteset-urloriginhttps://git.coding.net/＊＊＊＊＊.git先删除后增加远程仓库地址gitremotermori
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
利用Requests Toolkit轻松完成HTTP请求 nseejrukjhad http 网络协议网络 python
RequestsToolkit的力量：轻松构建HTTP请求Agent在现代软件开发中，API请求是与外部服务交互的核心。RequestsToolkit提供了一种便捷的方式，帮助开发者构建自动化的HTTP请求Agent。本文旨在详细介绍RequestsToolkit的设置、使用和潜在挑战。引言RequestsToolkit是一个强大的工具包，可用于构建执行HTTP请求的智能代理。这对于想要自动化与外
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
webpack图片等资源的处理 dmengmeng
需要的loaderfile-loader（让我们可以引入这些资源文件）url-loader（其实是file-loader的二次封装）img-loader（处理图片所需要的）在没有使用任何处理图片的loader之前，比如说css中用到了背景图片，那么最后打包会报错的，因为他没办法处理图片。其实你只想能够使用图片的话。只加一个file-loader就可以，打开网页能准确看到图片。{test:/\.(p
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
01-Git初识 Meereen Git git
01-Git初识概念：一个免费开源，分布式的代码版本控制系统，帮助开发团队维护代码作用：记录代码内容。切换代码版本，多人开发时高效合并代码内容如何学：个人本机使用：Git基础命令和概念多人共享使用：团队开发同一个项目的代码版本管理Git配置用户信息配置：用户名和邮箱，应用在每次提交代码版本时表明自己的身份命令：查看git版本号git-v配置用户名gitconfig--globaluser.name
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
基于CODESYS的多轴运动控制程序框架：逻辑与运动控制分离，快速开发灵活操作 GPJnCrbBdl python 开发语言
基于codesys开发的多轴运动控制程序框架，将逻辑与运动控制分离，将单轴控制封装成功能块，对该功能块的操作包含了所有的单轴控制（归零、点动、相对定位、绝对定位、设置当前位置、伺服模式切换等等）。程序框架由主程序按照状态调用分归零模式、手动模式、自动模式、故障模式，程序状态的跳转都已完成，只需要根据不同的工艺要求完成所需的动作即可。变量的声明、地址的规划都严格按照C++的标准定义，能帮助开发者快速
C++ | Leetcode C++题解之第409题最长回文串 Ddddddd_158 经验分享 C++Leetcode 题解
题目：题解：classSolution{public:intlongestPalindrome(strings){unordered_mapcount;intans=0;for(charc:s)++count[c];for(autop:count){intv=p.second;ans+=v/2*2;if(v%2==1andans%2==0)++ans;}returnans;}};
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
docker igotyback eureka 云原生
Docker容器的文件系统是隔离的，但是可以通过挂载卷（Volumes）或绑定挂载（BindMounts）将宿主机的文件系统目录映射到容器内部。要查看Docker容器的映射路径，可以使用以下方法：查看容器配置：使用dockerinspect命令可以查看容器的详细配置信息，包括挂载的卷。例如：bashdockerinspect在输出的JSON格式中，查找"Mounts"部分，这里会列出所有的挂载信息
mac电脑命令行获取电量小米人er 我的博客 macos 命令行
在macOS上，有几个命令行工具可以用来获取电量信息，最常用的是pmset命令。你可以通过以下方式来查看电池状态和电量信息：查看电池状态：pmset-gbatt这个命令会返回类似下面的输出：Nowdrawingfrom'BatteryPower'-InternalBattery-0(id=1234567)95%;discharging;4:02remainingpresent:true输出中包括电
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
209. 长度最小的子数组（滑动窗口法）清榎 leetcode刷题 c++leetcode 算法
209.长度最小的子数组题目描述：给定一个含有n个正整数的数组和一个正整数target。找出该数组中满足其和≥target的长度最小的连续子数组[numsl,numsl+1,...,numsr-1,numsr]，并返回其长度。如果不存在符合条件的子数组，返回0。解答：法一：直接使用暴力法。两重循环，对每一个元素向后进行寻找，若找到一个子数组≥target，比较其长度和result的大小，如果其长度
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理