lucky_dogwang

elasticsearch从入门到精通

转载自:https://blog.51cto.com/mageedu/1714522?utm_source=tuicool&utm_medium=referral

各位运维同行朋友们，大家好，非常高兴能有这么个机会与大家一起交流一些技术问题。此前的各位分享达人们在技术领域或管理领域均有十分精彩的分享，他们带给我们的是多个领域中研究或实践的最前沿知识。这使我本人获益良多，首先要郑重感谢他们。

开始之前，本人首先做一下自我介绍。

马永亮，马哥Linux运维培训创始人，已直接培养Linux运维工程师一千多人，他们绝大多数从事Linux运维和相关管理岗位，就业公司包括但不限于阿里、腾讯、百度、京东、网易、新浪、搜狐、大众点评、饿了么等。课程的间接受益者数万人。

这些一线的运维或运维开发工程师不断地将知识、经验或应用趋势等反馈给我们，也因此，我们的课程体系也发展为了快速迭代和演进的模式。另外，不断地通过各种渠道指导他们解决实践中的问题的经验也成为课堂中案例的组成部分。

比如今天的分享，沿用我们的一贯方式，初衷是为那些不甚了解、即将或刚用到ELK stack的朋友们提供一个可落地的思路和实践方法。而ELK达人们还请多批评指正。

下面进入正题。今天的分享共分为如下几个组成部分。不过，如果时间上来不及，可能只会聊前两个而不及其余。

1、搜索引擎组件介绍；
2、ElasticSearch工作原理、查询及常用插件；
3、日志收集器Logstash及常见的同类工具；
4、可视化工具Kibina；
5、使用案例及优化思路；

一、关于搜索引擎

各位知道，搜索程序一般由索引链及搜索组件组成。

索引链功能的实现需要按照几个独立的步骤依次完成：检索原始内容、根据原始内容来创建对应的文档、对创建的文档进行索引。

搜索组件用于接收用户的查询请求并返回相应结果，一般由用户接口、构建可编程查询语句的方法、查询语句执行引擎及结果展示组件组成。

如图所示。

著名的开源程序Lucene是为索引组件，它提供了搜索程序的核心索引和搜索模块，例如图中的“Index”及下面的部分；而ElasticSearch则更像一款搜索组件，它利用Lucene进行文档索引，并向用户提供搜索组件，例如“Index”上面的部分。二者结合起来组成了一个完整的搜索引擎。

二、索引组件

索引是一种数据结构，它允许对存储在其中的单词进行快速随机访问。当需要从大量文本中快速检索文本目标时，必须首先将文本内容转换成能够进行快速搜索的格式，以建立针对文本的索引数据结构，此即为索引过程。

它通常由逻辑上互不相关的几个步骤组成。

第一步：获取内容。

过网络爬虫或蜘蛛程序等来搜集及界定需要索引的内容。Lucene并不提供任何获取内容的组件，因此，需要由其它应用程序负责完成这一功能，例如著名的开源爬虫程序Solr、Nutch、Grub及Aperture等。必要时，还可以自行开发相关程序以高效获取自有的特定环境中的数据。获取到的内容需要建立为小数据块，即文档(Document)。

第二步：建立文档。

获取的原始内容需要转换成专用部件(文档)才能供搜索引擎使用。

一般来说，一个网页、一个PDF文档、一封邮件或一条日志信息可以作为一个文档。文档由带“值(Value)”的“域(Field)”组成，例如标题(Title)、正文(body)、摘要(abstract)、作者(Author)和链接(url)等。不过，二进制格式的文档处理起来要麻烦一些，例如PDF文件。

对于建立文档的过程来说有一个常见操作：向单个的文档和域中插入加权值，以便在搜索结果中对其进行排序。权值可在索引操作前静态生成，也可在搜索期间才动态生成。权值决定了其搜索相关度。

第三步：文档分析。

搜索引擎不能直接对文本进行索引，确切地说，必须首先将文本分割成一系列被称为语汇单元(token)的独立原子元素，此过程即为文档分析。每个token大致能与自然语言中的“单词”对应起来，文档分析就是用于确定文档中的文本域如何分割成token序列。

此即为切词，或分词。

文档分析中要解决的问题包括如何处理连接一体的各个单词、是否需要语法修正(例如原始内容存在错别字)、是否需要向原始token中插入同义词(例如laptop和notebook)、是否需要将大写字符统一转换为小写字符，以及是否将单数和复数格式的单词合并成同一个token等。这通常需要词干分析器等来完成此类工作，Lucene提供了大量内嵌的分析器，也支持用户自定义分析器，甚至联合Lucene的token工具和过滤器创建自定义的分析链。

第四步：文档索引

在索引步骤中，文档将被加入到索引列表。事实上，Lucene为此仅提供了一个非常简单的API，而后自行内生地完成了此步骤的所有功能。

接下来，我们说搜索组件。

索引处理就是从索引中查找单词，从而找到包含该单词的文档的过程。搜索质量主要由查准率(Precision)和查全率(Recall)两个指标进行衡量。查准率用来衡量搜索系列过滤非相关文档的能力，而查全率用来衡量搜索系统查找相关文档的能力。

另外，除了快速搜索大量文本和搜索速度之后，搜索过程还涉及到了许多其它问题，例如单项查询、多项查询、短语查询、通配符查询、结果ranking和排序，以及友好的查询输入方式等。这些问题的解决，通常需要多个组件协作完成。

 1、用户搜索界面

UI(User Interface)是搜索引擎的重要组成部分，用户通过搜索引擎界面进行搜索交互时，他们会提交一个搜索请求，该请求需要先转换成合适的查询对象格式，以便搜索引擎能执行查询。

 2、建立查询

户提交的搜索请求通常以HTML表单或Ajax请求的形式由浏览器提交到搜索引擎服务器，因此，需要事先由查询解析器一类的组件将这个请求转换成搜索引擎使用的查询对象格式。

 3、搜索查询

当查询请求建立完成后，就需要查询检索索引并返回与查询语句匹配的并根据请求排好序的文档。搜索查询组件有着复杂的工作机制，它们通常根据搜索理论模型执行查询操作。常见的搜索理论模型有纯布尔模型、向量空间模型及概率模型三种。Lucene采用了向量空间模型和纯布尔模型。

 4、展现结果

查询获得匹配查询语句并排好序的文档结果集后，需要用直观、经济的方式为用户展现结果。UI也需要为后续的搜索或操作提供清晰的向导，如完善搜索结果、寻找与匹配结果相似的文档、进入下一页面等。

三、Lucene

Lucene是一款高性能的、可扩展的信息检索（IR）工具库，是由Java语言开发的成熟、自由开源的搜索类库，基于Apache协议授权。Lucene只是一个软件类库，如果要发挥Lucene的功能，还需要开发一个调用Lucene类库的应用程序。

文档是Lucene索引和搜索的原子单位，它是包含了一个或多个域的容器，而域的值则是真正被搜索的内容。每个域都有其标识名称，通常为一个文本值或二进制值。将文档加入索引中时，需要首先将数据转换成Lucene能识别的文档和域，域值是被搜索的对象。例如，用户输入搜索内容“title:elasticsearch”时，则表示搜索“标题”域值中包含单词“elasticsearch”的所有文档。

都是文字，大家可能看的眼花。参考一幅从互联网上获取的图片吧。

如前所述，ElasticSearch在底层利用Lucene完成其索引功能，因此其许多基本概念源于Lucene。

四、ES的基本概念

索引(Index)

ES将数据存储于一个或多个索引中，索引是具有类似特性的文档的集合。类比传统的关系型数据库领域来说，索引相当于SQL中的一个数据库，或者一个数据存储方案(schema)。索引由其名称(必须为全小写字符)进行标识，并通过引用此名称完成文档的创建、搜索、更新及删除操作。一个ES集群中可以按需创建任意数目的索引。

类型(Type)

类型是索引内部的逻辑分区(category/partition)，然而其意义完全取决于用户需求。因此，一个索引内部可定义一个或多个类型(type)。一般来说，类型就是为那些拥有相同的域的文档做的预定义。例如，在索引中，可以定义一个用于存储用户数据的类型，一个存储日志数据的类型，以及一个存储评论数据的类型。类比传统的关系型数据库领域来说，类型相当于“表”。

文档(Document)

文档是Lucene索引和搜索的原子单位，它是包含了一个或多个域的容器，基于JSON格式进行表示。文档由一个或多个域组成，每个域拥有一个名字及一个或多个值，有多个值的域通常称为“多值域”。每个文档可以存储不同的域集，但同一类型下的文档至应该有某种程度上的相似之处。

三者关系，如图中所示。

映射(Mapping)

ES中，所有的文档在存储之前都要首先进行分析。用户可根据需要定义如何将文本分割成token、哪些token应该被过滤掉，以及哪些文本需要进行额外处理等等。另外，ES还提供了额外功能，例如将域中的内容按需排序。事实上，ES也能自动根据其值确定域的类型。

节点(Node)
运行了单个实例的ES主机称为节点，它是集群的一个成员，可以存储数据、参与集群索引及搜索操作。类似于集群，节点靠其名称进行标识，默认为启动时自动生成的随机Marvel字符名称。用户可以按需要自定义任何希望使用的名称，但出于管理的目的，此名称应该尽可能有较好的识别性。节点通过为其配置的ES集群名称确定其所要加入的集群。

分片(Shard)和副本(Replica)
ES的“分片(shard)”机制可将一个索引内部的数据分布地存储于多个节点，它通过将一个索引切分为多个底层物理的Lucene索引完成索引数据的分割存储功能，这每一个物理的Lucene索引称为一个分片(shard)。每个分片其内部都是一个全功能且独立的索引，因此可由集群中的任何主机存储。创建索引时，用户可指定其分片的数量，默认数量为5个。

Shard有两种类型：primary和replica，即主shard及副本shard。Primary shard用于文档存储，每个新的索引会自动创建5个Primary shard，当然此数量可在索引创建之前通过配置自行定义，不过，一旦创建完成，其Primary shard的数量将不可更改。Replica shard是Primary Shard的副本，用于冗余数据及提高搜索性能。每个Primary shard默认配置了一个Replica shard，但也可以配置多个，且其数量可动态更改。ES会根据需要自动增加或减少这些Replica shard的数量。

ES集群可由多个节点组成，各Shard分布式地存储于这些节点上。

ES可自动在节点间按需要移动shard，例如增加节点或节点故障时。简而言之，分片实现了集群的分布式存储，而副本实现了其分布式处理及冗余功能。

如图所示。

ElasticSearch的RESTful API通过tcp协议的9200端口提供，可通过任何趁手的客户端工具与此接口进行交互，这其中包括最为流行的curl。curl与ElasticSearch交互的通用请求格式如下面所示。

 curl -X ':///?' -d ''
 VERB：HTTP协议的请求方法，常用的有GET、POST、PUT、HEAD以及DELETE；
 PROTOCOL：协议类型，http或https；
 HOST：ES集群中的任一主机的主机名；
 PORT：ES服务监听的端口，默认为9200；
 QUERY_STRING：查询参数，例如?pretty表示使用易读的JSON格式输出；
 BODY：JSON格式的请求主体；

例如，查看ElasticSearch工作正常与否的信息。

~]$ curl ‘http://localhost:9200/?pretty’

与ElasticSearch集×××互时，其输出数据均为JSON格式，多数情况下，此格式的易读性较差。cat API会在交互时以类似于Linux上cat命令的格式对结果进行逐行输出，因此有着较JSON好些的可读性。调用cat API仅需要向“_cat”资源发起GET请求即可。具体使用方法请查阅官方文档。

另外，ES集群的CRUD操作也非常容易进行，朋友们参考官方文档即可。

五、ES中的数据查询简介

需要注意的是，文档中每个域的值可能会存储为特定类型，而非字符串类型，因此，_all域的索引方式与特域的索引方式未必完全相同。

文档中，域的数据存储时支持“string”、“numbers”、“Booleans”和“dates”几种类型，不同类型的数据在索引时是略有区别的。在创建文档时，Elasticsearch会通过检查域的值来动态为其创建mapping，可通过Mapping API来查看type的mapping，其访问端点是_mapping。

下面，我们聊一个麻烦一点的问题，ES的精确值、full-text及倒排索引。

精确值(Exact values)就是指数据未曾加工过的原始值，而Full-text则用于引用文本中的数据。在查询中，精确值是很容易进行搜索的，但full-text则需要判断文档在“多大程度上”匹配查询请求，换句话讲，即需要评估文档与给定查询的相关度(relevant)。因此，所谓的full-text查询通常是指在给定的文本域内部搜索指定的关键字，但搜索操作该需要真正理解查询者的目的。

例如：
(1) 搜索“UK”应该返回包含“United Kingdom”的相关文档；
(2) 搜索“jump”应该返回包含“JUMP”、“jumped”、“jumps”、“jumping”甚至是“leap”的文档；
(3) 搜索“johnny walker”应该匹配包含“Johnnie Walker”的文档；

为了完成此类full-text域的搜索，ES必须首先分析文本并将其构建成为倒排索引(inverted index)，倒排索引由各文档中出现的单词列表组成，列表中的各单词不能重复且需要指向其所在的各文档。因此，为了创建倒排索引，需要先将各文档中域的值切分为独立的单词(也称为term或token)，而后将之创建为一个无重复的有序单词列表。这个过程称之为“分词(tokenization)”。

六、Queries and Filters

尽管统一称之为query DSL，事实上Elasticsearch中存在两种DSL：查询DSL(query DSL)和过滤DSL(filter DSL)。查询子句和过滤子句的自然属性非常相近，但在使用目的上略有区别。简单来讲，当执行full-text查询或查询结果依赖于相关度分值时应该使用查询DSL，当执行精确值(extac-value)查询或查询结果仅有“yes”或“no”两种结果时应该使用过滤DSL。

Filter DSL计算及过滤速度较快，且适于缓存，因此可有效提升后续查询请求的执行速度。而query DSL不仅要查找匹配的文档，还需要计算每个文件的相关度分值，因此为更重量级的查询，其查询结果不会被缓存。不过，得益于倒排索引，一个仅返回少量文档的简单query或许比一个跨数百万文档的filter执行起来并得显得更慢。

Filter DSL中常见的有term Filter、terms Filter、range Filter、exists and missing Filters和bool Filter。而Query DSL中常见的有match_all、match 、multi_match及bool Query。鉴于时间关系，这里不再细述，朋友们可参考官方文档学习。

Queries用于查询上下文，而filters用于过滤上下文，不过，Elasticsearch的API也支持此二者合并运行。组合查询可用于合并查询子句，组合过滤用于合并过滤子句，然而，Elasticsearch的使用习惯中，也常会把filter用于query上进行过滤。不过，很少有机会需要把query用于filter上的。

好了，朋友们，今天的分享就先到这里吧。感谢大家的时间。这些内容是我用来讲课的讲义精练出的内容，用于微信的方式分享可能显得过于啰嗦，请大家将就着看啦。

全面解析MeiliSearch及其Go语言实现寻找09之夏 Meilisearch golang 开发语言后端 Meilisearch
前言随着互联网的发展和数字化进程的加速，无论是企业还是个人用户，都需要面对海量的信息。在这个背景下，搜索技术的重要性日益凸显。MeiliSearch是一款开源搜索引擎，它的出现为开发者提供了一个高效、灵活的选择。本文将从多个角度探讨MeiliSearch的特性、使用方法及其实现原理，并通过Go语言示例展示如何构建一个高性能的搜索系统。一、MeiliSearch特性MeiliSearch之所以受到欢
WeKnow-RAG：智能自适应的检索增强生成方法步子哥人工智能
在当今快速发展的人工智能领域，检索增强生成（Retrieval-AugmentedGeneration，RAG）方法逐渐成为一种新兴的解决方案。CobusGreyling在他最新的文章中深入探讨了WeKnow-RAG，这一方法通过结合知识图谱和网络搜索技术，极大地提升了大型语言模型（LLMs）在复杂查询中的表现。知识图谱的力量知识图谱（KnowledgeGraphs,KGs）作为信息检索的重要工具
电商搜索革命：大模型如何重塑购物体验？京东零售技术人工智能人工智能
随着电商行业的蓬勃发展，搜索技术作为连接用户与商品的桥梁，其重要性日益凸显。在技术不断革新的今天，电商搜索技术经历了哪些阶段？面对大模型的飞速发展，企业又将如何把握趋势，应对挑战？为了深入探讨这些问题，京东技术总监翟周伟与InfoQ栏目探讨了电商搜索技术的发展历程、当前的应用状况以及面临的挑战和未来的发展方向。以下是采访的详细内容。翟周伟，现任职京东零售大模型技术总监。在AI助手，NLP和搜索领域
Elasticsearch 与 OpenSearch：开源搜索技术的演进与选择铭毅天下 elasticsearch 开源大数据搜索引擎全文检索
在2010年以Apache2.0开源协议发布后，Elasticsearch迅速成为全球最受欢迎的企业搜索引擎。Elasticsearch常与Logstash和Kibana一起部署，这一组合被称为ElasitcStack，用于启用日志分析用例，包括应用可观察性、安全日志分析和理解用户行为。2015年，亚马逊利用这一开源协议推出了AmazonElasticsearchService（AmazonES）
使用GPT3.5,LangChain，FAISS和python构建一个本地知识库 juhanishen GPT gpt-3 langchain faiss chatbot
本篇文章获得同事刘工的授权刊登。原文发表于2023年6月28日。引言介绍本地知识库的概念和用途在现代信息时代，我们面临着海量的数据和信息，如何有效地管理和利用这些信息成为一项重要的任务。本地知识库是一种基于本地存储的知识管理系统，旨在帮助用户收集、组织和检索大量的知识和信息。它允许用户在本地环境中构建和管理自己的知识资源，以便更高效地进行信息处理和决策。本地知识库通常采用数据库、索引和搜索技术，以
使用GPT3.5,LangChain，Milvus和python构建一个本地知识库 juhanishen gpt-3 langchain milvus
本篇文章获得同事刘工的授权刊登。原文发表于2023年7月13日。引言介绍本地知识库的概念和用途在现代信息时代，我们面临着海量的数据和信息，如何有效地管理和利用这些信息成为一项重要的任务。本地知识库是一种基于本地存储的知识管理系统，旨在帮助用户收集、组织和检索大量的知识和信息。它允许用户在本地环境中构建和管理自己的知识资源，以便更高效地进行信息处理和决策。本地知识库通常采用数据库、索引和搜索技术，以
BFS与队列以及DFS与BFS的区别记得开心一点嘛搜索（DFS +BFS）深度优先算法广度优先队列
DFS与BFS是基本的两种暴力搜索技术，用于解决树,图的遍历问题，在前面的博客写到了一些基础的DFS解决的问题，本期给大家带来BFS的分析过程。对于我个人的理解，DFS和BFS无非是两大模板型，DFS是利用递归（or栈）的方法进行深度搜素，而BFS是利用队列的思想，拿我前面的文章内讲述了DFS走迷宫问题，枚举所有方向通过递归找到最终的答案，那么如果利用BFS的思想该如何分析呢？举个例子：.....
Elasticsearch：混合搜索是 GenAI 应用的未来 Elastic 中国社区官方博客 Elasticsearch AI Elastic elasticsearch 大数据搜索引擎人工智能语言模型自然语言处理全文检索
在这个竞争激烈的人工智能时代，自动化和数据为王。从庞大的存储库中有效地自动化搜索和检索信息的过程的能力变得至关重要。随着技术的进步，信息检索方法也在不断进步，从而导致了各种搜索机制的发展。随着生成式人工智能模型成为吸引力的中心，应用程序需要可靠的搜索和检索技术。其中，如果说旧的全文搜索具有信任因素，那么向量搜索则正在成为先进的搜索技术。今天，我们将探索全文搜索和向量搜索，并了解如何在当今的数字环境
《给大脑装上CPU》笔记 Clouds_liu
一个更加高效的、科学的、在工作生活中更实用的方法和体系，来实现快速学习和高速成长。➀有极快的理解能力➁有深入的思考能力➂有极强的学习能力能否用更高级的方法来整合信息，深入思考，才是我们升级大脑的最核心的关键。如何提高我们的处理信息的速度？方法是什么？借助搜索技术、各种电子工具，以及科学的学习方法和用脑技巧，来建立起更高效的信息处理流。核心就是：更高质量的信息来源、更强大的信息处理方法，和更精准的思
超星答案怎么查找？ #经验分享#微信#其他半生sdf 笔记 excel
打破传统的学习方式，借助学习工具开拓创新的学习方法，让学习更富有趣味性和互动性。1.灵兔搜题这是个微信公众号大学以及考证考试人群基于图像搜索技术和语音搜索技术的实时答疑的智能搜题软件，还有海量题库可供练习，懒人考试通关必备神器。下方附上一些测试的试题及答案1、下盘岩块沿断层面相对向下移动答案：逆断层。2、朗罕氏细胞又称（）答案：多核巨细胞3、中国北方干旱区的成因？答案：①地处大陆中心区域，离海洋较
忘记 RAG：拥抱Agent设计，让 ChatGPT 更智能更贴近实际 ericliu2017 LLM RAG
RAG（检索增强生成）设计模式通常用于开发特定数据领域的基于实际情况的ChatGPT。然而，重点主要是改进检索工具的效率，如嵌入式搜索、混合搜索和微调嵌入，而不是智能搜索。这篇文章介绍了一种新的方法，灵感来自人类研究方法，涉及多种搜索技术，观察中间结果，不断完善和重试，然后才提供回应。通过利用智能代理设计，本文提出构建一个更智能、更扎实的ChatGPT，超越传统RAG模型的局限性。RAG模式和限制
2020-04-29 bokli_dw
博弈方法：知识表示，模糊、粗集；神经网络；搜索技术；遗传；交叉就是交换两端基因后面部分的信息。
10大高性能开发宝石，我要消灭一半程序员！程序员知识圈
程序员经常要面临的一个问题就是：如何提高程序性能？这篇文章，我们循序渐进，从内存、磁盘I/O、网络I/O、CPU、缓存、架构、算法等多层次递进，串联起高性能开发十大必须掌握的核心技术。-I/O优化：零拷贝技术-I/O优化：多路复用技术-线程池技术-无锁编程技术-进程间通信技术-RPC&&序列化技术-数据库索引技术-缓存技术&&布隆过滤器-全文搜索技术-负载均衡技术准备好了吗，坐稳了，发车！首先，我
＜网络安全＞《12 数据库安全审计系统》 Ealser #网络安全 web安全 oracle 网络安全
1概念数据库安全审计系统通过对用户访问数据库行为的记录、分析和汇报，来帮助用户事后生成合规报告、事故追根溯源，同时通过大数据搜索技术提供高效查询审计报告，定位事件原因，以便日后查询、分析、过滤，实现加强内外部数据库网络行为的监控与审计，提高数据资产安全。1.1说明它可以监控和审计用户对数据库中的数据库表、视图、序列、包、存储过程、函数、库、索引、同义词、快照、触发器等的创建、修改和删除等，分析的内
怎样量化评价搜索引擎的结果质量一座青山 search engine 搜索引擎搜索引擎结果评价方法
搜索质量评估是搜索技术研究的基础性工作，也是核心工作之一。评价（Metrics）在搜索技术研发中扮演着重要角色，以至于任何一种新方法与他们的评价方式是融为一体的。搜索引擎结果的好坏与否，体现在业界所称的在相关性（Relevance）上。相关性的定义包括狭义和广义两方面，狭义的解释是：检索结果和用户查询的相关程度。而从广义的层面，相关性可以理解为为用户查询的综合满意度。直观的来看，从用户进入搜索框的
我的创作纪念日疯狂飙车的蜗牛我的创作纪念日
机缘在CSDN的第2048天，也完成了第100篇博客，不知不觉过去了6年，回忆当初第一次写博客，是因为当时做了一个项目之后，有了一段空闲的时间，就想把做的东西分享出来，因为经常搜索技术类的东西，最常搜到的就是CSDN的回答，所以当时选择了CSDN；收获其实6年里的只有23年认真写过一段时间博客，在写博客的过程中收获很多，21w+的阅读量，近2w的粉丝关注，上千的铁粉，其实相比这些，更多地是结实了很
ElasticSearch分词器介绍 Dxy1239310216 Elasticsearch elasticsearch 大数据搜索引擎
在大数据时代，搜索技术变得尤为重要。ElasticSearch作为一款强大的开源搜索引擎，提供了丰富的功能来满足各种搜索需求。其中，分词器是ElasticSearch中一个非常核心的概念，它决定了如何将用户输入的文本切分成一个个的词汇单元。一、什么是分词器？简单来说，分词器就是将文本切分成一个个词汇的功能。在中文语境下，分词的目的是将连续的汉字序列划分为一个个独立的词汇。例如，“我/爱/北京/天安
回归预测 | Python基于ALO-BiGRU蚁狮优化算法优化双向BiGRU多变量回归预测+适应度曲线+多个评价指标机器学习之心回归预测 ALO-BiGRU 蚁狮优化算法优化双向BiGRU 多变量回归预测
目录效果一览基本介绍程序设计参考资料效果一览基本介绍ALO算法是Mirjalili于2015提出的一种新型元启发式群智能算法。由于引入了随机游走、轮盘赌策略及精英策略，使得ALO算法成为一种种群多样、寻优性能强、调节参数少、易于实现的搜索技术python代码优化参数：filter,unints1,units2，学习率1、输入为多变量，输出为单变量2、python程序3、数据更换简单：更改excel
搜索系统中涉及的NLP问题机器很不爱学习
搜索技术除了涉及基础的搜索算法，也涉及到很多NLP技术，本文转载于，只是做个学习记录，侵删。推荐系统被捧为目前算法领域的主流，推荐系统不需要用户主动进行操作就能获取自己喜欢的东西，但是实际上，搜索系统在很长一段时间占据了重要位置，大到百度的大搜，小到音乐、视频、电商、应用商店等，都有各种各样的搜索引擎，这些搜索搜索能更为精准直接的满足用户需求，即使是推荐系统如日中天，目前也仍会有搜索的一席之地。今
automl框架:AutoGluon介绍李白唱着歌去镇上
automl框架:AutoGluon介绍原理大部分automl框架是基于超参数搜索技术，例如基于贝叶斯搜索的hyperopt技术等AutoGluon则依赖融合多个无需超参数搜索的模型，三个臭皮匠顶个诸葛亮stacking:在同一份数据上训练出多个不同类型的模型，这些模型可以是KNN、tree、核方法等，这些模型的输出进入到一个线性模型里面得到最终的输出，就是对这些输出做加权求和，这里的权重是通过训
2024年1月17日Arxiv最热论文推荐：清华提出多模态知识检索新框架、MIT新方法大幅提升LLMs的连贯性、浙大新模型助力视频任务新突破、Meta 革新搜索技术、Google革新AI写作夕小瑶人工智能深度学习机器学习论文阅读神经网络自然语言处理大模型
本文整理了今日发表在ArXiv上的AI论文中最热门的TOP5。论文解读、论文热度排序、论文标签、中文标题、推荐理由和论文摘要均由赛博马良平台（saibomaliang.com）上的智能体「AI论文解读达人」提供。如需查看其他热门论文，欢迎移步saibomaliang.com^_^TOP1GenerativeMulti-ModalKnowledgeRetrievalwithLargeLanguage
2024年1月17日Arxiv热门NLP大模型论文：THE FAISS LIBRARY 夕小瑶自然语言处理人工智能搜索深度学习神经网络论文阅读
Meta革新搜索技术！提出Faiss库引领向量数据库性能飞跃引言：向量数据库的兴起与发展随着人工智能应用的迅速增长，需要存储和索引的嵌入向量（embeddings）数量也在急剧增加。嵌入向量是由神经网络生成的向量表示，其主要目的是将输入媒体项映射（嵌入）到向量空间中，空间中的局部性编码了输入的语义。这些嵌入向量从各种媒体形式中提取，包括文字、图像、用户和推荐项目等。它们甚至可以编码对象关系，例如多
2024年1月16日Arxiv热门NLP大模型论文：Improved Learned Sparse Retrieval with Corpus-Specific Vocabularies 夕小瑶自然语言处理人工智能语言模型神经网络深度学习大模型论文阅读
亚马逊颠覆搜索技术：自定义词汇库提升检索性能，效率提高50%，准确度飙升12%！引言：搜索引擎中的词汇选择与检索效率在搜索引擎的世界中，词汇的选择对于检索效率至关重要。传统的搜索引擎技术，如BM25，依赖于对文档中词汇的频率统计来估计词汇的重要性。然而，随着预训练语言模型（如BERT）的兴起，我们现在可以通过直接优化检索任务来学习文档中词汇的重要性。这些学习到的词汇重要性分数是许多学习型稀疏检索技
Agent检索增强生成 lichunericli Agent 人工智能语言模型
检索增强生成(RAG)设计模式通常用于在特定数据域中开发大语言模型(LLM)应用。然而，RAG的过往的研究重点主要在于提高检索工具的效率，例如嵌入搜索、混合搜索和微调嵌入，而忽视了智能搜索。本文介绍了一种受人类研究方法启发的新方法，该方法涉及多种搜索技术、观察临时结果、精炼以及在提供响应之前在多步骤过程中重试。本文提出基于智能Agent的检索增强方案，突破传统RAG模式的局限性，构建更加智能、更加
忘记RAG，未来是RAG-Fusion lichunericli LLM 人工智能语言模型 embedding
英文原文地址：https://towardsdatascience.com/forget-rag-the-future-is-rag-fusion-1147298d8ad1忘记RAG，未来是RAG-Fusion搜索的下一个前沿：检索增强生成与相互排名融合和生成的查询相遇2023年10月6日在探索搜索技术近十年后，我可以诚实地说，没有什么比最近兴起的检索增强一代(RAG)更具颠覆性了。该系统使用矢量
基于博弈树的开源五子棋AI教程[6 置换表] BrokenGeeker 开源人工智能
文章目录引子定义实现讨论与尾记引子置换表是记忆化搜索技术的应用，置换表保存了某一盘面的搜索结果。当博弈树搜索遇到相同的局面时可以调用这些信息来减少重复搜索。那么如何设计一个置换表的节点就显得比较重要，本文在经典的置换表节点增加一个显示当前玩家的字段，这一字段补足了zobristhash单向函数的缺点，如果节点需要使用更浅深度的信息，可以通过迭代的方式来求解，丰富了置换表的信息。定义置换表中包换了搜
ElasticSearch分布式搜索引擎（两万字详解）林小果1 springcloud 搜索引擎 elasticsearch 分布式 spring cloud spring 后端 java
文章目录ElasticSearch分布式搜索引擎1.了解ESELK技术栈elasticsearch和lucene为什么不是其他搜索技术？总结倒排索引正向索引倒排索引正向和倒排es的一些概念文档和字段索引和映射mysql与elasticsearch2.安装elasticsearch1.部署单点es1.1.创建网络1.2.拉取镜像1.3.运行2.部署kibana2.1拉取镜像2.2.部署2.3.Dev
基于博弈树的开源五子棋AI教程[6 置换表] BrokenGeeker 开源人工智能五子棋AI 博弈树搜索 QT 置换表
文章目录引子定义实现讨论与尾记引子置换表是记忆化搜索技术的应用，置换表保存了某一盘面的搜索结果。当博弈树搜索遇到相同的局面时可以调用这些信息来减少重复搜索。那么如何设计一个置换表的节点就显得比较重要，本文在经典的置换表节点增加一个显示当前玩家的字段，这一字段补足了zobristhash单向函数的缺点，如果节点需要使用更浅深度的信息，可以通过迭代的方式来求解，丰富了置换表的信息。定义置换表中包换了搜
文件检索(Spotlight) 镜月_ae9e
前言Spotlight是苹果在Tiger(10.4)引入的一项快速搜索技术，在Leopard中，Spotlight已经无缝的整合进入了Finder。从iOS3.0开始，Spotlight被移植到了iOS。在OSX中，用户点击系统菜单栏右上角的图标就可以使用Spotlight。在iOS中，用户手指滑向主屏幕画面左侧就可以打开类似的窗口。Spotlight背后实现机制是它有一个索引服务器mds，mds
拍立淘API：让消费者与心仪商品 api77 python 设计模式开发语言人工智能 sqlite json
随着电子商务的快速发展，消费者在购物过程中越来越注重个性化、便捷性和高效性。拍立淘API作为一种先进的购物搜索技术，通过将消费者与心仪商品更紧密地连接起来，为电商行业带来了革命性的变革。本文将详细介绍拍立淘API的原理、优势、使用场景和实现代码，以期为电商行业的技术研发人员和消费者提供有价值的参考。一、拍立淘API原理拍立淘API是一种基于图像识别技术的购物搜索接口。它通过分析上传的图片或直接拍摄
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS

elasticsearch从入门到精通

你可能感兴趣的:(搜索技术)