全文搜索

数据结构

数据机构
- 结构化：指具有固定格式，或者有限长度的数据，如数据库，元数据等
- 非结构化：指无定长的或者无固定格式的数据，如邮件，或者word文档，文本文档等

非结构化数据的检索

顺序扫描法（Serial Scanning）：从头到尾的检索，适合小数据型的数据
- 操作系统索索文件
- Linux上的wrapper方法
全文索索（Full-text Search）
- 将非结构化的数据中的一部分信息提取出来，重新进行组织，使其变得有一定的结构，然后对这部分数据进行搜索，以达到快速搜索的目的
- 索引：就是上述说的被提取出来的信息，重新进行组织后变成的结构化数据
- 相当于字典

全文搜索的实现原理

建立文本库（把所有的汉字收集起来）
建立索引（把汉字的规律提取出来）
执行搜索（对要查询的汉字进行查找）
过滤结果（去掉其他不是自己检索的字）

全文搜索的实现技术

基于java的开源实现
- Lucene 全文搜索的引擎
- ElasticSearch ：基于Lucene建立起来的
- Solr ：全文检索系统，跟ElasticSearch差不多
- 对比：solr利用了第三方的分布式管理系统，在传统的应用中solr要好一点，而ElasticSearch自身有。目前ElasticSearch应用的更多一点

ElasticSearch的简介

高度可扩展的开源全文搜索和分析引擎
快速的，可近实时地对大数据进行存储、搜索和分析
用来支撑有复杂的数据搜索需求的企业应用
特点：
- 分布式：会把数据存储的索引分开到多个分片去的
- 高可用：由于是分布式系统，就算是若干台主机崩溃了，系统服务还是可以正常使用，所以是高可用的。
- 多类型
- 多API
- 面向文档：不用事先定义模式，每个类型可以定义模式和自定义索引
- 异步导入
- 进实时
- 基于Lucene
- Apache协议

ElasticSearch核心概念

近实时
- 其实可以做到实时的，需要牺牲索引的效率：每次搜索的时候，都要进行刷新，如果牺牲查询的效率，每次查询之前都需要刷新
- 而ElasticSearch做了一个折中的方案，每隔N秒去自动做一次刷新，在创建索引之后，最多就是在N秒之内就能查询到。
- 索引创建后不会直接写入磁盘，而是存放到了文件系统缓存当中，会与刷新策略设置定期的同步到磁盘去。
- 一般刷新策略的参数设置在1秒，因为延迟会有一秒的原因
集群：它是一个或者多个节点的集合，用来保存应用的所有数据，并提供基于全部节点的集成式的索引和搜索功能
- 每个集群的名称都是唯一的，默认的就是ElasticSearch。
- 节点要加入集群，需要根据这个名称来，尽量不要使用相同的名称，以避免节点在加入集群的时候产生错误，
- 每个集群需的名称
节点
-是指集群中，单台的服务器，用来保存数据，并参与整个集群的索引和搜索
- 用UUID通用分的唯一标识符来表示，名称在节点启动的时候，分配给节点的，可以自定义名称
索引：用来加快搜索的速度的。相似文档的集合，内容与义务本身的业务是相关的，可以利用索引保存数据每个索引都有一个名称，通过这个名称可以对索引中包含的文档来进行添加更新，删除和搜索等等操作。再单个集群中可以根据需要定义任意数量的索引。
类型：是对索引包含的文档要进一步的细分。根据文档的公共属性进行划分
文档：进行索引的基本单位，与索引中的类型是相对应的。文档使用的是json的格式来表示；在非结构化数据中，文档对应的是结构化数据中的一个实体。文档的一个实例对应的就是关系型数据库中的实体的一个实例，也就是具体的某条数据
分片：需要水平分割或者缩放内容卷，通过分片分配到多个节点上，进行并行，从而提高性能和吞吐量
副本：分片可以设置不同的副本，故障不可避免，所以需要设置副本。增加副本其实可以增加吞吐量和搜索量
总体来说，索引可以分配多个分片，而分片又可以设置多个副本，默认情况下，ElasticSearch的每个索引会分配5个分片和1个副本，意味着每个集群至少有2个节点, 拥有5个分片和5个副本，这样就有10个分片。

全文搜索

数据结构

非结构化数据的检索

全文搜索的实现原理

全文搜索的实现技术

ElasticSearch的简介

ElasticSearch核心概念

你可能感兴趣的:(全文搜索)