利用solr实现商品的搜索功能

为什么要用solr服务,为什么要用luncence?

问题提出:当我们访问购物网站的时候,我们可以根据我们随意所想的内容输入关键字就可以查询出相关的
内容,这是怎么做到呢?这些随意的数据不可能是根据数据库的字段查询的,那是怎么查询出来的呢,为什么
千奇百怪的关键字都可以查询出来呢?

答案就是全文检索工具的实现,luncence采用了词元匹配和切分词。举个例子:北京天安门------luncence
切分词:北京  京天  天安  安门  等等这些分词。所以我们搜索的时候都可以检索到。

有一种分词器就是IKAnalyzer中文分词器,它有细粒度切分和智能切分,即根据某种智能算法。

这就使用solr的最大的好处:检索功能的实现。

(1)solr服务器搭建,因为solr是用java5开发的,所以需要jdk和tomcat。搭建部署
(2)搭建完成后,我们需要将要展示的字段引入solr的库中。配置spring与solr结合,工程启动的时候
启动solr
(3)将数据库中的查询内容导入到solr索引库,这里使用的是solrj的客户端实现的。具体使用可以参考api
(4)建立搜索服务,供客户端调用。调用solr,查询内容,这中间有分页功能的实现。solr高亮显示的实现。
(5)客户端接收页面的请求参数,调用搜索服务,进行搜索。

1、在搜索时是否需要在此字段上进行搜索。例如:商品名称、商品的卖点、商品的描述
(这些相当于将标签给了solr,导入商品数据后,solr对这些字段的对应的商品的具体内容进行分词切分,
然后,我们就可以搜索到相关内容了)

需要用到的字段:

1、商品id

2、商品title

3、卖点

4、价格

5、商品图片

6、商品分类名称

7、商品描述

Solr中的业务字段:

1、id——》商品id

其他的对应字段创建solr的字段。














 












重新启动tomcat

Solr 是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器。Solr提供了
比Lucene更为丰富的查询语言,同时实现了可配置、可扩展,并对索引、搜索性能进行了优化。

Solr是一个全文检索服务器,只需要进行配置就可以实现全文检索服务。有效降低频繁访问数据库对数据库
造成的压力。

第一步:将solr部署在linux系统下。
第二步:solrJ是solr的客户端,使用它需要依赖solrJ的jar包。
第三步:将数据库的内容添加到solr的索引库,这样查询就在索引库查询,而不是数据库了。

controller层:

@Controller
@RequestMapping("/manager")
public class ItemController {
 @Autowired
 private ItemService itemService;
 @RequestMapping("/importall")
 @ResponseBody
  public   TaotaoResult importAllItem(){
            TaotaoResult result= itemService.importAllItem();
            return result;
 }
}

public interface ItemMapper {
    List getItemList();
 
}

 mapper.xml






利用solr实现商品的搜索功能_第1张图片

第四步:从索引库查询的逻辑编写:

//从索引库里面获取商品信息,现在这个dao层是从索引库获取信息,因为之前的写的逻辑是将db里面的数据
导入到索引库。后面的查询都是从索引库中进行,而不从数据库了
@Repository
public class SearchDaoImpl implements SearchDao {
    @Autowired
    private SolrServer solrServer;
 
    @Override
    public SearchResult search(SolrQuery query) throws Exception {
        //这是从索引库里面,直接执行查询
        QueryResponse response = solrServer.query(query);
        //获取查询的结果
        SolrDocumentList documentList= response.getResults();
         
        SearchResult result=new SearchResult();
        //这是获取总记录数
        result.setRecordCount(documentList.getNumFound());
         
        List itemList=new ArrayList<>();
        //商品的高亮显示,即当鼠标移到字上时,该字体变色,这是从QueryResponse中获取的
        Map>> highlighting = response.getHighlighting();
         
        for (SolrDocument solrDocument : documentList) {
             
            //每个SolrDocument都是一个商品pojo的内容,所以这里要创建一个商品的pojo对象,来
获取详细的字段
            Item item=new Item();
            item.setId((String) solrDocument.get("id"));
            //高亮显示是title的高亮显示
            List list = highlighting.get(solrDocument.get("id")).get("item_title");
            String title="";
            if (list!=null && list.size()>0) {
                title=list.get(0); 
            }
            else{
                title=(String) solrDocument.get("item_title"); 
            }
         
            item.setTitle(title);
            item.setPrice((Long) solrDocument.get("item_price"));
            item.setImage((String) solrDocument.get("item_image"));
            item.setCategory_name((String) solrDocument.get(" item_category_name"));
            item.setSell_point((String) solrDocument.get("item_sell_point"));
           itemList.add(item);
        }
         
          result.setItemList(itemList);
     
        return result;
    }
 
}

Lucene和Solr和Elasticsearch的区别

Lucene

Lucene是apache下的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索
引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。
官网地址:https://lucene.apache.org/

Elasticsearch

Elasticsearch跟Solr一样,也是一个基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索
引擎,基于RESTful web接口。官网地址:https://www.elastic.co/products/elasticsearch

1、Elasticsearch的优缺点:

优点:

1.Elasticsearch是分布式的。不需要其他组件,分发是实时的,被叫做”Push replication”。

2.Elasticsearch 完全支持 Apache Lucene 的接近实时的搜索。

3.处理多租户(multitenancy)不需要特殊配置,而Solr则需要更多的高级设置。

4.Elasticsearch 采用 Gateway 的概念,使得完备份更加简单。

5.各节点组成对等的网络结构,某些节点出现故障时会自动分配其他节点代替其进行工作。

缺点:

1.只有一名开发者(当前Elasticsearch GitHub组织已经不只如此,已经有了相当活跃的维护者)

2.还不够自动(不适合当前新的Index Warmup API)


2、Solr的优缺点:

优点

1.Solr有一个更大、更成熟的用户、开发和贡献者社区。

2.支持添加多种格式的索引,如:HTML、PDF、微软 Office 系列软件格式以及 JSON、XML、CSV 等纯文本
格式。

3.Solr比较成熟、稳定。

4.不考虑建索引的同时进行搜索,速度更快。

缺点

1.建立索引时,搜索效率下降,实时索引搜索效率不高。


3、Elasticsearch 与 Solr 的比较:

1.二者安装都很简单;

2.Solr 利用 Zookeeper 进行分布式管理,而 Elasticsearch 自身带有分布式协调管理功能;

3.Solr 支持更多格式的数据,而 Elasticsearch 仅支持json文件格式;

4.Solr 官方提供的功能更多,而 Elasticsearch 本身更注重于核心功能,高级功能多有第三方插件提供;

5.Solr 在传统的搜索应用中表现好于 Elasticsearch,但在处理实时搜索应用时效率明显
低于 Elasticsearch。

5.Solr 在传统的搜索应用中表现好于 Elasticsearch,但在处理实时搜索应用时效率明显
低于 Elasticsearch。

使用案例:

1.维基百科使用Elasticsearch来进行全文搜做并高亮显示关键词,以及提供search-as-you-type、
did-you-mean等搜索建议功能。

2.英国卫报使用Elasticsearch来处理访客日志,以便能将公众对不同文章的反应实时地反馈给各位编辑。

3.StackOverflow将全文搜索与地理位置和相关信息进行结合,以提供more-like-this相关问题的展现。

4.GitHub使用Elasticsearch来检索超过1300亿行代码。

5.每天,Goldman Sachs使用它来处理5TB数据的索引,还有很多投行使用它来分析股票市场的变动。

solr如何实现搜索的?

倒排索引,先抽取文档中词,并建立词与文档id的映射关系,然后查询的时候会根据词去查询文档id,
并查询出文档

Solr过滤器

Solr的过滤器对接收到的标记流(TokenStream )做额外的处理

过滤查询,在查询时设置

Solr原理

Solr是基于Lucene开发的全文检索服务器,而Lucene就是一套实现了全文检索的api,其本质就是一个全文
检索的过程。

全文检索就是把原始文档根据一定的规则拆分成若干个关键词,然后根据关键词创建索引,当查询时先查询
索引找到对应的关键词,并根据关键词找到对应的文档,也就是查询结果,最终把查询结果展示给用户的过程

Solr基于什么

基于lucene搜索库的一个搜索引擎框架,lucene是一个开放源码的全文检索引擎工具包

IK分词器原理

本质上是词典分词,在内存中初始化一个词典,然后在分词过程中逐个读取字符,和字典中的字符相匹配,
把文档中的所有词语拆分出来的过程

solr的索引查询为什么比数据库要快

Solr使用的是Lucene API实现的全文检索。全文检索本质上是查询的索引。而数据库中并不是所有的字段
都建立的索引,更何况如果使用like查询时很大的可能是不使用索引,所以使用solr查询时要比查数据库快

solr索引库个别数据索引丢失怎么办

首先Solr是不会丢失个别数据的。如果索引库中缺少数据,那就向索引库中添加

Lucene索引优化

直接使用Lucene实现全文检索已经是过时的方案,推荐使用solr。Solr已经提供了完整的全文检索解决方案

solr如何分词,新增词和禁用词如何解决

新增词添加到词典配置文件中ext.dic,禁用词添加到禁用词典配置文件中stopword.dic,然后在
schema.xml文件中配置禁用词典:

ElasticSearch(简称ES)是一个分布式、Restful的搜索及分析服务器,设计用于分布式计算;能够达到
实时搜索,稳定,可靠,快速。和Apache Solr一样,它也是基于Lucence的索引服务器,
而ElasticSearch对比Solr的优点在于:
1.轻量级:安装启动方便,下载文件之后一条命令就可以启动。
2.Schema free:可以向服务器提交任意结构的JSON对象,Solr中使用schema.xml指定了索引结构。
3.多索引文件支持:使用不同的index参数就能创建另一个索引文件,Solr中需要另行配置。
4.分布式:Solr Cloud的配置比较复杂。

lucence 内部结构是什么

1.索引(Index): 在Lucene中一个索引是放在一个文件夹中的。

2.段(Segment): 一个索引可以包含多个段,段与段之间是独立的,添加新文档可以生成新的段,
不同的段可以合并。

3.文档(Document): 文档是我们建索引的基本单位,不同的文档是保存在不同的段中的,一个段可以包含
多篇文档。

4.域(Field):一篇文档包含不同类型的信息,可以分开索引,比如标题,时间,正文,作者等,都可以
保存在不同的域里。 

5.词(Term):词是索引的最小单位,是经过词法分析和语言处理后的字符串。

solr和lucene的区别

1.Solr和Lucene的本质区别有以下三点:搜索服务器,企业级和管理。Lucene本质上是搜索库,不是独立的
应用程序,而Solr是。

2.Lucene专注于搜索底层的建设,而Solr专注于企业应用。

3.Lucene不负责支撑搜索服务所必须的管理,而Solr负责。

4.Lucene: 是一个索引与搜索类库,而不是完整的程序。

5.Solr:是一个高性能,采用Java5开发,基于Lucene的一个独立的企业级搜索应用服务器,它对外提供
类似于Web-service的API接口。

solr 实现全文检索

1.索引流程:客户端---》solr 服务器(发送post请求,xml文档包含filed,solr实现对索引的维护)

2.搜索流程:客户端---》solr 服务器(发送get 请求,服务器返回一个xml 文档)

solr和lucene之间的区别

1.lucene全文检索的工具包,jar包

2.solr 全文检索服务器,单独运行的servlet容器

 

你可能感兴趣的:(利用solr实现商品的搜索功能)