solr项目学习(官方文档学习)

 一。getting started

1.启动solr ./solr start

2.创建solr进程 ./solr create -c [进程名],e.g.    ./solr create -c test

3.添加文档 ./post [进程名]  -c [文档目录] e.g.     ./post -c test /home

4.查询 http://211.87.234.166:8983/solr/test/select?q=dog

    结果域限定 fl=**,**,**

    指定查询域   select?q=name:black

         设定域值范围 select?q=price:[0%20TO%20400]

   层面搜索(faceted)——可理解为group by

         e.g.搜索结果仅显示txt类型文件  &facet=true&facet.field=stream_content_type&fq=stream_content_type:text/plain

5.solr应用开发步骤

      1.定义纲要(schema),即定义solr数据库中有哪些域(field),可以类比关系数据库的设计,//一般的文件搜索项目可以使用默认的schema?

    2.在服务器上部署solr

    3.添加和维护搜索文件(添加维护索引) 

          4.开发搜索功能

6.solr的一些特性

  -solr query为http请求,返回为结构化的文档,如xml,json等,方便多种语言使用,详见客户端api

  -sor是基于lucene的高性能,全功能搜索引擎,详见:搜索

  -solrCloud具有大规模数据分布式处理能力,主要为分片技术(Sharding)和复制技术(Replication)

7.solr配置文件:solr.xml,solrconfig.xml,schema.xml

8.solr start命令 start,restart,参数见p14-p15,status,Healthcheck p18,create p20,solrCloud 配置设置 p21,delete

9.solr版本信息:略

 

二。Using the Solr Administration User Interface

 

三Documents, Fields, and Schema Design

solr的初步理解:solr把所有文件做成doc对象,每个doc对象有很多field,可以设定field怎么分析,分词,是否索引,是否存储等,在schema中配置field type和field

 1.field type:理解为域类型,如作者未string,价格未float等

field type定义有四种信息

  1.name

  2.class name(同一种类,如text,可以用不同的分析器,所以有多个type)

  3.分析器(class为TextField)

  4.特性,理解为参数设定

2.type特性 ,见p43-p44

  1.类特性

  2.通用特性

  3.被field继承的默认特性

3.内置类

二进制,bool,collation,currency,date,external file,enum,ICUCollation(文本排序),LaLon(空间搜索),Point(空间搜索),PreAnalyzedField(无预处理类?),RandomSortField,SpatialRecursivePrefixTreeFieldType,StrField,TextField,。。。。。P45-P46

4.介绍currency,Date,Enum,External Files,用到时再看,

5.Field Properties by Use Case,具体操作的一些参数设置P53

6.定义field

<field name="price" type="float" default="0.0" indexed="true" stored="true"/>

7.Copying Fields

例如同时索引查询标题和内容,把标题字段和内容字段copy到一个新的字段即可

8.Dynamic Fields

field name 带通配符,提高健壮性

9.schema其他内容

  *unique key:主键

  *Default Search Field:默认搜索字段

  *Query Parser Default Operator :query多词的默认分析操作

  *Similarity:用于doc评分???

10.schema API:Http Get Post对schema操作,略

11.DocValues:make lookups for faceting, sorting, and grouping much faster,列排的fields,

11.Schemaless Mode:快速搜索简单数据,略,p81

 

四。Understanding Analyzers, Tokenizers, and Filters

1.概述

Field analyzers:分析:一系列分词器和过滤器的组合

Tokenizers 分词器

Filter:过滤器,——对分词结果再进行处理

*分析器:实质是分词+过滤,可分为索引和查询两个过程

*分词器:预处理+分词+元数据(metadata,分词位置信息,用于高亮)

*过滤器:对分词结果过滤,可以形成过滤链,通用过滤器先过滤,具体的过滤器后过滤,如统一大小写,stemmer提取词干算法等

2.分词器:详细介绍了solr的各种内置分词器,P91,有空再详细看

3.过滤器:详细介绍了solr的各种内置过滤器,p99

4.CharFilterFactories:在分词器之前得到过滤器(预处理),p126

5.Language Analysis:和语言相关的知识,与中文分词关系不大,以后看P130

6.语音匹配Phonetic Matching:不支持中文,略过 P155

 

五。Indexing and Basic Data Operations

*可以用SolrJ等API更新索引,详见“客户端API”

1. Introduction to Solr Indexing

  solr获取数据的来源:XML文件,CSV,数据库,其他常用格式文件。

  *获取索引的三种最常用的方式

  1.使用Solr Cell框架(基于Apache Tika)加入文档

  2.通过http想solr服务器发送xml文件

  3.客户端API Client API,编写应用,如CMS,Java API是最好的选择

Solr最基本的数据结构:a document containing multiple fields

如果某个域的内容需要索引,那么分析过程就会介入,进行分析(分词,过滤),如果文件有未定义域,则会匹配到动态域或直接忽略。

  *curl命令完成http POST和GET:apt-get install curl

    curl通过http,ftp等协议上传post,获取get数据

  注:curl仅用于学习和实验,实际应用中使用Solr Cell等其它方法

    除了curl,还可以用wget,Perl中的GETS,POSTS等

 

2.Post Tool:简单的命令行工具向solr集合/中添加内容。

  若添加的为本机目录,实际上自动调用tika等工具分析文档,建立索引。

  还可以用post命令直接传入xml命令操作索引,例如:

  bin/post -c gettingstarted -d '<delete><id>42</id></delete>'  

  post还可以定义位置后缀名文件的类型,之后solr就会调用相应的handler进行处理,还可以向handler穿参数等等,具体用到的时候可以再仔细学习。

  post命令来源于Java程序SimplePostTool,位于/example/exampledocs/post.jar中。

  问题:该程序源代码,如何把java程序做成linux命令?

3.Uploading Data with Index Handlers

  Index Handler是一种请求处理器Request Handlers来向index数据库中添加,删除,更新文档。

  本节介绍如何用xml,josn,csv添加,删除,更新文档???

  常用的请求处理器配制方法未把路径映射到url中,也可以通过配置requestDispatcher

  (1)配置UpdateRequestHandler Configuration,默认配置如下

  <requestHandler name="/update" class="solr.UpdateRequestHandler" />

  (2) XML格式更新索引:

  xml add标签直接添加一个doc类到索引中,但所有的域都要手动添加P168

  标签参数:add:commitwithin,overwrite等

          doc,field boost:详见搜索一章

  问题:如何只给文件位置,让tika自动提取元数据到fields中?可能这种方法不行,需要看下一节

  实验:使用adminUI,成功添加doc,在更新<commit waitSearcher="false"/>或<commit/>后,成功索引到添加的doc

     使用curl同样可以完成操作(没试)P170

  xml还支持删除(按主键删除,query删除),rollback:<rollback/>

  用XSLT转换xml:略P170

  (3)xml之后详细介绍了json,csv更新索引,没看,需要的时候再看!

 

 

 

4.Uploading Data with Solr Cell using Apache Tika ——核心技术

  Solr使用tika把各种文件格式的分析器合并到solr自身,包括PDFBOS,apache POImicosoft的格式)

solr的ExtractingRequestHandler使用tika抽取和索引文件。此框架被称为Solr Content Extraction Library,可以替换成自己的内容处理器。(1)核心概念

  *Tika自动识别文档类型,抽取内容

  *Tika生产XHTML流送给SAX内容处理器解析

  *Solr相应Tika结果,写入域值并建立索引

  *Tika提供元数据,Tika将所有文本结果加到content域,可以映射tika元数据域到solr域(怎么映射???),还可以boost??

  *可以手动传入,强行修改域值(很有用,可以用来实现一部分域值需要手动传入的用户需求)

  *可以使用Xpath表达式限制输出内容(怎么用???)

  注意:如果Tika解析失败,ExtractingRequestHandler就会抛出异常

 (2)使用techproducts演示tika使用

  curl命令提交文档:

  curl  'http://localhost:8983/solr/techproducts/update/extract?literal.id=doc1&commit=true'
  -F "myfile=@example/exampledocs/solr-word.pdf"

  命令解释:

  literal.id:手动输入域值

  commit=true:索引后立刻提交,如果提交多个文档,提交完成后再commit

  -F curl提交数据的参数

  myfile= :提交文档的路径,可以问绝对路径或相对路径

  可以使用带参数的post命令实现相同功能。  

 

  默认未定义域值丢弃,可以修改solrconfig进行配置或直接传参数设置

(3)输入参数表P185  

(4)处理顺序

  1.Tika生成域值或使用手动输入值

  2.各种map

  3.uprefix处理未识别域

 (5)SolrConfig:配置ExtractHandler

 (6)加密文件:提供密码可以处理

 (7)例子:略

实际开发中使用SolrJ应该最为方便,如上传文档,表单获取comment,solrJ把comment作为参数传入并交给tika自动处理

5.Uploading Structured Data Store Data with the Data Import Handler

添加数据库内容索引,后补

6.Updating Parts of Documents:索引的维护和更新

solr提供两种方法处理已被索引的文档又被修改的情况

  1.原子更新atomic updates:改变一个或几个域而不用重新index 

    solr提供一些更新的语句,如set,add,remove等P210,SolrJ如何更新索引???

  原子更新是手工更新,自动更新机制应该更有用!

  2.optimistic concurrency or optimistic locking :与nosql数据库有关

  确保当前更新的文档不被其他程序修改,需要_version_域

  工作流程:1一个客户端从solr上获取文档

          2客户端修改文档

          3客户端重新提交文档到solr

       4.检测到version冲突,重新index 

   囧!到底怎么用根本没讲清楚!

  *Document Centric Versioning Constraints:

  如果用户使用外置的用户自己的version,那么更新请求就会被拒绝,此时使用DocBasedVersionConstraintsProcessorFactory

注:如何自动更新用户的文档到索引中还是个很重要的问题!

(是采用用户提交的方式还是系统自动检测的方式!)

 

7.De-Duplication——删除重复

防止复制的文档进入索引?

使用如md5的hash算法

需要配置!

8.Detecting Languages During Indexing

 

9.

 

五. Searching

1.综述

Solr提供request handler处理query请求,它调用query parser处理搜索query。

默认为DisMax,标准为Lucene query parser,还有eDisMax

一个query parser的输入可以有:

  search string:搜索的项

  parameter:参数,又称为query filter,用于呈现用户的特定搜索请求

solr提供强大的高亮机制

slor可以配置成返回结果的片段

solr提供两种分组方法:Faceting和Clustering

2.Relevance:相关性(搜索结果评价)

后补

3.

 

 

spell check:

拼写检查提供内置的查询推荐,来源于索引数据或外部文件

  1.IndexBaseedSpellChecker:从solr index复制field到spellchecker index

  2.DirectSolrSpellChecker:直接使用solr index进行拼写检查

  有一些默认配置,如距离度量使用编辑距离等

  3.FileBasedSpellChecker:拼写检查来自外部文件

  4.WordBreakSolrSpellChecker:合并或拆开相邻的查询单词,

配好拼写检查,还要在RequestHandler中陪使用的拼写检查

英文拼写检查在参考techproduct的例子后可以配置成功,但是中文拼写检查可能需要不同的配置,暂时不细看了。

要实现推荐功能,实际上用的是suggester!

 

Suggester:

 

 

***添加中文分词

这个把我坑的不轻。按照官方文档把jar包加到/server/lib网页端报错,ClassNotFound,害我浪费了好长时间。应该把jar报加到/server/solr-webapp/webapp/WEB-INF/lib中,加好之后真是泪牛满面,终于明白程序员为什么要加班到两三点然后猝死了。

问题:jar加入web-app,在analysis的时候可以用,在索引的时候是否可以,是否要配置solrconfig里的lib

主要流程如下:

1.添加分词jar包,这里我用了solr自带的smartcn分词器,在contrib文件夹下,复制到web-app的lib下即可

2.修改schema文件,位于/server/solr/项目名/conf/managed-schema,添加新的fieldType, 并把分析器,过滤器?设置成smartcn里的类即可,这里我用了官方文档的配置,P138

3.query时使用smartcn分词:To do

 

 

***学习过程中遇到需要学习的技术问题

0.搜索原理:信息检索相关知识:text retrieval and search engine,nlp

1.Java相关:基本语法,Servlet,工厂模式,JUnit

2.xml相关:xml为solr使用最多的格式,所以相对较为重要,还报告xhtml,sax,xpath等等内容

3.Lucene原理,Lucene java源码,java二次程序开发

4.HTTP协议,GET,POST API

5.SolrCloud相关:Zookeeper,hadoop。。。

6.版本管理工具SVN,编译工具Ant,Maven

7.其他:正则表达式,tika

 

ExtractingRequestHandler

你可能感兴趣的:(Solr)