一。getting started
1.启动solr ./solr start
2.创建solr进程 ./solr create -c [进程名],e.g. ./solr create -c test
3.添加文档 ./post [进程名] -c [文档目录] e.g. ./post -c test /home
4.查询 http://211.87.234.166:8983/solr/test/select?q=dog
结果域限定 fl=**,**,**
指定查询域 select?q=name:black
设定域值范围 select?q=price:[0%20TO%20400]
层面搜索(faceted)——可理解为group by
e.g.搜索结果仅显示txt类型文件 &facet=true&facet.field=stream_content_type&fq=stream_content_type:text/plain
5.solr应用开发步骤
1.定义纲要(schema),即定义solr数据库中有哪些域(field),可以类比关系数据库的设计,//一般的文件搜索项目可以使用默认的schema?
2.在服务器上部署solr
3.添加和维护搜索文件(添加维护索引)
4.开发搜索功能
6.solr的一些特性
-solr query为http请求,返回为结构化的文档,如xml,json等,方便多种语言使用,详见客户端api
-sor是基于lucene的高性能,全功能搜索引擎,详见:搜索
-solrCloud具有大规模数据分布式处理能力,主要为分片技术(Sharding)和复制技术(Replication)
7.solr配置文件:solr.xml,solrconfig.xml,schema.xml
8.solr start命令 start,restart,参数见p14-p15,status,Healthcheck p18,create p20,solrCloud 配置设置 p21,delete
9.solr版本信息:略
二。Using the Solr Administration User Interface
略
三Documents, Fields, and Schema Design
solr的初步理解:solr把所有文件做成doc对象,每个doc对象有很多field,可以设定field怎么分析,分词,是否索引,是否存储等,在schema中配置field type和field
1.field type:理解为域类型,如作者未string,价格未float等
field type定义有四种信息
1.name
2.class name(同一种类,如text,可以用不同的分析器,所以有多个type)
3.分析器(class为TextField)
4.特性,理解为参数设定
2.type特性 ,见p43-p44
1.类特性
2.通用特性
3.被field继承的默认特性
3.内置类
二进制,bool,collation,currency,date,external file,enum,ICUCollation(文本排序),LaLon(空间搜索),Point(空间搜索),PreAnalyzedField(无预处理类?),RandomSortField,SpatialRecursivePrefixTreeFieldType,StrField,TextField,。。。。。P45-P46
4.介绍currency,Date,Enum,External Files,用到时再看,
5.Field Properties by Use Case,具体操作的一些参数设置P53
6.定义field
<field name="price" type="float" default="0.0" indexed="true" stored="true"/>
7.Copying Fields
例如同时索引查询标题和内容,把标题字段和内容字段copy到一个新的字段即可
8.Dynamic Fields
field name 带通配符,提高健壮性
9.schema其他内容
*unique key:主键
*Default Search Field:默认搜索字段
*Query Parser Default Operator :query多词的默认分析操作
*Similarity:用于doc评分???
10.schema API:Http Get Post对schema操作,略
11.DocValues:make lookups for faceting, sorting, and grouping much faster,列排的fields,
11.Schemaless Mode:快速搜索简单数据,略,p81
四。Understanding Analyzers, Tokenizers, and Filters
1.概述
Field analyzers:分析:一系列分词器和过滤器的组合
Tokenizers 分词器
Filter:过滤器,——对分词结果再进行处理
*分析器:实质是分词+过滤,可分为索引和查询两个过程
*分词器:预处理+分词+元数据(metadata,分词位置信息,用于高亮)
*过滤器:对分词结果过滤,可以形成过滤链,通用过滤器先过滤,具体的过滤器后过滤,如统一大小写,stemmer提取词干算法等
2.分词器:详细介绍了solr的各种内置分词器,P91,有空再详细看
3.过滤器:详细介绍了solr的各种内置过滤器,p99
4.CharFilterFactories:在分词器之前得到过滤器(预处理),p126
5.Language Analysis:和语言相关的知识,与中文分词关系不大,以后看P130
6.语音匹配Phonetic Matching:不支持中文,略过 P155
五。Indexing and Basic Data Operations
*可以用SolrJ等API更新索引,详见“客户端API”
1. Introduction to Solr Indexing
solr获取数据的来源:XML文件,CSV,数据库,其他常用格式文件。
*获取索引的三种最常用的方式
1.使用Solr Cell框架(基于Apache Tika)加入文档
2.通过http想solr服务器发送xml文件
3.客户端API Client API,编写应用,如CMS,Java API是最好的选择
Solr最基本的数据结构:a document containing multiple fields
如果某个域的内容需要索引,那么分析过程就会介入,进行分析(分词,过滤),如果文件有未定义域,则会匹配到动态域或直接忽略。
*curl命令完成http POST和GET:apt-get install curl
curl通过http,ftp等协议上传post,获取get数据
注:curl仅用于学习和实验,实际应用中使用Solr Cell等其它方法
除了curl,还可以用wget,Perl中的GETS,POSTS等
2.Post Tool:简单的命令行工具向solr集合/中添加内容。
若添加的为本机目录,实际上自动调用tika等工具分析文档,建立索引。
还可以用post命令直接传入xml命令操作索引,例如:
bin/post -c gettingstarted -d '<delete><id>42</id></delete>'
post还可以定义位置后缀名文件的类型,之后solr就会调用相应的handler进行处理,还可以向handler穿参数等等,具体用到的时候可以再仔细学习。
post命令来源于Java程序SimplePostTool,位于/example/exampledocs/post.jar中。
问题:该程序源代码,如何把java程序做成linux命令?
3.Uploading Data with Index Handlers
Index Handler是一种请求处理器Request Handlers来向index数据库中添加,删除,更新文档。
本节介绍如何用xml,josn,csv添加,删除,更新文档???
常用的请求处理器配制方法未把路径映射到url中,也可以通过配置requestDispatcher
(1)配置UpdateRequestHandler Configuration,默认配置如下
<requestHandler name="/update" class="solr.UpdateRequestHandler" />
(2) XML格式更新索引:
xml add标签直接添加一个doc类到索引中,但所有的域都要手动添加P168
标签参数:add:commitwithin,overwrite等
doc,field boost:详见搜索一章
问题:如何只给文件位置,让tika自动提取元数据到fields中?可能这种方法不行,需要看下一节
实验:使用adminUI,成功添加doc,在更新<commit waitSearcher="false"/>或<commit/>后,成功索引到添加的doc
使用curl同样可以完成操作(没试)P170
xml还支持删除(按主键删除,query删除),rollback:<rollback/>
用XSLT转换xml:略P170
(3)xml之后详细介绍了json,csv更新索引,没看,需要的时候再看!
4.Uploading Data with Solr Cell using Apache Tika ——核心技术
Solr使用tika把各种文件格式的分析器合并到solr自身,包括PDFBOS,apache POImicosoft的格式)
solr的ExtractingRequestHandler使用tika抽取和索引文件。此框架被称为Solr Content Extraction Library,可以替换成自己的内容处理器。(1)核心概念
*Tika自动识别文档类型,抽取内容
*Tika生产XHTML流送给SAX内容处理器解析
*Solr相应Tika结果,写入域值并建立索引
*Tika提供元数据,Tika将所有文本结果加到content域,可以映射tika元数据域到solr域(怎么映射???),还可以boost??
*可以手动传入,强行修改域值(很有用,可以用来实现一部分域值需要手动传入的用户需求)
*可以使用Xpath表达式限制输出内容(怎么用???)
注意:如果Tika解析失败,ExtractingRequestHandler就会抛出异常
(2)使用techproducts演示tika使用
curl命令提交文档:
curl 'http://localhost:8983/solr/techproducts/update/extract?literal.id=doc1&commit=true'
-F "myfile=@example/exampledocs/solr-word.pdf"
命令解释:
literal.id:手动输入域值
commit=true:索引后立刻提交,如果提交多个文档,提交完成后再commit
-F curl提交数据的参数
myfile= :提交文档的路径,可以问绝对路径或相对路径
可以使用带参数的post命令实现相同功能。
默认未定义域值丢弃,可以修改solrconfig进行配置或直接传参数设置
(3)输入参数表P185
(4)处理顺序
1.Tika生成域值或使用手动输入值
2.各种map
3.uprefix处理未识别域
(5)SolrConfig:配置ExtractHandler
(6)加密文件:提供密码可以处理
(7)例子:略
实际开发中使用SolrJ应该最为方便,如上传文档,表单获取comment,solrJ把comment作为参数传入并交给tika自动处理
5.Uploading Structured Data Store Data with the Data Import Handler
添加数据库内容索引,后补
6.Updating Parts of Documents:索引的维护和更新
solr提供两种方法处理已被索引的文档又被修改的情况
1.原子更新atomic updates:改变一个或几个域而不用重新index
solr提供一些更新的语句,如set,add,remove等P210,SolrJ如何更新索引???
原子更新是手工更新,自动更新机制应该更有用!
2.optimistic concurrency or optimistic locking :与nosql数据库有关
确保当前更新的文档不被其他程序修改,需要_version_域
工作流程:1一个客户端从solr上获取文档
2客户端修改文档
3客户端重新提交文档到solr
4.检测到version冲突,重新index
囧!到底怎么用根本没讲清楚!
*Document Centric Versioning Constraints:
如果用户使用外置的用户自己的version,那么更新请求就会被拒绝,此时使用DocBasedVersionConstraintsProcessorFactory
注:如何自动更新用户的文档到索引中还是个很重要的问题!
(是采用用户提交的方式还是系统自动检测的方式!)
7.De-Duplication——删除重复
防止复制的文档进入索引?
使用如md5的hash算法
需要配置!
8.Detecting Languages During Indexing
9.
五. Searching
1.综述
Solr提供request handler处理query请求,它调用query parser处理搜索query。
默认为DisMax,标准为Lucene query parser,还有eDisMax
一个query parser的输入可以有:
search string:搜索的项
parameter:参数,又称为query filter,用于呈现用户的特定搜索请求
solr提供强大的高亮机制
slor可以配置成返回结果的片段
solr提供两种分组方法:Faceting和Clustering
2.Relevance:相关性(搜索结果评价)
后补
3.
spell check:
拼写检查提供内置的查询推荐,来源于索引数据或外部文件
1.IndexBaseedSpellChecker:从solr index复制field到spellchecker index
2.DirectSolrSpellChecker:直接使用solr index进行拼写检查
有一些默认配置,如距离度量使用编辑距离等
3.FileBasedSpellChecker:拼写检查来自外部文件
4.WordBreakSolrSpellChecker:合并或拆开相邻的查询单词,
配好拼写检查,还要在RequestHandler中陪使用的拼写检查
英文拼写检查在参考techproduct的例子后可以配置成功,但是中文拼写检查可能需要不同的配置,暂时不细看了。
要实现推荐功能,实际上用的是suggester!
Suggester:
***添加中文分词
这个把我坑的不轻。按照官方文档把jar包加到/server/lib网页端报错,ClassNotFound,害我浪费了好长时间。应该把jar报加到/server/solr-webapp/webapp/WEB-INF/lib中,加好之后真是泪牛满面,终于明白程序员为什么要加班到两三点然后猝死了。
问题:jar加入web-app,在analysis的时候可以用,在索引的时候是否可以,是否要配置solrconfig里的lib
主要流程如下:
1.添加分词jar包,这里我用了solr自带的smartcn分词器,在contrib文件夹下,复制到web-app的lib下即可
2.修改schema文件,位于/server/solr/项目名/conf/managed-schema,添加新的fieldType, 并把分析器,过滤器?设置成smartcn里的类即可,这里我用了官方文档的配置,P138
3.query时使用smartcn分词:To do
***学习过程中遇到需要学习的技术问题
0.搜索原理:信息检索相关知识:text retrieval and search engine,nlp
1.Java相关:基本语法,Servlet,工厂模式,JUnit
2.xml相关:xml为solr使用最多的格式,所以相对较为重要,还报告xhtml,sax,xpath等等内容
3.Lucene原理,Lucene java源码,java二次程序开发
4.HTTP协议,GET,POST API
5.SolrCloud相关:Zookeeper,hadoop。。。
6.版本管理工具SVN,编译工具Ant,Maven
7.其他:正则表达式,tika
ExtractingRequestHandler