IBM_hoojo

[置顶] Solr开发文档

Solr 是一种可供企业使用的、基于 Lucene 的搜索服务器，它支持层面搜索、命中醒目显示和多种输出格式。在这篇文章中，将介绍 Solr 并展示如何轻松地将其表现优异的全文本搜索功能加入到 Web 应用程序中。

开发环境：

System：Windows

WebBrowser：IE6+、Firefox3+

JDK：1.6+

JavaEE Server：tomcat5.0.2.8、tomcat6

IDE：eclipse、MyEclipse 8

开发依赖库：

JavaEE 5、solr 3.4

个人博客：

http://hoojo.cnblogs.com

http://blog.csdn.net/IBM_hoojo

email: [email protected]

一、配置和安装solr

1、首先去apache官方网站下载solr，下载地址

http://labs.renren.com/apache-mirror//lucene/solr/3.4.0/

目前最新的是3.4的版本

2、下载后解压目录如下

client是一个ruby实现的示例，这个我们暂时不管

contrib有一些功能模块是需要的jar包

dist是打包发布好的工程war包

docs是帮助文档

example是示例，里面有打包部署好的solr工程示例和servlet容器jetty。如果你没有tomcat可以直接使用Jetty服务器部署你的solr示例。

3、发布、部署solr示例

A、利用自带的Jetty服务器

首先在dos命令中进入到下载好的solr解压的目录apache-solr-3.4.0的example目录

cd E:\JAR\solr\apache-solr-3.4.0\example

然后利用java命令，启动jetty服务器。Java –jar start.jar

启动Jetty成功后，如果没有看到错误消息，你可以看到端口信息。

如果你的端口冲突了，你可以到解压的solr示例包的example/etc的jetty.xml中，修改端口port信息。

<Set name="port">
<SystemProperty name="jetty.port"default="8983"/>
</Set>

B、利用tomcat发布solr示例

将下载的solr解压后，进入apache-solr-3.4.0\dist目录，将里面的solr.war放到D:\tomcat-6.0.28\webapps目录下，启动tomcat会自动解压。（当然，你也可以手动解压放到wabapps目录下）

当然你也可以设置context指向你的solr工程，在D:\tomcat-6.0.28\conf\Catalina\localhost目录加入solr.xml配置，配置如下：

<Context docBase="D:\solr.war" debug="0" crossContext="true" >
<Environment name="solr/home" type="java.lang.String" 
                  value="D:\solr" override="true" />
</Context>

上面的2步都是一样的，这样还没有完。启动后你可能会看到如下错误：

我们需要将一些配置和index库文件也放到解压好的solr工程下。我们到解压的apache-solr-3.4.0\example\solr目录下，将里面的conf和data目录copy到刚才我们部署的D:\tomcat-6.0.28\webapps\solr工程目录下。或是copy到你的solr.xml中的context指定的路径下工程目录中。

重启tomcat就ok了。

4、这个时候你就可以访问http://localhost:8983/solr/admin/你就可以看到如下界面：

在Query String中输入solr，点击Search就可以查询到相应的结果，结果以xml形式返回。当然你也可以设置返回数据类型为json。

<?xml version="1.0" encoding="UTF-8"?>
<response>
<lst name="responseHeader">
  <int name="status">0</int>
  <int name="QTime">0</int>
  <lst name="params">
    <str name="indent">on</str>
    <str name="start">0</str>
    <str name="q">solr</str>
    <str name="version">2.2</str>
    <str name="rows">10</str>
  </lst>
</lst>
<result name="response" numFound="1" start="0">
  <doc>
    <arr name="cat"><str>software</str><str>search</str></arr>
    <arr name="features"><str>Advanced Full-Text Search Capabilities using Lucene</str><str>Optimized for High Volume Web Traffic</str><str>Standards Based Open Interfaces - XML and HTTP</str>
      <str>Comprehensive HTML Administration Interfaces</str><str>Scalability - Efficient Replication to other Solr Search Servers</str><str>Flexible and Adaptable with XML configuration and Schema</str><str>Good unicode support: h¨¦llo (hello with an accent over the e)</str></arr>
    <str name="id">SOLR1000</str>
    <bool name="inStock">true</bool>
    <date name="incubationdate_dt">2006-01-17T00:00:00Z</date>
    <str name="manu">Apache Software Foundation</str>
    <str name="name">Solr, the Enterprise Search Server</str>
    <int name="popularity">10</int>
    <float name="price">0.0</float>
  </doc>
</result>
</response>

二、Solr理论

1、 solr基础

因为 Solr 包装并扩展了 Lucene，所以它们使用很多相同的术语。更重要的是，Solr 创建的索引与 Lucene 搜索引擎库完全兼容。通过对 Solr 进行适当的配置，某些情况下可能需要进行编码，Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引。

在 Solr 和 Lucene 中，使用一个或多个 Document 来构建索引。Document 包括一个或多个 Field。Field 包括名称、内容以及告诉 Solr 如何处理内容的元数据。例如，Field 可以包含字符串、数字、布尔值或者日期，也可以包含你想添加的任何类型，只需用在solr的配置文件中进行相应的配置即可。Field 可以使用大量的选项来描述，这些选项告诉 Solr 在索引和搜索期间如何处理内容。现在，查看一下表 1 中列出的重要属性的子集：

属性名称	描述
Indexed	Indexed Field 可以进行搜索和排序。你还可以在 indexed Field 上运行 Solr 分析过程，此过程可修改内容以改进或更改结果。
Stored	stored Field 内容保存在索引中。这对于检索和醒目显示内容很有用，但对于实际搜索则不是必需的。例如，很多应用程序存储指向内容位置的指针而不是存储实际的文件内容。

2、 solr索引操作

在 Solr 中，通过向部署在 servlet 容器中的 Solr Web 应用程序发送 HTTP 请求来启动索引和搜索。Solr 接受请求，确定要使用的适当 SolrRequestHandler，然后处理请求。通过 HTTP 以同样的方式返回响应。默认配置返回 Solr 的标准 XML 响应。你也可以配置 Solr 的备用响应格式，如json、csv格式的文本。

索引就是接受输入元数据（数据格式在schema.xml中进行配置）并将它们传递给 Solr，从而在 HTTP Post XML 消息中进行索引的过程。你可以向 Solr 索引 servlet 传递四个不同的索引请求：

add/update允许您向 Solr 添加文档或更新文档。直到提交后才能搜索到这些添加和更新。

commit 告诉 Solr，应该使上次提交以来所做的所有更改都可以搜索到。

optimize重构 Lucene 的文件以改进搜索性能。索引完成后执行一下优化通常比较好。如果更新比较频繁，则应该在使用率较低的时候安排优化。一个索引无需优化也可以正常地运行。优化是一个耗时较多的过程。

delete可以通过 id 或查询来指定。按 id 删除将删除具有指定 id 的文档；按查询删除将删除查询返回的所有文档。

Lucene中操作索引也有这几个步骤，但是没有更新。Lucene更新是先删除，然后添加索引。因为更新索引在一定情况下，效率没有先删除后添加的效率好。

3、搜索

添加文档后，就可以搜索这些文档了。Solr 接受 HTTP GET 和 HTTP POST 查询消息。收到的查询由相应的 SolrRequestHandler 进行处理。

solr查询参数描述：

参数	描述	示例
q	Solr 中用来搜索的查询。有关该语法的完整描述，请参阅参考资料。可以通过追加一个分号和已索引且未进行断词的字段（下面会进行解释）的名称来包含排序信息。默认的排序是 score desc，指按记分降序排序。	q=myField:Java AND otherField:developerWorks; date asc 此查询搜索指定的两个字段，并根据一个日期字段对结果进行排序。
start	将初始偏移量指定到结果集中。可用于对结果进行分页。默认值为 0。	start=15 返回从第 15 个结果开始的结果。
rows	返回文档的最大数目。默认值为 10。	rows=25，返回25个结果集
fq	提供一个可选的筛选器查询。查询结果被限制为仅搜索筛选器查询返回的结果。筛选过的查询由 Solr 进行缓存。它们对提高复杂查询的速度非常有用。	任何可以用 q 参数传递的有效查询，排序信息除外。
hl	当 hl=true 时，在查询响应中醒目显示片段。默认为 false。参看醒目显示参数（见参考资料）。	hl=true
fl	作为逗号分隔的列表指定文档结果中应返回的 Field 集。默认为 “*”，指所有的字段。“score” 指还应返回记分。	*,score
sort	排序，对查询结果进行排序，参考	sort=date asc,price desc

4、 solr模式

上面有提到schema.xml这个配置，这个配置可以在你下载solr包的安装解压目录的apache-solr-3.4.0\example\solr\conf中找到，它就是solr模式关联的文件。打开这个配置文件，你会发现有详细的注释。

模式组织主要分为三个重要配置

types 部分是一些常见的可重用定义，定义了 Solr（和 Lucene）如何处理 Field。也就是添加到索引中的xml文件属性中的类型，如int、text、date等

fileds是你添加到索引文件中出现的属性名称，而声明类型就需要用到上面的types

其他配置有

uniqueKey 唯一键，这里配置的是上面出现的fileds，一般是id、url等不重复的。在更新、删除的时候可以用到。

defaultSearchField默认搜索属性，如q=solr就是默认的搜索那个字段

solrQueryParser查询转换模式，是并且还是或者（and/or）

schema配置类型

<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
	<analyzer type="index">
		<tokenizer class="solr.WhitespaceTokenizerFactory" />
		<filter class="solr.StopFilterFactory" ignoreCase="true"
			words="stopwords.txt" />
		<filter class="solr.WordDelimiterFilterFactory"
			generateWordParts="1" generateNumberParts="1" catenateWords="1"
			catenateNumbers="1" catenateAll="0" />
		<filter class="solr.LowerCaseFilterFactory" />
		<filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />
		<filter class="solr.RemoveDuplicatesTokenFilterFactory" />
	</analyzer>
	<analyzer type="query">
		<tokenizer class="solr.WhitespaceTokenizerFactory" />
		<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt"
			ignoreCase="true" expand="true" />
		<filter class="solr.StopFilterFactory" ignoreCase="true"
			words="stopwords.txt" />
		<filter class="solr.WordDelimiterFilterFactory"
			generateWordParts="1" generateNumberParts="1" catenateWords="0"
			catenateNumbers="0" catenateAll="0" />
		<filter class="solr.LowerCaseFilterFactory" />
		<filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />
		<filter class="solr.RemoveDuplicatesTokenFilterFactory" />
	</analyzer>
</fieldType>

上面就是一个type了，然后你在fields配置field的时候就可以用这个type。

首先，上面的fieldType的配置中有两个analyzer，它是分词器。主要把我们的数据进行分割成一个个的词语。词干提取、停止词删除以及相似的操作都被应用于标记，然后才进行索引和搜索，导致使用相同类型的标记。

上面的应用程序的 Solr 的fieldType配置按以下步骤进行设置：

Ø 根据空白进行断词，然后删除所有的公共词（StopFilterFactory）

Ø 使用破折号处理特殊的大小写、大小写转换等等。（WordDelimiterFilterFactory）；将所有条目处理为小写（LowerCaseFilterFactory）

Ø 使用 Porter Stemming 算法进行词干提取（EnglishPorterFilterFactory）

Ø 删除所有的副本（RemoveDuplicatesTokenFilterFactory）

Schema属性、字段

<field name="id" type="string" indexed="true" stored="true"
	required="true" />
<field name="sku" type="text_en_splitting_tight" indexed="true"
	stored="true" omitNorms="true" />
<field name="name" type="text_general" indexed="true" stored="true" />
<field name="alphaNameSort" type="alphaOnlySort" indexed="true"
	stored="false" />
<field name="manu" type="text_general" indexed="true" stored="true"
	omitNorms="true" />
<field name="cat" type="string" indexed="true" stored="true"
	multiValued="true" />
<field name="features" type="text_general" indexed="true" stored="true"
	multiValued="true" />
<field name="includes" type="text_general" indexed="true" stored="true"
	termVectors="true" termPositions="true" termOffsets="true" />

属性是在添加索引、查询的时候必须的配置，如果你不加这些配置。是无法完成索引的创建的。

首先id属性是未经分析的字符串类型，是可以索引、存储的，并且是唯一的。

sku是一个经过分词器分析出来的英文切割的类型字符，可以索引、存储、不要存储规范

multiValued 属性是一个特殊的例子，指 Document 可以拥有一个相同名称添加了多次的 Field。

omitNorms 属性告诉 Solr（和 Lucene）不要存储规范。

介绍一下字段声明下方的 <dynamicField> 声明。动态字段是一些特殊类型的字段，可以在任何时候将这些字段添加到任何文档中，由字段声明定义它们的属性。动态字段和普通字段之间的关键区别在于前者不需要在 schema.xml 中提前声明名称。Solr 将名称声明中的 glob-like 模式应用到所有尚未声明的引入的字段名称，并根据其 <dynamicField> 声明定义的语义来处理字段。例如，<dynamicField name="*_i"type="sint" indexed="true" stored="true"/> 指一个 myRating_i 字段被 Solr 处理为 sint，尽管并未将其声明为字段。这种处理比较方便，例如，当需要用户定义待搜索内容的时候。

5、索引配置

Solr 性能因素，来了解与各种更改相关的性能权衡。

表 1 概括了可控制 Solr 索引处理的各种因素：

因素	描述
useCompoundFile	通过将很多 Lucene 内部文件整合到单一一个文件来减少使用中的文件的数量。这可有助于减少 Solr 使用的文件句柄数目，代价是降低了性能。除非是应用程序用完了文件句柄，否则 false 的默认值应该就已经足够。
mergeFactor	决定低水平的 Lucene 段被合并的频率。较小的值（最小为 2）使用的内存较少但导致的索引时间也更慢。较大的值可使索引时间变快但会牺牲较多的内存。
maxBufferedDocs	在合并内存中文档和创建新段之前，定义所需索引的最小文档数。段是用来存储索引信息的 Lucene 文件。较大的值可使索引时间变快但会牺牲较多的内存。
maxMergeDocs	控制可由 Solr 合并的 Document 的最大数。较小的值 (< 10,000) 最适合于具有大量更新的应用程序。
maxFieldLength	对于给定的 Document，控制可添加到 Field 的最大条目数，进而截断该文档。如果文档可能会很大，就需要增加这个数值。然而，若将这个值设置得过高会导致内存不足错误。
unlockOnStartup	unlockOnStartup 告知 Solr 忽略在多线程环境中用来保护索引的锁定机制。在某些情况下，索引可能会由于不正确的关机或其他错误而一直处于锁定，这就妨碍了添加和更新。将其设置为 true 可以禁用启动锁定，进而允许进行添加和更新。

6、查询处理配置

<maxBooleanClauses>标记定义了可组合在一起形成一个查询的子句数量的上限。对于大多数应用程序而言，默认的 1024 就应该已经足够；然而，如果应用程序大量使用了通配符或范围查询，增加这个限值将能避免当值超出时，抛出 TooManyClausesException。

若应用程序预期只会检索 Document 上少数几个 Field，那么可以将 <enableLazyFieldLoading> 属性设置为 true。懒散加载的一个常见场景大都发生在应用程序返回和显示一系列搜索结果的时候，用户常常会单击其中的一个来查看存储在此索引中的原始文档。初始的显示常常只需要显示很短的一段信息。若考虑到检索大型 Document 的代价，除非必需，否则就应该避免加载整个文档。

<query> 部分负责定义与在 Solr 中发生的事件相关的几个选项。Searcher 的 Java 类来处理 Query 实例。要改进这一设计和显著提高性能，把这些新的 Searcher 联机以便为现场用户提供查询服务之前，先对它们进行 “热身”。<query> 部分中的 <listener> 选项定义 newSearcher 和 firstSearcher 事件，您可以使用这些事件来指定实例化新搜索程序或第一个搜索程序时应该执行哪些查询。如果应用程序期望请求某些特定的查询，那么在创建新搜索程序或第一个搜索程序时就应该反注释这些部分并执行适当的查询。

solrconfig.xml 文件的剩余部分，除 <admin> 之外，涵盖了与缓存、复制和扩展或定制 Solr 有关的项目。admin 部分让您可以定制管理界面。有关配置 admin 节的更多信息，请参看solrconfig.xml 文件中的注释。

7、监视、记录和统计数据

用于监视、记录和统计数据的 Solr 管理选项

菜单名	URL	描述
Statistics	http://localhost:8080/solr/admin/stats.jsp	Statistics 管理页提供了与 Solr 性能相关的很多有用的统计数据。这些数据包括：关于何时加载索引以及索引中有多少文档的信息。关于用来服务查询的 SolrRequestHandler 的有用信息。涵盖索引过程的数据，包括添加、删除、提交等的数量。缓存实现和 hit/miss/eviction 信息
Info	http://localhost:8080/solr/admin/registry.jsp	有关正在运行的 Solr 的版本以及在当前实现中进行查询、更新和缓存所使用的类的详细信息。此外，还包括文件存于 Solr subversion 存储库的何处的信息以及对该文件功能的一个简要描述。
Distribution	http://localhost:8080/solr/admin/distributiondump.jsp	显示与索引发布和复制有关的信息。更多信息，请参见 “发布和复制” 一节。
Ping	http://localhost: 8080/solr/admin/ping	向服务器发出 ping 请求，包括在 solrconfig.xml 文件的 admin 部分定义的请求。
Logging	http:// localhost:8080/solr/admin/logging.jsp	让您可以动态更改当前应用程序的日志记录等级。更改日志记录等级对于调试在执行过程中可能出现的问题非常有用。
properties	http: //localhost:8080/solr/admin/get-properties.jsp	显示当前系统正在使用的所有 Java 系统属性。Solr 支持通过命令行的系统属性替换。有关实现此特性的更多信息，请参见 solrconfig.xml 文件。
Thread dump	http://localhost:8080/solr/admin/threaddump.jsp	thread dump 选项显示了在 JVM 中运行的所有线程的堆栈跟踪信息。

8、智能缓存

智能缓存是让 Solr 得以成为引人瞩目的搜索服务器的一个关键性能特征。Solr 提供了四种不同的缓存类型，所有四种类型都可在 solrconfig.xml 的 <query> 部分中配置。solrconfig.xml 文件中所用的标记名列出了这些缓存类型：

缓存标记名	描述	能否自热
filterCache	通过存储一个匹配给定查询的文档 id 的无序集，过滤器让 Solr 能够有效提高查询的性能。缓存这些过滤器意味着对 Solr 的重复调用可以导致结果集的快速查找。更常见的场景是缓存一个过滤器，然后再发起后续的精炼查询，这种查询能使用过滤器来限制要搜索的文档数。	可以
queryResultCache	为查询、排序条件和所请求文档的数量缓存文档 id 的有序集合。	可以
documentCache	缓存 Lucene Document，使用内部 Lucene 文档 id（以便不与 Solr 惟一 id 相混淆）。由于 Lucene 的内部 Document id 可以因索引操作而更改，这种缓存不能自热。	不可以
Named caches	命名缓存是用户定义的缓存，可被 Solr 定制插件所使用。	可以，如果实现了 org.apache.solr.search.CacheRegenerator 的话。

每个缓存声明都接受最多四个属性：

class 是缓存实现的 Java 名。

size 是最大的条目数。

initialSize 是缓存的初始大小。

autoWarmCount 是取自旧缓存以预热新缓存的条目数。如果条目很多，就意味着缓存的 hit 会更多，只不过需要花更长的预热时间。

三、利用SolrJ操作solr API，完成index操作

使用SolrJ操作Solr会比利用httpClient来操作Solr要简单。SolrJ是封装了httpClient方法，来操作solr的API的。SolrJ底层还是通过使用httpClient中的方法来完成Solr的操作。

1、首先，你需要添加如下jar包

其中apache-solr-solrj-3.4.0.jar、slf4j-api-1.6.1.jar可以在下载的apache-solr-3.4.0的压缩包中的dist中能找到。

2、其次，建立一个简单的测试类，完成Server对象的相关方法的测试工作，代码如下：

package com.hoo.test;

import java.io.IOException;
import java.net.MalformedURLException;
import java.util.ArrayList;
import java.util.Collection;
import java.util.List;
import org.apache.solr.client.solrj.SolrQuery;
import org.apache.solr.client.solrj.SolrServer;
import org.apache.solr.client.solrj.SolrServerException;
import org.apache.solr.client.solrj.impl.CommonsHttpSolrServer;
import org.apache.solr.client.solrj.response.QueryResponse;
import org.apache.solr.client.solrj.response.UpdateResponse;
import org.apache.solr.common.SolrDocumentList;
import org.apache.solr.common.SolrInputDocument;
import org.apache.solr.common.params.ModifiableSolrParams;
import org.apache.solr.common.params.SolrParams;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;
import com.hoo.entity.Index;

/**
 * <b>function:</b> Server TestCase
 * @author hoojo
 * @createDate 2011-10-19 下午01:49:07
 * @file ServerTest.java
 * @package com.hoo.test
 * @project SolrExample
 * @blog http://blog.csdn.net/IBM_hoojo
 * @email [email protected]
 * @version 1.0
 */
public class ServerTest {
	
	private SolrServer server;
	private CommonsHttpSolrServer httpServer;
	
	private static final String DEFAULT_URL = "http://localhost:8983/solr/";
	
	@Before
	public void init() {
		try {
			server = new CommonsHttpSolrServer(DEFAULT_URL);
			httpServer = new CommonsHttpSolrServer(DEFAULT_URL);
		} catch (MalformedURLException e) {
			e.printStackTrace();
		}
	}
	
	@After
	public void destory() {
		server = null;
		httpServer = null;
		System.runFinalization();
		System.gc();
	}
	
	public final void fail(Object o) {
		System.out.println(o);
	}
	
	/**
	 * <b>function:</b> 测试是否创建server对象成功
	 * @author hoojo
	 * @createDate 2011-10-21 上午09:48:18
	 */
	@Test
	public void server() {
		fail(server);
		fail(httpServer);
	}

	/**
	 * <b>function:</b> 根据query参数查询索引
	 * @author hoojo
	 * @createDate 2011-10-21 上午10:06:39
	 * @param query
	 */
	public void query(String query) {
		SolrParams params = new SolrQuery(query);
		
		try {
			QueryResponse response = server.query(params);
			
			SolrDocumentList list = response.getResults();
			for (int i = 0; i < list.size(); i++) {
				fail(list.get(i));
			}
		} catch (SolrServerException e) {
			e.printStackTrace();
		} 
	}
}

测试运行server case方法，如果成功创建对象，那你就成功的链接到。

注意：在运行本方法之前，请启动你的solr官方自动的项目。http://localhost:8983/solr/保证能够成功访问这个工程。因为接下来的所有工作都是围绕这个solr工程完成的。如果你现在还不知道，怎么部署、发布官方solr工程，请参考前面的具体章节。

3、 Server的有关配置选项参数，server是CommonsHttpSolrServer的实例

server.setSoTimeout(1000); // socket read timeout 
server.setConnectionTimeout(100); 
server.setDefaultMaxConnectionsPerHost(100); 
server.setMaxTotalConnections(100); 
server.setFollowRedirects(false); // defaults to false 
// allowCompression defaults to false. 
// Server side must support gzip or deflate for this to have any effect. 
server.setAllowCompression(true); 
server.setMaxRetries(1); // defaults to 0.  > 1 not recommended. 

//sorlr J 目前使用二进制的格式作为默认的格式。对于solr1.2的用户通过显示的设置才能使用XML格式。
server.setParser(new XMLResponseParser());

//二进制流输出格式
//server.setRequestWriter(new BinaryRequestWriter());

4、利用SolrJ完成Index Document的添加操作

/**
 * <b>function:</b> 添加doc文档
 * @author hoojo
 * @createDate 2011-10-21 上午09:49:10
 */
@Test
public void addDoc() {
	//创建doc文档
	SolrInputDocument doc = new SolrInputDocument();
	doc.addField("id", 1);
	doc.addField("name", "Solr Input Document");
	doc.addField("manu", "this is SolrInputDocument content");
	
	try {
		//添加一个doc文档
		UpdateResponse response = server.add(doc);
		fail(server.commit());//commit后才保存到索引库
		fail(response);
		fail("query time：" + response.getQTime());
		fail("Elapsed Time：" + response.getElapsedTime());
		fail("status：" + response.getStatus());
	} catch (SolrServerException e) {
		e.printStackTrace();
	} catch (IOException e) {
		e.printStackTrace();
	}
	query("name:solr");
}

在apache-solr-3.4.0\example\solr\conf目录下的schema.xml中可以找到有关于field属性的配置，schema.xml中的field就和上面Document文档中的field（id、name、manu）对应。如果出现ERROR:unknown field 'xxxx'就表示你设置的这个field在schema.xml中不存在。如果一定要使用这个field，请你在schema.xml中进行filed元素的配置。具体请参考前面的章节。

注意：在schema.xml中配置了uniqueKey为id，就表示id是唯一的。如果在添加Document的时候，id重复添加。那么后面添加的相同id的doc会覆盖前面的doc，类似于update更新操作，而不会出现重复的数据。

5、利用SolrJ添加多个Document，即添加文档集合

/**
 * <b>function:</b> 添加docs文档集合
 * @author hoojo
 * @createDate 2011-10-21 上午09:55:01
 */
@Test
public void addDocs() {
	Collection<SolrInputDocument> docs = new ArrayList<SolrInputDocument>();
	
	SolrInputDocument doc = new SolrInputDocument();
	doc.addField("id", 2);
	doc.addField("name", "Solr Input Documents 1");
	doc.addField("manu", "this is SolrInputDocuments 1 content");
	
	docs.add(doc);
	
	doc = new SolrInputDocument();
	doc.addField("id", 3);
	doc.addField("name", "Solr Input Documents 2");
	doc.addField("manu", "this is SolrInputDocuments 3 content");
	
	docs.add(doc);
	
	try {
		//add docs
		UpdateResponse response = server.add(docs);
		//commit后才保存到索引库
		fail(server.commit());
		fail(response);
	} catch (SolrServerException e) {
		e.printStackTrace();
	} catch (IOException e) {
		e.printStackTrace();
	}
	query("solr");
}

就是添加一个List集合

6、添加JavaEntity Bean，这个需要先创建一个JavaBean，然后来完成添加操作；

JavaBean：Index的代码

package com.hoo.entity;

import org.apache.solr.client.solrj.beans.Field;

/**
 * <b>function:</b> JavaEntity Bean；Index需要添加相关的Annotation注解，便于告诉solr哪些属性参与到index中
 * @author hoojo
 * @createDate 2011-10-19 下午05:33:27
 * @file Index.java
 * @package com.hoo.entity
 * @project SolrExample
 * @blog http://blog.csdn.net/IBM_hoojo
 * @email [email protected]
 * @version 1.0
 */
public class Index {
	//@Field setter方法上添加Annotation也是可以的
	private String id;
	@Field
	private String name;
	@Field
	private String manu;
	@Field
	private String[] cat;

	@Field
	private String[] features;
	@Field
	private float price;
	@Field
	private int popularity;
	@Field
	private boolean inStock;
	
	public String getId() {
		return id;
	}
	
	@Field
	public void setId(String id) {
		this.id = id;
	}
	//getter、setter方法

	public String toString() {
		return this.id + "#" + this.name + "#" + this.manu + "#" + this.cat;
	}
}

注意上面的属性是和在apache-solr-3.4.0\example\solr\conf目录下的schema.xml中可以找到有关于field属性的配置对应的。如果你Index JavaBean中出现的属性在schema.xml的field配置无法找到，那么出出现unknown filed错误。

添加Bean完成doc添加操作

/**
 * <b>function:</b> 添加JavaEntity Bean
 * @author hoojo
 * @createDate 2011-10-21 上午09:55:37
 */
@Test
public void addBean() {
	//Index需要添加相关的Annotation注解，便于告诉solr哪些属性参与到index中
	Index index = new Index();
	index.setId("4");
	index.setName("add bean index");
	index.setManu("index bean manu");
	index.setCat(new String[] { "a1", "b2" });
	
	try {
		//添加Index Bean到索引库
		UpdateResponse response = server.addBean(index);
		fail(server.commit());//commit后才保存到索引库
		fail(response);
	} catch (SolrServerException e) {
		e.printStackTrace();
	} catch (IOException e) {
		e.printStackTrace();
	}
	queryAll();
}

7、添加Bean集合

/**
 * <b>function:</b> 添加Entity Bean集合到索引库
 * @author hoojo
 * @createDate 2011-10-21 上午10:00:55
 */
@Test
public void addBeans() {
	Index index = new Index();
	index.setId("6");
	index.setName("add beans index 1");
	index.setManu("index beans manu 1");
	index.setCat(new String[] { "a", "b" });
	
	List<Index> indexs = new ArrayList<Index>();
	indexs.add(index);
	
	index = new Index();
	index.setId("5");
	index.setName("add beans index 2");
	index.setManu("index beans manu 2");
	index.setCat(new String[] { "aaa", "bbbb" });
	indexs.add(index);
	try {
		//添加索引库
		UpdateResponse response = server.addBeans(indexs);
		fail(server.commit());//commit后才保存到索引库
		fail(response);
	} catch (SolrServerException e) {
		e.printStackTrace();
	} catch (IOException e) {
		e.printStackTrace();
	}
	queryAll();
}

8、删除索引Document

/**
 * <b>function:</b> 删除索引操作
 * @author hoojo
 * @createDate 2011-10-21 上午10:04:28
 */
@Test
public void remove() {
	try {
		//删除id为1的索引
		server.deleteById("1");
		server.commit();
		query("id:1");
		
		//根据id集合，删除多个索引
		List<String> ids = new ArrayList<String>();
		ids.add("2");
		ids.add("3");
		server.deleteById(ids);
		server.commit(true, true);
		query("id:3 id:2");
		
		//删除查询到的索引信息
		server.deleteByQuery("id:4 id:6");
		server.commit(true, true);
		queryAll();
		
	} catch (SolrServerException e) {
		e.printStackTrace();
	} catch (IOException e) {
		e.printStackTrace();
	}
}

9、查询索引

/**
 * <b>function:</b> 查询所有索引信息
 * @author hoojo
 * @createDate 2011-10-21 上午10:05:38
 */
@Test
public void queryAll() {
	ModifiableSolrParams params = new ModifiableSolrParams();
	// 查询关键词，*:*代表所有属性、所有值，即所有index
	params.set("q", "*:*");
	// 分页，start=0就是从0开始，，rows=5当前返回5条记录，第二页就是变化start这个值为5就可以了。
	params.set("start", 0);
	params.set("rows", Integer.MAX_VALUE);
	
	// 排序，，如果按照id 排序，，那么将score desc 改成 id desc(or asc)
	params.set("sort", "score desc");

	// 返回信息 * 为全部 这里是全部加上score，如果不加下面就不能使用score
	params.set("fl", "*,score");
	
	try {
		QueryResponse response = server.query(params);
		
		SolrDocumentList list = response.getResults();
		for (int i = 0; i < list.size(); i++) {
			fail(list.get(i));
		}
	} catch (SolrServerException e) {
		e.printStackTrace();
	}
}

10、其他和Server有关方法

/**
 * <b>function:</b> 其他server相关方法测试
 * @author hoojo
 * @createDate 2011-10-21 上午10:02:03
 */
@Test
public void otherMethod() {
	fail(server.getBinder());
	try {
		fail(server.optimize());//合并索引文件，可以优化索引、提供性能，但需要一定的时间
		fail(server.ping());//ping服务器是否连接成功
		
		Index index = new Index();
		index.setId("299");
		index.setName("add bean index199");
		index.setManu("index bean manu199");
		index.setCat(new String[] { "a199", "b199" });
		
		UpdateResponse response = server.addBean(index);
		fail("response: " + response);
		
		queryAll();
		//回滚掉之前的操作，rollback addBean operation
		fail("rollback: " + server.rollback());
		//提交操作，提交后无法回滚之前操作；发现addBean没有成功添加索引
		fail("commit: " + server.commit());
		queryAll();
	} catch (SolrServerException e) {
		e.printStackTrace();
	} catch (IOException e) {
		e.printStackTrace();
	}
}

11、文档查询

/**
 * <b>function:</b> query 基本用法测试
 * @author hoojo
 * @createDate 2011-10-20 下午04:44:28
 */
@Test
public void queryCase() {
	//AND 并且
	SolrQuery params = new SolrQuery("name:apple AND manu:inc");
	
	//OR 或者
	params.setQuery("name:apple OR manu:apache");
	//空格 等同于 OR
	params.setQuery("name:server manu:dell");
	
	//params.setQuery("name:solr - manu:inc");
	//params.setQuery("name:server + manu:dell");
	
	//查询name包含solr apple
	params.setQuery("name:solr,apple");
	//manu不包含inc
	params.setQuery("name:solr,apple NOT manu:inc");
	
	//50 <= price <= 200
	params.setQuery("price:[50 TO 200]");
	params.setQuery("popularity:[5 TO 6]");
	//params.setQuery("price:[50 TO 200] - popularity:[5 TO 6]");
	//params.setQuery("price:[50 TO 200] + popularity:[5 TO 6]");
	
	//50 <= price <= 200 AND 5 <= popularity <= 6
	params.setQuery("price:[50 TO 200] AND popularity:[5 TO 6]");
	params.setQuery("price:[50 TO 200] OR popularity:[5 TO 6]");
	
	//过滤器查询，可以提高性能 filter 类似多个条件组合，如and
	//params.addFilterQuery("id:VA902B");
	//params.addFilterQuery("price:[50 TO 200]");
	//params.addFilterQuery("popularity:[* TO 5]");
	//params.addFilterQuery("weight:*");
	//0 < popularity < 6  没有等于
	//params.addFilterQuery("popularity:{0 TO 6}");
	
	//排序
	params.addSortField("id", ORDER.asc);
	
	//分页：start开始页，rows每页显示记录条数
	//params.add("start", "0");
	//params.add("rows", "200");
	//params.setStart(0);
	//params.setRows(200);
	
	//设置高亮
	params.setHighlight(true); // 开启高亮组件
	params.addHighlightField("name");// 高亮字段
	params.setHighlightSimplePre("<font color='red'>");//标记，高亮关键字前缀
	params.setHighlightSimplePost("</font>");//后缀
	params.setHighlightSnippets(1);//结果分片数，默认为1
	params.setHighlightFragsize(1000);//每个分片的最大长度，默认为100

	//分片信息
	params.setFacet(true)
		.setFacetMinCount(1)
		.setFacetLimit(5)//段
		.addFacetField("name")//分片字段
		.addFacetField("inStock"); 
	
	//params.setQueryType("");
	
	try {
		QueryResponse response = server.query(params);
		
		/*List<Index> indexs = response.getBeans(Index.class);
		for (int i = 0; i < indexs.size(); i++) {
			fail(indexs.get(i));
		}*/
		
		//输出查询结果集
		SolrDocumentList list = response.getResults();
		fail("query result nums: " + list.getNumFound());
		for (int i = 0; i < list.size(); i++) {
			fail(list.get(i));
		}
		
		//输出分片信息
		List<FacetField> facets = response.getFacetFields();
		for (FacetField facet : facets) {
			fail(facet);
			List<Count> facetCounts = facet.getValues();
			for (FacetField.Count count : facetCounts) {
				System.out.println(count.getName() + ": " + count.getCount());
			}
		}
	} catch (SolrServerException e) {
		e.printStackTrace();
	} 
}

12、分片查询、统计

/**
 * <b>function:</b> 分片查询， 可以统计关键字及出现的次数、或是做自动补全提示
 * @author hoojo
 * @createDate 2011-10-20 下午04:54:25
 */
@Test
public void facetQueryCase() {
	SolrQuery params = new SolrQuery("*:*");
	
	//排序
	params.addSortField("id", ORDER.asc);
	
	params.setStart(0);
	params.setRows(200);

	//Facet为solr中的层次分类查询
	//分片信息
	params.setFacet(true)
		.setQuery("*:*")
		.setFacetMinCount(1)
		.setFacetLimit(5)//段
		//.setFacetPrefix("electronics", "cat")
		.setFacetPrefix("cor")//查询manu、name中关键字前缀是cor的
		.addFacetField("manu")
		.addFacetField("name");//分片字段

	try {
		QueryResponse response = server.query(params);
		
		//输出查询结果集
		SolrDocumentList list = response.getResults();
		fail("Query result nums: " + list.getNumFound());
		
		for (int i = 0; i < list.size(); i++) {
			fail(list.get(i));
		}
		
		fail("All facet filed result: ");
		//输出分片信息
		List<FacetField> facets = response.getFacetFields();
		for (FacetField facet : facets) {
			fail(facet);
			List<Count> facetCounts = facet.getValues();
			for (FacetField.Count count : facetCounts) {
				//关键字 - 出现次数
				fail(count.getName() + ": " + count.getCount());
			}
		}
		
		fail("Search facet [name] filed result: ");
		//输出分片信息
		FacetField facetField = response.getFacetField("name");
		List<Count> facetFields = facetField.getValues();
		for (Count count : facetFields) {
			//关键字 - 出现次数
			fail(count.getName() + ": " + count.getCount());
		}
	} catch (SolrServerException e) {
		e.printStackTrace();
	} 
}

分片查询在某些统计关键字的时候还是很有用的，可以统计关键字出现的次数，可以通过统计的关键字来搜索相关文档的信息。

四、Document文档和JavaBean相互转换

这里转换的Bean是一个简单的User对象

package com.hoo.entity;

import java.io.Serializable;
import org.apache.solr.client.solrj.beans.Field;

/**
 * <b>function:</b> User Entity Bean；所有被添加Annotation @Field 注解的属性将参与index操作
 * @author hoojo
 * @createDate 2011-10-19 下午04:16:00
 * @file User.java
 * @package com.hoo.entity
 * @project SolrExample
 * @blog http://blog.csdn.net/IBM_hoojo
 * @email [email protected]
 * @version 1.0
 */
public class User implements Serializable {

	/**
	 * @author Hoojo
	 */
	private static final long serialVersionUID = 8606788203814942679L;

	//@Field
	private int id;
	@Field
	private String name;
	@Field
	private int age;
	
	/**
	 * 可以给某个属性重命名，likes就是solr index的属性；在solrIndex中将显示like为likes
	 */
	@Field("likes")
	private String[] like;
	@Field
	private String address;
	@Field
	private String sex;
	@Field
	private String remark;
	public int getId() {
		return id;
	}
	
	//setter 方法上面也可以
	@Field
	public void setId(int id) {
		this.id = id;
	}
	public String getName() {
		return name;
	}
	//getter、setter
	
	@Override
	public String toString() {
		return this.id + "#" + this.name + "#" + this.age + "#" + this.like + "#" + this.address + "#" + this.sex + "#" + this.remark;
	}
}

测试类代码如下

package com.hoo.test;

import org.apache.solr.client.solrj.beans.DocumentObjectBinder;
import org.apache.solr.common.SolrDocument;
import org.apache.solr.common.SolrDocumentList;
import org.apache.solr.common.SolrInputDocument;
import org.apache.solr.common.SolrInputField;
import org.junit.Test;
import com.hoo.entity.User;

/**
 * <b>function:</b>SolrInputDocument implements Map, Iterable
 * @author hoojo
 * @createDate 2011-10-19 下午03:54:54
 * @file SolrInputDocumentTest.java
 * @package com.hoo.test
 * @project SolrExample
 * @blog http://blog.csdn.net/IBM_hoojo
 * @email [email protected]
 * @version 1.0
 */
public class SolrInputDocumentTest {

	public final void fail(Object o) {
		System.out.println(o);
	}
	
	/**
	 * <b>function:</b> 创建SolrInputDocument
	 * @author hoojo
	 * @createDate 2011-10-21 下午03:38:20
	 */
	@Test
	public void createDoc() {
		SolrInputDocument doc = new SolrInputDocument();
		doc.addField("id", System.currentTimeMillis());
		doc.addField("name", "SolrInputDocument");
		doc.addField("age", 22, 2.0f);
		
		doc.addField("like", new String[] { "music", "book", "sport" });
		
		doc.put("address", new SolrInputField("guangzhou"));
		
		doc.setField("sex", "man");
		doc.setField("remark", "china people", 2.0f);
		
		fail(doc);
	}
	
	/**
	 * <b>function:</b> 利用DocumentObjectBinder对象将SolrInputDocument 和 User对象相互转换
	 * @author hoojo
	 * @createDate 2011-10-21 下午03:38:40
	 */
	@Test
	public void docAndBean4Binder() {
		SolrDocument doc = new SolrDocument();
		doc.addField("id", 456);
		doc.addField("name", "SolrInputDocument");
		
		doc.addField("likes", new String[] { "music", "book", "sport" });
		
		doc.put("address", "guangzhou");
		
		doc.setField("sex", "man");
		doc.setField("remark", "china people");
		
		DocumentObjectBinder binder = new DocumentObjectBinder();
		
		User user = new User();
		user.setId(222);
		user.setName("JavaBean");
		user.setLike(new String[] { "music", "book", "sport" });
		user.setAddress("guangdong");
		
		fail(doc);
		// User ->> SolrInputDocument
		fail(binder.toSolrInputDocument(user));
		// SolrDocument ->> User
		fail(binder.getBean(User.class, doc));
		
		SolrDocumentList list = new SolrDocumentList();
		list.add(doc);
		list.add(doc);
		//SolrDocumentList ->> List
		fail(binder.getBeans(User.class, list));
	}
	
	/**
	 * <b>function:</b> SolrInputDocument的相关方法
	 * @author hoojo
	 * @createDate 2011-10-21 下午03:44:30
	 */
	@Test
	public void docMethod() {
		SolrInputDocument doc = new SolrInputDocument();
		doc.addField("id", System.currentTimeMillis());
		doc.addField("name", "SolrInputDocument");
		doc.addField("age", 23, 1.0f);
		doc.addField("age", 22, 2.0f);
		doc.addField("age", 24, 0f);
		
		fail(doc.entrySet());
		fail(doc.get("age"));
		//排名有用，类似百度竞价排名
		doc.setDocumentBoost(2.0f);
		fail(doc.getDocumentBoost());
		fail(doc.getField("name"));
		fail(doc.getFieldNames());//keys
		fail(doc.getFieldValues("age"));
		fail(doc.getFieldValues("id"));
		fail(doc.values());
	}
}

你可能感兴趣的:(String,Solr,Lucene,query,Class,文档)

LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
C#中使用split分割字符串互联网打工人no1 c#
1、用字符串分隔：usingSystem.Text.RegularExpressions;stringstr="aaajsbbbjsccc";string[]sArray=Regex.Split(str,"js",RegexOptions.IgnoreCase);foreach(stringiinsArray)Response.Write(i.ToString()+"");输出结果：aaabbbc
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
C++ | Leetcode C++题解之第409题最长回文串 Ddddddd_158 经验分享 C++Leetcode 题解
题目：题解：classSolution{public:intlongestPalindrome(strings){unordered_mapcount;intans=0;for(charc:s)++count[c];for(autop:count){intv=p.second;ans+=v/2*2;if(v%2==1andans%2==0)++ans;}returnans;}};
Linux sh命令 fengyehongWorld Linux linux
目录一.基本语法二.选项2.1-c字符串中读取内容，并执行2.1.1基本用法2.1.2获取当前目录下失效的超链接2.2-x每个命令执行之前，将其打印出来2.3结合Here文档使用一.基本语法⏹Linux和Unix系统中用于执行shell脚本或运行命令的命令。sh[选项][脚本文件][参数...]⏹选项-c：从字符串中读取内容，并执行。-x：在每个命令执行之前，将其打印出来。-s：从标准流中读取内容
Linux vi常用命令 fengyehongWorld Linux linux
参考资料viコマンド（vimコマンド）リファレンス目录一.保存系命令二.删除系命令三.移动系命令四.复制粘贴系命令一.保存系命令⏹保存并退出:wq⏹强制保存并退出:wq!⏹退出(文件未编辑):q⏹强制退出(忽略已编辑内容):q!⏹另存为:w新文件名二.删除系命令⏹删除当前行dd⏹清空整个文档gg：移动到文档顶部dG：删除到最后一行ggdG三.移动系命令⏹移动到文档顶部gg⏹移动到文档底部#方式1G
多线程之——ExecutorCompletionService 阿福德
在我们开发中，经常会遇到这种情况，我们起多个线程来执行，等所有的线程都执行完成后，我们需要得到个线程的执行结果来进行聚合处理。我在内部代码评审时，发现了不少这种情况。看很多同学都使用正确，但比较啰嗦，效率也不高。本文介绍一个简单处理这种情况的方法：直接上代码：publicclassExecutorCompletionServiceTest{@TestpublicvoidtestExecutorCo
基于Python给出的PDF文档转Markdown文档的方法程序媛了了 python pdf 开发语言
注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在
2024.9.6 Python，华为笔试题总结，字符串格式化，字符串操作，广度优先搜索解决公司组织绩效互评问题，无向图 RaidenQ python 华为 leetcode 算法力扣广度优先无向图
1.字符串格式化name="Alice"age=30formatted_string="Name:{},Age:{}".format(name,age)print(formatted_string)或者name="Alice"age=30formatted_string=f"Name:{name},Age:{age}"print(formatted_string)2.网络健康检查第一行有两个整数m
2024.8.22 Python，链表两数之和，链表快速反转，二叉树的深度，二叉树前中后序遍历，N叉树递归遍历，翻转二叉树 RaidenQ python 链表开发语言
1.链表两数之和输入：l1=[2,4,3],l2=[5,6,4]输出：[7,0,8]解释：342+465=807.示例2：输入：l1=[0],l2=[0]输出：[0]示例3：输入：l1=[9,9,9,9,9,9,9],l2=[9,9,9,9]输出：[8,9,9,9,0,0,0,1]昨天的这个题，用自己的办法写的麻烦的要死，然后刚才一看chat归类的办法，感觉自己像个智障。classListNode
2020-8-19晨间日记：看过的电影盐大虾
今天是周三起床：6点半就寝：11点天气：晴心情：正常纪念日：周三任务清单今日完成的任务，最重要的三件事：1.整理写过的文档2.电影《电灯泡》3.这就是街舞第三季第五期改进：早睡早起习惯养成：早睡早起，看书周目标·完成进度两篇文章学习·信息·阅读电影艺术发展史相关教材健康·饮食·锻炼吃了挺多零食，还喝了果粒橙，还是得少吃，多锻炼，不然会慢慢死掉的。人际·家人·朋友淡定交流，不放在心上。工作·思考专心
Mongodb Error: queryTxt ETIMEOUT xxxx.wwwdz.mongodb.net 佛一脚 error react mongodb 数据库
背景每天都能遇到奇怪的问题，做个记录，以便有缘人能得到帮助！换了一台电脑开发nextjs程序。需要连接mongodb数据，对数据进行增删改查。上一台电脑好好的程序，新电脑死活连不上mongodb数据库。同一套代码，没任何修改，搞得我怀疑人生了，打开浏览器进入mongodb官网毫无问题，也能进入线上系统查看数据，网络应该是没问题。于是我尝试了一下手机热点，这次代码能正常跑起来，连接数据库了！！！是不
C++ lambda闭包消除类成员变量 barbyQAQ c++c++java 算法
原文链接：https://blog.csdn.net/qq_51470638/article/details/142151502一、背景在面向对象编程时，常常要添加类成员变量。然而类成员一旦多了之后，也会带来干扰。拿到一个类，一看成员变量好几十个，就问你怕不怕？二、解决思路可以借助函数式编程思想，来消除一些不必要的类成员变量。三、实例举个例子：classClassA{public:...intfu
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
[Unity]在场景中随机生成不同位置且不重叠的物体 Bartender_Jill Graphics图形学笔记 unity 游戏引擎动画
1.前言最近任务需要用到Unity在场景中随机生成物体，且这些物体不能重叠，简单记录一下。参考资料:Howtoensurethatspawnedtargetsdonotoverlap?2.结果与代码结果如下所示：代码如下所示：usingSystem.Collections.Generic;usingUnityEngine;namespaceAssets.Scripts{publicclassNew
vue+el-table 可输入表格使用上下键进行input框切换以对_ vue学习记录 vue.js javascript 前端
使用上下键进行完工数量这一列的切换-->//键盘触发事件show(ev,index){letnewIndex;letinputAll=document.querySelectorAll('.table_inputinput');//向上=38if(ev.keyCode==38){if(index==0){//如果是第一行,回到最后一个newIndex=inputAll.length-1}elsei
【2022 CCF 非专业级别软件能力认证第一轮（CSP-J1）入门级 C++语言试题及解析】汉子萌萌哒 CCF noi 算法数据结构 c++
一、单项选择题(共15题，每题2分，共计30分；每题有且仅有一个正确选项)1.以下哪种功能没有涉及C++语言的面向对象特性支持：()。A.C++中调用printf函数B.C++中调用用户定义的类成员函数C.C++中构造一个class或structD.C++中构造来源于同一基类的多个派生类题目解析【解析】正确答案:AC++基础知识，面向对象和类有关，类又涉及父类、子类、继承、派生等关系，printf
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
计算机毕业设计PHP仓储综合管理系统（源码+程序+VUE+lw+部署） java毕设程序源码王哥 php 课程设计 vue.js
该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程。欢迎交流项目运行环境配置：phpStudy+Vscode+Mysql5.7+HBuilderX+Navicat11+Vue+Express。项目技术：原生PHP++Vue等等组成，B/S模式+Vscode管理+前后端分离等等。环境需要1.运行环境：最好是小皮phpstudy最新版，我们在这个版本上开发的。其他版本理论上也可以。2.开发
yolov5＞onnx＞ncnn＞apk 图像处理大大大大大牛啊 opencv实战代码讲解 yolo onnx ncnn 安卓
一.yolov5pt模型转onnx条件：colabnotebookyolov51.安装环境!pipinstallonnx>=1.7.0#forONNXexport!pipinstallcoremltools==4.0#forCoreMLexport!pipinstallonnx-simplifier2.修改common.py在classFocus下面
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息