phantomhu

Apache Solr 的新特性利用 Solr 1.3 的新特性和改进

Apache Solr 是一个开源的搜索服务器，主要基于 HTTP 和 Apache Lucene。2007 年，我在一个包含有两个部分的系列文章 使用 Apache Solr 实现更加灵巧的搜索 中向 developerWorks 读者介绍了 Solr。由于最近又发布了 Solr 1.3 版本，所有应该详述一下 Solr 自 2007 年以后的许多新特性和增强功能。

Solr 包含有很多的企业就绪特性，比如轻松的配置和管理、多客户机语言绑定、索引复制、缓存、统计数据以及日志记录。Solr 的 1.3 版本以 Apache Lucene 2.3 版本的巨大性能提升为基础，并增加了一个新的、向后兼容的、即插即用组件架构。该架构使开发人员踊跃创建可以进一步增强 Solr 的组件。例如，1.3 版本就包含能够实现以下功能的组件：

“您是不是要找……” 拼写检查
查找 “类似的” Document
根据编辑输入（又称付费排序）覆盖搜索结果

另外，查询解析、搜索、分类以及调试这样的现有功能也被组件化了。现在，您可以通过组合这些组件来自定义创建 SolrRequestHandler。最后，Solr 还增加了直接为数据库内容创建索引的功能，并且通过分布式搜索来支持庞大的系统，这一点对很多企业都很重要。

首先，我将简单复习一下 Solr，然后介绍如何获取和安装最新版本的 Solr 以及升级早期版本的要点。接着，我会介绍 Solr 1.3 的一些重要的增强功能，最后再看一下 Solr 的新特性。

复习：Solr 概念

从概念上，Solr 可以被分成四大块：

模式（schema.xml）
配置（solrconfig.xml）
索引
搜索

要理解模式，需要先理解 Lucene 对 Document 的注释。一个 Document 包含一个或多个 Field。一个 Field 由名称、内容和给出了内容的处理方法的元数据组成。分析内容可以使其被搜索到。而分析则是通过将一个 Tokenizer 与零个或零个以上的 TokenFilter 链接到一起来完成的，Tokenizer 能够将输入流拆分为单词（标记），TokenFilter 能够改变（例如，词干）或移除标记。Solr 模式能够在没有代码的情况下轻松配置分析过程。它还提供了更强大的键入功能，让您能够将 Field 具体指定为 String、int、float 或其他原有的或自定义的类型。

在配置方面，solrconfig.xml 文件不仅指定了 Solr 如何处理索引、突出显示、分类、搜索以及其他请求，还指定了用于指定缓存的处理方法的属性，以及用于指定 Lucene 管理索引的方法的属性。配置取决于模式，但模式不取决于配置。

索引和搜索都是通过向 Solr 服务器发送请求来实现的。索引的实现方法很简单，用 POST 一个描述所有 Field 及其内容的 XML 文档就可以了，如位于 apache-solr-1.3.0/example/exampledocs/ 目录下的 hd.xml 样例文档，如清单 1 所示：

SP2514N Samsung SpinPoint P120 SP2514N - hard drive - 250 GB - ATA-133 Samsung Electronics Co. Ltd. electronics hard drive 7200RPM, 8MB cache, IDE Ultra ATA-133 NoiseGuard, SilentSeek technology, Fluid Dynamic Bearing (FDB) motor 92 6 true

要实现搜索则只需要发送 HTTP GET，比如：

http://localhost:8983/solr/select?indent=on&version=2.2&q=ipod&start=0&rows=10
      &fl=*%2Cscore&qt=standard&wt=standard

在这个例子，查询 ipod 被提交，它要求 10 个结果。想知道更多有关各种可选查询选项的信息，请参看 Solr wiki（参见参考资料）。（现在，与 Solr 一起提供的还有一个称为 SolrJ 的客户机，它将 HTTP 请求的所有细节信息都隐藏在一组很容易使用的 Java™ 类中。我将在本文后半部分介绍 SolrJ）。

对于从更大的上下文理解 Solr 设计，这些关于 Solr 概念的快速复习已经足够。

安装 Solr 1.3

要使用 Solr 和本文中的样例，您必须先安装以下软件：

Java 1.5 或更高版本。
Web 浏览器，您将用它查看管理页面。我使用的是 Firefox，但可以使用其他现代浏览器。
要运行 DataImportHandler 样例，需要一个数据库及其 JDBC 驱动。在本文的样例中，我使用的是 PostgreSQL；MySQL 或其他数据库应该也可以，但可能需要修改我编写的 SQL 以使它适合您的数据库。
需要一个 servlet 容器。我在本文中使用的是 Jetty，它与 Solr 打包在一起，所以也就没必要使用其他容器了。但如果您偏爱 Tomcat 或其它容器的话，Solr 也能很好地适应它们。

Solr 的新起点

安装了上述软件之后，从 Apache Mirrors Web 站点下载 Solr 1.3.0 版本，并将其解压缩到特定的目录下。解压缩包将创建一个名为 apache-solr-1.3.0 的目录。然后在一个终端（命令提示符）中完成以下步骤：

cd apache-solr-1.3.0/example（在 Windows® 上使用 /）。

java -jar start.jar。

然后等待，直到在日志输出中看到如下几行，它表明服务器已经启动：

2008-10-01 09:57:06.336::INFO:  Started SocketConnector @ 0.0.0.0:8983
Oct 1, 2008 9:57:06 AM org.apache.solr.core.SolrCore registerSearcher
INFO: [] Registered new searcher Searcher@d642fd main

将 Web 浏览器转到 http://localhost:8983/solr，您会看到一个 Solr 欢迎页面。
在另外一个终端中会出现 cd apache-solr-1.3.0/example/exampledocs。
java -jar post.jar *.xml。这会自动向 Solr 添加一组文档。
在浏览器的管理员页面上尝试查询（http://localhost:8983/solr/admin/form.jsp）。
图 1 显示了在我的浏览器上尝试查询 ipod 产生的结果（有删节）：

图 1. 示例搜索结果

现在，您的电脑上已经安装并运行 Solr 1.3，可以工作了。在本文中，我将使用并修改位于 pache-solr-1.3.0/example/solr/conf 目录中的样例 solrconfig.xml 和 schema.xml。我先介绍一下与升级到 Solr 1.3 版本有关的一些问题，然后再介绍一下该最新版本中的增强功能。如果不需要升级的话，您可以直接跳到增强功能部分。

升级 Solr

Solr 1.3.0 与早期的 Solr 版本是兼容的。但升级时仍有几件事情需要注意。对于启动器来说，如果使用复制的话，需要首先升级 worker 节点，然后再升级 master 节点。

Solr 复制
Solr 中的复制可能会涉及到一个或多个 worker 节点，它们都运行 Solr，将索引的本地副本与 master 节点上的更改进行同步。复制允许 Solr 进行扩展，以很高的查询容量来满足应用程序的需求，而且不会降低性能。Solr 能够很有效地处理该过程。要获取更多的信息，请参见参考资料。

第二，这个版本的 Solr 包含新版本的 Lucene。其实，这就意味着 Solr 将会升级内部的 Lucene 文件格式，也就是说旧版的 Solr 可能无法读取新的版本。所以，在升级前先备份索引是明智之举，避免以后需要降级版本。

第三，Solr 1.3 还包含 Dr. Martin Porter 的新版 Snowball 派生器。如果用它们派生单词的话，那么对于过去用某种方法派生的单词，现在可能（虽然可能性不大）不再使用相同的方法了。最保险的做法是为内容重新创建索引，这样就避免查询时间分析和索引分析不匹配。

除了有些用户可能会遇到的这些问题以外，Solr 1.3 的确应该代替早期的版本。现在您已经准备好学习本文的重用部分：增强 Solr 现有的功能。

增强功能

Solr 1.1 和 1.2 使用起来很方便，但是，和所有最简单的软件一样，它们都留有改进的空间。Solr 1.3 包含有很多对服务器的稳定性和性能的故障修复功能和改进。

性能增强

首先，最新的版本将 Lucene 库升级到了最近的版本，该版本含有很多性能改进。在测试中，我看到索引速度提高了 5 倍，而有些人则声称提高了 2 到 8 倍。幸运的是，所有的 Solr 用户都可以享受到更快的索引，而且大部分的性能增进都不需要改变配置。

但是，很容易改变 solrconfig.xml 中的一个配置，让应用程序更好地控制索引期间使用的内存量。在 1.1 和 1.2 版本中，Solr 会在内存中的文档达到一定数量时将索引的文档写到磁盘中，而不管文档的大小。这经常导致内存不被充分利用，因为文档较小时，尽管内存有剩余，文档还是被过度刷新；而文档较大需要更大内存时，又不能及时刷新它。现在，solrconfig.xml 的部分有了选项，您可以指定用于缓冲内存中的文档的内存量，而不是由文档的数量来决定。

更多扩展点

在 Solr 1.3 中，扩展 Solr 以及配置和重新整理扩展变得十分简单。以前，您需要编写一个 SolrRequestHandler 来实现新功能。这个方法的问题是其他 SolrRequestHandler 很难重用该功能。例如，您可能有更好的分类方法，但却想保留现有的查询与突出显示功能。为了解决这个问题，Solr 项目提出了将各种 SolrRequestHandler（比如 StandardRequestHandler 和 DismaxRequestHandler）重构为组件 — 称为 SearchComponent — 的想法，这些组件可以链接起来，形成一个新的 SolrRequestHandler。现在，您只要关注 SearchComponent 的新功能就可以了，不用再费神思考怎样才能最好地扩展、重用或复制其他功能。

不过请放心，现有的 SolrRequestHandler 仍然可以像以前一样无缝地工作，但它们现在仅仅是负责实际工作的围绕 SearchComponent 的包装器而已。表 1 介绍了一些新 SearchComponent 的详细信息。稍后，我还将在本文中提供有关表 1 中的两个组件的更多信息（MoreLikeThisComponent 和 SpellCheckComponent。参见参考资料中的 SearchComponent 链接）。

表 1. 常用的 SearchComponent

名称	说明和查询样例
`QueryComponent`	负责将查询提交到 Lucene 并返回 `Document` 的列表。 `http://localhost:8983/solr/select?&q=iPod&start=0&rows=10`
`FacetComponent`	决定结果集的分类。 `http://localhost:8983/solr/select?&q=iPod&start=0&rows=10&facet=true&facet.field=inStock`
`MoreLikeThisComponent`	为每个搜索结果查找与结果类似的文档，并返回这些结果。 `http://localhost:8983/solr/select?&q=iPod&start=0&rows=10&mlt=true&mlt.fl=features&mlt.count=1`
`HighlightComponent`	在搜索结果的正文中突出显示查询词语的位置。 `http://localhost:8983/solr/select?&q=iPod&start=0&rows=10&hl=true&hl.fl=name`
`DebugComponent`	返回有关查询的解析方式的信息，以及每个文档的记录方式的详细信息。 `http://localhost:8983/solr/select?&q=iPod&start=0&rows=10&debugQuery=true`
`SpellCheckComponent`	根据索引的内容对输入查询进行拼写检查，并提供其他备选方法。 `http://localhost:8983/solr/spellCheckCompRH?&q=iPood&start=0&rows=10&spellcheck=true&spellcheck.build=true`

默认情况下，所有 SolrRequestHandler 都附带有 QueryComponent、FacetComponent、MoreLikeThisComponent、HighlightComponent 和 DebugComponent。要添加自己的组件，您需要：

扩展 SearchComponent 类。
使 Solr 可以使用这些代码（参见参考资料中链接到 Solr Plugins wiki 页面的链接）。
在 solrconfig.xml 中配置它。

例如，假定我创建了一个名为 com.grantingersoll.MyGreatComponent 的 SearchComponent，并让 Solr 可以使用它，而现在我想要将其插入到 SolrRequestHandler 中以查询它。那么我首先需要声明该组件，如清单 2 所示，这样 Solr 才能知道如何实例化这个类：

清单 2. 组件声明

接下来，我需要告知 Solr 要将其连接到哪个 SolrRequestHandler。在这个用例中，我可以使用三个选择之一：

显式地声明所有 SearchComponent，如清单 3 所示：

清单 3. 显式地声明所有 SearchComponent

						

    
      query
      facet
      myGreatComp
      highlight
      debug

预先将组件添加到现有的链接上，如清单 4 所示：

清单 4. 预先将组件添加到现有的链接上
myGreatComp
将组件追加到现有链接上，如清单 5 所示：

清单 5. 将组件追加到现有链接上
myGreatComp

关于 DebugComponent 的说明

当您使用 first-components 或 last-components 方法时，DebugComponent 必须是链接的最后组件。当组件改变 DebugComponent 报告的值时（比如查询结果），这尤为有用。

现在，与 SearchComponent 重构类似，也可以将查询解析和 SolrRequestHandler 分开。因此，您可以把 DismaxQParser 与任何 SolrRequestHandler 一起使用。您可以通过输入 defType 参数来实现。例如：

http://localhost:8983/solr/select?&q=iPod&start=0&rows=10&defType=dismax&qf=name

使用 Dismax 查询解析器来解析查询，而不是标准 Lucene 查询解析器。

另外，您也可以通过扩展 QParser 和 QParserPlugin 来创建您自己的查询解析器，并让 Solr 可以使用它们，然后在 solrconfig.xml 中配置它。例如，如果我创建了 com.grantingersoll.MyGreatQParser 和 com.grantingersoll.MyGreatQParserPlugin，并使让 Solr 可以使用它们，那么我应该在 solrconfig.xml 中按以下方式配置它们：

随后，我可以将 defType=greatParser 键/值对添加到一个查询请求中，以查询这个新的解析器。

Solr 最近版本还包含了很多其他的改进。如果您有兴趣学习更多内容的话，可以看一下参考资料中的发布说明链接。从这里开始我们将学习 Solr 的新特性。

新特性

Solr 1.3 拥有很多功能强大的特性，这使它充满了吸引力。本文剩余的部分将介绍新 Solr 特性，以及将它们合并到您的应用程序中的方法。为了展示这些内容，我将构建一个简单的应用程序，它将 RSS 提要和该提要的评级结合起来。评级将储存在一个数据库中，RSS 提要来自我的 Lucene 博客的 RSS 提要。完成这个简单的设置后???我将展示如何使用：

DataImportHandler
MoreLikeThisComponent
QueryElevationComponent （我称之为 “编辑结果排序”）
SolrJ
分布式搜索（不带有设置细节信息的架构讨论）

如果要实践这个示例，请下载样例应用程序，并按以下说明进行操作：

将 sample.zip 拷贝到 apache-solr-1.3.0/example/ 目录。
解压缩 sample.zip。
启动（或重启动）Solr：java -Dsolr.solr.home=solr-dw -jar start.jar。
以数据库管理员的身份创建一个名为 solr_dw 的数据库用户。具体做法请参看数据库说明。在 PostgreSQL 中，我的创建方法为：create user solr_dw;。
为上述用户创建一个名为 solr_dw 的数据库：create database solr_dw with OWNER = solr_dw;。

在命令行上执行 src/sql/create.sql 语句：psql -U solr_dw -f create.sql solr_dw。我的输出为：

 gsi@localhost>psql -U solr_dw -f create.sql solr_dw
psql:create.sql:1: ERROR:  table "feeds" does not exist
psql:create.sql:2: NOTICE:  CREATE TABLE / PRIMARY KEY will create /
  implicit index "feeds_pkey" for table "feeds"
CREATE TABLE
INSERT 0 1
INSERT 0 1
INSERT 0 1
INSERT 0 1
INSERT 0 1

从数据库和其他数据源导入数据

在这个结构化数据和非结构化数据的数量都很庞大的年代，经常需要从数据库、XML/HTML 文件或其他数据源导入数据，并使数据可搜索。过去，要编写自定义代码才能创建到数据库、文件系统或 RSS 提要的自定义连接。但现在，Solr 的 DataImportHandler（DIH）填补了这个空白，它使您能够从数据库（通过 JDBC）、RSS 提要、Web 页面和文件中导入数据。DIH 位于 apache-1.3.0/contrib/dataimporthandler 中，是 apache-1.3.0/dist/apache-solr-dataimporthandler-1.3.0.jar 中的一个 JAR 文件。

DataImportHandler 警告

DataImportHandler 不是文件/Web 爬行器（crawler），它不直接支持从二进制文件格式中提取内容，比如 MS Office、Adobe PDF 或其他专有格式。本文没有详尽地介绍 DIH，如果要了解更多信息，请参见参考资料。

在概念上，DIH 可以分解为几个简单的部分：

DataSource：获取内容的数据库、Web 页面、RSS 提要或 XML 文件。
文档/实体声明：指定 DataSource 的内容与 Solr 模式之间的映射。
导入：Solr 命令，使用它既可以进行完全导入，也可以只导入已经更改的实体的增量导入。
EntityProcessor：用于映射的代码。Solr 自带四个工具：
- FileListEntityProcessor：在目录上迭代并导入文件。
- SqlEntityProcessor：连接到一个数据库并导入记录。
- CachedSqlEntityProcessor：将缓存添加到 SqlEntityProcessor。
- XPathEntityProcessor：使用 XPath 语句从 XML 文件抽取内容。
Transformer：用户定义的、可选的代码，用于在添加到 Solr 之前转换导入的内容。例如，DateFormatTransformer 能够标准化日期。
变量替代：用运行时的值替代占位符变量。

首先，我需要设置一个 SolrRequestHandler 将 DIH 和 Solr 关联起来。该设置要在 solr-dw/rss/conf/solrconfig.xml 文件中进行，如清单 6 所示：

清单 6. 将 DIH 和 Solr 关联起来

				


  rss-data-config.xml

该配置表明：我可以通过 http://localhost:8983/solr/rss/dataimport 找到 DataImportHandler 实例；该实例必须使用一个名为 rss-data-config.xml 的配置文件（位于 solr_dw/rss/conf 目录）来获取它的设置信息。到目前为止，一切都相当简单。

拨开下一层面纱，rss-data-config.xml 文件就是声明和使用 DataSource 、实体和 Transformer 的地方。在这个例子中，首先遇到的 XML 标记（在根元素后面）为 DataSource 声明，如清单 7 所示：

清单 7. DataSource 声明

清单 7 中的第一个声明设置一个与我的数据库相连接的 DataSource。它被命名为 ratings，因为我的评级信息就储存在里面。注意，虽然我没有为数据库用户设置密码，但实际可以向标记添加密码属性。如果了解 JDBC 设置的话，那么就应该很熟悉这个 DataSource 声明了。第二个 DataSource 名为 rss，它声明内容将要通过 HTTP 来获取。稍后将声明这个 DataSource 的 URL。

下一个值得讨论的标记是标记。它用来指定如何将 RSS 提要和数据库的内容映射到 Solr Document。一个实体就是被索引为一个单一文档的内容单位。例如，在一个数据库中，实体声明规定了如何将每一行转换成 Document 中的 Field。一个实体里又可以包含一个或多个实体，因此子实体就变成整体 Document 的 Field 结构。

至此，来自 rss-data-config.xml 的带注释的示例可以清楚地说明与实体相关的大部分信息。在这个例子中，主实体从一个 RSS 提要获取内容，并将其与数据库中的行相关联以获得评级。清单 8 是一个缩略的 RSS 提要示例：

清单 8. 缩略的 RSS 反提要

Grant's Grunts: Lucene Edition http://lucene.grantingersoll.com Thoughts on Apache Lucene, Mahout, Solr, Tika and Nutch Wed, 01 Oct 2008 12:36:02 +0000 Charlotte JUG >> OCT 15TH - 6PM - Search and Text Analysis http://lucene.grantingersoll.com/2008/10/01/ charlotte-jug-%c2%bb-oct-15th-6pm-search-and-text-analysis/ Wed, 01 Oct 2008 12:36:02 +0000

与此同时，数据库中的一行包含提要中的文章的 URL、一个评级（我随便编的）和一个修改日期。现在，我只需将它映射到 Solr 就可以了。为了完成此工作，我将逐行解释 rss-data-config.xml 中的实体声明，如清单 9 所示（它包含行数和换行符，以获得良好的格式）：

清单 9. 实体声明

1. 8. 9. 10. 11. 12. 13. 14. 15. 16. 20. 21. 22.

第 1 行：实体名（solrFeed）。
第 2 行：该项的可选主键，只有在导入增量时才用得到。
第 3 行：将要获取的 URL — 在这个用例中是我在 Solr 上的博客站点。
第 4 行：用于从原始源映射内容的 EntityProcessor。
第 5 行：用于指定如何从 XML 获取记录的 XPath 表达。（XPath 提供一种在 XML 文件中指定特定元素或属性的方法。如果不熟悉 XPath 表达的话，请参阅参考资料）。
第 6 行：要使用的 DataSource 的名称。
第 7 行：用于将字符串解析成 java.util.Date 的 DateFormatTransformer。
第 8 行：将通道名称（博客名称）映射到以 Solr 模式字段命名的数据源。此过程每个通道只发生一次，因此 commonField 属性指定该值必须用于每一个数据项。
第 9-14 行：将 RSS 提要的其他部分映射到 Solr Field。
第 15 行：映射出版日期，但使用 DateFormatTransformer 将值解析为一个 java.util.Date 对象。
第 16-21 行：从数据库获取每一篇文章的评级的子实体。
第 16 行：query 属性指定要运行的 SQL。${solrFeed.link} 值被代替变量解析为每一篇文章的 URL。
第 17 行：导入增量时要运行的查询。${dataimporter.last_index_time} 由 DIH 提供。
第 18 行：使用 JDBC DataSource。
第 20 行：将数据库中的评级栏映射到评级字段。如果未指定名称属性，将默认使用栏名。

下一步是运行导入。这可以通过提交 HTTP 请求来实现：

http://localhost:8983/solr/rss/dataimport?command=full-import

该请求先将所有的文档从索引中移除，然后再进行完全导入。再强调一遍，这个请求首先从索引中移除全部文档，一定要警惕这一点。您可以随时浏览 http://localhost:8983/solr/rss/dataimport 获取 DIH 的状态。在这个用例中，我的输出如清单 10 所示：

清单 10. 导入结果

0 0 rss-data-config.xml idle 11 13 0 2008-10-03 10:51:07 Indexing completed. Added/Updated: 10 documents. Deleted 0 documents. 2008-10-03 10:51:18 2008-10-03 10:51:18 0:0:11.50 This response format is experimental. It is likely to change in the future.

您为其创建索引的文档的数量可能与我不同（因为我有可能会把其他 Solr 文章添加到提要）。为文档创建索引之后，我就可以查询索引了，就像在 http://localhost:8983/solr/rss/select/?q=*%3A*&version=2.2&start=0&rows=10&indent=on 中一样，它返回了带索引的全部文档，共 10 篇。

有了这些准备，您就可以使用 DIH 了。再深入一些，就是如何替换变量和如何编写 Transformer 了。要想学习更多有关此话题的知识，请参见参考资料中的 DataImportHandler wiki 页面链接。下面将介绍：如何使用 MoreLikeThisComponent 查找相似页面。

查找相似页面

MoreLikeThisComponent 和 Solr 模式

MLT 要求字段被储存或使用检索词向量，检索词向量以一种以文档为中心的方式储存信息。MLT 通过文档的内容来计算文档中关键词语，然后使用原始查询词语和这些新词语创建一个新的查询。提交新查询就会返回其他查询结果。所有这些都可以用检索词向量来完成：只需将 termVectors="true" 添加到 schema.xml 中的声明。

在 Google 上尝试一个查询，您会注意到每一个结果都包含一个 “相似页面” 链接，单击该链接，就会发布另一个搜索请求，查找出与起初结果类似的文档。Solr 使用 MoreLikeThisComponent（MLT）和 MoreLikeThisHandler 实现了一样的功能。如上所述，MLT 是与标准 SolrRequestHandler 集成在一起的；MoreLikeThisHandler 与 MLT 结合在一起，并添加了一些其他选项，但它要求发布一个单一的请求。我将着重讲述 MLT，因为使用它的可能性更大一些。幸运的是，不需要任何设置就可以查询它，所以您现在就可以开始查询。

您可以向请求添加很多 HTTP 查询参数，并且大部分参数都有智能的默认值，因此我将着重讲述使用 MLT 必须了解的参数。（要了解更多的详细信息，请参见参考资料获得 Solr wiki 的 MLT 页面链接）。

表 2. MoreLikeThisComponent 参数

参数	说明	值域
`mlt`	在查询时，打开/关闭 `MoreLikeThisComponent` 的布尔值。	真\|假
`mlt.count`	可选。每一个结果要检索的相似文档数。	> 0
`mlt.fl`	用于创建 MLT 查询的字段。	模式中任何被储存的或含有检索词向量的字段。
`mlt.maxqt`	可选。查询词语的最大数量。由于长文档可能会有很多关键词语，这样 MLT 查询可能会很大，从而导致反应缓慢或可怕的 `TooManyClausesException`，该参数只保留最关键的词语。	> 0

尝试下面的样例查询，然后检查返回结果中的 moreLikeThis 部分：

http://localhost:8983/solr/rss/select/?q=*%3A*&start=0&rows=10&mlt=true
  &mlt.fl=description&mlt.count=3

http://localhost:8983/solr/rss/select/?q=solr&version=2.2&start=0&rows=10
  &indent=on&mlt=true&mlt.fl=description&mlt.fl=title&mlt.count=3

接下来，我将介绍如何向应用程序添加 “您是不是要找……”（拼写检查）。

提供拼写建议

Lucene 和 Solr 很久以前就开始提供拼写检查功能了，但直到添加了 SearchComponent 架构之后，这些功能才可以无缝使用。现在您可以输入一个查询，让它不仅返回查询结果，并且为查询词语提供拼写建议（如果存在的话）。然后可以利用这些建议像 Google 那样显示 “您是不是要找……”，或者像 Yahoo! 那样显示 “请尝试……”。

集成拼写检查的妙处在于它能够（而且必须）根据索引中的标记给出建议。也就是说，它不必根据词典给出正确拼写的词语，而是根据与查询词语相似的拼写给出拼写建议（包括错误拼写）。例如，假设很多很多的人都将单词 hockey 错误拼写成 hockei。查询 hockey 的用户很可能是想查找里面带有单词 hockei 的文档，因为它们是相关的（尽管是这些文档的作者不会拼写）。

SpellCheckComponent 与 MLT 不同，它不需要在 solrconfig.xml 和 schema.xml 文件中进行配置。首先，模式必须先声明一个 Field 和一个相关联的、其内容能够发挥拼写词典的作用的 FieldType。按常规，该 FieldType 的分析过程要保持简单，而且不要派生词语或修改其他标志。我的样例 FieldType 声明了它的，如清单 11 所示：

清单 11. 声明一个

该负责基本的标志化（尤其是拆分空格），然后将标志变成小写并移除复制。不用派生词语，也不用扩展同义词。就是这么简单。接下来我在 schema.xml 文件中声明了一个 field，名为 spell，它使用 textSpell 。接着，我声明了，将 solrconfig.xml 文件中的必要的部分连接起来，如清单 12 所示：

清单 12. 声明

				

    textSpell
    
      default
      spell
      ./spellcheckerDefault

在这个例子中，我将前面声明的 textSpell 和 queryAnalyzerFieldType 关联起来。（注意，我使用前面讲述的 last-components 技术将组件到 Dismax 和 solrconfig.xml 中的标准 SolrRequestHandler 声明）。这能够确保正确分析输入查询，从而与拼写索引进行比较。其余的配置选项指定拼写检查器的名称、包含构建拼写索引所用的内容的 Field，以及索引在磁盘上的储存位置。

完成全部配置之后，您必须构建拼写索引。这可以通过用 HTTP 向组件发送请求来完成，比如：

http://localhost:8983/solr/rss/select/?q=foo&spellcheck=true&spellcheck.build=true

拼写检查构建工作流程

要查询拼写检查索引，必须先构建它。初始构建完成后，您需要确定（通过您的应用程序）重新构建索引的频率。您也可以在用 solrconfig.xml 中的 postCommit 事件监听器完成提交之后再重新构建它。重构建的频率一定要以索引的更改数量为基准，但这一点并不是很重要，因为初始索引创建之后，很大地改动词典的可能性不大。

构建了索引之后，像往常一样查询并添加 spellcheck=true 参数就会返回建议了。例如，清单 13 打开了拼写检查特性：

清单 13. 显示拼写检查的查询

				
http://localhost:8983/solr/rss/select/?q=holr&spellcheck=true

运行清单 13 中的查询会返回零个结果，但是它会提供以下建议：

1 0 4 solr

再深入一步，多个词语的查询也可以使用拼写检查。组件甚至能够自动地创建一个推荐的新查询，该查询将所有词语的最佳建议结合起来。这可以通过添加 spellcheck.collate=true 参数来实现。就像在错误拼写查询中一样，

http://localhost:8983/solr/rss/select/?q=holr+foo&spellcheck=true&indent=on
&spellcheck.collate=true

它生成了作为建议的一部分的结果 solr for。但是要注意，这个合并的结果可能不会返回结果，这取决于您是否用 AND 将查询词语连接起来。

另外，拼写检查器还能采用与返回的建议数量和结果质量有关的查询参数。要想更多地了解 SpellCheckComponent 的详细信息，请参见参考资料中的 Solr wiki 页面链接。

接下来，我将介绍如何用 “付费排序” 来覆盖结果的自然排序。

编辑结果排序

在理想的情况下，搜索引擎只返回与用户查询相关的文档。而在现实的查询中，编辑（没发现更合适的表达）通常需要指定特定文档在搜索结果中的特定位置。这样做有很多原因。或许 “置顶” 的文档就是最好的查询结果。也可能是公司想让客户从相似的选择中找到利润率较高的产品。还可能是由第三方付费，提高某些查询词语的排名。不管是什么原因，对于一般的查询，要根据相关度来排名，让特定的文档出现在特定的位置，通常是很困难的（甚至是不可能的）。而且，即便搜索引擎能为某个查询达到这个目的，它也很可能会在这个过程中破坏其他 50 个查询。因此，现实中的搜索有这样一条基本规则：用户输入查询并不等于您必须搜索索引并给文档评级。我知道，以构建搜索引擎为生的人说这件事有点奇怪，但这是事实。您可以缓存普通的查询，或只查找结果（Solr 可以完成），或根据上述的某个原因 “硬编码” 结果。

Solr 使用一个神秘命名的 SearchComponent（即 QueryElevationComponent）实现了简单排名。为了在样例应用程序中配置它，我按清单 14 所示的方法声明它：

清单 14. 声明一个 QueryElevationComponent

				

    
    string
    elevate.xml

queryFieldType 属性指定如何将传入的查询与要提升的查询相匹配。为简单起见，string FieldType 意味着查询必须是一个精确匹配的字符串，因为在 string FieldType 上是不会执行任何分析的。config-file 属性指定包含查询和相关联的结果的文件。它储存在一个单独的文件中，这样才能够从外部编辑它。文件必须位于 Solr 配置目录中或 Solr 数据目录中。如果它不在数据目录中，那么它会在 Solr 需要重新装载索引时再载入。

样例应用程序将 elevate.xml 储存在配置目录中。在它的内部，我为查询 “Charlotte” 添加了一个条目，以及其他 3 个条目，如清单 15 所示：

清单 15. 样例 elevate.xml 配置

id="http://lucene.grantingersoll.com/2008/10/01// charlotte-jug-%c2%bb-oct-15th-6pm-search-and-text-analysis/" />

清单 15 表明第一个链接出现的位置应该高于第二个链接，而第三个链接必须排除在结果之外。此后的结果按正常的顺序排列。想要查看正常的结果（包含这个组件时，默认打开提升），运行以下查询：

http://localhost:8983/solr/rss/select/?q=Solr&version=2.2&start=0&rows=10&indent=on
  &fl=link&enableElevation=false

想要查看提升打开时的结果，请尝试：

http://localhost:8983/solr/rss/select/?q=Solr&version=2.2&start=0&rows=10&indent=on
  &fl=link&enableElevation=true

应该会看到插入的提升输出。

这就是编辑排序。现在您已经能够轻松地为搜索改变查询结果，而且不会损害其他结果的质量。

SolrJ

在系列文章 使用 Apache Solr 实现更加灵巧的搜索 中，我借用了一个简单的客户机，它通过 Java 平台使用 Apache HTTPClient 与 Solr 通信。现在，在 1.3 版本中，Solr 提供了一个易于使用的、基于 Java 的 API，它避免了 HTTP 链接和 XML 命令的所有弊端。这个称为 SolrJ 的新客户机使得通过 Java 代码处理 Solr 更加轻松。SolrJ API 通过良好定义的方法调用简化了索引创建、搜索、排序和分类。

同样，简单的例子或许是最好的老师。样例下载包含一个名为 SolrJExample.java 的 Java 文件。（参见下载中的 README.txt，查看有关编译的说明）。它展示了如何为 Solr 创建一些文档的索引，然后再运行一个对结果进行分类的查询。它做的第一件事是建立一个到 Solr 实例的连接，就像在 SolrServer server = new CommonsHttpSolrServer("http://localhost:8983/solr/rss"); 中一样。这会创建一个 SolrServer 实例，该实例通过 HTTP 和 Solr 通信。接下来，我将创建一个 SolrInputDocument，用它将要创建索引的内容打包起来，如清单 16 所示：

清单 16. 使用 SolrJ 创建索引

Collection docs = new HashSet(); for (int i = 0; i < 10; i++) { SolrInputDocument doc = new SolrInputDocument(); doc.addField("link", "http://non-existent-url.foo/" + i + ".html"); doc.addField("source", "Blog #" + i); doc.addField("source-link", "http://non-existent-url.foo/index.html"); doc.addField("subject", "Subject: " + i); doc.addField("title", "Title: " + i); doc.addField("content", "This is the " + i + "(th|nd|rd) piece of content."); doc.addField("category", CATEGORIES[rand.nextInt(CATEGORIES.length)]); doc.addField("rating", i); //System.out.println("Doc[" + i + "] is " + doc); docs.add(doc); }

清单 16 中的循环只是创建了 SolrInputDocument（实际是一个夸张的 Map），然后给它添加 Field。我将它添加到了一个集合中，这样一次就能将所有的文档发送到 Solr。借助这个功能可以极大地加索引的创??，并减少通过 HTTP 发送请求导致的开销。然后我调用了 UpdateResponse response = server.add(docs);，它负责序列化文档并将其提交到 Solr。UpdateResponse 返回的值包含处理文档所用的时间的信息。为了让这些文档能够被搜索到，我又发出一个提交命令：server.commit();。

当然，创建索引之后必须查询服务器，如清单 17 带注释的代码所示：

清单 17. 查询服务器

//create the query SolrQuery query = new SolrQuery("content:piece"); //indicate we want facets query.setFacet(true); //indicate what field to facet on query.addFacetField("category"); //we only want facets that have at least one entry query.setFacetMinCount(1); //run the query QueryResponse results = server.query(query); System.out.println("Query Results: " + results); //print out the facets List facets = results.getFacetFields(); for (FacetField facet : facets) { System.out.println("Facet:" + facet); }

在这个简单的查询例子中，我设置了一个带有 content:piece 请求的 SolrQuery 实例。接下来，我表明自己对至少一个条目的所有的分类的分类信息感兴趣。最后，我通过 server.query(query) 调用提交查询，然后把一些结果打印了出来。这的确是一个过于简单的例子，但是它展示使用 Solr 时常见的任务，因此使您想到可以实现什么功能（突出显示、排序等）。要学习更多有关用 SolrJ 查询的可用选项的知识，请参见参考资料中的 SolrJ 链接。

用分布式搜索扩展索引大小

直到 1.3 版本，Solr 才能通过复制轻松进行扩展，以满足更大容量的查询需求。但是，如果没有应用程序帮助完成大部分工作，要提供超出单个机器的承载额度的索引还是很困难的。例如，通常可以在 Solr 中设置多个服务器，其中每一个服务器都有自己的索引，然后再让应用程序来管理搜索 — 但这需要大量的自定义代码。在 1.3 版本中，Solr 添加了分布式搜索功能。应用程序将文档分布到几个计算机上，Solr（和其他程序）通常称之为片（shard）。每一个片都包含自己的独立索引，而且 Solr 能够跨片协调索引查询。不幸的是，应用程序仍然需要将要创建索引的文档发送到每一个片，但这可能会添加到将来的 Solr 版本中。同时，可以使用一个简单的散列函数根据文档的唯一 ID 确定将文档发送到什么片。与此同时，我将关注搜索的等式方面。

Solr 机器容量

一个机器可以容纳的索引大小取决于机器的配置（RAM、CPU、磁盘等）、查询和索引的量，以及文档的大小和搜索模式。但是通常一个机器能够容纳的文档数量约在几百万到 1 亿之间。

要开始使用分布式搜索，用户需要花些时间考虑架构。如果仅需要几个片，而且不考虑复制的话，那么可以在每个机器上放置一个片，并且每一个片都能够创建索引和提供搜索。但如果索引和查询量很大的话，就必须复制每一个片。设置这种系统的常用的方法就是将每一个片及其复制放到一个载入平衡器的后面。图 2 展示了这个架构：

图 2. 分布式和复制 Solr 架构

注意，图 2 中输入的请求可以进入任何一个复制的片中，因为它们是功能齐全的 Solr 实例。然后，检索节点会将请求发送到其他片。这些请求仅仅是普通的 Solr 请求。要将请求提交到 Solr 服务器并分发请求，需要将 shards 参数添加到请求，比如：

http://localhost:8983/solr/select?
  shards=localhost:8983/solr,localhost:7574/solr&q=ipod+solr

在这个例子中，我假定在本地主机上运行了两个 Solr 服务器（它不是真正的分布式的；它适合于这里的论述，但不能用于您的设置），主服务器在端口 8983 上，从服务器在端口 7574 上。输入的请求进入端口 8983 上的实例，然后它将请求发送到片式服务器上。应用程序很可能将 shards 参数值设置成 solrconfig.xml 文件中的 SolrRequestHandler 的默认配置的一部分，这样就不需要在每次查询时都传入所有片式服务器的名称了。

结束语

Solr 1.3 发生了很大的变化。在本文中，您学习了很多新的特性，比如拼写检查、数据导入、编辑排序和分布式搜索。此外，还学习了 Solr 的增强功能，包括一个更新、更快的 Lucene 版本。Solr 有许多地方改变了，也有许多地方没有改变。Solr 仍然是一个可靠的、可行的、支持良好的搜索服务器，并且已经可以部署到企业中。现在，Solr 开发人员开始研究添加文档聚合、更多的分析选项、Windows 友好的复制以及复制文档检测等特性。

你可能感兴趣的:(java,solr,apache,lucene,文档,数据库,postgresql)

文献笔记八十一：植物长链非编码RNA数据库PLncDB 2.0 小明的数据分析笔记本
论文链接https://academic.oup.com/nar/article/49/D1/D1489/5932847本地文件gkaa910.pdf
学生信息管理系统的VFP数据库设计与实现溪水边小屋
本文还有配套的精品资源，点击获取简介：《学生管理系统vfp数据库》是一个基于VisualFoxPro（VFP）的学生信息管理软件，旨在帮助教育机构记录、管理学生数据并提供分析功能。该系统包括数据库设计、用户界面设计、数据操作、事务处理、报表统计、安全性管理、程序架构及代码优化等核心功能。学生管理系统是VFP数据库开发的学习和实践平台，适用于初学者。1.VisualFoxPro数据库开发基础Visu
轻松掌握EasyX图形库在Visual C++ 6.0中的应用 Randy Rhoads
本文还有配套的精品资源，点击获取简介：EasyX图形库为VisualC++6.0环境提供了简便的图形界面编程功能。它包括丰富的图形绘制、图像处理、文字操作、图形变换和事件处理等核心特性，辅以详细的API文档和示例代码。该库支持在多个操作系统版本上运行，且具有优化的性能，极大地简化了图形界面的开发流程。1.easyX图形库概述1.1引言easyX图形库是一个基于Windows操作系统的简单易用的图形
【Bluedroid】蓝牙启动之 btm_acl_device_down 流程源码解析 byte轻骑兵 Android C++Bluedriod Andriod
本文详细分析Android蓝牙协议栈在设备故障时的处理流程。当蓝牙设备发生硬件故障或系统异常时，协议栈通过btm_acl_device_down触发多层次的资源清理和状态重置，包括ACL连接终止、L2CAP通道释放、SCO连接清理、BLE拓扑更新、设备数据库重置等关键操作，确保系统安全恢复。一、概述1.1蓝牙核心控制块与故障处理框架蓝牙协议栈通过全局控制块tBTM_CB实现跨模块状态管理，其整合了
js运行，控制台显示乱码 wangsrc javascript linux 开发语言
"code-runner.executorMap":{ "javascript":"C:\\ProgramFiles\\nodejs\\node.exe" //node.js的安装路径}参考文章：https://blog.csdn.net/m0_63785629/article/details/129432129
SQL 常用版本语法概览：标准演进与关键语法分析
一、引言SQL（StructuredQueryLanguage，结构化查询语言）是关系型数据库系统的核心语言，自1986年成为ANSI和ISO标准以来，经历了多次版本演进，不断增强语义表达能力以适应复杂的企业数据需求。随着数据库技术的不断发展，各大数据库厂商（如Oracle、SQLServer、PostgreSQL、MySQL等）在实现标准的基础上扩展了大量方言语法，使得掌握SQL的标准语法版本成
Redis面试精讲 Day 3：Redis持久化机制详解在未来等你 Redis面试专栏 Redis 面试题持久化 RDB AOF 数据库缓存
【Redis面试精讲Day3】Redis持久化机制详解文章标签Redis,面试题,持久化,RDB,AOF,数据库,缓存,后端开发,分布式系统文章简述本文是"Redis面试精讲"系列第3天内容，深入解析Redis持久化机制这一面试高频考点。文章从基础概念出发，详细剖析RDB和AOF两种持久化方式的实现原理、触发机制和优缺点对比，提供多语言客户端操作示例和性能测试数据。针对"如何选择持久化策略"、"A
主流数据库语言语法对比两圆相切数据库
以下是五大数据库（MySQL、PostgreSQL、Oracle、SQLServer、SQLite）核心语法对比，涵盖DDL、DML、查询、函数、事务等全场景，包含底层原理差异和实用示例。##一、数据一、类型深度对比分类MySQLPostgreSQLOracleSQLServerSQLite整数TINYINT,INT,BIGINTSMALLINT,INT,BIGINTNUMBER(10)TIN
MDB 4.3 协议文档详细介绍
MDB4.3协议文档详细介绍【下载地址】MDB4.3协议文档详细介绍MDB4.3协议是2019年发布的多点总线通信协议，专为售货机与纸币器、硬币器、刷卡器等设备设计。该版本新增了远程售货机功能，支持无现金支付和移动应用操作，极大提升了用户体验。此外，协议还优化了触摸屏处理，避免无效操作，并引入了购物车和优惠券功能，丰富了促销方式。MDB4.3通过技术升级，提升了售货机的操作灵活性和系统稳定性，为自
Frida使用指南（三）- Objection 象野VH Android 逆向进阶逆向
1.什么是objectionobjection是基于frida的命令行hook集合工具,可以让你不写代码,敲几句命令就可以对java函数的高颗粒度hook,还支持RPC调用。可以实现诸如内存搜索、类和模块搜索、方法hook打印参数返回值调用栈等常用功能，是一个非常方便的，逆向必备、内存漫游神器。项目地址2.objection环境配置已不更新，要和frida的版本匹配python使用的版本建议大于3
【jquery详细讲解】 ᝰ落念英前端开发语言 web javascript jQuery jquery
(一)、什么是jQueryjQuery是对javascript的一种封装--js的函数库。用于客户端的开发，由美国人在2001年1月推出。(二)、jQuery与javascript的区别：1、本质上的区别：jQuery是一个函数库，基于js语言编写出来的框架，实质上还是属于js。2、代码书写不同，jq更简单。3、使用方法不同：使用jQuery和javascript分别加载DOM，js只执行一次，j
Jfinal +Swagger zhanghe687 java java
使用Jfinal[版本3.6]+Swagger实现前后端开发时接口文档管理步骤1:1.下载jfinal-swagger-1.0.0.jar下载地址:live.autujfinal-swagger1.0.0步骤2:2.下载swagger-ui,放入项目中,存放目录如下:下载地址:https://gitee.com/zhanghe687/jfinal_swagger_ui.git步骤3:修改jfina
JFinal项目demo，实现多数据源，数据迁移，从一张表，将数据添加到另外的一张表苦荞_ java 开发语言
一、废话今天项目经理给了我一个任务，就是需要将一个数据库中字典表的数据，相对应的添加到另外一张表中，这里将有数据的字典表成为dict嘛，需要添加数据的表为test表，我写的demo中表名也是这样的。当然呢，最开始我也是手动写SQL语句添加数据，搞了一两个字典数据，就着不住了，实际项目中的字典表数据是非常多的。一个字典类型有的就上千条数据，我一想，像我楞个加，得加到什么时候去。先想到的就是在原项目中
sqlite加密问题：怎么样打开这个通过sha512加密的sqlite数据库文件？ bug菌¹ 全栈Bug调优(实战版)sqlite c++sqlite加密数据库文件
本文收录于《全栈Bug调优(实战版)》专栏，主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！全文目录：问题描述解决方案1.**理解SQLite的加密扩展**2.**确认加密实现方式**3.**根据SHA-512的加密逻辑调整代码**4.**解决方案步骤****方
原生前端JavaScript/CSS与现代框架(Vue、React)的联系、区别与运行环境(精简版)
原生前端JavaScript/CSS与现代框架(Vue、React)的联系、区别与运行环境随着Web技术的不断发展，前端开发已经从最初的原生JavaScript和CSS时代，逐步演进到以Vue、React等为代表的现代前端框架时代。对于许多刚入门或正在转型的前端开发者来说，理解原生技术和现代框架之间的联系、区别，以及各自的运行环境和条件，有助于更好地把握前端技术栈的演变趋势和实际应用场景。一、原生
druid oracle不同版本分页,JFinal4.3 框架总结（三）铁扇不是公举 druid oracle不同版本分页
7持久层——ActiveRecordActiveRecord模式的核心是：一个Model对象唯一对应数据库表中的一条记录，而对应关系依靠的是数据库表的主键值。因此，ActiveRecord模式要求数据库表必须要有主键。当数据库表没有主键时，只能使用Db+Record模式来操作数据库。JFinal的前端提交的formBean与数据库查询的JavaBean可以使用的是同一个Model对象，Model对
java的db是什么_java db 北斗星再亮 java的db是什么
关于javadb的搜索结果问题关于DB+RECORD操作oracle数据库的问题?报错@JFinal你好，想跟你请教个问题：我操作oracle数据库，插入一条记录Recorduser=newRecord().set("userid",...爱吃鱼的程序员2020-06-2220:22:060浏览量回答数1回答为什么不用分页查询是为了导出Excel使用的，前台页面的分页查询没有问题将jvm内存调大点
JFinal极速开发框架使用笔记(三) 分析Model和ActiveRecord weixin_33905756 java 数据库测试
JFinal框架的一些新发现的用法：在JFinal框架中，实体类并不需要设置属性，更不需要配置getset方法就可以很方便的操作数据库，如果需要设置或者获取属性，可以直接使用一下方式：Useruser=newUser().set("id","MY_SEQ.nextval").set("age",18);user.save();//获取id值Integerid=user.get("id");但是，如
如何在 Windows 上安装 ONLYOFFICE 文档 v7.2 ONLYOFFICE
通过阅读本文，了解如何在Windows上安装ONLYOFFICE文档v7.2。引言使用社区版，您可以在本地服务器上安装ONLYOFFICE文档，并将在线编辑器与ONLYOFFICE协作平台或其他热门系统集成在一起。ONLYOFFICE文档是一个在线办公套件，包括文本文档、电子表格和演示文稿的查看器和编辑器，与包括.docx、.xlsx、.pptx在内的OfficeOpenXML格式完全兼容，并支持
Mysql中使用树的设计 tongle_deng mySql
Mysql中使用树的设计原来一直使用id与parent_id结合的办法设计树，最近发现有些问题：1、查询此结点下所有子结点的需求。2、查询此结点上所有父结点的需求。这些需求在oracle和sqlserver中可以使用一些办法在数据库端进行处理，但在mysql中处理就稍显麻烦，在sqlite中基本无解。所以想办法重新设计一下就显的很有必要的了。添加两列：structure_nodevarchar(1
React入门到精通：掌握前端开发的必备技能！知识分享小能手学习心得体会编程语言如门 react.js 前端 javascript
介绍：React是一个由Facebook开发和维护的JavaScript库，用于构建用户界面，特别是用于构建单页应用程序和移动应用程序的用户界面。以下是对React的详细介绍：虚拟DOM：React通过使用虚拟DOM（DocumentObjectModel）来提高应用的性能。虚拟DOM是真实DOM的轻量级副本，React在虚拟DOM上进行操作，然后高效地更新真实DOM，这种方式比直接操作DOM要快
Jfinal+SQLite java工具类复制mysql表数据到 *.sqlite 秋林辉 sqlite java mysql
处理了时间类型packagechangeDataBase;importjava.sql.*;importjava.util.ArrayList;importjava.util.Iterator;importjava.util.List;publicclassMySQLToSQLiteMigration{privatestaticfinalStringMYSQL_URL="jdbc:mysql://
虚拟机中 Linux环境下idea 报Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=350m；秋林辉 JAVA idea linux jdk intellij idea
问题JavaHotSpot(TM)64-BitServerVMwarning:ignoringoptionMaxPermSize=350m;supportwasremovedin8.0无法启动原因在Java8中，命令行标志MaxPermSize已被删除。原因是永久代已从热点堆中删除，并已移至本机内存。所以不需要配置，内存足够！第一先看看你是不是使用JDK8，如果是MaxPermSize这个配置无效
JSON全面解析：轻量级数据交换的核心技术新人码农11111 json python
目录JSON的本质特征⚙️序列化：数据到字符串的转换反序列化：字符串到数据的还原实际应用场景⚠️常见陷阱与解决方案最佳实践建议在当今数据驱动的时代，JSON（JavaScriptObjectNotation）已成为最流行的轻量级数据交换格式。本文将深入剖析JSON的核心特性及其在Python中的应用，帮助开发者高效处理数据序列化与反序列化。JSON的本质特征JSON采用纯文本格式，具有跨平台、易读
React 开发（一）：入门 - 从 0 到 1 的学习之旅全栈探索者chen react react.js 学习前端前端框架程序人生开发语言 javascript
React开发（一）：入门-从0到1的学习之旅1.前言在前端开发领域，React是一个备受推崇的JavaScript库，广泛应用于构建用户界面。它的组件化架构、虚拟DOM和高效的更新机制使得开发复杂的应用变得更加简洁和高效。在这篇文章中，我们将从零开始学习React，了解它的基本概念和如何搭建第一个项目。2.什么是React？React是一个用于构建用户界面的JavaScript库，由Facebo
SQLite数据库文件损坏的可能几种情况（一）界忆人工智能数据库 SQLite 数据库 sqlite c++
返回：SQLite—系列文章目录上一篇：SQLiteC/C++接口详细介绍sqlite3_stmt类（十三）下一篇：SQLite使用的临时文件（二）概述SQLite数据库具有很强的抗损坏能力。如果应用程序崩溃，或操作系统崩溃，甚至电源故障发生在事务中间，部分写入的事务应在下次自动回滚将访问数据库文件。恢复过程已完全完成自动，不需要用户采取任何行动或应用程序。尽管SQLite可以抵抗数据库损坏，但它
Linux检测远程端口是否打开的六种方法岚天start 运维网络 linux ssh 网络
Linux检测远程端口是否打开的六种方法服务器环境：[root@java-test-server~]#cat/etc/redhat-releaseCentOSLinuxrelease7.6.1810(Core)方法一：Telnet命令【yum-yinstalltelnet】#端口通显示如下（实验IP为自定义IP）[root@java-test-server~]#telnet88.88.88.888
前端15 徒做嫁衣
jquery用法思想一选择某个网页元素，然后对它进行某种操作。jquery选择器jquery选择器可以快速地选择元素，选择规则和css样式相同，使用length属性判断是否选择成功。$(document)//选择整个文档对象$('li')//选择所有的li元素$('#myId')//选择id为myId的网页元素$('.myClass')//选择class为myClass的元素$('input[na
Jfinal 使用Druid对Sqlserver数据库配置文件中的密码项进行加密解密实现迟到的微笑 java web Jfina Druid
由于最近业务表较多，导致我好久没写博客了，今天为大家奉上一篇sqlserver配置文件如何加密和解密。网上看了下有mysql的我是sqlserver的忠实用户，居然没有sqlserver的，我瞬间不淡定了，决定写一篇帮助萌新。首先我们需要一个jar包，网上有，我就不提供下载地址了。第二步就是需要用这个jar来对密码进行加密了。网上有很多是下面这样的写法。这种写法对于懒惰的我来说就是一种折磨。我使用
React-Python项目安装与使用指南
React-Python项目安装与使用指南一、项目目录结构及介绍通常情况下，在克隆了https://github.com/facebookarchive/react-python.git仓库之后，你会看到以下的目录结构：├──README.md#项目的说明文档├──src#源码目录│├──components#React组件存放位置│├──App.py#应用主入口文件│└──index.js#引入
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》

Apache Solr 的新特性 利用 Solr 1.3 的新特性和改进

你可能感兴趣的:(java,solr,apache,lucene,文档,数据库,postgresql)

Apache Solr 的新特性利用 Solr 1.3 的新特性和改进