ffyd2000

使用 Apache Lucene 和 Solr 进行位置感知搜索

原文地址：http://www.ibm.com/developerworks/cn/java/j-spatial/index.html?ca=drs-cn-0222

地理位置在空间搜索中至关重要！地理位置不仅在地产中至尊为王，将其用在搜索中还能帮助位于特定位置的用户快速找到有用的信息。例如，如果您是企业名录提供商（比如一个 “黄页” 站点），当用户需要找一位水管维修员时，该站点必须返回在用户住所附近的维修员。如果您运营的是一个旅游站点，那么您必须让旅游者能够搜索到他们所在的位置附近的名胜，从而帮助他们丰富旅游行程。如果您要构建一个社交网络站点，那么最好使用位置信息来帮助用户与朋友联系。位置感知设备（比如汽车导航系统和支持 GPS 的摄像机）和大量免费地图数据的普及为构建能够为终端用户搜索高级结果的 Geographical Information Systems (GIS) 提供了各种机会。

空间信息还可以被利用到搜索领域之外，但在本文中我将主要关注如何通过 Apache Lucene 和 Apache Solr 利用空间信息来改进搜索应用程序。为什么要使用搜索引擎？并不是因为它是许多很好（甚至免费）的 GIS 工具中的必要组成部分。不过，将应用程序构建在搜索引擎的基础上能够提供几个强大的功能，这是其他传统途径无法实现的。搜索系统在合并结构化和非结构化方面非常强劲，这允许用户输入自由形式的查询，比如在搜索免费文本的描述和标题的同时根据地理位置数据限制或修改结果。例如，旅游站点可以实现这样一个特性，它让用户能够在一秒之内找到马萨诸塞州波士顿市的所有 24 小时提供服务并且配有舒适床具的四星级宾馆。有些搜索系统（比如 Apache Solr）还提供对结果集进行分类（参考资料部分提供关于 Solr 和分类的信息）、突出显示和拼写检查的功能，从而让应用程序能够帮助用户高效地查找所需的结果。

我首先简单介绍 Lucene 的一些关键概念，深入的细节留给读者自己探索。接下来，我将介绍一些基础的地理空间搜索概念。GIS 是一个广泛的领域，本文难以对其进行详尽的描述，因此我仅关注一些查找服务、人和其他日常事项所需的基础概念。本文的末尾是关于使用 Lucene 和 Solr 索引和搜索空间信息的方法的讨论。我将通过一个真实但很简单的例子来阐述这些概念，并且使用来自 OpenStreetMap (OSM) 项目的数据（参见参考资料）。

回顾关键的 Lucene 概念

Apache Lucene 是一个基于 Java™ 的高性能搜索库。Apache Solr 是一个使用 Lucene 通过 HTTP 来提供搜索、分类等功能的搜索服务器。它们都使用价格适中的 Apache Software License。参见参考资料了解更多关于每个产品提供的特性和 API 的信息。

从本质上看，Solr 和 Lucene 都将内容表示为文档。文档由一个或多个字段和一个表明文档的重要性的可选增强（boost）值 组成。字段由需要索引和储存的实际内容、告诉 Lucene 如何处理该内容的元数据和表明该字段的重要性的增强值组成。由您决定以何种方式将内容表示为文档和字段，这取决于您希望怎样搜索或访问文档中的信息。在每个内容单元中，您可以使用一对一的关系，也可以使用一对多的关系。例如，我可以选择用一个包含几个字段（比如 title、keywords 和 body）的文档来表示一个 Web 页面。如果是一本书，我则选择将它的每一页表示为一个独立的文档。稍后您将看到，这一区分在为搜索编码空间数据时非常重要。可以为字段中的内容建立索引，或者原样储存供应用程序使用。如果为内容建立了索引，应用程序就可以使用它。还可以分析建立了索引的内容来生成词汇（通常称为令牌）。词汇是在搜索过程中查找和使用的基础。词汇通常是一个词，但这不是必要的。我建议您通过参考资料部分了解所有这些概念。

在查询方面，Lucene 和 Solr 为表达用户查询（从基础的关键字查询到短语和通配符查询）提供丰富的功能。Lucene 和 Solr 还通过应用一个或多个对空间搜索非常重要的过滤器来提供限制空间的能力。范围查询 和范围过滤器 是限制空间的关键机制。在范围查询（或过滤器）中，用户声明需要将所有搜索到的文档限制在使用自然排序的两个值之间。例如，通常使用范围查询来查找发生在过去一年或上一个月的所有文档。在处理过程中，Lucene 必须枚举文档中的词汇以识别在范围之内的所有文档。如我在稍后展示的一样，正确地设置范围查询是提升空间搜索应用程序的查询性能的关键因素之一。

Lucene 和 Solr 还提供函数查询 的概念，它允许您使用字段的值（比如经度和纬度）作为记录机制的一部分，而不是仅仅使用组成主要的记录机制的内部数据集合。该功能在后文我演示使用 Solr 的一些基于距离的函数时用到。

回页首

地理空间搜索概念

在构建空间搜索应用程序时，最重要的是识别需要添加到应用程序中的空间数据。这些数据通常以某些地理编码的形式出现，比如纬度、经度和海拔，或以邮政编码或街道地址的形式出现。编码系统的格式越规范，它在您的系统中的使用就越容易。例如，民歌 “Over the River and Through the Woods”（其中有这样的歌词：“to Grandmother's house we go”）就将很多空间信息编码到了歌词中（参见参考资料）。但这些信息在 GIS 系统中就没有多大用处，因为我们不知道小河和森林的位置。该信息与到外婆家的详细方向（包含出发地址和到达地址的）相比，您将了解到为什么正确编码地址如此重要。（有趣的是，能够提取和编码更常用的方向和地理实体 —— 比如渡过小河 或在棕色房子附近 —— 并根据它们进行推断的系统也是非常有用的，但这不属于本文的讨论范围）。

除了用于识别地理位置的原始地理编码数据之外，许多 GIS 系统还可以添加与实际位置相关的信息。例如，导航系统可以使用在地图上按顺序列出的一系列位置来创建一条从 A 点到 B 点的路线。或者气象学家可以将降雨或恶劣的天气数据添加到特定区域的地图上，从而允许用户搜索到特定区域的降雨量。居住地点相邻的人通常将小的区域合并起来，从而形成 ZIP 编码、地区编码，甚至是城镇、市或州。例如在 OSM 中，用户可以编辑和覆盖地图顶层的信息，比如旅游景点或街道。通过合并各层的信息建立它们之间的关系并进行跟踪，可以生成更加动态和强大的应用程序。

表示空间数据

不管与一个或多个位置相关的信息是什么，搜索应用程序都需要通过一种高效的方式来表示这些数据。尽管可以通过几种方式来表示位置信息，但我仅关注与 Lucene 相关的方式。首先需要注意的是，许多类型的地理空间数据都可以用它们的 “原始” 格式表示，并且能够在搜索应用程序中很好地发挥作用。例如，Syracuse 表示城市 Syracuse 的完美方式，用户只要在搜索栏中输入 Syracuse 就可以找到包含 Syracuse 的所有文档，输入其他搜索关键词也将取得类似的结果。实际上，原始格式是用于表示带名称的位置，比如城市、州和 ZIP 编码的最常用方法。不过要注意，尽管我使用了术语原始表示，您仍然可以先对数据进行转换或格式化。例如，将 New York 转换成 NY 通常是一种合理的做法。

在我介绍 Lucene 能够使用的表示方式之前，您一定要理解所有表示方式都必须考虑到生成它们的空间引用（参见参考资料）。在美国，最常见的是 World Geodetic System，它通常缩写为 WGS 84（参见参考资料）。尽管在某些系统之间允许进行转换，但最好用一个系统来表示您的所有数据。本文假设使用同一个系统表示数据。

使用 Lucene 和 Solr 进行搜索时，纬度和经度（缩写为 lat/lon）等数字空间信息的表示方式是最有趣的。纬度和经度通常使用与本初子午线（位于英国的格林威治）相距的度、分和秒来表示，并且通常需要使用 double（或更高的精度）来表示。例如，对于我的例子中使用的数据 —— 美国纽约州的 Syracuse 市 —— 它的经度为东经 76.150026（如果没有指定东方，则为 -76.150026）和北纬 43.049648。

编码每个纬度和经度可能导致索引大量唯一的词汇，这取决于应用程序。这会显著减慢搜索速度，并且您将在本文的后面看到，这通常是不必要的。事实上，许多地图应用程序将搜索与特定领域关联起来，因此储存关于特定区域的适当信息会生成更少的词汇，并且不对搜索结果产生很大的负面影响。这种在精确度上采取折衷的方法通常将纬度和经度封装到层中。您可以将每个层看作是地图的特定部分的缩放级别，比如位于美国中央上方的第 2 层几乎包含了整个北美，而第 19 层可能只是某户人家的后院。尤其是，每个层都将地图分成 2^{层 #} 的箱子或网格。然后给每个箱子分配一个号码并添加到文档索引中。我将在下一小节解释如何利用该信息加快搜索速度。

Lucene 词汇中的纬度和经度通常表示为两个不同的字段，但是这在一些应用程序中可能会影响性能。如果希望使用一个字段，那么可以使用 Geohash 编码方式将纬度/经度编码到一个 String 中（参见参考资料）。Geohash 的好处是能够通过切去散列码末尾的字符来实现任意的精度。在许多情况下，相邻的位置通常有相同的前缀。例如，在 geohash.org 中输入 Syracuse, NY 将生成散列码 dr9ughxjkrt4b，而输入 Syracuse 的郊区 Cicero, NY 生成散列码 dr9veggs4ptd3，它们的前缀都是 dr9。

到目前为止，我只是谈到几个单独的点，但是许多地理空间应用程序在图像、路线和数据中的其他关系方面都很有趣。Lucene 和 Solr 不具备这些功能；参见参考资料了解关于这些概念的更多信息。

回页首

在搜索中将空间数据与文本合并

一旦在索引中添加了数据之后，搜索应用程序在与数据交互时至少有 5 种基本要求：

距离计算：根据给定点计算它到其他点的距离。
限定框过滤器：查找某些特定区域内所有匹配项（文档）。
排序：根据到固定点的距离对搜索结果进行排序。
相关度改进：使用距离作为记录中的增强因素，同时允许其他因素发挥作用。
查询解析：在给出位置的地址或其他一些用户规定时，创建可用于根据索引数据进行搜索的编码表示。

这 5 个因素都可以在基于位置的应用程序中扮演重要的角色，但是我在这里主要关注距离计算、限定框过滤和查询解析。排序和相关度改进仅使用距离计算，我将在本文的后面介绍它们的实际应用。

距离计算

当计算用于 GIS 应用程序的距离时，一定要知道有许多不同的实现方法，并且每种方法都有其优缺点。距离计算可以划分成 3 个组，这取决于应用程序选择以什么方式对地球进行建模。在一些情况下，完全可以采用平面地球模型，通过牺牲一些精确性来获取速度。在平面地球模型中，大部分距离计算都是勾股定理的变体。在其他情况下使用球面模型，所使用的主要距离计算为大圆弧长（参见参考资料）。大圆弧长计算球面两点之间的最短距离。当两点之间的距离相隔很远和要求更高的准确度时，需要使用球面模型。最后，可以使用椭圆的地球模型和 Vincenty 公式（参见参考资料）来获取高度精确的距离（精确到 0.5 毫米），但是在许多应用程序中用不上这种复杂的模型。

差之毫厘，失之千里

在许多本地搜索应用程序中，精度的需求由应用程序本身决定。在某些情况下，偏离一公里问题并不大，而在另一些情况下，偏离几毫米就会导致严重的问题。例如，欧几里得距离计算对于跨度很长的距离（比如跨州）通常不够精确，即使是半正矢（大圆）方法也不足以为某些场合提供所需的精度，因为将地球建模成椭圆体比建模成球体更精确。对于这些情况，使用 Vincenty 公式将得到更加满意的结果。在其他应用程序中，唯一需要注意的事情是对结果的排序，因此可以使用 Squared Euclidean Distance（实际不是距离），从而避免平方根计算。

当然，其他距离计算也是有用的，比如曼哈顿距离，它反映在由街区组成的城市中行走的距离（例如在一辆出租车中穿越纽约城的曼哈顿）。但是为了实现本文的目的，我将使用平面地球模型和大圆弧长距离来演示距离，其他方法留给读者探索。此外，本文不将海拔作为影响因素，但是一些应用程序可能需要考虑海拔。要获取更多关于地理距离的信息，请参见参考资料。

限定框过滤器

在许多基于位置的应用程序中，可以搜索到数百万条地址信息。遍历所有这些数据来查找既包含关键字又在用户指定的距离之内的文档集将需要花费大量时间。一种合理的做法是先缩小文档集的范围然后再计算相关的子集。如果仅储存了纬度和经度信息，那么缩小文档集的首选方法是传入包含指定位置的周边区域的范围。这可以通过图 1 来表示，其中不完全透明的方框表示包含南卡罗来纳州的查尔斯顿（Charleston）市及其周边地区的限定框：

图 1. 位于 Charleston 中央上方的限定框

如果应用程序还使用层信息或 Geohash 信息，那么可以使用这些值来更好地缩小需要搜索的文档的范围。我将在讨论使用 Lucene 和 Solr 建立索引和搜索的细节时演示这点。

查询解析

查询解析的目的是确定查询的哪个部分包含所搜索的关键字，哪个部分包含位置信息。这个过程的后半部分称为地理编码（geocoding）（参见参考资料）。尽管我在这里在查询解析的上下文中讨论地理编码，它在索引期间也非常有用。请考虑下面的用户查询例子：

1600 Pennsylvania Ave. Washington, DC
1 Washington Av. Philadelphia Pennsylvania
Mall of America, 60 East Broadway Bloomington, MN 55425
Restaurants near Mall of America
Restaurants in the Mall of America

查看前两个查询可以发现一些有趣的东西：

词汇的顺序通常很重要，但是在纯文本搜索中，顺序可能不重要。
地名表和其他空间资源，比如 GeoNames（参见参考资料）可能在将地址转换成位置时非常有用。这些资源通常包含旅游景点的列表 —— 例如，白宫等标志性建筑。
规范化缩写，比如 Ave. 和 DC，或使用同义词来包含用户输入地址信息的各种变体非常重要。

剩余的查询将展示几个微妙的地方。例如，在第三个查询中，用户指定了完整的地址；如果您要搜索每个字段以获得名称、地址、城市和 ZIP，那么就必须正确地解析这些属性。在最后两个查询中，用户选择 near 还是 in 是非常重要的。与 Mall 的距离在一定范围内的所有饭店都符合第四个查询的用户，而最后一个查询的用户仅对在 Mall 内部的饭店感兴趣。查询解析可能相差甚远，因为描述与位置的关系很复杂，更何况还存在拼写错误、语言歧义和不良数据等。

虽然地理编码很复杂，但是可以使用服务来将地址转换成位置。两种常用的服务为 Google Maps 公共 API 和 GeoNames（参见参考资料）。不幸的是，使用这些 Web 服务必须遵循使用条款（通常带有某些限制）和网络流量。对于现实的生产系统，您最好自己实现这些功能。尽管实现这些功能超出了本文的范围，但一定要记住 GeoNames 数据和其他许多空间资源是可以完全免费下载的（参见参考资料）。有了好的资源之后，最好从基础开始积累（地址、城市和州），然后再添加旅游景点和健壮的异常处理。随着时间的推移，您的查询记录将能够创建健壮的查询解析器，足以应付用户的各种输入。不管是什么搜索应用程序，良好的猜测和请求用户证实猜测结果都是好实践，如图 2 的 Google Maps 截屏所示：

图 2. 在 Google Maps 上的良好猜测和请求用户证实猜测结果

对于本文，我将展示使用 GeoNames 服务并具有一些其他特性的基础查询解析器，但生成版本的解析器将留给用户实现。至此，您应该具备了足够的背景知识，可以进入主题了。本文后面的内容将关注如何使用 Lucene 和 Solr 为空间信息建立索引并搜索它们。

回页首

安装样例代码

要运行样例代码，您需要安装以下软件：

JDK 1.5 或更高版本
Ant 1.7 或更高版本
最新的 Web 浏览器，比如 Firefox

您还需要本文提供的样例代码（参见下载），它包含 Apache Solr 及其所依赖的软件。遵循以下步骤安装样例代码：

unzip sample.zip
cd geospatial-examples
ant install
启动 Solr： ant start-solr（以后要停止 Solr，运行 ant stop-solr）
在浏览器中访问 http://localhost:8983/solr/admin 并确认 Solr 正常运行。您应该看到一个带有查询框的基础管理员界面。

安装好 Solr 并正常运行之后，就可以在 Lucene 中开始处理空间数据了。运行安装步骤将下载一些来自 OSM 项目的样例代码，我在 http://people.apache.org/~gsingers/spatial/ 上介绍了该项目。对于本文，我包含了来自美国的 4 个位置的样例 OSM 数据（在文件中列出了到 OSM 的永久链接）：

Syracuse, N.Y.
Downtown Minneapolis, Minn.
Around the Mall of America in Bloomington, Minn.
Downtown Charleston, S.C.

为了演示本文介绍的许多概念，我编写代码来在 Solr 中为 OSM 建立索引，并将一些简单的事实与特定的位置相关联（例如，查看数据目录中的 syracuse.facts 文件）。这样做的目的是展示如何合并非结构化文本和空间数据，以创建高效的搜索应用程序。此外还要注意，我使用 Solr 1.5-dev 版本（Solr 的当前开发主干），而不是最近发布的 Solr 1.4。

回页首

在 Lucene 中为空间数据建立索引

Lucene 2.9 添加了两个在空间搜索方面起到重大作用的新特性。首先，Lucene 实现了更好的数字范围查询和过滤功能，它们通常用在限定框方法中。其次，Lucene 有一个新的贡献软件（contrib）模块，它包含以前称为 Local Lucene 的独立项目（参见参考资料）。（该代码位于 Lucene 的 contrib/spatial；我已经在样例代码中包含了 JAR 文件）。空间贡献软件为创建笛卡儿层和 Geohash 代码提供工具，并且为创建 Lucene 查询和过滤器对象提供工具。

在查看为数据建立索引的代码之前，您需要评估如何与数据交互以及您的应用程序需要处理多少数据，这非常重要。例如，对于大多数拥有少量或中等程度文档数量（少于 1000 万）的人而言，为纬度和经度创建索引和使用简单的数字范围查询可以得到优异的性能。但是对于数据量更大的应用程序，就需要做更多的工作（比如添加笛卡尔层）来减少词汇的数量和需要过滤和记录的文档。此外，考虑使用什么格式储存信息也很重要。许多空间距离算法要求采用以弧度表示的数据，而其他算法则要求使用以度表示的数据。因此在建立索引时将纬度/经度值转换成弧度是值得的，从而避免在每次搜索都执行转换。当然，如果您需要保留两种格式的数据，则意味着需要更多的空间（磁盘，甚至内存）。最后，您是不是对位置特性进行分类、排序和记录，而不是仅将它们用于过滤？如果是这样，那么将需要交替使用不同的表示。

因为本文仅演示概念而没有考虑生产使用，所以我将用一些 Java 代码在同一个地方显示如何为 Geohash、笛卡尔层创建索引。我已经在 Solr 模式中定义了许多值（模式的位置为 geospatial-examples/solr/conf/schema.xml）来捕捉 OSM 数据。清单 1 显示了用于表示位置的主要字段：

清单 1. 样例 Solr 模式

Lucene 和 Solr

尽管我使用 Solr 模式来展示需要建立索引的字段，这里的所有概念在 Lucene 中都是可用的。例如，Lucene 2.9.1 中的 tdouble 实际上就是精度为 8 的 NumericField。

我将纬度/经度值存储为 tdouble 字段。一个 tdouble 就是在内部使用 Trie 结构表示的一个 double。Lucene 可以使用它来大大减少在范围计算期间需要计算的词汇的数量，尽管实际上它向索引添加了更多词汇。我将 Geohash 储存为一个简单的 string（未分析）因为我仅需要它的精确匹配。严格而言，我进行的这些计算用不到海拔，但我将它储存为 tfloat，它是存储在 Trie 结构中的 float。最后，tier_* 动态字段允许应用程序动态地添加笛卡尔层字段，而不需要提前声明它们。至于索引过程捕捉的其他元数据字段，我将留给读者探索。

负责为数据创建索引的代码位于 sample.zip 的 source 树中。Driver 类是一个用于启动索引过程的命令行实用程序，但实际的索引过程发生在名为 OSMHandler 的实现的 SAX ContentHandler 部分。在 OSMHandler 代码内部，最关键的代码行是 startElement() 方法。我将它分成 3 个部分。第一个例子（见清单 2）以 double 的形式为纬度和经度建立索引，并将它们转换成可以索引的弧度：

清单 2. 纬度/经度的样例索引

				
//... current is a SolrInputDocument
double latitude = Double.parseDouble(attributes.getValue("lat"));
double longitude = Double.parseDouble(attributes.getValue("lon"));
current.addField("lat", latitude);
current.addField("lon", longitude);
current.addField("lat_rad", latitude * TO_RADS);
current.addField("lon_rad", longitude * TO_RADS);

为纬度/经度建立索引非常简单。接下来，我为纬度/经度对索引 Geohash 值，如清单 3 所示：

清单 3. 样例 Geohash 索引

				
//...
//See http://en.wikipedia.org/wiki/Geohash
String geoHash = GeoHashUtils.encode(latitude, longitude);
current.addField("geohash", geoHash);

在清单 3 的 Geohash 代码中，我使用随 Lucene 空间 contrib 包附带的 GeoHashUtils.encode()（有一个等效的 decode() 方法）方法将纬度/经度对转换成一个 Geohash 字符串，然后再把该字符串添加到 Solr。最后，为了添加笛卡尔层，我在 OSMHandler 代码中完成了两件事情：

我在构造器中创建 CartesianTierPlotter 类的 n 个实例，每个需要建立索引的层一个。

在 startElement() 方法中，我遍历所有 n 个描绘器，并为每个包含当前 OSM 元素的纬度和经度的每个网格元素获取标识符。该代码如清单 4 所示：

清单 4. 笛卡尔层的样例索引

						
//...
//Cartesian Tiers
int tier = START_TIER; //4
//Create a bunch of tiers, each deeper level has more precision
for (CartesianTierPlotter plotter : plotters)
   {current.addField("tier_" + tier, plotter.getTierBoxId(latitude, longitude));
tier++;
}

一般情况下，查询一次仅需搜索一个层，因此拥有多个层通常不会造成任何问题。您应该根据搜索所需的粒度来选择层数。如果您花时间查看剩余的索引代码，将看到我添加了许多与 OSM 文件中的数据点相关的其他元数据值。我现在仅为两种 OSM 数据类型建立索引：界点（node） 和路线（way）。界点是特定的纬度和经度上的一个点，而路线是所有在某种程度上相关的界点的集合，比如街道（参见参考资料中的 OSM Data Primitives 链接更多地了解 OSM 文件）。

什么是 CartesianTierPlotter？

CartesianTierPlotter 的工作是对地球进行投影（在我的例子中，我使用正弦曲线投影；参见参考资料）和纬度/经度信息，将其转换成层系统所使用的网格，并且给每个网格一个唯一的号码。在搜索时，应用程序就可以通过指定网格 ID 来限制搜索范围。

您已经了解创建包含空间信息的 Solr 文档的基础知识，接下来将进行实践。Driver 类接收数据和事实文件以及运行 Solr 的 URL，并将该工作转交给 OSM2Solr 类。OSM2Solr 类将使用 Solr 的 Java 客户端 SolrJ 来接收 OSMHandler SAX 解析器创建的文档，并将它们批量发送到 Solr 服务器。您可以在命令行运行 Driver 类，或者只需运行 ant index，让 Ant 完成运行驱动程序所需的工作。完成该步骤之后，在浏览器中访问 http://localhost:8983/solr/select/?q=*:* 并确认 Solr 找到 68,945 个文档。花些时间细读返回到结果，熟悉其中包含的内容。

处理 OSM 数据的方法非常多，我在这里仅介绍了一些，不过，我们应该讨论如何在应用程序中使用这些数据了。

回页首

根据位置进行搜索

在把数据添加到索引中之后，我们将重温使用数据的各种方式。我将演示如何根据索引中的空间信息对文档进行排序、增强和过滤。

与距离相关的计算

根据距离增强文档和对文档进行排序是许多空间应用程序的常见要求。为了实现该目的，Lucene 和 Solr 包含几个用于计算距离的功能（参见参考资料）。Lucene 包含根据大圆（Haversine）公式计算距离的工具（参见 DistanceUtils 和 DistanceFieldComparatorSource），而 Solr 包含几个用于计算距离的 FunctionQuery 函数：

大圆（Haversine 和 Geohash Haversine）
Euclidean 和 Squared Euclidean
Manhattan 和其他 p-norm

使用 Solr 的距离函数根据距离增强数据是非常容易的。我将关注 Solr 的函数查询，因为它们是最容易使用的并且不需要编程。可以在 Lucene 中轻松地使用它们，或者轻松地将它们移植到 Lucene。

如前所述，我设置了几个字段来储存 OSM 数据，包括 lat/lon、lat_rad/lon_rad 和 geohash。然后，我就可以搜索和增强这些值：

hsin（大圆）：http://localhost:8983/solr/select/?q=name:Minneapolis AND _val_:"recip(hsin(0.78, -1.6, lat_rad, lon_rad, 3963.205), 1, 1, 0)"^100
dist（Euclidean，Manhattan，p-norm）：http://localhost:8983/solr/select/?q=name:Minneapolis AND _val_:"recip(dist(2, lat, lon, 44.794, -93.2696), 1, 1, 0)"^100
sqedist（Squared Euclidean）：http://localhost:8983/solr/select/?q=name:Minneapolis AND _val_:"recip(sqedist(lat, lon, 44.794, -93.2696), 1, 1, 0)"^100
ghhdist（Geohash Haversine）：http://localhost:8983/solr/select/?q=_val_:"recip (ghhsin(geohash(44.79, -93), geohash, 3963.205), 1, 1, 0)"^100

对于以上每种情况，我将一个关键字查询与一个基于距离的 FunctionQuery 结合起来，生成一个包含关键字记录和距离记录的结果集。要查看这些部分的效果，请为每个查询添加一个 &debugQuery=true 并花些时间来检查 Solr 生成的解释。这些仅是它们的用例。要查看完整的签名和文档以及其他 FunctionQuery 函数，请参见参考资料。当然，您可以选择增强某些部分，或者根据您的需求进行更改。

至于根据距离进行排序，Solr 提供一个主要选项，这实际上是一个弥补方法，因为 Solr 没有根据函数进行排序的功能，也没有定义定制的 FieldType。不过，这种措施非常简单。如果要根据函数进行排序，需要像上面一样创建查询，但在关键字子句后面添加 0，如 q=name:Minneapolis^0 AND _val_:... 所示。这将导致关键字记录为 0（但仍然返回匹配的结果），并且函数值将是记录的唯一组成部分。从长远看，希望 Solr 添加 FieldType 来更好地支持排序，而不需清零主要查询。

完成了排序和记录之后，我们将探讨过滤。

过滤

为了使用 Solr 根据位置进行过滤，表 1 为应用程序的记录器提供了 3 种主要的机制来限制文档空间：

表 1. 过滤方法

过滤方法	说明	例子
范围	创建一个包含限定框的纬度/经度的范围过滤器。考虑到性能方面的原因，这种方法必须使用 Solr 的 `TrieField` (`NumericField`) 功能。	`http://localhost:8983/solr/ select/?q=:&fq=lon:[-80 TO -78]&fq=lat:[31 TO 33]`
笛卡尔层	根据给出的纬度/经度和距离识别中心点周围的网格，并且仅将搜索结果限制在包含这些网格的文档上。查看什么是 `QParserPlugin?` 了解更多关于源代码实现的信息。	`http://localhost:8983/solr/ select/?q=:&fq={!tier x=32 y=-79 dist=50 prefix=tier_}`
距离	使用 Solr 的 `frange`（函数范围）`QParserPlugin` 功能和一个距离函数（见上面的与距离相关的计算）决定点之间的距离并限制文档空间。	`http://localhost:8983/solr/ select/?q=:&fq={!frange l=0 u=400}hsin(0.57, -1.3, lat_rad, lon_rad, 3963.205)`

关于密度的简要说明

特定范围的点密度在用户的搜索体验方面扮演着重要的角色。例如，为纽约的曼哈顿提供商业搜索的应用程序的点密度比为明尼苏达州的布法罗提供搜索的应用程序的点密度大（参见参考资料）。事实上，将该信息包含到过滤函数中是非常有用的，这让应用程序能够挑选一个最合适的距离，从而确保搜索结果是良好的。不过，演示如何实现该过程超出了本文的讨论范围。

哪种方法适合您呢？这取决于点的密度（参见关于密度的简要说明），但是我们建议首先采用简单的范围方法，然后在需要的时候提升到层方法。关键因素是每次计算范围时需要计算的词汇数量，因为这个数量直接控制 Lucene 需要做多少工作来限制结果集。

一个简单的 geonames.org 查询解析器

为空间应用程序构建功能齐全的查询解析器超出了本文的范围，反之，我将构建一个简单的 QParserPlugin ，它将负责从来自 GeoNames 的位置信息获取结果。这个解析器假设应用程序能够提前将用户输入分成两部分：关键字查询和空间查询。事实上，许多本地查询应用程序都要求用户通过两个输入框输入信息。

什么是 QParserPlugin？

QParserPlugin 是 Solr 对查询解析器插件模块的称呼。和许多 Solr 部分一样，查询解析器实现也是可插拔的。对于本文，我使用 3 中不同的查询解析器插件，其中一个是随 Solr 附带的（ FunctionRangeQParserPlugin ({!frange})），有两个是我自己编写的：CartesianTierQParserPlugin ({!tier}) 和 GeonamesQParserPlugin。这两个插件的源代码位于样例代码下载的 src 树中。这两个插件已经使用 solrconfig.xml 文件在 Solr 中进行了配置：在查询中通过指定 {!parserName [parameters]}[query]（参数和查询可能是可选的）来调用 QParserPlugin，就像在 {!tier x=32 y=-79 dist=50 prefix=tier_} 和 {!frange l=0 u=400}hsin(0.57, -1.3, lat_rad, lon_rad, 3963.205) 中一样。

解析器可以接受以下几个参数：

topo：toponym 的缩写（参见 GeoNames 文档）。在 GeoNames 中搜索的位置。必需。
rows：从 GeoNames 获取到的行数。可选。默认值为 1。
start：从其开始的结果。默认值为 0。
lat：在 FunctionQuery 中用作 ValueSource 的纬度字段名。如果指定了它，必须也设置 lon。
lon：在 FunctionQuery 中用作 ValueSource 的经度字段名。如果指定了它，必须也设置 lat。
gh：在 FunctionQuery 中用作 ValueSource 的 Geohash 字段名。如果指定了它，就不能设置 lat/lon。
dist：需要使用的距离函数。String。[hsin, 0-Integer.MAX_VALUE, ghhsin] 之一。如果指定了一个 geohash 字段，那么将忽略该字段。ghhsin 是自动的。2-norm (Euclidean) 的默认值为 2。
unit - KM|M：需要使用的单位，KM 表示公制，M 表示英制。默认值为 M。
boost - float：增强函数查询的量。默认值为 1。

这个例子的代码包含在样例代码下载的 GeonamesQParserPlugin.java 文件中。（下载中包含的 Solr 版本中的 Solr 服务器已经配置好）。调用它与调用上面的 CartesianTierQParserPlugin 类似。例如，要在索引中搜索明尼苏达州 Bloomington 附近的购物中心，我将使用 http://localhost:8983/solr/select/?q=text:mall AND _query_:"{!geo topo='Bloomington, MN' lat=lat_rad lon=lon_rad dist=hsin}"。

通过采用 QParserPlugin 方法，我能够关注对我而言非常重要的语法，而且在位置方面仍然允许继续使用所有基于文本的查询解析功能。

从现在开始，可以大大地扩展 GeonamesQParserPlugin，将其与邮政编码和许多其他位置规范一起使用。当然，它还需要更多的错误处理，并且很可能需要转换为使用 GeoNames 数据集（参见参考资料），从而使其不依赖于 Web 服务。Solr 在为问题跟踪器获取更多的空间查询解析器支持方面还存在开源问题（参见参考资料）。

回页首

结束语

至此，我已经演示了 Lucene 和 Solr 根据基于点的位置模型搜索、排序和过滤文本文档的功能。接下来，将要实现一个真实的位置搜索应用程序来处理用户查询和呈现搜索结果。部分关于应用程序的伸缩性的问题可以从创建限定框过滤器时需要计算的词汇量找到答案。除了关于伸缩性的过滤器问题之外，还需要考虑其他与搜索相关的因素，比如是分发索引还是仅复制索引。请参见 Lucene 和 Solr 参考资料。

如果您对构建更加高级的 GIS 应用程序感兴趣，您将需要为路线查找、形状交叉等添加更加复杂的功能。如果您需要构建一个可靠搜索应用程序，用于合并基于点的位置的结构和非结构化文本，那么关注 Lucene 和 Solr 就足够了。

致谢

本文作者对 Lucene/Solr 的提交者 Ryan McKinley 和 Yonik Seeley 为本文提供独到见解并审阅本文表示感谢！

回页首

下载

描述	名字	大小	下载方法
关于空间的例子	j-spatial.zip	52.4 MB	HTTP

关于下载方法的信息

参考资料

学习

Lucene 和 Solr：
- Apache Lucene：更多地了解 Lucene。
- Apache Lucene on developerWorks：在这些文章中探索 Lucene。
- Lucene In Action ，第二版（Erik Hatcher、Otis Gospodnetic 和 Michael McCandless，Manning 出版社，2008 年）：通过阅读这本书详细了解 Lucene。
- Apache Solr：更多地了解 Solr。
- Apache Solr on developerWorks：在这些文章中探索 Solr。
- Solr 1.4 Enterprise Search Server （David Smiley 和 Eric Pugh，Packt Publishing，2009 年）：阅读关于 Solr 的第一本书。
- “Faceting in Solr 1.4 Enterprise Search Server”（David Smiley，Packt Publishing，2009 年 8 月）：更多地了解 Solr 中的分类。
- FunctionQuery in the Solr Wiki：查看 Solr 的所有 FunctionQuery 功能。
- SOLR-1578：了解 Solr 如何致力于添加空间查询解析器。
- Local Lucene：了解 Lucene 的空间 contrib 模块的前身。
- 采访 Patrick O'Leary，Ryan McKinley 和 Uwe Schindler：收听 Grant Ingersoll 与 Local Lucene 的创建者 O'Leary，Solr 的提交者 McKinley 和 Lucene 的提交者 Schindler 关于地理空间搜索的对话。
Geography 和 GIS：
- Geographic information system：访问这个 Wikipedia 页面了解关于 GIS 的入门信息。
- Spatial reference (Map projection)，Geodetic system 和 World Geodetic System：查看关于这些主题的 Wikipedia 文章。
- Latitude 和 Longitude：阅读 Wikipedia 关于纬度和经度的解析。
- Geographical distance：从 Wikipedia 了解更多关于计算地理距离的信息，包括 great-circle distance 计算。
- Geohash：Wikipedia 解释什么是 Geohash 以及如何使用它。
- OpenStreetMap：访问 OSM 站点并获得更多关于空间的数据。查看 OSM Wiki's Map Features 列表，并了解 OSM Data Primitives。
- Manhattan distance：阅读 NIST 上关于曼哈顿距离的定义。
- Minimum bounding box：在 Wikipedia 上了解限定框。
- The World Factbook：浏览 CIA World Factbook。
- Sinusoidal projection：Wikipedia 解释这种地图投影的用途。
L^p space and p-norms：在 Wikipedia 上查看关于这些数学概念的页面。
公共地理编码服务：
- Google Maps
- GeoNames
“Over the River and Through the Woods”：了解 Lydia Maria 童谣的所有歌词。
访问：
- Buffalo, Minn.
- New York, N.Y.
“Apache Lucene 快速入门指南”（developerWorks，2007 年 11 月）：在本教程中，您将了解如何使用 Apache Solr 并将它与 Web 应用程序集成在一起。
“Apache Solr 的新特性”（developerWorks，2008 年 11 月）：在本文中，Solr 和 Lucene 的负责人 Grant Ingersoll 详细介绍了 Solr 1.3 的新改进，包括分布式搜索、轻松数据库导入、集成拼写检查和新的扩展 API 等等。
浏览技术书店，阅读有关这些主题和其他技术主题的图书。
developerWorks Java 技术专区：在这里可以找到数百篇关于 Java 编程的各个方面的文章。

获得产品和技术

Java client for GeoNames Webservices：下载用于访问 geonames.org Web 服务 API 的 Java 客户端。
GeoNames data：下载完整的 GeoNames 数据集。

你可能感兴趣的:(JAVA)

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
JavaScript `Map` 和 `WeakMap`详细解释跳房子的前端 JavaScript 原生方法 javascript 前端开发语言
在JavaScript中，Map和WeakMap都是用于存储键值对的数据结构，但它们有一些关键的不同之处。MapMap是一种可以存储任意类型的键值对的集合。它保持了键值对的插入顺序，并且可以通过键快速查找对应的值。Map提供了一些非常有用的方法和属性来操作这些数据对：set(key,value):将一个键值对添加到Map中。如果键已经存在，则更新其对应的值。get(key):获取指定键的值。如果键
切换淘宝最新npm镜像源是 hai40587 npm 前端 node.js
切换淘宝最新npm镜像源是一个相对简单的过程，但首先需要明确当前淘宝npm镜像源的状态和最新的镜像地址。由于网络环境和服务更新，镜像源的具体地址可能会发生变化，因此，我将基于当前可获取的信息，提供一个通用的切换步骤，并附上最新的镜像地址（截至回答时）。一、了解npm镜像源npm（NodePackageManager）是JavaScript的包管理器，用于安装、更新和管理项目依赖。由于npm官方仓库
【Java】已解决：java.util.concurrent.CompletionException 屿小夏 java 开发语言
文章目录一、分析问题背景出现问题的场景代码片段二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：java.util.concurrent.CompletionException一、分析问题背景在Java并发编程中，java.util.concurrent.CompletionException是一种常见的运行时异常，通常在使用CompletableFuture进行异步计算时出现
设计模式之建造者模式(通俗易懂--代码辅助理解【Java版】） ok!ko 设计模式设计模式建造者模式 java
文章目录设计模式概述1、建造者模式2、建造者模式使用场景3、优点4、缺点5、主要角色6、代码示例：1）实现要求2）UML图3)实现步骤：1）创建一个表示食物条目和食物包装的接口2）创建实现Packing接口的实体类3）创建实现Item接口的抽象类，该类提供了默认的功能4）创建扩展了Burger和ColdDrink的实体类5）创建一个Meal类，带有上面定义的Item对象6）创建一个MealBuil
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟