swpihchj

solr+tomcat例子

Solr开发文档

Solr 是一种可供企业使用的、基于 Lucene 的搜索服务器，它支持层面搜索、命中醒目显示和多种输出格式。在这篇文章中，将介绍 Solr 并展示如何轻松地将其表现优异的全文本搜索功能加入到 Web 应用程序中。

开发环境：

System：Windows

WebBrowser：IE6+、Firefox3+

JDK：1.6+

JavaEE Server：tomcat5.0.2.8、tomcat6

IDE：eclipse、MyEclipse 8

开发依赖库：

JavaEE 5、solr 3.4

个人博客：

http://hoojo.cnblogs.com

http://blog.csdn.net/IBM_hoojo

email: [email protected]

一、配置和安装solr

1、首先去apache官方网站下载solr，下载地址

http://labs.renren.com/apache-mirror//lucene/solr/3.4.0/

目前最新的是3.4的版本

2、下载后解压目录如下

client是一个ruby实现的示例，这个我们暂时不管

contrib有一些功能模块是需要的jar包

dist是打包发布好的工程war包

docs是帮助文档

example是示例，里面有打包部署好的solr工程示例和servlet容器jetty。如果你没有tomcat可以直接使用Jetty服务器部署你的solr示例。

3、发布、部署solr示例

A、利用自带的Jetty服务器

首先在dos命令中进入到下载好的solr解压的目录apache-solr-3.4.0的example目录

cd E:\JAR\solr\apache-solr-3.4.0\example

然后利用java命令，启动jetty服务器。Java –jar start.jar

启动Jetty成功后，如果没有看到错误消息，你可以看到端口信息。

如果你的端口冲突了，你可以到解压的solr示例包的example/etc的jetty.xml中，修改端口port信息。

B、利用tomcat发布solr示例

将下载的solr解压后，进入apache-solr-3.4.0\dist目录，将里面的solr.war放到D:\tomcat-6.0.28\webapps目录下，启动tomcat会自动解压。（当然，你也可以手动解压放到wabapps目录下）

当然你也可以设置context指向你的solr工程，在D:\tomcat-6.0.28\conf\Catalina\localhost目录加入solr.xml配置，配置如下：

<Context docBase="D:\solr.war" debug="0" crossContext="true" >

    <Environment name="solr/home" type="java.lang.String" value="D:\solr" override="true" />

Context>

上面的2步都是一样的，这样还没有完。启动后你可能会看到如下错误：

我们需要将一些配置和index库文件也放到解压好的solr工程下。我们到解压的apache-solr-3.4.0\example\solr目录下，将里面的conf和data目录copy到刚才我们部署的D:\tomcat-6.0.28\webapps\solr工程目录下。或是copy到你的solr.xml中的context指定的路径下工程目录中。

重启tomcat就ok了。

4、这个时候你就可以访问http://localhost:8983/solr/admin/你就可以看到如下界面：

在Query String中输入solr，点击Search就可以查询到相应的结果，结果以xml形式返回。当然你也可以设置返回数据类型为json。

xml version="1.0" encoding="UTF-8"?>

<response>

<lst name="responseHeader">

  <int name="status">0int>

  <int name="QTime">0int>

  <lst name="params">

    <str name="indent">onstr>

    <str name="start">0str>

    <str name="q">solrstr>

    <str name="version">2.2str>

    <str name="rows">10str>

  lst>

lst>

<result name="response" numFound="1" start="0">

  <doc>

    <arr name="cat"><str>softwarestr><str>searchstr>arr>

    <arr name="features"><str>Advanced Full-Text Search Capabilities using Lucenestr><str>Optimized for High Volume Web Trafficstr><str>Standards Based Open Interfaces - XML and HTTPstr>

      <str>Comprehensive HTML Administration Interfacesstr><str>Scalability - Efficient Replication to other Solr Search Serversstr><str>Flexible and Adaptable with XML configuration and Schemastr><str>Good unicode support: h¨¦llo (hello with an accent over the e)str>arr>

    <str name="id">SOLR1000str>

    <bool name="inStock">truebool>

    <date name="incubationdate_dt">2006-01-17T00:00:00Zdate>

    <str name="manu">Apache Software Foundationstr>

    <str name="name">Solr, the Enterprise Search Serverstr>

    <int name="popularity">10int>

    <float name="price">0.0float>

  doc>

result>

response>

二、Solr理论

1、 solr基础

因为 Solr 包装并扩展了 Lucene，所以它们使用很多相同的术语。更重要的是，Solr 创建的索引与 Lucene 搜索引擎库完全兼容。通过对 Solr 进行适当的配置，某些情况下可能需要进行编码，Solr 可以阅读和使用构建到其他 Lucene 应用程序中的索引。

在 Solr 和 Lucene 中，使用一个或多个 Document 来构建索引。Document 包括一个或多个 Field。Field 包括名称、内容以及告诉 Solr 如何处理内容的元数据。例如，Field 可以包含字符串、数字、布尔值或者日期，也可以包含你想添加的任何类型，只需用在solr的配置文件中进行相应的配置即可。Field 可以使用大量的选项来描述，这些选项告诉 Solr 在索引和搜索期间如何处理内容。现在，查看一下表 1 中列出的重要属性的子集：

属性名称	描述
Indexed	Indexed Field 可以进行搜索和排序。你还可以在 indexed Field 上运行 Solr 分析过程，此过程可修改内容以改进或更改结果。
Stored	stored Field 内容保存在索引中。这对于检索和醒目显示内容很有用，但对于实际搜索则不是必需的。例如，很多应用程序存储指向内容位置的指针而不是存储实际的文件内容。

2、 solr索引操作

在 Solr 中，通过向部署在 servlet 容器中的 Solr Web 应用程序发送 HTTP 请求来启动索引和搜索。Solr 接受请求，确定要使用的适当 SolrRequestHandler，然后处理请求。通过 HTTP 以同样的方式返回响应。默认配置返回 Solr 的标准 XML 响应。你也可以配置 Solr 的备用响应格式，如json、csv格式的文本。

索引就是接受输入元数据（数据格式在schema.xml中进行配置）并将它们传递给 Solr，从而在 HTTP Post XML 消息中进行索引的过程。你可以向 Solr 索引 servlet 传递四个不同的索引请求：

add/update 允许您向 Solr 添加文档或更新文档。直到提交后才能搜索到这些添加和更新。

commit 告诉 Solr，应该使上次提交以来所做的所有更改都可以搜索到。

optimize 重构 Lucene 的文件以改进搜索性能。索引完成后执行一下优化通常比较好。如果更新比较频繁，则应该在使用率较低的时候安排优化。一个索引无需优化也可以正常地运行。优化是一个耗时较多的过程。

delete 可以通过 id 或查询来指定。按 id 删除将删除具有指定 id 的文档；按查询删除将删除查询返回的所有文档。

Lucene中操作索引也有这几个步骤，但是没有更新。Lucene更新是先删除，然后添加索引。因为更新索引在一定情况下，效率没有先删除后添加的效率好。

3、搜索

添加文档后，就可以搜索这些文档了。Solr 接受 HTTP GET 和 HTTP POST 查询消息。收到的查询由相应的 SolrRequestHandler 进行处理。

solr查询参数描述：

参数	描述	示例
q	Solr 中用来搜索的查询。有关该语法的完整描述，请参阅参考资料。可以通过追加一个分号和已索引且未进行断词的字段（下面会进行解释）的名称来包含排序信息。默认的排序是 score desc，指按记分降序排序。	q=myField:Java AND otherField:developerWorks; date asc 此查询搜索指定的两个字段，并根据一个日期字段对结果进行排序。
start	将初始偏移量指定到结果集中。可用于对结果进行分页。默认值为 0。	start=15 返回从第 15 个结果开始的结果。
rows	返回文档的最大数目。默认值为 10。	rows=25，返回25个结果集
fq	提供一个可选的筛选器查询。查询结果被限制为仅搜索筛选器查询返回的结果。筛选过的查询由 Solr 进行缓存。它们对提高复杂查询的速度非常有用。	任何可以用 q 参数传递的有效查询，排序信息除外。
hl	当 hl=true 时，在查询响应中醒目显示片段。默认为 false。参看醒目显示参数（见参考资料）。	hl=true
fl	作为逗号分隔的列表指定文档结果中应返回的 Field 集。默认为 “*”，指所有的字段。“score” 指还应返回记分。	*,score
sort	排序，对查询结果进行排序，参考	sort=date asc,price desc

4、 solr模式

上面有提到schema.xml这个配置，这个配置可以在你下载solr包的安装解压目录的apache-solr-3.4.0\example\solr\conf中找到，它就是solr模式关联的文件。打开这个配置文件，你会发现有详细的注释。

模式组织主要分为三个重要配置

types 部分是一些常见的可重用定义，定义了 Solr（和 Lucene）如何处理 Field。也就是添加到索引中的xml文件属性中的类型，如int、text、date等

fileds是你添加到索引文件中出现的属性名称，而声明类型就需要用到上面的types

其他配置有

uniqueKey 唯一键，这里配置的是上面出现的fileds，一般是id、url等不重复的。在更新、删除的时候可以用到。

defaultSearchField默认搜索属性，如q=solr就是默认的搜索那个字段

solrQueryParser查询转换模式，是并且还是或者（and/or）

schema配置类型

<fieldType name="text" class="solr.TextField" positionIncrementGap="100">

    <analyzer type="index">

        <tokenizer class="solr.WhitespaceTokenizerFactory" />

        <filter class="solr.StopFilterFactory" ignoreCase="true"

            words="stopwords.txt" />

        <filter class="solr.WordDelimiterFilterFactory"

            generateWordParts="1" generateNumberParts="1" catenateWords="1"

            catenateNumbers="1" catenateAll="0" />

        <filter class="solr.LowerCaseFilterFactory" />

        <filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />

        <filter class="solr.RemoveDuplicatesTokenFilterFactory" />

    analyzer>

    <analyzer type="query">

        <tokenizer class="solr.WhitespaceTokenizerFactory" />

        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt"

            ignoreCase="true" expand="true" />

        <filter class="solr.StopFilterFactory" ignoreCase="true"

            words="stopwords.txt" />

        <filter class="solr.WordDelimiterFilterFactory"

            generateWordParts="1" generateNumberParts="1" catenateWords="0"

            catenateNumbers="0" catenateAll="0" />

        <filter class="solr.LowerCaseFilterFactory" />

        <filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />

        <filter class="solr.RemoveDuplicatesTokenFilterFactory" />

    analyzer>

fieldType>

上面就是一个type了，然后你在fields配置field的时候就可以用这个type。

首先，上面的fieldType的配置中有两个analyzer，它是分词器。主要把我们的数据进行分割成一个个的词语。词干提取、停止词删除以及相似的操作都被应用于标记，然后才进行索引和搜索，导致使用相同类型的标记。

上面的应用程序的 Solr 的fieldType配置按以下步骤进行设置：

Ø 根据空白进行断词，然后删除所有的公共词（StopFilterFactory）

Ø 使用破折号处理特殊的大小写、大小写转换等等。（WordDelimiterFilterFactory）；将所有条目处理为小写（LowerCaseFilterFactory）

Ø 使用 Porter Stemming 算法进行词干提取（EnglishPorterFilterFactory）

Ø 删除所有的副本（RemoveDuplicatesTokenFilterFactory）

Schema属性、字段

<field name="id" type="string" indexed="true" stored="true"

    required="true" />

<field name="sku" type="text_en_splitting_tight" indexed="true"

    stored="true" omitNorms="true" />

<field name="name" type="text_general" indexed="true" stored="true" />

<field name="alphaNameSort" type="alphaOnlySort" indexed="true"

    stored="false" />

<field name="manu" type="text_general" indexed="true" stored="true"

    omitNorms="true" />

<field name="cat" type="string" indexed="true" stored="true"

    multiValued="true" />

<field name="features" type="text_general" indexed="true" stored="true"

    multiValued="true" />

<field name="includes" type="text_general" indexed="true" stored="true"

    termVectors="true" termPositions="true" termOffsets="true" />

属性是在添加索引、查询的时候必须的配置，如果你不加这些配置。是无法完成索引的创建的。

首先id属性是未经分析的字符串类型，是可以索引、存储的，并且是唯一的。

sku是一个经过分词器分析出来的英文切割的类型字符，可以索引、存储、不要存储规范

multiValued 属性是一个特殊的例子，指 Document 可以拥有一个相同名称添加了多次的 Field。

omitNorms 属性告诉 Solr（和 Lucene）不要存储规范。

介绍一下字段声明下方的声明。动态字段是一些特殊类型的字段，可以在任何时候将这些字段添加到任何文档中，由字段声明定义它们的属性。动态字段和普通字段之间的关键区别在于前者不需要在 schema.xml 中提前声明名称。Solr 将名称声明中的 glob-like 模式应用到所有尚未声明的引入的字段名称，并根据其声明定义的语义来处理字段。例如，指一个 myRating_i 字段被 Solr 处理为 sint，尽管并未将其声明为字段。这种处理比较方便，例如，当需要用户定义待搜索内容的时候。

5、索引配置

Solr 性能因素，来了解与各种更改相关的性能权衡。

表 1 概括了可控制 Solr 索引处理的各种因素：

因素	描述
useCompoundFile	通过将很多 Lucene 内部文件整合到单一一个文件来减少使用中的文件的数量。这可有助于减少 Solr 使用的文件句柄数目，代价是降低了性能。除非是应用程序用完了文件句柄，否则 false 的默认值应该就已经足够。
mergeFactor	决定低水平的 Lucene 段被合并的频率。较小的值（最小为 2）使用的内存较少但导致的索引时间也更慢。较大的值可使索引时间变快但会牺牲较多的内存。
maxBufferedDocs	在合并内存中文档和创建新段之前，定义所需索引的最小文档数。段是用来存储索引信息的 Lucene 文件。较大的值可使索引时间变快但会牺牲较多的内存。
maxMergeDocs	控制可由 Solr 合并的 Document 的最大数。较小的值 (< 10,000) 最适合于具有大量更新的应用程序。
maxFieldLength	对于给定的 Document，控制可添加到 Field 的最大条目数，进而截断该文档。如果文档可能会很大，就需要增加这个数值。然而，若将这个值设置得过高会导致内存不足错误。
unlockOnStartup	unlockOnStartup 告知 Solr 忽略在多线程环境中用来保护索引的锁定机制。在某些情况下，索引可能会由于不正确的关机或其他错误而一直处于锁定，这就妨碍了添加和更新。将其设置为 true 可以禁用启动锁定，进而允许进行添加和更新。

6、查询处理配置

标记定义了可组合在一起形成一个查询的子句数量的上限。对于大多数应用程序而言，默认的 1024 就应该已经足够；然而，如果应用程序大量使用了通配符或范围查询，增加这个限值将能避免当值超出时，抛出 TooManyClausesException。

若应用程序预期只会检索 Document 上少数几个 Field，那么可以将属性设置为 true。懒散加载的一个常见场景大都发生在应用程序返回和显示一系列搜索结果的时候，用户常常会单击其中的一个来查看存储在此索引中的原始文档。初始的显示常常只需要显示很短的一段信息。若考虑到检索大型 Document 的代价，除非必需，否则就应该避免加载整个文档。

部分负责定义与在 Solr 中发生的事件相关的几个选项。Searcher 的 Java 类来处理 Query 实例。要改进这一设计和显著提高性能，把这些新的 Searcher 联机以便为现场用户提供查询服务之前，先对它们进行 “热身”。部分中的选项定义 newSearcher 和 firstSearcher 事件，您可以使用这些事件来指定实例化新搜索程序或第一个搜索程序时应该执行哪些查询。如果应用程序期望请求某些特定的查询，那么在创建新搜索程序或第一个搜索程序时就应该反注释这些部分并执行适当的查询。

solrconfig.xml 文件的剩余部分，除之外，涵盖了与缓存、复制和扩展或定制 Solr 有关的项目。admin 部分让您可以定制管理界面。有关配置 admin 节的更多信息，请参看solrconfig.xml 文件中的注释。

7、监视、记录和统计数据

用于监视、记录和统计数据的 Solr 管理选项

菜单名	URL	描述
Statistics	http://localhost:8080/solr/admin/stats.jsp	Statistics 管理页提供了与 Solr 性能相关的很多有用的统计数据。这些数据包括：关于何时加载索引以及索引中有多少文档的信息。关于用来服务查询的 SolrRequestHandler 的有用信息。涵盖索引过程的数据，包括添加、删除、提交等的数量。缓存实现和 hit/miss/eviction 信息
Info	http://localhost:8080/solr/admin/registry.jsp	有关正在运行的 Solr 的版本以及在当前实现中进行查询、更新和缓存所使用的类的详细信息。此外，还包括文件存于 Solr subversion 存储库的何处的信息以及对该文件功能的一个简要描述。
Distribution	http://localhost:8080/solr/admin/distributiondump.jsp	显示与索引发布和复制有关的信息。更多信息，请参见 “发布和复制” 一节。
Ping	http://localhost:8080/solr/admin/ping	向服务器发出 ping 请求，包括在 solrconfig.xml 文件的 admin 部分定义的请求。
Logging	http://localhost:8080/solr/admin/logging.jsp	让您可以动态更改当前应用程序的日志记录等级。更改日志记录等级对于调试在执行过程中可能出现的问题非常有用。
properties	http: //localhost:8080/solr/admin/get-properties.jsp	显示当前系统正在使用的所有 Java 系统属性。Solr 支持通过命令行的系统属性替换。有关实现此特性的更多信息，请参见 solrconfig.xml 文件。
Thread dump	http://localhost:8080/solr/admin/threaddump.jsp	thread dump 选项显示了在 JVM 中运行的所有线程的堆栈跟踪信息。

8、智能缓存

智能缓存是让 Solr 得以成为引人瞩目的搜索服务器的一个关键性能特征。Solr 提供了四种不同的缓存类型，所有四种类型都可在 solrconfig.xml 的部分中配置。solrconfig.xml 文件中所用的标记名列出了这些缓存类型：

缓存标记名	描述	能否自热
filterCache	通过存储一个匹配给定查询的文档 id 的无序集，过滤器让 Solr 能够有效提高查询的性能。缓存这些过滤器意味着对 Solr 的重复调用可以导致结果集的快速查找。更常见的场景是缓存一个过滤器，然后再发起后续的精炼查询，这种查询能使用过滤器来限制要搜索的文档数。	可以
queryResultCache	为查询、排序条件和所请求文档的数量缓存文档 id 的有序集合。	可以
documentCache	缓存 Lucene Document，使用内部 Lucene 文档 id（以便不与 Solr 惟一 id 相混淆）。由于 Lucene 的内部 Document id 可以因索引操作而更改，这种缓存不能自热。	不可以
Named caches	命名缓存是用户定义的缓存，可被 Solr 定制插件所使用。	可以，如果实现了 org.apache.solr.search.CacheRegenerator 的话。

每个缓存声明都接受最多四个属性：

class 是缓存实现的 Java 名。

size 是最大的条目数。

initialSize 是缓存的初始大小。

autoWarmCount 是取自旧缓存以预热新缓存的条目数。如果条目很多，就意味着缓存的 hit 会更多，只不过需要花更长的预热时间。

三、利用SolrJ操作solr API，完成index操作

使用SolrJ操作Solr会比利用httpClient来操作Solr要简单。SolrJ是封装了httpClient方法，来操作solr的API的。SolrJ底层还是通过使用httpClient中的方法来完成Solr的操作。

1、首先，你需要添加如下jar包

其中apache-solr-solrj-3.4.0.jar、slf4j-api-1.6.1.jar可以在下载的apache-solr-3.4.0的压缩包中的dist中能找到。

2、其次，建立一个简单的测试类，完成Server对象的相关方法的测试工作，代码如下：

package com.hoo.test;

import java.io.IOException;

import java.net.MalformedURLException;

import java.util.ArrayList;

import java.util.Collection;

import java.util.List;

import org.apache.solr.client.solrj.SolrQuery;

import org.apache.solr.client.solrj.SolrServer;

import org.apache.solr.client.solrj.SolrServerException;

import org.apache.solr.client.solrj.impl.CommonsHttpSolrServer;

import org.apache.solr.client.solrj.response.QueryResponse;

import org.apache.solr.client.solrj.response.UpdateResponse;

import org.apache.solr.common.SolrDocumentList;

import org.apache.solr.common.SolrInputDocument;

import org.apache.solr.common.params.ModifiableSolrParams;

import org.apache.solr.common.params.SolrParams;

import org.junit.After;

import org.junit.Before;

import org.junit.Test;

import com.hoo.entity.Index;

/**

 * function: Server TestCase

 * @author hoojo

 * @createDate 2011-10-19 下午01:49:07

 * @file ServerTest.java

 * @package com.hoo.test

 * @project SolrExample

 * @blog http://blog.csdn.net/IBM_hoojo

 * @email [email protected]

 * @version 1.0

*/

public class ServerTest {

    private SolrServer server;

    private CommonsHttpSolrServer httpServer;

    private static final String DEFAULT_URL = "http://localhost:8983/solr/";

    @Before

    public void init() {

        try {

            server = new CommonsHttpSolrServer(DEFAULT_URL);

            httpServer = new CommonsHttpSolrServer(DEFAULT_URL);

        } catch (MalformedURLException e) {

            e.printStackTrace();

    @After

    public void destory() {

        server = null;

        httpServer = null;

        System.runFinalization();

        System.gc();

    public final void fail(Object o) {

        System.out.println(o);

/**

     * function: 测试是否创建server对象成功

     * @author hoojo

     * @createDate 2011-10-21 上午09:48:18

*/

    @Test

    public void server() {

        fail(server);

        fail(httpServer);

/**

     * function: 根据query参数查询索引

     * @author hoojo

     * @createDate 2011-10-21 上午10:06:39

     * @param query

*/

    public void query(String query) {

        SolrParams params = new SolrQuery(query);

        try {

            QueryResponse response = server.query(params);

            SolrDocumentList list = response.getResults();

            for (int i = 0; i < list.size(); i++) {

                fail(list.get(i));

        } catch (SolrServerException e) {

            e.printStackTrace();

测试运行server case方法，如果成功创建对象，那你就成功的链接到。

注意：在运行本方法之前，请启动你的solr官方自动的项目。http://localhost:8983/solr/保证能够成功访问这个工程。因为接下来的所有工作都是围绕这个solr工程完成的。如果你现在还不知道，怎么部署、发布官方solr工程，请参考前面的具体章节。

3、 Server的有关配置选项参数，server是CommonsHttpSolrServer的实例

server.setSoTimeout(1000); // socket read timeout

server.setConnectionTimeout(100);

server.setDefaultMaxConnectionsPerHost(100);

server.setMaxTotalConnections(100);

server.setFollowRedirects(false); // defaults to false

// allowCompression defaults to false.

// Server side must support gzip or deflate for this to have any effect.

server.setAllowCompression(true);

server.setMaxRetries(1); // defaults to 0.  > 1 not recommended.

//sorlr J 目前使用二进制的格式作为默认的格式。对于solr1.2的用户通过显示的设置才能使用XML格式。

server.setParser(new XMLResponseParser());

//二进制流输出格式

//server.setRequestWriter(new BinaryRequestWriter());

4、利用SolrJ完成Index Document的添加操作

/**

 * function: 添加doc文档

 * @author hoojo

 * @createDate 2011-10-21 上午09:49:10

*/

@Test

public void addDoc() {

    //创建doc文档

     SolrInputDocument doc = new SolrInputDocument();

    doc.addField("id", 1);

    doc.addField("name", "Solr Input Document");

    doc.addField("manu", "this is SolrInputDocument content");

    try {

        //添加一个doc文档

        UpdateResponse response = server.add(doc);

        fail(server.commit());//commit后才保存到索引库

        fail(response);

        fail("query time：" + response.getQTime());

        fail("Elapsed Time：" + response.getElapsedTime());

        fail("status：" + response.getStatus());

    } catch (SolrServerException e) {

        e.printStackTrace();

    } catch (IOException e) {

        e.printStackTrace();

    query("name:solr");

在apache-solr-3.4.0\example\solr\conf目录下的schema.xml中可以找到有关于field属性的配置，schema.xml中的field就和上面Document文档中的field（id、name、manu）对应。如果出现ERROR:unknown field 'xxxx'就表示你设置的这个field在schema.xml中不存在。如果一定要使用这个field，请你在schema.xml中进行filed元素的配置。具体请参考前面的章节。

注意：在schema.xml中配置了uniqueKey为id，就表示id是唯一的。如果在添加Document的时候，id重复添加。那么后面添加的相同id的doc会覆盖前面的doc，类似于update更新操作，而不会出现重复的数据。

5、利用SolrJ添加多个Document，即添加文档集合

/**

 * function: 添加docs文档集合

 * @author hoojo

 * @createDate 2011-10-21 上午09:55:01

*/

@Test

public void addDocs() {

    Collection docs = new ArrayList();

    SolrInputDocument doc = new SolrInputDocument();

    doc.addField("id", 2);

    doc.addField("name", "Solr Input Documents 1");

    doc.addField("manu", "this is SolrInputDocuments 1 content");

    docs.add(doc);

    doc = new SolrInputDocument();

    doc.addField("id", 3);

    doc.addField("name", "Solr Input Documents 2");

    doc.addField("manu", "this is SolrInputDocuments 3 content");

    docs.add(doc);

    try {

        //add docs

        UpdateResponse response = server.add(docs);

        //commit后才保存到索引库

        fail(server.commit());

        fail(response);

    } catch (SolrServerException e) {

        e.printStackTrace();

    } catch (IOException e) {

        e.printStackTrace();

    query("solr");

就是添加一个List集合

6、添加JavaEntity Bean，这个需要先创建一个JavaBean，然后来完成添加操作；

JavaBean：Index的代码

package com.hoo.entity;

import org.apache.solr.client.solrj.beans.Field;

/**

 * function: JavaEntity Bean；Index需要添加相关的Annotation注解，便于告诉solr哪些属性参与到index中

 * @author hoojo

 * @createDate 2011-10-19 下午05:33:27

 * @file Index.java

 * @package com.hoo.entity

 * @project SolrExample

 * @blog http://blog.csdn.net/IBM_hoojo

 * @email [email protected]

 * @version 1.0

*/

public class Index {

    //@Field setter方法上添加Annotation也是可以的

    private String id;

    @Field

    private String name;

    @Field

    private String manu;

    @Field

    private String[] cat;

    @Field

    private String[] features;

    @Field

    private float price;

    @Field

    private int popularity;

    @Field

    private boolean inStock;

    public String getId() {

        return id;

    @Field

    public void setId(String id) {

        this.id = id;

    //getter、setter方法

    public String toString() {

        return this.id + "#" + this.name + "#" + this.manu + "#" + this.cat;

注意上面的属性是和在apache-solr-3.4.0\example\solr\conf目录下的schema.xml中可以找到有关于field属性的配置对应的。如果你Index JavaBean中出现的属性在schema.xml的field配置无法找到，那么出出现unknown filed错误。

添加Bean完成doc添加操作

/**

 * function: 添加JavaEntity Bean

 * @author hoojo

 * @createDate 2011-10-21 上午09:55:37

*/

@Test

public void addBean() {

    //Index需要添加相关的Annotation注解，便于告诉solr哪些属性参与到index中

    Index index = new Index();

    index.setId("4");

    index.setName("add bean index");

    index.setManu("index bean manu");

    index.setCat(new String[] { "a1", "b2" });

    try {

        //添加Index Bean到索引库

        UpdateResponse response = server.addBean(index);

        fail(server.commit());//commit后才保存到索引库

        fail(response);

    } catch (SolrServerException e) {

        e.printStackTrace();

    } catch (IOException e) {

        e.printStackTrace();

    queryAll();

7、添加Bean集合

/**

 * function: 添加Entity Bean集合到索引库

 * @author hoojo

 * @createDate 2011-10-21 上午10:00:55

*/

@Test

public void addBeans() {

    Index index = new Index();

    index.setId("6");

    index.setName("add beans index 1");

    index.setManu("index beans manu 1");

    index.setCat(new String[] { "a", "b" });

    List indexs = new ArrayList();

    indexs.add(index);

    index = new Index();

    index.setId("5");

    index.setName("add beans index 2");

    index.setManu("index beans manu 2");

    index.setCat(new String[] { "aaa", "bbbb" });

    indexs.add(index);

    try {

        //添加索引库

        UpdateResponse response = server.addBeans(indexs);

        fail(server.commit());//commit后才保存到索引库

        fail(response);

    } catch (SolrServerException e) {

        e.printStackTrace();

    } catch (IOException e) {

        e.printStackTrace();

    queryAll();

8、删除索引Document

/**

 * function: 删除索引操作

 * @author hoojo

 * @createDate 2011-10-21 上午10:04:28

*/

@Test

public void remove() {

    try {

        //删除id为1的索引

        server.deleteById("1");

        server.commit();

        query("id:1");

        //根据id集合，删除多个索引

        List ids = new ArrayList();

        ids.add("2");

        ids.add("3");

        server.deleteById(ids);

        server.commit(true, true);

        query("id:3 id:2");

        //删除查询到的索引信息

        server.deleteByQuery("id:4 id:6");

        server.commit(true, true);

        queryAll();

    } catch (SolrServerException e) {

        e.printStackTrace();

    } catch (IOException e) {

        e.printStackTrace();

9、查询索引

/**

 * function: 查询所有索引信息

 * @author hoojo

 * @createDate 2011-10-21 上午10:05:38

*/

@Test

public void queryAll() {

    ModifiableSolrParams params = new ModifiableSolrParams();

    // 查询关键词，*:*代表所有属性、所有值，即所有index

    params.set("q", "*:*");

    // 分页，start=0就是从0开始，，rows=5当前返回5条记录，第二页就是变化start这个值为5就可以了。

    params.set("start", 0);

    params.set("rows", Integer.MAX_VALUE);

    // 排序，，如果按照id 排序，，那么将score desc 改成 id desc(or asc)

    params.set("sort", "score desc");

    // 返回信息 * 为全部 这里是全部加上score，如果不加下面就不能使用score

    params.set("fl", "*,score");

    try {

        QueryResponse response = server.query(params);

        SolrDocumentList list = response.getResults();

        for (int i = 0; i < list.size(); i++) {

            fail(list.get(i));

    } catch (SolrServerException e) {

        e.printStackTrace();

10、其他和Server有关方法

/**

 * function: 其他server相关方法测试

 * @author hoojo

 * @createDate 2011-10-21 上午10:02:03

*/

@Test

public void otherMethod() {

    fail(server.getBinder());

    try {

        fail(server.optimize());//合并索引文件，可以优化索引、提供性能，但需要一定的时间

        fail(server.ping());//ping服务器是否连接成功

        Index index = new Index();

        index.setId("299");

        index.setName("add bean index199");

        index.setManu("index bean manu199");

        index.setCat(new String[] { "a199", "b199" });

        UpdateResponse response = server.addBean(index);

        fail("response: " + response);

        queryAll();

        //回滚掉之前的操作，rollback addBean operation

        fail("rollback: " + server.rollback());

        //提交操作，提交后无法回滚之前操作；发现addBean没有成功添加索引

        fail("commit: " + server.commit());

        queryAll();

    } catch (SolrServerException e) {

        e.printStackTrace();

    } catch (IOException e) {

        e.printStackTrace();

11、文档查询

/**

 * function: query 基本用法测试

 * @author hoojo

 * @createDate 2011-10-20 下午04:44:28

*/

@Test

public void queryCase() {

    //AND 并且

    SolrQuery params = new SolrQuery("name:apple AND manu:inc");

    //OR 或者

    params.setQuery("name:apple OR manu:apache");

    //空格 等同于 OR

    params.setQuery("name:server manu:dell");

    //params.setQuery("name:solr - manu:inc");

    //params.setQuery("name:server + manu:dell");

    //查询name包含solr apple

    params.setQuery("name:solr,apple");

    //manu不包含inc

    params.setQuery("name:solr,apple NOT manu:inc");

    //50 <= price <= 200

    params.setQuery("price:[50 TO 200]");

    params.setQuery("popularity:[5 TO 6]");

    //params.setQuery("price:[50 TO 200] - popularity:[5 TO 6]");

    //params.setQuery("price:[50 TO 200] + popularity:[5 TO 6]");

    //50 <= price <= 200 AND 5 <= popularity <= 6

    params.setQuery("price:[50 TO 200] AND popularity:[5 TO 6]");

    params.setQuery("price:[50 TO 200] OR popularity:[5 TO 6]");

    //过滤器查询，可以提高性能 filter 类似多个条件组合，如and

    //params.addFilterQuery("id:VA902B");

    //params.addFilterQuery("price:[50 TO 200]");

    //params.addFilterQuery("popularity:[* TO 5]");

    //params.addFilterQuery("weight:*");

    //0 < popularity < 6  没有等于

    //params.addFilterQuery("popularity:{0 TO 6}");

    //排序

    params.addSortField("id", ORDER.asc);

    //分页：start开始页，rows每页显示记录条数

    //params.add("start", "0");

    //params.add("rows", "200");

    //params.setStart(0);

    //params.setRows(200);

    //设置高亮

    params.setHighlight(true); // 开启高亮组件

    params.addHighlightField("name");// 高亮字段

    params.setHighlightSimplePre("");//标记，高亮关键字前缀

    params.setHighlightSimplePost("");//后缀

    params.setHighlightSnippets(1);//结果分片数，默认为1

    params.setHighlightFragsize(1000);//每个分片的最大长度，默认为100

    //分片信息

    params.setFacet(true)

        .setFacetMinCount(1)

        .setFacetLimit(5)//段

        .addFacetField("name")//分片字段

        .addFacetField("inStock");

    //params.setQueryType("");

    try {

        QueryResponse response = server.query(params);

        /*List indexs = response.getBeans(Index.class);

        for (int i = 0; i < indexs.size(); i++) {

            fail(indexs.get(i));

}*/

        //输出查询结果集

        SolrDocumentList list = response.getResults();

        fail("query result nums: " + list.getNumFound());

        for (int i = 0; i < list.size(); i++) {

            fail(list.get(i));

        //输出分片信息

        List facets = response.getFacetFields();

        for (FacetField facet : facets) {

            fail(facet);

            List facetCounts = facet.getValues();

            for (FacetField.Count count : facetCounts) {

                System.out.println(count.getName() + ": " + count.getCount());

    } catch (SolrServerException e) {

        e.printStackTrace();

12、分片查询、统计

/**

 * function: 分片查询， 可以统计关键字及出现的次数、或是做自动补全提示

 * @author hoojo

 * @createDate 2011-10-20 下午04:54:25

*/

@Test

public void facetQueryCase() {

    SolrQuery params = new SolrQuery("*:*");

    //排序

    params.addSortField("id", ORDER.asc);

    params.setStart(0);

    params.setRows(200);

    //Facet为solr中的层次分类查询

    //分片信息

    params.setFacet(true)

        .setQuery("*:*")

        .setFacetMinCount(1)

        .setFacetLimit(5)//段

        //.setFacetPrefix("electronics", "cat")

        .setFacetPrefix("cor")//查询manu、name中关键字前缀是cor的

        .addFacetField("manu")

        .addFacetField("name");//分片字段

    try {

        QueryResponse response = server.query(params);

        //输出查询结果集

        SolrDocumentList list = response.getResults();

        fail("Query result nums: " + list.getNumFound());

        for (int i = 0; i < list.size(); i++) {

            fail(list.get(i));

        fail("All facet filed result: ");

        //输出分片信息

        List facets = response.getFacetFields();

        for (FacetField facet : facets) {

            fail(facet);

            List facetCounts = facet.getValues();

            for (FacetField.Count count : facetCounts) {

                //关键字 - 出现次数

                fail(count.getName() + ": " + count.getCount());

        fail("Search facet [name] filed result: ");

        //输出分片信息

        FacetField facetField = response.getFacetField("name");

        List facetFields = facetField.getValues();

        for (Count count : facetFields) {

            //关键字 - 出现次数

            fail(count.getName() + ": " + count.getCount());

    } catch (SolrServerException e) {

        e.printStackTrace();

分片查询在某些统计关键字的时候还是很有用的，可以统计关键字出现的次数，可以通过统计的关键字来搜索相关文档的信息。

四、Document文档和JavaBean相互转换

这里转换的Bean是一个简单的User对象

package com.hoo.entity;

import java.io.Serializable;

import org.apache.solr.client.solrj.beans.Field;

/**

 * function: User Entity Bean；所有被添加Annotation @Field 注解的属性将参与index操作

 * @author hoojo

 * @createDate 2011-10-19 下午04:16:00

 * @file User.java

 * @package com.hoo.entity

 * @project SolrExample

 * @blog http://blog.csdn.net/IBM_hoojo

 * @email [email protected]

 * @version 1.0

*/

public class User implements Serializable {

/**

     * @author Hoojo

*/

    private static final long serialVersionUID = 8606788203814942679L;

    //@Field

    private int id;

    @Field

    private String name;

    @Field

    private int age;

/**

     * 可以给某个属性重命名，likes就是solr index的属性；在solrIndex中将显示like为likes

*/

    @Field("likes")

    private String[] like;

    @Field

    private String address;

    @Field

    private String sex;

    @Field

    private String remark;

    public int getId() {

        return id;

    //setter 方法上面也可以

    @Field

    public void setId(int id) {

        this.id = id;

    public String getName() {

        return name;

    //getter、setter

    @Override

    public String toString() {

        return this.id + "#" + this.name + "#" + this.age + "#" + this.like + "#" + this.address + "#" + this.sex + "#" + this.remark;

测试类代码如下

package com.hoo.test;

import org.apache.solr.client.solrj.beans.DocumentObjectBinder;

import org.apache.solr.common.SolrDocument;

import org.apache.solr.common.SolrDocumentList;

import org.apache.solr.common.SolrInputDocument;

import org.apache.solr.common.SolrInputField;

import org.junit.Test;

import com.hoo.entity.User;

/**

 * function:SolrInputDocument implements Map, Iterable

 * @author hoojo

 * @createDate 2011-10-19 下午03:54:54

 * @file SolrInputDocumentTest.java

 * @package com.hoo.test

 * @project SolrExample

 * @blog http://blog.csdn.net/IBM_hoojo

 * @email [email protected]

 * @version 1.0

*/

public class SolrInputDocumentTest {

    public final void fail(Object o) {

        System.out.println(o);

/**

     * function: 创建SolrInputDocument

     * @author hoojo

     * @createDate 2011-10-21 下午03:38:20

*/

    @Test

    public void createDoc() {

        SolrInputDocument doc = new SolrInputDocument();

        doc.addField("id", System.currentTimeMillis());

        doc.addField("name", "SolrInputDocument");

        doc.addField("age", 22, 2.0f);

        doc.addField("like", new String[] { "music", "book", "sport" });

        doc.put("address", new SolrInputField("guangzhou"));

        doc.setField("sex", "man");

        doc.setField("remark", "china people", 2.0f);

        fail(doc);

/**

     * function: 利用DocumentObjectBinder对象将SolrInputDocument 和 User对象相互转换

     * @author hoojo

     * @createDate 2011-10-21 下午03:38:40

*/

    @Test

    public void docAndBean4Binder() {

        SolrDocument doc = new SolrDocument();

        doc.addField("id", 456);

        doc.addField("name", "SolrInputDocument");

        doc.addField("likes", new String[] { "music", "book", "sport" });

        doc.put("address", "guangzhou");

        doc.setField("sex", "man");

        doc.setField("remark", "china people");

        DocumentObjectBinder binder = new DocumentObjectBinder();

        User user = new User();

        user.setId(222);

        user.setName("JavaBean");

        user.setLike(new String[] { "music", "book", "sport" });

        user.setAddress("guangdong");

        fail(doc);

        // User ->> SolrInputDocument

        fail(binder.toSolrInputDocument(user));

        // SolrDocument ->> User

        fail(binder.getBean(User.class, doc));

        SolrDocumentList list = new SolrDocumentList();

        list.add(doc);

        list.add(doc);

        //SolrDocumentList ->> List

        fail(binder.getBeans(User.class, list));

/**

     * function: SolrInputDocument的相关方法

     * @author hoojo

     * @createDate 2011-10-21 下午03:44:30

*/

    @Test

    public void docMethod() {

        SolrInputDocument doc = new SolrInputDocument();

        doc.addField("id", System.currentTimeMillis());

        doc.addField("name", "SolrInputDocument");

        doc.addField("age", 23, 1.0f);

        doc.addField("age", 22, 2.0f);

        doc.addField("age", 24, 0f);

        fail(doc.entrySet());

        fail(doc.get("age"));

        //排名有用，类似百度竞价排名

        doc.setDocumentBoost(2.0f);

        fail(doc.getDocumentBoost());

        fail(doc.getField("name"));

        fail(doc.getFieldNames());//keys

        fail(doc.getFieldValues("age"));

        fail(doc.getFieldValues("id"));

        fail(doc.values());

你可能感兴趣的:(大数据)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
数字化（电子化）招标采购平台系统核心功能详细介绍 xinyuan_123456 oracle
数智化招标采购平台覆盖全业务类型、全采购流程、全采购方式，是郑州信源公司运用“互联网+”、大数据、人工智能、区块链、物联网等新兴技术，结合供应链管理理念，以招标采购为核心，提供交易、管理、数据、服务、监管为一体的高标准采购管理平台，赋能政企用户实现采购业务全流程的电子化、数字化、智慧化。根据产品功能及应用领域，产品包括：企业数智化招采供应链平台、金融数智化招采平台、政府数智化采购平台、公共资源数智
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin