晨风2013

使用Apache Solr对数据库建立索引（包括处理CLOB、CLOB）

以下资料整理自网络，觉的有必要合并在一起，这样方便查看。主要分为两部分，第一部分是对《db-data-config.xml》的配置内容的讲解（属于高级内容），第二部分是DataImportHandler（属于基础）,第三部分是对db-data-config.xml的进阶（这个国内可能还没有人写过啊，我在google、baidu上都没有搜索到，最后可是拔代码，看solr的英文文档找的）

第一部分是对《db-data-config.xml》

query是获取全部数据的SQL
deltaImportQuery是获取增量数据时使用的SQL
deltaQuery是获取pk的SQL
parentDeltaQuery是获取父Entity的pk的SQL

Full Import工作原理：
执行本Entity的Query，获取所有数据；
针对每个行数据Row，获取pk，组装子Entity的Query；
执行子Entity的Query，获取子Entity的数据。

Delta Import工作原理：
查找子Entity，直到没有为止；
执行Entity的deltaQuery，获取变化数据的pk；
合并子Entity parentDeltaQuery得到的pk；
针对每一个pk Row，组装父Entity的parentDeltaQuery；
执行parentDeltaQuery，获取父Entity的pk；
执行deltaImportQuery，获取自身的数据；
如果没有deltaImportQuery，就组装Query

限制：
子Entity的query必须引用父Entity的pk
子Entity的parentDeltaQuery必须引用自己的pk
子Entity的parentDeltaQuery必须返回父Entity的pk
deltaImportQuery引用的必须是自己的pk

第二部分是DataImportHandler

关于DataImportHandler的具体使用方法，详见下文，如果你英文超级好，那看这个链接吧：http://wiki.apache.org/solr/DataImportHandler

大多数的应用程序将数据存储在关系数据库、xml文件中。对这样的数据进行搜索是很常见的应用。所谓的DataImportHandler提供一种可配置的方式向solr导入数据，可以一次全部导入，也可以增量导入。

 概览

 目标
• 能够读取关系数据库中的数据。
• 通过可配置的方式，能够将数据库中多列、多表的数据生成solr文档
• 能够通过solr文档更新solr
• 提供通过配置文件就能够导入所有数据的能力
• 能够发现并处理由insert、update带来的变化（我们假定在表中有一个叫做“last-modified的列”）
• 能够配置 “完全导入”和“增量导入”的时间
• 让读取xml文件，并建立索引成为可配置。
• 能够将其他的数据源（例如：ftp，scp，etc）或者其他格式的文档（Json，csv）以插件的形式集成到项目中。

 设计思路

 这个Handler首先要在solrconfig.xml文件中配置下，如下所示。

 <requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
 <lst name="defaults">
 <str name="config">/home/username/data-config.xml</str>
 </lst>
</requestHandler>
 从它的名字上，我们或许也可以猜到，
DataImportHandler正是requestHandler的实现。我们一共需要在两个地方配置文件中进行一些配置。

•solrconfig.xml 。 data-config.xml必须在这个文件中配置，datasource也可以。不过，一般将datasource放在data-config.xml文件中。
•data-config.xml
1. 1. 怎样获取数据？（查询语句、url等等）
2. 要读什么样的数据（关系数据库中的列、或者xml的域）
3. 做什么样的处理（修改/添加/删除）

 跟关系数据库一起使用

 下面几个步骤是必要的.
• 定义一个data-config.xml 文件，并这个它的路径配置到solrconfig.xml 中关于DataImportHandler的配置中。
• 给出Connection的信息（假设你选择在solrconfig中配置datasource）
•打开DataImportHandler页面去验证，是否该配置的都配置好了。http://localhost:8983/solr/dataimport
•使用“完全导入”命令将数据从数据库中导出，并提交给solr建立索引
•使用“增量导入”命令对数据库发生的变化的数据导出，并提交给solr建立索引。

 配置数据源

 将dataSource标签直接添加到dataConfig下面，即成为dataConfig的子元素.
 <dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost/dbname" user="db_username" password="db_password"/>

• 数据源也可以配置在solrconfig.xml中
•属性type 指定了实现的类型。它是可选的。默认的实现是JdbcDataSource。
•属性 name 是datasources的名字，当有多个datasources时，可以使用name属性加以区分
•其他的属性都是随意的，根据你使用的DataSource实现而定。
•当然你也可以实现自己的DataSource。

 多数据源

 一个配置文件可以配置多个数据源。增加一个dataSource元素就可以增加一个数据源了。name属性可以区分不同的数据源。如果配置了多于一个的数据源，那么要注意将name配置成唯一的。

 例如：
<dataSource type="JdbcDataSource" name="ds-1" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://db1-host/dbname" user="db_username" password="db_password"/>

<dataSource type="JdbcDataSource" name="ds-2" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://db2-host/dbname" user="db_username" password="db_password"/>

然后这样使用
 ..

<entity name="one" dataSource="ds-1" ...>

 ..

</entity>

<entity name="two" dataSource="ds-2" ...>

 ..

</entity>

..



配置JdbcDataSource



JdbcDataSource中的属性有

•driver(必需的)：jdbc驱动名称
•url（必需的）：jdbc链接
•user：用户名
•password：密码
•批量大小：jdbc链接中的批量大小

任何其他的在JdbcDataSource中配置的属性，都会被直接传给jdbc driver

配置data-config.xml

 solr document是schema，它的域上的值可能来自于多个表.

 data-config.xml的根元素是document。一个document元素代表了一种文档。一个 document元素中包含了一个或者多个root实体。一个root实体包含着一些子实体，这些子实体能够包含其他的实体。实体就是，关系数据库上的表或者视图。每个实体都能够包含多个域，每个域对应着数据库返回结果中的一列。域的名字跟列的名字默认是一样的。如果一个列的名字跟solr field的名字不一样，那么属性name就应该要给出。其他的需要的属性在solrschema.xml文件中配置。

 为了能够从数据库中取得想要的数据，我们的设计支持标准sql规范。这使得用户能够使用他任何想要的sql语句。root实体是一个中心表，使用它的列可以把表连接在一起。

 dataconfig的结构

 dataconfig的结构不是一成不变的,entity和field元素中的属性是随意的，这主要取决于processor和transformer。

 以下是entity的默认属性
• name(必需的):name是唯一的，用以标识entity
•processor:只有当datasource不是RDBMS时才是必需的。默认值是SqlEntityProcessor
•transformer:转换器将会被应用到这个entity上，详情请浏览transformer部分。
•pk：entity的主键，它是可选的，但使用“增量导入”的时候是必需。它跟schema.xml中定义的uniqueKey没有必然的联系，但它们可以相同。
•rootEntity：默认情况下，document元素下就是根实体了，如果没有根实体的话，直接在实体下面的实体将会被看做跟实体。对于根实体对应的数据库中返回的数据的每一行，solr都将生成一个document。

 一下是SqlEntityProcessor的属性
•
query (required) :sql语句

•
deltaQuery : 只在“增量导入”中使用

•
parentDeltaQuery : 只在“增量导入”中使用

•
deletedPkQuery : 只在“增量导入”中使用

•
deltaImportQuery : (只在“增量导入”中使用) . 如果这个存在，那么它将会在“增量导入”中导入phase时代替query产生作用。这里有一个命名空间的用法${dataimporter.delta.}详情请看solr1.4.

Commands

The handler 通过httprequest 向外界提供它的API . 以下是一些或许你会用到的操作
•
full-import : "完全导入"这个操作可以通过访问URL http://:/solr/dataimport?command=full-import 完成。
◦
这个操作，将会新起一个线程。response中的attribute属性将会显示busy。

◦
这个操作执行的时间取决于数据集的大小。

◦
当这个操作运行完了以后，它将在conf/dataimport.properties这个文件中记录下这个操作的开始时间

◦
当“增量导入”被执行时，stored timestamp这个时间戳将会被用到

◦
solr的查询在“完全导入”时，不是阻塞的

◦
它还有下面一些参数：
◾
clean : (default 'true'). 决定在建立索引之前，删除以前的索引。

◾
commit: (default 'true'). 决定这个操作之后是否要commit

◾
optimize: (default 'true'). 决定这个操作之后是否要优化。

◾
debug : (default false). 工作在debug模式下。详情请看 the interactive development mode (see here)

•
delta-import : 当遇到一些增量的输入，或者发生一些变化时使用`DataImport - 航梦 - 火星？地球？ http://:/solr/dataimport?command=delta-import . 它同样支持 clean, commit, optimize and debug 这几个参数.

•
status : 想要知道命令执行的状态 , 访问 URL http://:/solr/dataimport .它给出了关于文档创建、删除，查询、结果获取等等的详细状况。

•
reload-config : 如果data-config.xml已经改变，你不希望重启solr，而要重新加载配置时，运行一下的命令http://:/solr/dataimport?command=reload-config

•
abort : 你可以通过访问 url http://:/solr/dataimport?command=abort 来终止一个在运行的操作

Full Import 例子

让我们来看下面的例子. 假设我们数据库中的表结构如下：

DataImport - 航梦 - 火星？地球？

This is a relational model of the same schema that Solr currently ships with. 我们使用这个例子来为我们的DataImportHandler建data-config.xml。我们已经使用这个结构在HSQLDB上建立了一个数据库. 好，现在开始了, 跟着下面的步骤走:
1.
下载 example-solr-home.jar 并使用 jar解压 jar -xvf example-solr-home.jar ，解压到你的本地系统. 这个jar文件包含了一个完整的solrhome（里面的配置文件很齐全了）和一个RSS的例子。它也包含了一个hssqldb数据库的例子.

2.
在 example-solr-home目录, 这里有一个 solr.war. 拷贝这个 war 文件到你的 tomcat/jetty webapps 文件夹. 这个 war file 也包含了hsqldb的JDBC driver. 如果你想在你已经有了的solr项目中部署，你只需要将 'dataimport.jar' 拷贝到你的solr项目的 WEB-INF/lib 目录下。

3.
使用example-data-config目录下的solr目录作为你solrhome

4.
访问 DataImport - 航梦 - 火星？地球？ http://localhost:8983/solr/dataimport 验证一下配置

5.
访问 DataImport - 航梦 - 火星？地球？ http://localhost:8983/solr/dataimport?command=full-import 执行一个“完全导入”

上面给出的solr目录是一个多核的solr home。它有两个核，一个是DB example，一个是RSSexample(新属性)。

这个例子的data-config.xml 如下：
<dataConfig>

<dataSource driver="org.hsqldb.jdbcDriver" url="jdbc:hsqldb:/temp/example/ex" user="sa" />

 <document name="products">

 <entity name="item" query="select * from item">

 <field column="ID" name="id" />

 <field column="NAME" name="name" />

 <field column="MANU" name="manu" />

 <field column="WEIGHT" name="weight" />

 <field column="PRICE" name="price" />

 <field column="POPULARITY" name="popularity" />

 <field column="INSTOCK" name="inStock" />

 <field column="INCLUDES" name="includes" />

 <entity name="feature" query="select description from feature where item_id='${item.ID}'">

 <field name="features" column="description" />

 </entity>

 <entity name="item_category" query="select CATEGORY_ID from item_category where item_id='${item.ID}'">

 <entity name="category" query="select description from category where id = '${item_category.CATEGORY_ID}'">

 <field column="description" name="cat" />

 </entity>

 </entity>

 </entity>

 </document>

</dataConfig>

这里, 根实体是一个名叫“item”的表，它的主键是id。我们使用语句 "select * from item"读取数据. 每一项都拥有多个特性。看下面feature实体的查询语句
 <entity name="feature" query="select description from feature where item_id='${item.id}'">

 <field name="feature" column="description" />

 </entity>



feature表中的外键item_id跟item中的主键连在一起从数据库中取得该row的数据。相同地，我们将item和category连表（它们是多对多的关系）。注意，我们是怎样使用中间表和标准sql连表的

<entity name="item_category" query="select category_id from item_category where item_id='${item.id}'">
 <entity name="category" query="select description from category where id = '${item_category.category_id}'">
 <field column="description" name="cat" />
 </entity>
 </entity>

短一点的 data-config

在上面的例子中，这里有好几个从域到solr域之间的映射。如果域的名字和solr中域的名字是一样的话，完全避免使用在实体中配置域也是可以的。当然，如果你需要使用转换器的话，你还是需要加上域实体的。

下面是一个更短的版本
<dataConfig>

 <dataSource driver="org.hsqldb.jdbcDriver" url="jdbc:hsqldb:/temp/example/ex" user="sa" />

 <document>

 <entity name="item" query="select * from item">

 <entity name="feature" query="select description as features from feature where item_id='${item.ID}'"/>

 <entity name="item_category" query="select CATEGORY_ID from item_category where item_id='${item.ID}'">

 <entity name="category" query="select description as cat from category where id = '${item_category.CATEGORY_ID}'"/>

 </entity>

 </entity>

 </document>

</dataConfig>

使用“增量导入”命令

你可以通过访问URL DataImport - 航梦 - 火星？地球？ http://localhost:8983/solr/dataimport?command=delta-import 来使用增量导入。操作将会新起一个线程，response中的属性statue也将显示busy now。操作执行的时间取决于你的数据集的大小。在任何时候，你都可以通过访问 http://localhost:8983/solr/dataimport 来查看状态。

当增量导入被执行的时候，它读取存储在conf/dataimport.properties中的“start time”。它使用这个时间戳来执行增量查询，完成之后，会更新这个放在conf/dataimport.properties中的时间戳。

Delta-Import 例子

我们将使用跟“完全导入”中相同的数据库。注意，数据库已经被更新了，每个表都包含有一个额外timestamp类型的列叫做last_modified。或许你需要重新下载数据库，因为它最近被更新了。我们使用这个时间戳的域来区别出那一行是上次索引以来有更新的。

看看下面的这个 data-config.xml
<dataConfig>

 <dataSource driver="org.hsqldb.jdbcDriver" url="jdbc:hsqldb:/temp/example/ex" user="sa" />

 <document name="products">

 <entity name="item" pk="ID" query="select * from item"

 deltaQuery="select id from item where last_modified > '${dataimporter.last_index_time}'">

 <entity name="feature" pk="ITEM_ID"

 query="select description as features from feature where item_id='${item.ID}'">

 </entity>

 <entity name="item_category" pk="ITEM_ID, CATEGORY_ID"

 query="select CATEGORY_ID from item_category where ITEM_ID='${item.ID}'">

 <entity name="category" pk="ID"

 query="select description as cat from category where id = '${item_category.CATEGORY_ID}'">

 </entity>

 </entity>

 </entity>

 </document>

</dataConfig>

注意到item实体的属性deltaquery了吗，它包含了一个能够查出最近更新的sql语句。注意，变量{dataimporter.last_index_time} 是DataImporthandler传过来的变量，我们叫它时间戳，它指出“完全导入”或者“部分导入”的最后运行时间。你可以在data-config.xml文件中的sql的任何地方使用这个变量，它将在processing这个过程中被赋值。

DataImport - 航梦 - 火星？地球？注意
•
上面例子中deltaQuery 只能够发现item中的更新，而不能发现其他表的。你可以像下面那样在一个sql语句中指定所有的表的更新。这里要特别说明一下的就是，它的细节对于一个使用者来说是一个不错的练习。DataImport - 航梦 - 火星？地球？

 deltaQuery="select id from item where id in

 (select item_id as id from feature where last_modified > '${dataimporter.last_index_time}')

 or id in

 (select item_id as id from item_category where item_id in

 (select id as item_id from category where last_modified > '${dataimporter.last_index_time}')

 or last_modified > '${dataimporter.last_index_time}')

 or last_modified > '${dataimporter.last_index_time}'"

•
写一个类似上面的庞大的deltaQuery 并不是一件很享受的工作，我们还是选择其他的方法来达到这个目的

<dataConfig>

 <dataSource driver="org.hsqldb.jdbcDriver" url="jdbc:hsqldb:/temp/example/ex" user="sa" />

 <document>

 <entity name="item" pk="ID" query="select * from item"

 deltaQuery="select id from item where last_modified > '${dataimporter.last_index_time}'">

 <entity name="feature" pk="ITEM_ID"

 query="select DESCRIPTION as features from FEATURE where ITEM_ID='${item.ID}'"

 deltaQuery="select ITEM_ID from FEATURE where last_modified > '${dataimporter.last_index_time}'"

 parentDeltaQuery="select ID from item where ID=${feature.ITEM_ID}"/>





 <entity name="item_category" pk="ITEM_ID, CATEGORY_ID"

 query="select CATEGORY_ID from item_category where ITEM_ID='${item.ID}'"

 deltaQuery="select ITEM_ID, CATEGORY_ID from item_category where last_modified > '${dataimporter.last_index_time}'"

 parentDeltaQuery="select ID from item where ID=${item_category.ITEM_ID}">

 <entity name="category" pk="ID"

 query="select DESCRIPTION as cat from category where ID = '${item_category.CATEGORY_ID}'"

 deltaQuery="select ID from category where last_modified > '${dataimporter.last_index_time}'"

 parentDeltaQuery="select ITEM_ID, CATEGORY_ID from item_category where CATEGORY_ID=${category.ID}"/>

 </entity>

 </entity>

 </document>

</dataConfig>



除了根实体(有两个)以外，这里一共有三个查询，每个实体个一个。

查询语句，为我们取得需要建立索引的数据。
•
deltaQuery 取得从上次索引更新时间以来有更新的实体的主键。

•
parentDeltaQuery 从deltaQuery中取得当前表中更新的行，并把这些行提交给父表。因为，当子表中的一行发生改变时，我们需要更新它的父表的solr文档。

下面是一些值得注意的地方:
•
对于query语句返回的每一行，子实体的query都将被执行一次

•
对于deltaQuery返回的每一行，parentDeltaQuery都将被执行。

•
一旦根实体或者子实体中的行发生改变，我们将重新生成包含该行的solr文档。

XML/HTTP Datasource使用指南

DataImportHandler 能够帮我们为基于HTTP的数据源建立索引. 目前支持REST/XML APIs 和RSS/ATOM Feeds.

配置HttpDataSource

HttpDataSource在dataconfig.xml中的配置看起来应该像这样：
<dataSource type="HttpDataSource" baseUrl="http://host:port/" encoding="UTF-8" connectionTimeout="5000" readTimeout="10000"/>

属性：
•
baseUrl (可选): 在Dev/QA/Prod 环境中，host/port改变时，你会用到它。使用这个属性，你可以找出配置到solrconfig.xml的变化。

•
encoding(可选): 默认情况下，encoding是response 头使用的encoding.你可以使用这个属性去覆盖默认值。

•
connectionTimeout (可选):默认值是5000ms

•
readTimeout (可选): 默认值是10000ms

在 data-config.xml中的配置

一个 xml/http data source中的实体有下面一些属性，也可以有上面提到的默认属性。
•
processor (必需的) : 它的值应该是"XPathEntityProcessor"

•
url (必需的) : REST API要使用这个api. (能够被模板化). 假设数据源是一个文件，那么url应该是这个文件的位置。

•
stream (可选) : 如果xml很大，那么它应该设为true

•
forEach(必需的) : xpath表达式，通过这个表达式可以取得想要的值。如果这里有多个想要的值，那么将xpath表达式用“|”分开。如果useSolrAddSchema设为true的话，这个是可以被忽略的。

•
xsl(可选):使用xsl对xml进行预处理。你需要提供一个文件系统的全路径，或者一个url。

•
useSolrAddSchema(可选): Set it's value to 'true' if the xml that is fed into this processor has the same schema as that of the solr add xml. No need to mention any fields if it is set to true.

域能够有以下这些属性 (此外还有那些默认值):
•
xpath (必需的) : 记录中的一列，也就是域的xpath表达式 . 如果该域并不来自任何的一个单一的xml属性，xpath是可以被忽略的. 我们可以通过转化器来使用多个xml属性来合成该域。如果一个域被声明成多值的，如果xpath表达式生成的也是多值的，那么 XPathEntityProcessor将会自动处理它，而不需要我们做额外的工作。

•
commonField : 能够被设为（true或者false）,假设这个是true值，一旦一个记录中有这样的域，那么其他记录被写索引的时候，这个域也会跟着记录被写到索引里面。

如果一个API支持分块数据（当一个数据集太大时），可能需要多次调用才能完成这个处理过程。XPathEntityprocessor 通过转换器支持这个特性。如果转换器返回的的行带有属性“hasMore”，并且这个属性的值等于true，那么Processor 将会使用同样的url模板发出令一次请求（实际的url是需要重新计算的）。一个转换器也可以传递一个完整的url路径，这个url被包含在属性 “nextUrl”中，nextUrl的值必需是一个完整的url。

XPathEntityProcessor 通过实现streaming parser来支持取得xpath子集的操作。完整的xpath是不被支持的，但是常见的应用都是受支持的。

HttpDataSource 例子

下载在DB 部分中的“完全导入”例子，试着去体验一下。我们将在这里例子中为slashotRSS建立索引。

这个例子的data-config配置看起来像这样。
<dataConfig>

 <dataSource type="HttpDataSource" />

 <document>

 <entity name="slashdot"

 pk="link"

 url="http://rss.slashdot.org/Slashdot/slashdot"

 processor="XPathEntityProcessor"

 forEach="/RDF/channel | /RDF/item"

 transformer="DateFormatTransformer">



 <field column="source" xpath="/RDF/channel/title" commonField="true" />

 <field column="source-link" xpath="/RDF/channel/link" commonField="true" />

 <field column="subject" xpath="/RDF/channel/subject" commonField="true" />



 <field column="title" xpath="/RDF/item/title" />

 <field column="link" xpath="/RDF/item/link" />

 <field column="description" xpath="/RDF/item/description" />

 <field column="creator" xpath="/RDF/item/creator" />

 <field column="item-subject" xpath="/RDF/item/subject" />

 <field column="date" xpath="/RDF/item/date" dateTimeFormat="yyyy-MM-dd'T'hh:mm:ss" />

 <field column="slash-department" xpath="/RDF/item/department" />

 <field column="slash-section" xpath="/RDF/item/section" />

 <field column="slash-comments" xpath="/RDF/item/comments" />

 </entity>

 </document>

</dataConfig>

这个data-config有很多值得借鉴的地方。我建议你看下SlashdotRSS的结构图，它有一些头部元素，例如title、link、subject。这些元素将分别通过xpath语法映射到source、source-link、subject这些solr域。这个种子有多个item元素，这些元素包含了真正的新闻信息。所以，我们希望做得是，为每一个item元素建立一个文档。

XPathEntityprocessor 是一行一行的读取xml文件的（这里的行指的是一个xml元素）。它使用属性“forEach”去识别每一行。在这个例子一种“forEach”的值是'/RDF/channel | /RDF/item'。也就是说这个xml有两种类型的行（这里使用一个OR的xpath语法，用以支持多个类型）。当遇到一个行的时候，它会在行的域声明中读取尽量多的域。在这个例子中，当它读到行“/RDF/channel”时，它将会得到3个域。它处理完这个行的时候，它就会意识到，这个行并没有pk这个域的值，于是它并不会试图去建立一个solr文档（即使它去做，它也会失败）。但是这个三个域都有一个属性 commonField ，并且它的值是true，所以它将会保留这个域的值，以便后面的行可以使用

它继续前进，然后遇到/RDF/item ,接着一个个处理这些行。它将会取得除了那个三个域之外的所有域。但是因为他们是common field。处理器会把公共域也加到这个记录中，然后写入索引。

transformer=DateFormatTransformer 又是什么呢？你可以看一下DateFormatTransformer有关部分。

你可以使用这些特性来从REST API ，例如 rss、atom、xml、其他solr服务器、甚至是格式良好的xhtml文档，建立索引。我们的xpath语法有它自己的限制（不支持通配符，只可以是全路径），但是一般的应用是绝对没有问题的，而且它是基于streaming parser的，它非常快，并且在读取非常大的xml文件的时候，它的内存消耗始终保持如一。它不支持命名空间，它却可以处理带有命名空间的xml文件。当你处理带有命名空间的xpath的时候，你需要做的是，丢弃命名空间部分，只留下其他的部分（例如，这个标签，相对应的xpath部分是 subject）。很容易，是吧？而且你不需要写一行代码，好好享受吧。DataImport - 航梦 - 火星？地球？

DataImport - 航梦 - 火星？地球？注意 : 不像数据库，如果你使用XPathEntityProcessor，想忽略域声明是不可能。域通过你声明的xpaths来从xml中解析相应的数据。

例子: 索引 wikipedia

利用下面的data-config.xml文件可以对wikipedia的数据建立索引。从wikipedia下载下来的pages-articles.xml.bz2文件解压之后大概有18g。
<dataConfig>

 <dataSource type="FileDataSource" encoding="UTF-8" />

 <document>

 <entity name="page" processor="XPathEntityProcessor" stream="true" forEach="/mediawiki/page/" url="/data/enwiki-20080724-pages-articles.xml">

 <field column="id" xpath="/mediawiki/page/id" />

 <field column="title" xpath="/mediawiki/page/title" />

 <field column="revision" xpath="/mediawiki/page/revision/id" />

 <field column="user" xpath="/mediawiki/page/revision/contributor/username" />

 <field column="userId" xpath="/mediawiki/page/revision/contributor/id" />

 <field column="text" xpath="/mediawiki/page/revision/text" />

 <field column="timestamp" xpath="/mediawiki/page/revision/timestamp" />

 </entity>

 </document>

</dataConfig>

schema.xml中有关的部分如下所示:
<field name="id" type="integer" indexed="true" stored="true" required="true"/>

<field name="title" type="string" indexed="true" stored="false"/>

<field name="revision" type="sint" indexed="true" stored="true"/>

<field name="user" type="string" indexed="true" stored="true"/>

<field name="userId" type="integer" indexed="true" stored="true"/>

<field name="text" type="text" indexed="true" stored="false"/>

<field name="timestamp" type="date" indexed="true" stored="true"/>

<field name="titleText" type="text" indexed="true" stored="true"/>

...

<uniqueKey>id</uniqueKey>

<copyField source="title" dest="titleText"/>

为7278241个文章建立索引大概花了2个小时40分，内存使用量的峰值在4G左右。

使用“增量导入”命令

只有SqlEntitiProcessor支持增量数据！XPathEntityProcessor还没有实现它。所以，不幸运的是，现在还不能为 “增量导入”提供支持。如果你想要在XPathEntityProcessor中实现这些方法，你可以在EntityProcessor.java中看看这些方法的解释。

Extending the tool with APIs

我们所展现的例子确实没有多大价值，单靠配置xml文件就满足所有的需求是不可能的。所以我们提供了一些抽象类，可以通过这些方法来提高功能。

Transformer

每一条从数据库中取得的数据能够被直接处理掉，或者通过它创建一个全新的域，它设置能够返回多行数据。配置文件必须像下面那样设置。
<entity name="foo" transformer="com.foo.Foo" ... />

DataImport - 航梦 - 火星？地球？注意-- trasformer的值必须是一个可以使用的classname。如果class包是'org.apache.solr.handler.dataimport' ，包名可以被忽略。solr.也是可以使用的，如果这个class在solr的一个包下的话。这个规则适应所有的可插入的类，像DataSource、EntityProcessor、Evaluator。

类Foo必须继承抽象类org.apache.solr.hander.dataimport.Transformer.这个类只有一个抽象方法。

transformer这个属性可以有多个transformers（）(比如 transformer="foo.X,foo.Y") 之间用逗号隔开。 transformers 会形成一条处理链。它们将会按照它们的排列顺序起作用。
public abstract class Transformer {

/**

 * The input is a row of data and the output has to be a new row.

 *

 * @param context The current context

 * @param row A row of data

 * @return The changed data. It must be a Map if it returns

 * only one row or if there are multiple rows to be returned it must

 * be a List>

 */

public abstract Object transformRow(Map row, Context context);

}

Context 是一个抽象的类，它提供上下文关系，这可能在处理数据的时候要用到。

另外，类Foo，可以选择不不实现这个抽象类，而只需要下面这个方法

public Object transformRow(Map row)

So there is no compile-time dependency on the DataImportHandler API

它的配置是灵活的。它允许用户向标签entity和field提供任意的属性。tool将会读取数据，并将它传给实现类。如果Transformer需要额外的的信息，它可以从context中取得。

正则表达式转换器

tool它提供了一个内嵌的转换器，叫做正则表达式转换器。它可以使用正则表达式从原数据中解析出我们想要的值。org.apache.solr.handler.dataimport.RegexTransformer 是它的名字. 因为它属于默认的包，所以它的包名是可以被忽略的。

例子：
<entity name="foo" transformer="RegexTransformer"

query="select full_name , emailids from foo"/>

... />

 <field column="full_name"/>

 <field column="firstName" regex="Mr(/w*)/b.*" sourceColName="full_name"/>

 <field column="lastName" regex="Mr.*?/b(/w*)" sourceColName="full_name"/>

 <field column="mailId" splitBy="," sourceColName="emailids"/>

</entity>

属性

RegexTransfromer只对属性中有regex或者splitBy的域起作用。所有的属性我们列在下面。
•
regex : 这是要匹配的正则表达式。regex和splitBy两者必有其一。如果没有，这个域将不会被正则表达式转换器处理。

•
sourceColName : 正则表达式起作用的列。. 如果这个这个属性不存在，那么source将等同域target。

•
splitBy : 如果正则表达式，是被用来分割一个字符串以获得多个值，那么使用这个。

•
replaceWith : 跟属性regex一起使用。相当于我们平常使用的方法new String().replaceAll(, )

这里，属性‘regex’和‘sourceColName’是转换器自定义的属性。它从resultSet中读取域‘full_name’的值，然后转换它，并将结果分别传给‘firstName’和‘lastName’。所以，尽管查询结果只返回一列“full_name”，但solr document依然可以获得额外的两个域“firstName”和‘lastName’。

域'emailids' 是一个用逗号分隔着的值。所以，我们最终可以从emailids得到一个以上的emial id。mailid 在solr中应该被定义为多值的。

脚本转换器

你可以使用javascript 或者其他的脚本语言来写转换器，只要java支持这种脚本。在这里我们应该使用java 6.
<dataConfig>
 <script><![CDATA[
 function f1(row) {
 row.put('message', 'Hello World!');
 return row;
 }
 ]]></script>
 <document>
 <entity name="e" pk="id" transformer="script:f1" query="select * from X">
 ....
 </entity>
 </document>
</dataConfig>

•
你可以在dataConfig结点中设置script 标签。默认的语言是javascript。你当然可以使用另外一种语言，你可以通过script标签中的属性language去设置它。（必须有java6的支持）。

•
你可以写任意多的转换函数。每个函数必须接受一个相当于 Map的row变量，然后要返回一个row。（转换以后）

•
通过在实体中指定 transformer=“script：”来使一个实体使用脚本函数。

•
在上面的data-config中，对于结果中返回的实体e的每一个行，javascript函数都将被执行一次。

•
执行机制跟一个java的转换器是一样的。在Transformer 中有两个参数（transformRow(Map,Context ))。在javascript中，第二个参数被忽略了，但它一样是起作用的。

日期格式转换器

这里有一个内嵌的转换器，叫做DateFormatTransformer（日期格式转换器) ，这个在将字符型时间转换成java.util.Date的类型的时候是很有用的。
<field column="date" xpath="/RDF/item/date" dateTimeFormat="yyyy-MM-dd'T'hh:mm:ss" />

属性

日期格式转换器只对带有属性“dateTimeFormat”的域才起作用。其他属性如下所示。
•
dateTimeFormat : 转换使用的格式。这个必须服从java的SimpleDateformat。

•
sourceColName : 要使用日期转换的列。如果没有设定这个值，那么源列跟目标域的名称是一样的。

上面的域的定义在RSS例子中有使用，以转换RSS种子项中的时间格式。

数字格式转换器

能将一个字符串转换成一个数字，使用的是java中类NumberFormat。例子:
<field column="price" formatStyle="number" />

默认情况下，类Numberformat使用系统的本地格式去转换一个字符串，如果你需要指定一个不同的本地类型的话，你可以像下面这样指定。例子：
<field column="price" formatStyle="number" locale="de-DE" />

属性

数字格式转换器只对那些带有属性“formatStyle”的域有用。
•
formatStyle : 解析这个域所需要的格式。这个属性的值必须是(number|percent|integer|currency)中的一个。可以参考 java DataImport - 航梦 - 火星？地球？ NumberFormat.

•
sourceColName : 要使用数字转换的列。如果没有设定这个值，那么源列跟目标域的名称是一样的。

•
locale : 要转换的字符串所使用的国际化格式。如果没有设定这个值，它的默认值是系统的国际化格式。它的值必须是language-country。例如 en-US。

模板转换器

使用DataImportHandler中强大的模板引擎来创建或者设定一个域的值。例如：
<entity name="e" transformer="TemplateTransformer" ..>

<field column="namedesc" template="hello${e.name},${eparent.surname}" />
...
</entity>

这里模板的规则跟‘query’、‘url’的规则是一样的。它主要能帮我们将多个值连到一起，或者忘域值注入其他的字符。这个转换器只对拥有属性‘template’的域起作用。

属性
•
template : 模板字符串。上面的例子中有两个占位符，‘${e.name}和${eparent.surname}’。 In the above example there are two placeholders '${e.name}' and '${eparent.surname}' . 两个值都必须存在，否则这个模板将不会起作用。

自定义模板转换器

如果你需要在将数据送给solr之前，对数据进行一些处理，你可以写一个你自己的转换器。让我们来看一个例子。在我们的schema中我们有一个单值的域叫做‘artistName’，类型是String。这个域的值包含了多个单词，例如‘Celine Dion’，这里有一个问题，这个值包含一些开头空格和结尾空格，这些空格不是我们想要的。solr的WhitespaceAnalyze在这里用不上，因为，我们并不想把这个字符串切词了。一个可以选择的解决方案就是自己写一个TrimTransformer。

一个简单的TrimTransformer
package foo;

public class TrimTransformer {
 public Object transformRow(Map row) {
 String artist = row.get("artist");
 if (artist != null)
 row.put("ar", artist.trim());
 return row;
 }
}

不需要去继承任何类。这个类只需要有transformRow 方法，就像上面的那样。DataImportHandler会自动辨别它，并使用反射机制来调用它。你可以在你的data-config.xml文件中这样来设置：
<entity name="artist" query="..." transformer="foo.TrimTransformer">

 <field column="artistName" />

</entity>

一个通用的TrimTransformer

假设，你想写一个通用的TrimTransformer，这样你就不用将要处理的列写在的代码里面。这里，我们需要在data-config.xml中设一个标记来表示这个域是否要应用这个转换器。
<entity name="artist" query="..." transformer="foo.TrimTransformer">
 <field column="artistName" trim="true" />
</entity>

现在，你需要去继承 Transformer 这个抽象类，并使用Context中的API来获得实体中的域，并获得域中的属性，检查标记有没有被设值。
package foo;

public class TrimTransformer extends Transformer {
 public Map transformRow(Map row, Context context) {
 List> fields = context.getAllEntityFields();
 for (Map field : fields) {
 // Check if this field has trim="true" specified in the data-config.xml
 String trim = field.get("trim");
 if ("true".equals(trim)) {
 // Apply trim on this fied
 String columnName = field.get("column");
 // Get this field's value from the current row
 String value = row.get(columnName);
 // Trim and put the updated value back in the current row
 if (value != null)
 row.put(columnName, value.trim());
 }
 }
 return row;
 }
}

如果域是多值的，那么返回值将会是一个list而不是单单一个对象，而且需要被恰当的处理。你可以将DataImprotHandler打包成一个jar包，然后再扩展Transformer和Context。

EntityProcessor(实体处理器)

默认的情况下，每个实体都会被sqlEntityProcessor处理。在系统使用RDBMS作为数据源的时候，它很适用。对于其他的数据源，例如 REST 或者不是sql的数据源，你可以选择继承org.apache.solr.handler.dataimport.Entityprocessor. 这个抽象类。它被设计成从实体中一行一行的读取数据。最简单的实现自己的实体处理器的方式是继承EntityProcessorBase ，然后重写方法 public Map nextRow()method。 'EntityProcessor'依赖于数据源来获取数据。数据源的返回类型对实体处理器来说是很重要的。下面是一些内嵌的实体处理器。

SqlEntityProcessor

它是默认的，数据源必须是DataSource类型的，在这里默认的情况下使用的是jdbcDataSource。

XPathEntityProcessor

处理XML类型的数据源。数据源的类型必须是DataSource类型的，这种类型的数据源有HttpDataSource和FileDatasource类型。

FileListEntityProcessor

简单的处理器，它能够从文件系统中得到文件的集合。这个系统基于一些标准，它不使用数据源，下面是实体的属性：
•
fileName

必须) 辨别文件的正则表达式

•
baseDir : (必须) 根目录（虚拟路径）

•
recursive : 是否要递归的获取文件，默认是false。

•
excludes : 匹配文件名的正则表达式

•
newerThan : 一个数字参数 . 使用格式 (yyyy-MM-dd HH:mm:ss) . 它可以是一个datemath 类型的字符串,例如：('NOW-3DAYS'). 需要加单引号。它也可以是一个变量，像${var.name}这样。

•
olderThan : 一个数字参数 . 跟上一条的规则是一样的

•
rootEntity :根实体的值必须是false，除非你想索引文件名。位置直接在下面的是根实体，这就意味着根实体产生的行都将被当成一个document存放在lucene里面。但是，在这个例子里面，我们并不想为每个文件建立一个 document，我们想对x实体产生的行建立document，因为实体f的属性rootEntiry等于false，所以在直接位于实体f下面的实体将成为根实体，它所产生的行将会被当成一个document。

•
dataSource :它必须被设为null值，因为这里并不需要使用任何的数据源，即是说，我们将不会创建Datasource的实例。（在大多数的情况下，只有一个数据源，jdbc数据源，所有的实体都用，在这里，数据源是没有必要的。）

例子：
<dataConfig>
 <dataSource type="FileDataSource" />
 <document>
 <entity name="f" processor="FileListEntityProcessor" fileName=".*xml" newerThan="'NOW-3DAYS'" recursive="true" rootEntity="false" dataSource="null">
 <entity name="x" processor="XPathEntityProcessor" forEach="/the/record/xpath" url="${f.fileAbsolutePath}">
 <field column="full_name" xpath="/field/xpath"/>
 </entity>
 </entity>
 <document>
<dataConfig>

千万要注意rootEntiry这个属性，由这个处理器所产生的域有fileAbsolutePath,fileSize,fileLastModified,fileName.

CachedSqlEntityProcessor

应该说，这是SqlEntityProcessor的一个扩展，这个处理器通过缓存一些行，来减少数据库查询。它几乎对根实体没有用，因为这个实体中只有一个sql语句被执行了。

Example 1.
<entity name="x" query="select * from x">
 <entity name="y" query="select * from y where xid=${x.id}" processor="CachedSqlEntityProcessor">
 </entity>
<entity>

这个例子的用法跟下面的是一样的，一个查询被执行完，它的结果被存储起来，下次这个查询再被执行的的时候，它将会从缓存中取出结果并返回。

Example 2:
<entity name="x" query="select * from x">
 <entity name="y" query="select * from y" processor="CachedSqlEntityProcessor" where="xid=x.id">
 </entity>
<entity>

这个例子跟前一个的区别在于属性‘where’。这个例子中，查询语句将从表中取回所有的数据，并把他们都放在缓存中。其中的关键就在域属性‘where’。缓存使用y中的xid作为键值，实体被查询的时候x.id的值就会被计算出来，我们首先会在缓存中找匹配的数据，接着返回。

在属性where中，=号之前的值是y中的列，=号之后的值是计算出来的要在缓存中查找的值。

DataSource(数据源)

org.apache.solr.handler.dataimport.DataSource 能被继承。
public abstract class DataSource {
/**

 * Initializes the DataSource with the Context
and

 * initialization properties.

 *

 * This is invoked by the DataImporter
after creating an

 * instance of this class.

 *

 * @param context

 * @param initProps

 */

public abstract void init(Context context, Properties initProps);

/**

 * Get records for the given query.The return type depends on the

 * implementation .

 *

 * @param query The query string. It can be a SQL for JdbcDataSource or a URL

 * for HttpDataSource or a file location for FileDataSource or a custom

 * format for your own custom DataSource.

 * @return Depends on the implementation. For instance JdbcDataSource returns

 * an Iterator>

 */

public abstract T getData(String query);

/**

 * Cleans up resources of this DataSource after use.

 */

public abstract void close();

}

它必须在数据源的定义部分被配置。
<dataSource type="com.foo.FooDataSource" prop1="hello"/>

JdbcdataSource

这个是默认的，它的声明如下：

public class JdbcDataSource extends DataSource >>

它可以一条一条的遍历数据库，每一行数据被当作一个Map。

HttpDataSource

XPathEntityProcessor使用这个数据源 . 它的声明如下：
public class HttpDataSource extends DataSource

FileDataSource

这个很像HttpDataSource . 它的声明如下：
public class FileDataSource extends DataSource

The attributes are:
•
basePath: (可选的) ，得到所需要的值时必须的基本路径。

•
encoding: (可选的)当文件编码跟平台编码不一样的时候,应当设定这个值。

Boosting , Skipping documents（提高文档的得分，或者跳过文档）

我们还可以在运行的时候提高一个文档的得分，或者跳过某一个特定的文档。

可以通过自定义转化器，增加一个属性，并将它设为true，这样就可以跳过这个文档了。可以通过，增加一个属性docBoost ,属性是文档的评分的这种方式给文档打分。Write a custom Transformer to add a value $skipDocwith a value 'true' to skip that document. To boost a document with a given value add $docBoost with the boost value

在 solrconfig.xml中增加数据源

我们也可以在solrconfig.xml中配置数据源，属性是一样的，只是方式稍微有点不同。



 <requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
 <lst name="defaults">
 <str name="config">/home/username/data-config.xml</str>
 <lst name="datasource">
 <str name="driver">com.mysql.jdbc.Driver</str>
 <str name="url">jdbc:mysql://localhost/dbname</str>
 <str name="user">db_username</str>
 <str name="password">db_password</str>
 </lst>
 </lst>
</requestHandler>

结构图

下面的这个图显示了一般的配置文件的逻辑流程。

DataImport - 航梦 - 火星？地球？

上面的这个图表达了这样的一个意思：一共有三个数据源，两个关系数据库的数据源，和一个http/xml的数据源。

 jdbc1 和jdbc2 是JdbcDataSource ，它配置在solrconfig.xml文件中。
•
http是一个HttpDataSource类型的数据源。

•
根实体是一个叫做a的表，它使用jdbc1作为它的数据源。实体一般都与表名相同。

•
实体A有两个子实体 B 和C 。B使用http数据源，C使用jdbc2数据源。

•
在执行一个full-import的命令的时候，根实体A会首先被执行。

•
由实体A导出的每一行，都会被传给实体B和实体C。

•
B和C通过占位符来使用实体A中的数据。占位符：${A．a}。
◦
B 有一个url属性

◦
C 有一个query属性

•
C 有两个转换器 ‘f’和‘g’。

•
由C产生的每一行数据，都会被有序的传给 'f '和‘g’（转换器是链式的，即有序的)。每个转换器都能够改变输入的值。在这里转换器‘g’将从一行数据（f(c .1)）中产生两行数据。

•
最近将每个实体的结果合并成为一个文档。
◦
请注意：从C产生的中间结果，例如C.1 c.2 ，f（c.1） f(c.2)，都将被忽略掉。

域声明

域的声明，能够帮助我们通过提供一些额外的信息得到那些不能自动获取到的值。它依赖于结果集中的列。在dataConfig里面配置的域，一般情况下应该跟schema配置的一样。它应该自动继承schema.xml中的所有的域。但是，你不能增加一些额外的域。那么，什么时候增加域声明呢？
•
当实体处理器所产生的域的名字，跟相应的域在schema.xml中的名字不一样的时候。

•
当内嵌的转换器需要一些额外的信息来决定哪个域要处理，以及该怎么处理的时候。

•
XPathEntityprocessor 或者其他的处理器，显示的要求一些额外的信息的时候。

关于行（row）和多值域

行在DataimportHandler中的表现形式是一个Map。在这个map里面，key是域的名字，value可以任何一个合法的solr 类型。value也能够是合法的solr类型的聚集（这将会映射到一个多值域）。如果数据源是RDBMS的话，一般是不会产生多值域的。当然我们可以通过加一个子实体的方式来产生多值域。这里子实体返回的多个域，相当于父实体的一个多值域。如果数据源是xml的话，产生多值域是一件相当简单的事情。

变量

变量是指最终代替那些占位符的值。这是一个多级的map，每一个命名空间都是一个map，命名空间使用.分隔。例如占位符 ${item.ID}, 'item'是一个命名空间（也是一个map），ID是这个命名空间下的一个值。我们很容易推导出占位符 ${item.x.ID} 这里x是另外一个map。变量的值能够从Context中获得，也可以在RDMS的query属性中或者http数据源的url属性中使用类似${}的占位符获得。

使用函数来自定义query和url的格式

命名空间这个概念在这里也是相当的有用的。用户可能想要传一个经过计算的值给 query或者url，比如这里有一个Data类型的数据，但是你的数据源只支持另外一种格式的数据源。我们提供了一些函数，或许它们能够帮你完成一些事情。
•
formatDate : 它可以像这样去使用，'${dataimporter.functions.formatDate(item.ID, yyyy-MM-dd HH:mm)}' 。它的第一个参数是一个合法的变量，第二个参数是一种时间格式（这里使用的格式工具是SimpledateFormat），The first argument can be a valid value from the VariableResolver and the second cvalue can be a a format string (use SimpledateFormat) . 它可以是一个经过计算的值，它使用solr的时间表示方式。(要注意，它必须被单引号括起来

•
escapeSql : 使用它可以对特别的sql 字符串进行包装。例子 :'${dataimporter.functions.escapeSql(item.ID)}'. 这里只使用一个参数，这个参数必须是一个合法的VaraiableResolver.

•
encodeUrl : 使用这个对url进行编码。例子e: '${dataimporter.functions.encodeUrl(item.ID)}' . 只使用一个参数，这个参数必须是一个合法的VariableResolver

访问请求参数

我们可以使用'request'命名空间来访问传递给http 请求的参数。例如'${dataimporter.request.command}' 将会返回被执行的命令。任何参数都可以通过这种方式得到。

交互式的开发模式Interactive Development Mode

这是一个很酷的，并且功能强大的工具。它能够帮助你通过图形界面来建立一个dataconfig.xml文档。你可以通过DataImport - 航梦 - 火星？地球？ http://host:port/solr/admin/dataimport.jsp 来访问它。以下是它的特性：
•
这个界面有两个板块，RHS是用来获取输入的，LHS是用来显示输出的。

•
当你点击debug now 按钮的时候，它将会执行配置文件，并且显示结果文档。

•
你可以通过start和rows这两个参数来调试类似从115开始到118这样的文档。

•
选择 'verbose'选项表示你想要得到一些关于中间步骤的信息。包括query产生的数据，传给转换器的数据，以及转换器产生的数据。

•
如果在运行过程中发生了异常，那么LHS板块将显示异常信息。

•
fields是由实体产生的。当域没有在schema.xml中声明，也没有在dataConfig.xml有声明的时候，转换器就不会对该域进行处理了。

屏幕快照

DataImport - 航梦 - 火星？地球？

哪里可以找到它?

DataimportHandler是solr的新加的特性。
•
从 DataImport - 航梦 - 火星？地球？ Solr website 下载一个最新的版本。

•
通过 Full Import 的例子来感受一下。

在Solr JIRA.的 DataImport - 航梦 - 火星？地球？ SOLR-469 你可以查看到有关DataImporthandler的一些开发讨论。

第三部分：SOLR的db-data-config.xml高级进阶(处理CLOB和BLOB）

我们在使用solr处理数据库时，很多时候需要处理一下数据库中的CLOB、BLOB字段，对于这两种字段如何处理，下面以代码的形式给大家演示，（不用写Java代码啊）

1）定义数据源

Code-java代码收藏代码
1.<dataSource name="ora" driver="oracle.jdbc.OracleDriver" url="...." />
2.<datasource name="ds-BlobField" type="FieldStreamDataSource" />

2.）写一个blob字段处理

Code-java代码收藏代码
1.<entity dataSource="ora" name="meta" query="select id, filename,content, bytes from documents" transformer="ClobTransformer">
2. <field column="ID" name="id" />
3. <field column="FILENAME" name="filename" />
4. <field column="CONTENT" name="CONTENT" clob="true" />
 <entity dataSource="ds-BlobField" processor="TikaEntityProcessor" url="FILE_CONTENT"
 dataField="ATTACH.FILE_CONTENT">
 <field column="text" name="FJ_FILE_CONTENT" />
 <field column="Author" name="FJ_FILE_AUTHOR" meta="true" />
 </entity>

这里简单介绍一下，上述蓝色字体是处理clob必须的，红色字体是处理blob必须的。

还是比较简单的吧。如果你还没看明白，，我也没辙了。哦，这里需要说明一下，使用上述代码需要依赖几个jar包：

tika-app-0.9.jar（巨大20M，不过非常好用，对于PDF、Excel、Word、PPT、RTF、TAR 、ZIP 等等吧，好多自己查吧。）

http://apache.etoak.com//pdfbox/1.6.0/pdfbox-app-1.6.0.jar

activation-1.1.jar

mail-1.4.1.jar

缺少了就跑不起来了，；）

http://www.blogjava.net/conans/articles/379546.html

你可能感兴趣的:(JavaScript,java,Solr)

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
Java 重写(Override)与重载(Overload) 叨唧唧的
Java重写(Override)与重载(Overload)重写(Override)重写是子类对父类的允许访问的方法的实现过程进行重新编写,返回值和形参都不能改变。即外壳不变，核心重写！重写的好处在于子类可以根据需要，定义特定于自己的行为。也就是说子类能够根据需要实现父类的方法。重写方法不能抛出新的检查异常或者比被重写方法申明更加宽泛的异常。例如：父类的一个方法申明了一个检查异常IOExceptio
简单了解 JVM 记得开心一点啊 jvm
目录♫什么是JVM♫JVM的运行流程♫JVM运行时数据区♪虚拟机栈♪本地方法栈♪堆♪程序计数器♪方法区/元数据区♫类加载的过程♫双亲委派模型♫垃圾回收机制♫什么是JVMJVM是JavaVirtualMachine的简称，意为Java虚拟机。虚拟机是指通过软件模拟的具有完整硬件功能的、运行在一个完全隔离的环境中的完整计算机系统（如：JVM、VMwave、VirtualBox）。JVM和其他两个虚拟机
1分钟解决 -bash: mvn: command not found，在Centos 7中安装Maven Energet!c 开发语言
1分钟解决-bash:mvn:commandnotfound，在Centos7中安装Maven检查Java环境1下载Maven2解压Maven3配置环境变量4验证安装5常见问题与注意事项6总结检查Java环境Maven依赖Java环境，请确保系统已经安装了Java并配置了环境变量。可以通过以下命令检查：java-version如果未安装，请先安装Java。1下载Maven从官网下载：前往Apach
Java企业面试题3 马龙强_ java
1.break和continue的作用(智*图)break：用于完全退出一个循环（如for,while）或一个switch语句。当在循环体内遇到break语句时，程序会立即跳出当前循环体，继续执行循环之后的代码。continue：用于跳过当前循环体中剩余的部分，并开始下一次循环。如果是在for循环中使用continue，则会直接进行条件判断以决定是否执行下一轮循环。2.if分支语句和switch分
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
白骑士的Java教学基础篇 2.5 控制流语句白骑士所长 Java 教学 java 开发语言
欢迎继续学习Java编程的基础篇！在前面的章节中，我们了解了Java的变量、数据类型和运算符。接下来，我们将探讨Java中的控制流语句。控制流语句用于控制程序的执行顺序，使我们能够根据特定条件执行不同的代码块，或重复执行某段代码。这是编写复杂程序的基础。通过学习这一节内容，你将掌握如何使用条件语句和循环语句来编写更加灵活和高效的代码。条件语句条件语句用于根据条件的真假来执行不同的代码块。if语句‘
python语法——三目运算符 HappyRocking python python 三目运算符
在java中，有三目运算符，如：intc=(a>b)?a:b表示c取两者中的较大值。但是在python，不能直接这样使用，估计是因为冒号在python有分行的关键作用。那么在python中，如何实现类似功能呢？可以使用ifelse语句，也是一行可以完成，格式为：aifbelsec表示如果b为True，则表达式等于a，否则等于c。如：c=(aif(a>b)elseb)同样是完成了取最大值的功能。
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
JavaScript `Map` 和 `WeakMap`详细解释跳房子的前端 JavaScript 原生方法 javascript 前端开发语言
在JavaScript中，Map和WeakMap都是用于存储键值对的数据结构，但它们有一些关键的不同之处。MapMap是一种可以存储任意类型的键值对的集合。它保持了键值对的插入顺序，并且可以通过键快速查找对应的值。Map提供了一些非常有用的方法和属性来操作这些数据对：set(key,value):将一个键值对添加到Map中。如果键已经存在，则更新其对应的值。get(key):获取指定键的值。如果键
切换淘宝最新npm镜像源是 hai40587 npm 前端 node.js
切换淘宝最新npm镜像源是一个相对简单的过程，但首先需要明确当前淘宝npm镜像源的状态和最新的镜像地址。由于网络环境和服务更新，镜像源的具体地址可能会发生变化，因此，我将基于当前可获取的信息，提供一个通用的切换步骤，并附上最新的镜像地址（截至回答时）。一、了解npm镜像源npm（NodePackageManager）是JavaScript的包管理器，用于安装、更新和管理项目依赖。由于npm官方仓库
【Java】已解决：java.util.concurrent.CompletionException 屿小夏 java 开发语言
文章目录一、分析问题背景出现问题的场景代码片段二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：java.util.concurrent.CompletionException一、分析问题背景在Java并发编程中，java.util.concurrent.CompletionException是一种常见的运行时异常，通常在使用CompletableFuture进行异步计算时出现
设计模式之建造者模式(通俗易懂--代码辅助理解【Java版】） ok!ko 设计模式设计模式建造者模式 java
文章目录设计模式概述1、建造者模式2、建造者模式使用场景3、优点4、缺点5、主要角色6、代码示例：1）实现要求2）UML图3)实现步骤：1）创建一个表示食物条目和食物包装的接口2）创建实现Packing接口的实体类3）创建实现Item接口的抽象类，该类提供了默认的功能4）创建扩展了Burger和ColdDrink的实体类5）创建一个Meal类，带有上面定义的Item对象6）创建一个MealBuil
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不