引鸩怼孑

全文检索引擎Solr系列——入门篇

Solr采用Lucene搜索库为核心，提供全文索引和搜索开源企业平台，提供REST的HTTP/XML和JSON的API，如果你是Solr新手，那么就和我一起来入门吧！本教程以solr4.8作为测试环境，jdk版本需要1.7及以上版本。

准备

本文假设你对Java有初中级以上水平，因此不再介绍Java相关环境的配置。下载解压缩solr，在example目录有start.jar文件，启动：

1	java -jar start.jar

浏览器访问：http://localhost:8983/solr/，你看到的就是solr的管理界面

索引数据

服务启动后，目前你看到的界面没有任何数据，你可以通过POSTing命令向Solr中添加（更新）文档，删除文档，在exampledocs目录包含一些示例文件，运行命令：

1	java -jar post.jar solr.xml monitor.xml

上面的命令是向solr添加了两份文档，打开这两个文件看看里面是什么内容，solr.xml里面的内容是：

<add>

<doc>

<field name="name">Solr, the Enterprise Search Server</field>

<field name="manu">Apache Software Foundation</field>

<field name="cat">software</field>

<field name="cat">search</field>

<field name="features">Advanced Full-Text Search Capabilities using Lucene</field>

<field name="features">OptimizedforHigh Volume Web Traffic</field>

<field name="features">Standards Based Open Interfaces - XML and HTTP</field>

<field name="features">Comprehensive HTML Administration Interfaces</field>

<field name="features">Scalability - Efficient Replication to other Solr Search Servers</field>

<field name="features">Flexible and Adaptable with XML configuration and Schema</field>

<field name="features">Good unicode support: héllo (hello with an accent over the e)</field>

</doc>

</add>

表示向索引中添加一个文档，文档就是用来搜索的数据源，现在就可以通过管理界面搜索关键字”solr”，具体步骤是：

点击页面下的Execute Query按钮后右侧就会显示查询结果，这个结果就是刚才导入进去的solr.xml的json格式的展示结果。solr支持丰富的查询语法，比如：现在想搜索字段name里面的关键字”Search”就可以用语法name:search，当然如果你搜索name:xxx就没有返回结果了，因为文档中没有这样的内容。

数据导入

导入数据到Solr的方式也是多种多样的：

可以使用DIH(DataImportHandler)从数据库导入数据
支持CSV文件导入，因此Excel数据也能轻松导入
支持JSON格式文档
二进制文档比如：Word、PDF
还能以编程的方式来自定义导入

更新数据

如果同一份文档solr.xml重复导入会出现什么情况呢？实际上solr会根据文档的字段id来唯一标识文档，如果导入的文档的id已经存在solr中，那么这份文档就被最新导入的同id的文档自动替换。你可以自己尝试试验一下，观察替换前后管理界面的几个参数：Num Docs，Max Doc，Deleted Docs的变化。

numDocs：当前系统中的文档数量，它有可能大于xml文件个数，因为一个xml文件可能有多个<doc>标签。
maxDoc：maxDoc有可能比numDocs的值要大，比如重复post同一份文件后，maxDoc值就增大了。
deletedDocs：重复post的文件会替换掉老的文档，同时deltedDocs的值也会加1，不过这只是逻辑上的删除，并没有真正从索引中移除掉

删除数据

通过id删除指定的文档，或者通过一个查询来删除匹配的文档

1 2	java -Ddata=args -jar post.jar"<delete><id>SOLR1000</id></delete>" java -Ddata=args -jar post.jar"<delete><query>name:DDR</query></delete>"

此时solr.xml文档从索引中删除了，再次搜”solr”时不再返回结果。当然solr也有数据库中的事务，执行删除命令的时候事务自动提交了，文档就会立即从索引中删除。你也可以把commit设置为false，手动提交事务。

1	java -Ddata=args -Dcommit=false-jar post.jar"<delete><id>3007WFP</id></delete>"

执行完上面的命令时文档并没有真正删除，还是可以继续搜索相关结果，最后可以通过命令：

1	java -jar post.jar -

提交事务，文档就彻底删除了。现在把刚刚删除的文件重新导入Solr中来，继续我们的学习。

删除所有数据：

1	http://localhost:8983/solr/collection1/update?stream.body=<delete><query>:</query></delete>&commit=true

删除指定数据

1	http://localhost:8983/solr/collection1/update?stream.body=<delete><query>title:abc</query></delete>&commit=true

多条件删除

1	http://localhost:8983/solr/collection1/update?stream.body=<delete><query>title:abc AND name:zhang</query></delete>&commit=true

查询数据

查询数据都是通过HTTP的GET请求获取的，搜索关键字用参数q指定，另外还可以指定很多可选的参数来控制信息的返回，例如：用fl指定返回的字段，比如f1=name，那么返回的数据就只包括name字段的内容

1	http://localhost:8983/solr/collection1/select?q=solr&fl=name&wt=json&indent=true

排序
Solr提供排序的功能，通过参数sort来指定，它支持正序、倒序，或者多个字段排序
- q=video&sort=price desc
- q=video&sort=price asc
- q=video&sort=inStock asc, price desc
  默认条件下，Solr根据socre 倒序排列，socre是一条搜索记录根据相关度计算出来的一个分数。
高亮
网页搜索中，为了突出搜索结果，可能会对匹配的关键字高亮出来，Solr提供了很好的支持，只要指定参数：
- hl=true #开启高亮功能
- hl.fl=name #指定需要高亮的字段

1	http://localhost:8983/solr/collection1/select?q=Search&wt=json&indent=true&hl=true&hl.fl=features

返回的内容中包含：

"highlighting":{

"SOLR1000":{

"features":["Advanced Full-Text <em>Search</em> Capabilities using Lucene"]

}

文本分析

文本字段通过把文本分割成单词以及运用各种转换方法（如：小写转换、复数移除、词干提取）后被索引，schema.xml文件中定义了字段在索引中，这些字段将作用于其中.
默认情况下搜索”power-shot”是不能匹配”powershot”的，通过修改schema.xml文件(solr/example/solr/collection1/conf目录)，把features和text字段替换成”text_en_splitting”类型，就能索引到了。

...

修改完后重启solr，然后重新导入文档

1	java -jar post.jar *.xml

现在就可以匹配了

power-shot—>Powershot
features:recharing—>Rechargeable

1 gigabyte –> 1G

场景：小时候我们都使用过新华字典，妈妈叫你翻开第38页，找到“坑爹”所在的位置，此时你会怎么查呢？毫无疑问，你的眼睛会从38页的第一个字开始从头至尾地扫描，直到找到“坑爹”二字为止。这种搜索方法叫做顺序扫描法。对于少量的数据，使用顺序扫描是够用的。但是妈妈叫你查出坑爹的“坑”字在哪一页时，你要是从第一页的第一个字逐个的扫描下去，那你真的是被坑了。此时你就需要用到索引。索引记录了“坑”字在哪一页，你只需在索引中找到“坑”字，然后找到对应的页码，答案就出来了。因为在索引中查找“坑”字是非常快的，因为你知道它的偏旁，因此也就可迅速定位到这个字。

那么新华字典的目录（索引表）是怎么编写而成的呢？首先对于新华字典这本书来说，除去目录后，这本书就是一堆没有结构的数据集。但是聪明的人类善于思考总结，发现每个字都会对应到一个页码，比如“坑”字就在第38页，“爹”字在第90页。于是他们就从中提取这些信息，构造成一个有结构的数据。类似数据库中的表结构：

word    page_no
---------------
坑        38
爹        90
...       ...

这样就形成了一个完整的目录（索引库），查找的时候就非常方便了。对于全文检索也是类似的原理，它可以归结为两个过程：1.索引创建（Indexing）2. 搜索索引（Search）。那么索引到底是如何创建的呢？索引里面存放的又是什么东西呢？搜索的的时候又是如何去查找索引的呢？带着这一系列问题继续往下看。

索引

Solr/Lucene采用的是一种反向索引，所谓反向索引：就是从关键字到文档的映射过程，保存这种映射这种信息的索引称为反向索引

左边保存的是字符串序列
右边是字符串的文档（Document）编号链表，称为倒排表（Posting List）

字段串列表和文档编号链表两者构成了一个字典。现在想搜索”lucene”，那么索引直接告诉我们，包含有”lucene”的文档有：2，3，10，35，92，而无需在整个文档库中逐个查找。如果是想搜既包含”lucene”又包含”solr”的文档，那么与之对应的两个倒排表去交集即可获得：3、10、35、92。

索引创建

假设有如下两个原始文档：
文档一：Students should be allowed to go out with their friends, but not allowed to drink beer.
文档二：My friend Jerry went to school to see his students but found them drunk which is not allowed.
创建过程大概分为如下步骤：

一：把原始文档交给分词组件(Tokenizer)
分词组件(Tokenizer)会做以下几件事情(这个过程称为：Tokenize)，处理得到的结果是词汇单元（Token）

将文档分成一个一个单独的单词
去除标点符号
去除停词(stop word)
- 所谓停词(Stop word)就是一种语言中没有具体含义，因而大多数情况下不会作为搜索的关键词，这样一来创建索引时能减少索引的大小。英语中停词(Stop word)如：”the”、”a”、”this”，中文有：”的，得”等。不同语种的分词组件(Tokenizer)，都有自己的停词(stop word)集合。经过分词(Tokenizer)后得到的结果称为词汇单元(Token)。上例子中，便得到以下词汇单元(Token)：
```
"Students"，"allowed"，"go"，"their"，"friends"，"allowed"，"drink"，"beer"，"My"，"friend"，"Jerry"，"went"，"school"，"see"，"his"，"students"，"found"，"them"，"drunk"，"allowed"
```

二：词汇单元(Token)传给语言处理组件(Linguistic Processor)
语言处理组件(linguistic processor)主要是对得到的词元(Token)做一些语言相关的处理。对于英语，语言处理组件(Linguistic Processor)一般做以下几点：

变为小写(Lowercase)。
将单词缩减为词根形式，如”cars”到”car”等。这种操作称为：stemming。
将单词转变为词根形式，如”drove”到”drive”等。这种操作称为：lemmatization。

语言处理组件(linguistic processor)处理得到的结果称为词(Term)，例子中经过语言处理后得到的词(Term)如下：

"student"，"allow"，"go"，"their"，"friend"，"allow"，"drink"，"beer"，"my"，"friend"，"jerry"，"go"，"school"，"see"，"his"，"student"，"find"，"them"，"drink"，"allow"。

经过语言处理后，搜索drive时drove也能被搜索出来。Stemming 和 lemmatization的异同：

相同之处：
1. Stemming和lemmatization都要使词汇成为词根形式。
两者的方式不同：
1. Stemming采用的是”缩减”的方式：”cars”到”car”，”driving”到”drive”。
2. Lemmatization采用的是”转变”的方式：”drove”到”drove”，”driving”到”drive”。
两者的算法不同：
1. Stemming主要是采取某种固定的算法来做这种缩减，如去除”s”，去除”ing”加”e”，将”ational”变为”ate”，将”tional”变为”tion”。
2. Lemmatization主要是采用事先约定的格式保存某种字典中。比如字典中有”driving”到”drive”，”drove”到”drive”，”am, is, are”到”be”的映射，做转变时，按照字典中约定的方式转换就可以了。
3. Stemming和lemmatization不是互斥关系，是有交集的，有的词利用这两种方式都能达到相同的转换。

三：得到的词(Term)传递给索引组件(Indexer)

利用得到的词(Term)创建一个字典

Term    Document ID
student     1
allow       1
go          1
their       1
friend      1
allow       1
drink       1
beer        1
my          2
friend      2
jerry       2
go          2
school      2
see         2
his         2
student     2
find        2
them        2
drink       2
allow       2

对字典按字母顺序排序：

Term    Document ID
allow       1
allow       1
allow       2
beer        1
drink       1
drink       2
find        2
friend      1
friend      2
go          1
go          2
his         2
jerry       2
my          2
school      2
see         2
student     1
student     2
their       1
them        2

合并相同的词(Term)成为文档倒排(Posting List)链表
- Document Frequency：文档频次，表示多少文档出现过此词(Term)
- Frequency：词频，表示某个文档中该词(Term)出现过几次

对词(Term) “allow”来讲，总共有两篇文档包含此词(Term)，词（Term)后面的文档链表总共有两个，第一个表示包含”allow”的第一篇文档，即1号文档，此文档中，”allow”出现了2次，第二个表示包含”allow”的第二个文档，是2号文档，此文档中，”allow”出现了1次

至此索引创建完成，搜索”drive”时，”driving”，”drove”，”driven”也能够被搜到。因为在索引中，”driving”，”drove”，”driven”都会经过语言处理而变成”drive”，在搜索时，如果您输入”driving”，输入的查询语句同样经过分词组件和语言处理组件处理的步骤，变为查询”drive”，从而可以搜索到想要的文档。

搜索步骤

搜索”microsoft job”，用户的目的是希望在微软找一份工作，如果搜出来的结果是:”Microsoft does a good job at software industry…”，这就与用户的期望偏离太远了。如何进行合理有效的搜索，搜索出用户最想要得结果呢？搜索主要有如下步骤：

一：对查询内容进行词法分析、语法分析、语言处理

词法分析：区分查询内容中单词和关键字，比如：english and janpan，”and”就是关键字，”english”和”janpan”是普通单词。
根据查询语法的语法规则形成一棵树
语言处理，和创建索引时处理方式是一样的。比如：leaned–>lean，driven–>drive

二：搜索索引，得到符合语法树的文档集合
三：根据查询语句与文档的相关性，对结果进行排序

我们把查询语句也看作是一个文档，对文档与文档之间的相关性（relevance）进行打分（scoring），分数高比较越相关，排名就越靠前。当然还可以人工影响打分，比如百度搜索，就不一定完全按照相关性来排名的。

如何评判文档之间的相关性？一个文档由多个（或者一个）词（Term）组成，比如：”solr”， “toturial”，不同的词可能重要性不一样，比如solr就比toturial重要，如果一个文档出现了10次toturial，但只出现了一次solr，而另一文档solr出现了4次，toturial出现一次，那么后者很有可能就是我们想要的搜的结果。这就引申出权重（Term weight）的概念。

权重表示该词在文档中的重要程度，越重要的词当然权重越高，因此在计算文档相关性时影响力就更大。通过词之间的权重得到文档相关性的过程叫做空间向量模型算法(Vector Space Model)

影响一个词在文档中的重要性主要有两个方面：

Term Frequencey（tf），Term在此文档中出现的频率，ft越大表示越重要
Document Frequency（df），表示有多少文档中出现过这个Trem，df越大表示越不重要
物以希为贵，大家都有的东西，自然就不那么贵重了，只有你专有的东西表示这个东西很珍贵，权重的公式：

空间向量模型

文档中词的权重看作一个向量

Document = {term1, term2, …… ,term N}
Document Vector = {weight1, weight2, …… ,weight N}

把欲要查询的语句看作一个简单的文档，也用向量表示：

Query = {term1, term 2, …… , term N}
Query Vector = {weight1, weight2, …… , weight N}

把搜索出的文档向量及查询向量放入N维度的空间中，每个词表示一维：

夹角越小，表示越相似，相关性越大

Document

Document是Solr索引（动词，indexing）和搜索的最基本单元，它类似于关系数据库表中的一条记录，可以包含一个或多个字段（Field），每个字段包含一个name和文本值。字段在被索引的同时可以存储在索引中，搜索时就能返回该字段的值，通常文档都应该包含一个能唯一表示该文档的id字段。例如：

<doc>

<field name="id">company123</field>

<field name="companycity">Atlanta</field>

<field name="companystate">Georgia</field>

<field name="companyname">Code Monkeys R Us, LLC</field>

<field name="companydescription">we write lots of code</field>

</doc>

Schema

Solr中的Schema类似于关系数据库中的表结构，它以schema.xml的文本形式存在在conf目录下，在添加文当到索引中时需要指定Schema，Schema文件主要包含三部分：字段（Field）、字段类型（FieldType）、唯一键（uniqueKey）

字段类型（FieldType）：用来定义添加到索引中的xml文件字段（Field）中的类型，如：int，String，date，
字段（Field）：添加到索引文件中时的字段名称
唯一键（uniqueKey）：uniqueKey是用来标识文档唯一性的一个字段（Feild），在更新和删除时用到

例如：

<tokenizerclass="solr.StandardTokenizerFactory"/>

<filterclass="solr.StopFilterFactory"ignoreCase="true"words="stopwords.txt"/>

<!-- inthisexample, we will only use synonyms at query time

<filterclass="solr.SynonymFilterFactory"synonyms="index_synonyms.txt"ignoreCase="true"expand="false"/>

-->

<filterclass="solr.LowerCaseFilterFactory"/>

</analyzer>

<tokenizerclass="solr.StandardTokenizerFactory"/>

<filterclass="solr.StopFilterFactory"ignoreCase="true"words="stopwords.txt"/>

<filterclass="solr.SynonymFilterFactory"synonyms="synonyms.txt"ignoreCase="true"expand="true"/>

<filterclass="solr.LowerCaseFilterFactory"/>

</analyzer>

</fieldType>

</schema>

Field

在Solr中，字段(Field)是构成Document的基本单元。对应于数据库表中的某一列。字段是包括了名称，类型以及对字段对应的值如何处理的一种元数据。比如：

<field name="name" type="text_general" indexed="true" stored="true"/>

Indexed：Indexed=true时，表示字段会加被Sorl处理加入到索引中，只有被索引的字段才能被搜索到。
Stored：Stored=true，字段值会以保存一份原始内容在在索引中，可以被搜索组件组件返回，考虑到性能问题，对于长文本就不适合存储在索引中。

Field Type

Solr中每个字段都有一个对应的字段类型，比如：float、long、double、date、text，Solr提供了丰富字段类型，同时，我们还可以自定义适合自己的数据类型，例如：

<tokenizerclass="org.wltea.analyzer.lucene.IKAnalyzerSolrFactory"useSmart="false"/>

</analyzer>

<tokenizerclass="org.wltea.analyzer.lucene.IKAnalyzerSolrFactory"useSmart="true"/>

</analyzer>

</fieldType>

Solrconfig：

如果把Schema定义为Solr的Model的话，那么Solrconfig就是Solr的Configuration，它定义Solr如果处理索引、高亮、搜索等很多请求，同时还指定了缓存策略，用的比较多的元素包括：

指定索引数据路径

<!--

Used to specify an alternate directory to hold all index data

other than thedefault./data under the Solr home.

If replication is in use,thisshould match the replication configuration.

-->

缓存参数

<filterCache

class="solr.FastLRUCache"

size="512"

initialSize="512"

autowarmCount="0"/>

<!-- queryResultCache caches results of searches - ordered lists of

document ids (DocList) based on a query, a sort, and the range

of documents requested. -->

<queryResultCache

class="solr.LRUCache"

size="512"

initialSize="512"

autowarmCount="0"/>

<!-- documentCache caches Lucene Document objects (the stored fieldsforeach document).

Since Lucene internal document ids aretransient,thiscache will not be autowarmed. -->

<documentCache

class="solr.LRUCache"

size="512"

initialSize="512"

autowarmCount="0"/>

请求处理器
请求处理器用于接收HTTP请求，处理搜索后，返回响应结果的处理器。比如：query请求：

<str name="echoParams">explicit</str>

</lst>

</requestHandler>

每个请求处理器包括一系列可配置的搜索参数，例如：wt,indent,df等等。

搜索组件

MySQL

拷贝mysql-connector-java-5.1.25-bin.jar到E:\solr-4.8.0\example\solr-webapp\webapp\WEB-INF\lib目录下面
配置E:\solr-4.8.0\example\solr\collection1\conf\solrconfig.xml

<requestHandlername="/dataimport"

class="org.apache.solr.handler.dataimport.DataImportHandler">

<lstname="defaults">

<strname="config">data-config.xml</str>

</lst>

</requestHandler>

导入依赖库文件：

1	<lib dir="../../../dist/" regex="solr-dataimporthandler-\d.*\.jar"/>

加在

1	<lib dir="../../../dist/" regex="solr-cell-\d.*\.jar" />

前面。

创建E:\solr-4.8.0\example\solr\collection1\conf\data-config.xml，指定MySQL数据库地址，用户名、密码以及建立索引的数据表

<?xmlversion="1.0"encoding="UTF-8"?>

<dataSourcetype="JdbcDataSource"

driver="com.mysql.jdbc.Driver"

url="jdbc:mysql://localhost:3306/django_blog"

user="root"

password=""/>

<documentname="blog">

<entityname="blog_blog"pk="id"

query="select id,title,content from blog_blog"

deltaImportQuery="select id,title,content from blog_blog where ID='${dataimporter.delta.id}'"

deltaQuery="select id from blog_blog where add_time > '${dataimporter.last_index_time}'"

deletedPkQuery="select id from blog_blog where id=0">

<fieldcolumn="id"name="id"/>

<fieldcolumn="title"name="title"/>

<fieldcolumn="content"name="content"/>

</entity>

</document>

</dataConfig>

query 用于初次导入到索引的sql语句。
- 考虑到数据表中的数据量非常大，比如千万级，不可能一次索引完，因此需要分批次完成，那么查询语句query要设置两个参数：${dataimporter.request.length} ${dataimporter.request.offset}
- query=”select id,title,content from blog_blog limit ${dataimporter.request.length} offset ${dataimporter.request.offset}”
- 请求：http://localhost:8983/solr/collection2/dataimport?command=full-import&commit=true&clean=false&offset=0&length=10000
deltaImportQuery 根据ID取得需要进入的索引的单条数据。
deltaQuery 用于增量索引的sql语句，用于取得需要增量索引的ID。
deletedPkQuery 用于取出需要从索引中删除文档的的ID

为数据库表字段建立域（field），编辑E:\solr-4.8.0\example\solr\collection1\conf\schema.xml:

<fieldname="id"type="string"indexed="true"stored="true"required="true"/>

<fieldname="title"type="text_cn"indexed="true"stored="true"termVectors="true"termPositions="true"termOffsets="true"/>

<fieldname="content"type="text_cn"indexed="true"stored="true"termVectors="true"termPositions="true"termOffsets="true"/>

配置增量索引更新文件

参考：

http://josh-persistence.iteye.com/blog/2017155
http://wiki.apache.org/solr/DataImportHandler#Using_delta-import_command

Mongodb

安装mongo-connector，最好使用手动安装方式：
```
<code>git clone https://github.com/10gen-labs/mongo-connector.git cd mongo-connector #安装前修改mongo_connector/constants.py的变量：设置DEFAULT_COMMIT_INTERVAL = 0 python setup.py install </code>
```
默认是不会自动提交了，这里设置成自动提交，否则mongodb数据库更新，索引这边没法同时更新，或者在命令行中可以指定是否自动提交，不过我现在还没发现。

配置schema.xml，把mongodb中需要加上索引的字段配置到schema.xml文件中：

<?xmlversion="1.0"encoding="UTF-8"?>

<schemaname="example"version="1.5">

<fieldname="_version_"type="long"indexed="true"stored="true"/>

<fieldname="_id"type="string"indexed="true"stored="true"required="true"multiValued="false"/>

<fieldname="body"type="string"indexed="true"stored="true"/>

<fieldname="title"type="string"indexed="true"stored="true"multiValued="true"/>

<fieldname="text"type="text_general"indexed="true"stored="false"multiValued="true"/>

<defaultSearchField>title</defaultSearchField>

<solrQueryParserdefaultOperator="OR"/>

<fieldTypename="string"class="solr.StrField"sortMissingLast="true"/>

<fieldTypename="long"class="solr.TrieLongField"precisionStep="0"positionIncrementGap="0"/>

<fieldTypename="text_general"class="solr.TextField"positionIncrementGap="100">

<analyzertype="index">

<tokenizerclass="solr.StandardTokenizerFactory"/>

<filterclass="solr.StopFilterFactory"ignoreCase="true"words="stopwords.txt"/>

<filterclass="solr.LowerCaseFilterFactory"/>

</analyzer>

<analyzertype="query">

<tokenizerclass="solr.StandardTokenizerFactory"/>

<filterclass="solr.StopFilterFactory"ignoreCase="true"words="stopwords.txt"/>

<filterclass="solr.SynonymFilterFactory"synonyms="synonyms.txt"ignoreCase="true"expand="true"/>

<filterclass="solr.LowerCaseFilterFactory"/>

</analyzer>

</fieldType>

</schema>

启动Mongod：

<code>mongod --replSet myDevReplSet --smallfiles </code>

初始化:rs.initiate()

启动mongo-connector:
```
<code>E:\Users\liuzhijun\workspace\mongo-connector\mongo_connector\doc_managers&gt;mongo-connector -m localhost:27017 -t http://localhost:8983/solr/collection2 -n s_soccer.person -u id -d ./solr_doc_manager.py </code>
```
- -m：mongod服务
- -t：solr服务
- -n：mongodb命名空间，监听database.collection，多个命名空间逗号分隔
- -u：uniquekey
- -d：处理文档的manager文件
注意：mongodb通常使用_id作为uniquekey，而Solrmore使用id作为uniquekey，如果不做处理，索引文件时将会失败，有两种方式来处理这个问题：
1. 指定参数--unique-key=id到mongo-connector，Mongo Connector 就可以翻译把_id转换到id。
2. 把schema.xml文件中的:
```
<code>&lt;uniqueKey&gt;id&lt;uniqueKey&gt; </code>
```
  替换成
```
<code>&lt;uniqueKey&gt;_id&lt;/uniqueKey&gt; </code>
```
  同时还要定义一个_id的字段：
```
<code>&lt;field name="_id" type="string" indexed="true" stored="true" /&gt; </code>
```
3. 启动时如果报错：
```
<code>2014-06-18 12:30:36,648 - ERROR - OplogThread: Last entry no longer in oplog cannot recover! Collection(Database(MongoClient('localhost', 27017), u'local'), u'oplog.rs') </code>
```
  清空E:\Users\liuzhijun\workspace\mongo-connector\mongo_connector\doc_managers\config.txt中的内容，需要删除索引目录下的文件重新启动
测试
mongodb中的数据变化都会同步到solr中去。

你可能感兴趣的:(全文检索引擎Solr系列——入门篇)

Golang Kratos 系列：业务分层的若干思考（二） TransPlus golang 开发语言后端
上一篇文章简单讨论了领域层在Kratos中的使用，主要涉及引入领域层，将数据层和业务层之间的解耦，接下来讨论一个稍微全面一点的例子，在此基础上引入外部Api（主要是易变部分）的领域层下的情况。我们同样可以通过依赖倒置和适配器模式实现统一治理：一、升级后的领域层架构internal/├──domain（biz）#核心领域层│├──user.go#用户聚合根│├──payment.go#支付领域服务接
Day32 Web自动化进阶 lookout99 软件测试 python 自动化测试工具
系列文章目录Day01软件测试基础总结Day02测试用例知识点总结（上）Day03测试用例知识点总结（下）Day04禅道-从安装到卸载Day05MySql的基础使用Day06MySql知识点总结Day07MySql知识点再总结与多表查询Day08redis的基础知识Day08VMware的安装、Linux系统安装和Linux基础命令Day09Linux常用命令总结Day10Linux环境部署和项目
Day33 PO模型 lookout99 软件测试 python 自动化测试工具
系列文章目录Day01软件测试基础总结Day02测试用例知识点总结（上）Day03测试用例知识点总结（下）Day04禅道-从安装到卸载Day05MySql的基础使用Day06MySql知识点总结Day07MySql知识点再总结与多表查询Day08redis的基础知识Day08VMware的安装、Linux系统安装和Linux基础命令Day09Linux常用命令总结Day10Linux环境部署和项目
什么是IOC（控制反转）？—— 用生活实例解读Spring核心概念坷否生活 spring 网络
什么是IOC（控制反转）？——用生活实例解读Spring核心概念在Spring框架中，IOC（InversionofControl，控制反转）是最核心、最基础的概念。然而，对于初学者来说，这个概念往往显得有些抽象和难以理解。今天，我们将通过一系列生活中的例子，来深入浅出地解释什么是IOC，以及为什么它如此重要。IOC是什么？IOC，即"控制反转"，是一种设计思想，也是Spring框架的核心原则。简
Node.js特训专栏-实战进阶：7.Express模板引擎选型与使用爱分享的程序员 Node.js node.js 前端 javascript
欢迎来到Node.js实战专栏！在这里，每一行代码都是解锁高性能应用的钥匙，让我们一起开启Node.js的奇妙开发之旅！Node.js特训专栏主页专栏内容规划详情Express模板引擎选型与使用全解析：打造动态Web页面的利器在基于Express构建Web应用时，模板引擎是生成动态页面的核心组件。它允许开发者将数据与HTML结构分离，通过简单的语法将后端数据动态填充到页面中。市面上存在多种模板引擎
Unity团结引擎实战：鸿蒙游戏开发全指南编号:0517 鸿蒙 harmonyos5.0 unity 华为鸿蒙
鸿蒙游戏开发实战：Unity团结引擎适配指南与代码示例文/技术探索随着鸿蒙生态的快速扩张，Unity游戏向鸿蒙OS（OpenHarmony）的迁移已成为开发者新需求。本文将基于Unity团结引擎（专为鸿蒙定制的Unity分支），详解适配流程并提供可运行的代码示例。一、团结引擎：鸿蒙原生适配的核心工具Unity中国推出的团结引擎（基于Unity2022LTS定制）是当前唯一官方支持的鸿蒙适配方案，其
前端基础知识JavaScript系列 - 25（Javascript本地存储）前端小白从0开始前端 javascript 开发语言
一、方式javaScript本地缓存的方法我们主要讲述以下四种：cookiesessionStoragelocalStorageindexedDBcookieCookie，类型为「小型文本文件」，指某些网站为了辨别用户身份而储存在用户本地终端上的数据。是为了解决HTTP无状态导致的问题作为一段一般不超过4KB的小型文本数据，它由一个名称（Name）、一个值（Value）和其它几个用于控制cooki
Unity团结引擎深度适配HarmonyOS 5.0：渲染架构与系统能力整合指南 H老师带你学鸿蒙游戏引擎 HarmonyOS5.0 unity 华为鸿蒙 DevEco Studio
随着HarmonyOS5.0的发布，华为操作系统在分布式能力和性能优化方面实现了重大突破。Unity团结引擎作为领先的游戏引擎，深度适配HarmonyOS5.0对开发者来说意义重大。本文将深入探讨Unity在HarmonyOS上的渲染架构优化与系统能力整合，并提供实用的代码示例。一、环境配置与项目设置要开始HarmonyOS5.0下的Unity开发，首先完成环境配置：安装UnityHub2022L
AR技术：开启工业维修新纪元，赋能效率与精准 Teamhelper_AR ar
在当今数字化浪潮的推动下，增强现实（AR）技术正以前所未有的速度改变着工业维修领域的面貌。从能源勘探到工业制造，从新能源运维到医疗手术，AR技术的应用不仅极大地提高了工作效率，还为专业人员提供了前所未有的精准支持。本文将深入探讨AR技术如何解决工业维修中的难题，并展望其在未来的发展趋势。引言：AR技术，工业维修的新引擎2025年，增强现实（AR）技术已从科幻概念蜕变为驱动产业升级的核心引擎。全球A
外星人原厂系统戴尔外星人全系列原厂系统安装戴尔外星人原装系统 V～X：CHxysm 电脑
戴尔Alienware外星人原厂oem系统全部型号都有！文件分享https://pan.baidu.com/s/1hCgmPMN83PqoBAJHe50oPg?pwd=8888（文件提取码8888）外星人原机开箱系统win11与win10戴尔外星人远程安装原厂系统，带F12SupportAssistOSRecovery恢复功能1；远程恢复原机开箱系统状态，alienware自带外星人壁纸、系统lo
疏通经脉: Bridge 联通逻辑层和渲染层风铃喵游从零搭建小程序框架架构前端小程序架构
本节概述经过前面两节的开发，我们已经完成了小程序逻辑线程和UI线程的启动引擎准备，这节开始，我们将完善nativebridge层的搭建，构建起逻辑线程和UI线程之间的桥梁。开始之前我们先来回顾一下逻辑引擎小节相关的流程图:一次小程序的启动过程，我们在创建好小程序的逻辑引擎worker和绘制引擎webview之后，从启动到渲染依次会经过:通知webview加载小程序资源，如果是首次启动，还需要通知逻
逻辑引擎：执行小程序JS代码风铃喵游从零搭建小程序框架架构小程序前端架构
本节概述上小节我们完成了基础的小程序双线程架构的搭建，我们通过Worker启动了一个逻辑线程用于执行小程序JS代码，使用iFrame创建了一个UI线程，用于渲染小程序的页面；这节开始我们将分别针对双线程的具体逻辑进行实现，本节我们先从逻辑线程入手，看看JS代码是如何在Worker线程内运行的；开始之前，我们先通过一个图来看看小程序启动过程，双线程之间的通信流程:从图上可以看到，小程序的启动分别由逻
LOGO SEO优化码哥DFS 前端 html css
1.logo里面首先放一个h1标签，目的是为了提权，告诉搜索引擎，这个地方很重要。2.h1里面再放一个链接，可以返回首页的，把logo的背景图片给链接即可。3.为了搜索引擎收录我们，我们链接里面要放文字(网站名称)，但是文字不要显示出来。方法1:text-indent移到盒子外面(text-indent:-9999px),然后overflow:hidden。方法2:直接给font-size:0;就
python爬虫登录校验之滑块验证、图形验证码（OCR） yuwinter Python python 爬虫 ocr 滑块验证
在爬虫过程中，验证码和滑块验证是常见的反爬措施。针对这些挑战，通常采用OCR识别图形验证码和模拟滑块拖动来处理滑块验证。以下是如何处理这两种类型验证的详细方法。1.图形验证码（OCR）a.使用tesserocr和Pillow处理图形验证码tesserocr是基于TesseractOCR引擎的Python封装，常用来识别简单的图形验证码。如果验证码不太复杂，可以用它来识别文本。步骤：安装依赖：pip
倾向得分匹配的stata命令_R语言系列1：倾向得分匹配 weixin_39995108 倾向得分匹配的stata命令
1PSM简介倾向评分匹配(PropensityScoreMatching，简称PSM)是一种统计学方法，用于处理观察研究(ObservationalStudy)的数据。在观察研究中，由于种种原因，数据偏差(bias)和混杂变量(confoundingvariable)较多，倾向评分匹配的方法正是为了减少这些偏差和混杂变量的影响，以便对实验组和对照组进行更合理的比较。这种方法最早由PaulRosen
VTJ.PRO：打破次元壁！AI驱动 + 双向代码自由穿梭，重新定义Vue高效开发！前端人工智能vue3
“既要低代码的速度，又要手写代码的自由？”——现在，无需妥协！VTJ.PRO革命性推出“双向代码转换引擎”，让开发者在可视化设计与源码编辑间无缝切换，真正实现“设计即代码，代码即设计”的终极工作流！✨核心黑科技：双向自由转换可视化设计→纯净源码拖拽生成的界面，一键转换为高质量Vue3组件代码，无冗余、无黑盒！支持导出标准.vue文件，无缝嵌入现有工程，源码100%自主可控！手写代码→可视化编辑将已
JVM调优实战 Day 11：JVM参数调优最佳实践在未来等你 JVM调优实战 JVM Java 性能优化调优虚拟机
【JVM调优实战Day11】JVM参数调优最佳实践文章标签jvm,jvm调优,java性能优化,jvm参数配置,垃圾回收,JVM监控,Java开发,架构设计文章简述在Java应用的性能调优过程中，JVM参数的合理配置是影响系统稳定性和吞吐量的关键因素。本文作为“JVM调优实战”系列的第11天内容，全面讲解JVM参数调优的核心概念、技术原理与实际应用场景。文章从JVM内存模型、GC策略出发，深入分析
设计模式精讲 Day 13：责任链模式（Chain of Responsibility Pattern）
【设计模式精讲Day13】责任链模式（ChainofResponsibilityPattern）文章内容在“设计模式精讲”系列的第13天，我们将深入讲解责任链模式（ChainofResponsibilityPattern）。这是一种行为型设计模式，它通过将请求的发送者和接收者解耦，使得多个对象都有机会处理请求，从而避免了请求的发送者与接收者之间的紧耦合。责任链模式的核心思想是：将请求的处理过程组织
JVM调优实战 Day 5：内存泄漏与溢出分析在未来等你 JVM调优实战 JVM Java 性能优化调优虚拟机
【JVM调优实战Day5】内存泄漏与溢出分析文章简述在Java应用中，内存泄漏和内存溢出是常见的性能瓶颈问题。本文作为“JVM调优实战”系列的第五天内容，深入讲解了JVM中内存泄漏与溢出的基本概念、原理机制、常见问题及诊断方法。文章通过理论结合实践的方式，介绍了如何使用JVM工具如jstat、jmap、jhat等进行堆内存分析，并提供了完整的代码示例和配置参数。同时，文中还包含一个真实生产环境中的
【V2.0 - 侦查篇】数据可视化：我用一行代码，抓到了播放量的“头号杀手” 爱分享的飘哥信息可视化
系列回顾：在上一篇《我的播放量“薛定谔”了，所以，我给它建了个“数据公墓”》中，我们成功地为杂乱的创作数据找到了一个整洁的家。但数据入库只是第一步，面对着这张整齐却冰冷的表格，一个新的问题浮现在我脑海中…一、后台的“数据迷雾”打开任何一个自媒体后台，我们都会被淹没在数据的海洋里：播放量、点赞率、评论率、粉丝转化率、完播率、跳出率…“后台几十个指标，看得人眼花缭乱。但哪个才是真正的‘牛鼻子’？哪个指
SpringCloud系列（41）--SpringCloud Config分布式配置中心简介
前言：微服务意味着要将单体应用中的业务拆分成一个个子服务，每个服务的粒度相对较小，因此系统中会出现大量的服务，但由于每个服务都需要必要的配置信息才能运行，所以—套集中式的、动态的配置管理设施是必不可少的，为此SpringCloudConfig就是一套集中式管理的技术解决方案。1、什么是SpringCloudConfigSpringCloudConfig为微服务架构中的微服务提供集中化的外部配置支持
【Python系列PyCharm控制台pip install报错】如何解决pip安装报错ModuleNotFoundError: No module named ‘numpy’问题
【Python系列PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘numpy’问题摘要在日常Python开发过程中，pipinstall相关的问题频繁困扰着新手和老手。尤其是在PyCharm控制台下执行pipinstallnumpy后，仍然报ModuleNotFoundError:Nomodulenamed'n
【Python系列PyCharm控制台pip install报错】如何解决pip安装报错ModuleNotFoundError: No module named ‘flask’问题 lyzybbs 全栈Bug解决方案专栏 python pycharm pip sklearn 开发语言 flask pandas
【Python系列PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘flask’问题摘要在进行Python开发时，我们常常会遇到通过pipinstall安装依赖包时出现的各种问题。其中最常见的报错之一是ModuleNotFoundError:Nomodulenamed‘flask’。这个错误通常发生在安装Flas
Python爬虫实战：研究difflib库相关技术 ylfhpy 爬虫项目实战 python 爬虫 easyui 开发语言前端 difflib
1.引言1.1研究背景与意义在信息爆炸的数字时代，互联网每天产生海量文本内容。据统计，全球新闻网站日均发布文章超过300万篇，社交媒体平台产生的文本信息量更以亿级单位增长。这种信息过载带来了内容同质化、抄袭剽窃等问题，给新闻媒体行业、学术研究领域和搜索引擎优化等带来了挑战。文本相似度分析作为自然语言处理的重要分支，能够有效识别内容间的相似程度，具有重要的应用价值：新闻媒体行业：通过检测新闻抄袭和重
python系列教程246——多态人工智能AI技术 python系列教程 python 开发语言
朋友们，如需转载请标明出处：https://blog.csdn.net/jiangjunshow声明：在人工智能技术教学期间，不少学生向我提一些python相关的问题，所以为了让同学们掌握更多扩展知识更好地理解AI技术，我让助理负责分享这套python系列教程，希望能帮到大家！由于这套python教程不是由我所写（有时候有空也会参与编写），所以不如我的人工智能教程风趣幽默，学起来比较枯燥；但它的知
Javascript：ES6+概念详解善良的小乔人工智能 javascript es6 开发语言
Javascript：ES6+概念详解善良的小乔一.基础概念什么是ES6+？ES6+（或ES2015+）是JavaScript语言的现代版本，包含了从2015年ES6（ECMAScript2015）开始的一系列更新。这些更新引入了新的语法糖、内置对象和API，显著提升了代码的可读性、简洁性和开发效率。什么是ECMAScript？ECMAScript是JavaScript的标准化规范（由ECMA国际
解锁UV工具新玩法：让Python脚本运行更高效的实用技巧 marao python uv 深度学习开发语言人工智能
作为Python开发者，你是否经常被依赖安装的漫长等待、虚拟环境的繁琐管理，或是脚本分享时“环境不一致”的问题困扰？近年来，一款名为UV的工具悄然兴起，它不仅以极速安装依赖著称，更通过一系列创新设计重构了Python脚本的运行逻辑。本文主要介绍UV的三大实用技巧，从“依赖即代码”到“动态环境隔离”，体验真正“即写即跑”的高效开发模式。1.极速启动：1秒搞定依赖安装，告别虚拟环境烦恼传统Python
【STM32】USART串口协议&串口外设对error说不 stm32 嵌入式硬件单片机
✅作者简介：热爱科研的嵌入式开发者，修心和技术同步精进❤欢迎关注我的知乎：对error视而不见代码获取、问题探讨及文章转载可私信。☁愿你的生命中有够多的云翳,来造就一个美丽的黄昏。获取更多嵌入式资料可点击链接进群领取，谢谢支持！点击领取更多详细资料一、引言在嵌入式系统开发里，设备间的通信是关键环节。串口通信由于其实现简单、成本低廉等特性，被广泛应用于各类设备之间的数据传输。STM32系列微控制器具
电影院售票 - 策略模式（Strategy Pattern）
策略模式（StrategyPattern）策略模式（StrategyPattern）策略模式概述策略模式结构图策略模式主要包含的角色talkischeap，showyoumycode总结策略模式（StrategyPattern）策略模式（StrategyPattern）是一种行为型设计模式，它定义了一系列算法，并将每个算法封装起来，使它们可以相互替换。策略模式让算法独立于使用它的客户端而变化，从而
浏览器原理与API 天涯学馆 Web大前端全栈架构 javascript 前端
浏览器原理与渲染机制浏览器架构概述现代浏览器通常由以下核心组件构成：用户界面(UI)：地址栏、后退/前进按钮、书签菜单等浏览器引擎：在用户界面和渲染引擎之间架起桥梁渲染引擎：负责显示请求的内容(如Chrome的Blink、Firefox的Gecko)网络层：处理网络请求(如HTTP请求)JavaScript引擎：解释和执行JavaScript代码(如V8引擎)UI后端：绘制基本的窗口小部件(如组合
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option