冯京宝

lucene、lucene.NET详细使用与优化详解

1 lucene简介ITPUB个人空间f FMA\5MS&f3d~
1.1 什么是luceneITPUB个人空间9^T d1h m
Lucene是一个全文搜索框架，而不是应用产品。因此它并不像www.baidu.com 或者google Desktop那么拿来就能用，它只是提供了一种工具让你能实现这些产品。ITPUB个人空间Zi\ E8o
ITPUB个人空间&vy XXL:Q
1.2 lucene能做什么ITPUB个人空间~&s1n7e?:g%a
要回答这个问题，先要了解lucene的本质。实际上lucene的功能很单一，说到底，就是你给它若干个字符串，然后它为你提供一个全文搜索服务，告诉你你要搜索的关键词出现在哪里。知道了这个本质，你就可以发挥想象做任何符合这个条件的事情了。你可以把站内新闻都索引了，做个资料库；你可以把一个数据库表的若干个字段索引起来，那就不用再担心因为“%like%”而锁表了；你也可以写个自己的搜索引擎……
[[P.A2y#J'|n0
3b^f6J%J:Gl/g01.3 你该不该选择lucene
-V ^\ {N0下面给出一些测试数据，如果你觉得可以接受，那么可以选择。ITPUB个人空间,PrZ1ooo9M @9|1o:G
测试一：250万记录，300M左右文本，生成索引380M左右，800线程下平均处理时间300ms。
.?AZwTeW0测试二：37000记录，索引数据库中的两个varchar字段，索引文件2.6M，800线程下平均处理时间1.5ms。
#w,N+H0d'H}JAg.B&M0
+Q%Tx)EQ1A] t02 lucene的工作方式ITPUB个人空间Do[3B w&C5JC%p c
lucene提供的服务实际包含两部分：一入一出。所谓入是写入，即将你提供的源（本质是字符串）写入索引或者将其从索引中删除；所谓出是读出，即向用户提供全文搜索服务，让用户可以通过关键词定位源。
[3j"tT1[o$t"@+YDXO0
.D xY Z0I/EYF2CX02.1写入流程
B {%g ['C%?1]0源字符串首先经过analyzer处理，包括：分词，分成一个个单词；去除stopword（可选）。ITPUB个人空间hx/p3zg'Mp%R
将源中需要的信息加入Document的各个Field中，并把需要索引的Field索引起来，把需要存储的Field存储起来。ITPUB个人空间"_t5pvT-? ^+q5r&@
将索引写入存储器，存储器可以是内存或磁盘。
N1ih"d%{-F#a0
nO#z{(V.v02.2读出流程ITPUB个人空间m E7G%x:SWI'b
用户提供搜索关键词，经过analyzer处理。ITPUB个人空间.DNi1_ A.[ j
对处理后的关键词搜索索引找出对应的Document。ITPUB个人空间$` FQ,Q^VR
用户根据需要从找到的Document中提取需要的Field。ITPUB个人空间sKvA ]ws i%T:k

p2X&Z(?UY^)x03 一些需要知道的概念
7mJ:oqvGYo L6p?u0lucene用到一些概念，了解它们的含义，有利于下面的讲解。ITPUB个人空间s8uBO9N
ITPUB个人空间8~e2\`4mxh Bj
3.1 analyzer
KoC@e!t0Analyzer 是分析器，它的作用是把一个字符串按某种规则划分成一个个词语，并去除其中的无效词语，这里说的无效词语是指英文中的 “of”、 “the”，中文中的“的”、“地”等词语，这些词语在文章中大量出现，但是本身不包含什么关键信息，去掉有利于缩小索引文件、提高效率、提高命中率。ITPUB个人空间:SE jj)J E1QQ
分词的规则千变万化，但目的只有一个：按语义划分。这点在英文中比较容易实现，因为英文本身就是以单词为单位的，已经用空格分开；而中文则必须以某种方法将连成一片的句子划分成一个个词语。具体划分方法下面再详细介绍，这里只需了解分析器的概念即可。ITPUB个人空间vH]0cCqV a
ITPUB个人空间 w4xVPB7\ iTv5d
3.2 document
O@Z$@[b0用户提供的源是一条条记录，它们可以是文本文件、字符串或者数据库表的一条记录等等。一条记录经过索引之后，就是以一个Document的形式存储在索引文件中的。用户进行搜索，也是以Document列表的形式返回。
O5m1l h"E3l5}2Z0
xG+Ka AiD6RY03.3 field
+BSo5am"e0一个Document可以包含多个信息域，例如一篇文章可以包含“标题”、“正文”、“最后修改时间”等信息域，这些信息域就是通过Field在Document中存储的。ITPUB个人空间b0J&L#oq O;S
Field有两个属性可选：存储和索引。通过存储属性你可以控制是否对这个Field进行存储；通过索引属性你可以控制是否对该Field进行索引。这看起来似乎有些废话，事实上对这两个属性的正确组合很重要，下面举例说明：
hd'c/Q3r2?G0还是以刚才的文章为例子，我们需要对标题和正文进行全文搜索，所以我们要把索引属性设置为真，同时我们希望能直接从搜索结果中提取文章标题，所以我们把标题域的存储属性设置为真，但是由于正文域太大了，我们为了缩小索引文件大小，将正文域的存储属性设置为假，当需要时再直接读取文件；我们只是希望能从搜索解果中提取最后修改时间，不需要对它进行搜索，所以我们把最后修改时间域的存储属性设置为真，索引属性设置为假。上面的三个域涵盖了两个属性的三种组合，还有一种全为假的没有用到，事实上Field不允许你那么设置，因为既不存储又不索引的域是没有意义的。
(hwN%ge.jC W0ITPUB个人空间 iG%?#va(EK
3.4 term
zSo8G9G7OT&R$d0term是搜索的最小单位，它表示文档的一个词语，term由两部分组成：它表示的词语和这个词语所出现的field。
b"{qB/`!u0
1sH peU zMR03.5 tockenITPUB个人空间.\&K0Q0gdc(?L9P }
tocken是term的一次出现，它包含trem文本和相应的起止偏移，以及一个类型字符串。一句话中可以出现多次相同的词语，它们都用同一个term表示，但是用不同的tocken，每个tocken标记该词语出现的地方。
"~e0`3`jm/R0
_Y F5Ct W3Y03.6 segment
VI)S0K Pj)RP0添加索引时并不是每个document都马上添加到同一个索引文件，它们首先被写入到不同的小文件，然后再合并成一个大索引文件，这里每个小文件都是一个segment。
8A2X5@G3_ @]0

4 lucene的结构ITPUB个人空间t dZ_ ^x6HrQ
lucene包括core和sandbox两部分，其中core是lucene稳定的核心部分，sandbox包含了一些附加功能，例如highlighter、各种分析器。
|z\9e;` i7g0Lucene core有七个包：analysis，document，index，queryParser，search，store，util。
#J,?+gb S&Dx q+F04.1 analysis
+QOq^M0Analysis包含一些内建的分析器，例如按空白字符分词的WhitespaceAnalyzer，添加了stopwrod过滤的StopAnalyzer，最常用的StandardAnalyzer。
e|{:j#n5sK"T(|4P04.2 documentITPUB个人空间GOi)s~@@
Document包含文档的数据结构，例如Document类定义了存储文档的数据结构，Field类定义了Document的一个域。
J [#nHP4m5oT|04.3 indexITPUB个人空间4s_3s N!Q0q(t N
Index 包含了索引的读写类，例如对索引文件的segment进行写、合并、优化的IndexWriter类和对索引进行读取和删除操作的 IndexReader类，这里要注意的是不要被IndexReader这个名字误导，以为它是索引文件的读取类，实际上删除索引也是由它完成， IndexWriter只关心如何将索引写入一个个segment，并将它们合并优化；IndexReader则关注索引文件中各个文档的组织形式。ITPUB个人空间Ub`b.Q:B u
4.4 queryParserITPUB个人空间wZ&H2{'W[
QueryParser 包含了解析查询语句的类，lucene的查询语句和sql语句有点类似，有各种保留字，按照一定的语法可以组成各种查询。 Lucene有很多种Query类，它们都继承自Query，执行各种特殊的查询，QueryParser的作用就是解析查询语句，按顺序调用各种 Query类查找出结果。ITPUB个人空间R|5S5K?E ~ g(f
4.5 search
"jI ]E+u8xvd0Search包含了从索引中搜索结果的各种类，例如刚才说的各种Query类，包括TermQuery、BooleanQuery等就在这个包里。
9i!AN.CC y7v$r1K04.6 storeITPUB个人空间Zo'^2O5oK^[:m
Store包含了索引的存储类，例如Directory定义了索引文件的存储结构，FSDirectory为存储在文件中的索引，RAMDirectory为存储在内存中的索引，MmapDirectory为使用内存映射的索引。ITPUB个人空间;K"NxYZIv;M
4.7 utilITPUB个人空间2H9d'J#A?cj3b%iR
Util包含一些公共工具类，例如时间和字符串之间的转换工具。ITPUB个人空间2{mx m5UN
5 如何建索引ITPUB个人空间H@E 'svj6p
5.1 最简单的能完成索引的代码片断ITPUB个人空间eB%l'|0weEHh[jq
ITPUB个人空间y L] Y u l:uy
IndexWriter writer = new IndexWriter(“/data/index/”, new StandardAnalyzer(), true);ITPUB个人空间0[.]JbO4K;U^4v'V
Document doc = new Document();
'pz+R0s-C-AZ)X&s0doc.add(new Field("title", "lucene introduction", Field.Store.YES, Field.Index.TOKENIZED));ITPUB个人空间;f ]1p4e&k
doc.add(new Field("content", "lucene works well", Field.Store.YES, Field.Index.TOKENIZED));
s,t)stg8[_j1o2k:H5V Z0writer.addDocument(doc);ITPUB个人空间&kS@4B7]fE[
writer.optimize();
$n tEOI0writer.close();ITPUB个人空间M&_A[UV!Qx
ITPUB个人空间 M S u[v X)@!Ly
下面我们分析一下这段代码。ITPUB个人空间6vU@$C\M.E
首先我们创建了一个writer，并指定存放索引的目录为“/data/index”，使用的分析器为StandardAnalyzer，第三个参数说明如果已经有索引文件在索引目录下，我们将覆盖它们。ITPUB个人空间;B0ew t?z%U
然后我们新建一个document。ITPUB个人空间 i!@tRtrb,Ggld
我们向document添加一个field，名字是“title”，内容是“lucene introduction”，对它进行存储并索引。
+UJ |\v)N0再添加一个名字是“content”的field，内容是“lucene works well”，也是存储并索引。ITPUB个人空间;^ L+j5a_V,L
然后我们将这个文档添加到索引中，如果有多个文档，可以重复上面的操作，创建document并添加。ITPUB个人空间]#E-J_~|d
添加完所有document，我们对索引进行优化，优化主要是将多个segment合并到一个，有利于提高索引速度。
7`i }8ecF_0随后将writer关闭，这点很重要。
&bnGx?!Jgw0ITPUB个人空间5J^5c2g0Q:S f"E
对，创建索引就这么简单！ITPUB个人空间!Qx Sd"K t
当然你可能修改上面的代码获得更具个性化的服务。
Up ^9ia"FD0ITPUB个人空间;AV_!}f,S? P\&Q
5.2 将索引直接写在内存
XBa3T(@-_0你需要首先创建一个RAMDirectory，并将其传给writer，代码如下：
#sMz+|q Y5?0ITPUB个人空间] ?3CC+w fY+W+wK
Directory dir = new RAMDirectory();
Ra;QzYpL%EB0IndexWriter writer = new IndexWriter(dir, new StandardAnalyzer(), true);ITPUB个人空间4Wx(js]6H4L)Z
Document doc = new Document();
bg cNXd0doc.add(new Field("title", "lucene introduction", Field.Store.YES, Field.Index.TOKENIZED));ITPUB个人空间9{2`(x]nI^/{
doc.add(new Field("content", "lucene works well", Field.Store.YES, Field.Index.TOKENIZED));ITPUB个人空间z~ j-x:q-ZaD
writer.addDocument(doc);ITPUB个人空间lq JXo
writer.optimize();ITPUB个人空间3G}Hv RF&a%jsm
writer.close();ITPUB个人空间6R3Vh4KbX
ITPUB个人空间C1gOl3a-A"n3R o
5.3 索引文本文件
@'Bu A#a{r G0如果你想把纯文本文件索引起来，而不想自己将它们读入字符串创建field，你可以用下面的代码创建field：
2xFeX+g!G5L0ITPUB个人空间#k3@$ah?
Field field = new Field("content", new FileReader(file));
]C.JSy,rZ-O4\0ITPUB个人空间'E0P0fJ:ehx
这里的file就是该文本文件。该构造函数实际上是读去文件内容，并对其进行索引，但不存储。
}.tH6}g]7_R0ITPUB个人空间{ Hdryv;mD
6 如何维护索引
+Fj2y5L1F3h8r0iH0索引的维护操作都是由IndexReader类提供。ITPUB个人空间V)FJ ~`1NM
ITPUB个人空间/OTBid]
6.1 如何删除索引
X%Kr%JH#J K i8rK0lucene提供了两种从索引中删除document的方法，一种是ITPUB个人空间VJ_(e Z|g(A

c t9rx0\.A'PZ#q,JR0void deleteDocument(int docNum)
4Q3eq4a(T6?IR$h0ITPUB个人空间1cv wb+dA-g:B8~
这种方法是根据document在索引中的编号来删除，每个document加进索引后都会有个唯一编号，所以根据编号删除是一种精确删除，但是这个编号是索引的内部结构，一般我们不会知道某个文件的编号到底是几，所以用处不大。另一种是ITPUB个人空间"S&IAU?i"l
ITPUB个人空间 y%p2ev5c
void deleteDocuments(Term term)ITPUB个人空间$T"Ra,j4sm$F q
ITPUB个人空间8dow0?,k+_
这种方法实际上是首先根据参数term执行一个搜索操作，然后把搜索到的结果批量删除了。我们可以通过这个方法提供一个严格的查询条件，达到删除指定document的目的。
\'\ P5i#l:r0r#u0下面给出一个例子：ITPUB个人空间s"AQ%u+n f%g:a

"j\ZqfbS0Directory dir = FSDirectory.getDirectory(PATH, false);
P,P L:Q,stX0IndexReader reader = IndexReader.open(dir);ITPUB个人空间t/`S |f V
Term term = new Term(field, key);ITPUB个人空间?nU+c,s-L1~7A
reader.deleteDocuments(term);ITPUB个人空间)?7mz{\;x
reader.close();ITPUB个人空间 g#B{5N {t8y?i
ITPUB个人空间8GC8R:PvO
6.2 如何更新索引ITPUB个人空间X,R,^$_8H
lucene并没有提供专门的索引更新方法，我们需要先将相应的document删除，然后再将新的document加入索引。例如：
-W3eX1dc[2k| i0
9OC8hLE|4K0e"w0Directory dir = FSDirectory.getDirectory(PATH, false);ITPUB个人空间"eR2S!?U2B
IndexReader reader = IndexReader.open(dir);ITPUB个人空间{B9qD:v
Term term = new Term(“title”, “lucene introduction”);
ux8DH2oO6i"kR9x)?y0reader.deleteDocuments(term);
!I_"q9A#LC)k5[0reader.close();
K.dqVGpe q T B7F0ITPUB个人空间-pu0I)tJ1n$N.r&y2G+S
IndexWriter writer = new IndexWriter(dir, new StandardAnalyzer(), true);ITPUB个人空间GP(WP fz
Document doc = new Document();
H6I S EN1T;q? r0doc.add(new Field("title", "lucene introduction", Field.Store.YES, Field.Index.TOKENIZED));ITPUB个人空间pC nFR4vblX[
doc.add(new Field("content", "lucene is funny", Field.Store.YES, Field.Index.TOKENIZED));
uUN TeF2jn _G0writer.addDocument(doc);
(D2?'C`iY0writer.optimize();
x-CH(u9yDf[&D0writer.close();
!V)R_ ?%iG8D07 如何搜索ITPUB个人空间 }}.?Iok8t7z
lucene 的搜索相当强大，它提供了很多辅助查询类，每个类都继承自Query类，各自完成一种特殊的查询，你可以像搭积木一样将它们任意组合使用，完成一些复杂操作；另外lucene还提供了Sort类对结果进行排序，提供了Filter类对查询条件进行限制。你或许会不自觉地拿它跟SQL语句进行比较：“lucene能执行and、or、order by、where、like ‘%xx%’操作吗？”回答是：“当然没问题！”ITPUB个人空间Eui_+B-V\c:[
ITPUB个人空间T8t}d-UV3s
7.1 各种各样的QueryITPUB个人空间^ ox"[4^.hhw
下面我们看看lucene到底允许我们进行哪些查询操作：ITPUB个人空间+pTg d-|i-d

K&JW.SHF6A9t9B07.1.1 TermQuery
@tr{9T-Q [W&^0首先介绍最基本的查询，如果你想执行一个这样的查询：“在content域中包含‘lucene’的document”，那么你可以用TermQuery：ITPUB个人空间(M7x'Z^ j-N+R|
ITPUB个人空间#A i?7l3DR
Term t = new Term("content", " lucene";ITPUB个人空间5\ W$Cr;i.Q'C
Query query = new TermQuery(t);
i |{0T6w0ITPUB个人空间&KI|Ukj
7.1.2 BooleanQuery
3h2Y@C ^e#G N0如果你想这么查询：“在content域中包含java或perl的document”，那么你可以建立两个TermQuery并把它们用BooleanQuery连接起来：ITPUB个人空间n([N[)rsj&Kn5w
ITPUB个人空间%i/yy'N!SV/k5A
TermQuery termQuery1 = new TermQuery(new Term("content", "java");
7I1@ i,Oo.kb0TermQuery termQuery 2 = new TermQuery(new Term("content", "perl");
qI%Ts9L&V!AB0BooleanQuery booleanQuery = new BooleanQuery();
0Hc dZcc0booleanQuery.add(termQuery 1, BooleanClause.Occur.SHOULD);
3LE5_,`CA,CL%B0booleanQuery.add(termQuery 2, BooleanClause.Occur.SHOULD);ITPUB个人空间9Cdb i9^PO7x
ITPUB个人空间8HL^5~Y:I9Do
7.1.3 WildcardQueryITPUB个人空间"M,l~2][2~,Q:x
如果你想对某单词进行通配符查询，你可以用WildcardQuery，通配符包括’?’匹配一个任意字符和’’匹配零个或多个任意字符，例如你搜索’use’，你可能找到’useful’或者’useless’：ITPUB个人空间}7vi$B8VA6p;]-~
ITPUB个人空间.@%M^i"M_I
Query query = new WildcardQuery(new Term("content", "use");ITPUB个人空间!}5lscoF
ITPUB个人空间/S,D7p.B9CT!n&R
7.1.4 PhraseQueryITPUB个人空间gwNk ML0h
你可能对中日关系比较感兴趣，想查找‘中’和‘日’挨得比较近（5个字的距离内）的文章，超过这个距离的不予考虑，你可以：ITPUB个人空间^Q]u\xR$_g3h

v4{+dUg0Qz0PhraseQuery query = new PhraseQuery();
7w0tIx3I[0query.setSlop(5);
l/NU0~8[fcd'S0query.add(new Term("content ", “中”));
5Z(q;MF3Wo3D{0query.add(new Term(“content”, “日”));ITPUB个人空间UhVy8QU4b
ITPUB个人空间m9FE%R VQC
那么它可能搜到“中日合作……”、“中方和日方……”，但是搜不到“中国某高层领导说日本欠扁”。
IM0T5W])x:hL9R)s Q0
0fU#|2L j[ n07.1.5 PrefixQueryITPUB个人空间,]vBQk+T2}
如果你想搜以‘中’开头的词语，你可以用PrefixQuery：
)d+nnJ ` j$f)C0ITPUB个人空间b P7b(O_:n"XyE1u3G
PrefixQuery query = new PrefixQuery(new Term("content ", "中");ITPUB个人空间Y+PKD:T"~R
ITPUB个人空间%K7QL^O
7.1.6 FuzzyQuery
yt.A6iV n)e.A!PF0FuzzyQuery用来搜索相似的term，使用Levenshtein算法。假设你想搜索跟‘wuzza’相似的词语，你可以：
-a b6? Ra!QzG`0ITPUB个人空间sVZJK
Query query = new FuzzyQuery(new Term("content", "wuzza");
1Wh)a&[e8UlSQy1G0ITPUB个人空间7IPAB,iwt#cW
你可能得到‘fuzzy’和‘wuzzy’。
#}6G:j(Q(N/i3j u k0ITPUB个人空间G#@"I/X"r1B.A/i
7.1.7 RangeQueryITPUB个人空间fv1Ro4l
另一个常用的Query是RangeQuery，你也许想搜索时间域从20060101到20060130之间的document，你可以用RangeQuery：ITPUB个人空间G pZ'NbR1i,}+g1G
ITPUB个人空间5Ex%mHYnb
RangeQuery query = new RangeQuery(new Term(“time”, “20060101”), new Term(“time”, “20060130”), true);
dZ$hPvPj0ITPUB个人空间 k W2w,w&v
最后的true表示用闭合区间。ITPUB个人空间 vP?{#o E&g
ITPUB个人空间;@|[m,{ r
7.2 QueryParser
Wek6h)l:o0看了这么多Query，你可能会问：“不会让我自己组合各种Query吧，太麻烦了！”当然不会，lucene提供了一种类似于SQL语句的查询语句，我们姑且叫它lucene语句，通过它，你可以把各种查询一句话搞定，lucene会自动把它们查分成小块交给相应Query执行。下面我们对应每种 Query演示一下：ITPUB个人空间-jf?o`J[
TermQuery可以用“field:key”方式，例如“content:lucene”。
a_4EpGm` }0BooleanQuery中‘与’用‘+’，‘或’用‘ ’，例如“content:java contenterl”。ITPUB个人空间&F[ I/m&tJ4E
WildcardQuery仍然用‘?’和‘’，例如“content:use”。ITPUB个人空间6a6E9{Z'lp(lq
PhraseQuery用‘~’，例如“content:"中日"~5”。
x5f.\ ^'t0PrefixQuery用‘’，例如“中”。
n$M;s8E F w0FuzzyQuery用‘~’，例如“content: wuzza ~”。ITPUB个人空间2`~} S5[
RangeQuery用‘[]’或‘{}’，前者表示闭区间，后者表示开区间，例如“time:[20060101 TO 20060130]”，注意TO区分大小写。ITPUB个人空间[8WzVc x7y?rAN
你可以任意组合query string，完成复杂操作，例如“标题或正文包括lucene，并且时间在20060101到20060130之间的文章” 可以表示为：“+ (title:lucene content:lucene) +time:[20060101 TO 20060130]”。代码如下：
#f9yuNT0
|sdBt0Directory dir = FSDirectory.getDirectory(PATH, false);ITPUB个人空间%@rwz IK{'_
IndexSearcher is = new IndexSearcher(dir);
1^Hu4A_0^U0QueryParser parser = new QueryParser("content", new StandardAnalyzer());ITPUB个人空间+f"C&T o"?&Q;\;W/Le
Query query = parser.parse("+(title:lucene content:lucene) +time:[20060101 TO 20060130]";ITPUB个人空间7T V:oLw`
Hits hits = is.search(query);
.s!nVc2i&uv2a{ n:we0for (int i = 0; i<hits.length(); i++)ITPUB个人空间\0}ie5e
{ITPUB个人空间U4ZQt;JxdA
Document doc= hits.doc(i);
s&W5s KAT3S0System.out.println(doc.get("title");
D OvX)?0}ITPUB个人空间.X@!p(NH-kp6[]&M
is.close();
2B_EW9e0
(cdWu.G)M9F6T0首先我们创建一个在指定文件目录上的IndexSearcher。ITPUB个人空间_6r1M{uG,qB
然后创建一个使用StandardAnalyzer作为分析器的QueryParser，它默认搜索的域是content。
\AXO;p#i!u)})WE0接着我们用QueryParser来parse查询字串，生成一个Query。
$rr8\}_ i+U0然后利用这个Query去查找结果，结果以Hits的形式返回。ITPUB个人空间2Om0Rf @+MN]SQJ
这个Hits对象包含一个列表，我们挨个把它的内容显示出来。
(Ji;ihA9V;x0ITPUB个人空间}9J?F'|rTdS
7.3 FilterITPUB个人空间k X+M[nvp?
filter 的作用就是限制只查询索引的某个子集，它的作用有点像SQL语句里的 where，但又有区别，它不是正规查询的一部分，只是对数据源进行预处理，然后交给查询语句。注意它执行的是预处理，而不是对查询结果进行过滤，所以使用filter的代价是很大的，它可能会使一次查询耗时提高一百倍。
i1GgJ9jLr y5`2]k0最常用的filter是RangeFilter和QueryFilter。RangeFilter是设定只搜索指定范围内的索引；QueryFilter是在上次查询的结果中搜索。ITPUB个人空间.l`Z)F_Z!q
Filter的使用非常简单，你只需创建一个filter实例，然后把它传给searcher。继续上面的例子，查询“时间在20060101到20060130之间的文章”除了将限制写在query string中，你还可以写在RangeFilter中：ITPUB个人空间e[bo~ed
ITPUB个人空间3\i3r&P_S
Directory dir= FSDirectory.getDirectory(PATH,false);
f%i&t6E.z{.T8T0IndexSearcher is= newIndexSearcher(dir);ITPUB个人空间F#D4@ Q5F
QueryParser parser= newQueryParser("content", new StandardAnalyzer());ITPUB个人空间-YA/|5vU{3O.f)Hbw
Query query= parser.parse("title:lucenecontent:lucene";
},g:gOW.VB z"Aj0RangeFilter filter= newRangeFilter("time", "20060101", "20060230", true, true);ITPUB个人空间8c]3]@-P[;q
Hits hits= is.search(query,filter);ITPUB个人空间@ `YG|_
for (int ii < hits.length(); i++)
NcK!h/Qv/@m&K0{
G{wc}j"Xz0Document doc= hits.doc(i);
|7hH6Nk4i5Dzg0System.out.println(doc.get("title");ITPUB个人空间T5QX._;mr%b'qQpR
}ITPUB个人空间x-Phfk!tl"t&rY#T
is.close();ITPUB个人空间3g,U1N{}

#h]'tO U3@H8z07.4 Sort
+Z"C,N4M!E7hp0有时你想要一个排好序的结果集，就像SQL语句的“order by”，lucene能做到：通过Sort。ITPUB个人空间:Y4kYbN;pW1R
Sort sortSort(“time”); //相当于SQL的“order by time”ITPUB个人空间zB Qr/e#g1| `
Sort sort= newSort(“time”, true); // 相当于SQL的“order by time desc”ITPUB个人空间"^4xU.FfE
下面是一个完整的例子：ITPUB个人空间 xpr7U(a8{ \ lHS
ITPUB个人空间FZ0`'K _ X4b:W
Directory dir= FSDirectory.getDirectory(PATH,false);ITPUB个人空间2AD8q_!olh
IndexSearcher is= newIndexSearcher(dir);ITPUB个人空间%O1EJ4N(Hm
QueryParser parser= newQueryParser("content", new StandardAnalyzer());
$FR{M(_8K;F7?&X0Query query= parser.parse("title:lucenecontent:lucene";ITPUB个人空间s:Q)_F3` T
RangeFilter filter= newRangeFilter("time", "20060101", "20060230", true, true);ITPUB个人空间5hoZNa/E
Sort sort= newSort(“time”);
\9@]^+c)P/p0Hits hits= is.search(query,filter, sort);ITPUB个人空间wBu:uhv K
for (int i= 0;i < hits.length(); i++)
w b a;P8I;O0{ITPUB个人空间B9U syX'V5X:a5z E
Document doc= hits.doc(i);ITPUB个人空间I%J{$AUo:Vt
System.out.println(doc.get("title");
}a4Co(~'h0}
/rt"jA@7S6QN'F!KA0is.close();ITPUB个人空间] U7[`/w

T2z7afi)sV$RT2v;j08 分析器
_4v,n\N&H_LGu)R0在前面的概念介绍中我们已经知道了分析器的作用，就是把句子按照语义切分成一个个词语。英文切分已经有了很成熟的分析器： StandardAnalyzer，很多情况下StandardAnalyzer是个不错的选择。甚至你会发现StandardAnalyzer也能对中文进行分词。ITPUB个人空间%jXC#j7gy,{
但是我们的焦点是中文分词，StandardAnalyzer能支持中文分词吗？实践证明是可以的，但是效果并不好，搜索“如果”会把“牛奶不如果汁好喝 ”也搜索出来，而且索引文件很大。那么我们手头上还有什么分析器可以使用呢？core里面没有，我们可以在sandbox里面找到两个： ChineseAnalyzer和CJKAnalyzer。但是它们同样都有分词不准的问题。相比之下用StandardAnalyzer 和 ChineseAnalyzer建立索引时间差不多，索引文件大小也差不多，CJKAnalyzer表现会差些，索引文件大且耗时比较长。
&X|9|Uy+c'|0要解决问题，首先分析一下这三个分析器的分词方式。StandardAnalyzer和ChineseAnalyzer都是把句子按单个字切分，也就是说 “牛奶不如果汁好喝”会被它们切分成“牛奶不如果汁好喝”；而CJKAnalyzer则会切分成“牛奶奶不不如如果果汁汁好好喝”。这也就解释了为什么搜索“果汁”都能匹配这个句子。ITPUB个人空间s(_Kmj(E
以上分词的缺点至少有两个：匹配不准确和索引文件大。我们的目标是将上面的句子分解成“牛奶不如果汁好喝”。这里的关键就是语义识别，我们如何识别“ 牛奶”是一个词而“奶不”不是词语？我们很自然会想到基于词库的分词法，也就是我们先得到一个词库，里面列举了大部分词语，我们把句子按某种方式切分，当得到的词语与词库中的项匹配时，我们就认为这种切分是正确的。这样切词的过程就转变成匹配的过程，而匹配的方式最简单的有正向最大匹配和逆向最大匹配两种，说白了就是一个从句子开头向后进行匹配，一个从句子末尾向前进行匹配。基于词库的分词词库非常重要，词库的容量直接影响搜索结果，在相同词库的前提下，据说逆向最大匹配优于正向最大匹配。ITPUB个人空间X^V7b6Z#}
当然还有别的分词方法，这本身就是一个学科，我这里也没有深入研究。回到具体应用，我们的目标是能找到成熟的、现成的分词工具，避免重新发明车轮。经过网上搜索，用的比较多的是中科院的ICTCLAS和一个不开放源码但是免费的JE-Analysis。ICTCLAS有个问题是它是一个动态链接库， java调用需要本地方法调用，不方便也有安全隐患，而且口碑也确实不大好。JE-Analysis效果还不错，当然也会有分词不准的地方，相比比较方便放心。= new= 0;

9 性能优化
l/ed+s R+Y0一直到这里，我们还是在讨论怎么样使lucene跑起来，完成指定任务。利用前面说的也确实能完成大部分功能。但是测试表明lucene的性能并不是很好，在大数据量大并发的条件下甚至会有半分钟返回的情况。另外大数据量的数据初始化建立索引也是一个十分耗时的过程。那么如何提高lucene的性能呢？下面从优化创建索引性能和优化搜索性能两方面介绍。ITPUB个人空间 p'ei'wrD;l

0V-kT)I-?M09.1 优化创建索引性能ITPUB个人空间 ]`w4xG%hR'y}T&t
这方面的优化途径比较有限，IndexWriter提供了一些接口可以控制建立索引的操作，另外我们可以先将索引写入RAMDirectory，再批量写入FSDirectory，不管怎样，目的都是尽量少的文件IO，因为创建索引的最大瓶颈在于磁盘IO。另外选择一个较好的分析器也能提高一些性能。ITPUB个人空间8ds`1vF&r

UKJ'QN0v"v09.1.1 通过设置IndexWriter的参数优化索引建立
@q2Q/p;M3{0setMaxBufferedDocs(int maxBufferedDocs)
+N@8D/A4[J:W+c!d0控制写入一个新的segment前内存中保存的document的数目，设置较大的数目可以加快建索引速度，默认为10。ITPUB个人空间XN;KjnoC2BbR
setMaxMergeDocs(int maxMergeDocs)ITPUB个人空间+R&`qJH;Evp,~ v
控制一个segment中可以保存的最大document数目，值较小有利于追加索引的速度，默认Integer.MAX_VALUE，无需修改。
#WTn3@+O9H ~^4K,s0setMergeFactor(int mergeFactor)ITPUB个人空间F ^Z2~Ta^(b;C
控制多个segment合并的频率，值较大时建立索引速度较快，默认是10，可以在建立索引时设置为100。ITPUB个人空间-P7L5CZ)`;]1OKyVbg
ITPUB个人空间a7F.ZrJs8P)g8R
9.1.2 通过RAMDirectory缓写提高性能
7v%Y}4m"_3t]0我们可以先把索引写入RAMDirectory，达到一定数量时再批量写进FSDirectory，减少磁盘IO次数。ITPUB个人空间l~Eo.s

5a~ fppH_.E-s!Y0FSDirectory fsDir= FSDirectory.getDirectory("/data/index",true);
:[-C9d5]%`6\0RAMDirectory ramDir= newRAMDirectory();
1IDhB \$P0IndexWriter fsWriter= newIndexWriter(fsDir, new StandardAnalyzer(), true);
q!O.Rsn zTY7]0IndexWriter ramWriter= newIndexWriter(ramDir, new StandardAnalyzer(), true);
%S+V/KV!| qyD(cK2a0while (there are documents to index)ITPUB个人空间 |q^^YA/V[e
{ITPUB个人空间b/I_l&L3q#d:X l
... create Document ...ITPUB个人空间L7E9Yx5].a
ramWriter.addDocument(doc);ITPUB个人空间l3W6I3E Z1c(A
if (condition for flushing memory to disk has been met)ITPUB个人空间WO o}?'`h { I
{
{(tp%V,J6|$a$Um0fsWriter.addIndexes(new Directory[] { ramDir });
a9?b7\r#i0ramWriter.close();
2B#?o:WaUu1`0ramWriter= newIndexWriter(ramDir, new StandardAnalyzer(), true);ITPUB个人空间M~|&G%J8{
}ITPUB个人空间 IK{U+LD N$z
}ITPUB个人空间M8K7`PP^f$K][

8D8d9{pa O^09.1.3 选择较好的分析器ITPUB个人空间4k F1j%u G7~r
这个优化主要是对磁盘空间的优化，可以将索引文件减小将近一半，相同测试数据下由600M减少到380M。但是对时间并没有什么帮助，甚至会需要更长时间，因为较好的分析器需要匹配词库，会消耗更多cpu，测试数据用StandardAnalyzer耗时133分钟；用MMAnalyzer耗时150分钟。
L0C$Ho2r0UX:dPP0
pS$c?eP [ N.\09.2 优化搜索性能
0g1`Xd__CX"L0虽然建立索引的操作非常耗时，但是那毕竟只在最初创建时才需要，平时只是少量的维护操作，更何况这些可以放到一个后台进程处理，并不影响用户搜索。我们创建索引的目的就是给用户搜索，所以搜索的性能才是我们最关心的。下面就来探讨一下如何提高搜索性能。ITPUB个人空间)u4l UC4^
ITPUB个人空间5]"vQH%|CD
9.2.1 将索引放入内存ITPUB个人空间%o-TN QX4}6z:~E
这是一个最直观的想法，因为内存比磁盘快很多。Lucene提供了RAMDirectory可以在内存中容纳索引：
fV K+T9m2Wap0ITPUB个人空间$V5_N |oAF
Directory fsDir= FSDirectory.getDirectory(“/data/index/”,false);ITPUB个人空间l4B!vR H+@E
Directory ramDir= newRAMDirectory(fsDir);ITPUB个人空间 onD Mp3Li
Searcher searcher= newIndexSearcher(ramDir);ITPUB个人空间5u o'j$c(W,t&K&v
ITPUB个人空间j#pa2s1]7Z9G&^
但是实践证明RAMDirectory和FSDirectory速度差不多，当数据量很小时两者都非常快，当数据量较大时（索引文件400M）RAMDirectory甚至比FSDirectory还要慢一点，这确实让人出乎意料。ITPUB个人空间 TU#m _ |Z#A_;sm
而且lucene的搜索非常耗内存，即使将400M的索引文件载入内存，在运行一段时间后都会out of memory，所以个人认为载入内存的作用并不大。ITPUB个人空间FM rUSK

,v?aL f^z,jF/d09.2.2 优化时间范围限制
y2Mfa{,Zzd2^0既然载入内存并不能提高效率，一定有其它瓶颈，经过测试发现最大的瓶颈居然是时间范围限制，那么我们可以怎样使时间范围限制的代价最小呢？
.QbC ^9EUb0当需要搜索指定时间范围内的结果时，可以：ITPUB个人空间!C3| xVG8xY
1、用RangeQuery，设置范围，但是RangeQuery的实现实际上是将时间范围内的时间点展开，组成一个个BooleanClause加入到 BooleanQuery中查询，因此时间范围不可能设置太大，经测试，范围超过一个月就会抛 BooleanQuery.TooManyClauses，可以通过设置 BooleanQuery.setMaxClauseCount(int maxClauseCount)扩大，但是扩大也是有限的，并且随着 maxClauseCount扩大，占用内存也扩大
2ll&J$|^]02、用 RangeFilter代替RangeQuery，经测试速度不会比RangeQuery慢，但是仍然有性能瓶颈，查询的90%以上时间耗费在 RangeFilter，研究其源码发现RangeFilter实际上是首先遍历所有索引，生成一个BitSet，标记每个document，在时间范围内的标记为true，不在的标记为false，然后将结果传递给Searcher查找，这是十分耗时的。
8PnP H6\| ~Zp03、进一步提高性能，这个又有两个思路：
-b+Kv R:^ G3HY0a、缓存Filter结果。既然RangeFilter的执行是在搜索之前，那么它的输入都是一定的，就是IndexReader，而 IndexReader是由Directory决定的，所以可以认为RangeFilter的结果是由范围的上下限决定的，也就是由具体的 RangeFilter对象决定，所以我们只要以RangeFilter对象为键，将filter结果BitSet缓存起来即可。 lucene API已经提供了一个CachingWrapperFilter类封装了Filter及其结果，所以具体实施起来我们可以 cache CachingWrapperFilter对象，需要注意的是，不要被CachingWrapperFilter的名字及其说明误导， CachingWrapperFilter看起来是有缓存功能，但的缓存是针对同一个filter的，也就是在你用同一个filter过滤不同 IndexReader时，它可以帮你缓存不同IndexReader的结果，而我们的需求恰恰相反，我们是用不同filter过滤同一个 IndexReader，所以只能把它作为一个封装类。
Q_[a&`Oo0b、降低时间精度。研究Filter的工作原理可以看出，它每次工作都是遍历整个索引的，所以时间粒度越大，对比越快，搜索时间越短，在不影响功能的情况下，时间精度越低越好，有时甚至牺牲一点精度也值得，当然最好的情况是根本不作时间限制。
j Oz\s Z.jDX0下面针对上面的两个思路演示一下优化结果（都采用800线程随机关键词随即时间范围）：ITPUB个人空间!}E_(Xa y4d7D
第一组，时间精度为秒：
i{)@&z0R[N0方式直接用RangeFilter 使用cache 不用filterITPUB个人空间@ e9OY8lHS$WVY|
平均每个线程耗时 10s 1s 300ms
z(W w6Fq0ITPUB个人空间yA9~5]n;V:e
第二组，时间精度为天
7Y0{WfOXY XP0方式直接用RangeFilter 使用cache 不用filterITPUB个人空间p6~|{!_)U
平均每个线程耗时 900ms 360ms 300msITPUB个人空间 u3N/u6QS;PWB

(X1o.{a1Bg1?a"G+~0由以上数据可以得出结论：
[5^?0voL2Q01、尽量降低时间精度，将精度由秒换成天带来的性能提高甚至比使用cache还好，最好不使用filter。
3e k Pr)D02、在不能降低时间精度的情况下，使用cache能带了10倍左右的性能提高。
+{x[D6n/t0
e k.KGQ)p R"\09.2.3 使用更好的分析器ITPUB个人空间| s5Pz^/v$\;}x&P
这个跟创建索引优化道理差不多，索引文件小了搜索自然会加快。当然这个提高也是有限的。较好的分析器相对于最差的分析器对性能的提升在20%以下。
)ln5TO{#Tr)cm0ITPUB个人空间3S#[4Qd-_b/b[
10 一些经验
`"aeg|/w3I]u P1s0
c5qxd Z010.1关键词区分大小写ITPUB个人空间)[uV4MK[
or AND TO等关键词是区分大小写的，lucene只认大写的，小写的当做普通单词。ITPUB个人空间 N J[8X%`"\VQH

V"t#r&^0i010.2 读写互斥性
,HuQA ?v:a0同一时刻只能有一个对索引的写操作，在写的同时可以进行搜索
{,PBhJ0
\r)@ k9UF T&Z010.3 文件锁ITPUB个人空间7ZO tmK_4O,@O-ui+|
在写索引的过程中强行退出将在tmp目录留下一个lock文件，使以后的写操作无法进行，可以将其手工删除
a+ng/M yM;G0ITPUB个人空间 KrGR/M1VTbuz
10.4 时间格式
:h VT6w.y j{V$Fw-X0lucene只支持一种时间格式yyMMddHHmmss，所以你传一个yy-MM-dd HH:mm:ss的时间给lucene它是不会当作时间来处理的
.r5Ey q}#b I#_0
wJeh/L]pt010.5 设置boostITPUB个人空间(pj eDWD5bW
有些时候在搜索时某个字段的权重需要大一些，例如你可能认为标题中出现关键词的文章比正文中出现关键词的文章更有价值，你可以把标题的boost设置的更大，那么搜索结果会优先显示标题中出现关键词的文章（没有使用排序的前题下）。使用方法：
z2W6VS MzE)?LA(o0Field. setBoost(float boost);默认值是1.0，也就是说要增加权重的需要设置得比1大。

你可能感兴趣的:(lucene、lucene.NET详细使用与优化详解)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
如何在 Fork 的 GitHub 项目中保留自己的修改并同步上游更新？github_fork_update iBaoxing github
如何在Fork的GitHub项目中保留自己的修改并同步上游更新？在GitHub上Fork了一个项目后，你可能会对项目进行一些修改，同时原作者也在不断更新。如果想要在保留自己修改的基础上，同步原作者的最新更新，很多人会不知所措。本文将详细讲解如何在不丢失自己改动的情况下，将上游仓库的更新合并到自己的仓库中。问题描述假设你在GitHub上Fork了一个项目，并基于该项目做了一些修改，随后你发现原作者对
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
html 中如何使用 uniapp 的部分方法某公司摸鱼前端 html uni-app 前端
示例代码：Documentconsole.log(window);效果展示：好了，现在就可以uni.使用相关的方法了
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
水平垂直居中的几种方法（总结） LJ小番茄 CSS_玄学语言 html javascript 前端 css css3
1.使用flexbox的justify-content和align-items.parent{display:flex;justify-content:center;/*水平居中*/align-items:center;/*垂直居中*/height:100vh;/*需要指定高度*/}2.使用grid的place-items:center.parent{display:grid;place-item
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
C#中使用split分割字符串互联网打工人no1 c#
1、用字符串分隔：usingSystem.Text.RegularExpressions;stringstr="aaajsbbbjsccc";string[]sArray=Regex.Split(str,"js",RegexOptions.IgnoreCase);foreach(stringiinsArray)Response.Write(i.ToString()+"");输出结果：aaabbbc
网易严选官方旗舰店，优质商品，卓越服务高省_飞智666600
网易严选官方旗舰店是网易旗下的一家电商平台，以提供优质商品和卓越服务而闻名。作为一名SEO优化师，我将为您详细介绍网易严选官方旗舰店，并重点强调其特点和优势。大家好！我是高省APP最大团队&联合创始人飞智导师。相较于其他返利app，高省APP的佣金更高，模式更好，最重要的是，终端用户不会流失！高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他