lucene.net的一点知识

转：这个东西在2006年初,我就开始在项目中使用.我对它也有了一些了解. 但因为主要开发还是小兵们在做. 所以仅仅了解了一些皮毛. 下面我将以知识点的形式, 列出来. 以笔记的形式连载. 也方便大家一起学习. 每一个点, 我都会写一个知识点.

1, 2005年的时候, 听说了lucene. 是一个开源的搜索引擎开发包. 而不是一个搜索引擎,请切记.
2, 如果开始学习它, 就需要至少知道,它所包含的包. 目前lucene已经到了2.2版本. 当然你需要时刻关注他的最新版本. 目前包: lucene-core-2.2.0.jar . 下载可以到apache的网站上下载. 这一个就够了.不用下别的.
3, 下面问题会接踵而至, 我挨着写,你挨着看即可.
分词. 第一个要涉及的问题, 分词就是将一句话中的关键词汇分离出来, 然后才可以建立索引. 例如中华人民共和国 --> 中华, 中华人民华人,人民, 共和国,等. lucene缺省带了一个标准分词的类: StandardAnalyzer 这个按字来分的. 从网上发现了很多程序员写的开源的分词的类. 当然都是继承了lucene的org.apache.lucene.analysis.Analyze类. 以实现更好更快的分词效果. 可以搜索获取更多, 一般分词的类,都提供了可检测分词效果的方法. 输入一个长句, 然后执行,看看分词效果和执行时间.

4, ThesaurusAnalyzer是一个哥们开发的,网上有源码可以下载. 从这个源码里面对分词可以有更深入的了解: 包括那些是词汇,那些不是词汇. 都在文本文件里面以行分割开来. 由此可以知道: 分词是需要词库的. 因为词库可以不断的扩充 .但每次构造分词对象时,是建立在当前词库基础上的. 如果词库动态增加了新的词汇, 需要重新构建分词对象. 当然, 也可以读取数据库.

5, 上面的分词, 也仅仅是分词! 网上有人提出的问题是: 索引中,加入了"东北大学". "北大" . 要搜索北大 , 显然我们没有找到东北大学的意思. 但最后还是找到了. 因为东北大学四个字里面有北大两个字. 分词时这个词被确认是个词, 就加入了索引. 这种情况, 涉及到汉语语义的问题 .暂时不好解决. 所以不提.

选择较好的分析器
这个优化主要是对磁盘空间的优化，可以将索引文件减小将近一半，相同测试数据下由600M减少到380M。但是对时间并没有什么帮助，甚至会需要更长时间，因为较好的分析器需要匹配词库，会消耗更多cpu，测试数据用StandardAnalyzer耗时133分钟；用MMAnalyzer耗时150分钟。

6, 分词的缺失: 就似乎同义词. 为了减少用户搜索的次数, 增加搜索效果. 如果用户搜 "北京饭店" 能不能把" 首都饭店"也列出来呢. 这个分词器无能为力. 我也考虑到这个问题, 在北京托尔四公司的TRS的搜索产品文档中人家也考虑到了这个问题. 就似乎如果搜索锐器, 系统会自动把匕首,尖刀等词汇一并加入搜索结果. 所以这个问题 ,就只能是在分词之前,我们再加一层:同义词返回模块. 这个思路很不错, 也比较简单. 很容易实现. 关键是词库的建立. 这个就说到这里.

7, 说到这里,你可能想要做个例子来实践一下. 做个例子很容易. 网上很多. 我只做简单的叙述: lucene是用目录或者内存来存储数据的. 可以设定. 但是实践证明RAMDirectory和FSDirectory速度差不多，当数据量很小时两者都非常快，当数据量较大时（索引文件 400M）RAMDirectory甚至比FSDirectory还要慢一点，这确实让人出乎意料。
而且lucene的搜索非常耗内存，即使将400M的索引文件载入内存，在运行一段时间后都会out of memory，所以个人认为载入内存的作用并不大。
我们用目录:
如下:
//构建一个 IndexWriter 用来写如索引
File indexDir = new File(
"E:""javasource""LuceneTest""index");

IndexWriter indexWriter = new IndexWriter(indexDir,
new ThesaurusAnalyzer(), false);
Document doc = Document(new Article("name"+i, "北京老张"));
indexWriter.addDocument(doc);
indexWrite.close();

由上可以看出, lucene将在这个目录下进行操作. 上面代码中的你不要抄袭当例子, 因为还有一个Article类和Document方法.里面也有一些东西. 现在仅仅先理解上面的意思即可. 操作前,你可能不知道他会在目录里干什么.

8, 目录下的东西 . 如果测试成功, 目录下有三个文件.
segments.gen segments_a08, 还有一个类似 _uw.cfs名字的东西. 当然,不一定都一样, 但肯定是这三个. 如果出现了很多文件.不要着急, 看下面的 9 .

9, 如果lucene的索引目录下出现了很多文件, 肯定是有问题的. 几个方面.首先lucene在执行写操作时, 会先在目录下写如一个write.lock的文件锁定这个目录,以避免别的索引再操作这个路径. 否则那样肯定会乱. 锁定之后, 开始写索引, 写索引时lucene建了几个或者几十个临时片段文件, 都似乎又短又乱的字符.cfs的文件. 当索引建立完毕后,没有执行 indexWriter.optimize();方法, 他就不会合并那些乱七八糟的文件. 所以,索引建完后, 一定要执行上面的优化方法, 保持目录下保留3个文件即可. 也就是很多临时文件会合并到一个文件中去. 切不可大意删除. 但当数据很多时, 另行考虑策略.

10, lucene在写入索引时, 用在索引目录下建write.lock文件来标识锁定. 而只有在执行close()方法后, 才会删除这个锁文件. 只要这个文件存在, 其他的写索引的程序都会报错:
caught a class org.apache.lucene.store.LockObtainFailedException
with message: Lock obtain timed out: SimpleFSLock@E:"javasource"LuceneTest"index"write.lock

所以,需要注意, 一定要注意关闭indexWrite. 包括异常下,用finally关闭.否则会导致下一次写索引失败.

11, 批量增加索引, 如果要成批的用循环加入索引,该怎么办呢. 首先请注意: IndexWriter indexWriter = new IndexWriter(indexDir,
new ThesaurusAnalyzer(), false); 最后一个参数为false表示持续想索引增加数据. 如果为true, 则每次会删除全部, 重新开始.

12, 在批量增加索引时, 程序可以一直执行
indexWriter.addDocument(doc); 但不能一直执行优化:indexWriter.optimize(); 因为优化方法比较耗时, 特别是当索引很大时, 更要注意. 因为优化, 也仅仅似乎优化会消耗很多时间和cpu. 所以这个时候.多几个文件也没关系. 网上有个人问了这样的问题, 我摘录如下, 用等号分割开我的内容:
引自:
http://www.javaeye.com/topic/107818?page=3
================================================
我不知道是不是理解错了增量索引的概念
我搜索的网页不会重复,不是对所有的网页都不停的搜,而是我搜索特定的网站.这里面不会出现重复现象.每次爬到的网页肯定是index里没有的

问一个问题
如果有10个网页需要建立index
是
IndexWriter iw=new IndexWriter(...);
for(int i=0;i<10;i++){
iw.addDocuemnt(doc);
}
iw.close();

还是
for(int i=0;i<10;i++){
IndexWriter iw=new IndexWriter(...);
iw.addDocuemnt(doc);
iw.close();
}

还有，如果index量有10G，做一次optimize需要多长时间？
建议多长时间Optimize一次？
对一个刚刚做过Optimize的index目录做Optimize，会不会很快就结束，还是也需要很长时间？
optimize结束后是不是只剩下3个文件？如果有其他文件，是不是意味着有问题呢？（没有Reader或者Searcher在使用这个index的时候）

返回顶端最后更新: 2007-08-10 11:02 (0) (0) 正在投票中...

amigobot 等级: 初级会员

文章: 28
积分: 14

时间: 2007-08-12 14:15 引用收藏

--------------------------------------------------------------------------------

没有必要6分钟一次。每次optimize都会重新做索引，光拷贝10G文件就得多少分钟？如果不是频繁删除的话，一天，甚至一礼拜一趟都可以。选择系统负载少的时候就行。

返回顶端最后更新: 2007-08-12 14:15 (0) (0) 正在投票中...

licco1 等级: 初级会员

文章: 22
积分: 0

时间: 2007-09-06 09:43 引用收藏

--------------------------------------------------------------------------------

1:当search动作太频繁,或者访问的人很多,在optimize时会出现这个message
java.io.IOException: Cannot delete E:"index"_nir.f2;
注意检查下是不是每次查询完都把indexReader给close了。你可以测试下，频繁的开search，如果还有这个异常，估计就是没把 indexReader给close（千万不要以为close the indexSearcher 就ok了，要注意新建indexSearcher时传的参数是什么，是Direcitory,还是indexReader，还是字符串文件路径，这影响是否close indexReader）

返回顶端最后更新: 2007-09-06 09:43 (0) (0) 正在投票中...

fool_leave 等级: 初级会员

性别:
文章: 21
积分: 0
来自: 上海

时间: 2007-09-07 09:44 引用收藏

--------------------------------------------------------------------------------

新建indexReader时传入的是index file path，而且在search完毕后都在finally里面做了close动作。

BTW：我把optimize动作去掉后，也就是说无论它运行多久都不让他optimze，结果index很正常，文件数量不会增加很多，search也okay。

问题是总不能老这样呀，一直不optimize也不行呀。我做一次optimize，就要n分钟，index文件太大，没办法。

而且我的index动作是针对不同的网页，比如http://xxx.xxx.xxx/1.html被index后，以后遇到这个页面就不会再做index动作。换句话说，每次index的内容都是新的，不会覆盖以前的东西。这样的需求是不是不用optimize呀。

返回顶端最后更新: 2007-09-07 09:44 (0) (0) 正在投票中...

licco1 等级: 初级会员

文章: 22
积分: 0

时间: 2007-09-07 10:09 引用收藏

--------------------------------------------------------------------------------

fool_leave，你用的lucene版本是多少？如果是2.2的话，可以用indexwriter；以前用2.0，我用indexReader执行删除操作也出现过类似的情况（怀疑是indexreader只将被删除的documents设置了下删除的标志，在close的时候没真正执行删除动作，也许是我少执行了一个步骤，=会去看看reader的删除操作）。如果因为文件太大导致优化(optimze，它的作用是重新整理段，把document 的id重新设置，这个对搜索效率很有帮助，和document里term的内容没关系)的时间很长，那就得重新考虑下你的架构了(10g太大了)。这个得请教下imjl.

返回顶端最后更新: 2007-09-07 10:12 (0) (0) 正在投票中...

dwangel 等级:

文章: 500
积分: 650
圈子: TODOtree-ruby

时间: 2007-09-07 12:38 引用收藏

--------------------------------------------------------------------------------

建议设置时间任务，凌晨2点启动indexWriter进行optimise。
启动前前台页面切换到显示维护的状态，然后等待所有的reader,searcher关闭，然后进行optimise。（当然只有一个writer在跑）

In environments with frequent updates, optimize is best done during low volume times, if at all.
摘自lucene的文档
http://lucene.zones.apache.org:8080/hudson/job/Lucene-Nightly/javadoc/org/apache/lucene/index/IndexWriter.html#optimize()

It is best not to re-open readers while optimize is running.
这句话我不是很明白，我觉得应该是说不要在optimize运行时打开新的reader。但是用的re-open，难道是说
不要在optimize时，重置reader。的状态？

返回顶端最后更新: 2007-09-07 12:48 (0) (0) 正在投票中...

licco1 等级: 初级会员

文章: 22
积分: 0

时间: 2007-09-07 17:29 引用收藏

--------------------------------------------------------------------------------

因为if some but not all readers re-open while the optimize is underway, this will cause > 2X temporary space to be consumed as those new readers will then hold open the partially optimized segments at that time.所以It is best not to re-open readers while optimize is running.在进行优化的时候最好不要新开readers(2.2里好像没有reopen这个方法吧，2.3里估计会出)，因为新的readers同时会打开部分优化过的段，索引耗损的临时空间会大于两倍索引大小(翻译错了楼下的一定要指出来哦)。

我觉得在做优化时，不会对searcher有影响，不必关闭搜索功能。

返回顶端最后更新: 2007-09-07 17:31 (0) (0) 正在投票中...

fool_leave 等级: 初级会员

性别:
文章: 21
积分: 0
来自: 上海

时间: 2007-09-10 09:56 引用收藏

--------------------------------------------------------------------------------

thanks
无论是不是reopen,optimize都会耗用更多的space来存储临时文件.但这些都是临时文件,在动作结束后会被释放掉.所以如果硬盘空间足够，这些多余的耗用应该不是大问题。

但我的index目录总共有3G（我把旧的document删除了）。不过每次optimize一样要花费很长时间。我不知道应该如何重新设置document的id.我的lucene version是2.0的。

lucene的optimize的结果除了将index的文件数变成3个，还有什么好处呢？到现在我看来只有在delete索引节点后有必要通过 optimize真正的把这些节点删除，其他的优势似乎非常不明显。（因为我每次写入index的索引内容都是新的，不会有重复或追加现象）。我现在彻底把optimize从程序里去掉了，运行到现在已经1个月了，每分钟都有新内容加进去，但index目录依然很正常，文件数24个，从文件的修改时间上来看也很正常。search动作也很正常。

如果一次optimize需要花费5分钟以上的时间，而这个操作又是不可中断的，一旦在optimize过程中终止了程序，就会出现lucene自身无法恢复问题。这样对于程序要求太高了。对于服务器管理也要求太高了。

=========================================
上面的内容有些多, 不过也对大家有益. 他说最后他把执行优化的代码去掉了,运行很好. 对于大数据量的来说, 这是个经验. 除非采用冗余的机制, 而不能对正在使用的数据进行优化操作. 会造成用户访问阻塞.

由上面可见的, 我就不说了.
13, 索引过程中的任意时刻、任意进程都能对索引文件进行优化，而且这样做也不会损坏索引文件或使其不能被搜索，但是在索引过程中对索引进行优化的做法并不值得提倡。优化操作的最佳时机是在索引过程结束之后，且当你确认在此后的一段时间内不会对索引文件进行更改的时候。在索引过程中进行优化只会使优化操作耗费更多的时间。(请大家汲取这个思想)

14, 还是优化, 些人问: 我用lucene做了一个Search Engine
程序运行也很正常，但如果连续运行几个月，有时会出现磁盘空间不足的情况 .
通过iw.addDocument(doc)写入index
当list里的东西全部被写入完毕后，通过optimze来优化索引,
可这个东西运行不是很稳定，有的时候很正常，运行几个月都okay，有时1个月就出现问题了。会在index的目录里出现很多文件。这些文件似乎是应该被 optimize掉的。一个索引只能有一个indexreader, 在optimize的时候可以有多个indexsearcher在工作。
你得确保
-->optimize确实调用了
-->optimize的时候，得有双倍的磁盘空间. 可见优化的代价.

15 ,面的lucene都是在一个目录里面的, 大家也都看到了. 也就是如果这个文件一直很大怎么办. 首先碰到的第一个问题是就是文件大小限制. 首先面临的是一个大目录问题.

16, lucene的性能测试:
下面给出一些测试数据，如果你觉得可以接受，那么可以选择。
测试一：250万记录，300M左右文本，生成索引380M左右，800线程下平均处理时间300ms。
测试二：37000记录，索引数据库中的两个varchar字段，索引文件2.6M，800线程下平均处理时间1.5ms。

17 . 分布搜索

我们可以使用 MultiReader 或 MultiSearcher 搜索多个索引库。

MultiReader reader = new MultiReader(new IndexReader[] { IndexReader.Open(@"c:"index"), IndexReader.Open(@"""server"index") });
IndexSearcher searcher = new IndexSearcher(reader);
Hits hits = searcher.Search(query);

或

IndexSearcher searcher1 = new IndexSearcher(reader1);
IndexSearcher searcher2 = new IndexSearcher(reader2);
MultiSearcher searcher = new MultiSearcher(new Searchable[] { searcher1, searcher2 });
Hits hits = searcher.Search(query);

还可以使用 ParallelMultiSearcher 进行多线程并行搜索。

18. 合并索引库

将 directory1 合并到 directory2 中。
Directory directory1 = FSDirectory.GetDirectory("index1", false);
Directory directory2 = FSDirectory.GetDirectory("index2", false);

IndexWriter writer = new IndexWriter(directory2, analyzer, false);
writer.AddIndexes(new Directory[] { directory });
Console.WriteLine(writer.DocCount());
writer.Close();

19. 显示搜索语法字符串

我们组合了很多种搜索条件，或许想看看与其对等的搜索语法串是什么样的。
BooleanQuery query = new BooleanQuery();
query.Add(query1, true, false);
query.Add(query2, true, false);
//...

Console.WriteLine("Syntax: {0}", query.ToString());

输出：
Syntax: +(name:name* value:name*) +number:[0000000000000000b TO 0000000000000000d]

呵呵，就这么简单。

20. 操作索引库

删除 (软删除，仅添加了删除标记。调用 IndexWriter.Optimize() 后真正删除。)
IndexReader reader = IndexReader.Open(directory);

// 删除指定序号(DocId)的 Document。
reader.Delete(123);

// 删除包含指定 Term 的 Document。
reader.Delete(new Term(FieldValue, "Hello"));

// 恢复软删除。
reader.UndeleteAll();

reader.Close();

增量更新 (只需将 create 参数设为 false，即可往现有索引库添加新数据。)
Directory directory = FSDirectory.GetDirectory("index", false);
IndexWriter writer = new IndexWriter(directory, analyzer, false);
writer.AddDocument(doc1);
writer.AddDocument(doc2);
writer.Optimize();
writer.Close();

21. 优化

批量向 FSDirectory 增加索引时，增大合并因子(mergeFactor )和最小文档合并数(minMergeDocs)有助于提高性能，减少索引时间。

IndexWriter writer = new IndexWriter(directory, analyzer, true);

writer.maxFieldLength = 1000; // 字段最大长度
writer.mergeFactor = 1000;
writer.minMergeDocs = 1000;

for (int i = 0; i < 10000; i++)
{
// Add Documentes...
}

writer.Optimize();
writer.Close();

相关参数说明

转自《深入 Lucene 索引机制》

利用 Lucene，在创建索引的工程中你可以充分利用机器的硬件资源来提高索引的效率。当你需要索引大量的文件时，你会注意到索引过程的瓶颈是在往磁盘上写索引文件的过程中。为了解决这个问题, Lucene 在内存中持有一块缓冲区。但我们如何控制 Lucene 的缓冲区呢？幸运的是，Lucene 的类 IndexWriter 提供了三个参数用来调整缓冲区的大小以及往磁盘上写索引文件的频率。

22．合并因子 (mergeFactor)

这个参数决定了在 Lucene 的一个索引块中可以存放多少文档以及把磁盘上的索引块合并成一个大的索引块的频率。比如，如果合并因子的值是 10，那么当内存中的文档数达到 10 的时候所有的文档都必须写到磁盘上的一个新的索引块中。并且，如果磁盘上的索引块的隔数达到 10 的话，这 10 个索引块会被合并成一个新的索引块。这个参数的默认值是 10，如果需要索引的文档数非常多的话这个值将是非常不合适的。对批处理的索引来讲，为这个参数赋一个比较大的值会得到比较好的索引效果。

23．最小合并文档数 (minMergeDocs)

这个参数也会影响索引的性能。它决定了内存中的文档数至少达到多少才能将它们写回磁盘。这个参数的默认值是10，如果你有足够的内存，那么将这个值尽量设的比较大一些将会显著的提高索引性能。

24．最大合并文档数 (maxMergeDocs)

这个参数决定了一个索引块中的最大的文档数。它的默认值是 Integer.MAX_VALUE，将这个参数设置为比较大的值可以提高索引效率和检索速度，由于该参数的默认值是整型的最大值，所以我们一般不需要改动这个参数。

25 , 根据官方文档:从中可以分析出，如果在optimize索引的时候，也同时使用Searcher。索引空间的使用情况如下：
1. 原始索引
2. 由IndexWriter使用的索引，用于optimize
3. 由IndexSearcher使用的索引，用于搜索。

所以要三倍的正常空间.

为什么需要优化？
尽管未经优化的索引在大多数应用程序中都能够很好地进行工作，但在那些处理大批量索引的应用程序中，使用优化过的索引会给应用程序带来更多的好处。特别是在搜索操作需要长时间打开多个索引文件的情况下，更能体现出索引被优化后的优势，因为使用优化过的索引可以减少需要打开的文件描述符的个数

优化所需的磁盘空间
值得指出的是，Lucene对一个索引的优化操作是通过把已存在的段合并成一个全新的段来完成的，这些已存在段的内容最终会在新的段中表示出来。因而在进行优化时，使用的磁盘空间会有明显的增加。在新段创建完成时，Lucene删除并移除这些旧段。因此，在旧的段还没有被删除之前，索引占用的磁盘空间会变成原来的两倍，因为此时新段和旧段都会存储在索引中。在优化完成后，所占用的磁盘空间会降回到优化前的状态。请记住，索引优化的对象可以是多文件索引或复合索引。

26 , 索引文件有大小限制吗？(翻译)

某些 32 位操作系统限制每个文件不能大于 2GB。

解决方法：
1. 使用 IndexWriter.setMaxMergeDocs() 减小 MaxMergeDocs 数值。
2. 使用多个索引库。使用复合索引.

27, IndexWriter.SetUseCompoundFile(true) 有什么用？

在创建索引库时，会合并多个 Segments 文件到一个 .cfs 中。此方式有助于减少索引文件数量，减少同时打开的文件数量。原因：
某些操作系统会限制同时打开的文件数量。

解决方法：
1. 使用 IndexWriter's setUseCompoundFile(true) 创建复合文件，减少索引文件数量。
2. 不要将 IndexWriter's mergeFactor 的值设置过大。尽管这能加快索引速度，但会增加同时打开的文件数量。
3. 如果在搜索时发生该错误，那么你最好调用 IndexWriter.Optimize() 优化你的索引库。
4. 确认你仅创建了一个 IndexSearcher 实例，并且在所有的搜索线程中共用。(原文："Make sure you only open one IndexSearcher, and share it among all of the threads that are doing searches -- this is safe, and it will minimize the number of files that are open concurently. " 晕~~~，究竟要怎么做？ )

28, 为什么搜索不到结果？(翻译)

可能原因：
. 搜索字段没有被索引。
. 索引库中的字段没有分词存储，无法和搜索词语进行局部匹配。
. 搜索字段不存在。
. 搜索字段名错误，注意字段名称区分大小写。建议对字段名进行常量定义。
. 要搜索的词语是忽略词(StopWords)。
. 索引(IndexWriter)和搜索(IndexSearcher)所使用的 Analyzer 不同。
. 你所使用的 Analyzer 区分大小写。比如它使用了 LowerCaseFilter，而你输入的查询词和目标大小写不同。
. 你索引的文档(Document)太大。Lucene 为避免造成内存不足(OutOfMemory)，缺省仅索引前10000个词语(Term)。可以使用 IndexWriter.setMaxFieldLength() 调整。
. 确认在搜索前，目标文档已经被添加到索引库。
. 如果你使用了 QueryParser，它可能并没有按照你所设想的去分析 BooleanQuerySyntax。

如果还不行，那么：

. 使用 Query.ToString() 查看究竟搜索了些什么。
. 使用 Luke 看看你的索引库究竟有什么。

29, 上面的luke是查看索引库的, 我下载了一个版本, 居然总提示我给他的索引路径不对.无奈. .

30 ,

QueryParser 是线程安全的吗？

不是。

31, 说说分布式数据存储. 支持lucene的分布式搜索就是 hadoop. 这个也是apache下的属于lucene的开源项目. 但目前的我看只支持linux的分布机器. 网上很多这个方面的. 据说开发hadoop的人已经去了yahoo. 让hadoop支撑雅虎的分布式搜索. 所以按说功能强大.2006年的一月份Nutch和Lucene的缔造者Doug Cutting加入了Yahoo公司，从那时起，Yahoo就开始进行Hadoop的部署与研究. 但网上有人说, 这个分布式效率不高.

参数如下:

经测试，Hadoop并不是万用灵丹，很取决于文件的大小和数量，处理的复杂度以及群集机器的数量，相连的带宽，当以上四者并不大时，hadoop优势并不明显。
比如，不用hadoop用java写的简单grep函数处理100M的log文件只要4秒，用了hadoop local的方式运行是14秒，用了hadoop单机集群的方式是30秒，用双机集群10M网口的话更慢，慢到不好意思说出来的地步。

评: 怎么评价上面的哥们测试结果呢. 但愿他说的不对. 因为如果这样, yahoo不就死了..

32, MaxDoc() 和 DocCount()、NumDocs() 有什么不同？

MaxDocs() 表示索引库中最大的 Document ID 号，由于中间的某些 Document 可能被删除，因此不能使用 MaxDocs() 来表示 Document 数量。IndexWriter.DocCount()、IndexReader.NumDocs()、 IndexSearcher.Reader.NumDocs() 都表示索引库中 Document 数量。

33, 为什么同时进行搜索和更新会引发 FileNotFoundException 异常？(翻译)

可能原因：
1. 某个搜索或更新对象禁用了锁。
2. 搜索和更新使用了不同的 lockDir。
3. 索引库被存放在 NFS (or Samba) 文件系统上。

尽管搜索是只读操作，但 IndexSeacher 为了获取索引文件列表，也必须打开时锁定索引库。如果锁没有正确设置，那么它将取回一个错误的文件列表(此时 IndexWriter 可能正在添加或优化索引)，从而导致该异常发生。

34, write.lock 有什么用？哪些类会用到它？(翻译)

write.lock 用来协调索引库的并发修改处理。
当 IndexWriter 打开索引库，或者 IndexReader 删除文档时都将创建该锁。

35. commit.lock 文件有什么用？哪些类会用到它？(翻译)

commit.lock 在调整索引库 segments 文件内容时使用。 IndexReader 和 IndexWriter 都会使用到它。

36, 如何更新已经索引的文档？ (翻译)

你只能先删除，然后添加更新后的文档。

使用 IndexWriter.addIndexes(IndexReader[]) 和 IndexWriter.addIndexes(Directory[]) 合并索引库有什么不同？ (翻译)

使用 Directory[] 参数所需的文件句柄和内存较小，索引文件仅需打开一次，而使用 IndexReader[] 参数则需要打开所有的索引库。

ElasticSearch 谈谈你对段合并的策略思想的认识用心去追梦 elasticsearch 大数据搜索引擎
段合并是Elasticsearch中的一个重要概念，它在数据索引和查询过程中起着关键的作用。Elasticsearch使用Lucene作为其全文搜索库，Lucene中使用的数据结构就是段（Segment）合并。段合并的策略思想主要体现在以下几个方面：提高查询性能：在Elasticsearch中，段合并的过程可以看作是对索引进行优化，通过合并将多个小的段合并成一个大的段，这样可以减少内存的使用，提高
ES架构及原理李澎昆 ES ES
Elasticsearch是一个兼有搜索引擎和NoSQL数据库功能的开源系统，基于Java/Lucene构建，可以用于全文搜索，结构化搜索以及近实时分析。说明：Lucene：只是一个框架，要充分利用它的功能，需要使用JAVA，并且在程序中集成Lucene，学习成本高，Lucene确实非常复杂。Elasticsearch是面向文档型数据库，这意味着它存储的是整个对象或者文档，它不但会存储它们，还会为
Elasticsearch段合并喵喵喵更多 java 运维分布式后端
欢迎访问本人博客查看原文：http://wangnan.techelasticsearch中每个索引都会创建一个到多个分片和零个到多个副本，这些分片或副本实质上都是lucene索引lucene索引是基于多个索引段创建，索引文件中绝大部分数据都是只写一次，读多次，而只有用于保存文档删除信息的文件才会被多次更改在某些时刻，当某种条件满足时，多个索引段会被拷贝合并到一个更大的索引段，而那些旧的索引段会被
Lucece评分公式OKapi BM25原理解析(中) 双人余_先生
背景：延续上篇写了TF/IDF的公式解析，本篇为BM25解析简单介绍。BM25起源于概率相关性模型，而不是矢量空间模型，但是该算法与Lucene的实际评分功能有很多共同点。两者都使用Term词频率，逆文档频率和字段长度归一化，但是每个因素的定义都略有不同。与其详细解释BM25公式，不如将重点放在BM25提供的实际优势上。BM25是一个词袋检索功能，它基于每个文档中出现的查询词对一组文档进行排名，而
分布式搜索引擎Elasticsearch——基础敲代码的旺财架构进阶 elasticsearch java 搜索引擎 ES-head
文章目录一、Lucene与Solr与Elasticsearch二、ES核心术语三、ES核心概念四、倒排索引五、ES的安装（centos7）1、下载地址（这里安装linux版本）2、解压压缩包3、修改配置文件(1)修改核心配置文件(2)修改JVM配置文件4、启动ES(1)添加系统用户并授权(2)ES启动(3)修改配置文件(4)再次启动ES六、安装ES-head插件（可视化管理插件）1、使用谷歌市场安
docker部署Elasticsearch和Kibana youm. docker docker elasticsearch 容器
1.Elasticsearch和Kibana介绍1.1什么是Elasticsearch？Elasticsearch是一个开源的分布式搜索和分析引擎，用于处理大规模数据的实时搜索、分析和存储。它构建在ApacheLucene搜索引擎库的基础上，提供了一个RESTfulAPI和易于使用的工具，使得在大数据量情况下进行搜索和分析变得高效和简单。1.2为什么使用Elasticsearch？Elastics
Elasticsearch中文本字段与关键字字段的聚合和排序问题好奇的菜鸟 Elasticsearch elasticsearch 大数据搜索引擎
引言Elasticsearch是一个强大的搜索引擎，它基于Lucene构建，提供了全文搜索、分析、聚合等功能。然而，在使用Elasticsearch时，我们可能会遇到一些特定的问题，比如在文本字段上进行聚合和排序操作时出现的错误。本文将详细解释这个问题，并提供解决方案。问题概述在使用Elasticsearch进行数据分析时，我们可能会尝试对文本字段进行聚合或排序。但是，Elasticsearch默
单机安装 ELK 日志分析系统 TheFlsah Linux
一、ELK介绍ELKStack是软件集合Elasticsearch、Logstash、Kibana的简称，它们都是开源软件。新增了一个FileBeat，它是一个轻量级的日志收集处理工具(Agent)，Filebeat占用资源少，适合于在各个服务器上搜集日志后传输给Logstash，官方也推荐此工具。Elasticsearch是一个基于Lucene的、支持全文索引的分布式存储和索引引擎，主要负责将日
Elastic Search常用命令胖毁青春，瘦解百病 ES es
1测试环境信息ElasticSearch服务器：192.168.0.100用户：docker启停：dockerstart/stop/restartelasticsearchKibana控制台：http://192.168.0.100:5601/app/kibana#/dev_tools/console2基本概念Elasticsearch也是基于Lucene的全文检索库，本质也是存储数据，很多概念与
ELK离线安装和配置流程 GB9125 运维开发 elasticsearch elk linux 运维开发
ELK离线安装和配置流程一、介绍ELK是一个开源的数据分析和可视化工具，由三个开源项目组成：Elasticsearch、Logstash和Kibana。Elasticsearch是一个基于Lucene库的分布式搜索和分析引擎；Logstash是一个用于收集、处理和转换数据的数据管道，它可以从各种来源读取数据，包括日志文件、系统事件、网络流量等；Kibana则是一个数据可视化平台，可以对从Elast
Elasticsearch详解es 思静语 elasticsearch elasticsearch 大数据搜索引擎
文章目录概述es架构为什么要使用ElasticSearchElasticSearch的优势使用场景es为什么这么快倒排索引如何保证ES和数据库的数据一致性监听binlog同步双写elasticsearch是如何实现master选举的Elasticsearch与Solr的区别概述ES全称是ElasticSearch，它是一个建立在全文搜索引擎库Lucene基础上的开源搜索和分析引擎。ES它本身具有分
Java——ikanalyzer分词·只用自定义词库 weixin_30902251 java 数据库 c/c++
需要包：IKAnalyzer2012_FF_hf1.jarlucene-core-5.5.4.jar需要文件：IKAnalyzer.cfg.xmlext.dicstopword.dic整理好的下载地址：http://download.csdn.net/detail/talkwah/9770635importjava.io.IOException;importjava.io.StringReader
Lucene实现自定义中文同义词分词器 WangJonney Lucene Lucene
----------------------------------------------------------lucene的分词_中文分词介绍----------------------------------------------------------Paoding:庖丁解牛分词器。已经没有更新了mmseg:使用搜狗的词库1.导入包（有两个包：1.带dic的，2.不带dic的）如果使用
选型搜索引擎之参考Elasticsearch 剑飞的编程思维 elasticsearch
简介Elasticsearch（简称ES）是一个基于ApacheLucene的开源、分布式、RESTful接口的全文搜索引擎。其设计用于云计算环境，能够达到实时搜索、稳定、可靠、快速、安装使用方便的效果。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。Elasticsearch的特点包括：分布式存储和搜索：Elasticsear
从入门到精通：Elasticsearch开发实践教程青年老年程序员 Elasticsearch学习 elasticsearch jenkins 大数据
Elasticsearch是一款开源的搜索引擎，它使用Lucene搜索库作为其核心搜索引擎。Elasticsearch使用RESTfulAPI进行交互，并支持多种数据类型的搜索和聚合。本教程将介绍Elasticsearch的基本原理，如何开发，以及如何在SpringBoot中使用Elasticsearch。Elasticsearch的原理Elasticsearch是一个分布式的文档存储和搜索引擎。
深入理解Lucene：开源全文搜索引擎的核心技术解析一休哥助手分布式系统算法搜索引擎 lucene 开源
1.介绍Lucene是什么？Lucene是一个开源的全文搜索引擎库，提供了强大的文本搜索和检索功能。它由Apache软件基金会维护和开发，采用Java语言编写，因其高性能、可扩展性和灵活性而备受欢迎。Lucene的作用和应用场景Lucene主要用于创建全文索引和执行文本搜索。其主要作用包括但不限于：在大型文本数据集中快速进行文本搜索和检索。实现网站、应用程序或系统中的搜索功能。构建文档管理系统、知
Elasticsearch基础知识与架构概述禅与计算机程序设计艺术 elasticsearch 架构 jenkins 大数据搜索引擎
1.背景介绍Elasticsearch是一个基于分布式搜索和分析引擎，它可以处理大量数据并提供实时搜索功能。在本文中，我们将深入了解Elasticsearch的基础知识和架构概述，并探讨其核心概念、算法原理、最佳实践、实际应用场景和未来发展趋势。1.背景介绍Elasticsearch是一款开源的搜索引擎，由ElasticCorporation开发。它基于Lucene库，具有高性能、可扩展性和实时性
视野 | OpenSearch，云厂商的新选择？ RadonDB 数据库搜索引擎 elasticsearch
王奇顾问软件工程师目前从事PaaS中间件服务（Redis/MongoDB/ELK等）开发工作，对NoSQL数据库有深入的研究以及丰富的二次开发经验，热衷对NoSQL数据库领域内的最新技术动态的学习，能够把握行业技术发展趋势。|最流行的全文搜索引擎Elasticsearch是一款广泛使用的开源分布式全文搜索引擎，源于ApacheLucene[1]，许可证为Apache2.0。由于出色的搜索引擎、高扩
Elasticsearch使用场景说明车马去闲闲丶 elasticsearch 大数据搜索引擎
Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多租户能力的全文搜索引擎，基于RESTfulweb接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。它设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。以下是一些Elasticsearch的常见使用场景：全文搜索：Elastic
ElasticSearch学习笔记重生之Java再爱我一次 elasticsearch 学习笔记
ElasticSearch一、初识ES1.什么是ElasticSearch？ES的概念：ElasticSearch是一款非常强大的开源搜索引擎，可以帮助我们从海量数据中快速找到需要的内容。ElasticSearch结合Kibana、LogStach、Beats，也就是ElasticStack（ELK）。被广泛应用在日志数据分析、实时监控等领域。ES的发展：Lucene是一个Java语言的搜索引擎类
solr —— 1 全文检索Solr8.0第一部分苏打饼干没加心 solr
solr，毕设啊，快被写完吧1solr介绍什么是solrLucene与Solr与ES为什么要用slor2HelloWorld2.1项目安装部署2.2项目安装配置创建核心创建document(表)添加文件查询数据3solr后台管理页面详解控制面板5全文检索千万级别数据实战，全面剖析架构设计，大数据瓶颈突破6数据库导入索引BV1Dt411G7eF1solr介绍什么是solrsolr简化了程序员的操作L
（三十七）大数据实战——Solr服务的部署安装厉害哥哥吖大数据大数据 solr
前言Solr是一个基于ApacheLucene的开源搜索平台，它提供了强大的全文搜索、分布式搜索和数据分析功能。Solr可以用于构建高性能的搜索应用程序，支持从海量数据中快速检索和分析信息。Solr使用倒排索引和先进的搜索算法，可实现快速而准确的全文搜索。Solr可以在多个服务器上进行水平扩展，实现分布式搜索和负载均衡。Solr支持复杂的过滤、排序和范围查询，使您可以根据各种条件对搜索结果进行精确
《ElasticSearch技术解析与实战-朱林》云澜哥哥 ElasticSearch elasticsearch big data
《第一章：ElasticSearch入门》ElasticSearch简介：ElasticSearch是一个基于lucener构建的开源的，分布式的，resultful接口全文搜索引擎。ElasticSearch是一个分布式文档数据库。其中每个字段都是可以被索引的数据且可被搜索。ElasticSearch能够扩展到数以百计的服务器存储以及处理PB级的数据，它可以在很短的时间内存储，搜索，分析大量的数
阿里P8架构师谈：开源搜索引擎Lucene、Solr、Sphinx等优劣势比较 liuhuiteng 中间件中间件
开源搜索引擎分类1.Lucene系搜索引擎，java开发,包括：LuceneSolrElasticsearchKatta、Compass等都是基于Lucene封装。你可以想象Lucene系有多强大。2.Sphinx搜素引擎，c++开发,简单高性能。以下重点介绍最常用的开源搜素引擎：Lucene、Solr、Elasticsearch、Sphinx的特点和优劣势选型比较。Lucene1.Lucene简
16款开源的全文搜索引擎网络安全乔妮娜开源搜索引擎网络安全 web安全数据库安全前端
网络安全重磅福利：入门&进阶全套282G学习资源包免费分享！全文搜索引擎就是通过从互联网上提取的各个网站的信息（以网页文字为主）而建立的数据库中，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户。1、ApacheLuceneJava全文搜索框架许可证：Apache-2.0开发语言：Java官网：https://lucene.apache.org/ApacheLucene是完全
Lucene初识 KhaosYang
Lucene是一种高性能、可伸缩的信息搜索（IR）库，在2000年开源，最初由鼎鼎大名的DougCutting开发，是基于Java实现的高性能的开源项目。Lucene采用了基于倒排表的设计原理，可以非常高效地实现文本查找，在底层采用了分段的存储模式，使它在读写时几乎完全避免了锁的出现，大大提升了读写性能。核心模块Lucene的写流程和读流程如图1所示。1.Lucene读写流程图其中，虚线箭头（A、
03-03 elasticsearch nan得糊涂
入门篇使用场景海量存储：支持分布式存储实时搜索：lucene倒排索引，海量数据下近乎实时搜索a.日志分析，es+logstash+kibanab.Github代码数据分析：支持数据分析及处理基本功能分布式的搜索引擎和数据分析引擎全文检索，结构化检索，数据分析海量数据实时处理根据这些功能，可以实现的使用场景某张表有海量数据，需要实时快速查询数据分析带来的问题ES用在海量数据实时查询，基本的数据分析等
Error CREATEing SolrCore 'index': Unable to create core: index Caused by: No enum constant org.apach 杉斯狼后台 Java solr enum 索引 lucene
ErrorCREATEingSolrCore'index':Unabletocreatecore:indexCausedby:Noenumconstantorg.apache.lucene.util.Version.LUCENE_48出错原因：solr版本配置不正确解决方法：在索引文件的目录下conf>solrconfig.xml4.8将4.8修改为4.7（你具体的版本，可以参照collectio
Elasticsearch的使用场景深入详解 Y T elasticsearch
Elasticsearch是一个基于Lucene的开源搜索引擎，它提供了一个分布式多用户能力，能够处理PB级别的结构化或非结构化数据。Elasticsearch的设计目标是实现一个可扩展的搜索解决方案，它适用于多种使用场景，以下是一些深入的使用场景详解：1.日志分析与监控Elasticsearch与Logstash和Kibana（统称为ELKStack）结合使用，可以构建强大的日志分析平台。它能够
Elasticsearch—概念、安装和配置 Sunflow007
13.jpg前言：Elasticsearch是一款很火热的，很优秀的，基于lucene的开源的分布式的搜索引擎，话不多说，本篇文章主要是Elasticsearch基本概念介绍、安装和配置。Elasticsearch的基本概念官方文档——BasicConcepts|ElasticsearchReference[6.4]|Elastic我们在学习关系型数据库和服务器的时候，接触到了一些概念如：data
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》

lucene.net的一点知识

你可能感兴趣的:(Lucene)