lucene

在Intranet中究竟如何实现web services？

由于毕业设计的需要，最近翻看了很多关于Web Services的书籍，对面向服务的架构（SOA）也有了一定的了解，同时也产生了些疑惑。
如果我在企业内部网内实施web服务的话，采用UDDI的注册机制来实现web服务的发布、发现是不是复杂了些？
因为企业内部不用牵涉到那么多的公司，我们也没有必要将服务描述得那样详细

.
是不是可以采用自己的方式来实现SOA的架构呢？服务代理（注册中心）可以采用自己的方式来管理，利用数据库，而不是UDDI的注册表，再结合搜索技术，来实现web服务

的管理和发现，至于web服务的验证和注册在Intranet内应该是不重要的吧

http: // coldjack.itpub.net/post/19152/221856
Mon, 16 Oct 2006 21 : 14 : 55 + 0000

转载: 在应用中加入全文检索功能 ——基于Java的全文索引引擎Lucene简介

在应用中加入全文检索功能——基于Java的全文索引引擎Lucene简介
原文出处: http: // www.chedong.com/tech/lucene.html
关键词：Lucene java full - text search engine Chinese word segment
内容摘要：
Lucene是一个基于Java的全文索引工具包。
基于Java的全文索引引擎Lucene简介：关于作者和Lucene的历史
全文检索的实现：Luene全文索引和数据库索引的比较
中文切分词机制简介：基于词库和自动切分词算法的比较
具体的安装和使用简介：系统结构介绍和演示
Hacking Lucene：简化的查询分析器，删除的实现，定制的排序，应用接口的扩展
从Lucene我们还可以学到什么
基于Java的全文索引 / 检索引擎——Lucene
Lucene不是一个完整的全文索引应用，而是是一个用Java写的全文索引引擎工具包，它可以方便的嵌入到各种应用中实现针对应用的全文索引 / 检索功能。
Lucene的作者：Lucene的贡献者Doug Cutting是一位资深全文索引 / 检索专家，曾经是V - Twin搜索引擎(Apple的Copland操作系统的成就之一)的主要开发者，后在Excite担任

高级系统架构设计师，目前从事于一些INTERNET底层架构的研究。他贡献出的Lucene的目标是为各种中小型应用程序加入全文检索功能。
Lucene的发展历程：早先发布在作者自己的www.lucene.com，后来发布在SourceForge，2001年年底成为APACHE基金会jakarta的一个子项目：

http: // jakarta.apache.org/lucene/
已经有很多Java项目都使用了Lucene作为其后台的全文索引引擎，比较著名的有：
Jive：WEB论坛系统；
Eyebrows：邮件列表HTML归档 / 浏览 / 查询系统，本文的主要参考文档“TheLucene search engine: Powerful, flexible, and free”作者就是EyeBrows系统的主要开发者之

一，而EyeBrows已经成为目前APACHE项目的主要邮件列表归档系统。
Cocoon:基于XML的web发布框架，全文检索部分使用了Lucene
Eclipse:基于Java的开放开发平台，帮助部分的全文索引使用了Lucene
对于中文用户来说，最关心的问题是其是否支持中文的全文检索。但通过后面对于Lucene的结构的介绍，你会了解到由于Lucene良好架构设计，对中文的支持只需对其语言

词法分析接口进行扩展就能实现对中文检索的支持。
全文检索的实现机制
Lucene的API接口设计的比较通用，输入输出结构都很像数据库的表 ==> 记录 ==> 字段，所以很多传统的应用的文件、数据库等都可以比较方便的映射到Lucene的存储结构 / 接

口中。总体上看：可以先把
Lucene当成一个支持全文索引的数据库系统
。
比较一下Lucene和数据库：
Lucene
数据库
索引数据源：doc(field1,field2

) doc(field1,field2

)
indexer /
_____________
| Lucene Index |
--------------
/ searcher
结果输出：Hits(doc(field1,field2) doc(field1

))
索引数据源：record(field1,field2

) record(field1..)
SQL: insert /
_____________
| DB Index |
-------------
/ SQL: select
结果输出：results(record(field1,field2..) record(field1

))
Document：一个需要进行索引的“单元”
一个Document由多个字段组成
Record：记录，包含多个字段
Field：字段
Field：字段
Hits：查询结果集，由匹配的Document组成
RecordSet：查询结果集，由多个Record组成
全文检索 ≠ like " %keyword% "
通常比较厚的书籍后面常常附关键词索引表（比如：北京： 12 , 34页，上海： 3 ,77页……），它能够帮助读者比较快地找到相关内容的页码。而数据库索引能够大大提高查

询的速度原理也是一样，想像一下通过书后面的索引查找的速度要比一页一页地翻内容高多少倍……而索引之所以效率高，另外一个原因是它是排好序的。
对于检索系统来说核心是一个排序问题
。
由于数据库索引不是为全文索引设计的，因此，
使用like " %keyword% " 时，数据库索引是不起作用的
，在使用like查询时，搜索过程又变成类似于一页页翻书的遍历过程了，所以对于含有模糊查询的数据库服务来说，LIKE对性能的危害是极大的。如果是需要对多个关键词

进行模糊匹配：like " %keyword1% " and like " %keyword2% "

其效率也就可想而知了。
所以建立一个高效检索系统的关键是建立一个类似于科技索引一样的反向索引机制，将数据源（比如多篇文章）排序顺序存储的同时，有另外一个排好序的关键词列表，用

于存储关键词 ==> 文章映射关系，利用这样的映射关系索引：[关键词 ==> 出现关键词的文章编号，出现次数（甚至包括位置：起始偏移量，结束偏移量），出现频率]，检索

过程就是把
模糊查询变成多个可以利用索引的精确查询的逻辑组合的过程
。从而大大提高了多关键词查询的效率，所以，全文检索问题归结到最后是一个排序问题。
由此可以看出模糊查询相对数据库的精确查询是一个非常不确定的问题，这也是大部分数据库对全文检索支持有限的原因。Lucene最核心的特征是通过特殊的索引结构实现

了传统数据库不擅长的全文索引机制，并提供了扩展接口，以方便针对不同应用的定制。
可以通过一下表格对比一下数据库的模糊查询：
　
Lucene全文索引引擎
数据库
索引
将数据源中的数据都通过全文索引一一建立反向索引
对于LIKE查询来说，数据传统的索引是根本用不上的。数据需要逐个便利记录进行GREP式的模糊匹配，比有索引的搜索速度要有多个数量级的下降。
匹配效果
通过词元(term)进行匹配，通过语言分析接口的实现，可以实现对中文等非英语的支持。
使用：like " %net% " 会把netherlands也匹配出来，
多个关键词的模糊匹配：使用like " %com%net% " ：就不能匹配词序颠倒的xxx.net..xxx.com
匹配度
有匹配度算法，将匹配程度（相似度）比较高的结果排在前面。
没有匹配程度的控制：比如有记录中net出现5词和出现1次的，结果是一样的。
结果输出
通过特别的算法，将最匹配度最高的头100条结果输出，结果集是缓冲式的小批量读取的。
返回所有的结果集，在匹配条目非常多的时候（比如上万条）需要大量的内存存放这些临时结果集。
可定制性
通过不同的语言分析接口实现，可以方便的定制出符合应用需要的索引规则（包括对中文的支持）
没有接口或接口复杂，无法定制
结论
高负载的模糊查询应用，需要负责的模糊查询的规则，索引的资料量比较大
使用率低，模糊匹配规则简单或者需要模糊查询的资料量少
全文检索和数据库应用最大的不同在于：让
最相关的
头100条结果满足98 % 以上用户的需求
Lucene的创新之处：
大部分的搜索（数据库）引擎都是用B树结构来维护索引，索引的更新会导致大量的IO操作，Lucene在实现中，对此稍微有所改进：不是维护一个索引文件，而是在扩展索引

的时候不断创建新的索引文件，然后定期的把这些新的小索引文件合并到原先的大索引中（针对不同的更新策略，批次的大小可以调整），这样在不影响检索的效率的前提

下，提高了索引的效率。
Lucene和其他一些全文检索系统 / 应用的比较：
　
Lucene
其他开源全文检索系统
增量索引和批量索引
可以进行增量的索引(Append)，可以对于大量数据进行批量索引，并且接口设计用于优化批量索引和小批量的增量索引。
很多系统只支持批量的索引，有时数据源有一点增加也需要重建索引。
数据源
Lucene没有定义具体的数据源，而是一个文档的结构，因此可以非常灵活的适应各种应用（只要前端有合适的转换器把数据源转换成相应结构），
很多系统只针对网页，缺乏其他格式文档的灵活性。
索引内容抓取
Lucene的文档是由多个字段组成的，甚至可以控制那些字段需要进行索引，那些字段不需要索引，近一步索引的字段也分为需要分词和不需要分词的类型：
需要进行分词的索引，比如：标题，文章内容字段
不需要进行分词的索引，比如：作者 / 日期字段
缺乏通用性，往往将文档整个索引了
语言分析
通过语言分析器的不同扩展实现：
可以过滤掉不需要的词：an the of 等，
西文语法分析：将jumps jumped jumper都归结成jump进行索引 / 检索
非英文支持：对亚洲语言，阿拉伯语言的索引支持
缺乏通用接口实现
查询分析
通过查询分析接口的实现，可以定制自己的查询语法规则：
比如：多个关键词之间的 + - and or关系等
　
并发访问
能够支持多用户的使用
　
　
关于亚洲语言的的切分词问题(Word Segment)
对于中文来说，全文索引首先还要解决一个语言分析的问题，对于英文来说，语句中单词之间是天然通过空格分开的，但亚洲语言的中日韩文语句中的字是一个字挨一个，

所有，首先要把语句中按“词”进行索引的话，这个词如何切分出来就是一个很大的问题。
首先，肯定不能用单个字符作(si - gram)为索引单元，否则查“上海”时，不能让含有“海上”也匹配。
但一句话：“北京天安门”，计算机如何按照中文的语言习惯进行切分呢？
“北京天安门” 还是“北京天安门”？让计算机能够按照语言习惯进行切分，往往需要机器有一个比较丰富的词库才能够比较准确的识别出语句中的单词。
另外一个解决的办法是采用自动切分算法：将单词按照2元语法(bigram)方式切分出来，比如：
" 北京天安门 " ==> " 北京京天天安安门 " 。
这样，在查询的时候，无论是查询 " 北京 " 还是查询 " 天安门 " ，将查询词组按同样的规则进行切分： " 北京 " ， " 天安安门 " ，多个关键词之间按与 " and " 的关系组合，同样能够

正确地映射到相应的索引中。这种方式对于其他亚洲语言：韩文，日文都是通用的。
基于自动切分的最大优点是没有词表维护成本，实现简单，缺点是索引效率低，但对于中小型应用来说，基于2元语法的切分还是够用的。基于2元切分后的索引一般大小和

源文件差不多，而对于英文，索引文件一般只有原文件的30 %- 40 % 不同，
自动切分
词表切分
实现
实现非常简单
实现复杂
查询
增加了查询分析的复杂程度，
适于实现比较复杂的查询语法规则
存储效率
索引冗余大，索引几乎和原文一样大
索引效率高，为原文大小的30％左右
维护成本
无词表维护成本
词表维护成本非常高：中日韩等语言需要分别维护。
还需要包括词频统计等内容
适用领域
嵌入式系统：运行环境资源有限
分布式系统：无词表同步问题
多语言环境：无词表维护成本
对查询和存储效率要求高的专业搜索引擎
目前比较大的搜索引擎的语言分析算法一般是基于以上2个机制的结合。关于中文的语言分析算法，大家可以在Google查关键词 " wordsegment search " 能找到更多相关的资料

。
安装和使用
下载：http: // jakarta.apache.org/lucene/
注意：Lucene中的一些比较复杂的词法分析是用JavaCC生成的（JavaCC：JavaCompilerCompiler，纯Java的词法分析生成器），所以如果从源代码编译或需要修改其中的

QueryParser、定制自己的词法分析器，还需要从https: // javacc.dev.java.net/下载javacc。
lucene的组成结构：对于外部应用来说索引模块(index)和检索模块(search)是主要的外部应用入口
org.apache.Lucene.search /
搜索入口
org.apache.Lucene.index /
索引入口
org.apache.Lucene.analysis /
语言分析器
org.apache.Lucene.queryParser /
查询分析器
org.apache.Lucene.document /
存储结构
org.apache.Lucene.store /
底层IO / 存储结构
org.apache.Lucene.util /
一些公用的数据结构
简单的例子演示一下Lucene的使用方法：
索引过程：从命令行读取文件名（多个），将文件分路径(path字段)和内容(body字段)2个字段进行存储，并对内容进行全文索引：索引的单位是Document对象，每个

Document对象包含多个字段Field对象，针对不同的字段属性和数据输出的需求，对字段还可以选择不同的索引 / 存储字段规则，列表如下：
方法
切词
索引
存储
用途
Field.Text(String name, String value)
Yes
Yes
Yes
切分词索引并存储，比如：标题，内容字段
Field.Text(String name, Reader value)
Yes
Yes
No
切分词索引不存储，比如：META信息，
不用于返回显示，但需要进行检索内容
Field.Keyword(String name, String value)
No
Yes
Yes
不切分索引并存储，比如：日期字段
Field.UnIndexed(String name, String value)
No
No
Yes
不索引，只存储，比如：文件路径
Field.UnStored(String name, String value)
Yes
Yes
No
只全文索引，不存储
public class IndexFiles {
// 使用方法：: IndexFiles [索引输出目录] [索引的文件列表]

public static void main(String[] args) throws Exception {
String indexPath = args[ 0 ];
IndexWriter writer;
// 用指定的语言分析器构造一个新的写索引器（第3个参数表示是否为追加索引）
writer = new IndexWriter(indexPath, new SimpleAnalyzer(), false );
for ( int i = 1 ; i < args.length; i ++ ) {
System. out .println( " Indexing file " + args[i]);
InputStream is = new FileInputStream(args[i]);
// 构造包含2个字段Field的Document对象
// 一个是路径path字段，不索引，只存储
// 一个是内容body字段，进行全文索引，并存储
Document doc = new Document();
doc.add(Field.UnIndexed( " path " , args[i]));
doc.add(Field.Text( " body " , (Reader) new InputStreamReader( is )));
// 将文档写入索引
writer.addDocument(doc);
is .close();
};
// 关闭写索引器
writer.close();
}
}
　
索引过程中可以看到：
语言分析器提供了抽象的接口，因此语言分析(Analyser)是可以定制的，虽然lucene缺省提供了2个比较通用的分析器SimpleAnalyser和StandardAnalyser，这2个分析器缺

省都不支持中文，所以要加入对中文语言的切分规则，需要修改这2个分析器。
Lucene并没有规定数据源的格式，而只提供了一个通用的结构（Document对象）来接受索引的输入，因此输入的数据源可以是：数据库，WORD文档，PDF文档，HTML文档……

只要能够设计相应的解析转换器将数据源构造成成Docuement对象即可进行索引。
对于大批量的数据索引，还可以通过调整IndexerWrite的文件合并频率属性（mergeFactor）来提高批量索引的效率。
检索过程和结果显示：
搜索结果返回的是Hits对象，可以通过它再访问Document ==> Field中的内容。
假设根据body字段进行全文检索，可以将查询结果的path字段和相应查询的匹配度(score)打印出来，
public class Search {
public static void main(String[] args) throws Exception {
String indexPath = args[ 0 ], queryString = args[ 1 ];
// 指向索引目录的搜索器
Searcher searcher = new IndexSearcher(indexPath);
// 查询解析器：使用和索引同样的语言分析器
Query query = QueryParser.parse(queryString, " body " ,
new SimpleAnalyzer());
// 搜索结果使用Hits存储
Hits hits = searcher.search(query);
// 通过hits可以访问到相应字段的数据和查询的匹配度
for ( int i = 0 ; i < hits.length(); i ++ ) {
System. out .println(hits.doc(i). get ( " path " ) + " ; Score: " +
hits.score(i));
};
}
}
在整个检索过程中，语言分析器，查询分析器，甚至搜索器（Searcher）都是提供了抽象的接口，可以根据需要进行定制。
Hacking Lucene
简化的查询分析器
个人感觉lucene成为JAKARTA项目后，画在了太多的时间用于调试日趋复杂QueryParser，而其中大部分是大多数用户并不很熟悉的，目前LUCENE支持的语法：
Query :: = ( Clause ) *
Clause :: = [ " + " , " - " ] [ < TERM > " : " ] ( < TERM > | " ( " Query " ) " )
中间的逻辑包括：and or + - &&|| 等符号，而且还有 " 短语查询 " 和针对西文的前缀 / 模糊查询等，个人感觉对于一般应用来说，这些功能有一些华而不实，其实能够实现目

前类似于Google的查询语句分析功能其实对于大多数用户来说已经够了。所以，Lucene早期版本的QueryParser仍是比较好的选择。
添加修改删除指定记录（Document）
Lucene提供了索引的扩展机制，因此索引的动态扩展应该是没有问题的，而指定记录的修改也似乎只能通过记录的删除，然后重新加入实现。如何删除指定的记录呢？删除

的方法也很简单，只是需要在索引时根据数据源中的记录ID专门另建索引，然后利用IndexReader.delete(Termterm)方法通过这个记录ID删除相应的Document。
根据某个字段值的排序功能
lucene缺省是按照自己的相关度算法（score）进行结果排序的，但能够根据其他字段进行结果排序是一个在LUCENE的开发邮件列表中经常提到的问题，很多原先基于数据库

应用都需要除了基于匹配度（score）以外的排序功能。而从全文检索的原理我们可以了解到，任何不基于索引的搜索过程效率都会导致效率非常的低，如果基于其他字段的

排序需要在搜索过程中访问存储字段，速度回大大降低，因此非常是不可取的。
但这里也有一个折中的解决方法：在搜索过程中能够影响排序结果的只有索引中已经存储的docID和score这2个参数，所以，基于score以外的排序，其实可以通过将数据源

预先排好序，然后根据docID进行排序来实现。这样就避免了在LUCENE搜索结果外对结果再次进行排序和在搜索过程中访问不在索引中的某个字段值。
这里需要修改的是IndexSearcher中的HitCollector过程：

scorer.score( new HitCollector() {
private float minScore = 0.0f ;
public final void collect( int doc, float score) {
if (score > 0.0f && // ignore zeroed buckets
(bits == null || bits. get (doc))) { // skip docs not in bits
totalHits[ 0 ] ++ ;
if (score >= minScore) {
/* 原先：Lucene将docID和相应的匹配度score例入结果命中列表中：
* hq.put(new ScoreDoc(doc, score)); // update hit queue
* 如果用doc 或 1/doc 代替 score，就实现了根据docID顺排或逆排
* 假设数据源索引时已经按照某个字段排好了序，而结果根据docID排序也就实现了
* 针对某个字段的排序，甚至可以实现更复杂的score和docID的拟合。
*/
hq.put( new ScoreDoc(doc, ( float ) 1 / doc ));
if (hq.size() > nDocs) { // if hit queue overfull
hq.pop(); // remove lowest in hit queue
minScore = ((ScoreDoc)hq.top()).score; // reset minScore
}
}
}
}
}, reader.maxDoc());
更通用的输入输出接口
虽然lucene没有定义一个确定的输入文档格式，但越来越多的人想到使用一个标准的中间格式作为Lucene的数据导入接口，然后其他数据，比如PDF只需要通过解析器转换成

标准的中间格式就可以进行数据索引了。这个中间格式主要以XML为主，类似实现已经不下4，5个：
数据源: WORD PDF HTML DB other
| | | /
XML中间格式
|
Lucene INDEX
目前还没有针对MSWord文档的解析器，因为Word文档和基于ASCII的RTF文档不同，需要使用COM对象机制解析。这个是我在Google上查的相关资料：

http: // www.intrinsyc.com/products/enterprise_applications.asp
另外一个办法就是把Word文档转换成text：http: // www.winfield.demon.nl/index.html
索引过程优化
索引一般分2种情况，一种是小批量的索引扩展，一种是大批量的索引重建。在索引过程中，并不是每次新的DOC加入进去索引都重新进行一次索引文件的写入操作（文件I / O

是一件非常消耗资源的事情）。
Lucene先在内存中进行索引操作，并根据一定的批量进行文件的写入。这个批次的间隔越大，文件的写入次数越少，但占用内存会很多。反之占用内存少，但文件IO操作频

繁，索引速度会很慢。在IndexWriter中有一个MERGE_FACTOR参数可以帮助你在构造索引器后根据应用环境的情况充分利用内存减少文件的操作。根据我的使用经验：缺省

Indexer是每20条记录索引后写入一次，每将MERGE_FACTOR增加50倍，索引速度可以提高1倍左右。
搜索过程优化
lucene支持内存索引：这样的搜索比基于文件的I / O有数量级的速度提升。
http: // www.onjava.com/lpt/a/3273
而尽可能减少IndexSearcher的创建和对搜索结果的前台的缓存也是必要的。
Lucene面向全文检索的优化在于首次索引检索后，并不把所有的记录（Document）具体内容读取出来，而起只将所有结果中匹配度最高的头100条结果（TopDocs）的ID放到

结果集缓存中并返回，这里可以比较一下数据库检索：如果是一个10,000条的数据库检索结果集，数据库是一定要把所有记录内容都取得以后再开始返回给应用结果集的。

所以即使检索匹配总数很多，Lucene的结果集占用的内存空间也不会很多。对于一般的模糊检索应用是用不到这么多的结果的，头100条已经可以满足90 % 以上的检索需求。
如果首批缓存结果数用完后还要读取更后面的结果时Searcher会再次检索并生成一个上次的搜索缓存数大1倍的缓存，并再重新向后抓取。所以如果构造一个Searcher去查1

－120条结果，Searcher其实是进行了2次搜索过程：头100条取完后，缓存结果用完，Searcher重新检索再构造一个200条的结果缓存，依此类推，400条缓存，800条缓存。

由于每次Searcher对象消失后，这些缓存也访问那不到了，你有可能想将结果记录缓存下来，缓存数尽量保证在100以下以充分利用首次的结果缓存，不让Lucene浪费多次检

索，而且可以分级进行结果缓存。
Lucene的另外一个特点是在收集结果的过程中将匹配度低的结果自动过滤掉了。这也是和数据库应用需要将搜索的结果全部返回不同之处。
我的一些尝试：
支持中文的Tokenizer：这里有2个版本，一个是通过JavaCC生成的，对CJK部分按一个字符一个TOKEN索引，另外一个是从SimpleTokenizer改写的，对英文支持数字和字母

TOKEN，对中文按迭代索引。
基于XML数据源的索引器：XMLIndexer，因此所有数据源只要能够按照DTD转换成指定的XML，就可以用XMLIndxer进行索引了。
根据某个字段排序：按记录索引顺序排序结果的搜索器：IndexOrderSearcher，因此如果需要让搜索结果根据某个字段排序，可以让数据源先按某个字段排好序（比如：

PriceField），这样索引后，然后在利用这个按记录的ID顺序检索的搜索器，结果就是相当于是那个字段排序的结果了。
从Lucene学到更多
Luene的确是一个面对对象设计的典范
所有的问题都通过一个额外抽象层来方便以后的扩展和重用：你可以通过重新实现来达到自己的目的，而对其他模块而不需要；
简单的应用入口Searcher, Indexer，并调用底层一系列组件协同的完成搜索任务；
所有的对象的任务都非常专一：比如搜索过程：QueryParser分析将查询语句转换成一系列的精确查询的组合(Query),通过底层的索引读取结构IndexReader进行索引的读取

，并用相应的打分器给搜索结果进行打分 / 排序等。所有的功能模块原子化程度非常高，因此可以通过重新实现而不需要修改其他模块。
除了灵活的应用接口设计，Lucene还提供了一些适合大多数应用的语言分析器实现（SimpleAnalyser,StandardAnalyser），这也是新用户能够很快上手的重要原因之一。
这些优点都是非常值得在以后的开发中学习借鉴的。作为一个通用工具包，Lunece的确给予了需要将全文检索功能嵌入到应用中的开发者很多的便利。
此外，通过对Lucene的学习和使用，我也更深刻地理解了为什么很多数据库优化设计中要求，比如：
尽可能对字段进行索引来提高查询速度，但过多的索引会对数据库表的更新操作变慢，而对结果过多的排序条件，实际上往往也是性能的杀手之一。
很多商业数据库对大批量的数据插入操作会提供一些优化参数，这个作用和索引器的merge_factor的作用是类似的，
20 %/ 80 % 原则：查的结果多并不等于质量好，尤其对于返回结果集很大，如何优化这头几十条结果的质量往往才是最重要的。
尽可能让应用从数据库中获得比较小的结果集，因为即使对于大型数据库，对结果集的随机访问也是一个非常消耗资源的操作。
参考资料：
Apache: Lucene Project
http: // jakarta.apache.org/lucene/Lucene开发/用户邮件列表归档
Lucene - [email protected]
Lucene - [email protected]
The Lucene search engine: Powerful, flexible, and free
http: // www.javaworld.com/javaworld/jw-09-2000/jw-0915-Lucene_p.html
Lucene Tutorial
http: // www.darksleep.com/puff/lucene/lucene.html
Notes on distributed searching with Lucene
http: // home.clara.net/markharwood/lucene/
中文语言的切分词
http: // www.google.com/search?sourceid=navclient&hl=zh-CN&q=chinese+word+segment
搜索引擎工具介绍
http: // searchtools.com/
Lucene作者Cutting的几篇论文和专利
http: // lucene.sourceforge.net/publications.html
Lucene的.NET实现：dotLucene
http: // sourceforge.net/projects/dotlucene/
Lucene作者Cutting的另外一个项目：基于Java的搜索引擎Nutch
http: // www.nutch.org/ http://sourceforge.net/projects/nutch/
关于基于词表和N - Gram的切分词比较
http: // china.nikkeibp.co.jp/cgi-bin/china/news/int/int200302100112.html
2005 - 01 - 08 Cutting在Pisa大学做的关于Lucene的讲座：非常详细的Lucene架构解说
特别感谢：
前网易CTO许良杰(Jack Xu)给我的指导：是您将我带入了搜索引擎这个行业。
原文出处： < ahref = " http://www.chedong.com/tech/lucene.html " > http: // www.chedong.com/tech/lucene.html</a>
http: // coldjack.itpub.net/post/19152/218078
Sun, 08 Oct 2006 15 : 17 : 07 + 0000

又是一个国庆节！

又迎来了一个国庆节，实验室空空如也，师兄姐弟妹们要么回家，要么出去游玩，只剩下无聊的我独自留守于机房。。。。。。
http: // coldjack.itpub.net/post/19152/216138
Sun, 01 Oct 2006 11 : 51 : 19 + 0000

转载：SQL Server 2000中全文检索的使用
微软的SQL Server数据库是一个在中低端企业应用中占有广泛市场的关系型数据库系统，它以简单、方便、易用等特性深得众多软件开发人员和数据库管理人员的钟爱。但

SQL Server 7 .0以前的数据库系统由于没有全文检索功能，致使无法提供像文本内容查找此类的服务，成为一个小小的遗憾。从SQL Server 7 .0起，到如今的SQL Server

2000终于具备了全文检索功能，使用户可以高效地检索存储在数据库char、varchar、text、ntext、nchar、nvarchar等数据类型列中的文本数据。
建立全文索引
在进行全文检索之前，必须先建立和填充数据库全文索引。为了支持全文索引操作，SQL Server 7 .0新增了一些存储过程和Transact - SQL语句。使用这些存储过程创建全文

索引的具体步骤如下（括号内为调用的存储过程名称）：
1 . 启动数据库的全文处理功能(sp_fulltext_
database);；
2 . 建立全文检索目录(sp_fulltext_catalog);
3 .在全文检索目录中注册需要全文索引的表(sp_fulltext_table);
4 . 指出表中需要全文检索的列名(sp_fulltext_
column);；
5 . 为表创建全文索引(sp_fulltext_table);；
6 . 填充全文检索目录(sp_fulltext_catalog)。
下面举例说明如何创建全文索引，在本例中，对Test数据库Book表中Title列和Notes列建立全文索引。
use test // 打开数据库
// 打开全文索引支持，启动SQL Server的全文搜索服务
execute sp_fulltext_database ‘enable’
// 建立全文检索目录ft_test
execute sp_fulltext_catalog ‘ft_test’, ‘create’
为Title列建立全文索引数据元，pk_title为Book表中由主键所建立的唯一索引，这个参数是必需的。
execute sp_fulltext_table ‘book’，‘create’, ‘ft_test’，‘pk_title’
// 设置全文索引列名
execute sp_fulltext_column ‘book’, ‘title’, ‘add’
execute sp_fulltext_column ‘book’，‘notes’, ‘add’
// 建立全文索引
execute sp_fulltext_table ‘book’, ‘activate’
// 填充全文索引目录
execute sp_fulltext_catalog ‘ft_test’, ‘start_full’
至此，全文索引建立完毕。
进行全文检索
SQL Server 2000提供的全文检索语句主要有CONTAINS和FREETEXT。CONTAINS语句的功能是在表的所有列或指定列中搜索：一个字或短语；一个字或短语的前缀；与一个字相

近的另一个字；一个字的派生字；一个重复出现的字。
CONTAINS语句的语法格式为：
CONTAINS({column | * }),
_condition〉)
其中，column是搜索列，使用“ * ”时说明对表中所有全文索引列进行搜索。Contains_search_
condition 说明CONTAINS语句的搜索内容，其语法格式为：
{ |||| }[{{AND | AND NOT | OR}}] [

n]
下面就simple_term和prefix_term参数做简要说明：
simple_term是CONTAINS语句所搜索的单字或短语，当搜索的是一个短语时，必须使用双引号作为定界符。其格式为：
{‘word’ | “ phrase”}
prefix_term说明CONTAINS语句所搜索的字或短语前缀，其格式为：
{“word * ” | “phrase * ”}
例如，下面语句检索Book表的Title列和Notes列中包含“database”或“computer”字符串的图书名称及其注释信息：
select title, notes
from book
where contains(tilte, ‘database’) or contains(notes，‘database’)
or contains(title，‘computer’) or contains(notes，‘computer’)
FREETEXT语句的功能是在一个表的所有列或指定列中搜索一个自由文本格式的字符串，并返回与该字符串匹配的数据行。所以，FREETEXT语句所执行的功能又称做自由式全

文查询。
FREETEXT语句的语法格式为：FREETEXT({column | * }，‘freetext_string’)
其中，column是被搜索列，使用“ * ”时说明对表中的所有全文索引列进行搜索。Freetext_string参数指出所搜索的自由文本格式字符串。
例如，下面语句使用FREETEXT语句搜索Book表中包含“Successful Life”字符串的数据行：
select title, notes
from book
where freetext( * ，‘Successful Life’)
[文章来源：“十万个为什么”电脑学习网]

[网址：http: // why100000.com]

http: // coldjack.itpub.net/post/19152/216135
Sun, 01 Oct 2006 11 : 25 : 35 + 0000

转载：Oracle9i中全文检索的创建与使用(作者：玉面飞龙)

呵呵，转载玉面飞龙的
Oracle9i中全文检索的创建与使用
http: // coldjack.itpub.net/post/19152/211895
Thu, 21 Sep 2006 12 : 30 : 52 + 0000

问题一：关于DRG - 11422和DRG - 11432

注：偶曾经请教过玉面飞龙兄，他采用美国US7ASCII字符集，往double2里插入一段英文，结果测试成功。
可郁闷的是我往double2里即便插入英文也会报上面同样的错。
初步断定：oracle text的摘要提取技术不支持中文！
敬请各位高手批评指正

在下不胜感激！
问题一：关于DRG - 11422和DRG - 11432 (oracle text)
connect wang /* *** --wang为ctxapp用户
1. 建立表double2
create table double2(tid2 number primary key，text2 varchar(300));
insert into double2 values(1, 'oracle text提取摘要的技术支持中文字符集么？')
2. 并在text2上建立oracle text index：
exec ctx_ddl.drop_preference('rf_lexer');
exec ctx_ddl.create_preference('rf_lexer','chinese_lexer');
create index double2_index on double2(text2) indextype is ctxsys.context
parameters('lexer rf_lexer');
3. 此外偶还建立了一个表
create table mygist(tid number，text varchar2(400));
4. ctx_doc.set_key_type('PRIMARY_KEY');
5. 抽取double2中第一条记录的摘要,
采用In-Memory Gist方式，代码如下：
declare
gklob clob;
amt number:=50;
line varchar2(300);
begin
ctx_doc.gist('double2_index','1',gklob, pov => 'GENERIC',numParagraphs => 1);
dbms_lob.read(gklob, amt, 1, line);
insert into mygist values(1,line);
commit;
dbms_lob.freetemporary(gklob);
end;
6. 错误代码：
begin
*
ERROR 位于第 1 行:
ORA-20000: Oracle Text 错误:
DRG-11422: 语言初始化失败
DRG-00100: internal error, arguments : [52100],[drxs.c],[557],[gxtopen],[1]
DRG-11432: 访问知识库时出现文件错误
ORA-06512: 在"CTXSYS.DRUE", line 157
ORA-06512: 在"CTXSYS.CTX_DOC", line 742
ORA-06512: 在line 2
7. 版本9.0.1.1.1和9.2.0.1.0，测试结果均一致
8. 字符集：ZHS16GBK 国家字符集：AL16UTF16
注：偶曾经请教过玉面飞龙兄，他采用美国US7ASCII字符集，往double2里插入一段英文，结果测试成功。
可郁闷的是我往double2里即便插入英文也会报上面同样的错。
初步断定：oracle text的摘要提取技术不支持中文！
敬请各位高手批评指正

在下不胜感激！
偶的email：[email protected]
http://coldjack.itpub.net/post/19152/113987
Tue, 13 Jun 2006 17:31:53 +0000

偶使用oracle text中遇到的问题以及体会

在这里将陆续写一些我在使用oracle text过程中遇到的一些问题以及体会，其中有些问题至今还悬而未解！尽管任务已勉强完成，但是总有些不甘心

希望有哪位高手路

过此地，能够留上一两笔.
http://coldjack.itpub.net/post/19152/113986
Tue, 13 Jun 2006 17:30:23 +0000

美好的生活从今天的勤奋开始！

经历了两个多月的奋战之后，偶终于用delphi加oracle text实现了简单的全文检索程序。在这里衷心的感谢玉面飞龙给与偶的帮助！！
在使用oracle text的过程中，逐步发现了oracle的强大和魅力之处。偶现在似乎是对oracle着迷了：）成天幻想着几年后要做一个oracle DBA，拥有OCP认证

可偶现在还

是一菜鸟，离目标还远着呢！但愿偶现在的这种心理不是一时之热，希望两年之后能成为现实！向biti_rainy、eygle、yangtingkun、玉面飞龙等众位oracle高手看齐！
美好的生活从今天的勤奋开始

http://coldjack.itpub.net/post/19152/113984
Tue, 13 Jun 2006 17:26:20 +0000

首先，介绍利用系统存储过程创建全文索引的具体步骤：

1) 启动数据库的全文处理功能(sp_fulltext_database)
2) 建立全文目录(sp_fulltext_catalog)
3) 在全文目录中注册需要全文索引的表(sp_fulltext_table)
4) 指出表中需要全文索引的列名(sp_fulltext_column)
5) 为表创建全文索引(sp_fulltext_table)
6) 填充全文目录(sp_fulltext_catalog)

---------********示例********-------------
以对pubs数据库的title和notes列建立全文索引，之后使用索引查询title列或notes列中包含有datebase 或computer字符串的图书名称：

在这之前，需要安装Microsoft Search服务，启动SQL server全文搜索服务

user pubs --打开数据库
go
--检查数据库pubs是否支持全文索引，如果不支持
--则使用sp_fulltext_database 打开该功能
if(select databaseproperty('pubs','isfulltextenabled'))=0
execute sp_fulltext_database 'enable'

--建立全文目录FT_PUBS
execute sp_fulltext_catalog 'FT_pubs','create'

--为title表建立全文索引数据元
execute sp_fulltext_table 'title','create','FT_pubs','UPKCL_titleidind'

--设置全文索引列名
execute sp_fulltext_column 'title','title','add'
execute sp_fulltext_column 'title','notes','add'

--建立全文索引
--activate，是激活表的全文检索能力，也就是在全文目录中注册该表
execute sp_fulltext_table 'title','activate'

--填充全文索引目录
execute sp_fulltext_catalog 'FT_pubs','start_full'
go

--检查全文目录填充情况
While fulltextcatalogproperty('FT_pubs','populateStatus')<>0
begin

--如果全文目录正处于填充状态，则等待30秒后再检测一次
waitfor delay '0:0:30'
end

--全文目录填充完成后，即可使用全文目录检索

select title
form
where CONTAINS(title,'database')
or CONTAINS(title,'computer')
or CONTAINS(notes,'database')
or CONTAINS(notes,'database')

'--------------以下介绍一下全文操作类的系统存储过程
过程名称：sp_fulltext_service
执行权限：serveradmin或系统管理员
作用：设置全文搜索属性

过程名称：sp_fulltext_catalog
执行权限：db_owner及更高角色成员
作用：创建和删除一个全文目录，启动或停止一个全文目录的索引操作

过程名称：sp_fulltext_database
执行权限：db_owner角色成员
作用：初始化全文索引或删除数据库中所有全文目录

过程名称：sp_fulltext_table
执行权限：db_ddladnmin或db_owner角色成员
作用：将一个表标识为全文索引表或非全文索引表

过程名称：sp_fulltext_column
执行权限：db_ddladnmin角色成员
作用：指出一个全文索引表中的那些列假如或退出全文索引

///*******
作者：jimmy
oicq: 11689643
email:[email protected]
******** *///

你可能感兴趣的:(Lucene)

ElasticSearch 谈谈你对段合并的策略思想的认识用心去追梦 elasticsearch 大数据搜索引擎
段合并是Elasticsearch中的一个重要概念，它在数据索引和查询过程中起着关键的作用。Elasticsearch使用Lucene作为其全文搜索库，Lucene中使用的数据结构就是段（Segment）合并。段合并的策略思想主要体现在以下几个方面：提高查询性能：在Elasticsearch中，段合并的过程可以看作是对索引进行优化，通过合并将多个小的段合并成一个大的段，这样可以减少内存的使用，提高
ES架构及原理李澎昆 ES ES
Elasticsearch是一个兼有搜索引擎和NoSQL数据库功能的开源系统，基于Java/Lucene构建，可以用于全文搜索，结构化搜索以及近实时分析。说明：Lucene：只是一个框架，要充分利用它的功能，需要使用JAVA，并且在程序中集成Lucene，学习成本高，Lucene确实非常复杂。Elasticsearch是面向文档型数据库，这意味着它存储的是整个对象或者文档，它不但会存储它们，还会为
Elasticsearch段合并喵喵喵更多 java 运维分布式后端
欢迎访问本人博客查看原文：http://wangnan.techelasticsearch中每个索引都会创建一个到多个分片和零个到多个副本，这些分片或副本实质上都是lucene索引lucene索引是基于多个索引段创建，索引文件中绝大部分数据都是只写一次，读多次，而只有用于保存文档删除信息的文件才会被多次更改在某些时刻，当某种条件满足时，多个索引段会被拷贝合并到一个更大的索引段，而那些旧的索引段会被
Lucece评分公式OKapi BM25原理解析(中) 双人余_先生
背景：延续上篇写了TF/IDF的公式解析，本篇为BM25解析简单介绍。BM25起源于概率相关性模型，而不是矢量空间模型，但是该算法与Lucene的实际评分功能有很多共同点。两者都使用Term词频率，逆文档频率和字段长度归一化，但是每个因素的定义都略有不同。与其详细解释BM25公式，不如将重点放在BM25提供的实际优势上。BM25是一个词袋检索功能，它基于每个文档中出现的查询词对一组文档进行排名，而
分布式搜索引擎Elasticsearch——基础敲代码的旺财架构进阶 elasticsearch java 搜索引擎 ES-head
文章目录一、Lucene与Solr与Elasticsearch二、ES核心术语三、ES核心概念四、倒排索引五、ES的安装（centos7）1、下载地址（这里安装linux版本）2、解压压缩包3、修改配置文件(1)修改核心配置文件(2)修改JVM配置文件4、启动ES(1)添加系统用户并授权(2)ES启动(3)修改配置文件(4)再次启动ES六、安装ES-head插件（可视化管理插件）1、使用谷歌市场安
docker部署Elasticsearch和Kibana youm. docker docker elasticsearch 容器
1.Elasticsearch和Kibana介绍1.1什么是Elasticsearch？Elasticsearch是一个开源的分布式搜索和分析引擎，用于处理大规模数据的实时搜索、分析和存储。它构建在ApacheLucene搜索引擎库的基础上，提供了一个RESTfulAPI和易于使用的工具，使得在大数据量情况下进行搜索和分析变得高效和简单。1.2为什么使用Elasticsearch？Elastics
Elasticsearch中文本字段与关键字字段的聚合和排序问题好奇的菜鸟 Elasticsearch elasticsearch 大数据搜索引擎
引言Elasticsearch是一个强大的搜索引擎，它基于Lucene构建，提供了全文搜索、分析、聚合等功能。然而，在使用Elasticsearch时，我们可能会遇到一些特定的问题，比如在文本字段上进行聚合和排序操作时出现的错误。本文将详细解释这个问题，并提供解决方案。问题概述在使用Elasticsearch进行数据分析时，我们可能会尝试对文本字段进行聚合或排序。但是，Elasticsearch默
单机安装 ELK 日志分析系统 TheFlsah Linux
一、ELK介绍ELKStack是软件集合Elasticsearch、Logstash、Kibana的简称，它们都是开源软件。新增了一个FileBeat，它是一个轻量级的日志收集处理工具(Agent)，Filebeat占用资源少，适合于在各个服务器上搜集日志后传输给Logstash，官方也推荐此工具。Elasticsearch是一个基于Lucene的、支持全文索引的分布式存储和索引引擎，主要负责将日
Elastic Search常用命令胖毁青春，瘦解百病 ES es
1测试环境信息ElasticSearch服务器：192.168.0.100用户：docker启停：dockerstart/stop/restartelasticsearchKibana控制台：http://192.168.0.100:5601/app/kibana#/dev_tools/console2基本概念Elasticsearch也是基于Lucene的全文检索库，本质也是存储数据，很多概念与
ELK离线安装和配置流程 GB9125 运维开发 elasticsearch elk linux 运维开发
ELK离线安装和配置流程一、介绍ELK是一个开源的数据分析和可视化工具，由三个开源项目组成：Elasticsearch、Logstash和Kibana。Elasticsearch是一个基于Lucene库的分布式搜索和分析引擎；Logstash是一个用于收集、处理和转换数据的数据管道，它可以从各种来源读取数据，包括日志文件、系统事件、网络流量等；Kibana则是一个数据可视化平台，可以对从Elast
Elasticsearch详解es 思静语 elasticsearch elasticsearch 大数据搜索引擎
文章目录概述es架构为什么要使用ElasticSearchElasticSearch的优势使用场景es为什么这么快倒排索引如何保证ES和数据库的数据一致性监听binlog同步双写elasticsearch是如何实现master选举的Elasticsearch与Solr的区别概述ES全称是ElasticSearch，它是一个建立在全文搜索引擎库Lucene基础上的开源搜索和分析引擎。ES它本身具有分
Java——ikanalyzer分词·只用自定义词库 weixin_30902251 java 数据库 c/c++
需要包：IKAnalyzer2012_FF_hf1.jarlucene-core-5.5.4.jar需要文件：IKAnalyzer.cfg.xmlext.dicstopword.dic整理好的下载地址：http://download.csdn.net/detail/talkwah/9770635importjava.io.IOException;importjava.io.StringReader
Lucene实现自定义中文同义词分词器 WangJonney Lucene Lucene
----------------------------------------------------------lucene的分词_中文分词介绍----------------------------------------------------------Paoding:庖丁解牛分词器。已经没有更新了mmseg:使用搜狗的词库1.导入包（有两个包：1.带dic的，2.不带dic的）如果使用
选型搜索引擎之参考Elasticsearch 剑飞的编程思维 elasticsearch
简介Elasticsearch（简称ES）是一个基于ApacheLucene的开源、分布式、RESTful接口的全文搜索引擎。其设计用于云计算环境，能够达到实时搜索、稳定、可靠、快速、安装使用方便的效果。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。Elasticsearch的特点包括：分布式存储和搜索：Elasticsear
从入门到精通：Elasticsearch开发实践教程青年老年程序员 Elasticsearch学习 elasticsearch jenkins 大数据
Elasticsearch是一款开源的搜索引擎，它使用Lucene搜索库作为其核心搜索引擎。Elasticsearch使用RESTfulAPI进行交互，并支持多种数据类型的搜索和聚合。本教程将介绍Elasticsearch的基本原理，如何开发，以及如何在SpringBoot中使用Elasticsearch。Elasticsearch的原理Elasticsearch是一个分布式的文档存储和搜索引擎。
深入理解Lucene：开源全文搜索引擎的核心技术解析一休哥助手分布式系统算法搜索引擎 lucene 开源
1.介绍Lucene是什么？Lucene是一个开源的全文搜索引擎库，提供了强大的文本搜索和检索功能。它由Apache软件基金会维护和开发，采用Java语言编写，因其高性能、可扩展性和灵活性而备受欢迎。Lucene的作用和应用场景Lucene主要用于创建全文索引和执行文本搜索。其主要作用包括但不限于：在大型文本数据集中快速进行文本搜索和检索。实现网站、应用程序或系统中的搜索功能。构建文档管理系统、知
Elasticsearch基础知识与架构概述禅与计算机程序设计艺术 elasticsearch 架构 jenkins 大数据搜索引擎
1.背景介绍Elasticsearch是一个基于分布式搜索和分析引擎，它可以处理大量数据并提供实时搜索功能。在本文中，我们将深入了解Elasticsearch的基础知识和架构概述，并探讨其核心概念、算法原理、最佳实践、实际应用场景和未来发展趋势。1.背景介绍Elasticsearch是一款开源的搜索引擎，由ElasticCorporation开发。它基于Lucene库，具有高性能、可扩展性和实时性
视野 | OpenSearch，云厂商的新选择？ RadonDB 数据库搜索引擎 elasticsearch
王奇顾问软件工程师目前从事PaaS中间件服务（Redis/MongoDB/ELK等）开发工作，对NoSQL数据库有深入的研究以及丰富的二次开发经验，热衷对NoSQL数据库领域内的最新技术动态的学习，能够把握行业技术发展趋势。|最流行的全文搜索引擎Elasticsearch是一款广泛使用的开源分布式全文搜索引擎，源于ApacheLucene[1]，许可证为Apache2.0。由于出色的搜索引擎、高扩
Elasticsearch使用场景说明车马去闲闲丶 elasticsearch 大数据搜索引擎
Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多租户能力的全文搜索引擎，基于RESTfulweb接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。它设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。以下是一些Elasticsearch的常见使用场景：全文搜索：Elastic
ElasticSearch学习笔记重生之Java再爱我一次 elasticsearch 学习笔记
ElasticSearch一、初识ES1.什么是ElasticSearch？ES的概念：ElasticSearch是一款非常强大的开源搜索引擎，可以帮助我们从海量数据中快速找到需要的内容。ElasticSearch结合Kibana、LogStach、Beats，也就是ElasticStack（ELK）。被广泛应用在日志数据分析、实时监控等领域。ES的发展：Lucene是一个Java语言的搜索引擎类
solr —— 1 全文检索Solr8.0第一部分苏打饼干没加心 solr
solr，毕设啊，快被写完吧1solr介绍什么是solrLucene与Solr与ES为什么要用slor2HelloWorld2.1项目安装部署2.2项目安装配置创建核心创建document(表)添加文件查询数据3solr后台管理页面详解控制面板5全文检索千万级别数据实战，全面剖析架构设计，大数据瓶颈突破6数据库导入索引BV1Dt411G7eF1solr介绍什么是solrsolr简化了程序员的操作L
（三十七）大数据实战——Solr服务的部署安装厉害哥哥吖大数据大数据 solr
前言Solr是一个基于ApacheLucene的开源搜索平台，它提供了强大的全文搜索、分布式搜索和数据分析功能。Solr可以用于构建高性能的搜索应用程序，支持从海量数据中快速检索和分析信息。Solr使用倒排索引和先进的搜索算法，可实现快速而准确的全文搜索。Solr可以在多个服务器上进行水平扩展，实现分布式搜索和负载均衡。Solr支持复杂的过滤、排序和范围查询，使您可以根据各种条件对搜索结果进行精确
《ElasticSearch技术解析与实战-朱林》云澜哥哥 ElasticSearch elasticsearch big data
《第一章：ElasticSearch入门》ElasticSearch简介：ElasticSearch是一个基于lucener构建的开源的，分布式的，resultful接口全文搜索引擎。ElasticSearch是一个分布式文档数据库。其中每个字段都是可以被索引的数据且可被搜索。ElasticSearch能够扩展到数以百计的服务器存储以及处理PB级的数据，它可以在很短的时间内存储，搜索，分析大量的数
阿里P8架构师谈：开源搜索引擎Lucene、Solr、Sphinx等优劣势比较 liuhuiteng 中间件中间件
开源搜索引擎分类1.Lucene系搜索引擎，java开发,包括：LuceneSolrElasticsearchKatta、Compass等都是基于Lucene封装。你可以想象Lucene系有多强大。2.Sphinx搜素引擎，c++开发,简单高性能。以下重点介绍最常用的开源搜素引擎：Lucene、Solr、Elasticsearch、Sphinx的特点和优劣势选型比较。Lucene1.Lucene简
16款开源的全文搜索引擎网络安全乔妮娜开源搜索引擎网络安全 web安全数据库安全前端
网络安全重磅福利：入门&进阶全套282G学习资源包免费分享！全文搜索引擎就是通过从互联网上提取的各个网站的信息（以网页文字为主）而建立的数据库中，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户。1、ApacheLuceneJava全文搜索框架许可证：Apache-2.0开发语言：Java官网：https://lucene.apache.org/ApacheLucene是完全
Lucene初识 KhaosYang
Lucene是一种高性能、可伸缩的信息搜索（IR）库，在2000年开源，最初由鼎鼎大名的DougCutting开发，是基于Java实现的高性能的开源项目。Lucene采用了基于倒排表的设计原理，可以非常高效地实现文本查找，在底层采用了分段的存储模式，使它在读写时几乎完全避免了锁的出现，大大提升了读写性能。核心模块Lucene的写流程和读流程如图1所示。1.Lucene读写流程图其中，虚线箭头（A、
03-03 elasticsearch nan得糊涂
入门篇使用场景海量存储：支持分布式存储实时搜索：lucene倒排索引，海量数据下近乎实时搜索a.日志分析，es+logstash+kibanab.Github代码数据分析：支持数据分析及处理基本功能分布式的搜索引擎和数据分析引擎全文检索，结构化检索，数据分析海量数据实时处理根据这些功能，可以实现的使用场景某张表有海量数据，需要实时快速查询数据分析带来的问题ES用在海量数据实时查询，基本的数据分析等
Error CREATEing SolrCore 'index': Unable to create core: index Caused by: No enum constant org.apach 杉斯狼后台 Java solr enum 索引 lucene
ErrorCREATEingSolrCore'index':Unabletocreatecore:indexCausedby:Noenumconstantorg.apache.lucene.util.Version.LUCENE_48出错原因：solr版本配置不正确解决方法：在索引文件的目录下conf>solrconfig.xml4.8将4.8修改为4.7（你具体的版本，可以参照collectio
Elasticsearch的使用场景深入详解 Y T elasticsearch
Elasticsearch是一个基于Lucene的开源搜索引擎，它提供了一个分布式多用户能力，能够处理PB级别的结构化或非结构化数据。Elasticsearch的设计目标是实现一个可扩展的搜索解决方案，它适用于多种使用场景，以下是一些深入的使用场景详解：1.日志分析与监控Elasticsearch与Logstash和Kibana（统称为ELKStack）结合使用，可以构建强大的日志分析平台。它能够
Elasticsearch—概念、安装和配置 Sunflow007
13.jpg前言：Elasticsearch是一款很火热的，很优秀的，基于lucene的开源的分布式的搜索引擎，话不多说，本篇文章主要是Elasticsearch基本概念介绍、安装和配置。Elasticsearch的基本概念官方文档——BasicConcepts|ElasticsearchReference[6.4]|Elastic我们在学习关系型数据库和服务器的时候，接触到了一些概念如：data
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(