- ElasticSearch之mapping分词器选择
小老犇
ElasticSearchelasticsearchik分词器分词器选择默认分词器分词算法
前言市场上分词器,眼花缭乱,让你一脸懵逼。Standard:单字切分法,一个字切分成一个词。CJKAnalyzer:二元切分法,把相邻的两个字,作为一个词.SmartChineseAnalyzer:对中文支持较好,但是扩展性差,针对扩展词库、停用词均不好处理.paoding`:庖丁解牛分词器,没有持续更新,只支持到lucene3.0。mmseg4`:支持Lucene4.10,且在github中有持
- Java学习阶段六【web高级进阶】
北大青鸟车陂校区
openJpa技术:JPA介绍及开发环境搭建、单表实体映射、一对多/多对一、一对一、多对多关联、实体继承、复合主键、JPQL语句、EntityManagerAPI、事务管理,了解一下jpa2.0的新特性以及应用。lucene搜索引擎:了解全文搜索原理、全文搜索引擎、什么是OSEM、OSEM框架Compass、基于使用Lucene使用Compass实现全文增量型索引创建和搜索、探索Lucene3.0
- Lucene3.0 demo
nwjwawa2010
lucene
importjava.io.File;importjava.io.FileReader;importjava.io.IOException;importjava.util.Date;importorg.apache.lucene.analysis.standard.StandardAnalyzer;importorg.apache.lucene.document.Document;importor
- 2016书单总结--Lucene实战(第二版)--基础篇
undergrowth
java2016书单
2016书单总结–Lucene实战(第二版)–基础篇Lucene实战基于Lucene3.0,本示例以3.5为基础Lucene由道格.卡丁编写的用于文本索引与搜索的高性能、可扩展的信息检索工具库通过5个部分进行总结,分别为收集–包括如何获取文本,例如使用tika提取文本分析–分析器的原理,词汇单元过程化,词汇单元过滤器索引–如何构建倒排索引,构建实时索引,更新、删除索引搜索–查找需要信息,按照不同条
- Lucene3.0.0 入门实例
lengyuhong
搜索引擎
lucene3.0已于2009-11-25发布啦,但网上的入门实例都是针对lucene3.0以前的,相对于以前的版本,貌似改动不小。本人从头开始学习lucene,现在用的是《luceneinaction中文版》,结合lucene3.0文档写了个入门实例,可供像我一样直接从lucene3.0开始学习的新手参考!入门实例:lucene3.0.0的jar包和《三国演义》电子书的下载网址:lucene3.
- Lucene之——第一个Lucene3.0程序
冰 河
Lucene分词爬虫搜索搜索优化
转载请注明出处:http://blog.csdn.net/l1028386804/article/details/49647527我们模拟一个对商品的操作流程,通过对商品信息的操作,演示Lucene插入、查询功能,了解Lucene存储原理。创建数据操作实体类Goods:publicclassGoods{privateIntegergid;privateStringgname;privateDoub
- 【Lucene3.0 初窥】索引创建(3):DocumentWriter 处理流程二
ccnunlp
信息检索与搜索引擎
上接《索引创建(2):DocumentWriter处理流程一》1.3.2第二车间——DocInverterPerFieldDocInverterPerField负责对DocFieldProcessorPerThread对象的Fieldable[]数组的内容建立倒排索引,也就是处理同名字的所有Field。但实际上这个类主要解决的是前期工作,比如分词,统计位置信息等。倒排索引结构的核心的工作由Term
- IndexWriter有关的几个参数设置及重建索引注意事项
ningbohezhijun
Lucene
Lucene3.0版本:http://www.cnblogs.com/huangfox/archive/2010/10/16/1853054.html本文介绍和IndexWriter有关的3个参数:1.MAXBufferedDocsMaxBufferedDocs这个参数默认是disabled的,因为Lucene中还用另外一个参数(RAMBufferSizeMB)控制这个bufffer的索引文档个数
- Lucene建立索引库
黯雅悸动
--------《索引库》
问题?Lucene如何建立索引库,lucene所需要的jar包是那些,lucene如何使用索引库,lucene的核心原理一、Lucene是什么?全文检索只是一个概念,而具体实现有很多框架,lucene是其中的一种方式。本文将以lucene3.0进行开发官兵与Luncne的jar包可以去官网下载:点击打开链接,不过好像Lucene已经更新到6.1了。二、建立索引库1.互联网搜索全文搜索引擎结构图:2
- Lucene 实战(第2版) PDF高清中文版
Vincent8080
出处:http://www.linuxidc.com/Linux/2013-10/91052.htmLucene实战(第2版)(最权威的Lucene指南,覆盖ApacheLucene3.0,作者为Lucene项目成员)《Lucene实战(第2版)》基于Apache的Lucene3.0,从Lucene核心、Lucene应用、案例分析3个方面详细系统地介绍了Lucene,包括认识Lucene、建立索引
- Lucene分词器
csdnShenZhen
Lucene
Lucene全文检索架构自带分词器,通常该分词器对英文分词效果良好,它以空格作为切词标准,不对语汇单元进行其他规范化处理。但是我们在日常使用过程中,会出现检索中文的情况,这就需要使用第三方分词器了。常用的第三方分词器有以下几种:1.paoding:庖丁解牛最新版在https://code.google.com/p/paoding/中最多支持Lucene3.0,且最新提交的代码在2008-06-03
- lucene3.0 搜索结果排序+高亮展示
qwkxq
排序高亮lucene3.0
1.排序packagecn.xt.sort;
importjava.util.ArrayList;
importjava.util.List;
importorg.apache.lucene.document.Document;
importorg.apache.lucene.queryParser.MultiFieldQueryParser;
importorg.apache.lucene.
- Lucene搜索过程解析
ystyaoshengting
本系列文章将详细描述几乎最新版本的Lucene的基本原理和代码分析。其中总体架构和索引文件格式是Lucene2.9的,索引过程分析是Lucene3.0的。鉴于索引文件格式没有太大变化,因而原文没有更新,原理和架构的文章中引用了前辈的一些图,可能属于早期的Lucene,但不影响对原理和架构的理解。本系列文章尚在撰写之中,将会有分词器,QueryParser,查询语句与查询对象等章节。提前给大家分享,
- 与Lucene 4.10配合的中文分词比较
duanfei
分词
阅读更多比较目的衡量每种分词的指标,内存消耗、CPU消耗,得到一个在Lucene中比较好的分词版本。分词源代码介绍paoding:庖丁解牛最新版在https://code.google.com/p/paoding/中最多支持Lucene3.0,且最新提交的代码在2008-06-03,在svn中最新也是2010年提交,已经过时,不予考虑。mmseg4j:最新版已从https://code.googl
- 与Lucene 4.10配合的中文分词比较
duanfei
分词
阅读更多比较目的衡量每种分词的指标,内存消耗、CPU消耗,得到一个在Lucene中比较好的分词版本。分词源代码介绍paoding:庖丁解牛最新版在https://code.google.com/p/paoding/中最多支持Lucene3.0,且最新提交的代码在2008-06-03,在svn中最新也是2010年提交,已经过时,不予考虑。mmseg4j:最新版已从https://code.googl
- 与Lucene 4.10配合的中文分词比较
duanfei
分词
比较目的衡量每种分词的指标,内存消耗、CPU消耗,得到一个在Lucene中比较好的分词版本。分词源代码介绍paoding:庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene3.0,且最新提交的代码在2008-06-03,在svn中最新也是2010年提交,已经过时,不予考虑。mmseg4j:最新版已从 https://code.google
- openjweb基于lucene3全文检索技术实现
Lucene
openjweb基于Apache Lucene3.0的
全文索引技术实现方案
qq:29803446
一、为什么要使用全文索引技术?
在网站应用中,我们经常需要用到站内搜索的功能来查找指定的关键字。在网站的后台
存储中,信息可能存储的地方主要有:数据库表、HTML静态页面文件
- Lucene3.0结果排序原理+操作+示例
Lucene
Lucene3.0之结果排序(原理篇)
传统上,人们将信息检索系统返回结果的排序称为"相关排序" (relevance ranking) ,隐含其中各条目的顺序反映结果和查询的相关程度。
1、 基本排序原理
① 向量空间模型
Gerald Salton 等在 3
- lucene查询排序结果原理总结
Lucene
参考文章
Lucene3.0结果排序原理+操作+示例
Lucene的排序算法
一句话总结lucene排序算法是什么样的
关键几个概念
参考文档:
http://lucene.apache.org/core/4_10_3/core/org/apache/lucene/search/similarities/TFI
- Lucene3.3、Lucene3.4中文分词——庖丁解牛分词实例
Lucene
如果是Lucene3.0以上版本首先我们需要下载庖丁解牛最新源码并生成jar文件,我已经将最新源码和jar文件上传了:
http://download.csdn.net/detail/a_2cai/3671164 ,可以下载,或者下载一个SVN客户端从
http://code.google.com/p/paoding/检出最新的trunk源码,本地编译下。
当我们有了最新的庖丁解牛分词包和l
- lucene文件格式待整理
Lucene
这是之前Lucene3.0生成的索引格式
a表
b表
、
c.这是网上找的图片(因为上面的两张表的segment都是合并了的)
lucene4.9 建立的索引:
索引(Index): 在Lucene中一个索引是放在一个文件
- Lucene 3.0 输出相似度
Lucene
http://www.cnblogs.com/ibook360/archive/2011/10/19/2217638.html
Lucene3.0之结果排序(原理篇)
传统上,人们将信息检索系统返回结果的排序称为"相关排序" (relevance ranking) ,隐含其中各条目的顺序反映结果和查询的相关程度。
1、 基本
- Lucene3.0之结果排序(原理篇)
z69183787
Lucene3.0之结果排序(原理篇)传统上,人们将信息检索系统返回结果的排序称为"相关排序" (relevanceranking) ,隐含其中各条目的顺序反映结果和查询的相关程度。1、 基本排序原理① 向量空间模型GeraldSalton 等在 30 多年前提出的"向量空间模型" (VectorSpaceModel,VSM)[SaltonandLesk,1968,Salton,1971]
- 与Lucene 4.10配合的中文分词比较
tianwei7518
Lucene全文检索
比较目的衡量每种分词的指标,内存消耗、CPU消耗,得到一个在Lucene中比较好的分词版本。分词源代码介绍paoding:庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene3.0,且最新提交的代码在2008-06-03,在svn中最新也是2010年提交,已经过时,不予考虑。mmseg4j:最新版已从 https://code.google
- Lucene3.0 对数据库数据进行搜索
zzc1684
lucene3.0对数据库数据进行搜索
Java代码 package com.orifound.aiim.web.util; import java.io.File; import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet; impor
- lucene3.0的查询语法和QueryParser的语法
earbao
Query有很多子类,完成不同类型的查询任务:Instantiablesubclassesare:TermQueryMultiTermQueryBooleanQueryWildcardQueryPhraseQueryPrefixQueryMultiPhraseQueryFuzzyQueryTermRangeQueryNumericRangeQuerySpanQuery不过使用我们系统的用户可并不乐
- lucene利用BooleanQuery进行多个Query组合查询
earbao
lucene3.0中BooleanQuery实现与或的复合搜索. BooleanClause用于表示布尔查询子句关系的类,包括:BooleanClause.Occur.MUST,BooleanClause.Occur.MUST_NOT,BooleanClause.Occur.SHOULD。必须包含,不能包含,可以包含三种.有以下6种组合: 1.MUST和MUST:取得连个查询子句的交集。 2.MU
- Lucene 实战(第2版) PDF高清中文版
hongxuecn
Lucene
出处:http://www.linuxidc.com/Linux/2013-10/91052.htmLucene实战(第2版)(最权威的Lucene指南,覆盖ApacheLucene3.0,作者为Lucene项目成员)《Lucene实战(第2版)》基于Apache的Lucene3.0,从Lucene核心、Lucene应用、案例分析3个方面详细系统地介绍了Lucene,包括认识Lucene、建立索引
- lucene TokenStream类学习
hbiao68
Lucene
TokenStream抽象类TokenStream主要包含以下几个方法: booleanincrementToken()用于得到下一个Token。publicvoidreset()使得此TokenStrean可以重新开始返回各个分词。 和原来的TokenStream返回一个Token对象不同,Lucene3.0的TokenStream已经不返回Token对象了,那么如何保存下一个Token的信息呢
- lucene TokenStream类学习
hbiao68
阅读更多TokenStream抽象类TokenStream主要包含以下几个方法:booleanincrementToken()用于得到下一个Token。publicvoidreset()使得此TokenStrean可以重新开始返回各个分词。和原来的TokenStream返回一个Token对象不同,Lucene3.0的TokenStream已经不返回Token对象了,那么如何保存下一个Token的信
- ASM系列四 利用Method 组件动态注入方法逻辑
lijingyao8206
字节码技术jvmAOP动态代理ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇,知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道,同ClassVisitor改变类成员一样,MethodVIsistor如果需要改变方法成员,注入逻辑,也可以
- java编程思想 --内部类
百合不是茶
java内部类匿名内部类
内部类;了解外部类 并能与之通信 内部类写出来的代码更加整洁与优雅
1,内部类的创建 内部类是创建在类中的
package com.wj.InsideClass;
/*
* 内部类的创建
*/
public class CreateInsideClass {
public CreateInsideClass(
- web.xml报错
crabdave
web.xml
web.xml报错
The content of element type "web-app" must match "(icon?,display-
name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
- 泛型类的自定义
麦田的设计者
javaandroid泛型
为什么要定义泛型类,当类中要操作的引用数据类型不确定的时候。
采用泛型类,完成扩展。
例如有一个学生类
Student{
Student(){
System.out.println("I'm a student.....");
}
}
有一个老师类
- CSS清除浮动的4中方法
IT独行者
JavaScriptUIcss
清除浮动这个问题,做前端的应该再熟悉不过了,咱是个新人,所以还是记个笔记,做个积累,努力学习向大神靠近。CSS清除浮动的方法网上一搜,大概有N多种,用过几种,说下个人感受。
1、结尾处加空div标签 clear:both 1 2 3 4
.div
1
{
background
:
#000080
;
border
:
1px
s
- Cygwin使用windows的jdk 配置方法
_wy_
jdkwindowscygwin
1.[vim /etc/profile]
JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43)
PATH="$JAVA_HOME/bin:${PATH}"
CLAS
- linux下安装maven
无量
mavenlinux安装
Linux下安装maven(转) 1.首先到Maven官网
下载安装文件,目前最新版本为3.0.3,下载文件为
apache-maven-3.0.3-bin.tar.gz,下载可以使用wget命令;
2.进入下载文件夹,找到下载的文件,运行如下命令解压
tar -xvf apache-maven-2.2.1-bin.tar.gz
解压后的文件夹
- tomcat的https 配置,syslog-ng配置
aichenglong
tomcathttp跳转到httpssyslong-ng配置syslog配置
1) tomcat配置https,以及http自动跳转到https的配置
1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令)
keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
- 关于领号活动总结
alafqq
活动
关于某彩票活动的总结
具体需求,每个用户进活动页面,领取一个号码,1000中的一个;
活动要求
1,随机性,一定要有随机性;
2,最少中奖概率,如果注数为3200注,则最多中4注
3,效率问题,(不能每个人来都产生一个随机数,这样效率不高);
4,支持断电(仍然从下一个开始),重启服务;(存数据库有点大材小用,因此不能存放在数据库)
解决方案
1,事先产生随机数1000个,并打
- java数据结构 冒泡排序的遍历与排序
百合不是茶
java
java的冒泡排序是一种简单的排序规则
冒泡排序的原理:
比较两个相邻的数,首先将最大的排在第一个,第二次比较第二个 ,此后一样;
针对所有的元素重复以上的步骤,除了最后一个
例题;将int array[]
- JS检查输入框输入的是否是数字的一种校验方法
bijian1013
js
如下是JS检查输入框输入的是否是数字的一种校验方法:
<form method=post target="_blank">
数字:<input type="text" name=num onkeypress="checkNum(this.form)"><br>
</form>
- Test注解的两个属性:expected和timeout
bijian1013
javaJUnitexpectedtimeout
JUnit4:Test文档中的解释:
The Test annotation supports two optional parameters.
The first, expected, declares that a test method should throw an exception.
If it doesn't throw an exception or if it
- [Gson二]继承关系的POJO的反序列化
bit1129
POJO
父类
package inheritance.test2;
import java.util.Map;
public class Model {
private String field1;
private String field2;
private Map<String, String> infoMap
- 【Spark八十四】Spark零碎知识点记录
bit1129
spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的
ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功,DAGScheduler会收到通知,在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
- WAS各种脚本作用大全
ronin47
WAS 脚本
http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html
无意中,在WAS官网上发现的各种脚本作用,感觉很有作用,先与各位分享一下
获取下载
这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
- java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句
bylijinnan
switch
借鉴网上的思路,用java实现:
public class NoIfWhile {
/**
* @param args
*
* find x=1+2+3+....n
*/
public static void main(String[] args) {
int n=10;
int re=find(n);
System.o
- Netty源码学习-ObjectEncoder和ObjectDecoder
bylijinnan
javanetty
Netty中传递对象的思路很直观:
Netty中数据的传递是基于ChannelBuffer(也就是byte[]);
那把对象序列化为字节流,就可以在Netty中传递对象了
相应的从ChannelBuffer恢复对象,就是反序列化的过程
Netty已经封装好ObjectEncoder和ObjectDecoder
先看ObjectEncoder
ObjectEncoder是往外发送
- spring 定时任务中cronExpression表达式含义
chicony
cronExpression
一个cron表达式有6个必选的元素和一个可选的元素,各个元素之间是以空格分隔的,从左至右,这些元素的含义如下表所示:
代表含义 是否必须 允许的取值范围 &nb
- Nutz配置Jndi
ctrain
JNDI
1、使用JNDI获取指定资源:
var ioc = {
dao : {
type :"org.nutz.dao.impl.NutDao",
args : [ {jndi :"jdbc/dataSource"} ]
}
}
以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
- 解决 /bin/sh^M: bad interpreter: No such file or directory
daizj
shell
在Linux中执行.sh脚本,异常/bin/sh^M: bad interpreter: No such file or directory。
分析:这是不同系统编码格式引起的:在windows系统中编辑的.sh文件可能有不可见字符,所以在Linux系统下执行会报以上异常信息。
解决:
1)在windows下转换:
利用一些编辑器如UltraEdit或EditPlus等工具
- [转]for 循环为何可恨?
dcj3sjt126com
程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。 一些精英正在起草一份议案,要在Java将来的版本中加入闭包特征。 然而,提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。
不久前,出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。 尤其是他问道“for 循环为何可恨?”[http://ju
- Android实用小技巧
dcj3sjt126com
android
1、去掉所有Activity界面的标题栏
修改AndroidManifest.xml 在application 标签中添加android:theme="@android:style/Theme.NoTitleBar"
2、去掉所有Activity界面的TitleBar 和StatusBar
修改AndroidManifes
- Oracle 复习笔记之序列
eksliang
Oracle 序列sequenceOracle sequence
转载请出自出处:http://eksliang.iteye.com/blog/2098859
1.序列的作用
序列是用于生成唯一、连续序号的对象
一般用序列来充当数据库表的主键值
2.创建序列语法如下:
create sequence s_emp
start with 1 --开始值
increment by 1 --増长值
maxval
- 有“品”的程序员
gongmeitao
工作
完美程序员的10种品质
完美程序员的每种品质都有一个范围,这个范围取决于具体的问题和背景。没有能解决所有问题的
完美程序员(至少在我们这个星球上),并且对于特定问题,完美程序员应该具有以下品质:
1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强
(范围:用简单方式解决复杂问题)
- 使用KeleyiSQLHelper类进行分页查询
hvt
sql.netC#asp.nethovertree
本文适用于sql server单主键表或者视图进行分页查询,支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码:http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
- SVG 教程 (三)圆形,椭圆,直线
天梯梦
svg
SVG <circle> SVG 圆形 - <circle>
<circle> 标签可用来创建一个圆:
下面是SVG代码:
<svg xmlns="http://www.w3.org/2000/svg" version="1.1">
<circle cx="100" c
- 链表栈
luyulong
java数据结构
public class Node {
private Object object;
private Node next;
public Node() {
this.next = null;
this.object = null;
}
public Object getObject() {
return object;
}
public
- 基础数据结构和算法十:2-3 search tree
sunwinner
Algorithm2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
- spring配置定时任务
stunizhengjia
springtimer
最近因工作的需要,用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下,以便以后用到:
//------------------------定时任务调用的方法------------------------------
/**
* 存储过程定时器
*/
publi
- ITeye 8月技术图书有奖试读获奖名单公布
ITeye管理员
活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束,非常感谢广大用户对本次活动的关注与参与。
8月试读活动回顾:
http://webmaster.iteye.com/blog/2102830
本次技术图书试读活动的优秀奖获奖名单及相应作品如下(优秀文章有很多,但名额有限,没获奖并不代表不优秀):
《跨终端Web》
gleams:http