- ElasticSearch之mapping分词器选择
小老犇
ElasticSearchelasticsearchik分词器分词器选择默认分词器分词算法
前言市场上分词器,眼花缭乱,让你一脸懵逼。Standard:单字切分法,一个字切分成一个词。CJKAnalyzer:二元切分法,把相邻的两个字,作为一个词.SmartChineseAnalyzer:对中文支持较好,但是扩展性差,针对扩展词库、停用词均不好处理.paoding`:庖丁解牛分词器,没有持续更新,只支持到lucene3.0。mmseg4`:支持Lucene4.10,且在github中有持
- Java学习阶段六【web高级进阶】
北大青鸟车陂校区
openJpa技术:JPA介绍及开发环境搭建、单表实体映射、一对多/多对一、一对一、多对多关联、实体继承、复合主键、JPQL语句、EntityManagerAPI、事务管理,了解一下jpa2.0的新特性以及应用。lucene搜索引擎:了解全文搜索原理、全文搜索引擎、什么是OSEM、OSEM框架Compass、基于使用Lucene使用Compass实现全文增量型索引创建和搜索、探索Lucene3.0
- Lucene3.0 demo
nwjwawa2010
lucene
importjava.io.File;importjava.io.FileReader;importjava.io.IOException;importjava.util.Date;importorg.apache.lucene.analysis.standard.StandardAnalyzer;importorg.apache.lucene.document.Document;importor
- 2016书单总结--Lucene实战(第二版)--基础篇
undergrowth
java2016书单
2016书单总结–Lucene实战(第二版)–基础篇Lucene实战基于Lucene3.0,本示例以3.5为基础Lucene由道格.卡丁编写的用于文本索引与搜索的高性能、可扩展的信息检索工具库通过5个部分进行总结,分别为收集–包括如何获取文本,例如使用tika提取文本分析–分析器的原理,词汇单元过程化,词汇单元过滤器索引–如何构建倒排索引,构建实时索引,更新、删除索引搜索–查找需要信息,按照不同条
- Lucene3.0.0 入门实例
lengyuhong
搜索引擎
lucene3.0已于2009-11-25发布啦,但网上的入门实例都是针对lucene3.0以前的,相对于以前的版本,貌似改动不小。本人从头开始学习lucene,现在用的是《luceneinaction中文版》,结合lucene3.0文档写了个入门实例,可供像我一样直接从lucene3.0开始学习的新手参考!入门实例:lucene3.0.0的jar包和《三国演义》电子书的下载网址:lucene3.
- Lucene之——第一个Lucene3.0程序
冰 河
Lucene分词爬虫搜索搜索优化
转载请注明出处:http://blog.csdn.net/l1028386804/article/details/49647527我们模拟一个对商品的操作流程,通过对商品信息的操作,演示Lucene插入、查询功能,了解Lucene存储原理。创建数据操作实体类Goods:publicclassGoods{privateIntegergid;privateStringgname;privateDoub
- 【Lucene3.0 初窥】索引创建(3):DocumentWriter 处理流程二
ccnunlp
信息检索与搜索引擎
上接《索引创建(2):DocumentWriter处理流程一》1.3.2第二车间——DocInverterPerFieldDocInverterPerField负责对DocFieldProcessorPerThread对象的Fieldable[]数组的内容建立倒排索引,也就是处理同名字的所有Field。但实际上这个类主要解决的是前期工作,比如分词,统计位置信息等。倒排索引结构的核心的工作由Term
- IndexWriter有关的几个参数设置及重建索引注意事项
ningbohezhijun
Lucene
Lucene3.0版本:http://www.cnblogs.com/huangfox/archive/2010/10/16/1853054.html本文介绍和IndexWriter有关的3个参数:1.MAXBufferedDocsMaxBufferedDocs这个参数默认是disabled的,因为Lucene中还用另外一个参数(RAMBufferSizeMB)控制这个bufffer的索引文档个数
- Lucene建立索引库
黯雅悸动
--------《索引库》
问题?Lucene如何建立索引库,lucene所需要的jar包是那些,lucene如何使用索引库,lucene的核心原理一、Lucene是什么?全文检索只是一个概念,而具体实现有很多框架,lucene是其中的一种方式。本文将以lucene3.0进行开发官兵与Luncne的jar包可以去官网下载:点击打开链接,不过好像Lucene已经更新到6.1了。二、建立索引库1.互联网搜索全文搜索引擎结构图:2
- Lucene 实战(第2版) PDF高清中文版
Vincent8080
出处:http://www.linuxidc.com/Linux/2013-10/91052.htmLucene实战(第2版)(最权威的Lucene指南,覆盖ApacheLucene3.0,作者为Lucene项目成员)《Lucene实战(第2版)》基于Apache的Lucene3.0,从Lucene核心、Lucene应用、案例分析3个方面详细系统地介绍了Lucene,包括认识Lucene、建立索引
- Lucene分词器
csdnShenZhen
Lucene
Lucene全文检索架构自带分词器,通常该分词器对英文分词效果良好,它以空格作为切词标准,不对语汇单元进行其他规范化处理。但是我们在日常使用过程中,会出现检索中文的情况,这就需要使用第三方分词器了。常用的第三方分词器有以下几种:1.paoding:庖丁解牛最新版在https://code.google.com/p/paoding/中最多支持Lucene3.0,且最新提交的代码在2008-06-03
- lucene3.0 搜索结果排序+高亮展示
qwkxq
排序高亮lucene3.0
1.排序packagecn.xt.sort;
importjava.util.ArrayList;
importjava.util.List;
importorg.apache.lucene.document.Document;
importorg.apache.lucene.queryParser.MultiFieldQueryParser;
importorg.apache.lucene.
- Lucene搜索过程解析
ystyaoshengting
本系列文章将详细描述几乎最新版本的Lucene的基本原理和代码分析。其中总体架构和索引文件格式是Lucene2.9的,索引过程分析是Lucene3.0的。鉴于索引文件格式没有太大变化,因而原文没有更新,原理和架构的文章中引用了前辈的一些图,可能属于早期的Lucene,但不影响对原理和架构的理解。本系列文章尚在撰写之中,将会有分词器,QueryParser,查询语句与查询对象等章节。提前给大家分享,
- 与Lucene 4.10配合的中文分词比较
duanfei
分词
阅读更多比较目的衡量每种分词的指标,内存消耗、CPU消耗,得到一个在Lucene中比较好的分词版本。分词源代码介绍paoding:庖丁解牛最新版在https://code.google.com/p/paoding/中最多支持Lucene3.0,且最新提交的代码在2008-06-03,在svn中最新也是2010年提交,已经过时,不予考虑。mmseg4j:最新版已从https://code.googl
- 与Lucene 4.10配合的中文分词比较
duanfei
分词
阅读更多比较目的衡量每种分词的指标,内存消耗、CPU消耗,得到一个在Lucene中比较好的分词版本。分词源代码介绍paoding:庖丁解牛最新版在https://code.google.com/p/paoding/中最多支持Lucene3.0,且最新提交的代码在2008-06-03,在svn中最新也是2010年提交,已经过时,不予考虑。mmseg4j:最新版已从https://code.googl
- 与Lucene 4.10配合的中文分词比较
duanfei
分词
比较目的衡量每种分词的指标,内存消耗、CPU消耗,得到一个在Lucene中比较好的分词版本。分词源代码介绍paoding:庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene3.0,且最新提交的代码在2008-06-03,在svn中最新也是2010年提交,已经过时,不予考虑。mmseg4j:最新版已从 https://code.google
- openjweb基于lucene3全文检索技术实现
Lucene
openjweb基于Apache Lucene3.0的
全文索引技术实现方案
qq:29803446
一、为什么要使用全文索引技术?
在网站应用中,我们经常需要用到站内搜索的功能来查找指定的关键字。在网站的后台
存储中,信息可能存储的地方主要有:数据库表、HTML静态页面文件
- Lucene3.0结果排序原理+操作+示例
Lucene
Lucene3.0之结果排序(原理篇)
传统上,人们将信息检索系统返回结果的排序称为"相关排序" (relevance ranking) ,隐含其中各条目的顺序反映结果和查询的相关程度。
1、 基本排序原理
① 向量空间模型
Gerald Salton 等在 3
- lucene查询排序结果原理总结
Lucene
参考文章
Lucene3.0结果排序原理+操作+示例
Lucene的排序算法
一句话总结lucene排序算法是什么样的
关键几个概念
参考文档:
http://lucene.apache.org/core/4_10_3/core/org/apache/lucene/search/similarities/TFI
- Lucene3.3、Lucene3.4中文分词——庖丁解牛分词实例
Lucene
如果是Lucene3.0以上版本首先我们需要下载庖丁解牛最新源码并生成jar文件,我已经将最新源码和jar文件上传了:
http://download.csdn.net/detail/a_2cai/3671164 ,可以下载,或者下载一个SVN客户端从
http://code.google.com/p/paoding/检出最新的trunk源码,本地编译下。
当我们有了最新的庖丁解牛分词包和l
- lucene文件格式待整理
Lucene
这是之前Lucene3.0生成的索引格式
a表
b表
、
c.这是网上找的图片(因为上面的两张表的segment都是合并了的)
lucene4.9 建立的索引:
索引(Index): 在Lucene中一个索引是放在一个文件
- Lucene 3.0 输出相似度
Lucene
http://www.cnblogs.com/ibook360/archive/2011/10/19/2217638.html
Lucene3.0之结果排序(原理篇)
传统上,人们将信息检索系统返回结果的排序称为"相关排序" (relevance ranking) ,隐含其中各条目的顺序反映结果和查询的相关程度。
1、 基本
- Lucene3.0之结果排序(原理篇)
z69183787
Lucene3.0之结果排序(原理篇)传统上,人们将信息检索系统返回结果的排序称为"相关排序" (relevanceranking) ,隐含其中各条目的顺序反映结果和查询的相关程度。1、 基本排序原理① 向量空间模型GeraldSalton 等在 30 多年前提出的"向量空间模型" (VectorSpaceModel,VSM)[SaltonandLesk,1968,Salton,1971]
- 与Lucene 4.10配合的中文分词比较
tianwei7518
Lucene全文检索
比较目的衡量每种分词的指标,内存消耗、CPU消耗,得到一个在Lucene中比较好的分词版本。分词源代码介绍paoding:庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene3.0,且最新提交的代码在2008-06-03,在svn中最新也是2010年提交,已经过时,不予考虑。mmseg4j:最新版已从 https://code.google
- Lucene3.0 对数据库数据进行搜索
zzc1684
lucene3.0对数据库数据进行搜索
Java代码 package com.orifound.aiim.web.util; import java.io.File; import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet; impor
- lucene3.0的查询语法和QueryParser的语法
earbao
Query有很多子类,完成不同类型的查询任务:Instantiablesubclassesare:TermQueryMultiTermQueryBooleanQueryWildcardQueryPhraseQueryPrefixQueryMultiPhraseQueryFuzzyQueryTermRangeQueryNumericRangeQuerySpanQuery不过使用我们系统的用户可并不乐
- lucene利用BooleanQuery进行多个Query组合查询
earbao
lucene3.0中BooleanQuery实现与或的复合搜索. BooleanClause用于表示布尔查询子句关系的类,包括:BooleanClause.Occur.MUST,BooleanClause.Occur.MUST_NOT,BooleanClause.Occur.SHOULD。必须包含,不能包含,可以包含三种.有以下6种组合: 1.MUST和MUST:取得连个查询子句的交集。 2.MU
- Lucene 实战(第2版) PDF高清中文版
hongxuecn
Lucene
出处:http://www.linuxidc.com/Linux/2013-10/91052.htmLucene实战(第2版)(最权威的Lucene指南,覆盖ApacheLucene3.0,作者为Lucene项目成员)《Lucene实战(第2版)》基于Apache的Lucene3.0,从Lucene核心、Lucene应用、案例分析3个方面详细系统地介绍了Lucene,包括认识Lucene、建立索引
- lucene TokenStream类学习
hbiao68
Lucene
TokenStream抽象类TokenStream主要包含以下几个方法: booleanincrementToken()用于得到下一个Token。publicvoidreset()使得此TokenStrean可以重新开始返回各个分词。 和原来的TokenStream返回一个Token对象不同,Lucene3.0的TokenStream已经不返回Token对象了,那么如何保存下一个Token的信息呢
- lucene TokenStream类学习
hbiao68
阅读更多TokenStream抽象类TokenStream主要包含以下几个方法:booleanincrementToken()用于得到下一个Token。publicvoidreset()使得此TokenStrean可以重新开始返回各个分词。和原来的TokenStream返回一个Token对象不同,Lucene3.0的TokenStream已经不返回Token对象了,那么如何保存下一个Token的信
- Js函数返回值
_wy_
jsreturn
一、返回控制与函数结果,语法为:return 表达式;作用: 结束函数执行,返回调用函数,而且把表达式的值作为函数的结果 二、返回控制语法为:return;作用: 结束函数执行,返回调用函数,而且把undefined作为函数的结果 在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
- MySQL 的 char 与 varchar
bylijinnan
mysql
今天发现,create table 时,MySQL 4.1有时会把 char 自动转换成 varchar
测试举例:
CREATE TABLE `varcharLessThan4` (
`lastName` varchar(3)
) ;
mysql> desc varcharLessThan4;
+----------+---------+------+-
- Quartz——TriggerListener和JobListener
eksliang
TriggerListenerJobListenerquartz
转载请出自出处:http://eksliang.iteye.com/blog/2208624 一.概述
listener是一个监听器对象,用于监听scheduler中发生的事件,然后执行相应的操作;你可能已经猜到了,TriggerListeners接受与trigger相关的事件,JobListeners接受与jobs相关的事件。
二.JobListener监听器
j
- oracle层次查询
18289753290
oracle;层次查询;树查询
.oracle层次查询(connect by)
oracle的emp表中包含了一列mgr指出谁是雇员的经理,由于经理也是雇员,所以经理的信息也存储在emp表中。这样emp表就是一个自引用表,表中的mgr列是一个自引用列,它指向emp表中的empno列,mgr表示一个员工的管理者,
select empno,mgr,ename,sal from e
- 通过反射把map中的属性赋值到实体类bean对象中
酷的飞上天空
javaee泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中
但现在主要使用Spring框架的MVC,虽然也有@ModelAttribute可以使用但是明显感觉不方便。
好吧,那就自己再造一个轮子吧。
原理都知道,就是利用反射进行字段的赋值,下面贴代码
主要类如下:
import java.lang.reflect.Field;
imp
- SAP HANA数据存储:传统硬盘的瓶颈问题
蓝儿唯美
HANA
SAPHANA平台有各种各样的应用场景,这也意味着客户的实施方法有许多种选择,关键是如何挑选最适合他们需求的实施方案。
在 《Implementing SAP HANA》这本书中,介绍了SAP平台在现实场景中的运作原理,并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》,介绍了行存储和列存储的各自特点,以及SAP HANA的数据存储方式如何提升空间压
- Java Socket 多线程实现文件传输
随便小屋
javasocket
高级操作系统作业,让用Socket实现文件传输,有些代码也是在网上找的,写的不好,如果大家能用就用上。
客户端类:
package edu.logic.client;
import java.io.BufferedInputStream;
import java.io.Buffered
- java初学者路径
aijuans
java
学习Java有没有什么捷径?要想学好Java,首先要知道Java的大致分类。自从Sun推出Java以来,就力图使之无所不包,所以Java发展到现在,按应用来分主要分为三大块:J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版,主要用于桌面应用软件的编程;J2ME主要应用于嵌入是系统开发,如手机和PDA的编程;J2EE
- APP推广
aoyouzi
APP推广
一,免费篇
1,APP推荐类网站自主推荐
最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖,还能获取最美应用的评测推荐。PS:推荐简单。只要产品有趣好玩,用户会自主分享传播。例如足迹APP在最美应用推荐一次,几天用户暴增将服务器击垮。
2,各大应用商店首发合作
老实盯着排期,多给应用市场官方负责人献殷勤。
3,论坛贴吧推广
百度知道,百度贴吧,猫扑论坛,天涯社区,豆瓣(
- JSP转发与重定向
百合不是茶
jspservletJava Webjsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向;
转发包括;forward和include
例子;forwrad转发; 将请求装法给reg.html页面
关键代码;
req.getRequestDispatcher("reg.html
- web.xml之jsp-config
bijian1013
javaweb.xmlservletjsp-config
1.作用:主要用于设定JSP页面的相关配置。
2.常见定义:
<jsp-config>
<taglib>
<taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri>
<taglib-location>
TLD文件所在的位置
- JSF2.2 ViewScoped Using CDI
sunjing
CDIJSF 2.2ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
- 【分布式数据一致性二】Zookeeper数据读写一致性
bit1129
zookeeper
很多文档说Zookeeper是强一致性保证,事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336
Zookeeper的数据同步协议
Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数,3台能够满足数据可靠性同时
- Java开发笔记
白糖_
java开发
1、Map<key,value>的remove方法只能识别相同类型的key值
Map<Integer,String> map = new HashMap<Integer,String>();
map.put(1,"a");
map.put(2,"b");
map.put(3,"c"
- 图片黑色阴影
bozch
图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
- 编程之美-饮料供货-动态规划
bylijinnan
动态规划
import java.util.Arrays;
import java.util.Random;
public class BeverageSupply {
/**
* 编程之美 饮料供货
* 设Opt(V’,i)表示从i到n-1种饮料中,总容量为V’的方案中,满意度之和的最大值。
* 那么递归式就应该是:Opt(V’,i)=max{ k * Hi+Op
- ajax大参数(大数据)提交性能分析
chenbowen00
WebAjax框架浏览器prototype
近期在项目中发现如下一个问题
项目中有个提交现场事件的功能,该功能主要是在web客户端保存现场数据(主要有截屏,终端日志等信息)然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢,大概要等10到20秒的时间浏览器才能操作,期间页面不响应事件。
根据客户描述分析了下的代码流程,很简单,主要通过OCX控件截屏,在将前端的日志等文件使用OCX控件打包,在将之转换为
- [宇宙与天文]在太空采矿,在太空建造
comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大....
地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
- ORACLE中CONSTRAINT的四对属性
daizj
oracleCONSTRAINT
ORACLE中CONSTRAINT的四对属性
summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
- Gradle入门教程
dengkane
gradle
一、寻找gradle的历程
一开始的时候,我们只有一个工程,所有要用到的jar包都放到工程目录下面,时间长了,工程越来越大,使用到的jar包也越来越多,难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里,靠ide来管理工程之间的依赖关系,各工程下的jar包依赖是杂乱的。一段时间后,我们发现用ide来管理项程很不方便,比如不方便脱离ide自动构建,于是我们写自己的ant脚本。再后
- C语言简单循环示例
dcj3sjt126com
c
# include <stdio.h>
int main(void)
{
int i;
int count = 0;
int sum = 0;
float avg;
for (i=1; i<=100; i++)
{
if (i%2==0)
{
count++;
sum += i;
}
}
avg
- presentModalViewController 的动画效果
dcj3sjt126com
controller
系统自带(四种效果):
presentModalViewController模态的动画效果设置:
[cpp]
view plain
copy
UIViewController *detailViewController = [[UIViewController al
- java 二分查找
shuizhaosi888
二分查找java二分查找
需求:在排好顺序的一串数字中,找到数字T
一般解法:从左到右扫描数据,其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。
/**
*
* @param array
* 顺序数组
* @param t
* 要查找对象
* @return
*/
public stati
- Spring Security(07)——缓存UserDetails
234390216
ehcache缓存Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类,CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时,其首先会从缓存中获取,如果缓存中没
- Dozer 深层次复制
jayluns
VOmavenpo
最近在做项目上遇到了一些小问题,因为架构在做设计的时候web前段展示用到了vo层,而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层,每一次都需要从po-->转化到vo层,用到BeanUtils.copyProperties(source, target)只能复制简单的属性,因为实体类都配置了hibernate那些关联关系,所以它满足不了现在的需求,但后发现还有个很
- CSS规范整理(摘自懒人图库)
a409435341
htmlUIcss浏览器
刚没事闲着在网上瞎逛,找了一篇CSS规范整理,粗略看了一下后还蛮有一定的道理,并自问是否有这样的规范,这也是初入前端开发的人一个很好的规范吧。
一、文件规范
1、文件均归档至约定的目录中。
具体要求通过豆瓣的CSS规范进行讲解:
所有的CSS分为两大类:通用类和业务类。通用的CSS文件,放在如下目录中:
基本样式库 /css/core
- C++动态链接库创建与使用
你不认识的休道人
C++dll
一、创建动态链接库
1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked",完成
2.在test.h中添加
extern “C” 返回类型 _declspec(dllexport)函数名(参数列表);
3.在test.cpp中最后写
extern “C” 返回类型 _decls
- Android代码混淆之ProGuard
rensanning
ProGuard
Android应用的Java代码,通过反编译apk文件(dex2jar、apktool)很容易得到源代码,所以在release版本的apk中一定要混淆一下一些关键的Java源码。
ProGuard是一个开源的Java代码混淆器(obfuscation)。ADT r8开始它被默认集成到了Android SDK中。
官网:
http://proguard.sourceforge.net/
- 程序员在编程中遇到的奇葩弱智问题
tomcat_oracle
jquery编程ide
现在收集一下:
排名不分先后,按照发言顺序来的。
1、Jquery插件一个通用函数一直报错,尤其是很明显是存在的函数,很有可能就是你没有引入jquery。。。或者版本不对
2、调试半天没变化:不在同一个文件中调试。这个很可怕,我们很多时候会备份好几个项目,改完发现改错了。有个群友说的好: 在汤匙
- 解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported
xp9802
dependency
解决办法:在plugins之前添加如下pluginManagement,二者前后顺序如下:
[html]
view plain
copy
<build>
<pluginManagement