- ElasticSearch之mapping分词器选择
小老犇
ElasticSearchelasticsearchik分词器分词器选择默认分词器分词算法
前言市场上分词器,眼花缭乱,让你一脸懵逼。Standard:单字切分法,一个字切分成一个词。CJKAnalyzer:二元切分法,把相邻的两个字,作为一个词.SmartChineseAnalyzer:对中文支持较好,但是扩展性差,针对扩展词库、停用词均不好处理.paoding`:庖丁解牛分词器,没有持续更新,只支持到lucene3.0。mmseg4`:支持Lucene4.10,且在github中有持
- Java学习阶段六【web高级进阶】
北大青鸟车陂校区
openJpa技术:JPA介绍及开发环境搭建、单表实体映射、一对多/多对一、一对一、多对多关联、实体继承、复合主键、JPQL语句、EntityManagerAPI、事务管理,了解一下jpa2.0的新特性以及应用。lucene搜索引擎:了解全文搜索原理、全文搜索引擎、什么是OSEM、OSEM框架Compass、基于使用Lucene使用Compass实现全文增量型索引创建和搜索、探索Lucene3.0
- Lucene3.0 demo
nwjwawa2010
lucene
importjava.io.File;importjava.io.FileReader;importjava.io.IOException;importjava.util.Date;importorg.apache.lucene.analysis.standard.StandardAnalyzer;importorg.apache.lucene.document.Document;importor
- 2016书单总结--Lucene实战(第二版)--基础篇
undergrowth
java2016书单
2016书单总结–Lucene实战(第二版)–基础篇Lucene实战基于Lucene3.0,本示例以3.5为基础Lucene由道格.卡丁编写的用于文本索引与搜索的高性能、可扩展的信息检索工具库通过5个部分进行总结,分别为收集–包括如何获取文本,例如使用tika提取文本分析–分析器的原理,词汇单元过程化,词汇单元过滤器索引–如何构建倒排索引,构建实时索引,更新、删除索引搜索–查找需要信息,按照不同条
- Lucene3.0.0 入门实例
lengyuhong
搜索引擎
lucene3.0已于2009-11-25发布啦,但网上的入门实例都是针对lucene3.0以前的,相对于以前的版本,貌似改动不小。本人从头开始学习lucene,现在用的是《luceneinaction中文版》,结合lucene3.0文档写了个入门实例,可供像我一样直接从lucene3.0开始学习的新手参考!入门实例:lucene3.0.0的jar包和《三国演义》电子书的下载网址:lucene3.
- Lucene之——第一个Lucene3.0程序
冰 河
Lucene分词爬虫搜索搜索优化
转载请注明出处:http://blog.csdn.net/l1028386804/article/details/49647527我们模拟一个对商品的操作流程,通过对商品信息的操作,演示Lucene插入、查询功能,了解Lucene存储原理。创建数据操作实体类Goods:publicclassGoods{privateIntegergid;privateStringgname;privateDoub
- 【Lucene3.0 初窥】索引创建(3):DocumentWriter 处理流程二
ccnunlp
信息检索与搜索引擎
上接《索引创建(2):DocumentWriter处理流程一》1.3.2第二车间——DocInverterPerFieldDocInverterPerField负责对DocFieldProcessorPerThread对象的Fieldable[]数组的内容建立倒排索引,也就是处理同名字的所有Field。但实际上这个类主要解决的是前期工作,比如分词,统计位置信息等。倒排索引结构的核心的工作由Term
- IndexWriter有关的几个参数设置及重建索引注意事项
ningbohezhijun
Lucene
Lucene3.0版本:http://www.cnblogs.com/huangfox/archive/2010/10/16/1853054.html本文介绍和IndexWriter有关的3个参数:1.MAXBufferedDocsMaxBufferedDocs这个参数默认是disabled的,因为Lucene中还用另外一个参数(RAMBufferSizeMB)控制这个bufffer的索引文档个数
- Lucene建立索引库
黯雅悸动
--------《索引库》
问题?Lucene如何建立索引库,lucene所需要的jar包是那些,lucene如何使用索引库,lucene的核心原理一、Lucene是什么?全文检索只是一个概念,而具体实现有很多框架,lucene是其中的一种方式。本文将以lucene3.0进行开发官兵与Luncne的jar包可以去官网下载:点击打开链接,不过好像Lucene已经更新到6.1了。二、建立索引库1.互联网搜索全文搜索引擎结构图:2
- Lucene 实战(第2版) PDF高清中文版
Vincent8080
出处:http://www.linuxidc.com/Linux/2013-10/91052.htmLucene实战(第2版)(最权威的Lucene指南,覆盖ApacheLucene3.0,作者为Lucene项目成员)《Lucene实战(第2版)》基于Apache的Lucene3.0,从Lucene核心、Lucene应用、案例分析3个方面详细系统地介绍了Lucene,包括认识Lucene、建立索引
- Lucene分词器
csdnShenZhen
Lucene
Lucene全文检索架构自带分词器,通常该分词器对英文分词效果良好,它以空格作为切词标准,不对语汇单元进行其他规范化处理。但是我们在日常使用过程中,会出现检索中文的情况,这就需要使用第三方分词器了。常用的第三方分词器有以下几种:1.paoding:庖丁解牛最新版在https://code.google.com/p/paoding/中最多支持Lucene3.0,且最新提交的代码在2008-06-03
- lucene3.0 搜索结果排序+高亮展示
qwkxq
排序高亮lucene3.0
1.排序packagecn.xt.sort;
importjava.util.ArrayList;
importjava.util.List;
importorg.apache.lucene.document.Document;
importorg.apache.lucene.queryParser.MultiFieldQueryParser;
importorg.apache.lucene.
- Lucene搜索过程解析
ystyaoshengting
本系列文章将详细描述几乎最新版本的Lucene的基本原理和代码分析。其中总体架构和索引文件格式是Lucene2.9的,索引过程分析是Lucene3.0的。鉴于索引文件格式没有太大变化,因而原文没有更新,原理和架构的文章中引用了前辈的一些图,可能属于早期的Lucene,但不影响对原理和架构的理解。本系列文章尚在撰写之中,将会有分词器,QueryParser,查询语句与查询对象等章节。提前给大家分享,
- 与Lucene 4.10配合的中文分词比较
duanfei
分词
阅读更多比较目的衡量每种分词的指标,内存消耗、CPU消耗,得到一个在Lucene中比较好的分词版本。分词源代码介绍paoding:庖丁解牛最新版在https://code.google.com/p/paoding/中最多支持Lucene3.0,且最新提交的代码在2008-06-03,在svn中最新也是2010年提交,已经过时,不予考虑。mmseg4j:最新版已从https://code.googl
- 与Lucene 4.10配合的中文分词比较
duanfei
分词
阅读更多比较目的衡量每种分词的指标,内存消耗、CPU消耗,得到一个在Lucene中比较好的分词版本。分词源代码介绍paoding:庖丁解牛最新版在https://code.google.com/p/paoding/中最多支持Lucene3.0,且最新提交的代码在2008-06-03,在svn中最新也是2010年提交,已经过时,不予考虑。mmseg4j:最新版已从https://code.googl
- 与Lucene 4.10配合的中文分词比较
duanfei
分词
比较目的衡量每种分词的指标,内存消耗、CPU消耗,得到一个在Lucene中比较好的分词版本。分词源代码介绍paoding:庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene3.0,且最新提交的代码在2008-06-03,在svn中最新也是2010年提交,已经过时,不予考虑。mmseg4j:最新版已从 https://code.google
- openjweb基于lucene3全文检索技术实现
Lucene
openjweb基于Apache Lucene3.0的
全文索引技术实现方案
qq:29803446
一、为什么要使用全文索引技术?
在网站应用中,我们经常需要用到站内搜索的功能来查找指定的关键字。在网站的后台
存储中,信息可能存储的地方主要有:数据库表、HTML静态页面文件
- Lucene3.0结果排序原理+操作+示例
Lucene
Lucene3.0之结果排序(原理篇)
传统上,人们将信息检索系统返回结果的排序称为"相关排序" (relevance ranking) ,隐含其中各条目的顺序反映结果和查询的相关程度。
1、 基本排序原理
① 向量空间模型
Gerald Salton 等在 3
- lucene查询排序结果原理总结
Lucene
参考文章
Lucene3.0结果排序原理+操作+示例
Lucene的排序算法
一句话总结lucene排序算法是什么样的
关键几个概念
参考文档:
http://lucene.apache.org/core/4_10_3/core/org/apache/lucene/search/similarities/TFI
- Lucene3.3、Lucene3.4中文分词——庖丁解牛分词实例
Lucene
如果是Lucene3.0以上版本首先我们需要下载庖丁解牛最新源码并生成jar文件,我已经将最新源码和jar文件上传了:
http://download.csdn.net/detail/a_2cai/3671164 ,可以下载,或者下载一个SVN客户端从
http://code.google.com/p/paoding/检出最新的trunk源码,本地编译下。
当我们有了最新的庖丁解牛分词包和l
- lucene文件格式待整理
Lucene
这是之前Lucene3.0生成的索引格式
a表
b表
、
c.这是网上找的图片(因为上面的两张表的segment都是合并了的)
lucene4.9 建立的索引:
索引(Index): 在Lucene中一个索引是放在一个文件
- Lucene 3.0 输出相似度
Lucene
http://www.cnblogs.com/ibook360/archive/2011/10/19/2217638.html
Lucene3.0之结果排序(原理篇)
传统上,人们将信息检索系统返回结果的排序称为"相关排序" (relevance ranking) ,隐含其中各条目的顺序反映结果和查询的相关程度。
1、 基本
- Lucene3.0之结果排序(原理篇)
z69183787
Lucene3.0之结果排序(原理篇)传统上,人们将信息检索系统返回结果的排序称为"相关排序" (relevanceranking) ,隐含其中各条目的顺序反映结果和查询的相关程度。1、 基本排序原理① 向量空间模型GeraldSalton 等在 30 多年前提出的"向量空间模型" (VectorSpaceModel,VSM)[SaltonandLesk,1968,Salton,1971]
- 与Lucene 4.10配合的中文分词比较
tianwei7518
Lucene全文检索
比较目的衡量每种分词的指标,内存消耗、CPU消耗,得到一个在Lucene中比较好的分词版本。分词源代码介绍paoding:庖丁解牛最新版在 https://code.google.com/p/paoding/ 中最多支持Lucene3.0,且最新提交的代码在2008-06-03,在svn中最新也是2010年提交,已经过时,不予考虑。mmseg4j:最新版已从 https://code.google
- Lucene3.0 对数据库数据进行搜索
zzc1684
lucene3.0对数据库数据进行搜索
Java代码 package com.orifound.aiim.web.util; import java.io.File; import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet; impor
- lucene3.0的查询语法和QueryParser的语法
earbao
Query有很多子类,完成不同类型的查询任务:Instantiablesubclassesare:TermQueryMultiTermQueryBooleanQueryWildcardQueryPhraseQueryPrefixQueryMultiPhraseQueryFuzzyQueryTermRangeQueryNumericRangeQuerySpanQuery不过使用我们系统的用户可并不乐
- lucene利用BooleanQuery进行多个Query组合查询
earbao
lucene3.0中BooleanQuery实现与或的复合搜索. BooleanClause用于表示布尔查询子句关系的类,包括:BooleanClause.Occur.MUST,BooleanClause.Occur.MUST_NOT,BooleanClause.Occur.SHOULD。必须包含,不能包含,可以包含三种.有以下6种组合: 1.MUST和MUST:取得连个查询子句的交集。 2.MU
- Lucene 实战(第2版) PDF高清中文版
hongxuecn
Lucene
出处:http://www.linuxidc.com/Linux/2013-10/91052.htmLucene实战(第2版)(最权威的Lucene指南,覆盖ApacheLucene3.0,作者为Lucene项目成员)《Lucene实战(第2版)》基于Apache的Lucene3.0,从Lucene核心、Lucene应用、案例分析3个方面详细系统地介绍了Lucene,包括认识Lucene、建立索引
- lucene TokenStream类学习
hbiao68
Lucene
TokenStream抽象类TokenStream主要包含以下几个方法: booleanincrementToken()用于得到下一个Token。publicvoidreset()使得此TokenStrean可以重新开始返回各个分词。 和原来的TokenStream返回一个Token对象不同,Lucene3.0的TokenStream已经不返回Token对象了,那么如何保存下一个Token的信息呢
- lucene TokenStream类学习
hbiao68
阅读更多TokenStream抽象类TokenStream主要包含以下几个方法:booleanincrementToken()用于得到下一个Token。publicvoidreset()使得此TokenStrean可以重新开始返回各个分词。和原来的TokenStream返回一个Token对象不同,Lucene3.0的TokenStream已经不返回Token对象了,那么如何保存下一个Token的信
- 设计模式介绍
tntxia
设计模式
设计模式来源于土木工程师 克里斯托弗 亚历山大(http://en.wikipedia.org/wiki/Christopher_Alexander)的早期作品。他经常发表一些作品,内容是总结他在解决设计问题方面的经验,以及这些知识与城市和建筑模式之间有何关联。有一天,亚历山大突然发现,重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。
亚历山大与萨拉-石川佳纯和穆雷 西乐弗斯坦合作
- android高级组件使用(一)
百合不是茶
androidRatingBarSpinner
1、自动完成文本框(AutoCompleteTextView)
AutoCompleteTextView从EditText派生出来,实际上也是一个文本编辑框,但它比普通编辑框多一个功能:当用户输入一个字符后,自动完成文本框会显示一个下拉菜单,供用户从中选择,当用户选择某个菜单项之后,AutoCompleteTextView按用户选择自动填写该文本框。
使用AutoCompleteTex
- [网络与通讯]路由器市场大有潜力可挖掘
comsci
网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题.....
这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入
&nbs
- 自写简单Redis内存统计shell
商人shang
Linux shell统计Redis内存
#!/bin/bash
address="192.168.150.128:6666,192.168.150.128:6666"
hosts=(${address//,/ })
sfile="staticts.log"
for hostitem in ${hosts[@]}
do
ipport=(${hostitem
- 单例模式(饿汉 vs懒汉)
oloz
单例模式
package 单例模式;
/*
* 应用场景:保证在整个应用之中某个对象的实例只有一个
* 单例模式种的《 懒汉模式》
* */
public class Singleton {
//01 将构造方法私有化,外界就无法用new Singleton()的方式获得实例
private Singleton(){};
//02 申明类得唯一实例
priva
- springMvc json支持
杨白白
json springmvc
1.Spring mvc处理json需要使用jackson的类库,因此需要先引入jackson包
2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入
@RequestMapping("helloJson")
public @ResponseBody
JsonTest helloJson() {
- android播放,掃描添加本地音頻文件
小桔子
最近幾乎沒有什麽事情,繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能,就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道,可已通過本地掃描添加歌曲。不知道他們是怎麼實現的,我覺得應該掃描設備上的所有文件,過濾出音頻文件,每個文件實例化為一個實體,記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想,
- oracle常用命令
aichenglong
oracledba常用命令
1 创建临时表空间
create temporary tablespace user_temp
tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf'
size 50m
autoextend on
next 50m maxsize 20480m
extent management local
- 25个Eclipse插件
AILIKES
eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug,它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去,能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具,它提供了
- Spring MVC拦截器+注解方式实现防止表单重复提交
baalwolf
spring mvc
原理:在新建页面中Session保存token随机码,当保存时验证,通过后删除,当再次点击保存时由于服务器端的Session中已经不存在了,所有无法验证通过。
1.新建注解:
? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
- 《Javascript高级程序设计(第3版)》闭包理解
bijian1013
JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》
看以下代码:
<script type="text/javascript">
function outer() {
var i = 10;
return f
- AngularJS Module类的方法
bijian1013
JavaScriptAngularJSModule
AngularJS中的Module类负责定义应用如何启动,它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。
一.Main方法在哪里
如果你是从Java或者Python编程语言转过来的,那么你可能很想知道AngularJS里面的main方法在哪里?这个把所
- [Maven学习笔记七]Maven插件和目标
bit1129
maven插件
插件(plugin)和目标(goal)
Maven,就其本质而言,是一个插件执行框架,Maven的每个目标的执行逻辑都是由插件来完成的,一个插件可以有1个或者几个目标,比如maven-compiler-plugin插件包含compile和testCompile,即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标
使用插件和目标使得我们可以干预
- 【Hadoop八】Yarn的资源调度策略
bit1129
hadoop
1. Hadoop的三种调度策略
Hadoop提供了3中作业调用的策略,
FIFO Scheduler
Fair Scheduler
Capacity Scheduler
以上三种调度算法,在Hadoop MR1中就引入了,在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度
2. 多用户资源共享的调度
- Nginx使用Linux内存加速静态文件访问
ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快,可以把放在磁盘中的文件,映射到内存中,减少高并发下的磁盘IO。
先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res,站点所对应文件原始存储路径:/opt/web/res
shell脚本非常简单,思路就是拷贝资源文件到内存中,然后在把网站的静态文件链接指向到内存中即可。具体如下:
- 关于Unity3D中的Shader的知识
brotherlamp
unityunity资料unity教程unity视频unity自学
首先先解释下Unity3D的Shader,Unity里面的Shaders是使用一种叫ShaderLab的语言编写的,它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader,都是指用ShaderLab编写的代码,然后我们来看下Unity3D自带的60多个S
- CopyOnWriteArrayList vs ArrayList
bylijinnan
java
package com.ljn.base;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import java.util.concurrent.CopyOnWriteArrayList;
/**
* 总述:
* 1.ArrayListi不是线程安全的,CopyO
- 内存中栈和堆的区别
chicony
内存
1、内存分配方面:
堆:一般由程序员分配释放, 若程序员不释放,程序结束时可能由OS回收 。注意它与数据结构中的堆是两回事,分配方式是类似于链表。可能用到的关键字如下:new、malloc、delete、free等等。
栈:由编译器(Compiler)自动分配释放,存放函数的参数值,局部变量的值等。其操作方式类似于数据结构中
- 回答一位网友对Scala的提问
chenchao051
scalamap
本来准备在私信里直接回复了,但是发现不太方便,就简要回答在这里。 问题 写道 对于scala的简洁十分佩服,但又觉得比较晦涩,例如一例,Map("a" -> List(11,111)).flatMap(_._2),可否说下最后那个函数做了什么,真正在开发的时候也会如此简洁?谢谢
先回答一点,在实际使用中,Scala毫无疑问就是这么简单。
- mysql 取每组前几条记录
daizj
mysql分组最大值最小值每组三条记录
一、对分组的记录取前N条记录:例如:取每组的前3条最大的记录 1.用子查询: SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
- HTTP深入浅出 http请求
dcj3sjt126com
http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP,使HTTP客户(如Web浏览器)能够从HTTP服务器(Web服务器)请求信息和服务,HTTP目前协议的版本是1.1.HTTP是一种无状态的协议,无状态是指Web浏览器和Web服务器之间不需要建立持久的连接,这意味着当一个客户端向服务器端发出请求,然后We
- 判断MySQL记录是否存在方法比较
dcj3sjt126com
mysql
把数据写入到数据库的时,常常会碰到先要检测要插入的记录是否存在,然后决定是否要写入。
我这里总结了判断记录是否存在的常用方法:
sql语句: select count ( * ) from tablename;
然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费,我们只是想判断记录记录是否存在,没有必要全部都查出来。
- 对HTML XML的一点认识
e200702084
htmlxml
感谢http://www.w3school.com.cn提供的资料
HTML 文档中的每个成分都是一个节点。
节点
根据 DOM,HTML 文档中的每个成分都是一个节点。
DOM 是这样规定的:
整个文档是一个文档节点
每个 HTML 标签是一个元素节点
包含在 HTML 元素中的文本是文本节点
每一个 HTML 属性是一个属性节点
注释属于注释节点
Node 层次
- jquery分页插件
genaiwei
jqueryWeb前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
- Mybatis与Ibatis对照入门于学习
Josh_Persistence
mybatisibatis区别联系
一、为什么使用IBatis/Mybatis
对于从事 Java EE 的开发人员来说,iBatis 是一个再熟悉不过的持久层框架了,在 Hibernate、JPA 这样的一站式对象 / 关系映射(O/R Mapping)解决方案盛行之前,iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天,iBatis 凭借着易学易用、
- C中怎样合理决定使用那种整数类型?
秋风扫落叶
c数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。 否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。 除此之外, 就使用 int 型。 如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。 但是, 要注意在表达式中混用有符号和无符号值的情况。
&nbs
- maven问题
zhb8015
maven问题
问题1:
Eclipse 中 新建maven项目 无法添加src/main/java 问题
eclipse创建maevn web项目,在选择maven_archetype_web原型后,默认只有src/main/resources这个Source Floder。
按照maven目录结构,添加src/main/ja
- (二)androidpn-server tomcat版源码解析之--push消息处理
spjich
javaandrodipn推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中,已经描述了整个推送服务器的启动过程,并且把握到了消息的入口即XmppIoHandler这个类,今天我将继续往下分析下面的核心代码,主要分为3大块,链接创建,消息的发送,链接关闭。
先贴一段XmppIoHandler的部分代码
/**
* Invoked from an I/O proc
- 用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题
中华好儿孙
JavaScriptAjaxWeb上传文件FormData
var formData = new FormData($("#inputFileForm")[0]);
$.ajax({
type:'post',
url:webRoot+"/electronicContractUrl/webapp/uploadfile",
data:formData,
async: false,
ca
- mybatis常用jdbcType数据类型
ysj5125094
mybatismapperjdbcType
MyBatis 通过包含的jdbcType
类型
BIT FLOAT CHAR