- lucene索引结构(一)--segment元数据信息
wangzhengnb
lucene
今天起开始深入分析Lucene3的索引结构。那就从最初步的段索引开始搞吧。1.建立索引开始分析之前必须要创建索引,这里图省事啦,也没有去网上找什么文档集。直接拿lucene的doc来索引的,这是一堆html的文件,这里只索引了文件的路径、最后修改时间和内容。doc.add(newField("path",f.getPath(),Field.Store.YES,Field.Index.NOT_ANA
- org.apache.lucene.analysis.TokenStream.incrementToken()Z
matieli19890306
lucene
在使用lucene3与IKAnalyzer集成的时候可能会出现以下错误:Exceptioninthread"main"java.lang.AbstractMethodError:org.apache.lucene.analysis.TokenStream.incrementToken()Zatorg.apache.lucene.index.DocInverterPerField.processFi
- 在android上使用lucene 4
u010157717
Lucene
lucene4使用了codec,搜索时通过反射加载相应codec类。与反射相关的信息放到了lucene的jar文件的META-INF\services目录下。android由apkuilder来生成apk。生成时,第三方jar里面的META-INF会被删除。因而,在android上面使用lucene4时codec无法被加载。(lucene3不会有此问题)一个简单的解决方案是使用apkdb来修改ap
- lucene3 中文IKAnalyzer分词例子
iteye_7030
Lucene
importjava.io.IOException;importjava.io.StringReader;importjava.util.Iterator;importorg.apache.lucene.analysis.Analyzer;importorg.apache.lucene.analysis.TokenStream;importorg.apache.lucene.document.Do
- lucene中Field简析
weixin_30726161
http://blog.csdn.net/zhaoxiao2008/article/details/14180019先看一段lucene3代码Documentdoc=newDocument();doc.add(newField("fullpath",f.getCanonicalPath(),Field.Store.YES,Field.Index.NOT_ANALYZED))Field类是文档索引期
- Lucene搜索引擎-搜索
达龙猫
搜索引擎
文章目录搜索API详解IndexReader索引读取器IndexSearch索引搜索器查询结果基本查询详解TermQuery词项查询BooleanQuery布尔查询PhraseQuery短语查询MultiPhraseQuery多重短语查询SpanNearQuery临近查询(跨度查询)TermRangeQuery词项范围查询PrefixQuery,WildcardQuery,RegexpQueryF
- Elasticsearch技术分析
浮生梦浮生
技术架构
目录1|0生活中的数据2|0先说说Lucene3|0核心概念3|1集群(Cluster)发现机制节点的角色脑裂现象3|2分片(Shards)3|3副本(Replicas)3|4映射(Mapping)4|0基本使用4|1安装使用4|2集群健康状态5|0机制原理5|1写索引原理5|2存储原理分段存储延迟写策略段合并6|0性能优化6|1存储设备6|2内部索引优化6|3调整配置参数6|4JVM调优1|0生
- lucene的spanNearQuery(二)——不带有顺序的
suichangkele
阅读更多如果你觉得我的代码里有bug,可以联系我,我的qq是1308567317。一年前写了一篇文章介绍有顺序的spanNearQuery,地址为:http://suichangkele.iteye.com/blog/2348256,现在才会想起来,还有一篇没写呢,即没有顺序的spanNearQuery,今天在看之前的博客的时候,突然发现,所以写一下吧。没有顺序的spanQuery的意思是,只要多
- 2017/08/03
海鸟之恋
今天刷微博看到@陈利人在微博问一个搜索的问题:最近在用ElasticSearch做项目,遇到了这样一个需求,本以为SpanNearQuery能实现,发现不可以,因为span_near中定义的slop是两个邻近词之间的距离,而不是整个query所在的窗口的大小。现在抛出这个这个问题求助,有解决方案的欢迎留言,一旦采用必有重谢。给定n个词,要求搜索所有含有这n个词的文档,并且满足这n个词同时出现在长度
- lucene3.0.3中的SpanNearQuery(一)
suichangkele
SpanNearQuery
阅读更多SpanNearQuery和PhraseQuery是差不多的意思,都是表示多个term必须全部存在且距离满足一定的条件的query,但是SpanTermQuery的用法更多,比如他有一个inorder的参数,可以控制多个term出现的位置是不是要符合指定的顺序(phraseQuery就是可以不按照出现的顺序的)构建一个SpanNearQuery需要三个参数,一个是多个SpanQuery,一
- lucene3.0.3中的SpanNearQuery(一)
suichangkele
lucene3spannearquery
这个类就是solr中根据“ab”~1最终生成的query,用于搜索a和b都存在并且他们之间的距离不超过指定的值的doc,具体的判断逻辑体现在他生成的spans,所以关键还会这个query的getSpans方法。在这个类中将a和b用SpanTermQuery做封装(在这片博客中称他们为subQuery),我在这片博客中将a和b生成的SpanTermQuery的getSpans方法生成的Span叫做s
- openjweb基于lucene3全文检索技术实现
Lucene
openjweb基于Apache Lucene3.0的
全文索引技术实现方案
qq:29803446
一、为什么要使用全文索引技术?
在网站应用中,我们经常需要用到站内搜索的功能来查找指定的关键字。在网站的后台
存储中,信息可能存储的地方主要有:数据库表、HTML静态页面文件
- Elasticsearch 邻近查询示例
elasticsearch
Elasticsearch 邻近查询示例(全切分分词) JAVA API方式:
1 SpanNearQueryBuilder span = QueryBuilders.spanNearQuery();
2 span.clause(QueryBuilders.spanTermQuery("Text", "学"));
3 span.clau
- 转 lucene3搜索引擎,索引建立搜索排序分页高亮显示, IKAnalyzer分词
IKAnalyzer
直接上代码: 1 public class UserIndexService {
2
3 private final Log lo
- elasticsearch SpanNearQuery实例
july_2
SpanNearQuery主要用来精确查询。比如某个term之后是另一个term,term之间的距离也可以自己设定,从而来实现精确搜索。例如我们来搜索包含有“共青团中央下发实施意见”关键字的文章。1.首先我们把”共青团中央下发实施意见”进行分词为:”共青团中央”,”下发”,”实施意见”。2.设置slop为0.inOrder为true代码如下:SpanNearQueryBuilderspan=Que
- 【搜索引擎基础知识1】搜索引擎基本架构
jediael_lu
(一)搜索引擎的开发一般可分为以下三大部分1、数据采集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi2、数据分析处理层:将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容,等待用户查询使用,重要的开源项目有Lucene3、视图层:也用户的交互界面,如一个网站的首页其基本架构可参考下图:
- lucene4 spatial4j
qxf567
有次在一个项目中有人提出了一种基于LBS业务的搜索的技术,lucene spatial搜索。随后在网上进行了大搜索。只搜索出一些lucene3代的小例子。现在lucene已经发到4.6了,3代明显太落后了。所以,进行lucene4 spatial的例子搜索,很不幸:使用的人太少了,没有一个例子。就连官网上也没有太多的说明。 由于没有仔细观看官网关于
- lucene中Field简析
zhaoxiao2008
先看一段lucene3代码Documentdoc=newDocument();
doc.add(newField("fullpath",f.getCanonicalPath(),
Field.Store.YES,Field.Index.NOT_ANALYZED))Field类是文档索引期间很重要的类,控制着被索引的域值Field.Store.*域存储选项通过倒排序索引来控制文本是否可以搜索变量名释
- lucene4中简单的query,以及与lucene3的一些区别
chaney
querylucene4lucene3
lucene4中有一些方法有很大的变动,以下代码可以看看与3的区别,下面代码中解释File2DocumentUtils类就不上传了,就是将File转换成lucene中的Document,如果需要运行的话再贴出来lucene包用的是4.1.0分词器用了IKAnalyzer和lucene标准的分词器StandardAnalyzer简单的一些查询都有@test可以直接junitpackagehellow
- Solr4.2.1中文分词
ipjmc
搜索
默认的Solr没有中文分词功能,而Paoding则是能兼容Lucene的中文分词工具,但是目前Paoding的版本只能兼容lucene3。还好有大神已经给出了解决方法,参考:http://www.oschina.net/code/snippet_259382_14635,此方法兼容到Solr4.2.1。但是直接使用的时候,会报NullPointer异常,需要修改一下文件,去掉toString(),
- Solr4.2.1中文分词
ipjmc
SolrLucenepaoding
默认的Solr没有中文分词功能,而Paoding则是能兼容Lucene的中文分词工具,但是目前Paoding的版本只能兼容lucene3。还好有大神已经给出了解决方法,参考:http://www.oschina.net/code/snippet_259382_14635,此方法兼容到Solr4.2.1。
但是直接使用的时候,会报NullPo
- Solr4.2.1中文分词
ipjmc
SolrLucenepaoding
默认的Solr没有中文分词功能,而Paoding则是能兼容Lucene的中文分词工具,但是目前Paoding的版本只能兼容lucene3。还好有大神已经给出了解决方法,参考:http://www.oschina.net/code/snippet_259382_14635,此方法兼容到Solr4.2.1。
但是直接使用的时候,会报NullPo
- Lucene 3 中写自己的分词器Analyzer
wxwzy738
转:http://blog.sina.com.cn/s/blog_4b3b7aff0100g3wh.htmlLucene的分词器部分是经常被修改的,我们实验室自己的分词器更适合自然语言处理,因此如何挂载自己的分词结果呢?在Lucene3中,发生了较大的变化。研究了半天,只需重写Tokenizer即可,关键是incrementToken()函数,用来向索引表写入词语数据和位移数据。其中的FMM.fm
- lucene3搜索引擎,索引建立搜索排序分页高亮显示, IKAnalyzer分词
itfafa
IKAnalyzer
package com.zjr.service.impl;
import java.io.File;
import java.io.IOException;
import java
- lucene3 中文IKAnalyzer分词例子
a52071453
luence
import java.io.IOException;
import java.io.StringReader;
import java.util.Iterator;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.
- lucene3 中文IKAnalyzer分词例子
a52071453
luence
import java.io.IOException;
import java.io.StringReader;
import java.util.Iterator;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.
- Lucene3参考资料
yingbin920
Lucene
http://wenku.baidu.com/view/706542bafd0a79563c1e72ad.html Lucene3.0 使 用 教 程
http://www.ibm.com/developerworks/cn/views/java/libraryview.jsp?sort_by=&show_abstract=true&show_all=&search_
- lucene3使用示例
zhongweijian
StringLucenesearchqueryimportoutput
lucene插入document建立索引代码importjava.io.File;
importjava.io.FileInputStream;
importjava.io.IOException;
importjava.io.InputStreamReader;
importjava.util.List;
importorg.apache.lucene.analysis.Analyzer;
i
- lucene3使用示例
zhwj184
Lucene
lucene插入document建立索引代码
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.List;
import org.apache.lucene.ana
- lucene3使用示例
zhwj184
Lucene
lucene插入document建立索引代码
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.List;
import org.apache.lucene.ana
- 开发者关心的那些事
圣子足道
ios游戏编程apple支付
我要在app里添加IAP,必须要注册自己的产品标识符(product identifiers)。产品标识符是什么?
产品标识符(Product Identifiers)是一串字符串,它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息,标识符只能包含大小写字母(A-Z)、数字(0-9)、下划线(-)、以及圆点(.)。你可以任意排列这些元素,但我们建议你创建标识符时使用
- 负载均衡器技术Nginx和F5的优缺点对比
bijian1013
nginxF5
对于数据流量过大的网络中,往往单一设备无法承担,需要多台设备进行数据分流,而负载均衡器就是用来将数据分流到多台设备的一个转发器。
目前有许多不同的负载均衡技术用以满足不同的应用需求,如软/硬件负载均衡、本地/全局负载均衡、更高
- LeetCode[Math] - #9 Palindrome Number
Cwind
javaAlgorithm题解LeetCodeMath
原题链接:#9 Palindrome Number
要求:
判断一个整数是否是回文数,不要使用额外的存储空间
难度:简单
分析:
题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间,O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转,然后与原数字进行比较。
注:没有看到有关负数是否可以是回文数的明确结论,例如
- 画图板的基本实现
15700786134
画图板
要实现画图板的基本功能,除了在qq登陆界面中用到的组件和方法外,还需要添加鼠标监听器,和接口实现。
首先,需要显示一个JFrame界面:
public class DrameFrame extends JFrame { //显示
- linux的ps命令
被触发
linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照,就是执行ps命令的那个时刻的那些进程,如果想要动态的显示进程信息,就可以使用top命令。
要对进程进行监测和控制,首先必须要了解当前进程的情况,也就是需要查看当前进程,而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
- Android 音乐播放器 下一曲 连续跳几首歌
肆无忌惮_
android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调
player.setOnCompletionListener(new OnCompletionListener() {
@Override
public void onCompletion(MediaPlayer mp) {
mp.reset();
Log.i("H
- java导出txt文件的例子
知了ing
javaservlet
代码很简单就一个servlet,如下:
package com.eastcom.servlet;
import java.io.BufferedOutputStream;
import java.io.IOException;
import java.net.URLEncoder;
import java.sql.Connection;
import java.sql.Resu
- Scala stack试玩, 提高第三方依赖下载速度
矮蛋蛋
scalasbt
原文地址:
http://segmentfault.com/a/1190000002894524
sbt下载速度实在是惨不忍睹, 需要做些配置优化
下载typesafe离线包, 保存为ivy本地库
wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip
解压r
- phantomjs安装(linux,附带环境变量设置) ,以及casperjs安装。
alleni123
linuxspider
1. 首先从官网
http://phantomjs.org/下载phantomjs压缩包,解压缩到/root/phantomjs文件夹。
2. 安装依赖
sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6
3. 配置环境变量
vi /etc/profil
- JAVA IO FileInputStream和FileOutputStream,字节流的打包输出
百合不是茶
java核心思想JAVA IO操作字节流
在程序设计语言中,数据的保存是基本,如果某程序语言不能保存数据那么该语言是不可能存在的,JAVA是当今最流行的面向对象设计语言之一,在保存数据中也有自己独特的一面,字节流和字符流
1,字节流是由字节构成的,字符流是由字符构成的 字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流
类 FileInputStream
- Spring基础实例(依赖注入和控制反转)
bijian1013
spring
前提条件:在http://www.springsource.org/download网站上下载Spring框架,并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口
package com.bijian.spring.base3;
public interface Weapon {
void kil
- HR看重的十大技能
bijian1013
提升能力HR成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度,也取决于他所能支配的资源以及制定的事业目标,拥有过硬技能的人有更多的工作机会。但是,由于经济发展前景不确定,掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。 一、解决问题的能力 每天,我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
- 【Thrift一】Thrift编译安装
bit1129
thrift
什么是Thrift
The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
- 【Avro三】Hadoop MapReduce读写Avro文件
bit1129
mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在)牵头开发的。 开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的(使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景),因此Hadoop MapReduce集成Avro也就是自然而然的事情。
这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计,然后将计算结果
- nginx定制500,502,503,504页面
ronin47
nginx 错误显示
server {
listen 80;
error_page 500/500.html;
error_page 502/502.html;
error_page 503/503.html;
error_page 504/504.html;
location /test {return502;}}
配置很简单,和配
- java-1.二叉查找树转为双向链表
bylijinnan
二叉查找树
import java.util.ArrayList;
import java.util.List;
public class BSTreeToLinkedList {
/*
把二元查找树转变成排序的双向链表
题目:
输入一棵二元查找树,将该二元查找树转换成一个排序的双向链表。
要求不能创建任何新的结点,只调整指针的指向。
10
/ \
6 14
/ \
- Netty源码学习-HTTP-tunnel
bylijinnan
javanetty
Netty关于HTTP tunnel的说明:
http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description
这个说明有点太简略了
一个完整的例子在这里:
https://github.com/bylijinnan
- JSONUtil.serialize(map)和JSON.toJSONString(map)的区别
coder_xpf
jqueryjsonmapval()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别
数据库查询出来的map有一个字段为空
通过System.out.println()输出 JSONUtil.serialize(map): {"one":"1","two":"nul
- Hibernate缓存总结
cuishikuan
开源sshjavawebhibernate缓存三大框架
一、为什么要用Hibernate缓存?
Hibernate是一个持久层框架,经常访问物理数据库。
为了降低应用程序对物理数据源访问的频次,从而提高应用程序的运行性能。
缓存内的数据是对物理数据源中的数据的复制,应用程序在运行时从缓存读写数据,在特定的时刻或事件会同步缓存和物理数据源的数据。
二、Hibernate缓存原理是怎样的?
Hibernate缓存包括两大类:Hib
- CentOs6
dalan_123
centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块:yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
- 10款用 jquery 实现滚动条至页面底端自动加载数据效果
dcj3sjt126com
JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术,它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果,改变了一直以来只能通过点击下一页来翻页这种常规做法。
无限滚动自动翻页技术的鼻祖是微博的先驱:推特(twitter),后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术,于是靠滚动浏览器滚动条
- ImageButton去边框&Button或者ImageButton的背景透明
dcj3sjt126com
imagebutton
在ImageButton中载入图片后,很多人会觉得有图片周围的白边会影响到美观,其实解决这个问题有两种方法
一种方法是将ImageButton的背景改为所需要的图片。如:android:background="@drawable/XXX"
第二种方法就是将ImageButton背景改为透明,这个方法更常用
在XML里;
<ImageBut
- JSP之c:foreach
eksliang
jspforearch
原文出自:http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html
<c:forEach>标签用于通用数据循环,它有以下属性 属 性 描 述 是否必须 缺省值 items 进行循环的项目 否 无 begin 开始条件 否 0 end 结束条件 否 集合中的最后一个项目 step 步长 否 1
- Android实现主动连接蓝牙耳机
gqdy365
android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型,这篇文字只讨论如何与蓝牙耳机连接。
大致可以分三步:
一、扫描蓝牙设备:
1、注册并监听广播:
BluetoothAdapter.ACTION_DISCOVERY_STARTED
BluetoothDevice.ACTION_FOUND
BluetoothAdapter.ACTION_DIS
- android学习轨迹之四:org.json.JSONException: No value for
hyz301
json
org.json.JSONException: No value for items
在JSON解析中会遇到一种错误,很常见的错误
06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
- 干货分享:从零开始学编程 系列汇总
justjavac
编程
程序员总爱重新发明轮子,于是做了要给轮子汇总。
从零开始写个编译器吧系列 (知乎专栏)
从零开始写一个简单的操作系统 (伯乐在线)
从零开始写JavaScript框架 (图灵社区)
从零开始写jQuery框架 (蓝色理想 )
从零开始nodejs系列文章 (粉丝日志)
从零开始编写网络游戏 
- jquery-autocomplete 使用手册
macroli
jqueryAjax脚本
jquery-autocomplete学习
一、用前必备
官方网站:http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/
当前版本:1.1
需要JQuery版本:1.2.6
二、使用
<script src="./jquery-1.3.2.js" type="text/ja
- PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改
超声波
oracleplsql
在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库,常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错,什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
- 数据仓库数据模型之:极限存储--历史拉链表
superlxw1234
极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中,经常会遇到这样的需求:
1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态, 比如,查看某一个用户在过去某一段时间内,更新过几次等等; 4. 变化的比例和频率不是很大,比如,总共有10
- 10点睛Spring MVC4.1-全局异常处理
wiselyman
spring mvc
10.1 全局异常处理
使用@ControllerAdvice注解来实现全局异常处理;
使用@ControllerAdvice的属性缩小处理范围
10.2 演示
演示控制器
package com.wisely.web;
import org.springframework.stereotype.Controller;
import org.spring