- lucene java 庖丁解牛_Lucene整合"庖丁解牛"中文分詞 ----入門 2
rubyxr109
lucenejava庖丁解牛
packagecn.luanmad.lucene;importnet.paoding.analysis.analyzer.PaodingAnalyzer;importorg.apache.lucene.analysis.Analyzer;importorg.apache.lucene.analysis.Token;importorg.apache.lucene.analysis.TokenStre
- Lucene实现自定义中文同义词分词器
WangJonney
LuceneLucene
----------------------------------------------------------lucene的分词_中文分词介绍----------------------------------------------------------Paoding:庖丁解牛分词器。已经没有更新了mmseg:使用搜狗的词库1.导入包(有两个包:1.带dic的,2.不带dic的)如果使用
- 庖丁解牛 分词
zhyf918
技术分享
今天想测试一下“庖丁”分词的效果,编写了一个测试小程序,从文件中读入文本,并将分词结果显示到控制台。环境平台:Win7+eclipse过程如下:1.编辑paoding-analysis.jar中的paoding-dic-home.properties文件,去掉“#paoding.dic.home=dic”前面的#号,并将等号后面的dic改为dic文件夹在你本地存放的具体路劲,如:F://works
- paoding庖丁分词使用小例子(学习笔记)
lujian863
中文分词eclipsefilelucenestringimporttoken
推荐使用为知笔记(Wiz),它是电脑、手机、平板都能用的云笔记软件,使用我的邀请注册可获VIP体验:http://www.wiz.cn/i/02c6808b做SRT遇到要分词,以前做了一个分词系统,但那个是老师提供的词库,真要自己来做分词,没词库怎么行?到处找词库,找不到好用的,后来还在台湾某个学术机构上看到一个词库,但要台币一万大洋,郁闷~~没办法,最后想到直接找开源的分词软件,找到庖丁,于是大
- 庖丁解牛分词工具使用教程
fox_wayen
java中文分词java中文分词庖丁解牛
今天想测试一下“庖丁”分词的效果,编写了一个测试小程序,从文件中读入文本,并将分词结果显示到控制台。环境平台:Win7+eclipse过程如下:1.编辑paoding-analysis.jar中的paoding-dic-home.properties文件,去掉“#paoding.dic.home=dic”前面的#号,并将等号后面的dic改为dic文件夹在你本地存放的具体路劲,如:F://works
- 完成了paoding与lucene的集成
allenshi_szl
Nutch&Lucenelucenestringsolrclassinputheader
理解疱丁分词的基本原理,编译原码,用ANT编译E:/workspace/searchengine/paoding-analysis-2.0.4-beta完成了中文分词的solr集成工作,集成到solr中去,注意:1)需要将solr的tomcat的connector改成可接受utf82)需要将php的格式换成utf-8,在头上加header("Content-Type:text/html;chars
- ElasticSearch之mapping分词器选择
小老犇
ElasticSearchelasticsearchik分词器分词器选择默认分词器分词算法
前言市场上分词器,眼花缭乱,让你一脸懵逼。Standard:单字切分法,一个字切分成一个词。CJKAnalyzer:二元切分法,把相邻的两个字,作为一个词.SmartChineseAnalyzer:对中文支持较好,但是扩展性差,针对扩展词库、停用词均不好处理.paoding`:庖丁解牛分词器,没有持续更新,只支持到lucene3.0。mmseg4`:支持Lucene4.10,且在github中有持
- 服务端框架重构心路历程
白羊沈歌
由于公司业务还是使用的paodingrose+jade+resin的技术架构,导致新员工学习成本高,且框架本身已经很多年没人维护了,所以决定迁移至springboot2+mybatis+tomcat.前言以下是我的迁移实践,任何开发一般都是分为三步:写代码、测试、监控。很多程序员,并不关注测试和监控,这就是俗称的“管杀不管埋”,写完代码就认为结束了,默认程序已经好使了,问题全靠接口调用方反馈或者上
- 服务端框架重构心路历程
后端java
由于公司业务还是使用的paodingrose+jade+resin的技术架构,导致新员工学习成本高,且框架本身已经很多年没人维护了,所以决定迁移至springboot2+mybatis+tomcat.前言以下是我的迁移实践,任何开发一般都是分为三步:写代码、测试、监控。很多程序员,并不关注测试和监控,这就是俗称的“管杀不管埋”,写完代码就认为结束了,默认程序已经好使了,问题全靠接口调用方反馈或者上
- 使用paoding lucene分词 ,遇到java.lang.VerifyError: Cannot inherit from final class 问题
倾心_
技术学习
Exceptioninthread"main"java.lang.VerifyError:Cannotinheritfromfinalclassatjava.lang.ClassLoader.defineClass1(NativeMethod)atjava.lang.ClassLoader.defineClass(ClassLoader.java:620)atjava.security.Secur
- Lucene的几种中文分词器的比较
浅夏明媚
lucene
http://blog.csdn.net/chaocy/article/details/5938741对几种中文分析器,从分词准确性和效率两方面进行比较。分析器依次为:StandardAnalyzer、ChineseAnalyzer、CJKAnalyzer、IK_CAnalyzer、MIK_CAnalyzer、MMAnalyzer(JE分词)、PaodingAnalyzer。单纯的中文分词的实现一
- 当前几个主要的Lucene中文分词器的比较
liliang123
1.基本介绍:paoding:Lucene中文分词“庖丁解牛”PaodingAnalysisimdict:imdict智能词典所采用的智能中文分词程序mmseg4j:用Chih-HaoTsai的MMSeg算法实现的中文分词器ik:采用了特有的“正向迭代最细粒度切分算法“,多子处理器分析模式2.开发者及开发活跃度:paoding:qieqie.wang,googlecode上最后一次代码提交:200
- ictclas4j for lucene analyzer,
我是小M的粉丝
关于分词java
版权信息:可以任意转载,转载时请务必以超链接形式标明文章原文出处,即下面的声明.原文出处:http://blog.chenlb.com/2009/01/ictclas4j-for-lucene-analyzer.html在lucene的中文分词域里,有好几个分词选择,有:je、paoding、IK。最近想把ictclas拿来做lucene的中文分词。网上看了下资料,觉得ictclas4j是比较好的
- 修改net-paoding项目的build.gradle文件,使用gradle install发布到本地maven仓库
蓝魔830
java技术
subprojects{applyplugin:'java'applyplugin:'maven'applyplugin:'eclipse'group="net.paoding"version="1.2-SNAPSHOT"sourceCompatibility=1.6[compileJava,compileTestJava]*.options*.encoding='UTF-8'repositori
- 如何在基于Lucene的中文分词器中添加自定义词典(如Paoding、mmseg4j、IK Analyzer)...
Rayping
Lucene
如何在基于Lucene的中文分词器中添加自定义词典(如Paoding、mmseg4j、IKAnalyzer)2013-07-0821:54:29|分类:计算机|字号订阅1.使用Paoding自定义词典参考文章:http://blog.csdn.net/zhangt85/article/details/8067743(1)首先自定义一个XXX.dic的文件,以utf-8保存;(2)将自定义词添加到d
- 配置文件:persistence.xml-----beans.xml----jdbc.properties----log4j.properties---oscache----paoding---struts.config---web.xml
sha_xinyu
org.hibernate.ejb.HibernatePersistence---------------------------------------------------------------cn.xxx.bean.product.ProductInfocn.xxx.bean.product.Brandcn.xxx.bean.product.ProductStylecn.xxx.bean
- java实现搜索引擎,全文检索,超大数据量查询,lucene
Micle
Java技术
java开发过程中有时候会遇到在几百万甚至上千万条数据记录中检索,或者是对服务器硬盘上某个文件夹进行检索。这个时候需要用到lucene了。lucene的开发需要用到以下几个包lucene-core-2.0.0.jar核心包lucene-analyzers-2.2.0.jar分析包lucene-highlighter-2.3.1.jarpaoding-analysis.jar这个包是中科院提供的汉语
- 推荐系统(RS)切入点------微博精准推荐项目(2)
lu_sunshine1234
在上述4种定向中,主要分析基于用户行为的定向和相似用户的定向。基于用户行为的挖掘:(1)基于互动内容的兴趣挖掘:指利用机器学习或文本处理方法提取用户互动微博的文本中的核心词,一般提取核心词的步骤:a.对文本进行分词:分词工具有paoding(一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件)、FudanNLP(一个全新的自然语言处理工具FastN
- 修改net-paoding项目的build.gradle文件,使用gradle install发布到本地maven仓库
游一游走一走
其他日志
subprojects{applyplugin:'java'applyplugin:'maven'applyplugin:'eclipse'group="net.paoding"version="1.2-SNAPSHOT"sourceCompatibility=1.6[compileJava,compileTestJava]*.options*.encoding='UTF-8'repositori
- Python+Lucene
xiaofang168
Python+Lucene(pylucene)+Paoding的安装配置pylucene让Python可以调用LuceneAPI实现搜索,这个项目紧跟Lucene的步调,对用惯了Python的同学来说是个福音。pylucene是通过JCC实现的,JCC读取jar包里的publicclass/method签名,生成C++的包装类,通过JNI(JavaNativeInterface)调用java的cl
- spring boot paoding-rose-jade 数据库读写分离
菜鸟阿达
mysqlspring-bootspring-cloudmysqljava
搭建两个数据库主库和从库如何一台服务器上搭建两台mysql请参考一台服务器,两台mysql编码实现pom.xml[只写了主要依赖]cn.zhangfushengpaoding-rose-jade1.0.3org.apache.commonscommons-dbcp2mysqlmysql-connector-java8.0.18多数据源配置的propertiesimportlombok.Data;i
- 测试庖丁解牛分词工具
小飞侠-2
因为笔者要在MapReduce中进行中文分词解析数据,所以测试了一下庖丁解牛中文分词器(paoding-analysis-2.0.4-beta)。现将使用过程小结:下载地址:http://pan.baidu.com/s/1eQ88SZS个人环境:linux+eclipse使用分为如下几步:1.配置dic文件:修改paoding-analysis.jar中的paoding-dic-home.prop
- eclipse中导入源码出现The declared package does not match the expected package的解决办法
yimi221
java
eclipse用的不熟,今天看lucene3.1,用到paoding分词,但是新版本的paoding只有源码,没有jar包,将源码导入工程的步骤如下:工程右键>BuildPath>ConfigureBuildPath>Source>LinkSource,选择sourcefolder,但是会报Thedeclaredpackagedoesnotmatchtheexpectedpackage的错误,解决
- 分布式搜索Elasticsearch——项目过程(一)
Roger Luo
Elasticsearch
本文描述的是内嵌ES项目的开发,虽嵌入了Paoding分词器,但代码过程中暂未使用,故遇到针对paoding的步骤,可直接跳过。技术描述:ElasticSearch0.20.6+Paoding。技术环境:Eclipse、Maven步骤一:下载并安排ElasticSearch,编写本文章时使用的是0.20.6版本,下载地址为:http://www.elasticsearch.org/download
- Lucene的各中文分词比较
lizzy05
对几种中文分析器,从分词准确性和效率两方面进行比较。分析器依次为:StandardAnalyzer、ChineseAnalyzer、CJKAnalyzer、IK_CAnalyzer、MIK_CAnalyzer、MMAnalyzer(JE分词)、PaodingAnalyzer。单纯的中文分词的实现一般为按字索引或者按词索引。按字索引顾名思义,就是按单个字建立索引。按词索引就是按词喽,根据词库中的词,
- cookie实现保持用户登陆状态
SavantStart
cookie
packagecom.chen.controllers;importjavax.servlet.http.Cookie;importjavax.servlet.http.HttpSession;importcom.sun.org.apache.xerces.internal.impl.dv.util.Base64;importnet.paoding.rose.web.ControllerInter
- 庖丁解牛paoding-analysis分词器 环境配置和使用
zengzhaoshuai
lucene
首先从[url]http://code.google.com/p/paoding[/url]下载paoding-analysis-2.0.4-beta.zip,然后解压到一个目录下[color=red]辞典路径配置:[/color]paoding比较麻烦的是要设置字典的环境变量,一般做法是新建环境变量PAODING_DIC_HOME再加入字典路径(如F:\paoding-analysis\dic)
- 庖丁(Paoding)分词的词典原理解析
yingbin920
搜索
Paoding分词过程中词典是相关重要的一环,其特性主要有:(1)多词典支持,词典功能区分;(2)词典加载入内存使用,使用预加载和LazyMode模式;(3)根据分词模式,对词典进行二次编译;(4)词典变更侦测,当词典文件发生变化时,可以重新加载词典。1.1词典类型庖丁中有多种词典,每一种词典在分词过程中都不有同的意义。主要的词典及其功能如下:(1)VocabularyDictionary:分词主
- Paoding Analyzer 庖丁 解牛 分词
wisdombrave
OPENSOURCE
PaodingAnalyzer庖丁解牛je分词用lucene.中文分词庖丁解牛一般使用使用评估参考资料下载开始使用分词策略效果体验在命令行模式下执行analyzer.bat(windows)或analyzer.sh(linux)即可0u显示帮助E:\Paoding-Analysis>analyzer.bat?u分词对话多次输入或粘贴不同的文字内容,查看分词效果,如:E:\Paoding-Analy
- 在项目中使用paoding分词
wauwa
全文搜索引擎
本文中使用paoding2.0.41.准备工作需要的文件:paoding-analysis.jardicpaoding-analysis.properties2.安装导入将paoding-analysis.jar放到classpath目录下并且导入工程修改paoding-analysis.properties,将paoding.dic.home设置为字典的存放目录。例如,字典放在classpath
- java线程的无限循环和退出
3213213333332132
java
最近想写一个游戏,然后碰到有关线程的问题,网上查了好多资料都没满足。
突然想起了前段时间看的有关线程的视频,于是信手拈来写了一个线程的代码片段。
希望帮助刚学java线程的童鞋
package thread;
import java.text.SimpleDateFormat;
import java.util.Calendar;
import java.util.Date
- tomcat 容器
BlueSkator
tomcatWebservlet
Tomcat的组成部分 1、server
A Server element represents the entire Catalina servlet container. (Singleton) 2、service
service包括多个connector以及一个engine,其职责为处理由connector获得的客户请求。
3、connector
一个connector
- php递归,静态变量,匿名函数使用
dcj3sjt126com
PHP递归函数匿名函数静态变量引用传参
<!doctype html>
<html lang="en">
<head>
<meta charset="utf-8">
<title>Current To-Do List</title>
</head>
<body>
- 属性颜色字体变化
周华华
JavaScript
function changSize(className){
var diva=byId("fot")
diva.className=className;
}
</script>
<style type="text/css">
.max{
background: #900;
color:#039;
- 将properties内容放置到map中
g21121
properties
代码比较简单:
private static Map<Object, Object> map;
private static Properties p;
static {
//读取properties文件
InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
- [简单]拼接字符串
53873039oycg
字符串
工作中遇到需要从Map里面取值拼接字符串的情况,自己写了个,不是很好,欢迎提出更优雅的写法,代码如下:
import java.util.HashMap;
import java.uti
- Struts2学习
云端月影
最近开始关注struts2的新特性,从这个版本开始,Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。
配置文件精简了,的确是简便了开发过程,但是,我们熟悉的配置突然disappear了,真是一下很不适应。跟着潮流走吧,看看该怎样来搞定convention-plugin。
使用Convention插件,你需要将其JAR文件放
- Java新手入门的30个基本概念二
aijuans
java新手java 入门
基本概念: 1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。 2.OOP中最重要的思想是类,类是模板是蓝图,
- jedis 简单使用
antlove
javarediscachecommandjedis
jedis.RedisOperationCollection.java
package jedis;
import org.apache.log4j.Logger;
import redis.clients.jedis.Jedis;
import java.util.List;
import java.util.Map;
import java.util.Set;
pub
- PL/SQL的函数和包体的基础
百合不是茶
PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,,
函数;
函数:PL/SQL中的函数相当于java中的方法;函数有返回值
定义函数的
--输入姓名找到该姓名的年薪
create or re
- Mockito(二)--实例篇
bijian1013
持续集成mockito单元测试
学习了基本知识后,就可以实战了,Mockito的实际使用还是比较麻烦的。因为在实际使用中,最常遇到的就是需要模拟第三方类库的行为。
比如现在有一个类FTPFileTransfer,实现了向FTP传输文件的功能。这个类中使用了a
- 精通Oracle10编程SQL(7)编写控制结构
bijian1013
oracle数据库plsql
/*
*编写控制结构
*/
--条件分支语句
--简单条件判断
DECLARE
v_sal NUMBER(6,2);
BEGIN
select sal into v_sal from emp
where lower(ename)=lower('&name');
if v_sal<2000 then
update emp set
- 【Log4j二】Log4j属性文件配置详解
bit1129
log4j
如下是一个log4j.properties的配置
log4j.rootCategory=INFO, stdout , R
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appe
- java集合排序笔记
白糖_
java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{
private static final long serialVersionUID = -2958090810811192128L;
private int id;
private String nam
- java导致linux负载过高的定位方法
ronin47
定位java进程ID
可以使用top或ps -ef |grep java
![图片描述][1]
根据进程ID找到最消耗资源的java pid
比如第一步找到的进程ID为5431
执行
top -p 5431 -H
![图片描述][2]
打印java栈信息
$ jstack -l 5431 > 5431.log
在栈信息中定位具体问题
将消耗资源的Java PID转
- 给定能随机生成整数1到5的函数,写出能随机生成整数1到7的函数
bylijinnan
函数
import java.util.ArrayList;
import java.util.List;
import java.util.Random;
public class RandNFromRand5 {
/**
题目:给定能随机生成整数1到5的函数,写出能随机生成整数1到7的函数。
解法1:
f(k) = (x0-1)*5^0+(x1-
- PL/SQL Developer保存布局
Kai_Ge
近日由于项目需要,数据库从DB2迁移到ORCAL,因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉,造成了很多麻烦,最主要的就是进入后,左边列表有很多选项,自己删除了一些选项卡,布局很满意了,下次进入后又恢复了以前的布局,很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段:
&n
- [未来战士计划]超能查派[剧透,慎入]
comsci
计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........
虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活....
&nbs
- Google Map API V2
dai_lm
google map
以后如果要开发包含google map的程序就更麻烦咯
http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html
找到篇不错的文章,大家可以参考一下
http://blog.sina.com.cn/s/blog_c2839d410101jahv.html
1. 创建Android工程
由于v2的key需要G
- java数据计算层的几种解决方法2
datamachine
javasql集算器
2、SQL
SQL/SP/JDBC在这里属于一类,这是老牌的数据计算层,性能和灵活性是它的优势。但随着新情况的不断出现,单纯用SQL已经难以满足需求,比如: JAVA开发规模的扩大,数据量的剧增,复杂计算问题的涌现。虽然SQL得高分的指标不多,但都是权重最高的。
成熟度:5星。最成熟的。
- Linux下Telnet的安装与运行
dcj3sjt126com
linuxtelnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的 而不安装telnet服务 如果要使用telnet 就必须先安装相应的软件包 即使安装了软件包 默认的设置telnet 服务也是不运行的 需要手工进行设置 如果是redhat9,则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
- PHP中钩子函数的实现与认识
dcj3sjt126com
PHP
假如有这么一段程序:
function fun(){
fun1();
fun2();
}
首先程序执行完fun1()之后执行fun2()然后fun()结束。
但是,假如我们想对函数做一些变化。比如说,fun是一个解析函数,我们希望后期可以提供丰富的解析函数,而究竟用哪个函数解析,我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。
我们可以在fu
- EOS中的WorkSpace密码修改
蕃薯耀
修改WorkSpace密码
EOS中BPS的WorkSpace密码修改
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
蕃薯耀 201
- SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】
hanqunfeng
SpringSecurity
SpringSecurity的配置相对来说有些复杂,如果是完整的bean配置,则需要配置大量的bean,所以xml配置时使用了命名空间来简化配置,同样,spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity,达到同样减少bean配置的目的,如下:
applicationContex
- ie 9 kendo ui中ajax跨域的问题
jackyrong
AJAX跨域
这两天遇到个问题,kendo ui的datagrid,根据json去读取数据,然后前端通过kendo ui的datagrid去渲染,但很奇怪的是,在ie 10,ie 11,chrome,firefox等浏览器中,同样的程序,
浏览起来是没问题的,但把应用放到公网上的一台服务器,
却发现如下情况:
1) ie 9下,不能出现任何数据,但用IE 9浏览器浏览本机的应用,却没任何问题
- 不要让别人笑你不能成为程序员
lampcy
编程程序员
在经历六个月的编程集训之后,我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。
说实话,我感觉我的脑细胞像被轰炸过一样。
手慢慢地离开键盘,心里很压抑。不禁默默祈祷:一切都会进展顺利的,对吧?至少有些地方我的回答应该是没有遗漏的,是不是?
难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗?
我需要一点点安慰。在自我怀疑,不安全感和脆弱等等像龙卷风一
- 马皇后的贤德
nannan408
马皇后不怕朱元璋的坏脾气,并敢理直气壮地吹耳边风。众所周知,朱元璋不喜欢女人干政,他认为“后妃虽母仪天下,然不可使干政事”,因为“宠之太过,则骄恣犯分,上下失序”,因此还特地命人纂述《女诫》,以示警诫。但马皇后是个例外。
有一次,马皇后问朱元璋道:“如今天下老百姓安居乐业了吗?”朱元璋不高兴地回答:“这不是你应该问的。”马皇后振振有词地回敬道:“陛下是天下之父,
- 选择某个属性值最大的那条记录(不仅仅包含指定属性,而是想要什么属性都可以)
Rainbow702
sqlgroup by最大值max最大的那条记录
好久好久不写SQL了,技能退化严重啊!!!
直入主题:
比如我有一张表,file_info,
它有两个属性(但实际不只,我这里只是作说明用):
file_code, file_version
同一个code可能对应多个version
现在,我想针对每一个code,取得它相关的记录中,version 值 最大的那条记录,
SQL如下:
select
*
- VBScript脚本语言
tntxia
VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。
VB家族语言简介
Visual Basic 6.0
源于BASIC语言。
由微软公司开发的包含协助开发环境的事
- java中枚举类型的使用
xiao1zhao2
javaenum枚举1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量.
1.定义一个简单的枚举类型
public enum Sex {
MAN,
WOMAN
}
枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型.
2.常用方法
静态的values()方