E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
分词器
中文命名实体识别
一、分词介绍http://nlp.stanford.edu/software/segmenter.shtml斯坦福大学的
分词器
,该系统需要JDK1.8+,从上面链接中下载stanford-segmenter
dm_ml
·
2015-11-18 11:00
双数组 实现 Trie
NewSMTH zhjin (sweptAway): 在开发中文
分词器
的时候, 一个高效的词典结构尤其重要。
·
2015-11-13 20:30
trie
mmseg4j 中文分词 for .net版本
1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文
分词器
,并实现 lucene 的
·
2015-11-13 20:40
mmseg4j
搜索中文Solr Analysis And Solr Query -- Solr分析以及查询
今天在这里和大家一起学习一下搜索中文 在应用Solr中文
分词器
IkAnalizer时,查询时其实不会对搜索句语停止切分词
·
2015-11-13 15:40
query
solr4.5配置中文
分词器
mmseg4j
solr4.x虽然提供了
分词器
,但不太适合对中文的分词,给大家推荐一个中文
分词器
mmseg4j mmseg4j的下载地址:https://code.google.com/p/mmseg4j/ 通过以下几步就可以把
·
2015-11-13 13:04
mmseg4j
Solr多核心及
分词器
(IK)配置
Solr多核心及
分词器
(IK)配置 多核心的概念 多核心说白了就是多索引库。
·
2015-11-13 11:47
Solr
Lucene自定义同义词
分词器
1 package com.lucene.util; 2 3 import java.io.Reader; 4 5 import org.apache.lucene.analysis.Analyzer; 6 import org.apache.lucene.analysis.TokenStream; 7 8 import com.chenlb.mmseg4j.D
·
2015-11-13 11:05
Lucene
Lucene 自定义
分词器
1 package com.lucene.util; 2 3 import java.io.Reader; 4 import java.util.Set; 5 6 import org.apache.lucene.analysis.Analyzer; 7 import org.apache.lucene.analysis.LetterTokenizer; 8 im
·
2015-11-13 11:04
Lucene
Solr与tomcat整合,并添加中文
分词器
1.将solr中的example中的solr拷贝到要作为服务器的位置(我当前创建的目录为D:\Develop\solr\home) 2.将相应的solr的web程序也拷贝出来放在相应的目录(我当前创建的目录为D:\Develop\solr\web) 3.修改solr-->home文件夹中的solrconfig.xml设置data的路径 4.设置相应的tomcat的context,并
·
2015-11-13 10:04
tomcat
lucene4入门(2)搜索
还要注意一点,确定
分词器
,因为不同的
分词器
所创建的分词规则不同。上篇我使用的是默认的
分词器
,这里我也先不管
分词器
。为了方便阅读,代码就全部粘上。 1 package com.bing.t
·
2015-11-13 09:26
Lucene
lucene4入门(1)
1.首先去官网download最新的jar包,我下载的是4.5版本的,当然你也可以使用maven来下载, 2.新建项目,并把lucene-core-4.5.1.jar加入到项目中,其他需要的
分词器
等jar
·
2015-11-13 09:25
Lucene
IKanalyzer、ansj_seg、jcseg三种中文
分词器
的实战较量
x64 比赛项目:1、搜索;2、自然语言分析 选手介绍: 1,IKanalyzer IKanalyzer采用的是“正向迭代最细粒度切分算法”,是比较常见而且很容易上手的
分词器
了
·
2015-11-12 20:41
IKAnalyzer
solrcloud和zookeeper的搭建、使用、心得、教训
搜索准确度已经通过改用ansj
分词器
和不断优化的个人词库和停用词库来解决,这是个不断优化的过程,需要长时间的跟进才有明显效果。第二个数据同步问题,其实包括了快捷新建搜索core、搜索性能负
·
2015-11-12 20:40
zookeeper
Lucence.net索引技术 二
一、 Lucene索引创建和优化 [版本2.9.0以上] Lucene索引的创建首先需要取得几个必须的对象: 1、
分词器
//可以采用其他的中文
分词器
StandardAnalyzer
·
2015-11-12 18:20
.net
关于Lucene.net
我这里说的只要是在创建索引和查询索引的时候,
分词器
类型必须要保持一致!!!否则结果不正确会雷死你。
·
2015-11-12 15:23
Lucene
基于神经网络的高性能依存句法分析器
转移动作的判决式汉语依存句法分析器,其Java实现由我移植自LTP的C++代码,并添加了详细的注释,将内部数据结构由哈希表替换为高速的DoubleArrayTrie,分词和词性标注替换为HanLP原生的
分词器
hankcs
·
2015-11-12 14:00
Solr学习(2) Solr4.2.0+IK Analyzer 2012
Solr学习(二) Solr4.2.0+IK Analyzer 2012 开场白: 本章简单讲述如何在solr中配置著名的 IK Analyzer
分词器
。
·
2015-11-12 12:19
Ik Analyzer
howto:solr全文检索配置
配置文件中已配置IK
分词器
, 与
分词器
关联类型为text 除将subject配置为 <uniqueKey>subject</uniqueKey> (必须为solr.StrField
·
2015-11-12 11:01
Solr
howto:IK
分词器
中添加自定义词典
将附件中的IKAnalyzer.cfg.xml内容更改,指向扩展自定义扩展词典的位置 <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">&nbs
·
2015-11-12 11:00
ik分词
Solr4.10.2的IK Analyzer
分词器
配置
下载IK
分词器
地址:http://code.google.com/p/ik-analyzer/downloads/list 下载IK Analyzer2012
·
2015-11-12 10:02
IK
analyzer
Solr分词搜索结果不准确
Solr的schema.xml默认配置分词后条件取 OR 例如:大众1.6T 系统会自动分词为 【大众】 【1.6T】(ps:不同
分词器
分词效果不同)
·
2015-11-12 08:05
Solr
Maven 使用笔记
nbsp;-DgroupId=【groupId】 -DartifactId=【artifactId】 -Dversion=【version】 -Dpackaging=jar 例如我下了一个IK
分词器
想用于项目中
·
2015-11-11 14:11
maven
windows 上配置 solr4.3+中文
分词器
\solr-4.3.0\dist\solr-4.3.0.war to D:\JobsDBSolr\solr-Example\solr-4.3.0\example\solr\* &
·
2015-11-11 13:24
windows
隐马尔可夫模型
去年闲着蛋疼做了个HMM的
分词器
,应好基友@jnduan的要求整理一下忽悠忽悠。
·
2015-11-11 12:22
模型
自己动手写搜索引擎(常搜吧项目展示)(Java、Lucene、hadoop)
下面展示下我的项目,其实用到的都是很Lucene中很基础的知识,以及第三方工具,例如XPDF,Htmlparser,paoding
分词器
.etc 。
·
2015-11-11 11:20
Lucene
paip.lucene 4.3 中文语义搜索最佳实践
paip.lucene 4.3 中文语义搜索最佳实践 首先一个问题是要不要使用lucene 自带的
分词器
...我觉得最好不使用哪自带的
分词器
.效果还凑火,就是不好控制...
·
2015-11-11 11:50
Lucene
Lucene、Compass学习以及与SSH的整合
Hibernate3.2 + Spring2.5 + Compass2.2.0, 一下图片为本次学习中用到的jar包: 图中圈出的jar包为本次学习的主要部分,另外用绿色框圈出的jar包为
分词器
·
2015-11-11 06:51
compass
solr4配置中文
分词器
一共3个步骤 添加分词jar包 在schemal.xml文件中,注册
分词器
类型的fieldType 然后在schemal.xml中的field 中引用一下就OK了 下面开始 修改
·
2015-11-11 05:39
中文分词器
理解装饰模式
Lucene的
分词器
中使用了装饰模式,之前不太理解,今天花点时间消化一下。 定义:装饰模式允许程序动态地将责任附加到对象上。若要扩展功能,装饰者提供了比继承更有弹性的替代方案。
·
2015-11-11 05:47
装饰模式
Lucene.net 2.0 中文分词后语法高亮问题
; //定义多条件搜索分析器 BooleanQuery bquery = new BooleanQuery(); //定义
分词器
·
2015-11-11 01:50
Lucene
原创:CentOS6.4配置solr 4.7.2+IK
分词器
本文原创,转载请注明出处 相关资源下载:http://pan.baidu.com/s/1pJPpiqv 1.首先说明一下 solr是java语言开发的企业级应用服务器,所以你首先安装好jdk,配置好java的运行环境,然后solr提供一套wapapp,类似于一个后台 对外提供服务,所以你也 应该安装好 网站的一个运行环境tomcat,在此掠过。本环境安装的路径如下: &nbs
·
2015-11-10 21:26
centos6.4
ES中的
分词器
一、概念介绍 全文搜索引擎会用某种算法对要建索引的文档进行分析,从文档中提取出若干Token(词元),这些算法称为Tokenizer(
分词器
),这些Token会被进一步处理,比如转成小写等,这些处理算法被称为
m635674608
·
2015-11-10 12:00
Lucene
分词器
,使用中文
分词器
,扩展词库,停用词
停止词:lucene的停止词是无功能意义的词,比如is、a、are、”的”,“得”,“我”等,这些词会在句子中多次出现却无意义,所以在分词的时候需要把这些词过滤掉。 扩展词库:就是不想让哪些词被分开,让他们分成一个词。 同义词:假设有一个电子商务系统,销售书籍,提供了一个搜索引擎,一天,市场部的人要求客户在搜索书籍时,同义词就是比如输入“电子”,除了展示电子相关的书籍,还需要展现“机器”相关的书
m635674608
·
2015-11-10 12:00
lucene
分词器
的原理和学习
全文搜索引擎会用某种算法对要建索引的文档进行分析,从文档中提取出若干Token(词元),这些算法称为Tokenizer(
分词器
),这些Token会被进一步处理,比如转成小写等,这些处理算法被称为TokenFilter
m635674608
·
2015-11-10 12:00
elasticsearch
分词器
配置注意事项
//插件代码 packageorg.elasticsearch.index.analysis; publicclassMMsegAnalysisBinderProcessorextendsAnalysisModule.AnalysisBinderProcessor { publicvoidprocessAnalyzers(AnalysisModule.AnalysisBinderPro
m635674608
·
2015-11-09 10:00
elasticsearch
分词器
配置注意事项
//插件代码 packageorg.elasticsearch.index.analysis; publicclassMMsegAnalysisBinderProcessorextendsAnalysisModule.AnalysisBinderProcessor { publicvoidprocessAnalyzers(AnalysisModule.AnalysisBinderProcesso
m635674608
·
2015-11-09 02:00
elasticsearch
分词
注意
Elasticsearch零停机时间更新索引配置或迁移索引
本文介绍Elasticsearch零宕机时间更新索引配置映射内容的方法,包括字段类型、
分词器
、分片数等。方法原理就是,利用别名机制,给索引配置别名,所有应用程序都通过别名访问索引。
·
2015-11-08 15:14
elasticsearch
2.IKAnalyzer 中文
分词器
配置和使用
一、配置 IKAnalyzer 中文
分词器
配置,简单,超简单。
·
2015-11-08 11:35
IKAnalyzer
elasticsearch文档-analysis
analysis 基本概念 === 全文搜索引擎会用某种算法对要建索引的文档进行分析,从文档中提取出若干Token(词元),这些算法称为Tokenizer(
分词器
),这些Token会被进一步处理
m635674608
·
2015-11-08 00:00
ElasticSearch的ik分词插件开发
ik插件,说白了,就是通过封装ik
分词器
,与ElasticSearch对接,让ElasticSearch能够驱动该
分词器
。那么,具体怎么与ElasticSearch对接呢?
m635674608
·
2015-11-08 00:00
中文
分词器
性能比较
摘要:本篇是本人在Solr的基础上,配置了中文
分词器
,并对其进行的性能测试总结,具体包括使用mmseg4j、IKAnalyzer、Ansj,分别从创建索引效果、创建索引性能、数据搜索效率等方面进行衡量。
m635674608
·
2015-11-07 12:00
Lucene5学习之使用MMSeg4j
分词器
MMSeg4j是一款中文
分词器
,详细介绍如下: 1、mmseg4j用Chih-HaoTsai的MMSeg算法(http://technology.chtsai.org/mmseg/)实现的中文
分词器
m635674608
·
2015-11-06 00:00
SOLR企业搜索平台 二 (分词安装)
http://3961409.blog.51cto.com/3951409/833417 中文
分词器
安装 1)下载
分词器
,下载
·
2015-11-05 09:23
Solr
Lucene.NET打造站内搜索引擎
我使用的是lucene.net的最新版(Lucene.Net-2.9.2),
分词器
采用了盘古分词,效果还不错。用lucene.net做站内搜索无非
·
2015-11-05 08:13
Lucene
elasticsearch 批量入库bulk性能测试
经过测试不同的
分词器
性能不能同。
m635674608
·
2015-11-04 22:00
elasticsearch插件大全
分词插件ComboAnalysisPlugin (作者 OlivierFavre,Yakaz)简介:组合
分词器
,可以把多个
分词器
的结果组合在一起。
kfcman
·
2015-11-04 15:00
Lucene的中文
分词器
IKAnalyzer
分词器
对英文的支持是非常好的。 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写 但是老外写的
分词器
对中文分词一般都是单字分词,分词的效果不好。
·
2015-11-03 22:55
IKAnalyzer
Lucene
分词器
测试
1.代码packagecom.ccy.lucene; importjava.io.IOException; importorg.apache.lucene.analysis.Analyzer; importorg.apache.lucene.analysis.TokenStream; importorg.apache.lucene.analysis.cjk.CJKAnalyzer; impor
caicongyang
·
2015-11-02 22:00
Lucene
IKAnalyzer
analyzer
analyzer
Lucene分词器
ICTCLAS用的字Lucene4.9捆绑
言归正题,在lucene增加自己定义的
分词器
,须要继承Analyzer类。实现createComponents方法
·
2015-11-02 16:40
Lucene
三、Solr多核心及
分词器
(IK)配置
多核心的概念 多核心说白了就是多索引库。也可以理解为多个"数据库表" 说一下使用multicore的真实场景,比若说,产品搜索和会员信息搜索,不使用多核也没问题,这样带来的问题是 indexs文件很多,而且产品的索引文件和会员信息的索引文件混在一起,备份也是个问题。 如果使用了多核,那就很轻松了,产品和会员就可使用不同的URL进行提交了,业务上也很清晰,生成的索引文件也
·
2015-11-02 13:47
Solr
上一页
50
51
52
53
54
55
56
57
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他