转 lucene3搜索引擎,索引建立搜索排序分页高亮显示, IKAnalyzer分词

直接上代码：

1 public class UserIndexService {
 2
 3 private final Log logger = LogFactory.getLog(UserIndexService. class);
 4 private final String dirPath = "d:/temp/user";
 5
 6 Analyzer analyzer = new IKAnalyzer();
 7 Directory directory = null;
 8 IndexWriter writer = null;
 9 IndexSearcher indexSearcher = null;
10
11 private void confirmDirs() {
12 File indexFile = new File(dirPath);
13 if (!indexFile.exists()) {
14 indexFile.mkdirs();
15 }
16 if (!indexFile.exists() || !indexFile.canWrite()) {
17 if (logger.isDebugEnabled())
18 logger.error("索引文件目录创建失败或不可写入！");
19 }
20 }
21
22 public void init() {
23 confirmDirs();
24 try {
25 File f = new File(dirPath);
26 directory = FSDirectory.open(f);
27
28 } catch (Exception e) {
29 if (logger.isDebugEnabled()) {
30 logger.error("解除索引文件锁定失败！" + e.getCause());
31 }
32 }
33 }
34
35 public void createIndex(List<User> userList) {
36 init();
37 try {
38
39 // 第一个参数是存放索引目录有FSDirectory（存储到磁盘上）和RAMDirectory（存储到内存中），
40 // 第二个参数是使用的分词器，第三个：true，建立全新的索引，false,建立增量索引，第四个是建立的索引的最大长度
41 writer = new IndexWriter(directory, analyzer, true,IndexWriter.MaxFieldLength.LIMITED);
42 writer.setMergeFactor(500);
43 writer.setMaxBufferedDocs(155);
44 writer.setMaxFieldLength(Integer.MAX_VALUE);
45 writeIndex(writer, userList);
46 writer.optimize();
47 writer.close();
48 } catch (IOException e) {
49 // TODO Auto-generated catch block
50 e.printStackTrace();
51 }
52 }
53
54 public List<User> search(String keyword) {
55
56 File indexFile = new File(dirPath);
57 if (!indexFile.exists()) {
58 return null;
59 }
60 Directory dir;
61 try {
62 dir = FSDirectory.open(indexFile);
63 indexSearcher = new IndexSearcher(dir);
64 indexSearcher.setSimilarity( new IKSimilarity());
65 // 单字段查询,单条件查询
66 // Query query = IKQueryParser.parse("userInfo", keyword);
67
68 // 多字段，单条件查询
69 String[] fields = new String[] { "userInfo", "parameter1" };
70 Query query = IKQueryParser.parseMultiField(fields, keyword);
71
72 // 多字体，单条件，多BooleanClause.Occur[] flags ，查询条件的组合方式（Or/And）
73 // BooleanClause.Occur[]数组,它表示多个条件之间的关系,
74 // BooleanClause.Occur.MUST表示 and,
75 // BooleanClause.Occur.MUST_NOT表示not,
76 // BooleanClause.Occur.SHOULD表示or.
77 // String[] fields =new String[]{"userInfo","parameter1"};
78 // BooleanClause.Occur[] flags=new
79 // BooleanClause.Occur[]{BooleanClause.Occur.MUST,BooleanClause.Occur.SHOULD};
80 // Query query = IKQueryParser.parseMultiField(fields,
81 // keyword,flags);
82
83 // // 多Field，多条件查询分析
84 // String[] fields =new String[]{"userInfo","parameter1"};
85 // String[] queries = new String[]{keyword,keyword};
86 // Query query = IKQueryParser.parseMultiField(fields,queries);
87
88 // 多Field,多条件,多Occur 查询
89 // String[] fields =new String[]{"userInfo","parameter1"};
90 // String[] queries = new String[]{keyword,keyword};
91 // BooleanClause.Occur[] flags=new
92 // BooleanClause.Occur[]{BooleanClause.Occur.MUST,BooleanClause.Occur.SHOULD};
93 // Query query =
94 // IKQueryParser.parseMultiField(fields,queries,flags);
95
96 // 搜索相似度最高的20条记录
97 TopDocs topDocs = indexSearcher.search(query, 20);
98 ScoreDoc[] hits = topDocs.scoreDocs;
99 return hitsToQuery(hits, query);
100
101 } catch (IOException e) {
102 // TODO Auto-generated catch block
103 e.printStackTrace();
104 }
105
106 return null;
107 }
108
109 private List<User> hitsToQuery(ScoreDoc[] hits, Query query) {
110 List<User> list = new ArrayList<User>();
111 try {
112 for ( int i = 0; i < hits.length; i++) {
113 User u = new User();
114 Document doc = indexSearcher.doc(hits[i].doc);
115 u.setUserId(Integer.parseInt(doc.get("userId")));
116 u.setUserName(doc.get("userName"));
117 u.setUserAge(Integer.parseInt(doc.get("userAge")));
118 // 高亮设置
119 SimpleHTMLFormatter simpleHtmlFormatter = new SimpleHTMLFormatter(
120 "", "");
121 Highlighter highlighter = new Highlighter(simpleHtmlFormatter,
122 new QueryScorer(query));
123 TokenStream tokenStream = analyzer.tokenStream("text",
124 new StringReader(doc.get("userInfo")));
125 String userInfo = highlighter.getBestFragment(tokenStream, doc
126 .get("userInfo"));
127 if (userInfo != null) {
128 u.setUserInfo(userInfo);
129 } else {
130 u.setUserInfo(doc.get("userInfo"));
131 }
132
133 SimpleHTMLFormatter simpleHtmlFormatter1 = new SimpleHTMLFormatter(
134 "", "");
135 Highlighter highlighter1 = new Highlighter(
136 simpleHtmlFormatter1, new QueryScorer(query));
137 TokenStream tokenStream1 = analyzer.tokenStream("text1",
138 new StringReader(doc.get("parameter1")));
139 String p1 = highlighter1.getBestFragment(tokenStream1, doc
140 .get("parameter1"));
141 if (p1 != null) {
142 u.setParameter1(p1);
143 } else {
144 u.setParameter1(doc.get("parameter1"));
145 }
146
147 u.setParameter2(doc.get("parameter2"));
148 u.setParameter3(doc.get("parameter3"));
149 u.setParameter4(doc.get("parameter4"));
150 list.add(u);
151 }
152
153 indexSearcher.close();
154 return list;
155 } catch (CorruptIndexException e) {
156 // TODO Auto-generated catch block
157 e.printStackTrace();
158 } catch (IOException e) {
159 // TODO Auto-generated catch block
160 e.printStackTrace();
161 } catch (InvalidTokenOffsetsException e) {
162 // TODO Auto-generated catch block
163 e.printStackTrace();
164 }
165 return null;
166 }
167
168 public void writeIndex(IndexWriter writer, List<User> userList) {
169
170 try {
171 for (User u : userList) {
172 Document doc = getDoc(u);
173 writer.addDocument(doc);
174 }
175 } catch (IOException e) {
176 // TODO Auto-generated catch block
177 e.printStackTrace();
178 }
179
180 }
181
182 private Document getDoc(User user) {
183 System.out.println("用户ID 为" + user.getUserId() + " 索引被创建");
184 Document doc = new Document();
185 addField2Doc(doc, user, "userId", Store.YES, Index.NOT_ANALYZED);
186 addField2Doc(doc, user, "userName", Store.YES, Index.NOT_ANALYZED); // Index.NOT_ANALYZED
187 // 不分词，但建立索引
188 addField2Doc(doc, user, "userAge", Store.YES, Index.NOT_ANALYZED); // Index.ANALYZED
189 // 分词并且建立索引
190 addField2Doc(doc, user, "userInfo", Store.YES, Index.ANALYZED);
191 addField2Doc(doc, user, "parameter1", Store.YES, Index.ANALYZED);
192 addField2Doc(doc, user, "parameter2", Store.YES, Index.ANALYZED);
193 addField2Doc(doc, user, "parameter3", Store.YES, Index.ANALYZED);
194 addField2Doc(doc, user, "parameter4", Store.YES, Index.ANALYZED);
195 return doc;
196 }
197
198 private void addField2Doc(Document doc, Object bean, String name, Store s,
199 Index i) {
200 String value;
201 try {
202 value = BeanUtils.getProperty(bean, name);
203 if (value != null) {
204 doc.add( new Field(name, value, s, i,
205 Field.TermVector.WITH_POSITIONS_OFFSETS));
206 }
207 } catch (IllegalAccessException e) {
208 logger.error("get bean property error", e);
209 } catch (InvocationTargetException e) {
210 logger.error("get bean property error", e);
211 } catch (NoSuchMethodException e) {
212 logger.error("get bean property error", e);
213 }

214 }

下面继续：

1 /**
 2 * 没有排序，有高亮，有分页
 3 *
 4 * @param pageNo
 5 * @param pageSize
 6 * @param keyword
 7 * @return
 8 */
 9 public PageBean getPageQuery( int pageNo, int pageSize, String keyword) {
10 List result = new ArrayList();
11 File indexFile = new File(dirPath);
12 if (!indexFile.exists()) {
13 return null;
14 }
15 Directory dir;
16 try {
17 dir = FSDirectory.open(indexFile);
18 indexSearcher = new IndexSearcher(dir);
19 indexSearcher.setSimilarity( new IKSimilarity());
20
21 String[] fields = new String[] { "userInfo", "parameter1" };
22 BooleanClause.Occur[] flags = new BooleanClause.Occur[] {
23 BooleanClause.Occur.MUST, BooleanClause.Occur.SHOULD };
24 Query query = IKQueryParser.parseMultiField(fields, keyword, flags);
25
26 TopScoreDocCollector topCollector = TopScoreDocCollector.create(
27 indexSearcher.maxDoc(), true);
28 indexSearcher.search(query, topCollector);
29 // 查询当页的记录
30 ScoreDoc[] docs = topCollector.topDocs((pageNo - 1) * pageSize,
31 pageSize).scoreDocs;
32
33 // String[] highlightCol = {"userInfo", "parameter1"};
34 // 高亮设置
35 SimpleHTMLFormatter simpleHtmlFormatter = new SimpleHTMLFormatter(
36 "", "");
37 Highlighter highlighter = new Highlighter(simpleHtmlFormatter,
38 new QueryScorer(query));
39
40 for (ScoreDoc scdoc : docs) {
41 User u = new User();
42 Document doc = indexSearcher.doc(scdoc.doc);
43 //
44 // for (Fieldable fa : doc.getFields()) {
45 // System.out.println(fa.name());
46 // String value = doc.get(fa.name());
47 // for (String col : highlightCol) {
48 // if(fa.name().equals(col)) {
49 // // 设置高显内容
50 // TokenStream tokenStream = analyzer.tokenStream("text",new
51 // StringReader(value));
52 // value = highlighter.getBestFragment(tokenStream, value);
53 // }
54 // }
55 //
56 // }
57
58 u.setUserId(Integer.parseInt(doc.get("userId")));
59 u.setUserName(doc.get("userName"));
60 u.setUserAge(Integer.parseInt(doc.get("userAge")));
61
62 TokenStream tokenStream = analyzer.tokenStream("text",
63 new StringReader(doc.get("userInfo")));
64 String userInfo = highlighter.getBestFragment(tokenStream, doc
65 .get("userInfo"));
66 if (userInfo != null) {
67 u.setUserInfo(userInfo);
68 } else {
69 u.setUserInfo(doc.get("userInfo"));
70 }
71
72 TokenStream tokenStream1 = analyzer.tokenStream("text1",
73 new StringReader(doc.get("parameter1")));
74 String p1 = highlighter.getBestFragment(tokenStream1, doc
75 .get("parameter1"));
76 if (p1 != null) {
77 u.setParameter1(p1);
78 } else {
79 u.setParameter1(doc.get("parameter1"));
80 }
81
82 u.setParameter2(doc.get("parameter2"));
83 u.setParameter3(doc.get("parameter3"));
84 u.setParameter4(doc.get("parameter4"));
85 result.add(u);
86
87 }
88 PageBean pb = new PageBean();
89 pb.setCurrentPage(pageNo); // 当前页
90 pb.setPageSize(pageSize);
91 pb.setAllRow(topCollector.getTotalHits()); // hit中的记录数目
92 pb.setList(result);
93 return pb;
94
95 } catch (IOException e) {
96 // TODO Auto-generated catch block
97 e.printStackTrace();
98 } catch (InvalidTokenOffsetsException e) {
99 // TODO Auto-generated catch block
100 e.printStackTrace();
101 }
102
103 return null;

104 }

再来：

1 /**
 2 * 排序，有高亮，有分页
 3 *
 4 * @param pageNo
 5 * @param pageSize
 6 * @param keyword
 7 * @return
 8 */
 9 public PageBean getPageQuery2( int pageNo, int pageSize, String keyword) {
10 List result = new ArrayList();
11 File indexFile = new File(dirPath);
12 if (!indexFile.exists()) {
13 return null;
14 }
15 Directory dir;
16 try {
17 dir = FSDirectory.open(indexFile);
18 indexSearcher = new IndexSearcher(dir);
19 indexSearcher.setSimilarity( new IKSimilarity());
20
21 String[] fields = new String[] { "userInfo", "parameter1" };
22 BooleanClause.Occur[] flags = new BooleanClause.Occur[] {
23 BooleanClause.Occur.MUST, BooleanClause.Occur.SHOULD };
24 Query query = IKQueryParser.parseMultiField(fields, keyword, flags);
25
26 // 多字段排序，设置在前面的会优先排序
27 SortField[] sortFields = new SortField[2];
28 SortField sortField = new SortField("userId", SortField.INT, false); // false升序，true降序
29 SortField FIELD_SEX = new SortField("userAge", SortField.INT, true);
30 sortFields[0] = sortField;
31 sortFields[1] = FIELD_SEX;
32 Sort sort = new Sort(sortFields);
33
34 TopDocs topDocs = indexSearcher.search(query, null, 50, sort);
35
36 if (topDocs.totalHits != 0) {
37 // for(ScoreDoc sd : topDocs.scoreDocs) {
38 //
39 // }
40 // 高亮设置
41 SimpleHTMLFormatter simpleHtmlFormatter = new SimpleHTMLFormatter("", "");
42 Highlighter highlighter = new Highlighter(simpleHtmlFormatter, new QueryScorer(query));
43
44 for ( int i = (pageNo - 1) * pageSize; i < pageSize * pageNo; i++) {
45 ScoreDoc scdoc = topDocs.scoreDocs[i];
46 User u = new User();
47 Document doc = indexSearcher.doc(scdoc.doc);
48 u.setUserId(Integer.parseInt(doc.get("userId")));
49 u.setUserName(doc.get("userName"));
50 u.setUserAge(Integer.parseInt(doc.get("userAge")));
51 TokenStream tokenStream = analyzer.tokenStream("text", new StringReader(doc.get("userInfo")));
52 String userInfo = highlighter.getBestFragment(tokenStream,doc.get("userInfo"));
53 if (userInfo != null) {
54 u.setUserInfo(userInfo);
55 } else {
56 u.setUserInfo(doc.get("userInfo"));
57 }
58
59 TokenStream tokenStream1 = analyzer.tokenStream("text1", new StringReader(doc.get("parameter1")));
60 String p1 = highlighter.getBestFragment(tokenStream1, doc.get("parameter1"));
61 if (p1 != null) {
62 u.setParameter1(p1);
63 } else {
64 u.setParameter1(doc.get("parameter1"));
65 }
66
67 u.setParameter2(doc.get("parameter2"));
68 u.setParameter3(doc.get("parameter3"));
69 u.setParameter4(doc.get("parameter4"));
70 result.add(u);
71
72 }
73 PageBean pb = new PageBean();
74 pb.setCurrentPage(pageNo); // 当前页
75 pb.setPageSize(pageSize);
76 pb.setAllRow(topDocs.totalHits); // hit中的记录数目
77 pb.setList(result);
78 return pb;
79
80 }
81 } catch (IOException e) {
82 // TODO Auto-generated catch block
83 e.printStackTrace();
84 } catch (InvalidTokenOffsetsException e) {
85 // TODO Auto-generated catch block
86 e.printStackTrace();
87 }
88
89 return null;
90 }
91
92 /**
93 * 删除索引
94 * @param userId
95 */
96 public void deleIndex(String userId){
97
98 try {
99 File f = new File(dirPath);
100 directory = FSDirectory.open(f);
101 IndexReader reader = IndexReader.open(directory, false);
102 Term term = new Term("userId", userId);
103 reader.deleteDocuments(term);
104 reader.close();
105 } catch (IOException e) {
106 // TODO Auto-generated catch block
107 e.printStackTrace();
108 }
109
110
111 }
112
113 }
114
115
116 高亮设置集成抽取成一个方法
117
118 public String toHighlighter(Query query,Document doc,String field){
119 try {
120 SimpleHTMLFormatter simpleHtmlFormatter = new SimpleHTMLFormatter("", "");
121 Highlighter highlighter = new Highlighter(simpleHtmlFormatter, new QueryScorer(query));
122 TokenStream tokenStream1 = analyzer.tokenStream("text", new StringReader(doc.get(field)));
123 String highlighterStr = highlighter.getBestFragment(tokenStream1, doc.get(field));
124
125 return highlighterStr == null ? doc.get(field):highlighterStr;
126 } catch (IOException e) {
127 // TODO Auto-generated catch block
128 e.printStackTrace();
129 } catch (InvalidTokenOffsetsException e) {
130 // TODO Auto-generated catch block
131 e.printStackTrace();
132 }
133 return null;

134 }

Java 结合elasticsearch-ik分词器，实现评论的违规词汇脱敏等操作八百码 elasticsearch 大数据搜索引擎
IK分词（IKAnalyzer）是一款基于Java开发的中文分词工具，它结合了词典分词和基于统计的分词方法，旨在为用户提供高效、准确、灵活的中文分词服务。注意：需要自己建立一个敏感词库，然后自己选择方式同步到elasticsearch中，方便比对操作话不多说，直接上后台代码这个依赖是我使用的，可以结合自己的情况自己选择适用版本的相关依赖org.elasticsearchelasticsearcho
Java——ikanalyzer分词·只用自定义词库 weixin_30902251 java 数据库 c/c++
需要包：IKAnalyzer2012_FF_hf1.jarlucene-core-5.5.4.jar需要文件：IKAnalyzer.cfg.xmlext.dicstopword.dic整理好的下载地址：http://download.csdn.net/detail/talkwah/9770635importjava.io.IOException;importjava.io.StringReader
windows安装Elasticsearch后使用ik分词器报错解决办法 qqcoming elasticsearch jenkins 大数据
最近在学习Elasticsearch，安装完成后下载了ik分词器压缩到plugins目录下启动es报错如下：java.security.AccessControlException:accessdenied(“java.io.FilePermission”“D:…\plugins\ik-analyzer\config\IKAnalyzer.cfg.xml”“read”)咋一看以为是es对应的jdk
solr中文分词墨夕晨
创建一个存储位置mkdir-p/usr/local/Ikcd/usr/local/Ikhttps://pan.baidu.com/share/init?surl=P49uuVqT9PubcAHP8onOBw提取码：kcs2把ikanalyzer-solr5文件夹内的jar放入/usr/local/solr/solr-7.7.3/server/solr-webapp/webapp/WEB-INF/l
es-ik分词器的拓展和停用字典 Crhy、Y 大数据 Java SpringCloud elasticsearch 大数据搜索引擎 spring cloud mysql 分布式 tomcat
目录一、分词器一、分词器分词器的作用是什么?创建倒排索引时对文档分词用户搜索时，对输入的内容分词IK分词器有几种模式?ik_smart:智能切分，粗粒度ik_max_word:最细切分，细粒度IK分词器如何拓展词条?如何停用词条?利用config目录的IkAnalyzer.cfg.xml文件添加拓展词典和停用词典在词典中添加拓展词条或者停用词条ik分词器-拓展词库要拓展ik分词器的词库，只需要修改
修改ES IK插件源码，配合MySQL实现词库热更新 LittleMagic
ESIK词库热更新简介在实际工作中，我们经常需要更新ElasticSearch中IKAnalyzer插件的自定义词库，以获得更好的中文分词和搜索效果。在默认情况下，每次更新之后都需要重启ES集群才能生效，极其不方便。因此IKAnalyzer官方也提供了一种热更新的方法，在其GitHub主页上写道：在其源码内部对应的是Monitor类，实现了Runnable接口。我们采用的ES版本是2.3.2，对应
IK分词器源码解析（一）：构造字典树 Tristeza
最近在搞ES，结合了IK分词器，偶然间看到IK的主词典中有27万的词，加上其他的拓展词库差不多也有小一百万了，于是比较好奇IK是如何判断用户输入的词是否在词库中的，于是索性下载了IK的源码读一读，接下来是分词流程的解析。首先先看一下主类，是一个用来测试的类publicclassIKSegmenterTest{staticStringtext="IKAnalyzer是一个结合词典分词和文法分词的中文
es ik 词库添加词语_ElasticSearch学习笔记——ik分词添加词库非流 es ik 词库添加词语
前置条件是安装ik分词，请参考1.在ik分词的config下添加词库文件~/software/apache/elasticsearch-6.2.4/config/analysis-ik$ls|grepmydic.dicmydic.dic内容为我给祖国献石油2.配置词库路径，编辑IKAnalyzer.cfg.xml配置文件，添加新增的词库3.重启es4.测试data.json{"analyzer":
IKAnalyzer2012FF_u1.jar 以及PinYin4J 使用出现的问题 YangFanJ 异常异常处理 solr
1.jar包不存在于maven仓库需要添加到仓库中或者使用本地依赖。org.wltea.ik-analyzerik-analyzer2012FF_u1system${basedir}/src/main/webapp/WEB-INF/lib/IKAnalyzer2012FF_u1.jar-->C:/Users/Administrator/Desktop/ik/IKAnalyzer2012FF_u1.
ik分词和jieba分词哪个好_Jieba&IK Analyzer——分词工具的比较与使用 weixin_39943000 ik分词和jieba分词哪个好
现有的分词工具包概览现有的分词工具包种类繁多，我选取了几个比较常见的开源中文分词工具包进行了简单的调查。有感兴趣的同学可以通过下表中的Giuthub链接进行详细地了解。常见开源的中文分词工具接下来，我具体介绍Jieba和IKAnalyzer的使用。一、jieba的分词使用1、安装jieba安装jieba2、三种分词模式及比较编写代码对“古蜀青铜艺术与蜀绣非遗技艺结合创新的探讨——现代首饰设计”进行
基于IKAnalyzer lucener的中文分词-java版本 zhaoyang66
用到2个jar包，本别是lucene-core和IKAnalyzer-lucene，版本号一定要对应，见pox.xml的版本号我这里用的maven仓库地址是：https://maven.aliyun.com/repository/central和https://maven.aliyun.com/repository/publicpox.xml里面的配置如下：com.jianggujinIKAnal
【Docker】Docker安装Elasticsearch服务的正确方式 Fire Fish Docker docker elasticsearch
文章目录1.什么是Elasticsearch2.Docker安装Elasticsearch2.1确定Elasticsearch的版本2.2.Docker安装Elasticsearch2.3.给Elasticsearch安装中文分词器IKAnalyzer（可选）点击跳转：Docker安装MySQL、Redis、RabbitMQ、Elasticsearch、Nacos等常见服务全套（质量有保证，内容详
IKAnalyzer 添加扩展词库和自定义词赵侠客搜索引擎 ikanalyzer 分词扩展
原文链接http://blog.csdn.net/whzhaochao/article/details/50130605IKanalyzer分词器IK分词器源码位置http://git.oschina.net/wltea/IK-Analyzer-2012FFIKanalyzer源码基本配置如图所示是IKanlyzer加载默认配置的路径项目中配置扩展词库如图所示，当我们导入Ikanlyzerjar包
ik 分词器怎么调用缓存的词库猹里。缓存
IK分词器是一个基于Java实现的中文分词器，它支持在分词时调用缓存的词库。要使用IK分词器调用缓存的词库，你需要完成以下步骤：创建IK分词器实例首先，你需要创建一个IK分词器的实例。可以通过以下代码创建一个IK分词器实例：Analyzeranalyzer=newIKAnalyzer();加载词库接下来，你需要将缓存的词库加载到分词器中。可以使用IKAnalyzer类的setConfig方法来加载
Spring Data Solr搜索引擎的使用 ronybo 分布式系统 Spring Data Solr 搜索引擎索引库域配置
下一节文章目录一、完成Solr环境安装，中文分析器和业务域的配置1.1Solr安装与配置1.1.1什么是Solr1.1.2Solr安装1.1.3中文分析器IKAnalyzer配置1.2入门小Demo1.2.1引入依赖1.2.2配置文件1.2.3@Field注解二、使用SpringDataSolr完成增删改查操作2.1增加2.2修改2.3查询三、完成批量数据导入功能一、完成Solr环境安装，中文分析
无标题文章炮炮_06ac
Ik分词器有的时候，用户搜索的关键字，可能是一句话，不是很规范。所以在Solr中查询出的时候，就需要将用户输入的关键字进行分词。目前有很多优秀的中文分词组件。本篇只以IKAnalyzer分词为例，讲解如何在solr中及集成中文分词，使用IKAnalyzer的原因IK比其他中文分词维护的勤快，和Solr集成也相对容易。具体就不多介绍，这里直接solr集成IK的方法.分词的测试使用curl或者post
2018-11-09 Solr学习笔记(一)-Solr5.5.5服务器搭建详细教程知者半省者无
2018-11-09Solr5.5.5服务器搭建详细教程[TOC]1.solr、jdk、tomcat、IKAnalyzer要求a注意：solr5以上的的标配tomcat8+jdk1.8本教程使用的版本是：solr5:solr-5.5.5tomcat8:apache-tomcat-8.5.35-windows-x64jdk8:jdk-8u181-windows-x64.exeIKAnalyzer:i
ik分词器的拓展 xzm_ es Ik分词器 elasticsearch
注意在IkAnalyzer.xml的同级目录下创建自己的文件并进行编辑例：（每一行为一个词，如果在拓展字典中则是新增词汇，如果在删除字典中，则代表此词不参与分词）奥里给tmd
elasticsearch分词器词库热更新三种方案喜欢粉红的糙汉 elasticsearch jdbc 数据库 java mysql
文章目录一、本地文件读取方式二、远程扩展热更新IK分词三、重写ik源码连接mysql一、本地文件读取方式首先进入elasticsearch目录的plugins目录下，查看目录结构2.进入confg目录下创建文件mydic.dic并添加:“我是中国人”3.打开config目录下IKAnalyzer.cfg.xml配置文件vimIKAnalyzer.cfg.xml修改内容如下：4.保存启动es观察日志
ElasticSearch集群配置IK分词水彩橘子大数据
1、环境介绍操作系统：centos7.9elasticsearch版本：7.13.3IK分词版本：elasticsearch-analysis-ik-7.13.3IK分词下载地址：https://github.com/medcl/elasticsearch-analysis-ik/releases注意：下载分词要和elasticsearch版本对应2、配置自定义字典IKAnalyzer扩展配置my
ES集群添加IK分词器夜月行者 #使用经验 elasticsearch 搜索引擎大数据
ES集群添加IK分词器ES:7.5.0官方文档其实已经够优秀了，毕竟是中文的，这里只给出一些建议。IKAnalyzer.cfg.xml建议放到插件的目录下，要不然有可能会有一些问题{plugins}/elasticsearch-analysis-ik-*/config/IKAnalyzer.cfg.xml提供的http接口要支持head请求locationhttp://xxx.com/xxx.di
ElasticSearch集群小乞丐程序员 elasticsearch lucene 搜索引擎
5.2IK分词器简介IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始，IKAnalyzer已经推出了3个大版本。最初，它是以开源项目Lucene为应用主体的，结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。
IK分词器配置文件讲解以及自定义词库实战 Shaw_Young
1、ik配置文件ik配置文件地址：es/plugins/ik/config目录IKAnalyzer.cfg.xml：用来配置自定义词库main.dic：ik原生内置的中文词库，总共有27万多条，只要是这些单词，都会被分在一起quantifier.dic：放了一些单位相关的词suffix.dic：放了一些后缀surname.dic：中国的姓氏stopword.dic：英文停用词ik原生最重要的两个配
IKSegmenter 分词开发老张 Java java IKSegmenter 分词搜索智能分词
使用IKSegmenter进行字符串的分词操作packagecom.zsoft.test;importjava.io.StringReader;importorg.wltea.analyzer.core.IKSegmenter;importorg.wltea.analyzer.core.Lexeme;/***测试IKAnalyzer分词架构中的独立使用分词方法IKSegmenter*需要加载IKA
ElasticSearch 中文分词器对比阳关彩虹小白马
常用的中文分词器SmartChineseAnalysis：官方提供的中文分词器，不好用。IKAnalyzer：免费开源的java分词器，目前比较流行的中文分词器之一，简单、稳定，想要特别好的效果，需要自行维护词库，支持自定义词典。结巴分词：开源的python分词器，github有对应的java版本，有自行识别新词的功能，支持自定义词典。Ansj中文分词：基于n-Gram+CRF+HMM的中文分词的
Elasticsearch的基本操作 wudl
1.es的集成ik分词1.1ik分词IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始，IKAnalyzer已经推出了3个大版本。最初，它是以开源项目Lucene为应用主体的，结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene
Elasticsearch的IK分词器配置说明 simonsgj
1、IK配置文件ik配置文件地址：es/plugins/ik/config目录下IKAnalyzer.cfg.xml：用来配置自定义词库main.dic：ik原生内置的中文词库，总共有27万多条，只要是这些单词，都会被分在一起quantifier.dic：放了一些单位相关的词suffix.dic：放了一些后缀surname.dic：中国的姓氏stopword.dic：英文停用词2、ik原生最重要的
MapReduce的案列卿恋今生
1、汉字分词工具使用，以及统计每个汉字出现的次数思路：Wordcount—>难点怎么去切分一个词汇：中国很大,很美，很富有。Map---->v:一行文本内容，。“”‘’IKAnalyzer2012_u6_source.jarIKAnalyzer2012_u62、输出每个月平均气温思路：求平均值---->难点：怎么去设定MapOutKey—年份月份作为key3对：Mapper–>Reducer–>–
搜索引擎ES--IK分词器李嘉图呀李嘉图 ElasticSearch 搜索引擎 elasticsearch
目录集成IK分词器扩展词典使用停用词典使用同义词典使用集成IK分词器概要：IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。新版本的IKAnalyzer3.0发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。3.0特性：1）采用了特有的“正向迭代最细粒度切分算法“，具有60万字/秒的高速处理能力。2）采用了多子处理器分析
Elasticsearch安装IK分词器，kibana安装是基本使用，DSL语句入门 strive_day ElasticSearch 环境安装 elasticsearch kibana DSL ik json
文章目录1.安装IK分词器2.Kibana安装和使用2.1ELK概述2.2Kibana下载2.3DSL语句1.安装IK分词器ElasticSearch默认采用的分词器，是单个字分词，效果很差，所以我们需要安装一个更实用的分词器，这里采用IK分词器中文分词器IKAnalyzer3.0发布jar包下载地址：https://github.com/medcl/elasticsearch-analysis-
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep

转 lucene3搜索引擎,索引建立搜索排序分页高亮显示, IKAnalyzer分词

你可能感兴趣的:(IKAnalyzer)