itfafa

lucene3搜索引擎,索引建立搜索排序分页高亮显示, IKAnalyzer分词

package com.zjr.service.impl;

 import java.io.File;
 import java.io.IOException;
 import java.io.StringReader;
 import java.lang.reflect.InvocationTargetException;
 import java.util.ArrayList;
 import java.util.List;

 import org.apache.commons.beanutils.BeanUtils;
 import org.apache.commons.logging.Log;
 import org.apache.commons.logging.LogFactory;
 import org.apache.lucene.analysis.Analyzer;
 import org.apache.lucene.analysis.TokenStream;
 import org.apache.lucene.document.Document;
 import org.apache.lucene.document.Field;
 import org.apache.lucene.document.Field.Index;
 import org.apache.lucene.document.Field.Store;
 import org.apache.lucene.index.CorruptIndexException;
 import org.apache.lucene.index.IndexReader;
 import org.apache.lucene.index.IndexWriter;
 import org.apache.lucene.index.Term;
 import org.apache.lucene.search.BooleanClause;
 import org.apache.lucene.search.IndexSearcher;
 import org.apache.lucene.search.Query;
 import org.apache.lucene.search.ScoreDoc;
 import org.apache.lucene.search.Sort;
 import org.apache.lucene.search.SortField;
 import org.apache.lucene.search.TopDocs;
 import org.apache.lucene.search.TopScoreDocCollector;
 import org.apache.lucene.search.highlight.Highlighter;
 import org.apache.lucene.search.highlight.InvalidTokenOffsetsException;
 import org.apache.lucene.search.highlight.QueryScorer;
 import org.apache.lucene.search.highlight.SimpleHTMLFormatter;
 import org.apache.lucene.store.Directory;
 import org.apache.lucene.store.FSDirectory;
 import org.wltea.analyzer.lucene.IKAnalyzer;
 import org.wltea.analyzer.lucene.IKQueryParser;
 import org.wltea.analyzer.lucene.IKSimilarity;

 import com.zjr.model.User;

 public class UserIndexService {

 private final Log logger = LogFactory.getLog(UserIndexService.class);
 private final String dirPath = "d:/temp/user";

 Analyzer analyzer = new IKAnalyzer();
 Directory directory = null;
 IndexWriter writer = null;
 IndexSearcher indexSearcher = null;

 private void confirmDirs() {
 File indexFile = new File(dirPath);
 if (!indexFile.exists()) {
 indexFile.mkdirs();
 }
 if (!indexFile.exists() || !indexFile.canWrite()) {
 if (logger.isDebugEnabled())
 logger.error("索引文件目录创建失败或不可写入！");
 }
 }

 public void init() {
 confirmDirs();
 try {
 File f = new File(dirPath);
 directory = FSDirectory.open(f);

 } catch (Exception e) {
 if (logger.isDebugEnabled()) {
 logger.error("解除索引文件锁定失败！" + e.getCause());
 }
 }
 }

 public void createIndex(List<User> userList) {
 init();
 try {

 // 第一个参数是存放索引目录有FSDirectory（存储到磁盘上）和RAMDirectory（存储到内存中），
 // 第二个参数是使用的分词器，第三个：true，建立全新的索引，false,建立增量索引，第四个是建立的索引的最大长度
 writer = new IndexWriter(directory, analyzer, true,IndexWriter.MaxFieldLength.LIMITED);
 writer.setMergeFactor(500);
 writer.setMaxBufferedDocs(155);
 writer.setMaxFieldLength(Integer.MAX_VALUE);
 writeIndex(writer, userList);
 writer.optimize();
 writer.close();
 } catch (IOException e) {
 // TODO Auto-generated catch block
 e.printStackTrace();
 }
 }

 public List<User> search(String keyword) {

 File indexFile = new File(dirPath);
 if (!indexFile.exists()) {
 return null;
 }
 Directory dir;
 try {
 dir = FSDirectory.open(indexFile);
 indexSearcher = new IndexSearcher(dir);
 indexSearcher.setSimilarity(new IKSimilarity());
 // 单字段查询,单条件查询
 // Query query = IKQueryParser.parse("userInfo", keyword);

 // 多字段，单条件查询
 String[] fields = new String[] { "userInfo", "parameter1" };
 Query query = IKQueryParser.parseMultiField(fields, keyword);

 // 多字体，单条件，多BooleanClause.Occur[] flags ，查询条件的组合方式（Or/And）
 // BooleanClause.Occur[]数组,它表示多个条件之间的关系,
 // BooleanClause.Occur.MUST表示 and,
 // BooleanClause.Occur.MUST_NOT表示not,
 // BooleanClause.Occur.SHOULD表示or.
 // String[] fields =new String[]{"userInfo","parameter1"};
 // BooleanClause.Occur[] flags=new
 // BooleanClause.Occur[]{BooleanClause.Occur.MUST,BooleanClause.Occur.SHOULD};
 // Query query = IKQueryParser.parseMultiField(fields,
 // keyword,flags);

 // //多Field，多条件查询分析
 // String[] fields =new String[]{"userInfo","parameter1"};
 // String[] queries = new String[]{keyword,keyword};
 // Query query = IKQueryParser.parseMultiField(fields,queries);

 // 多Field,多条件,多Occur 查询
 // String[] fields =new String[]{"userInfo","parameter1"};
 // String[] queries = new String[]{keyword,keyword};
 // BooleanClause.Occur[] flags=new
 // BooleanClause.Occur[]{BooleanClause.Occur.MUST,BooleanClause.Occur.SHOULD};
 // Query query =
 // IKQueryParser.parseMultiField(fields,queries,flags);

 // 搜索相似度最高的20条记录
 TopDocs topDocs = indexSearcher.search(query, 20);
 ScoreDoc[] hits = topDocs.scoreDocs;
 return hitsToQuery(hits, query);

 } catch (IOException e) {
 // TODO Auto-generated catch block
 e.printStackTrace();
 }

 return null;
 }

 private List<User> hitsToQuery(ScoreDoc[] hits, Query query) {
 List<User> list = new ArrayList<User>();
 try {
 for (int i = 0; i < hits.length; i++) {
 User u = new User();
 Document doc = indexSearcher.doc(hits[i].doc);
 u.setUserId(Integer.parseInt(doc.get("userId")));
 u.setUserName(doc.get("userName"));
 u.setUserAge(Integer.parseInt(doc.get("userAge")));
 // 高亮设置
 SimpleHTMLFormatter simpleHtmlFormatter = new SimpleHTMLFormatter(
 "", "");
 Highlighter highlighter = new Highlighter(simpleHtmlFormatter,
 new QueryScorer(query));
 TokenStream tokenStream = analyzer.tokenStream("text",
 new StringReader(doc.get("userInfo")));
 String userInfo = highlighter.getBestFragment(tokenStream, doc
 .get("userInfo"));
 if (userInfo != null) {
 u.setUserInfo(userInfo);
 } else {
 u.setUserInfo(doc.get("userInfo"));
 }

 SimpleHTMLFormatter simpleHtmlFormatter1 = new SimpleHTMLFormatter(
 "", "");
 Highlighter highlighter1 = new Highlighter(
 simpleHtmlFormatter1, new QueryScorer(query));
 TokenStream tokenStream1 = analyzer.tokenStream("text1",
 new StringReader(doc.get("parameter1")));
 String p1 = highlighter1.getBestFragment(tokenStream1, doc
 .get("parameter1"));
 if (p1 != null) {
 u.setParameter1(p1);
 } else {
 u.setParameter1(doc.get("parameter1"));
 }

 u.setParameter2(doc.get("parameter2"));
 u.setParameter3(doc.get("parameter3"));
 u.setParameter4(doc.get("parameter4"));
 list.add(u);
 }

 indexSearcher.close();
 return list;
 } catch (CorruptIndexException e) {
 // TODO Auto-generated catch block
 e.printStackTrace();
 } catch (IOException e) {
 // TODO Auto-generated catch block
 e.printStackTrace();
 } catch (InvalidTokenOffsetsException e) {
 // TODO Auto-generated catch block
 e.printStackTrace();
 }
 return null;
 }

 public void writeIndex(IndexWriter writer, List<User> userList) {

 try {
 for (User u : userList) {
 Document doc = getDoc(u);
 writer.addDocument(doc);
 }
 } catch (IOException e) {
 // TODO Auto-generated catch block
 e.printStackTrace();
 }

 }

 private Document getDoc(User user) {
 System.out.println("用户ID 为" + user.getUserId() + " 索引被创建");
 Document doc = new Document();
 addField2Doc(doc, user, "userId", Store.YES, Index.NOT_ANALYZED);
 addField2Doc(doc, user, "userName", Store.YES, Index.NOT_ANALYZED);// Index.NOT_ANALYZED
 // 不分词，但建立索引
 addField2Doc(doc, user, "userAge", Store.YES, Index.NOT_ANALYZED);// Index.ANALYZED
 // 分词并且建立索引
 addField2Doc(doc, user, "userInfo", Store.YES, Index.ANALYZED);
 addField2Doc(doc, user, "parameter1", Store.YES, Index.ANALYZED);
 addField2Doc(doc, user, "parameter2", Store.YES, Index.ANALYZED);
 addField2Doc(doc, user, "parameter3", Store.YES, Index.ANALYZED);
 addField2Doc(doc, user, "parameter4", Store.YES, Index.ANALYZED);
 return doc;
 }

 private void addField2Doc(Document doc, Object bean, String name, Store s,
 Index i) {
 String value;
 try {
 value = BeanUtils.getProperty(bean, name);
 if (value != null) {
 doc.add(new Field(name, value, s, i,
 Field.TermVector.WITH_POSITIONS_OFFSETS));
 }
 } catch (IllegalAccessException e) {
 logger.error("get bean property error", e);
 } catch (InvocationTargetException e) {
 logger.error("get bean property error", e);
 } catch (NoSuchMethodException e) {
 logger.error("get bean property error", e);
 }
 }

 /**
 * 没有排序，有高亮，有分页
 *
 * @param pageNo
 * @param pageSize
 * @param keyword
 * @return
 */
 public PageBean getPageQuery(int pageNo, int pageSize, String keyword) {
 List result = new ArrayList();
 File indexFile = new File(dirPath);
 if (!indexFile.exists()) {
 return null;
 }
 Directory dir;
 try {
 dir = FSDirectory.open(indexFile);
 indexSearcher = new IndexSearcher(dir);
 indexSearcher.setSimilarity(new IKSimilarity());

 String[] fields = new String[] { "userInfo", "parameter1" };
 BooleanClause.Occur[] flags = new BooleanClause.Occur[] {
 BooleanClause.Occur.MUST, BooleanClause.Occur.SHOULD };
 Query query = IKQueryParser.parseMultiField(fields, keyword, flags);

 TopScoreDocCollector topCollector = TopScoreDocCollector.create(
 indexSearcher.maxDoc(), true);
 indexSearcher.search(query, topCollector);
 // 查询当页的记录
 ScoreDoc[] docs = topCollector.topDocs((pageNo - 1) * pageSize,
 pageSize).scoreDocs;

 // String[] highlightCol = {"userInfo", "parameter1"};
 // 高亮设置
 SimpleHTMLFormatter simpleHtmlFormatter = new SimpleHTMLFormatter(
 "", "");
 Highlighter highlighter = new Highlighter(simpleHtmlFormatter,
 new QueryScorer(query));

 for (ScoreDoc scdoc : docs) {
 User u = new User();
 Document doc = indexSearcher.doc(scdoc.doc);
 //
 // for (Fieldable fa : doc.getFields()) {
 // System.out.println(fa.name());
 // String value = doc.get(fa.name());
 // for (String col : highlightCol) {
 // if(fa.name().equals(col)) {
 // //设置高显内容
 // TokenStream tokenStream = analyzer.tokenStream("text",new
 // StringReader(value));
 // value = highlighter.getBestFragment(tokenStream, value);
 // }
 // }
 //
 // }

 u.setUserId(Integer.parseInt(doc.get("userId")));
 u.setUserName(doc.get("userName"));
 u.setUserAge(Integer.parseInt(doc.get("userAge")));

 TokenStream tokenStream = analyzer.tokenStream("text",
 new StringReader(doc.get("userInfo")));
 String userInfo = highlighter.getBestFragment(tokenStream, doc
 .get("userInfo"));
 if (userInfo != null) {
 u.setUserInfo(userInfo);
 } else {
 u.setUserInfo(doc.get("userInfo"));
 }

 TokenStream tokenStream1 = analyzer.tokenStream("text1",
 new StringReader(doc.get("parameter1")));
 String p1 = highlighter.getBestFragment(tokenStream1, doc
 .get("parameter1"));
 if (p1 != null) {
 u.setParameter1(p1);
 } else {
 u.setParameter1(doc.get("parameter1"));
 }

 u.setParameter2(doc.get("parameter2"));
 u.setParameter3(doc.get("parameter3"));
 u.setParameter4(doc.get("parameter4"));
 result.add(u);

 }
 PageBean pb = new PageBean();
 pb.setCurrentPage(pageNo);// 当前页
 pb.setPageSize(pageSize);
 pb.setAllRow(topCollector.getTotalHits());// hit中的记录数目
 pb.setList(result);
 return pb;

 } catch (IOException e) {
 // TODO Auto-generated catch block
 e.printStackTrace();
 } catch (InvalidTokenOffsetsException e) {
 // TODO Auto-generated catch block
 e.printStackTrace();
 }

 return null;
 }

 /**
 * 排序，有高亮，有分页
 *
 * @param pageNo
 * @param pageSize
 * @param keyword
 * @return
 */
 public PageBean getPageQuery2(int pageNo, int pageSize, String keyword) {
 List result = new ArrayList();
 File indexFile = new File(dirPath);
 if (!indexFile.exists()) {
 return null;
 }
 Directory dir;
 try {
 dir = FSDirectory.open(indexFile);
 indexSearcher = new IndexSearcher(dir);
 indexSearcher.setSimilarity(new IKSimilarity());

 String[] fields = new String[] { "userInfo", "parameter1" };
 BooleanClause.Occur[] flags = new BooleanClause.Occur[] {
 BooleanClause.Occur.MUST, BooleanClause.Occur.SHOULD };
 Query query = IKQueryParser.parseMultiField(fields, keyword, flags);

 // 多字段排序，设置在前面的会优先排序
 SortField[] sortFields = new SortField[2];
 SortField sortField = new SortField("userId", SortField.INT, false);//false升序，true降序
 SortField FIELD_SEX = new SortField("userAge", SortField.INT, true);
 sortFields[0] = sortField;
 sortFields[1] = FIELD_SEX;
 Sort sort = new Sort(sortFields);

 TopDocs topDocs = indexSearcher.search(query, null, 50, sort);

 if (topDocs.totalHits != 0) {
 // for(ScoreDoc sd : topDocs.scoreDocs) {
 //
 // }
 // 高亮设置
 SimpleHTMLFormatter simpleHtmlFormatter = new SimpleHTMLFormatter("", "");
 Highlighter highlighter = new Highlighter(simpleHtmlFormatter,new QueryScorer(query));

 for (int i = (pageNo - 1) * pageSize; i < pageSize * pageNo; i++) {
 ScoreDoc scdoc = topDocs.scoreDocs[i];
 User u = new User();
 Document doc = indexSearcher.doc(scdoc.doc);
 u.setUserId(Integer.parseInt(doc.get("userId")));
 u.setUserName(doc.get("userName"));
 u.setUserAge(Integer.parseInt(doc.get("userAge")));
 TokenStream tokenStream = analyzer.tokenStream("text",new StringReader(doc.get("userInfo")));
 String userInfo = highlighter.getBestFragment(tokenStream,doc.get("userInfo"));
 if (userInfo != null) {
 u.setUserInfo(userInfo);
 } else {
 u.setUserInfo(doc.get("userInfo"));
 }

 TokenStream tokenStream1 = analyzer.tokenStream("text1",new StringReader(doc.get("parameter1")));
 String p1 = highlighter.getBestFragment(tokenStream1, doc.get("parameter1"));
 if (p1 != null) {
 u.setParameter1(p1);
 } else {
 u.setParameter1(doc.get("parameter1"));
 }

 u.setParameter2(doc.get("parameter2"));
 u.setParameter3(doc.get("parameter3"));
 u.setParameter4(doc.get("parameter4"));
 result.add(u);

 }
 PageBean pb = new PageBean();
 pb.setCurrentPage(pageNo);// 当前页
 pb.setPageSize(pageSize);
 pb.setAllRow(topDocs.totalHits);// hit中的记录数目
 pb.setList(result);
 return pb;

 }
 } catch (IOException e) {
 // TODO Auto-generated catch block
 e.printStackTrace();
 } catch (InvalidTokenOffsetsException e) {
 // TODO Auto-generated catch block
 e.printStackTrace();
 }

 return null;
 }

 /**
 * 删除索引
 * @param userId
 */
 public void deleIndex(String userId){

 try {
 File f = new File(dirPath);
 directory = FSDirectory.open(f);
 IndexReader reader = IndexReader.open(directory,false);
 Term term = new Term("userId", userId);
 reader.deleteDocuments(term);
 reader.close();
 } catch (IOException e) {
 // TODO Auto-generated catch block
 e.printStackTrace();
 }


 }

 }

Java 结合elasticsearch-ik分词器，实现评论的违规词汇脱敏等操作八百码 elasticsearch 大数据搜索引擎
IK分词（IKAnalyzer）是一款基于Java开发的中文分词工具，它结合了词典分词和基于统计的分词方法，旨在为用户提供高效、准确、灵活的中文分词服务。注意：需要自己建立一个敏感词库，然后自己选择方式同步到elasticsearch中，方便比对操作话不多说，直接上后台代码这个依赖是我使用的，可以结合自己的情况自己选择适用版本的相关依赖org.elasticsearchelasticsearcho
Java——ikanalyzer分词·只用自定义词库 weixin_30902251 java 数据库 c/c++
需要包：IKAnalyzer2012_FF_hf1.jarlucene-core-5.5.4.jar需要文件：IKAnalyzer.cfg.xmlext.dicstopword.dic整理好的下载地址：http://download.csdn.net/detail/talkwah/9770635importjava.io.IOException;importjava.io.StringReader
windows安装Elasticsearch后使用ik分词器报错解决办法 qqcoming elasticsearch jenkins 大数据
最近在学习Elasticsearch，安装完成后下载了ik分词器压缩到plugins目录下启动es报错如下：java.security.AccessControlException:accessdenied(“java.io.FilePermission”“D:…\plugins\ik-analyzer\config\IKAnalyzer.cfg.xml”“read”)咋一看以为是es对应的jdk
solr中文分词墨夕晨
创建一个存储位置mkdir-p/usr/local/Ikcd/usr/local/Ikhttps://pan.baidu.com/share/init?surl=P49uuVqT9PubcAHP8onOBw提取码：kcs2把ikanalyzer-solr5文件夹内的jar放入/usr/local/solr/solr-7.7.3/server/solr-webapp/webapp/WEB-INF/l
es-ik分词器的拓展和停用字典 Crhy、Y 大数据 Java SpringCloud elasticsearch 大数据搜索引擎 spring cloud mysql 分布式 tomcat
目录一、分词器一、分词器分词器的作用是什么?创建倒排索引时对文档分词用户搜索时，对输入的内容分词IK分词器有几种模式?ik_smart:智能切分，粗粒度ik_max_word:最细切分，细粒度IK分词器如何拓展词条?如何停用词条?利用config目录的IkAnalyzer.cfg.xml文件添加拓展词典和停用词典在词典中添加拓展词条或者停用词条ik分词器-拓展词库要拓展ik分词器的词库，只需要修改
修改ES IK插件源码，配合MySQL实现词库热更新 LittleMagic
ESIK词库热更新简介在实际工作中，我们经常需要更新ElasticSearch中IKAnalyzer插件的自定义词库，以获得更好的中文分词和搜索效果。在默认情况下，每次更新之后都需要重启ES集群才能生效，极其不方便。因此IKAnalyzer官方也提供了一种热更新的方法，在其GitHub主页上写道：在其源码内部对应的是Monitor类，实现了Runnable接口。我们采用的ES版本是2.3.2，对应
IK分词器源码解析（一）：构造字典树 Tristeza
最近在搞ES，结合了IK分词器，偶然间看到IK的主词典中有27万的词，加上其他的拓展词库差不多也有小一百万了，于是比较好奇IK是如何判断用户输入的词是否在词库中的，于是索性下载了IK的源码读一读，接下来是分词流程的解析。首先先看一下主类，是一个用来测试的类publicclassIKSegmenterTest{staticStringtext="IKAnalyzer是一个结合词典分词和文法分词的中文
es ik 词库添加词语_ElasticSearch学习笔记——ik分词添加词库非流 es ik 词库添加词语
前置条件是安装ik分词，请参考1.在ik分词的config下添加词库文件~/software/apache/elasticsearch-6.2.4/config/analysis-ik$ls|grepmydic.dicmydic.dic内容为我给祖国献石油2.配置词库路径，编辑IKAnalyzer.cfg.xml配置文件，添加新增的词库3.重启es4.测试data.json{"analyzer":
IKAnalyzer2012FF_u1.jar 以及PinYin4J 使用出现的问题 YangFanJ 异常异常处理 solr
1.jar包不存在于maven仓库需要添加到仓库中或者使用本地依赖。org.wltea.ik-analyzerik-analyzer2012FF_u1system${basedir}/src/main/webapp/WEB-INF/lib/IKAnalyzer2012FF_u1.jar-->C:/Users/Administrator/Desktop/ik/IKAnalyzer2012FF_u1.
ik分词和jieba分词哪个好_Jieba&IK Analyzer——分词工具的比较与使用 weixin_39943000 ik分词和jieba分词哪个好
现有的分词工具包概览现有的分词工具包种类繁多，我选取了几个比较常见的开源中文分词工具包进行了简单的调查。有感兴趣的同学可以通过下表中的Giuthub链接进行详细地了解。常见开源的中文分词工具接下来，我具体介绍Jieba和IKAnalyzer的使用。一、jieba的分词使用1、安装jieba安装jieba2、三种分词模式及比较编写代码对“古蜀青铜艺术与蜀绣非遗技艺结合创新的探讨——现代首饰设计”进行
基于IKAnalyzer lucener的中文分词-java版本 zhaoyang66
用到2个jar包，本别是lucene-core和IKAnalyzer-lucene，版本号一定要对应，见pox.xml的版本号我这里用的maven仓库地址是：https://maven.aliyun.com/repository/central和https://maven.aliyun.com/repository/publicpox.xml里面的配置如下：com.jianggujinIKAnal
【Docker】Docker安装Elasticsearch服务的正确方式 Fire Fish Docker docker elasticsearch
文章目录1.什么是Elasticsearch2.Docker安装Elasticsearch2.1确定Elasticsearch的版本2.2.Docker安装Elasticsearch2.3.给Elasticsearch安装中文分词器IKAnalyzer（可选）点击跳转：Docker安装MySQL、Redis、RabbitMQ、Elasticsearch、Nacos等常见服务全套（质量有保证，内容详
IKAnalyzer 添加扩展词库和自定义词赵侠客搜索引擎 ikanalyzer 分词扩展
原文链接http://blog.csdn.net/whzhaochao/article/details/50130605IKanalyzer分词器IK分词器源码位置http://git.oschina.net/wltea/IK-Analyzer-2012FFIKanalyzer源码基本配置如图所示是IKanlyzer加载默认配置的路径项目中配置扩展词库如图所示，当我们导入Ikanlyzerjar包
ik 分词器怎么调用缓存的词库猹里。缓存
IK分词器是一个基于Java实现的中文分词器，它支持在分词时调用缓存的词库。要使用IK分词器调用缓存的词库，你需要完成以下步骤：创建IK分词器实例首先，你需要创建一个IK分词器的实例。可以通过以下代码创建一个IK分词器实例：Analyzeranalyzer=newIKAnalyzer();加载词库接下来，你需要将缓存的词库加载到分词器中。可以使用IKAnalyzer类的setConfig方法来加载
Spring Data Solr搜索引擎的使用 ronybo 分布式系统 Spring Data Solr 搜索引擎索引库域配置
下一节文章目录一、完成Solr环境安装，中文分析器和业务域的配置1.1Solr安装与配置1.1.1什么是Solr1.1.2Solr安装1.1.3中文分析器IKAnalyzer配置1.2入门小Demo1.2.1引入依赖1.2.2配置文件1.2.3@Field注解二、使用SpringDataSolr完成增删改查操作2.1增加2.2修改2.3查询三、完成批量数据导入功能一、完成Solr环境安装，中文分析
无标题文章炮炮_06ac
Ik分词器有的时候，用户搜索的关键字，可能是一句话，不是很规范。所以在Solr中查询出的时候，就需要将用户输入的关键字进行分词。目前有很多优秀的中文分词组件。本篇只以IKAnalyzer分词为例，讲解如何在solr中及集成中文分词，使用IKAnalyzer的原因IK比其他中文分词维护的勤快，和Solr集成也相对容易。具体就不多介绍，这里直接solr集成IK的方法.分词的测试使用curl或者post
2018-11-09 Solr学习笔记(一)-Solr5.5.5服务器搭建详细教程知者半省者无
2018-11-09Solr5.5.5服务器搭建详细教程[TOC]1.solr、jdk、tomcat、IKAnalyzer要求a注意：solr5以上的的标配tomcat8+jdk1.8本教程使用的版本是：solr5:solr-5.5.5tomcat8:apache-tomcat-8.5.35-windows-x64jdk8:jdk-8u181-windows-x64.exeIKAnalyzer:i
ik分词器的拓展 xzm_ es Ik分词器 elasticsearch
注意在IkAnalyzer.xml的同级目录下创建自己的文件并进行编辑例：（每一行为一个词，如果在拓展字典中则是新增词汇，如果在删除字典中，则代表此词不参与分词）奥里给tmd
elasticsearch分词器词库热更新三种方案喜欢粉红的糙汉 elasticsearch jdbc 数据库 java mysql
文章目录一、本地文件读取方式二、远程扩展热更新IK分词三、重写ik源码连接mysql一、本地文件读取方式首先进入elasticsearch目录的plugins目录下，查看目录结构2.进入confg目录下创建文件mydic.dic并添加:“我是中国人”3.打开config目录下IKAnalyzer.cfg.xml配置文件vimIKAnalyzer.cfg.xml修改内容如下：4.保存启动es观察日志
ElasticSearch集群配置IK分词水彩橘子大数据
1、环境介绍操作系统：centos7.9elasticsearch版本：7.13.3IK分词版本：elasticsearch-analysis-ik-7.13.3IK分词下载地址：https://github.com/medcl/elasticsearch-analysis-ik/releases注意：下载分词要和elasticsearch版本对应2、配置自定义字典IKAnalyzer扩展配置my
ES集群添加IK分词器夜月行者 #使用经验 elasticsearch 搜索引擎大数据
ES集群添加IK分词器ES:7.5.0官方文档其实已经够优秀了，毕竟是中文的，这里只给出一些建议。IKAnalyzer.cfg.xml建议放到插件的目录下，要不然有可能会有一些问题{plugins}/elasticsearch-analysis-ik-*/config/IKAnalyzer.cfg.xml提供的http接口要支持head请求locationhttp://xxx.com/xxx.di
ElasticSearch集群小乞丐程序员 elasticsearch lucene 搜索引擎
5.2IK分词器简介IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始，IKAnalyzer已经推出了3个大版本。最初，它是以开源项目Lucene为应用主体的，结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。
IK分词器配置文件讲解以及自定义词库实战 Shaw_Young
1、ik配置文件ik配置文件地址：es/plugins/ik/config目录IKAnalyzer.cfg.xml：用来配置自定义词库main.dic：ik原生内置的中文词库，总共有27万多条，只要是这些单词，都会被分在一起quantifier.dic：放了一些单位相关的词suffix.dic：放了一些后缀surname.dic：中国的姓氏stopword.dic：英文停用词ik原生最重要的两个配
IKSegmenter 分词开发老张 Java java IKSegmenter 分词搜索智能分词
使用IKSegmenter进行字符串的分词操作packagecom.zsoft.test;importjava.io.StringReader;importorg.wltea.analyzer.core.IKSegmenter;importorg.wltea.analyzer.core.Lexeme;/***测试IKAnalyzer分词架构中的独立使用分词方法IKSegmenter*需要加载IKA
ElasticSearch 中文分词器对比阳关彩虹小白马
常用的中文分词器SmartChineseAnalysis：官方提供的中文分词器，不好用。IKAnalyzer：免费开源的java分词器，目前比较流行的中文分词器之一，简单、稳定，想要特别好的效果，需要自行维护词库，支持自定义词典。结巴分词：开源的python分词器，github有对应的java版本，有自行识别新词的功能，支持自定义词典。Ansj中文分词：基于n-Gram+CRF+HMM的中文分词的
Elasticsearch的基本操作 wudl
1.es的集成ik分词1.1ik分词IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始，IKAnalyzer已经推出了3个大版本。最初，它是以开源项目Lucene为应用主体的，结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene
Elasticsearch的IK分词器配置说明 simonsgj
1、IK配置文件ik配置文件地址：es/plugins/ik/config目录下IKAnalyzer.cfg.xml：用来配置自定义词库main.dic：ik原生内置的中文词库，总共有27万多条，只要是这些单词，都会被分在一起quantifier.dic：放了一些单位相关的词suffix.dic：放了一些后缀surname.dic：中国的姓氏stopword.dic：英文停用词2、ik原生最重要的
MapReduce的案列卿恋今生
1、汉字分词工具使用，以及统计每个汉字出现的次数思路：Wordcount—>难点怎么去切分一个词汇：中国很大,很美，很富有。Map---->v:一行文本内容，。“”‘’IKAnalyzer2012_u6_source.jarIKAnalyzer2012_u62、输出每个月平均气温思路：求平均值---->难点：怎么去设定MapOutKey—年份月份作为key3对：Mapper–>Reducer–>–
搜索引擎ES--IK分词器李嘉图呀李嘉图 ElasticSearch 搜索引擎 elasticsearch
目录集成IK分词器扩展词典使用停用词典使用同义词典使用集成IK分词器概要：IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。新版本的IKAnalyzer3.0发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。3.0特性：1）采用了特有的“正向迭代最细粒度切分算法“，具有60万字/秒的高速处理能力。2）采用了多子处理器分析
Elasticsearch安装IK分词器，kibana安装是基本使用，DSL语句入门 strive_day ElasticSearch 环境安装 elasticsearch kibana DSL ik json
文章目录1.安装IK分词器2.Kibana安装和使用2.1ELK概述2.2Kibana下载2.3DSL语句1.安装IK分词器ElasticSearch默认采用的分词器，是单个字分词，效果很差，所以我们需要安装一个更实用的分词器，这里采用IK分词器中文分词器IKAnalyzer3.0发布jar包下载地址：https://github.com/medcl/elasticsearch-analysis-
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文

lucene3搜索引擎,索引建立搜索排序分页高亮显示, IKAnalyzer分词

你可能感兴趣的:(IKAnalyzer)