IKAnalyzer 源码走读

首先摘抄一段关于IK的特性介绍：

采用了特有的“正向迭代最细粒度切分算法”，具有60万字/秒的高速处理能力。

采用了多子处理器分析模式，支持：英文字母（IP地址、Email、URL）、数字（日期，常用中文数量词，罗马数字，科学计数法），中文词汇（姓名、地名处理）等分词处理。

优化的词典存储，更小的内存占用。支持用户词典扩展定义。

针对Lucene全文检索优化的查询分析器IKQueryParser，采用歧义分析算法优化查询关键字的搜索排列组合，能极大的提高Lucene检索的命中率。

Part1：词典

从上述内容可知，IK是一个基于词典的分词器，首先我们需要了解IK包含哪些词典？如果加载词典？

IK包含哪些词典？

主词典

停用词词典

量词词典

如何加载词典？

IK的词典管理类为Dictionary，单例模式。主要将以文件形式（一行一词）的词典加载到内存。

以上每一类型的词典都是一个DictSegment对象，DictSegment可以理解成树形结构，每一个节点又是一个DictSegment对象。

节点的子节点采用数组（DictSegment[]）或map（Map(Character, DictSegment)）存储，选用标准根据子节点的数量而定。

如果子节点的数量小于等于ARRAY_LENGTH_LIMIT，采用数组存储；

如果子节点的数量大于ARRAY_LENGTH_LIMIT，采用Map存储。

ARRAY_LENGTH_LIMIT默认为3。

这么做的好处是：

子节点多的节点在向下匹配时（find过程），用Map可以保证匹配效率。

子节点不多的节点在向下匹配时，在保证效率的前提下，用数组节约存储空间。

数组匹配实现如下（二分查找）：

int position = Arrays.binarySearch(segmentArray, 0, this.storeSize, keySegment);

其中加载词典的过程如下：

1）加载词典文件

2）遍历词典文件每一行内容（一行一词），将内容进行初处理交给DictSegment进行填充。

初处理：theWord.trim().toLowerCase().toCharArray()

3）DictSegment填充过程

private synchronized void fillSegment(char[] charArray, int begin, int length, int enabled) {

        //获取字典表中的汉字对象

        Character beginChar = new Character(charArray[begin]);

        Character keyChar = charMap.get(beginChar);

        //字典中没有该字，则将其添加入字典

        if (keyChar == null) {

            charMap.put(beginChar, beginChar);

            keyChar = beginChar;

        }



        //搜索当前节点的存储，查询对应keyChar的keyChar，如果没有则创建

        DictSegment ds = lookforSegment(keyChar, enabled);

        if (ds != null) {

            //处理keyChar对应的segment

            if (length > 1) {

                //词元还没有完全加入词典树

                ds.fillSegment(charArray, begin + 1, length - 1, enabled);

            } else if (length == 1) {

                //已经是词元的最后一个char,设置当前节点状态为enabled，

                //enabled=1表明一个完整的词，enabled=0表示从词典中屏蔽当前词

                ds.nodeState = enabled;

            }

        }



    }

/**

     * 查找本节点下对应的keyChar的segment	 * 

     * @param keyChar

     * @param create  =1如果没有找到，则创建新的segment ; =0如果没有找到，不创建，返回null

     * @return

     */

    private DictSegment lookforSegment(Character keyChar, int create) {



        DictSegment ds = null;



        if (this.storeSize <= ARRAY_LENGTH_LIMIT) {

            //获取数组容器，如果数组未创建则创建数组

            DictSegment[] segmentArray = getChildrenArray();

            //搜寻数组

            DictSegment keySegment = new DictSegment(keyChar);

            int position = Arrays.binarySearch(segmentArray, 0, this.storeSize, keySegment);

            if (position >= 0) {

                ds = segmentArray[position];

            }



            //遍历数组后没有找到对应的segment

            if (ds == null && create == 1) {

                ds = keySegment;

                if (this.storeSize < ARRAY_LENGTH_LIMIT) {

                    //数组容量未满，使用数组存储

                    segmentArray[this.storeSize] = ds;

                    //segment数目+1

                    this.storeSize++;

                    Arrays.sort(segmentArray, 0, this.storeSize);



                } else {

                    //数组容量已满，切换Map存储

                    //获取Map容器，如果Map未创建,则创建Map

                    Map<Character, DictSegment> segmentMap = getChildrenMap();

                    //将数组中的segment迁移到Map中

                    migrate(segmentArray, segmentMap);

                    //存储新的segment

                    segmentMap.put(keyChar, ds);

                    //segment数目+1 ，  必须在释放数组前执行storeSize++ ， 确保极端情况下，不会取到空的数组

                    this.storeSize++;

                    //释放当前的数组引用

                    this.childrenArray = null;

                }



            }



        } else {

            //获取Map容器，如果Map未创建,则创建Map

            Map<Character, DictSegment> segmentMap = getChildrenMap();

            //搜索Map

            ds = segmentMap.get(keyChar);

            if (ds == null && create == 1) {

                //构造新的segment

                ds = new DictSegment(keyChar);

                segmentMap.put(keyChar, ds);

                //当前节点存储segment数目+1

                this.storeSize++;

            }

        }



        return ds;

    }

（IK作者注释太全面了，不再做赘述！）　　

举个例子，例如“人民共和国”的存储结构如下图：

IKAnalyzer 源码走读

Part2：分词

IK的分词主类是IKSegmenter，他包括如下重要属性：

Read：待分词内容

Configuration：分词器配置，主要控制是否智能分词，非智能分词能细粒度输出所有可能的分词结果，智能分词能起到一定的消歧作用。

AnalyzerContext：分词器上下文，这是个难点。其中包含了字符串缓冲区、字符串类型数组、缓冲区位置指针、子分词器锁、原始分词结果集合等。

List<ISegment>：分词处理器列表，目前IK有三种类型的分词处理器，如下：

　　CJKSegmenter：中文-日韩文子分词器
　　CN_QuantifierSegmenter：中文数量词子分词器
　　LetterSegmenter：英文字符及阿拉伯数字子分词器

IKArbitrator：分词歧义裁决器

在IKSegment中主要的方法是next()，如下：

/**

     * 分词，获取下一个词元

     * @return Lexeme 词元对象

     * @throws IOException

     */

    public synchronized Lexeme next() throws IOException {

        if (this.context.hasNextResult()) {

            //存在尚未输出的分词结果

            return this.context.getNextLexeme();

        } else {

            /*

             * 从reader中读取数据，填充buffer

             * 如果reader是分次读入buffer的，那么buffer要进行移位处理

             * 移位处理上次读入的但未处理的数据

             */

            int available = context.fillBuffer(this.input);

            if (available <= 0) {

                //reader已经读完

                context.reset();

                return null;



            } else {

                //初始化指针

                context.initCursor();

                do {

                    //遍历子分词器

                    for (ISegmenter segmenter : segmenters) {

                        segmenter.analyze(context);

                    }

                    //字符缓冲区接近读完，需要读入新的字符

                    if (context.needRefillBuffer()) {

                        break;

                    }

                    //向前移动指针

                } while (context.moveCursor());

                //重置子分词器，为下轮循环进行初始化

                for (ISegmenter segmenter : segmenters) {

                    segmenter.reset();

                }

            }

            //对分词进行歧义处理

            this.arbitrator.process(context, this.cfg.useSmart());

            //处理未切分CJK字符

            context.processUnkownCJKChar();

            //记录本次分词的缓冲区位移

            context.markBufferOffset();

            //输出词元

            if (this.context.hasNextResult()) {

                return this.context.getNextLexeme();

            }

            return null;

        }

    }

这个过程主要做3件事：

1）将输入读入缓冲区（AnalyzerContext.fillBuffer()）；

2）移动缓冲区指针，同时对指针所指字符进行处理（进行字符规格化-全角转半角、大写转小写处理）以及类型判断（识别字符类型），将所指字符交由子分词器进行处理；

3）字符缓冲区接近读完时停止移动缓冲区指针，对当前分词器上下文（AnalyzerContext）中的原始分词结果进行歧义消除、处理一些残余字符，为下一次读入缓冲区做准备。最后输出词条。

在这个过程中，一些中间状态都记录在分词器上下文当中，可以理解IK作者当时的设计思路。

在上面next()方法当中，最主要的步骤是调用各个子分词器的analyze()方法，这里重点介绍CJKSegmenter，如下：

public void analyze(AnalyzeContext context) {

        if (CharacterUtil.CHAR_USELESS != context.getCurrentCharType()) {



            //优先处理tmpHits中的hit

            if (!this.tmpHits.isEmpty()) {

                //处理词段队列

                Hit[] tmpArray = this.tmpHits.toArray(new Hit[this.tmpHits.size()]);

                for (Hit hit : tmpArray) {

                    hit = Dictionary.getSingleton().matchWithHit(context.getSegmentBuff(),

                        context.getCursor(), hit);

                    if (hit.isMatch()) {

                        //输出当前的词

                        Lexeme newLexeme = new Lexeme(context.getBufferOffset(), hit.getBegin(),

                            context.getCursor() - hit.getBegin() + 1, Lexeme.TYPE_CNWORD);

                        context.addLexeme(newLexeme);



                        if (!hit.isPrefix()) {//不是词前缀，hit不需要继续匹配，移除

                            this.tmpHits.remove(hit);

                        }



                    } else if (hit.isUnmatch()) {

                        //hit不是词，移除

                        this.tmpHits.remove(hit);

                    }

                }

            }



            //*********************************

            //再对当前指针位置的字符进行单字匹配

            Hit singleCharHit = Dictionary.getSingleton().matchInMainDict(context.getSegmentBuff(),

                context.getCursor(), 1);

            if (singleCharHit.isMatch()) {//首字成词

                //输出当前的词

                Lexeme newLexeme = new Lexeme(context.getBufferOffset(), context.getCursor(), 1,

                    Lexeme.TYPE_CNWORD);

                context.addLexeme(newLexeme);



                //同时也是词前缀

                if (singleCharHit.isPrefix()) {

                    //前缀匹配则放入hit列表

                    this.tmpHits.add(singleCharHit);

                }

            } else if (singleCharHit.isPrefix()) {//首字为词前缀

                //前缀匹配则放入hit列表

                this.tmpHits.add(singleCharHit);

            }



        } else {

            //遇到CHAR_USELESS字符

            //清空队列

            this.tmpHits.clear();

        }



        //判断缓冲区是否已经读完

        if (context.isBufferConsumed()) {

            //清空队列

            this.tmpHits.clear();

        }



        //判断是否锁定缓冲区

        if (this.tmpHits.size() == 0) {

            context.unlockBuffer(SEGMENTER_NAME);



        } else {

            context.lockBuffer(SEGMENTER_NAME);

        }

    }

这里需要注意tmpHits，在匹配的过程中属于前缀匹配的临时放入tmpHits，hit中记录词典匹配过程中当前匹配到的词典分支节点，可以继续匹配。

在遍历tmpHits的过程中，如果不是前缀词（全匹配）、或者不匹配则从tmpHits中移除。遇到遇到CHAR_USELESS字符、或者缓冲队列已经读完，则清空tmpHits。

是否匹配由DictSegment的match()方法决定。

（时时刻刻想想那棵字典树！）

什么时候上下文会收集临时词条呢？

1）首字成词的情况（如果首字还是前缀词，同时加入tmpHits，待后继处理）

2）在遍历tmpHits的过程中如果“全匹配”，也会加入临时词条。

下面再了解下match()方法，如下：

/**

     * 匹配词段

     * @param charArray

     * @param begin

     * @param length

     * @param searchHit

     * @return Hit 

     */

    Hit match(char[] charArray, int begin, int length, Hit searchHit) {



        if (searchHit == null) {

            //如果hit为空，新建

            searchHit = new Hit();

            //设置hit的其实文本位置

            searchHit.setBegin(begin);

        } else {

            //否则要将HIT状态重置

            searchHit.setUnmatch();

        }

        //设置hit的当前处理位置

        searchHit.setEnd(begin);



        Character keyChar = new Character(charArray[begin]);

        DictSegment ds = null;



        //引用实例变量为本地变量，避免查询时遇到更新的同步问题

        DictSegment[] segmentArray = this.childrenArray;

        Map<Character, DictSegment> segmentMap = this.childrenMap;



        //STEP1 在节点中查找keyChar对应的DictSegment

        if (segmentArray != null) {

            //在数组中查找

            DictSegment keySegment = new DictSegment(keyChar);

            int position = Arrays.binarySearch(segmentArray, 0, this.storeSize, keySegment);

            if (position >= 0) {

                ds = segmentArray[position];

            }



        } else if (segmentMap != null) {

            //在map中查找

            ds = segmentMap.get(keyChar);

        }



        //STEP2 找到DictSegment，判断词的匹配状态，是否继续递归，还是返回结果

        if (ds != null) {

            if (length > 1) {

                //词未匹配完，继续往下搜索

                return ds.match(charArray, begin + 1, length - 1, searchHit);

            } else if (length == 1) {



                //搜索最后一个char

                if (ds.nodeState == 1) {

                    //添加HIT状态为完全匹配

                    searchHit.setMatch();

                }

                if (ds.hasNextNode()) {

                    //添加HIT状态为前缀匹配

                    searchHit.setPrefix();

                    //记录当前位置的DictSegment

                    searchHit.setMatchedDictSegment(ds);

                }

                return searchHit;

            }



        }

        //STEP3 没有找到DictSegment， 将HIT设置为不匹配

        return searchHit;

    }

注意hit几个状态的判断：

//Hit不匹配
private static final int UNMATCH = 0x00000000;
//Hit完全匹配
private static final int MATCH = 0x00000001;
//Hit前缀匹配
private static final int PREFIX = 0x00000010;

在进入match方法时，hit都会被重置为unMatch，然后根据Character获取子节点集合的节点。

如果节点为NULL，hit状态就是unMatch。

如果节点存在，且nodeState为1，hit状态就是match，

同时还要判断节点的子节点数量是否大于0，如果大于0，hit状态还是prefix。

（时时刻刻想想那棵字典树！）

对一次buffer处理完后，需要对上下文中的临时分词结果进行消歧处理（具体下文再分析）、词条输出。

在词条输出的过程中，需要判断每一个词条是否match停用词表，如果match则抛弃该词条。

Part3：消歧

稍等！

Java 结合elasticsearch-ik分词器，实现评论的违规词汇脱敏等操作八百码 elasticsearch 大数据搜索引擎
IK分词（IKAnalyzer）是一款基于Java开发的中文分词工具，它结合了词典分词和基于统计的分词方法，旨在为用户提供高效、准确、灵活的中文分词服务。注意：需要自己建立一个敏感词库，然后自己选择方式同步到elasticsearch中，方便比对操作话不多说，直接上后台代码这个依赖是我使用的，可以结合自己的情况自己选择适用版本的相关依赖org.elasticsearchelasticsearcho
Java——ikanalyzer分词·只用自定义词库 weixin_30902251 java 数据库 c/c++
需要包：IKAnalyzer2012_FF_hf1.jarlucene-core-5.5.4.jar需要文件：IKAnalyzer.cfg.xmlext.dicstopword.dic整理好的下载地址：http://download.csdn.net/detail/talkwah/9770635importjava.io.IOException;importjava.io.StringReader
windows安装Elasticsearch后使用ik分词器报错解决办法 qqcoming elasticsearch jenkins 大数据
最近在学习Elasticsearch，安装完成后下载了ik分词器压缩到plugins目录下启动es报错如下：java.security.AccessControlException:accessdenied(“java.io.FilePermission”“D:…\plugins\ik-analyzer\config\IKAnalyzer.cfg.xml”“read”)咋一看以为是es对应的jdk
solr中文分词墨夕晨
创建一个存储位置mkdir-p/usr/local/Ikcd/usr/local/Ikhttps://pan.baidu.com/share/init?surl=P49uuVqT9PubcAHP8onOBw提取码：kcs2把ikanalyzer-solr5文件夹内的jar放入/usr/local/solr/solr-7.7.3/server/solr-webapp/webapp/WEB-INF/l
es-ik分词器的拓展和停用字典 Crhy、Y 大数据 Java SpringCloud elasticsearch 大数据搜索引擎 spring cloud mysql 分布式 tomcat
目录一、分词器一、分词器分词器的作用是什么?创建倒排索引时对文档分词用户搜索时，对输入的内容分词IK分词器有几种模式?ik_smart:智能切分，粗粒度ik_max_word:最细切分，细粒度IK分词器如何拓展词条?如何停用词条?利用config目录的IkAnalyzer.cfg.xml文件添加拓展词典和停用词典在词典中添加拓展词条或者停用词条ik分词器-拓展词库要拓展ik分词器的词库，只需要修改
修改ES IK插件源码，配合MySQL实现词库热更新 LittleMagic
ESIK词库热更新简介在实际工作中，我们经常需要更新ElasticSearch中IKAnalyzer插件的自定义词库，以获得更好的中文分词和搜索效果。在默认情况下，每次更新之后都需要重启ES集群才能生效，极其不方便。因此IKAnalyzer官方也提供了一种热更新的方法，在其GitHub主页上写道：在其源码内部对应的是Monitor类，实现了Runnable接口。我们采用的ES版本是2.3.2，对应
IK分词器源码解析（一）：构造字典树 Tristeza
最近在搞ES，结合了IK分词器，偶然间看到IK的主词典中有27万的词，加上其他的拓展词库差不多也有小一百万了，于是比较好奇IK是如何判断用户输入的词是否在词库中的，于是索性下载了IK的源码读一读，接下来是分词流程的解析。首先先看一下主类，是一个用来测试的类publicclassIKSegmenterTest{staticStringtext="IKAnalyzer是一个结合词典分词和文法分词的中文
es ik 词库添加词语_ElasticSearch学习笔记——ik分词添加词库非流 es ik 词库添加词语
前置条件是安装ik分词，请参考1.在ik分词的config下添加词库文件~/software/apache/elasticsearch-6.2.4/config/analysis-ik$ls|grepmydic.dicmydic.dic内容为我给祖国献石油2.配置词库路径，编辑IKAnalyzer.cfg.xml配置文件，添加新增的词库3.重启es4.测试data.json{"analyzer":
IKAnalyzer2012FF_u1.jar 以及PinYin4J 使用出现的问题 YangFanJ 异常异常处理 solr
1.jar包不存在于maven仓库需要添加到仓库中或者使用本地依赖。org.wltea.ik-analyzerik-analyzer2012FF_u1system${basedir}/src/main/webapp/WEB-INF/lib/IKAnalyzer2012FF_u1.jar-->C:/Users/Administrator/Desktop/ik/IKAnalyzer2012FF_u1.
ik分词和jieba分词哪个好_Jieba&IK Analyzer——分词工具的比较与使用 weixin_39943000 ik分词和jieba分词哪个好
现有的分词工具包概览现有的分词工具包种类繁多，我选取了几个比较常见的开源中文分词工具包进行了简单的调查。有感兴趣的同学可以通过下表中的Giuthub链接进行详细地了解。常见开源的中文分词工具接下来，我具体介绍Jieba和IKAnalyzer的使用。一、jieba的分词使用1、安装jieba安装jieba2、三种分词模式及比较编写代码对“古蜀青铜艺术与蜀绣非遗技艺结合创新的探讨——现代首饰设计”进行
基于IKAnalyzer lucener的中文分词-java版本 zhaoyang66
用到2个jar包，本别是lucene-core和IKAnalyzer-lucene，版本号一定要对应，见pox.xml的版本号我这里用的maven仓库地址是：https://maven.aliyun.com/repository/central和https://maven.aliyun.com/repository/publicpox.xml里面的配置如下：com.jianggujinIKAnal
【Docker】Docker安装Elasticsearch服务的正确方式 Fire Fish Docker docker elasticsearch
文章目录1.什么是Elasticsearch2.Docker安装Elasticsearch2.1确定Elasticsearch的版本2.2.Docker安装Elasticsearch2.3.给Elasticsearch安装中文分词器IKAnalyzer（可选）点击跳转：Docker安装MySQL、Redis、RabbitMQ、Elasticsearch、Nacos等常见服务全套（质量有保证，内容详
IKAnalyzer 添加扩展词库和自定义词赵侠客搜索引擎 ikanalyzer 分词扩展
原文链接http://blog.csdn.net/whzhaochao/article/details/50130605IKanalyzer分词器IK分词器源码位置http://git.oschina.net/wltea/IK-Analyzer-2012FFIKanalyzer源码基本配置如图所示是IKanlyzer加载默认配置的路径项目中配置扩展词库如图所示，当我们导入Ikanlyzerjar包
ik 分词器怎么调用缓存的词库猹里。缓存
IK分词器是一个基于Java实现的中文分词器，它支持在分词时调用缓存的词库。要使用IK分词器调用缓存的词库，你需要完成以下步骤：创建IK分词器实例首先，你需要创建一个IK分词器的实例。可以通过以下代码创建一个IK分词器实例：Analyzeranalyzer=newIKAnalyzer();加载词库接下来，你需要将缓存的词库加载到分词器中。可以使用IKAnalyzer类的setConfig方法来加载
Spring Data Solr搜索引擎的使用 ronybo 分布式系统 Spring Data Solr 搜索引擎索引库域配置
下一节文章目录一、完成Solr环境安装，中文分析器和业务域的配置1.1Solr安装与配置1.1.1什么是Solr1.1.2Solr安装1.1.3中文分析器IKAnalyzer配置1.2入门小Demo1.2.1引入依赖1.2.2配置文件1.2.3@Field注解二、使用SpringDataSolr完成增删改查操作2.1增加2.2修改2.3查询三、完成批量数据导入功能一、完成Solr环境安装，中文分析
无标题文章炮炮_06ac
Ik分词器有的时候，用户搜索的关键字，可能是一句话，不是很规范。所以在Solr中查询出的时候，就需要将用户输入的关键字进行分词。目前有很多优秀的中文分词组件。本篇只以IKAnalyzer分词为例，讲解如何在solr中及集成中文分词，使用IKAnalyzer的原因IK比其他中文分词维护的勤快，和Solr集成也相对容易。具体就不多介绍，这里直接solr集成IK的方法.分词的测试使用curl或者post
2018-11-09 Solr学习笔记(一)-Solr5.5.5服务器搭建详细教程知者半省者无
2018-11-09Solr5.5.5服务器搭建详细教程[TOC]1.solr、jdk、tomcat、IKAnalyzer要求a注意：solr5以上的的标配tomcat8+jdk1.8本教程使用的版本是：solr5:solr-5.5.5tomcat8:apache-tomcat-8.5.35-windows-x64jdk8:jdk-8u181-windows-x64.exeIKAnalyzer:i
ik分词器的拓展 xzm_ es Ik分词器 elasticsearch
注意在IkAnalyzer.xml的同级目录下创建自己的文件并进行编辑例：（每一行为一个词，如果在拓展字典中则是新增词汇，如果在删除字典中，则代表此词不参与分词）奥里给tmd
elasticsearch分词器词库热更新三种方案喜欢粉红的糙汉 elasticsearch jdbc 数据库 java mysql
文章目录一、本地文件读取方式二、远程扩展热更新IK分词三、重写ik源码连接mysql一、本地文件读取方式首先进入elasticsearch目录的plugins目录下，查看目录结构2.进入confg目录下创建文件mydic.dic并添加:“我是中国人”3.打开config目录下IKAnalyzer.cfg.xml配置文件vimIKAnalyzer.cfg.xml修改内容如下：4.保存启动es观察日志
ElasticSearch集群配置IK分词水彩橘子大数据
1、环境介绍操作系统：centos7.9elasticsearch版本：7.13.3IK分词版本：elasticsearch-analysis-ik-7.13.3IK分词下载地址：https://github.com/medcl/elasticsearch-analysis-ik/releases注意：下载分词要和elasticsearch版本对应2、配置自定义字典IKAnalyzer扩展配置my
ES集群添加IK分词器夜月行者 #使用经验 elasticsearch 搜索引擎大数据
ES集群添加IK分词器ES:7.5.0官方文档其实已经够优秀了，毕竟是中文的，这里只给出一些建议。IKAnalyzer.cfg.xml建议放到插件的目录下，要不然有可能会有一些问题{plugins}/elasticsearch-analysis-ik-*/config/IKAnalyzer.cfg.xml提供的http接口要支持head请求locationhttp://xxx.com/xxx.di
ElasticSearch集群小乞丐程序员 elasticsearch lucene 搜索引擎
5.2IK分词器简介IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始，IKAnalyzer已经推出了3个大版本。最初，它是以开源项目Lucene为应用主体的，结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。
IK分词器配置文件讲解以及自定义词库实战 Shaw_Young
1、ik配置文件ik配置文件地址：es/plugins/ik/config目录IKAnalyzer.cfg.xml：用来配置自定义词库main.dic：ik原生内置的中文词库，总共有27万多条，只要是这些单词，都会被分在一起quantifier.dic：放了一些单位相关的词suffix.dic：放了一些后缀surname.dic：中国的姓氏stopword.dic：英文停用词ik原生最重要的两个配
IKSegmenter 分词开发老张 Java java IKSegmenter 分词搜索智能分词
使用IKSegmenter进行字符串的分词操作packagecom.zsoft.test;importjava.io.StringReader;importorg.wltea.analyzer.core.IKSegmenter;importorg.wltea.analyzer.core.Lexeme;/***测试IKAnalyzer分词架构中的独立使用分词方法IKSegmenter*需要加载IKA
ElasticSearch 中文分词器对比阳关彩虹小白马
常用的中文分词器SmartChineseAnalysis：官方提供的中文分词器，不好用。IKAnalyzer：免费开源的java分词器，目前比较流行的中文分词器之一，简单、稳定，想要特别好的效果，需要自行维护词库，支持自定义词典。结巴分词：开源的python分词器，github有对应的java版本，有自行识别新词的功能，支持自定义词典。Ansj中文分词：基于n-Gram+CRF+HMM的中文分词的
Elasticsearch的基本操作 wudl
1.es的集成ik分词1.1ik分词IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始，IKAnalyzer已经推出了3个大版本。最初，它是以开源项目Lucene为应用主体的，结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene
Elasticsearch的IK分词器配置说明 simonsgj
1、IK配置文件ik配置文件地址：es/plugins/ik/config目录下IKAnalyzer.cfg.xml：用来配置自定义词库main.dic：ik原生内置的中文词库，总共有27万多条，只要是这些单词，都会被分在一起quantifier.dic：放了一些单位相关的词suffix.dic：放了一些后缀surname.dic：中国的姓氏stopword.dic：英文停用词2、ik原生最重要的
MapReduce的案列卿恋今生
1、汉字分词工具使用，以及统计每个汉字出现的次数思路：Wordcount—>难点怎么去切分一个词汇：中国很大,很美，很富有。Map---->v:一行文本内容，。“”‘’IKAnalyzer2012_u6_source.jarIKAnalyzer2012_u62、输出每个月平均气温思路：求平均值---->难点：怎么去设定MapOutKey—年份月份作为key3对：Mapper–>Reducer–>–
搜索引擎ES--IK分词器李嘉图呀李嘉图 ElasticSearch 搜索引擎 elasticsearch
目录集成IK分词器扩展词典使用停用词典使用同义词典使用集成IK分词器概要：IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。新版本的IKAnalyzer3.0发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。3.0特性：1）采用了特有的“正向迭代最细粒度切分算法“，具有60万字/秒的高速处理能力。2）采用了多子处理器分析
Elasticsearch安装IK分词器，kibana安装是基本使用，DSL语句入门 strive_day ElasticSearch 环境安装 elasticsearch kibana DSL ik json
文章目录1.安装IK分词器2.Kibana安装和使用2.1ELK概述2.2Kibana下载2.3DSL语句1.安装IK分词器ElasticSearch默认采用的分词器，是单个字分词，效果很差，所以我们需要安装一个更实用的分词器，这里采用IK分词器中文分词器IKAnalyzer3.0发布jar包下载地址：https://github.com/medcl/elasticsearch-analysis-
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><

IKAnalyzer 源码走读

Part1：词典

Part2：分词

Part3：消歧

你可能感兴趣的:(IKAnalyzer)