- Java 结合elasticsearch-ik分词器,实现评论的违规词汇脱敏等操作
八百码
elasticsearch大数据搜索引擎
IK分词(IKAnalyzer)是一款基于Java开发的中文分词工具,它结合了词典分词和基于统计的分词方法,旨在为用户提供高效、准确、灵活的中文分词服务。注意:需要自己建立一个敏感词库,然后自己选择方式同步到elasticsearch中,方便比对操作话不多说,直接上后台代码这个依赖是我使用的,可以结合自己的情况自己选择适用版本的相关依赖org.elasticsearchelasticsearcho
- Java——ikanalyzer分词·只用自定义词库
weixin_30902251
java数据库c/c++
需要包:IKAnalyzer2012_FF_hf1.jarlucene-core-5.5.4.jar需要文件:IKAnalyzer.cfg.xmlext.dicstopword.dic整理好的下载地址:http://download.csdn.net/detail/talkwah/9770635importjava.io.IOException;importjava.io.StringReader
- windows安装Elasticsearch后使用ik分词器报错解决办法
qqcoming
elasticsearchjenkins大数据
最近在学习Elasticsearch,安装完成后下载了ik分词器压缩到plugins目录下启动es报错如下:java.security.AccessControlException:accessdenied(“java.io.FilePermission”“D:…\plugins\ik-analyzer\config\IKAnalyzer.cfg.xml”“read”)咋一看以为是es对应的jdk
- solr中文分词
墨夕晨
创建一个存储位置mkdir-p/usr/local/Ikcd/usr/local/Ikhttps://pan.baidu.com/share/init?surl=P49uuVqT9PubcAHP8onOBw提取码:kcs2把ikanalyzer-solr5文件夹内的jar放入/usr/local/solr/solr-7.7.3/server/solr-webapp/webapp/WEB-INF/l
- es-ik分词器的拓展和停用字典
Crhy、Y
大数据JavaSpringCloudelasticsearch大数据搜索引擎springcloudmysql分布式tomcat
目录一、分词器一、分词器分词器的作用是什么?创建倒排索引时对文档分词用户搜索时,对输入的内容分词IK分词器有几种模式?ik_smart:智能切分,粗粒度ik_max_word:最细切分,细粒度IK分词器如何拓展词条?如何停用词条?利用config目录的IkAnalyzer.cfg.xml文件添加拓展词典和停用词典在词典中添加拓展词条或者停用词条ik分词器-拓展词库要拓展ik分词器的词库,只需要修改
- 修改ES IK插件源码,配合MySQL实现词库热更新
LittleMagic
ESIK词库热更新简介在实际工作中,我们经常需要更新ElasticSearch中IKAnalyzer插件的自定义词库,以获得更好的中文分词和搜索效果。在默认情况下,每次更新之后都需要重启ES集群才能生效,极其不方便。因此IKAnalyzer官方也提供了一种热更新的方法,在其GitHub主页上写道:在其源码内部对应的是Monitor类,实现了Runnable接口。我们采用的ES版本是2.3.2,对应
- IK分词器源码解析(一):构造字典树
Tristeza
最近在搞ES,结合了IK分词器,偶然间看到IK的主词典中有27万的词,加上其他的拓展词库差不多也有小一百万了,于是比较好奇IK是如何判断用户输入的词是否在词库中的,于是索性下载了IK的源码读一读,接下来是分词流程的解析。首先先看一下主类,是一个用来测试的类publicclassIKSegmenterTest{staticStringtext="IKAnalyzer是一个结合词典分词和文法分词的中文
- es ik 词库添加词语_ElasticSearch学习笔记——ik分词添加词库
非流
esik词库添加词语
前置条件是安装ik分词,请参考1.在ik分词的config下添加词库文件~/software/apache/elasticsearch-6.2.4/config/analysis-ik$ls|grepmydic.dicmydic.dic内容为我给祖国献石油2.配置词库路径,编辑IKAnalyzer.cfg.xml配置文件,添加新增的词库3.重启es4.测试data.json{"analyzer":
- IKAnalyzer2012FF_u1.jar 以及PinYin4J 使用出现的问题
YangFanJ
异常异常处理solr
1.jar包不存在于maven仓库需要添加到仓库中或者使用本地依赖。org.wltea.ik-analyzerik-analyzer2012FF_u1system${basedir}/src/main/webapp/WEB-INF/lib/IKAnalyzer2012FF_u1.jar-->C:/Users/Administrator/Desktop/ik/IKAnalyzer2012FF_u1.
- ik分词和jieba分词哪个好_Jieba&IK Analyzer——分词工具的比较与使用
weixin_39943000
ik分词和jieba分词哪个好
现有的分词工具包概览现有的分词工具包种类繁多,我选取了几个比较常见的开源中文分词工具包进行了简单的调查。有感兴趣的同学可以通过下表中的Giuthub链接进行详细地了解。常见开源的中文分词工具接下来,我具体介绍Jieba和IKAnalyzer的使用。一、jieba的分词使用1、安装jieba安装jieba2、三种分词模式及比较编写代码对“古蜀青铜艺术与蜀绣非遗技艺结合创新的探讨——现代首饰设计”进行
- 基于IKAnalyzer lucener的中文分词-java版本
zhaoyang66
用到2个jar包,本别是lucene-core和IKAnalyzer-lucene,版本号一定要对应,见pox.xml的版本号我这里用的maven仓库地址是:https://maven.aliyun.com/repository/central和https://maven.aliyun.com/repository/publicpox.xml里面的配置如下:com.jianggujinIKAnal
- 【Docker】Docker安装Elasticsearch服务的正确方式
Fire Fish
Dockerdockerelasticsearch
文章目录1.什么是Elasticsearch2.Docker安装Elasticsearch2.1确定Elasticsearch的版本2.2.Docker安装Elasticsearch2.3.给Elasticsearch安装中文分词器IKAnalyzer(可选)点击跳转:Docker安装MySQL、Redis、RabbitMQ、Elasticsearch、Nacos等常见服务全套(质量有保证,内容详
- IKAnalyzer 添加扩展词库和自定义词
赵侠客
搜索引擎ikanalyzer分词扩展
原文链接http://blog.csdn.net/whzhaochao/article/details/50130605IKanalyzer分词器IK分词器源码位置http://git.oschina.net/wltea/IK-Analyzer-2012FFIKanalyzer源码基本配置如图所示是IKanlyzer加载默认配置的路径项目中配置扩展词库如图所示,当我们导入Ikanlyzerjar包
- ik 分词器怎么调用缓存的词库
猹里。
缓存
IK分词器是一个基于Java实现的中文分词器,它支持在分词时调用缓存的词库。要使用IK分词器调用缓存的词库,你需要完成以下步骤:创建IK分词器实例首先,你需要创建一个IK分词器的实例。可以通过以下代码创建一个IK分词器实例:Analyzeranalyzer=newIKAnalyzer();加载词库接下来,你需要将缓存的词库加载到分词器中。可以使用IKAnalyzer类的setConfig方法来加载
- Spring Data Solr搜索引擎的使用
ronybo
分布式系统SpringDataSolr搜索引擎索引库域配置
下一节文章目录一、完成Solr环境安装,中文分析器和业务域的配置1.1Solr安装与配置1.1.1什么是Solr1.1.2Solr安装1.1.3中文分析器IKAnalyzer配置1.2入门小Demo1.2.1引入依赖1.2.2配置文件1.2.3@Field注解二、使用SpringDataSolr完成增删改查操作2.1增加2.2修改2.3查询三、完成批量数据导入功能一、完成Solr环境安装,中文分析
- 无标题文章
炮炮_06ac
Ik分词器有的时候,用户搜索的关键字,可能是一句话,不是很规范。所以在Solr中查询出的时候,就需要将用户输入的关键字进行分词。目前有很多优秀的中文分词组件。本篇只以IKAnalyzer分词为例,讲解如何在solr中及集成中文分词,使用IKAnalyzer的原因IK比其他中文分词维护的勤快,和Solr集成也相对容易。具体就不多介绍,这里直接solr集成IK的方法.分词的测试使用curl或者post
- 2018-11-09 Solr学习笔记(一)-Solr5.5.5服务器搭建详细教程
知者半省者无
2018-11-09Solr5.5.5服务器搭建详细教程[TOC]1.solr、jdk、tomcat、IKAnalyzer要求a注意:solr5以上的的标配tomcat8+jdk1.8本教程使用的版本是:solr5:solr-5.5.5tomcat8:apache-tomcat-8.5.35-windows-x64jdk8:jdk-8u181-windows-x64.exeIKAnalyzer:i
- ik分词器的拓展
xzm_
esIk分词器elasticsearch
注意在IkAnalyzer.xml的同级目录下创建自己的文件并进行编辑例:(每一行为一个词,如果在拓展字典中则是新增词汇,如果在删除字典中,则代表此词不参与分词)奥里给tmd
- elasticsearch分词器词库热更新三种方案
喜欢粉红的糙汉
elasticsearchjdbc数据库javamysql
文章目录一、本地文件读取方式二、远程扩展热更新IK分词三、重写ik源码连接mysql一、本地文件读取方式首先进入elasticsearch目录的plugins目录下,查看目录结构2.进入confg目录下创建文件mydic.dic并添加:“我是中国人”3.打开config目录下IKAnalyzer.cfg.xml配置文件vimIKAnalyzer.cfg.xml修改内容如下:4.保存启动es观察日志
- ElasticSearch集群配置IK分词
水彩橘子
大数据
1、环境介绍操作系统:centos7.9elasticsearch版本:7.13.3IK分词版本:elasticsearch-analysis-ik-7.13.3IK分词下载地址:https://github.com/medcl/elasticsearch-analysis-ik/releases注意:下载分词要和elasticsearch版本对应2、配置自定义字典IKAnalyzer扩展配置my
- ES集群添加IK分词器
夜月行者
#使用经验elasticsearch搜索引擎大数据
ES集群添加IK分词器ES:7.5.0官方文档其实已经够优秀了,毕竟是中文的,这里只给出一些建议。IKAnalyzer.cfg.xml建议放到插件的目录下,要不然有可能会有一些问题{plugins}/elasticsearch-analysis-ik-*/config/IKAnalyzer.cfg.xml提供的http接口要支持head请求locationhttp://xxx.com/xxx.di
- ElasticSearch集群
小乞丐程序员
elasticsearchlucene搜索引擎
5.2IK分词器简介IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Lucene为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。
- IK分词器配置文件讲解以及自定义词库实战
Shaw_Young
1、ik配置文件ik配置文件地址:es/plugins/ik/config目录IKAnalyzer.cfg.xml:用来配置自定义词库main.dic:ik原生内置的中文词库,总共有27万多条,只要是这些单词,都会被分在一起quantifier.dic:放了一些单位相关的词suffix.dic:放了一些后缀surname.dic:中国的姓氏stopword.dic:英文停用词ik原生最重要的两个配
- IKSegmenter 分词
开发老张
JavajavaIKSegmenter分词搜索智能分词
使用IKSegmenter进行字符串的分词操作packagecom.zsoft.test;importjava.io.StringReader;importorg.wltea.analyzer.core.IKSegmenter;importorg.wltea.analyzer.core.Lexeme;/***测试IKAnalyzer分词架构中的独立使用分词方法IKSegmenter*需要加载IKA
- ElasticSearch 中文分词器对比
阳关彩虹小白马
常用的中文分词器SmartChineseAnalysis:官方提供的中文分词器,不好用。IKAnalyzer:免费开源的java分词器,目前比较流行的中文分词器之一,简单、稳定,想要特别好的效果,需要自行维护词库,支持自定义词典。结巴分词:开源的python分词器,github有对应的java版本,有自行识别新词的功能,支持自定义词典。Ansj中文分词:基于n-Gram+CRF+HMM的中文分词的
- Elasticsearch的基本操作
wudl
1.es的集成ik分词1.1ik分词IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Lucene为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene
- Elasticsearch的IK分词器配置说明
simonsgj
1、IK配置文件ik配置文件地址:es/plugins/ik/config目录下IKAnalyzer.cfg.xml:用来配置自定义词库main.dic:ik原生内置的中文词库,总共有27万多条,只要是这些单词,都会被分在一起quantifier.dic:放了一些单位相关的词suffix.dic:放了一些后缀surname.dic:中国的姓氏stopword.dic:英文停用词2、ik原生最重要的
- MapReduce的案列
卿恋今生
1、汉字分词工具使用,以及统计每个汉字出现的次数思路:Wordcount—>难点怎么去切分一个词汇:中国很大,很美,很富有。Map---->v:一行文本内容,。“”‘’IKAnalyzer2012_u6_source.jarIKAnalyzer2012_u62、输出每个月平均气温思路:求平均值---->难点:怎么去设定MapOutKey—年份月份作为key3对:Mapper–>Reducer–>–
- 搜索引擎ES--IK分词器
李嘉图呀李嘉图
ElasticSearch搜索引擎elasticsearch
目录集成IK分词器扩展词典使用停用词典使用同义词典使用集成IK分词器概要:IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。新版本的IKAnalyzer3.0发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。3.0特性:1)采用了特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力。2)采用了多子处理器分析
- Elasticsearch安装IK分词器,kibana安装是基本使用,DSL语句入门
strive_day
ElasticSearch环境安装elasticsearchkibanaDSLikjson
文章目录1.安装IK分词器2.Kibana安装和使用2.1ELK概述2.2Kibana下载2.3DSL语句1.安装IK分词器ElasticSearch默认采用的分词器,是单个字分词,效果很差,所以我们需要安装一个更实用的分词器,这里采用IK分词器中文分词器IKAnalyzer3.0发布jar包下载地址:https://github.com/medcl/elasticsearch-analysis-
- java杨辉三角
3213213333332132
java基础
package com.algorithm;
/**
* @Description 杨辉三角
* @author FuJianyong
* 2015-1-22上午10:10:59
*/
public class YangHui {
public static void main(String[] args) {
//初始化二维数组长度
int[][] y
- 《大话重构》之大布局的辛酸历史
白糖_
重构
《大话重构》中提到“大布局你伤不起”,如果企图重构一个陈旧的大型系统是有非常大的风险,重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”,下面我就分享这个“大布局”项目经验给大家。
背景
公司专注于企业级管理产品软件,企业有大中小之分,在2000年初公司用JSP/Servlet开发了一套针对中
- 电驴链接在线视频播放源码
dubinwei
源码电驴播放器视频ed2k
本项目是个搜索电驴(ed2k)链接的应用,借助于磁力视频播放器(官网:
http://loveandroid.duapp.com/ 开放平台),可以实现在线播放视频,也可以用迅雷或者其他下载工具下载。
项目源码:
http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。
项目源码依赖于两个库项目,库项目一链接:
http://git.oschina.
- Javascript中函数的toString()方法
周凡杨
JavaScriptjstoStringfunctionobject
简述
The toString() method returns a string representing the source code of the function.
简译之,Javascript的toString()方法返回一个代表函数源代码的字符串。
句法
function.
- struts处理自定义异常
g21121
struts
很多时候我们会用到自定义异常来表示特定的错误情况,自定义异常比较简单,只要分清是运行时异常还是非运行时异常即可,运行时异常不需要捕获,继承自RuntimeException,是由容器自己抛出,例如空指针异常。
非运行时异常继承自Exception,在抛出后需要捕获,例如文件未找到异常。
此处我们用的是非运行时异常,首先定义一个异常LoginException:
/**
* 类描述:登录相
- Linux中find常见用法示例
510888780
linux
Linux中find常见用法示例
·find path -option [ -print ] [ -exec -ok command ] {} \;
find命令的参数;
- SpringMVC的各种参数绑定方式
Harry642
springMVC绑定表单
1. 基本数据类型(以int为例,其他类似):
Controller代码:
@RequestMapping("saysth.do")
public void test(int count) {
}
表单代码:
<form action="saysth.do" method="post&q
- Java 获取Oracle ROWID
aijuans
javaoracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row.
The oracle.sql.ROWID class i
- java获取方法的参数名
antlove
javajdkparametermethodreflect
reflect.ClassInformationUtil.java
package reflect;
import javassist.ClassPool;
import javassist.CtClass;
import javassist.CtMethod;
import javassist.Modifier;
import javassist.bytecode.CodeAtt
- JAVA正则表达式匹配 查找 替换 提取操作
百合不是茶
java正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split();
String str;
str.split();方法中传入按照什么规则截取,返回一个String数组
常见的截取规则:
str.split("\\.")按照.来截取
str.
- Java中equals()与hashCode()方法详解
bijian1013
javasetequals()hashCode()
一.equals()方法详解
equals()方法在object类中定义如下:
public boolean equals(Object obj) {
return (this == obj);
}
很明显是对两个对象的地址值进行的比较(即比较引用是否相同)。但是我们知道,String 、Math、I
- 精通Oracle10编程SQL(4)使用SQL语句
bijian1013
oracle数据库plsql
--工资级别表
create table SALGRADE
(
GRADE NUMBER(10),
LOSAL NUMBER(10,2),
HISAL NUMBER(10,2)
)
insert into SALGRADE values(1,0,100);
insert into SALGRADE values(2,100,200);
inser
- 【Nginx二】Nginx作为静态文件HTTP服务器
bit1129
HTTP服务器
Nginx作为静态文件HTTP服务器
在本地系统中创建/data/www目录,存放html文件(包括index.html)
创建/data/images目录,存放imags图片
在主配置文件中添加http指令
http {
server {
listen 80;
server_name
- kafka获得最新partition offset
blackproof
kafkapartitionoffset最新
kafka获得partition下标,需要用到kafka的simpleconsumer
import java.util.ArrayList;
import java.util.Collections;
import java.util.Date;
import java.util.HashMap;
import java.util.List;
import java.
- centos 7安装docker两种方式
ronin47
第一种是采用yum 方式
yum install -y docker
 
- java-60-在O(1)时间删除链表结点
bylijinnan
java
public class DeleteNode_O1_Time {
/**
* Q 60 在O(1)时间删除链表结点
* 给定链表的头指针和一个结点指针(!!),在O(1)时间删除该结点
*
* Assume the list is:
* head->...->nodeToDelete->mNode->nNode->..
- nginx利用proxy_cache来缓存文件
cfyme
cache
user zhangy users;
worker_processes 10;
error_log /var/vlogs/nginx_error.log crit;
pid /var/vlogs/nginx.pid;
#Specifies the value for ma
- [JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题
comsci
嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式,直接在方程式之前添加负号是不正确的,而必须这样做:
string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))"
定义一个0整数c,然后用这个整数c去
- 如何集成支付宝官方文档
dai_lm
android
官方文档下载地址
https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash
集成的必要条件
1. 需要有自己的Server接收支付宝的消息
2. 需要先制作app,然后提交支付宝审核,通过后才能集成
调试的时候估计会真的扣款,请注意
- 应该在什么时候使用Hadoop
datamachine
hadoop
原帖地址:http://blog.chinaunix.net/uid-301743-id-3925358.html
存档,某些观点与我不谋而合,过度技术化不可取,且hadoop并非万能。
--------------------------------------------万能的分割线--------------------------------
有人问我,“你在大数据和Hado
- 在GridView中对于有外键的字段使用关联模型进行搜索和排序
dcj3sjt126com
yii
在GridView中使用关联模型进行搜索和排序
首先我们有两个模型它们直接有关联:
class Author extends CActiveRecord {
...
}
class Post extends CActiveRecord {
...
function relations() {
return array(
'
- 使用NSString 的格式化大全
dcj3sjt126com
Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
- 使用activeX插件对象object滚动有重影
蕃薯耀
activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
- SpringMVC4零配置
hanqunfeng
springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式,实现零xml配置,弄了个小demo,供交流讨论。
项目说明如下:
1.db.sql是项目中用到的表,数据库使用的是oracle11g
2.该项目使用mvn进行管理,私服为自搭建nexus,项目只用到一个第三方 jar,就是oracle的驱动;
3.默认项目为零配置启动,如果需要更改启动方式,请
- 《开源框架那点事儿16》:缓存相关代码的演变
j2eetop
开源框架
问题引入
上次我参与某个大型项目的优化工作,由于系统要求有比较高的TPS,因此就免不了要使用缓冲。
该项目中用的缓冲比较多,有MemCache,有Redis,有的还需要提供二级缓冲,也就是说应用服务器这层也可以设置一些缓冲。
当然去看相关实现代代码的时候,大致是下面的样子。
[java]
view plain
copy
print
?
public vo
- AngularJS浅析
kvhur
JavaScript
概念
AngularJS is a structural framework for dynamic web apps.
了解更多详情请见原文链接:http://www.gbtags.com/gb/share/5726.htm
Directive
扩展html,给html添加声明语句,以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称,ng是angular的命名空间
- 架构师之jdk的bug排查(一)---------------split的点号陷阱
nannan408
split
1.前言.
jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug.
2.代码
String[] paths = "object.object2.prop11".split("'");
System.ou
- 如何对10亿数据量级的mongoDB作高效的全表扫描
quentinXXZ
mongodb
本文链接:
http://quentinXXZ.iteye.com/blog/2149440
一、正常情况下,不应该有这种需求
首先,大家应该有个概念,标题中的这个问题,在大多情况下是一个伪命题,不应该被提出来。要知道,对于一般较大数据量的数据库,全表查询,这种操作一般情况下是不应该出现的,在做正常查询的时候,如果是范围查询,你至少应该要加上limit。
说一下,
- C语言算法之水仙花数
qiufeihu
c算法
/**
* 水仙花数
*/
#include <stdio.h>
#define N 10
int main()
{
int x,y,z;
for(x=1;x<=N;x++)
for(y=0;y<=N;y++)
for(z=0;z<=N;z++)
if(x*100+y*10+z == x*x*x
- JSP指令
wyzuomumu
jsp
jsp指令的一般语法格式: <%@ 指令名 属性 =”值 ” %>
常用的三种指令: page,include,taglib
page指令语法形式: <%@ page 属性 1=”值 1” 属性 2=”值 2”%>
include指令语法形式: <%@include file=”relative url”%> (jsp可以通过 include