jadyer

【Lucene3.6.2入门系列】第05节_自定义停用词分词器和同义词分词器

首先是用于显示分词信息的HelloCustomAnalyzer.java

package com.jadyer.lucene;

import java.io.IOException;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;
import org.apache.lucene.analysis.tokenattributes.PositionIncrementAttribute;
import org.apache.lucene.analysis.tokenattributes.TypeAttribute;

/**
 * 【Lucene3.6.2入门系列】第05节_自定义分词器
 * @see -----------------------------------------------------------------------------------------------------------------------
 * @see Lucene3.5推荐的四大分词器:SimpleAnalyzer,StopAnalyzer,WhitespaceAnalyzer,StandardAnalyzer
 * @see 这四大分词器有一个共同的抽象父类,此类有个方法public final TokenStream tokenStream(),即分词的一个流
 * @see 假设有这样的文本"how are you thank you",实际它是以一个java.io.Reader传进分词器中
 * @see Lucene分词器处理完毕后,会把整个分词转换为TokenStream,这个TokenStream中就保存所有的分词信息
 * @see TokenStream有两个实现类,分别为Tokenizer和TokenFilter
 * @see Tokenizer---->用于将一组数据划分为独立的语汇单元(即一个一个的单词)
 * @see TokenFilter-->过滤语汇单元
 * @see -----------------------------------------------------------------------------------------------------------------------
 * @see 分词流程
 * @see 1)将一组数据流java.io.Reader交给Tokenizer,由其将数据转换为一个个的语汇单元
 * @see 2)通过大量的TokenFilter对已经分好词的数据进行过滤操作,最后产生TokenStream
 * @see 3)通过TokenStream完成索引的存储
 * @see -----------------------------------------------------------------------------------------------------------------------
 * @see Tokenizer的一些子类
 * @see KeywordTokenizer-----不分词,传什么就索引什么
 * @see StandardTokenizer----标准分词,它有一些较智能的分词操作,诸如将'[email protected]'中的'yeah.net'当作一个分词流
 * @see CharTokenizer--------针对字符进行控制的,它还有两个子类WhitespaceTokenizer和LetterTokenizer
 * @see WhitespaceTokenizer--使用空格进行分词,诸如将'Thank you,I am jadyer'会被分为4个词
 * @see LetterTokenizer------基于文本单词的分词,它会根据标点符号来分词,诸如将'Thank you,I am jadyer'会被分为5个词
 * @see LowerCaseTokenizer---它是LetterTokenizer的子类,它会将数据转为小写并分词
 * @see -----------------------------------------------------------------------------------------------------------------------
 * @see TokenFilter的一些子类
 * @see StopFilter--------它会停用一些语汇单元
 * @see LowerCaseFilter---将数据转换为小写
 * @see StandardFilter----对标准输出流做一些控制
 * @see PorterStemFilter--还原一些数据,比如将coming还原为come,将countries还原为country
 * @see -----------------------------------------------------------------------------------------------------------------------
 * @see eg:'how are you thank you'会被分词为'how','are','you','thank','you'合计5个语汇单元
 * @see 那么应该保存什么东西,才能使以后在需要还原数据时保证正确的还原呢???其实主要保存三个东西,如下所示
 * @see CharTermAttribute(Lucene3.5以前叫TermAttribute),OffsetAttribute,PositionIncrementAttribute
 * @see 1)CharTermAttribute-----------保存相应的词汇,这里保存的就是'how','are','you','thank','you'
 * @see 2)OffsetAttribute-------------保存各词汇之间的偏移量(大致理解为顺序),比如'how'的首尾字母偏移量为0和3,'are'为4和7,'thank'为12和17
 * @see 3)PositionIncrementAttribute--保存词与词之间的位置增量,比如'how'和'are'增量为1,'are'和'you'之间的也是1,'you'和'thank'的也是1
 * @see                               但假设'are'是停用词(StopFilter的效果),那么'how'和'you'之间的位置增量就变成了2
 * @see 当我们查找某一个元素时,Lucene会先通过位置增量来取这个元素,但如果两个词的位置增量相同,会发生什么情况呢
 * @see 假设还有一个单词'this',它的位置增量和'how'是相同的,那么当我们在界面中搜索'this'时
 * @see 也会搜到'how are you thank you',这样就可以有效的做同义词了,目前非常流行的一个叫做WordNet的东西,就可以做同义词的搜索
 * @see -----------------------------------------------------------------------------------------------------------------------
 * @create Aug 4, 2013 5:48:25 PM
 * @author 玄玉<http://blog.csdn.net/jadyer>
 */
public class HelloCustomAnalyzer {
	/**
	 * 查看分词信息
	 * @see TokenStream还有两个属性,分别为FlagsAttribute和PayloadAttribute,都是开发时用的
	 * @see FlagsAttribute----标注位属性
	 * @see PayloadAttribute--做负载的属性,用来检测是否已超过负载,超过则可以决定是否停止搜索等等
	 * @param txt        待分词的字符串
	 * @param analyzer   所使用的分词器
	 * @param displayAll 是否显示所有的分词信息
	 */
	public static void displayTokenInfo(String txt, Analyzer analyzer, boolean displayAll){
		//第一个参数没有任何意义,可以随便传一个值,它只是为了显示分词
		//这里就是使用指定的分词器将'txt'分词,分词后会产生一个TokenStream(可将分词后的每个单词理解为一个Token)
		TokenStream stream = analyzer.tokenStream("此参数无意义", new StringReader(txt));
		//用于查看每一个语汇单元的信息,即分词的每一个元素
		//这里创建的属性会被添加到TokenStream流中,并随着TokenStream而增加(此属性就是用来装载每个Token的,即分词后的每个单词)
		//当调用TokenStream.incrementToken()时,就会指向到这个单词流中的第一个单词,即此属性代表的就是分词后的第一个单词
		//可以形象的理解成一只碗,用来盛放TokenStream中每个单词的碗,每调用一次incrementToken()后,这个碗就会盛放流中的下一个单词
		CharTermAttribute cta = stream.addAttribute(CharTermAttribute.class);
		//用于查看位置增量(指的是语汇单元之间的距离,可理解为元素与元素之间的空格,即间隔的单元数)
		PositionIncrementAttribute pia = stream.addAttribute(PositionIncrementAttribute.class);
		//用于查看每个语汇单元的偏移量
		OffsetAttribute oa = stream.addAttribute(OffsetAttribute.class);
		//用于查看使用的分词器的类型信息
		TypeAttribute ta = stream.addAttribute(TypeAttribute.class);
		try {
			if(displayAll){
				//等价于while(stream.incrementToken())
				for(; stream.incrementToken() ;){
					System.out.println(ta.type() + " " + pia.getPositionIncrement() + " ["+oa.startOffset()+"-"+oa.endOffset()+"] ["+cta+"]");
				}
			}else{
				System.out.println();
				while(stream.incrementToken()){
					System.out.print("[" + cta + "]");
				}
			}
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
}

下面是自定义的停用词分词器MyStopAnalyzer.java

package com.jadyer.analysis;

import java.io.Reader;
import java.util.Set;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.LetterTokenizer;
import org.apache.lucene.analysis.LowerCaseFilter;
import org.apache.lucene.analysis.StopAnalyzer;
import org.apache.lucene.analysis.StopFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.util.Version;

/**
 * 自定义的停用词分词器
 * @see 它主要用来过滤指定的字符串(忽略大小写)
 * @create Aug 5, 2013 1:55:15 PM
 * @author 玄玉<http://blog.csdn.net/jadyer>
 */
public class MyStopAnalyzer extends Analyzer {
	private Set<Object> stopWords; //存放停用的分词信息
	
	/**
	 * 自定义的用于过滤指定字符串的分词器
	 * @param _stopWords 用于指定所要过滤的字符串(忽略大小写)
	 */
	public MyStopAnalyzer(String[] _stopWords){
		//会自动将字符串数组转换为Set
		stopWords = StopFilter.makeStopSet(Version.LUCENE_36, _stopWords, true);
		//将原有的停用词加入到现在的停用词中
		stopWords.addAll(StopAnalyzer.ENGLISH_STOP_WORDS_SET);
	}
	
	@Override
	public TokenStream tokenStream(String fieldName, Reader reader) {
		//为这个分词器设定过滤器链和Tokenizer
		return new StopFilter(Version.LUCENE_36,
						//这里就可以存放很多的TokenFilter
						new LowerCaseFilter(Version.LUCENE_36, new LetterTokenizer(Version.LUCENE_36, reader)),
						stopWords);
	}
}

下面是自定义的同义词分词器MySynonymAnalyzer.java

package com.jadyer.analysis;

import java.io.IOException;
import java.io.Reader;
import java.util.HashMap;
import java.util.Map;
import java.util.Stack;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.apache.lucene.analysis.tokenattributes.PositionIncrementAttribute;
import org.apache.lucene.util.AttributeSource;

import com.chenlb.mmseg4j.ComplexSeg;
import com.chenlb.mmseg4j.Dictionary;
import com.chenlb.mmseg4j.analysis.MMSegTokenizer;

/**
 * 自定义的同义词分词器
 * @create Aug 5, 2013 5:11:46 PM
 * @author 玄玉<http://blog.csdn.net/jadyer>
 */
public class MySynonymAnalyzer extends Analyzer {
	@Override
	public TokenStream tokenStream(String fieldName, Reader reader) {
		//借助MMSeg4j实现自定义分词器,写法参考MMSegAnalyzer类的tokenStream()方法
		//但为了过滤并处理分词后的各个语汇单元,以达到同义词分词器的功能,故自定义一个TokenFilter
		//实际执行流程就是字符串的Reader首先进入MMSegTokenizer,由其进行分词,分词完毕后进入自定义的MySynonymTokenFilter
		//然后在MySynonymTokenFilter中添加同义词
		return new MySynonymTokenFilter(new MMSegTokenizer(new ComplexSeg(Dictionary.getInstance()), reader));
	}
}


/**
 * 自定义的TokenFilter
 * @create Aug 5, 2013 5:11:58 PM
 * @author 玄玉<http://blog.csdn.net/jadyer>
 */
class MySynonymTokenFilter extends TokenFilter {
	private CharTermAttribute cta;              //用于获取TokenStream中的语汇单元
	private PositionIncrementAttribute pia;     //用于获取TokenStream中的位置增量
	private AttributeSource.State tokenState;   //用于保存语汇单元的状态
	private Stack<String> synonymStack;         //用于保存同义词
	
	protected MySynonymTokenFilter(TokenStream input) {
		super(input);
		this.cta = this.addAttribute(CharTermAttribute.class);
		this.pia = this.addAttribute(PositionIncrementAttribute.class);
		this.synonymStack = new Stack<String>();
	}
	
	/**
	 * 判断是否存在同义词
	 */
	private boolean isHaveSynonym(String name){
		//先定义同义词的词典
		Map<String, String[]> synonymMap = new HashMap<String, String[]>();
		synonymMap.put("我", new String[]{"咱", "俺"});
		synonymMap.put("中国", new String[]{"兲朝", "大陆"});
		if(synonymMap.containsKey(name)){
			for(String str : synonymMap.get(name)){
				this.synonymStack.push(str);
			}
			return true;
		}
		return false;
	}

	@Override
	public boolean incrementToken() throws IOException {
		while(this.synonymStack.size() > 0){
			restoreState(this.tokenState); //将状态还原为上一个元素的状态
			cta.setEmpty();
			cta.append(this.synonymStack.pop()); //获取并追加同义词
			pia.setPositionIncrement(0);         //设置位置增量为0
			return true;
		}
		if(input.incrementToken()){
			//注意:当发现当前元素存在同义词之后,不能立即追加同义词,即不能在目标元素上直接处理
			if(this.isHaveSynonym(cta.toString())){
				this.tokenState = captureState(); //存在同义词时,则捕获并保存当前状态
			}
			return true;
		}else {
			return false; //只要TokenStream中没有元素,就返回false
		}
	}
}

最后是JUnit4.x编写的小测试

package com.jadyer.test;

import org.apache.lucene.analysis.StopAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.index.Term;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.RAMDirectory;
import org.apache.lucene.util.Version;
import org.junit.Test;

import com.jadyer.analysis.MyStopAnalyzer;
import com.jadyer.analysis.MySynonymAnalyzer;
import com.jadyer.lucene.HelloCustomAnalyzer;

public class HelloCustomAnalyzerTest {
	/**
	 * 测试自定义的用于过滤指定字符串(忽略大小写)的停用词分词器
	 */
	@Test
	public void stopAnalyzer(){
		String txt = "This is my house, I`m come from Haerbin,My email is [email protected], My QQ is 517751422";
		HelloCustomAnalyzer.displayTokenInfo(txt, new StandardAnalyzer(Version.LUCENE_36), false);
		HelloCustomAnalyzer.displayTokenInfo(txt, new StopAnalyzer(Version.LUCENE_36), false);
		HelloCustomAnalyzer.displayTokenInfo(txt, new MyStopAnalyzer(new String[]{"I", "EMAIL", "you"}), false);
	}
	

	/**
	 * 测试自定义的同义词分词器
	 */
	@Test
	public void synonymAnalyzer(){
		String txt = "我来自中国黑龙江省哈尔滨市巴彦县兴隆镇";
		IndexWriter writer = null;
		IndexSearcher searcher = null;
		Directory directory = new RAMDirectory();
		try {
			writer = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_36, new MySynonymAnalyzer()));
			Document doc = new Document();
			doc.add(new Field("content", txt, Field.Store.YES, Field.Index.ANALYZED));
			writer.addDocument(doc);
			writer.close(); //搜索前要确保IndexWriter已关闭,否则会报告异常org.apache.lucene.index.IndexNotFoundException: no segments* file found
			searcher = new IndexSearcher(IndexReader.open(directory));
			TopDocs tds = searcher.search(new TermQuery(new Term("content", "咱")), 10);
			for(ScoreDoc sd : tds.scoreDocs){
				System.out.println(searcher.doc(sd.doc).get("content"));
			}
			searcher.close();
		} catch (Exception e) {
			e.printStackTrace();
		}
		HelloCustomAnalyzer.displayTokenInfo(txt, new MySynonymAnalyzer(), true);
	}
}

python进阶-10.pandas基本数据类型（1） wang旭炎 python numpy 索引
importpandasaspdimportnumpyasnpfrompandasimportSeries,DataFrame文章目录1,Series自定义索引读取SeriesSereis.loc['自定义的索引']||Sereis.iloc[0-n的数字]xxx.loc['yy']=new修改和增加读取多个值,会得到一个新对象通过字典数据得到Series2.DataFrame2.1把numpy的
【odoo】odoo 公共方法的设计与实现种花的人_ odoo python
Odoo公共方法的设计与实现1.功能需求2.seController类分析2.1res_ok方法：返回成功响应2.2res_err方法：返回错误响应2.3res_exception方法：捕获并返回异常2.4json_default方法：自定义JSON序列化2.5错误码字典error_code3.总结在Odoo开发中，我们常常需要编写一些通用的功能方法，这些方法可以帮助我们更高效地处理数据格式化、错
Gradle 全方位使用指南：从基础操作到 IDE 配置阿贾克斯的黎明 java java
目录Gradle全方位使用指南：从基础操作到IDE配置一、引言二、Gradle基础概念（一）构建脚本（二）任务（Task）（三）插件（Plugin）三、Gradle安装与环境配置（一）下载（二）解压与配置环境变量（三）验证安装四、Gradle项目构建基础（一）创建项目（二）构建脚本详解（三）任务执行五、Gradle高级特性（一）多项目构建（二）自定义任务（三）属性与配置文件（四）缓存与性能优化六、
python LTP 安装 failed building wheel for pyltp Waldenz NLP Python LTP python ltp wheel failed building wheel
LTP（LanguageTechnologyPlatform）语言技术平台。LTP提供了一系列中文自然语言处理工具，用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。主页GitHubpyltpwin10pip直接安装pyltp时的各种报错，Faildbuildingwheelforpyltp或者Runningsetup.pybdist_wheelforpyltp...error
Android系统开发（二十）：字体活起来，安卓自定义字体改造指南刘争Stanley Framework框架大师 Android开发巅峰之路 android
为什么要写这篇文章？你是否厌倦了千篇一律的安卓默认字体？想让你的设备从“乏味的配角”变成“炫酷的主角”？好消息！从Android12到Android15，自定义字体变得更简单、更强大。尤其是表情字体的更新，不仅可以定制，还能支持未来的更新，让个性化和兼容性不再对立。本篇博客将揭示如何用代码创造属于自己的字体世界。不论是设计自家的品牌风格，还是满足本地市场的特殊需求，自定义字体都让你“字”由发挥！一
Element-plus封装表格Validate 努力搬砖的宣 vue.js 前端 javascript elementui
Element-plus实现表格内的表单验证：useAttrValidateHook在Vue.js项目中，表单验证是一个常见的需求，尤其在处理复杂表格编辑场景时。本文将详细介绍一个基于Vue3的自定义Hook——useAttrValidate，它提供了一种便捷的方式来处理表格组件中的字段校验。效果如下：1.导入与初始化Javascriptimport{reactive,nextTick}from"
《Python期末备考全攻略：高分秘籍与实用技巧大合集！》跟着小郑学前端 python windows 开发语言数据结构
《Python期末备考全攻略：高分秘籍与实用技巧大合集！》1Python基础语法1.1变量与数据类型1.2条件语句1.3循环语句2.常见数据结构2.1列表2.2元组2.3字典2.4集合3.函数与模块3.1自定义函数3.2匿名函数（lambda）3.3标准库与第三方库4.文件操作4.1文件读写操作5.面向对象编程5.1类与对象5.2继承与多态6.综合练习题与答案1Python基础语法1.1变量与数据
NocoBase 本周更新汇总：支持自定义用户资料的表单
汇总一周产品更新日志，最新发布可以前往我们的博客查看。NocoBase目前更新包括的版本更新包括三个分支：main，next和develop。main：截止目前最稳定的版本，推荐安装此版本。next：包含即将发布的新功能，经过初步测试的版本，可能存在部分已知或未知问题。主要面向测试用户,用于收集反馈和进一步优化功能。适合愿意提前体验新功能并提供反馈的测试用户。develop：开发中的版本，包含最新
@RequestBody接收Json参数 | 用自定义注解对Vo对象中Date类型日期格式校验手hold刺猬 003.疑难问题 java springmvc json 正则表达式 spring boot
标题太长有木有？主要是为了把问题描述清楚，免得进错文章。问题描述昨天测试的同事测试接口的时候，测试出来一个Date类型校验问题。要求输入的日期格式是：yyyy-MM-ddHH:mm:ss，Vo中使用的注解如下：@DateTimeFormat(pattern=”yyyy-MM-ddHH:mm:ss”)测试同事输入下面两种参数都是保存成功，当输入为“202105”参数时，保存的数据变为“1970-01
IP2Region通过IP库ip定位城市来处理评论未来AI编程服务器运维
Ip2region是什么ip2region-是一个离线IP地址定位库和IP定位数据管理框架，10微秒级别的查询效率，提供了众多主流编程语言的xdb数据生成和查询客户端实现。Ip2region特性1、IP数据管理框架xdb支持亿级别的IP数据段行数，默认的region信息都固定了格式：国家|区域|省份|城市|ISP，缺省的地域信息默认是0。region信息支持完全自定义，例如：你可以在region中
虚拟机VMware Workstation Pro安装集群+hadoop+spark+scala 落枫兮 hadoop spark scala
参考资料：参考视频教程链接：大数据实验虚拟机安装Hadoop和Spark_哔哩哔哩_bilibiliup主：孤独时代的硕硕namenode安装选择镜像、路径、磁盘（最好不要c盘）、内存和处理器编辑名称与位置可点击此处自定义硬盘进行设置。选择语言、时区、软件、位置和网络
豆瓣API-我在IDE上标记想看的电影(低配版API文档) dreadp 前端 python beautifulsoup selenium html web 数据分析
引言我只是想在IDE上标记想看的电影,所以写了这个脚本…以下是脚本调用的API接口使用指南.脚本运行方式以及使用方法在使用MovieWishlister.py脚本之前,保证运行过一次TagAssassin.py中的get_all_tags(douban_user_url)函数来更新写入的文件中的标签,保证此时是最新的,以便可看JSON文件的标签来核对自己曾自定义的标签名.因为标签过多可能无法一次性
table多行表头合并 vue_vue elementUI table 自定义表头和行合并 weixin_39540704 table多行表头合并 vue
最近项目中做表格比较多，对element表格的使用，只需要传递进去数据，然后写死表头即可渲染。但现实中应用中，如果写死表头，并且每个组件中写自己的表格，不仅浪费时间而且消耗性能。这个时候需要动态渲染表头。而官方例子都是写死表头，那么为了满足项目需求，只能自己来研究一下。1、自定义表头代码如下，其实就是分了两部分，表格主数据是在TableData对象中，表头的数据保存在headerDatas，hea
react数据异步更新 wlt_5079 react.js javascript
1.react数据异步更新定义一个类组件模板：classMyComextendsReact.Component{}设置state状态数据：state={name:"张三"}render()渲染函数：render(){return{this.state.name}}过程：this打点调用自定义函数change绑定click事件，返回一个button按钮，通过this.state打点调用自定义属性na
【ubuntu】【rabbitmq】ubuntu 安装 rabbitmq wecode66 rabbitmq 分布式
文章目录一、安装erlang二、添加公钥三、更新软件包（可选）四、安装RabbitMQ五、RabbitMQ状态管理六、安装web插件七、远程登录（web端）八、添加自定义VHOST及分配权限一、安装erlang#安装erlangsudoapt-getinstallerlang-nox#查看relang语言版本，成功执行则说明relang安装成功erl二、添加公钥wget-O-https://www
Spring 3自定义注解与格式化器的深度实践 t0_54manong spring python 数据库个人开发
在Spring框架中，格式化器（Formatter）和注解（Annotation）是处理数据格式化和验证的强大工具。通过将注解与格式化器绑定，我们可以在字段级别灵活地定义数据的格式化规则。本文将通过一个完整的示例，展示如何创建自定义注解、格式化器，并将它们绑定到Spring的AnnotationFormatterFactory中，实现字段级别的数据格式化。一、背景与需求在开发Web应用时，我们经常
MySQL-练习-数据汇总-CASE WHEN 赛丽曼 MySQL mysql 数据库
文章目录一.数据介绍二.数据汇总三.使用CASEWHEN和GROUPBY将数据分组1.使用CASEWHEN自定义分组练习15练习162.CASEWHEN中ELSE的使用练习17练习18练习193.在GROUPBY中使用CASEWHEN练习20练习214.CASEWHEN和COUNT练习22练习235.GROUPBY和CASEWHEN组合使用练习246.SUM中使用CASEWHEN练习257.SUM
root卡刷与线刷王景程 github 编辑器 windows
什么是Root中的卡刷和线刷？在Android设备中，卡刷和线刷是两种常见的刷机方式，主要用于安装自定义ROM、获取Root权限或恢复系统。1.卡刷（刷ZIP文件）卡刷是通过将刷机包（通常是一个ZIP文件）放置在设备的存储中，然后通过设备的Recovery模式加载和安装该刷机包的方式。优势：操作简单，不需要连接电脑。更适合OTA更新和安装自定义ROM。不容易误操作导致设备损坏。劣势：如果设备无法进
软件测试学习笔记丨Pytest的使用霍格沃兹测试开发学社测试人社区学习笔记 pytest 软件测试测试开发
本文转自测试人社区，原文链接：https://ceshiren.com/t/topic/221581.简介pytest是一个成熟的全功能python测试框架测试用例的skip和xfail，自动失败重试等处理能够支持简单的单元测试和复杂的功能测试，还可以用来做selenium/appnium等自动化测试，接口自动化测试pytest有很多第三方插件，并且可以自定义扩展，如pytest-allure（完
Spring缓存自定义KeyGenerator的实现与应用 2501_90323865 spring 缓存 java 个人开发
在Spring框架中，缓存机制是一种常用的优化手段，可以有效减少对数据库等后端系统的访问次数，提高应用性能。而自定义KeyGenerator则是让缓存更加灵活、精准地命中目标数据的关键所在。本文将通过一个实例，详细介绍如何实现并使用自定义的KeyGenerator。首先，我们需要创建一个自定义的KeyGenerator类。该类需要实现Spring提供的KeyGenerator接口，并重写gener
ElasticSearch解析logback日志并处理异常栈轨迹甘蓝聊Java 【更新中...】项目中的那些事 elasticsearch logback pipeline multiline filebeat多行
文章目录背景分析IngestPipeline解析日志-示例查看IngestPipeline创建Pipeline添加Grok处理器添加时间戳、IP地址和用户代理处理器测试Pipeline多行消息管理filestreaminputloginput解决自定义pipeline解析logback日志Grok处理器Date处理器失败处理器为loginput添加多行处理验证调整Kibana数据视图验证失败处理器
保姆级讲解 python之enumerate()方法，包教包会查理零世 python 开发语言
目录引入find()基本用法进入正题enumerate()基本用法使用enumerate()遍历列表并打印索引和值可以使用自定义起始索引实战演练总结引入在Python中，find()方法主要用于字符串操作，用于查找子字符串在字符串中的位置。它返回的是子字符串第一次出现的索引位置，如果找不到则返回-1。需要注意的是，find()是字符串的方法，而不是列表或数组的方法。那数组怎么办？当然是今天要介绍的
Python系列教程--python初级第三章 _AndyLau 手把手学python python
Python初级文章目录Python初级函数自定义函数lambda函数模块文件I/O输出到屏幕print输入raw_input函数(python3弃用)input函数打开文件异常面向对象面向对象技术简介简单类的创建内置属性类的继承基础重栽方法类的私有属性类的方法类的私有方法函数自定义函数函数定义采用def关键字进行定义，只需要声明输入参数，返回结果根据函数体内的return语句来定义#函数定义#无
【设计模式】观察者模式在java中的应用 CC大煊 Java基础 java 观察者模式开发语言
文章目录引言观察者模式的定义观察者模式的应用场景观察者模式的基本概念主题（Subject）和观察者（Observer）的关系观察者模式的优缺点优点缺点Java中的观察者模式实现Java内置的观察者模式`java.util.Observer`接口`java.util.Observable`类示例代码自定义实现观察者模式自定义接口和类具体代码示例使用`java.util.Observer`和`java
利用jieba库和wordcloud库绘制词云图像 baichui python学习 python
目录jieba库的使用利用jieba库获取红楼梦中人物名字的出现频次wordcloud库的使用根据红楼梦中人物出现频次，制作词云图jieba库的使用jieba库是优秀的中文分词工具，能对文本进行分词处理常用函数:lcut与cutlcut函数接受一个中文文本字符串，对该文本进行分词处理，返回一个分词列表（推荐使用）而jieba.cut生成的是一个生成器，generator,可以通过for循环来取里面
C语言-构造数据类型落幕 c语言开发语言
1、构造数据类型结构体、共用体、枚举。2、结构体1、结构体的定义结构体是一个自定义的复合数据类型，它允许将不同类型的数据组合在一起。struct结构体名{数据类型1成员变量1;数据类型2成员变量2;数据类型3成员变量3;数据类型4成员变量4;}2、结构体变量的定义数据类型变量；3、结构体的初始化1、全部初始化structstudents={"zhangsan",'m',19,100};2、局部初始
SwiftUI 2.0实现动态粘性页脚动画指南一曲歌长安
本文还有配套的精品资源，点击获取简介：在SwiftUI2.0中创建类似Medium.com的动态粘性页脚，涉及视图构建、环境值跟踪、自定义组件设计、动画实现以及响应式布局，以增强用户体验并提升应用程序的互动性。开发者将学习到如何通过滚动位置的变化来控制页脚的透明度和尺寸，并通过动画使交互更为流畅自然。1.SwiftUI核心概念理解SwiftUI是苹果公司推出的一套声明式UI框架，它使得开发者可以使
solidworks的三维特征内容介绍小白是昏头仔 3d
草图与尺寸相关尺寸预览与编辑：选择一个或多个实体后，可使用新选项预览和编辑尺寸，加快草图绘制速度，让设计师能更直观地调整尺寸以满足设计需求。异型孔向导增强：“异型孔向导”工具提供新选项来选择自动打孔的几何体的端点位置。还可使用几何草图实体（如直线、方形、槽口和样条曲线）作为打孔定位的引导，将鼠标悬停在实体上，单击即可在这些草图实体上定位孔，提高打孔操作的效率和准确性。显示自定义属性单位：在注释和表
Elasticsearch Date类型使用技巧 weixin_30886233 大数据 json java
elasticsearch原生支持date类型。这里简单记录下使用的方法。使用date类型可以用如下两种方式：使用毫秒的时间戳，直接将毫秒值传入即可。传入格式化的字符串，默认是ISO8601标准，例如2015-02-27T00:07Z(零时区)、2015-02-27T08:07+08:00(东八区),这两个时间实际是同一个，只是时区不同。另外还可以自定义时间格式，参见es的文档。但个人不建议使用自
C++ 条件变量-生产消费者模型 __雨夜星辰__ c++开发语言学习笔记多线程
条件变量是一种线程同步机制,当条件不满足时，相关线程被一直阻塞，直到某种条件出现，这些线程才会被唤醒.C++11的条件变量提供了两个类：condition_variable：只支持与普通mutex搭配，效率更高。condition_variable_any：是一种通用的条件变量，可以与任意mutex搭配（包括用户自定义的锁类型）包含头文件：1.condition_variable类主要成员函数：1
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交

【Lucene3.6.2入门系列】第05节_自定义停用词分词器和同义词分词器

你可能感兴趣的:(Lucene,Solr,tika,中文分词,自定义分词)