Josh_Persistence

Solr4.7.0中整合中文分词mmseg4j-1.9.1

刚接触Lucene2.x和Solr2.x的时候，谈到中文分词，会让我立即想到用庖丁中文分词，庖丁中文分词因巨大的中文词库以及支持不限制个数的用户自定义词库，而且是纯文本格式，一行一词，使用后台线程检测词库的更新，自动编译更新过的词库到二进制版本而出名。

几年过去了，Lucene和Solr都发展到了4.7.x版本，重拾中文分词，发现庖丁中文分词不再是首选，mmseg4j是更佳的选择。

1、mmseg4j支持最多分词，是一款很优秀的中文分词器，是用Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器，并实现 lucene 的analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。

2、MMSeg 算法有两种分词方法：Simple和Complex，都是基于正向最大匹配。Complex 加了四个规则过虑。官方说：词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。

1.5版的分词速度simple算法是 1100kb/s左右、complex算法是 700kb/s左右，（测试机：AMD athlon 64 2800+ 1G内存 xp）。
1.6版在complex基础上实现了最多分词(max-word)。“很好听” -> "很好|好听"; “中华人民共和国” -> "中华|华人|共和|国"; “中国人民银行” -> "中国|人民|银行"。
1.7-beta 版, 目前 complex 1200kb/s左右, simple 1900kb/s左右, 但内存开销了50M左右. 上几个版都是在10M左右.
1.8 后,增加 CutLetterDigitFilter过虑器，切分“字母和数”混在一起的过虑器。比如：mb991ch 切为 "mb 991 ch"。

mmseg4j实现的功能详情请看：

http://mmseg4j.googlecode.com/svn/trunk/CHANGES.txt

要想在Solr中整合mmseg4j其实很容易，只需要如下几个步骤

1、下载（https://code.google.com/p/mmseg4j/downloads/list）并解压mmseg4j-1.9.1.zip，把dist下面的所有jar文件拷贝到你应用服务器下的solr/WEB-INF/lib中。（如果你的应用服务器下面没有solr，请参考《Tomcat中安装Solr》）。

有3个jar文件：mmseg4j-analysis-1.9.1.jar， mmseg4j-core-1.9.1.jar，mmseg4j-solr-1.9.1.jar。

顺便提下，如果是在mmseg4j-1.9.0前，则需要copy data目录到solr_home/solr中（与core平级），并改名为dic。进入到你想使用mmseg4j分词器的core中（此处以solr自带的collection1为例），用编辑器打开collection1/conf/schema.xml配置文件,添加如下代码：

<!-- mmseg4j分词器 -->
 <fieldType name="text_mmseg4j" class="solr.TextField" >
 <analyzer type="index">
 <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="../dic" /><!--此处为分词器词典所处位置-->
 </analyzer>
 <analyzer type="query">
 <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="../dic" /><!--此处为分词器词典所处位置-->
 </analyzer>
 </fieldType>

2、在mmseg4j-1.9.0后，如本例的mmseg4j-1.9.1中，就可以不用 dicPath 参数，可以使用 mmseg4j-core-1.9.0.jar 里的 words.dic ，在Schema.xml中加入如下配置

<!-- mmseg4j-->
    <fieldType name="text_mmseg4j_complex" class="solr.TextField" positionIncrementGap="100" >  
        <analyzer>  
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>  
        </analyzer>  
    </fieldType>  
    <fieldType name="text_mmseg4j_maxword" class="solr.TextField" positionIncrementGap="100" >  
        <analyzer>  
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>  
        </analyzer>  
    </fieldType>  
    <fieldType name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100" >  
        <analyzer>  
          <!--
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="n:/OpenSource/apache-solr-1.3.0/example/solr/my_dic"/> 
            -->
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic"/>     
        </analyzer>  
    </fieldType>
    <!-- mmseg4j-->

3、引用mmseg4j分词器

只需要在该schema.xml中加入如下配置便可引用对应的mmseg4j分词器

<field name="mmseg4j_complex_name" type="text_mmseg4j_complex" indexed="true" stored="true"/>
   <field name="mmseg4j_maxword_name" type="text_mmseg4j_maxword" indexed="true" stored="true"/>
   <field name="mmseg4j_simple_name" type="text_mmseg4j_simple" indexed="true" stored="true"/>

通过以上步骤就可以成功配置mmseg4j分词器到solr中了。

然后就可以打开Solr Admin的Page进行分词分析了。但当输入中文（华南理工大学）并点击“Analyse Values”进行分析时，会发现如下的错误： TokenStream contract violation: reset()/close() call missing, reset() called multiple times, or subclass does not call super.reset(). Please see Javadocs of TokenStream class for more information about the correct consuming workflow.

该原因是源码的一个bug引起的，需要修改上面下载的mmseg4j-analysis-1.9.1.zip解压后的mmseg4j-analysis目录下的类：MMSegTokenizer.java，修改reset()方法并加上下面注释中的这一句

public void reset() throws IOException {
		//lucene 4.0
		//org.apache.lucene.analysis.Tokenizer.setReader(Reader)
		//setReader 自动被调用, input 自动被设置。
		super.reset();   //加这一句
		mmSeg.reset(input);
	}

修改后运行mvn clean package -DskipTests进行打包得到最新的mmseg4j-analysis-1.9.1.jar 并替换Tomcat下的solr下的WEB-INF/lib下的mmseg4j-analysis-1.9.1.jar。

重新启动Tomcat并访问Solr Admin Page，并在“Analysis”中输入中文进行分析，可以看到已经成功的进行分析。

这样这个Bug就解决了。

另外，mmseg4j中文分词和庖丁中文分词的对比效果可以参照下面的结果，从结果可以看出，mmseg4j比起庖丁中文分词来说，是更好的选择。

paoding 分词效果：

 
  --------------------------  
清华大学  
清华 | 大 | 华大 | 大学 |  
--------------------------  
华南理工大学  
华南 | 理工 | 大 | 大学 |  
--------------------------  
广东工业大学  
广东 | 工业 | 大 | 业大 | 大学 |  
--------------------------  
西伯利亚  
西伯 | 伯利 | 西伯利亚 |  
--------------------------  
研究生命起源  
研究 | 研究生 | 生命 | 起源 |  
--------------------------  
为首要考虑  
为首 | 首要 | 考虑 |  
--------------------------  
化装和服装  
化装 | 和服 | 服装 |  
--------------------------  
中国人民银行  
中国 | 国人 | 人民 | 银行 |  
--------------------------  
中华人民共和国  
中华 | 华人 | 人民 | 共和 | 共和国 |  
--------------------------  
羽毛球拍  
羽毛 | 羽毛球 | 球拍 |  
--------------------------  
人民币  
人民 | 人民币 |  
--------------------------  
很好听  
很好 | 好听 |  
--------------------------  
下一个  
下一 | 一个 |  
--------------------------  
为什么  
为什么 |  
--------------------------  
北京首都机场  
北京 | 首都 | 机场 |  
--------------------------  
东西已经拍卖了  
东西 | 已经 | 拍卖 | 卖了 |  
--------------------------  
主人因之生气  
主人 | 生气 |  
--------------------------  
虽然某些动物很凶恶  
动物 | 凶恶 |  
--------------------------  
朋友真背叛了你了  
朋友 | 真 | 背叛 |  
--------------------------  
建设盒蟹社会  
建设 | 盒蟹 | 社会 |  
--------------------------  
建设盒少蟹社会  
建设 | 盒少 | 少蟹 | 社会 |  
--------------------------  
我们家门前的大水沟很难过。  
我们 | 家门 | 前 | 门前 | 前的 | 大 | 大水 | 水沟 | 很难 | 难过 |  
--------------------------  
罐头不如果汁营养丰富。  
罐头 | 不如 | 如果 | 果汁 | 营养 | 丰富 |  
--------------------------  
今天真热，是游泳的好日子。  
今天 | 天真 | 热 | 游泳 | 日子 | 好日子 |  
--------------------------  
妹妹的数学只考十分，真丢脸。  
妹妹 | 数学 | 只考 | 十分 | 真 | 丢脸 |  
--------------------------  
我做事情，都是先从容易的做起。  
做事 | 事情 | 都是 | 先从 | 从容 | 容易 | 容易的 | 做起 |  
--------------------------  
老师说明天每个人参加大队接力时，一定要尽力。  
老师 | 师说 | 说明 | 明天 | 每个 | 个人 | 人参 | 参加 | 大 | 加大 | 大队 | 接力 | 时 | 一定 | 定要 | 要尽 | 尽力 |  
--------------------------  
小明把大便当作每天早上起床第一件要做的事  
小明 | 大 | 大便 | 便当 | 当作 | 每天 | 早上 | 上起 | 起床 | 床第 | 第一 | 一件 | 要做 | 做的 | 的事 |   
 
 

mmseg4j maxword 分词效果：

 
  --------------------------  
清华大学  
清华 | 大学 |  
--------------------------  
华南理工大学  
华南 | 理工 | 工大 | 大学 |  
--------------------------  
广东工业大学  
广东 | 工业 | 大学 |  
--------------------------  
西伯利亚  
西 | 伯利 | 利亚 |  
--------------------------  
研究生命起源  
研究 | 生命 | 起源 |  
--------------------------  
为首要考虑  
为首 | 要 | 考虑 |  
--------------------------  
化装和服装  
化装 | 和 | 服装 |  
--------------------------  
中国人民银行  
中国 | 国人 | 人民 | 银行 |  
--------------------------  
中华人民共和国  
中华 | 华人 | 人民 | 共和 | 国 |  
--------------------------  
羽毛球拍  
羽毛 | 球拍 |  
--------------------------  
人民币  
人民 | 币 |  
--------------------------  
很好听  
很好 | 好听 |  
--------------------------  
下一个  
下一 | 一个 |  
--------------------------  
为什么  
为 | 什么 |  
--------------------------  
北京首都机场  
北京 | 首都 | 机场 |  
--------------------------  
东西已经拍卖了  
东西 | 已经 | 拍卖 | 了 |  
--------------------------  
主人因之生气  
主人 | 因 | 之 | 生气 |  
--------------------------  
虽然某些动物很凶恶  
虽然 | 某些 | 动物 | 很 | 凶恶 |  
--------------------------  
朋友真背叛了你了  
朋友 | 真 | 背叛 | 了 | 你了 |  
--------------------------  
建设盒蟹社会  
建设 | 盒 | 蟹 | 社会 |  
--------------------------  
建设盒少蟹社会  
建设 | 盒 | 少 | 蟹 | 社会 |  
--------------------------  
我们家门前的大水沟很难过。  
我们 | 家 | 门前 | 的 | 大水 | 水沟 | 很难 | 过 |  
--------------------------  
罐头不如果汁营养丰富。  
罐头 | 不如 | 果汁 | 营养 | 丰富 |  
--------------------------  
今天真热，是游泳的好日子。  
今天 | 天真 | 热 | 是 | 游泳 | 的 | 好 | 日子 |  
--------------------------  
妹妹的数学只考十分，真丢脸。  
妹妹 | 的 | 数学 | 只 | 考 | 十分 | 真 | 丢脸 |  
--------------------------  
我做事情，都是先从容易的做起。  
我做 | 事情 | 都是 | 先 | 从容 | 易 | 的 | 做起 |  
--------------------------  
老师说明天每个人参加大队接力时，一定要尽力。  
老师 | 师说 | 明天 | 每个 | 个人 | 参加 | 大队 | 接力 | 时 | 一定 | 要 | 尽力 |  
--------------------------  
小明把大便当作每天早上起床第一件要做的事  
小明 | 把 | 大便 | 当作 | 每天 | 早上 | 起床 | 第一 | 一件 | 要做 | 的 | 事 |   
 
 

mmseg4j中丰富词库需要注意什么？

mmseg4j中的词库：(强制使用 UTF-8)：

data/chars.dic 是单字与语料中的频率，一般不用改动，1.5版本中已经加到mmseg4j的jar里了，我们不需要关心它，当然你在词库目录放这个文件可以覆盖它。
data/units.dic 是单字的单位，默认读jar包里的，你也可以自定义覆盖它，这个功能是试行，如果不喜欢它，可以用空的units.dic文件(放到你的词库目录下)覆盖它。
data/words.dic 是词库文件，一行一词，当然你也可以使用自己的，1.5版本使用 sogou 词库，1.0的版本是用 rmmseg 自带的词库。
data/wordsxxx.dic 1.6版支持多个词库文件，data 目录（或你定义的目录）下读到"words"前缀且".dic"为后缀的文件。如：data/words-my.dic。
由于 utf-8 文件有带与不带 BOM 之分，建议词库第一行为空行或为无 BOM 格式的 utf-8 文件。

【Java】已解决：java.util.concurrent.CompletionException 屿小夏 java 开发语言
文章目录一、分析问题背景出现问题的场景代码片段二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：java.util.concurrent.CompletionException一、分析问题背景在Java并发编程中，java.util.concurrent.CompletionException是一种常见的运行时异常，通常在使用CompletableFuture进行异步计算时出现
【Java】已解决：org.springframework.jdbc.datasource.lookup.DataSourceLookupFailureException 屿小夏 java 开发语言
文章目录一、分析问题背景问题背景描述出现问题的场景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：org.springframework.jdbc.datasource.lookup.DataSourceLookupFailureException在使用Spring框架进行开发时，数据源的配置和使用是非常关键的一环。然而，有时候我们可能会遇到org.springframewo
swing窗体打jar包后找不到图片的问题 zoyation java jar swing classloader image eclipse java
今天打jar包遇到一个怪问题:打成jar包后双击运行没反应cmd运行有反应但出现下列问题Causedby:java.lang.ExceptionInInitializerErroratcom.zou.ui.MyDialog.init(MyDialog.java:92)atcom.zou.ui.MyDialog.(MyDialog.java:45)atcom.zou.ui.LoginDialog.(
ElasticSearch查询超过10000条（1000页）时出现Result window is too large的问题王月亮17
问题当ES数据量较大，使用分页查询超过10000条（1000页）时，出现如下错误：Cannotexecutejestaction,responsecode:500,error:{"root_cause":[{"type":"query_phase_execution_exception","reason":"Resultwindowistoolarge,from+sizemustbelesstha
SQLIntegrityConstraintViolationException解决方案 lu520zxcv java
java.sql.SQLIntegrityConstraintViolationException:Duplicateentry'2'forkey't_pay.PRIMARY'当项目中出现上述异常表示，唯一的键已存在，再次向数据库插入相同唯一键的数据，此时，我们只需要将唯一键字段换一个既可。
C#文件被占用的解决方案花北城 C#项目文件占用
问题打更新包时，提示文件被占用。System.IO.IOException:文件“D:\RS\RS_CCVI20111210.exe”正由另一进程使用，因此该进程无法访问该文件。在System.IO.__Error.WinIOError(Int32errorCode,StringmaybeFullPath)在System.IO.FileStream.Init(Stringpath,FileMode
python下载pandas库镜像_下载pandas库 weixin_39791152
背景交代：在下载matplotlib库时，我已经将pip的下载源手动更改为清华的镜像，所以，如果有小伙伴在下载库遇到问题，如timeout，请先将下载源改为国内镜像，具体操作见我的另一篇文章：今天的主题是安装pandas库~首先，按田字格+R，打开cmd，输入：pipinstallpandas嗯，不出所料地报错了……主要原因：pip._vendor.urllib3.exceptions.ReadT
Java内存模型基础 2401_84002271 程序员 java 学习经验分享
1.2Java内存模型的抽象结构Java中所有的实例域、静态域和数组元素都存储在堆内存中，堆内存在线程之间共享（文章中用“共享变量”指代）。局部变量(LocalVariables)、方法定义参数(FormalMethodParameters)和异常处理器参数(ExceptionHandlerParameters)不会在线程之间共享，它们不会存在内存可见性问题，因此也不受内存模型的影响。Java线程
SpringBoot 获取 ApplicationContext loveLifeLoveCoding springboot spring boot java spring
1.概念ApplicationContext是什么？简单来说就是Spring中的容器，可以用来获取容器中的各种bean组件，注册监听事件，加载资源文件等功能2.获取ApplicationContext的方式2.1.创建工具类通过此工具类，可以方便的获取bean组件,获取配置信息等importorg.springframework.beans.BeansException;importorg.spr
10- 【JavaWeb】Tomcat、Servlet基础 weixin_44329069 JavaWeb tomcat servlet java
1.MacOS配置Tomcat服务器教程MacOS配置Tomcat服务器教程2.Servlet基础1.创建ServletServlet是一个扩展服务器功能的Java类，主要用于处理HTTP请求。以下是一个简单的Servlet示例：importjava.io.IOException;importjavax.servlet.ServletException;importjavax.servlet.an
解决：java.lang.IllegalStateException: Invalid host: lb://xxx_xxx_xxx 方九九 java 开发语言
在项目了配置了服务名gateway网关也配置了完全没有问题同时nacos这边也能发现服务但就是访问的时候状态码500报错java.lang.IllegalStateException:Invalidhost:lb://…翻译的一下大概是无效的主机解决办法：看自己的服务名是不是xxx_xxx(这种下滑线格式的)，是的话去掉下划线或改成”-“就可以了。
Spring Cloud: Hystrix请求队列线程不足 MeazZa
在SpringCloud中，Feign可以实现本地化的微服务API调用，Hystrix可以实现调用失败时的fallback处理。问题描述：在实际生产环境中使用时，我们遇到了这样一个错误："...,stacktrace:[com.netflix.hystrix.exception.HystrixRuntimeException:QueryNodeImpalaBdService#getQueryRes
Java url转MultipartFile inputStream转File file转multipartFile Abel_JiaWei java
Javaurl转MultipartFileinputStream转Filefile转multipartFile/***url转MultipartFile*@paramurl*@return*@throwsException*/publicstaticMultipartFileurlToMultipartFile(Stringurl)throwsException{Filefile=null;Mul
nacos管理springboot配置时，发生的Could not resolve placeholder两种原因生产队队长 Spring All spring boot
IllegalArgumentException:Couldnotresolveplaceholder'xxx.xxx.xxx'invalue"${xxx.xxx.xxx}"第一种：确实缺少配置，加上对应的配置即可。第二种：这个情况，可能会迷惑很多人报错某个配置无法引用，但是，检查配置时，确实存在，已经配置好了。而且，整个yml文件也没有语法格式错误。原因：我们在解决第一个问题的时候，可能导致这个
利用apache-pdfbox库修改pdf文件模板，进行信息替换区块链攻城狮 pdf 合同模板 pdf生成合同生成
publicStringcreateSignFile(Longid)throwsIOException{//1.验证企业信息CompanyDOcompany=validateCompanyExists(id);//2.验证签约状态if(company.getSignStatus()!=0){throwexception(COMPANY_SIGN_STATUS_NOT_ZERO);}//3.获取合同
BindingException: Invalid bound statement (not found) 小卡车555 MyBatis mybatis java mysql
Mybatis出现绑定异常问题的解决org.apache.ibatis.binding.BindingException:Invalidboundstatement(notfound)一般的原因是Mapperinterface和xml文件的定义对应不上，需要检查包名，namespace，函数名称等能否对应上，需要比较细致的对比，我经常就是写错了一两个字母搞的很长时间找不到错误按以下步骤一一执行：1
操作sqlserver 抛出异常 CMemoryException weixin_30484247 数据库
恭喜一下自己，还在内存中打转；并且短时间出不来了。说打开sqlserver就发现内存一直涨没有停下来的势头，怀疑是sqlserver有内存泄露——其实这是sqlserver的机制，只要内存不大于设定的最大内存，sqlserver就不释放。那么为什么会出现CMemoryException？打开资源管理器，注意到此时sqlserver占1.6G，远程管理占700M，windows自身占1G，本身的数据
安装torch报错 raise ReadTimeoutError(self._pool, None, “Read timed out.“) pip._vendor.urllib3.exceptions 待磨的钝刨 pip pytorch 人工智能
文章目录1.配置cuda的torch环境时报错1.配置命令2.报错bug2.解决方法1.增加下载超时时间：2.尝试使用镜像源：3.检查网络连接：4.分次安装：5.重试安装：6.手动下载.whl文件安装1.配置cuda的torch环境时报错1.配置命令pipinstalltorch==2.0.1torchvision==0.15.2torchaudio==2.0.2--index-urlhttps:
英语语法学习：非谓语动词&过去分词的形式练习！树先生本人
一、过去分词的变化规则1.规则变化(规则动词的变化规则)规则动词的过去分词与过去式变化规则一致：(1)一般而言，在动词原形后直接加-ed.(2)以字母e结尾的动词，直接加-d.(3)以辅音字母加-y结尾的动词，变y为i，再加-ed.(4)以重读闭音节(辅音+元音+辅音)形式结尾的动词，双写末尾的辅音字母，再加-ed.2.不规则变化(不规则动词的变化规则)过去分词的不规则变化，可以和过去式的不规则变
Elasticsearch Java API 的使用（22）—实现桶聚合迷途码界 Elasticsearch Java API 桶聚合
分组聚合使用terms实现分组集合publicclassEsTermsAggthrowsUnknownHostException{publicvoidTermsAgg(TransportClientclient){AggregationBuilderagg=AggregationBuilders.terms("terms").field("agg");SearchResponseresponse=
appium中遇到WebDriverException: Message: An unknown server-side error occurred while processing the ... Kingtester
selenium.common.exceptions.WebDriverException:Message:Anunknownserver-sideerroroccurredwhileprocessingthecommand.Originalerror:Anewsessioncouldnotbecreated.Details:sessionnotcreated:pleaseclose'com.te
java读取csv文件 c++代码诗人 java与net windows python 开发语言
importjava.io.BufferedReader;importjava.io.FileInputStream;importjava.io.IOException;importjava.io.InputStreamReader;importjava.util.ArrayList;importjava.util.List;importjava.util.regex.Matcher;import
C++新特性以及应用场景平凡而伟大(心之所向) 编程语言 c++开发语言
C++的新特性可以大致分为以下几类：模板（Templates）：提高代码复用性，包括模板函数和模板类。异常处理（ExceptionHandling）：提供了一套结构化的错误处理机制。异步编程（ConcurrencyandMultithreading）：提供了线程和原子操作等工具。智能指针（SmartPointers）：自动管理内存，如std::unique_ptr和std::shared_ptr。
Hbase - kerberos认证异常 kikiki2
之前怎么认证都认证不上，问题找了好了，发现它的异常跟实际操作根本就对不上，死马当活马医，当时也是瞎改才好的，给大家伙记录记录。KrbException:ServernotfoundinKerberosdatabase(7)-LOOKING_UP_SERVER>>>KdcAccessibility:removestorm1.starsriver.cnatsun.security.krb5.KrbTg
App发生崩溃保存崩溃日志在本地，并发送邮件给开发人员猝死的咸鱼 android 异常邮件 android app
App在客户手中时不时会出现闪退，崩溃等现象。但蛋疼的时有时候无法重现崩溃原因处理。于是，崩溃保存日志出来了，但保存在用户本地也看不到啊，于是，发邮件又来了。效果如图再说个蛋疼的问题，我在公司Androidstadio2.3.3版本UncaughtExceptionHandler不会跳到这个奔溃的提示页面，但我在家里的Androidstadio3.0.1版本有没问题。默默的问问，2.3.3-3.0
【Java】已解决：org.springframework.dao.DataAccessException 屿小夏 java oracle 数据库
文章目录一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：org.springframework.dao.DataAccessException一、分析问题背景在Spring框架中，org.springframework.dao.DataAccessException是一个常见的异常类型，通常出现在与数据库交互的过程中。当应用程序尝试执行数据库操作（例如查询、插
【springboot】--springboot全局异常处理 DreamBoy_W.W.Y springboot spring boot
目录一、默认全局异常处理二、自定义的全局异常处理一、默认全局异常处理这种方式主要是采用@ControllerAdvice注解，这是到达Controller类出现的任何异常都会统一以Exception类来返回。缺点：(1)、不同业务场景返回的异常格式都一样，不好统一/***ControllerAdvice是全局异常处理**这种使用，就是将任何地方的异常都转接到这里。*缺点是：任何异常都会进入这里，不
jmeter常见压测错误解决打工人996 服务器运维
错误一：Responsecode:NonHTTPresponsecode:java.net.SocketTimeoutExceptionResponsemessage:NonHTTPresponsemessage:connecttimedout查看Loadtime的时间要大于request设置的connecttimeout时间，因此抛出该异常。多是因为服务端有较多请求正在处理（且处理时间较长），致
文言文翻译的方法一般有如下几点！教学手札
翻译文言句子要掌握翻译的原则、步骤和方法。翻译的基本原则是直译为主，意译为辅，译文要符合现代汉语习惯，做到明白、流畅、简洁。翻译时既要字句对应，又要根据需要进行必要的调整，使译文完整，准确，得体。文言文翻译的方法一般有如下几点：（1）留：把文言文中的专有名词（朝代、年号、人名、地名、物名、器具、官职、职称等）与现代汉语意思相同的保留不译。如：“庖丁为文惠君解牛”中的“文惠君”。（2）补：指将文言文
NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla

Solr4.7.0中整合中文分词mmseg4j-1.9.1

你可能感兴趣的:(exception,中文分词,solr4.x,mmseg4j,庖丁分词)