m635674608

lucene4.7 分词器（三）之自定义分词器

一些特殊的分词需求，在此做个总结。本来的Lucene的内置的分词器，差不多可以完成我们的大部分分词工作了，如果是英文文章那么可以使用StandardAnalyzer标准分词器，WhitespaceAnalyzer空格分词器,对于中文我们则可以选择IK分词器，Messeg4j,庖丁等分词器。

我们先来看看下面的几个需求

编号	需求分析
1	按单个字符进行分词无论是数字，字母还是特殊符号
2	按特定的字符进行分词，类似String中spilt()方法
3	按照某个字符或字符串进行分词

仔细分析下上面的需求，会觉得上面的需求很没意思，但是在特定的场合下确实是存在这样的需求的，看起来上面的需求很简单，但是lucene里面内置的分析器却没有一个支持这种变态的"无聊的"分词需求,如果想要满足上面的需求，可能就需要我们自己定制自己的分词器了。

先来看第一个需求，单个字符切分，这就要不管你是the一个单词还是一个电话号码还是一段话还是其他各种特殊符号都要保留下来，进行单字切分，这种特细粒度的分词，有两种需求情况，可能适应这两种场景
(-)100%的实现数据库模糊匹配
(=)对于某个电商网站笔记本的型号Y490,要求用户无论输入Y还是4,9,0都可以找到这款笔记本

这种单字切分确实可以实现数据库的百分百模糊检索，但是同时也带来了一些问题，如果这个域中是存电话号码，或者身份证之类的与数字的相关的信息，那么这种分词法，会造成这个域的倒排链表非常之长，反映到搜索上，就会出现中文检索很快，而数字的检索确实非常之慢的问题。原因是因为数字只有0-9个字符，而汉字则远远比这个数量要大的多，所以在选用这种分词时，还是要慎重的考虑下自己的业务场景到底适不适合这种分词，否则就会可能出一些问题。

再来分析下2和3的需求，这种需求可能存在这么一种情况，就是某个字段里存的内容是按照逗号或者空格，#号，或者是自己定义的一个字符串进行分割存储的，而这种时候我们可能就会想到一些非常简单的做法，直接调用String类的spilt方法进行打散，确实，这种方式是可行的，但是lucene里面的结构某些情况下，就可能不适合用字符串拆分的方法，而是要求我们必须定义一个自己的分词器来完成这种功能，因为涉及到一些参数需要传一个分词器或者索引和检索时都要使用分词器来构造解析，所以有时候就必须得自己定义个专门处理这种情况的分词器了。

好了，散仙不在唠叨了，下面开始给出代码，首先针对第一个需求，单字切分，其实这个需求没什么难的，只要熟悉lucene的Tokenizer就可以轻松解决，我们改写ChineseTokenizer来满足我们的需求.

 
      ? 
     
           package  
           com.piaoxuexianjing.cn; 
          
           import  
           java.io.IOException; 
          
           import  
           java.io.Reader; 
          
           import  
           org.apache.lucene.analysis.Tokenizer; 
          
           import  
           org.apache.lucene.analysis.tokenattributes.CharTermAttribute; 
          
           import  
           org.apache.lucene.analysis.tokenattributes.OffsetAttribute; 
          
           import  
           org.apache.lucene.util.AttributeSource.AttributeFactory; 
          
           public  
           class  
           China  
           extends  
           Tokenizer { 
          
           public  
           China(Reader in) { 
          
           super 
           (in); 
          
           } 
          
           public  
           China(AttributeFactory factory, Reader in) { 
          
           super 
           (factory, in); 
          
           } 
          
           private  
           int  
           offset =  
           0 
           , bufferIndex= 
           0 
           , dataLen= 
           0 
           ; 
          
           private  
           final  
           static  
           int  
           MAX_WORD_LEN =  
           255 
           ; 
          
           private  
           final  
           static  
           int  
           IO_BUFFER_SIZE =  
           1024 
           ; 
          
           private  
           final  
           char 
           [] buffer =  
           new  
           char 
           [MAX_WORD_LEN]; 
          
           private  
           final  
           char 
           [] ioBuffer =  
           new  
           char 
           [IO_BUFFER_SIZE]; 
          
           private  
           int  
           length; 
          
           private  
           int  
           start; 
          
           private  
           final  
           CharTermAttribute termAtt = addAttribute(CharTermAttribute. 
           class 
           ); 
          
           private  
           final  
           OffsetAttribute offsetAtt = addAttribute(OffsetAttribute. 
           class 
           ); 
          
           private  
           final  
           void  
           push( 
           char  
           c) { 
          
           if  
           (length ==  
           0 
           ) start = offset- 
           1 
           ;             
           // start of token 
          
           buffer[length++] = Character.toLowerCase(c);   
           // buffer it 
          
           } 
          
           private  
           final  
           boolean  
           flush() { 
          
           if  
           (length> 
           0 
           ) { 
          
           //System.out.println(new String(buffer, 0, 
          
           //length)); 
          
           termAtt.copyBuffer(buffer,  
           0 
           , length); 
          
           offsetAtt.setOffset(correctOffset(start), correctOffset(start+length)); 
          
           return  
           true 
           ; 
          
           } 
          
           else 
          
           return  
           false 
           ; 
          
           } 
          
           @Override 
          
           public  
           boolean  
           incrementToken()  
           throws  
           IOException { 
          
           clearAttributes(); 
          
           length =  
           0 
           ; 
          
           start = offset; 
          
           while  
           ( 
           true 
           ) { 
          
           final  
           char  
           c; 
          
           offset++; 
          
           if  
           (bufferIndex >= dataLen) { 
          
           dataLen = input.read(ioBuffer); 
          
           bufferIndex =  
           0 
           ; 
          
           } 
          
           if  
           (dataLen == - 
           1 
           ) { 
          
           offset--; 
          
           return  
           flush(); 
          
           }  
           else 
          
           c = ioBuffer[bufferIndex++]; 
          
           switch 
           (Character.getType(c)) { 
          
           case  
           Character.DECIMAL_DIGIT_NUMBER: 
           //注意此部分不过滤一些熟悉或者字母 
          
           case  
           Character.LOWERCASE_LETTER: 
           //注意此部分 
          
           case  
           Character.UPPERCASE_LETTER: 
           //注意此部分 
          
           //                    push(c); 
          
           //                    if (length == MAX_WORD_LEN) return flush(); 
          
           //                    break; 
          
           case  
           Character.OTHER_LETTER: 
          
           if  
           (length> 
           0 
           ) { 
          
           bufferIndex--; 
          
           offset--; 
          
           return  
           flush(); 
          
           } 
          
           push(c); 
          
           return  
           flush(); 
          
           default 
           : 
          
           if  
           (length> 
           0 
           )  
           return  
           flush(); 
          
           break 
           ; 
          
           } 
          
           } 
          
           } 
          
           @Override 
          
           public  
           final  
           void  
           end() { 
          
           // set final offset 
          
           final  
           int  
           finalOffset = correctOffset(offset); 
          
           this 
           .offsetAtt.setOffset(finalOffset, finalOffset); 
          
           } 
          
           @Override 
          
           public  
           void  
           reset()  
           throws  
           IOException { 
          
           super 
           .reset(); 
          
           offset = bufferIndex = dataLen =  
           0 
           ; 
          
           } 
          
           }

然后定义个自己的分词器

 
      ? 
     
           package  
           com.piaoxuexianjing.cn; 
          
           import  
           java.io.Reader; 
          
           import  
           org.apache.lucene.analysis.Analyzer; 
          
           import  
           org.apache.lucene.analysis.Tokenizer; 
          
           /** 
          
           * @author 三劫散仙 
          
           * 单字切分 
          
           *  
          
           * **/ 
          
           public  
           class  
           MyChineseAnalyzer  
           extends  
           Analyzer { 
          
           @Override 
          
           protected  
           TokenStreamComponents createComponents(String arg0, Reader arg1) { 
          
           Tokenizer token= 
           new  
           China(arg1); 
          
           return  
           new  
           TokenStreamComponents(token); 
          
           } 
          
           }

下面我们来看单字切词效果,对于字符串
String text="天气不错132abc@#$+-)(*&^.,/";

对于第二种需求我们要模仿空格分词器的的原理，代码如下

 
      ? 
     
           package  
           com.splitanalyzer; 
          
           import  
           java.io.Reader; 
          
           import  
           org.apache.lucene.analysis.util.CharTokenizer; 
          
           import  
           org.apache.lucene.util.Version; 
          
           /*** 
          
           * 
          
           *@author 三劫散仙 
          
           *拆分char Tokenizer 
          
           *  
          
           * */ 
          
           public  
           class  
           SpiltTokenizer  
           extends  
           CharTokenizer { 
          
           char  
           c; 
          
           public  
           SpiltTokenizer(Version matchVersion, Reader input, 
           char  
           c) { 
          
           super 
           (matchVersion, input); 
          
           // TODO Auto-generated constructor stub 
          
           this 
           .c=c; 
          
           } 
          
           @Override 
          
           protected  
           boolean  
           isTokenChar( 
           int  
           arg0) { 
          
           return  
           arg0==c? 
           false 
           : 
           true  
           ; 
          
           } 
          
           }

然后在定义自己的分词器

 
      ? 
     
           package  
           com.splitanalyzer; 
          
           import  
           java.io.Reader; 
          
           import  
           org.apache.lucene.analysis.Analyzer; 
          
           import  
           org.apache.lucene.util.Version; 
          
           /** 
          
           * @author 三劫散仙 
          
           * 自定义单个char字符分词器 
          
           * **/ 
          
           public  
           class  
           SplitAnalyzer  
           extends  
           Analyzer{ 
          
           char  
           c; 
           //按特定符号进行拆分 
          
           public  
           SplitAnalyzer( 
           char  
           c) { 
          
           this 
           .c=c; 
          
           } 
          
           @Override 
          
           protected  
           TokenStreamComponents createComponents(String arg0, Reader arg1) { 
          
           // TODO Auto-generated method stub 
          
           return   
           new  
           TokenStreamComponents( 
           new  
           SpiltTokenizer(Version.LUCENE_43, arg1,c)); 
          
           } 
          
           }

下面看一些测试效果

 
      ? 
     
           package  
           com.splitanalyzer; 
          
           import  
           java.io.StringReader; 
          
           import  
           org.apache.lucene.analysis.TokenStream; 
          
           import  
           org.apache.lucene.analysis.tokenattributes.CharTermAttribute; 
          
           /** 
          
           * 测试的demo 
          
           *  
          
           * **/ 
          
           public  
           class  
           Test { 
          
           public  
           static  
           void  
           main(String[] args) 
           throws  
           Exception { 
          
           SplitAnalyzer analyzer= 
           new  
           SplitAnalyzer( 
           '#' 
           ); 
          
           //SplitAnalyzer analyzer=new SplitAnalyzer('+'); 
          
           //PatternAnalyzer analyzer=new PatternAnalyzer("abc"); 
          
           TokenStream ts=    analyzer.tokenStream( 
           "field" 
           ,  
           new  
           StringReader( 
           "我#你#他" 
           )); 
          
           // TokenStream ts=    analyzer.tokenStream("field", new StringReader("我+你+他")); 
          
           CharTermAttribute term=ts.addAttribute(CharTermAttribute. 
           class 
           ); 
          
           ts.reset(); 
          
           while 
           (ts.incrementToken()){ 
          
           System.out.println(term.toString()); 
          
           } 
          
           ts.end(); 
          
           ts.close(); 
          
           } 
          
           } 
          
           我 
          
           你 
          
           他

到这里，可能一些朋友已经看不下去了，代码太多太臃肿了，有没有一种通用的办法，解决此类问题，散仙的回答是肯定的，如果某些朋友，连看到这部分的耐心都没有的话，那么，不好意思，你只能看到比较低级的解决办法了，当然能看到这部分的道友们，散仙带着大家来看一下比较通用解决办法，这个原理其实是基于正则表达式的，所以由此看来，正则表达式在处理文本字符串上面有其独特的优势。下面我们要做的就是改写自己的正则解析器，代码非常精简，功能却是很强大的，上面的3个需求都可以解决，只需要传入不用的参数即可。

 
      ? 
     
           package  
           com.splitanalyzer; 
          
           import  
           java.io.Reader; 
          
           import  
           java.util.regex.Pattern; 
          
           import  
           org.apache.lucene.analysis.Analyzer; 
          
           import  
           org.apache.lucene.analysis.pattern.PatternTokenizer; 
          
           /** 
          
           * @author 三劫散仙 
          
           * 自定义分词器 
          
           * 针对单字切 
          
           * 单个符号切分 
          
           * 多个符号组合切分 
          
           *  
          
           * **/ 
          
           public  
           class  
           PatternAnalyzer   
           extends  
           Analyzer { 
          
           String regex; 
           //使用的正则拆分式 
          
           public  
           PatternAnalyzer(String regex) { 
          
           this 
           .regex=regex; 
          
           } 
          
           @Override 
          
           protected  
           TokenStreamComponents createComponents(String arg0, Reader arg1) { 
          
           return  
           new  
           TokenStreamComponents( 
           new  
           PatternTokenizer(arg1, Pattern.compile(regex),- 
           1 
           )); 
          
           } 
          
           }

我们来看下运行效果:

 
      ? 
     
           package  
           com.splitanalyzer; 
          
           import  
           java.io.StringReader; 
          
           import  
           org.apache.lucene.analysis.TokenStream; 
          
           import  
           org.apache.lucene.analysis.tokenattributes.CharTermAttribute; 
          
           /** 
          
           * 测试的demo 
          
           *  
          
           * **/ 
          
           public  
           class  
           Test { 
          
           public  
           static  
           void  
           main(String[] args) 
           throws  
           Exception { 
          
           //  SplitAnalyzer analyzer=new SplitAnalyzer('#'); 
          
           PatternAnalyzer analyzer= 
           new  
           PatternAnalyzer( 
           "" 
           ); 
          
           //空字符串代表单字切分   
          
           TokenStream ts=    analyzer.tokenStream( 
           "field" 
           ,  
           new  
           StringReader( 
           "我#你#他" 
           )); 
          
           CharTermAttribute term=ts.addAttribute(CharTermAttribute. 
           class 
           ); 
          
           ts.reset(); 
          
           while 
           (ts.incrementToken()){ 
          
           System.out.println(term.toString()); 
          
           } 
          
           ts.end(); 
          
           ts.close(); 
          
           } 
          
           }

输出效果:

传入#号参数

 
      ? 
     
           PatternAnalyzer analyzer= 
           new  
           PatternAnalyzer( 
           "#" 
           );

输出效果:

传入任意长度的字符串参数

 
      ? 
     
           PatternAnalyzer analyzer= 
           new  
           PatternAnalyzer( 
           "分割" 
           ); 
          
           TokenStream ts=    analyzer.tokenStream( 
           "field" 
           ,  
           new  
           StringReader( 
           "我分割你分割他分割" 
           ));

输出效果:

 
      ? 
     
           我 
          
           你 
          
           他 
          
     http://my.oschina.net/MrMichael/blog/220781

你可能感兴趣的:(lucene4.7 分词器（三）之自定义分词器)

铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《策划经理回忆录之二》路基雅虎
话说三年变六年，飘了，飘了……眨眼，2013年5月，老吴回到了他的家乡——油城从新开启他的工作幻想症生涯。很庆幸，这是一家很有追求，同时敢于尝试的，且实力不容低调的新星房企——金源置业(前身泰源置业)更值得庆幸的是第一个盘就是油城十路的标杆之一:金源盛世。2013年5月，到2015年11月，两年的陪伴，迎来了一场大爆发。2000个筹，5万/筹，直接回笼1个亿！！！这……让我开始认真审视这座看似五线
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
三大师传 beca酱
巴尔扎克的作品被誉为“法国社会的一面镜子”。文学大师维克多·雨果对巴尔扎克的评价是：“在最伟大的人物中间，巴尔扎克是名列前茅者；在最优秀的人物中间，巴尔扎克是佼佼者之一。”一个原本寂寂无名的小人物，从地中海的某个海岛上，只身一人来到巴黎，没有朋友，也没有名望。作为一个一文不名的外乡人，凭着赤手空拳赢得了巴黎，征服了整个法兰西，并且赢得了世界。这个人就是十九世纪法国伟大的军事家、政治家，法兰西第一帝
开心蒋泳频
从无比抗拒来上课到接受，感动，收获～看着波哥成长，晶晶幸福笑容满面。感觉自己做的事情很有意义，很开心！还有3个感召目标就是还有三个有缘人，哈哈。明天感召去明日计划：8：30-11：00小公益11：00-21点上班，感召图片发自App图片发自App图片发自App
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
谁家酒器最绝唱，藏在酒厂人未知？景阳冈酒厂先秦藏品大揭秘李虓酒评论
文/王赛时中国的酒器酒具历史久远，举世闻名。从北京的故宫博物院、中国国家博物馆，到世界各国的大型博物馆，都以能够收藏中国古代酒具而夸耀。但很少有人知道，在山东阳谷景阳冈酒厂，默默地收藏了两千件中国酒器。这些酒器，就封藏在景阳冈的酒道馆里。其中有一些青铜酒器，一睡就是三、四千年，堪称无声国宝，堪作无字史书！今天，我将引领诸位首先窥视一下景阳冈酒道馆的9件先秦藏品，你自己来说震撼不震撼。提示：这只是景
我的黑历史袖手围观有来有去
孩子同学与我们一起共进晚餐，俩孩子加我三个人。小同学是一个大方率性礼貌的小孩，我们也都非常喜欢。好了，回到正题上来让我把这个故事讲完。俩孩子都喜欢吃鱼，所以就发生了小孩子之间常会发生的事。我狠狠的盯了我家孩子，孩子表情有些狼狈。和孩子单独一起的时候，见她尚未释怀，并谴责我不该狠盯她，让她没面子。也许是她触动了我的童年往事吧。由此，一狠心，给她讲了一段埋藏心里极深的黑历史：我奶奶有四个儿子，四个儿子
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
如果做到轻松在股市赚钱？只要坚持这三个原则。履霜之人
大A股里向来就有七亏二平一赚的说法，能赚钱的都是少数人。否则股市就成了慈善机构，人人都有钱赚，谁还要上班？所以说亏钱是正常的，或者说是应该的。那么那些赚钱的人又是如何做到的呢？普通人能不能找到捷径去分一杯羹呢？方法是有的，但要做到需要你有极高的自律。第一，控制仓位，散户最大的问题是追涨杀跌，只要涨起来，就把钱往股票上砸，然后被套，隔天跌的受不了，又一刀切，全部割肉。来来回回间，遍体鳞伤。所以散户首
《人世间》南询yi
今日分享十点推文，《人世间》有感苏格拉底说：“天地只有三尺，而人在五尺开外，所以人人都要懂得低头。”深以为然。懂得低头，不是认输。而是于人世间找寻温存的成熟，于困境中寻觅柳暗花明的智慧，于争执中展示屈伸自如的格局。正如仰头不是骄傲，是要看见自己的天空；低头也不是认输，而是要看清自己的路。成大事者，不仅要抬头挺胸，还得低头看路。懂得低头，进退有度，不是认输，而是竭尽全力过好这一生。宫崎骏说过：“所有
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
运城寻访重逢石头纪实【严建设老照片395 集】我简直能把你想透，当我走进运城的时候。我已急得热汗直流，访问了十九个老头，把晋南的小城转了三周。虽然是悠久的思旧，我仍然是牛样的执... 严建设
运城寻访重逢石头纪实【严建设老照片395集】我简直能把你想透，当我走进运城的时候。我已急得热汗直流，访问了十九个老头，把晋南的小城转了三周。虽然是悠久的思旧，我仍然是牛样的执拗。说什么变换的世情，泛起了过去的逝流，你就是真正的故友。踏破铁鞋的淡愁，已化为不废功夫的范畴，是就像远在天涯近在咫尺，就像是梦乡的邂逅，我紧紧地攥着你的手。你已长成了高高的个头，俊逸的容颜却很清瘦，你那样顽皮的童音，已变到老
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
勇士赢了，我把掌声给了骑士复角度的生活
今天，不参加高考，只看NBA总决赛第三场的较量。这么说有点得罪高考生了，不过我没有当他们面秀，也没有跑到考点外面得瑟，所以我内心毫无波澜。毫无疑问，考场里不乏骑士和勇士球迷，在紧张作答语文考卷同时还心系着球队，不过我希望今天的比赛不会让你们有所分心，毕竟高考不会像比赛录像那样可以再来。今天，好像起来赶考一样，我起得很早，然而事实是睡不着，挺郁闷的，又不是我高考，我紧张什么？九点我并没有准时打开浏览
东南林氏之九牧林候选父系祖缘树TheYtree
渊源介绍东晋初年晋安林始祖林禄公入闽，传十世隋右丞林茂，由晋安迁居莆田北螺村。又五世而至林万宠，唐开元间任高平太守，生三子：韬、披、昌。韬公之孙攒，唐德宗立双阙以旌表其孝，时号"阙下林家"。昌公字茂吉，乃万宠公第三子，官兵部司马，配宋氏，生一子名萍。萍于唐贞元间明经及第，官沣洲司马(后追赠中宪大夫)。唐太和年间归隐后，迁居仙游游洋，世称“游洋林”；其后裔居游洋后迁移漳州漳浦路下，由路下林第四房平和
把握“三度”打造“三有”干部队伍辛德瑞拉卡卡卡
“胜败兴亡之分，不得不归咎于人事也”。干部队伍建设工作的好坏，关系到党和国家的发展全局。近日，新疆维吾尔自治区党委书记马兴瑞在部分党群单位走访调研时强调，要努力培养造就忠诚干净担当的高素质专业化干部队伍。各级组织部门应当在培养选拔干部、吸收优秀青年到党内来、培养造就优秀人才上下功夫，切实增强干部投身实践、解决问题、推进工作的能力，着力打造高素质专业化干部队伍。“天生我材必有用”，增强选育有“准度”
【JS】执行时长(100分) |思路参考+代码解析（C++） l939035548 JS 算法数据结构 c++
题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。假设GPU最多一次执行n个任务，一次执行耗时1秒，在保证GPU不空闲情况下，最少需要多长时间执行完成。题目输入第一个参数为GPU一次最多执行的任务个数，取值范围[1,10000]第二个参数为任务数组长度，取值范围[1,10000]第三个参数为任务数组，数字范围
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发

lucene4.7 分词器（三） 之自定义分词器

你可能感兴趣的:(lucene4.7 分词器（三） 之自定义分词器)

lucene4.7 分词器（三）之自定义分词器

你可能感兴趣的:(lucene4.7 分词器（三）之自定义分词器)