情怀丶

中文分词引擎 java 实现 — 正向最大、逆向最大、双向最大匹配法

正向最大匹配法

分词目标：

在词典中进行扫描，尽可能地选择与词典中最长单词匹配的词作为目标分词，然后进行下一次匹配。

算法流程：

假设词典中最长的单词为 5 个（MAX_LENGTH），那么最大匹配的起始子串字数也为 5 个

（1）扫描字典，测试读入的子串是否在字典中

（2）如果存在，则从输入中删除掉该子串，重新按照规则取子串，重复（1）

（3）如果不存在于字典中，则从右向左减少子串长度，重复（1）

分词实例：

比如说输入 “北京大学生前来应聘”，

第一轮：取子串 “北京大学生”，正向取词，如果匹配失败，每次去掉匹配字段最后面的一个字
- “北京大学生”，扫描 5 字词典，没有匹配，子串长度减 1 变为“北京大学”
- “北京大学”，扫描 4 字词典，有匹配，输出“北京大学”，输入变为“生前来应聘”
第二轮：取子串“生前来应聘”
- “生前来应聘”，扫描 5 字词典，没有匹配，子串长度减 1 变为“生前来应”
- “生前来应”，扫描 4 字词典，没有匹配，子串长度减 1 变为“生前来”
- “生前来”，扫描 3 字词典，没有匹配，子串长度减 1 变为“生前”
- “生前”，扫描 2 字词典，有匹配，输出“生前”，输入变为“来应聘””
第三轮：取子串“来应聘”
- “来应聘”，扫描 3 字词典，没有匹配，子串长度减 1 变为“来应”
- “来应”，扫描 2 字词典，没有匹配，子串长度减 1 变为“来”
- 颗粒度最小为 1，直接输出“来”，输入变为“应聘”
第四轮：取子串“应聘”
- “应聘”，扫描 2 字词典，有匹配，输出“应聘”，输入变为“”
输入长度为0，扫描终止

正向匹配法最终的切分结果为：”北京大学 / 生前 / 来 / 应聘”

正向匹配法实现代码如下：

public List leftMax(String str) {

        List results = new ArrayList();
        String input = str;

        while( input.length() > 0 ) {

            String subSeq;
            // 每次取小于或者等于最大字典长度的子串进行匹配
            if( input.length() < MAX_LENGTH) 
                subSeq = input;
            else
                subSeq = input.substring(0, MAX_LENGTH);

            while( subSeq.length() > 0 ) {
                // 如果字典中含有该子串或者子串颗粒度为1，子串匹配成功
                if( dictionary.contains(subSeq) || subSeq.length() == 1) {
                    results.add(subSeq);
                    // 输入中从前向后去掉已经匹配的子串
                    input = input.substring(subSeq.length());
                    break;      // 退出循环，进行下一次匹配
                } else {
                    // 去掉匹配字段最后面的一个字
                    subSeq = subSeq.substring(0, subSeq.length() - 1);
                }   
            }

        }
        return results;
    }

逆向最大匹配法

分词目标：

在词典中进行扫描，尽可能地选择与词典中最长单词匹配的词作为目标分词，然后进行下一次匹配。

在实践中，逆向最大匹配算法性能优于正向最大匹配算法。

算法流程：

假设词典中最长的单词为 5 个（MAX_LENGTH），那么最大匹配的起始子串字数也为 5 个

（1）扫描字典，测试读入的子串是否在字典中

（2）如果存在，则从输入中删除掉该子串，重新按照规则取子串，重复（1）

（3）如果不存在于字典中，则从左向右减少子串长度，重复（1）

分词实例：

比如说输入 “北京大学生前来应聘”，

第一轮：取子串 “生前来应聘”，逆向取词，如果匹配失败，每次去掉匹配字段最前面的一个字
- “生前来应聘”，扫描 5 字词典，没有匹配，字串长度减 1 变为“前来应聘”
- “前来应聘”，扫描 4 字词典，没有匹配，字串长度减 1 变为“来应聘”
- “来应聘”，扫描 3 字词典，没有匹配，字串长度减 1 变为“应聘”
- “应聘”，扫描 2 字词典，有匹配，输出“应聘”，输入变为“大学生前来”
第二轮：取子串“大学生前来”
- “大学生前来”，扫描 5 字词典，没有匹配，字串长度减 1 变为“学生前来”
- “学生前来”，扫描 4 字词典，没有匹配，字串长度减 1 变为“生前来”
- “生前来”，扫描 3 字词典，没有匹配，字串长度减 1 变为“前来”
- “前来”，扫描 2 字词典，有匹配，输出“前来”，输入变为“北京大学生”
第三轮：取子串“北京大学生”
- “北京大学生”，扫描 5 字词典，没有匹配，字串长度减 1 变为“京大学生”
- “京大学生”，扫描 4 字词典，没有匹配，字串长度减 1 变为“大学生”
- “大学生”，扫描 3 字词典，有匹配，输出“大学生”，输入变为“北京”
第四轮：取子串“北京”
- “北京”，扫描 2 字词典，有匹配，输出“北京”，输入变为“”
输入长度为0，扫描终止

逆向匹配法最终的切分结果为：”北京/ 大学生/ 前来 / 应聘”

逆向匹配法实现如下：

public List<String> rightMax(String str) {
        // 采用堆栈处理结果，后进先出
        Stack<String> store=new Stack<String>();
        List<String> results = new ArrayList<String>();
        String input = str;

        while( input.length() > 0 ) {

            String subSeq;
            // 每次取小于或者等于最大字典长度的子串进行匹配
            if( input.length() < MAX_LENGTH)
                subSeq = input;
            else 
                subSeq = input.substring(input.length() - MAX_LENGTH);

            while( subSeq.length() > 0 ) {
                // 如果字典中含有该子串或者子串颗粒度为1，子串匹配成功
                if( dictionary.contains(subSeq) || subSeq.length() == 1) {
                    store.add(subSeq);
                    // 输入中从后向前去掉已经匹配的子串
                    input = input.substring(0, input.length() - subSeq.length());
                    break;
                } else {
                    // 去掉匹配字段最前面的一个字
                    subSeq = subSeq.substring(1);
                }
            }
        }
        // 输出结果
        int size = store.size();
        for( int i = 0; i < size; i ++) {
            results.add(store.pop());
        }

        return results;
    }

双向最大匹配法

分词目标：

将正向最大匹配算法和逆向最大匹配算法进行比较，从而确定正确的分词方法。

算法流程：

比较正向最大匹配和逆向最大匹配结果
如果分词数量结果不同，那么取分词数量较少的那个
如果分词数量结果相同
- 分词结果相同，可以返回任何一个
- 分词结果不同，返回单字数比较少的那个

分词实例：

就上例来看，

正向匹配最终切分结果为：北京大学 / 生前 / 来 / 应聘，分词数量为 4，单字数为 1

逆向匹配最终切分结果为：”北京/ 大学生/ 前来 / 应聘，分词数量为 4，单字数为 0

逆向匹配单字数少，因此返回逆向匹配的结果。

双向最大匹配法实现如下：

public List segment() {
        List fmm = this.leftMax();
        List bmm = this.rightMax();

        // 如果分词的结果不同，返回长度较小的
        if( fmm.size() != bmm.size()) {
            if ( fmm.size() > bmm.size())
                return bmm;
            else 
                return bmm;
        }
        // 如果分词的词数相同
        else {
            int fmmSingle = 0, bmmSingle = 0;
            boolean isEqual = true;
            for( int i = 0; i < bmm.size(); i ++) {
                if( !fmm.get(i).equals(bmm.get(i))) {
                    isEqual = false;
                }
                if( fmm.get(i).length() == 1)
                    fmmSingle ++;
                if( bmm.get(i).length() == 1)
                    bmmSingle ++;
            }
            // 如果正向、逆向匹配结果完全相等，返回任意结果
            if ( isEqual ) {
                return fmm;
            // 否则，返回单字数少的匹配方式
            } else if ( fmmSingle > bmmSingle)      
                return bmm;
            else 
                return fmm;     
        }

    }

载入字典和自定义添加词

这里的字典文件采用的是

http://download.csdn.net/download/yuanlulu/2380141

载入字典和自定义添加词实现如下：

private static Set dictionary;  
    // 初始化字典，采用 hashset 存储
    public void getDictionary() {
        dictionary = new HashSet();  
        String dicpath = "data/worddict2.txt";  
        String line = null;  

            BufferedReader br;
            try {
                // 按照 gbk 编码读入文件
                br = new BufferedReader(new InputStreamReader(new FileInputStream(dicpath),"gbk"));
                try {
                    while(((line = br.readLine())!=null)) {
                        // 按照空格切分，只读取第二部分
                        String[] str = line.split("\\s+");
                        line = str[1];
                        dictionary.add(line);   
                    }
                    br.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            } catch (UnsupportedEncodingException | FileNotFoundException e) {
                e.printStackTrace();
            }       
    }
    // 自定义添加词汇
    public void addWord(String str) {
        dictionary.add(str);    
    }

歧义句测试

可以看到效果还不错，最大匹配法的效果还是取决于字典的质量。

整体代码如下：

package mm;
import java.io.BufferedReader;
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.HashSet;
import java.util.List;
import java.util.Set;
import java.util.Stack;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.InputStreamReader;
import java.io.UnsupportedEncodingException; 
public class MMSegment {

    private String request;
    private int MAX_LENGTH = 5;
    private static Set dictionary;  

    public void getDictionary() {
        dictionary = new HashSet();  
        String dicpath = "data/worddict2.txt";  
        String line = null;  

            BufferedReader br;
            try {
                br = new BufferedReader(new InputStreamReader(new FileInputStream(dicpath),"gbk"));
                try {
                    while(((line = br.readLine())!=null)) {
                        String[] str = line.split("\\s+");
                        line = str[1];
                        dictionary.add(line);   
                    }
                    br.close();
                } catch (IOException e) {
                    e.printStackTrace();
                }
            } catch (UnsupportedEncodingException | FileNotFoundException e) {
                e.printStackTrace();
            }       
    }

    public void addWord(String str) {
        dictionary.add(str);    
    }

    public List leftMax() {

        List results = new ArrayList();
        String input = request;

        while( input.length() > 0 ) {

            String subSeq;
            if( input.length() < MAX_LENGTH) 
                subSeq = input;
            else
                subSeq = input.substring(0, MAX_LENGTH);

            while( subSeq.length() > 0 ) {
                if( dictionary.contains(subSeq) || subSeq.length() == 1) {
                    results.add(subSeq);
                    input = input.substring(subSeq.length());
                    break;  
                } else {
                    subSeq = subSeq.substring(0, subSeq.length() - 1);
                }   
            }

        }
        return results;
    }
    public List rightMax() {

        Stack store=new Stack();
        List results = new ArrayList();
        String input = request;

        while( input.length() > 0 ) {

            String subSeq;
            if( input.length() < MAX_LENGTH)
                subSeq = input;
            else 
                subSeq = input.substring(input.length() - MAX_LENGTH);

            while( subSeq.length() > 0 ) {
                if( dictionary.contains(subSeq) || subSeq.length() == 1) {
                    store.add(subSeq);
                    input = input.substring(0, input.length() - subSeq.length());
                    break;
                } else {
                    subSeq = subSeq.substring(1);
                }
            }
        }
        int size = store.size();
        for( int i = 0; i < size; i ++) {
            results.add(store.pop());
        }

        return results;
    }

    public List segment() {
        List fmm = this.leftMax();
        List bmm = this.rightMax();

        if( fmm.size() != bmm.size()) {
            if ( fmm.size() > bmm.size())
                return bmm;
            else 
                return fmm;
        }

        else {
            int fmmSingle = 0, bmmSingle = 0;
            boolean isEqual = true;
            for( int i = 0; i < bmm.size(); i ++) {
                if( !fmm.get(i).equals(bmm.get(i))) {
                    isEqual = false;
                }
                if( fmm.get(i).length() == 1)
                    fmmSingle ++;
                if( bmm.get(i).length() == 1)
                    bmmSingle ++;
            }

            if ( isEqual ) {
                return fmm;
            } else if ( fmmSingle > bmmSingle)      
                return bmm;
            else 
                return fmm; 
        }
    }

    public void test(String str) {
        request = str;
        System.out.println(this.segment());
    }

    public static void main(String[] args) {
        MMSegment f = new MMSegment();
        f.getDictionary();
        f.test("研究生命科学");
        f.test("研究生命令本科生");
        f.test("我从马上下来");
        f.test("北京大学生喝进口红酒");
        f.test("美军中将竟公然说");
        f.test("阿美首脑会议将讨论巴以和平等问题");
        f.addWord("巴以和平");
        System.out.println("---------------------------");
        System.out.println("向字典中添加'巴以和平'后");
        f.test("阿美首脑会议将讨论巴以和平等问题");
        f.test("我不想吃东西");
    }

}

参考资料

[1] http://blog.csdn.net/worldwindjp/article/details/18085725

[2] http://blog.csdn.net/hu948162999/article/details/43608107

[3] http://blog.csdn.net/xiaoyeyopulei/article/details/25194021

[4] http://blog.csdn.net/chenlei0630/article/details/40710441

“Java岗八股文”2025版史上最新最全超详细易理解，面试必备（三）MyBatis篇爱学习的小熊猫_ Java岗八股文速通 java 面试 mybatis 后端
文章目录MyBatis篇1、MyBatis执行流程2、Mybatis是否支持延迟加载？3、什么叫做延迟加载？4、延迟加载的原理5、Mybatis的一级、二级缓存用过吗？MyBatis篇1、MyBatis执行流程读取MyBatis配置文件：mybatis-config.xml加载运行环境和映射文件构造会话工厂SqlSessionFactory会话工厂创建SqlSession对象（包含了执行SQL语句
别再死记硬背了！来扒一扒Java动态代理与CGLIB nextera-void java 代理模式 springboot 动态代理
嘿，各位Javaer！关于动态代理。你可能每天都在用它，但又不完全知道它是什么。比如，当你潇洒地在Service方法上写下@Transactional时，有没有想过，这个注解是如何像魔法一样，自动帮你开启和提交事务的？这背后的大功臣，就是我们今天要聊的动态代理。在Java世界里，实现动态代理主要有两大门派：JDK动态代理和CGLIB。它们就像是武林中的“南拳”和“北腿”，各有千秋，共同撑起了AOP
Java ArrayList之应用技巧 wofaba java python windows
JavaArrayList之应用技巧ArrayList是Java集合框架中最常用的动态数组实现，提供了灵活的数据存储和操作方式。掌握其核心技巧能显著提升开发效率。初始化与容量优化默认构造函数创建的ArrayList初始容量为10，频繁扩容可能影响性能。预先估算数据量并指定初始容量可减少扩容开销：//预估存放500个元素ArrayListlist=newArrayListsrcList=newArr
Java 列表排序之应用技巧 wofaba java python windows
Java列表排序之应用技巧在实际开发中，列表排序是常见的操作之一。Java提供了多种排序方式，包括使用Collections.sort()、List.sort()以及结合Comparator实现自定义排序。以下是一些实用的排序技巧和代码示例。基本排序方法对于基本数据类型或已实现Comparable接口的对象，可以直接使用Collections.sort()进行排序。例如，对Integer列表进行排
PHP调试工具--KINT astarblog
KINT是一个免费开源，不用安装的PHP调试工具，用来替代系统内置的比如var_dump(),print_r(),debug_backtrace()等相关函数安装(获得KINT)通过phar点击下载
＜Java＞使用Comparable和Comparator自定义排序小李子还挺酸 Java java
文章目录1、基本类型排序2、为对象进行排序对List中的元素进行排序，可以使用List自带的sort()方法，使用时，我们需要向其传入一个实现的Comparator接口defaultvoidsort(Comparatorc){Object[]a=this.toArray();Arrays.sort(a,(Comparator)c);ListIteratori=this.listIterator()
Java 包装类之应用技巧 jianaio java 开发语言
Java包装类的核心作用Java包装类（如Integer、Double、Boolean等）将基本数据类型转换为对象，主要解决以下场景：集合框架（如List）必须使用对象类型需要区分未赋值状态（null与0的差异）提供类型转换、进制转换等工具方法//基本类型与包装类转换intprimitive=42;Integerwrapped=Integer.valueOf(primitive);//装箱intu
Java 正则表达式之应用技巧 jianaio java 正则表达式 mysql
Java正则表达式之应用技巧基本语法与匹配规则Java正则表达式通过java.util.regex包实现，核心类为Pattern和Matcher。以下为基本匹配示例：Patternpattern=Pattern.compile("a.b");//匹配任意单个字符between'a'and'b'Matchermatcher=pattern.matcher("a2b");System.out.prin
Java 数据类型
Java数据类型概述Java数据类型分为两大类：基本数据类型和引用数据类型。基本数据类型直接存储数据值，而引用数据类型存储对象的引用（内存地址）。以下将详细介绍这两类数据类型，并附代码示例。基本数据类型Java有8种基本数据类型，分为4类：整数型：byte、short、int、long浮点型：float、double字符型：char布尔型：boolean整数型byteb=127;//1字节，范围-
Java 类型转换 jianaio java python 算法
Java类型转换概述Java类型转换分为两种：自动类型转换（隐式转换）和强制类型转换（显式转换）。自动类型转换由编译器自动完成，通常发生在小范围数据类型向大范围数据类型转换时；强制类型转换需要手动指定，可能伴随精度损失或数据溢出。自动类型转换（隐式转换）自动类型转换遵循从小到大的规则，例如byte→short→int→long→float→double。intnumInt=100;longnumL
Java 字符串 jianaio java python 开发语言
Java字符串基础Java字符串是java.lang.String类的对象，用于存储和操作文本数据。字符串在Java中是不可变的，任何修改操作都会生成新的字符串对象。Stringstr1="Hello";Stringstr2=newString("World");System.out.println(str1+""+str2);//输出:HelloWorld字符串创建方式直接赋值：使用双引号创建字
Java for 循环
Javafor循环的基本语法Java中的for循环是一种常用的循环结构，适用于已知循环次数的情况。其基本语法如下：for(初始化;条件判断;迭代){//循环体}初始化部分通常用于声明并初始化循环变量；条件判断部分决定循环是否继续执行；迭代部分用于更新循环变量。标准for循环示例以下是一个简单的for循环示例，打印数字1到5：for(inti=1;ifruits=Arrays.asList("App
LLM4SR: A Survey on Large Language Models for Scientific Research UnknownBody LLM Daily Survey Paper 语言模型人工智能自然语言处理
文章主要内容文章围绕大语言模型（LLMs）在科学研究中的应用展开，系统探讨了其在科研各关键阶段的作用、方法、挑战及未来方向。科学假设发现：LLMs生成科学假设的研究源于“基于文献的发现”和“归纳推理”。现有方法通过灵感检索策略、反馈模块等组件提升假设生成质量，相关基准测试分为基于文献和数据驱动两类，评估指标涵盖新颖性、有效性等。虽取得一定成果，但面临实验验证困难、依赖现有LLMs能力等挑战。实验规
什么是序列化？是二进制吗？一文解答你的疑惑！
一、序列化：数据转换的艺术1.1什么是序列化？序列化（Serialization）是指将数据结构或对象状态转换为可存储或可传输的格式的过程。简单来说，就是把内存中的对象变成可以保存到文件或通过网络发送的形式。//Java序列化示例publicclassPersonimplementsSerializable{privateStringname;privateintage;//gettersands
Java Comparable之应用技巧 jianaio java 开发语言
Comparable接口的基本概念Java中的Comparable接口位于java.lang包中，主要用于定义对象的自然排序规则。该接口仅包含一个方法compareTo()，实现该接口的类需要重写该方法以提供对象之间的比较逻辑。publicinterfaceComparable{intcompareTo(To);}实现Comparable接口的步骤定义一个类并实现Comparable接口，重写co
【华为OD机试真题 2025C卷】161、机器人可活动的最大网格点数目 | 机试真题+思路参考+代码解析（C++、Java、Py、C语言、JS） KFickle 最新华为OD机试(C++Java Py C JS)+OJ 华为od 机器人 c++华为OD机试真题 java 机器人可活动的最大网格点数目 c语言
文章目录一、题目题目描述输入输出样例1二、代码与思路参考C++代码Java代码Python代码C语言代码JS代码订阅本专栏后即可解锁在线OJ刷题权限个人博客首页：KFickle专栏介绍：最新的华为OD机试真题，使用C++，Java，Python，C语言，JS五种语言进行解答，每个题目都包含解题思路，五种语言的解法，每日持续更新中，订阅后支持开通在线OJ测试刷题！！！一次订阅永久享受更新，有代码问题
高并发场景下的技术压测与问题排查：P7面试官考核并发优化方案淳淳同学 Java面试场景题 Java 高并发压测 GC 性能优化
文章标题：“Java求职者面试：高并发场景下的技术压测与问题排查”Tag：Java,高并发,压测,GC,性能优化场景描述：面试官（张工）：一位严肃且专业的Java面试官，专注于高并发和性能优化领域，对技术细节有着深刻的理解。小兰：一名年轻但略显紧张的Java程序员，面试前虽然做了准备，但在复杂问题上显得有些犹豫和含糊。第一轮提问：基础知识与高并发场景引入张工：小兰，你好，很高兴见到你。我们先从简单
Java实现简单秒杀功能
在商城项目中，秒杀功能可以说是必不可少的，下面我将使用SpringBoot集成Redis、RabbitMQ、MyBatis-Plus和MySQL来实现一个简单的秒杀系统，系统将包含以下核心功能：使用Redis进行库存预减和用户限流；使用RabbitMQ进行异步下单，提高系统吞吐量；使用MyBatis-Plus操作MySQL数据库；利用Redis执行Lua脚本的原子性防止商品超卖；接口限流（使用Re
windows下jar包配置为开机自启动
在jar包目录新建一个start.bat文件，然后写入启动命令java-jarX.jar2.仍然在此目录，新建start.vbs文件，然后写入一下命令，命令最后一个0是隐藏窗口运行createobject("wscript.shell").run"D:\start.bat",03.创建run.vbs的快捷方式，移动到开机自启动目录下：C:\ProgramData\Microsoft\Windows
Java大视界：Java大数据在智能医疗电子健康档案数据挖掘与健康服务创新＞ Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
>本文通过完整代码示例，揭秘如何用Java大数据技术挖掘电子健康档案价值，实现疾病预测、个性化健康管理等创新服务。###一、智能医疗时代的数据金矿电子健康档案（EHR）作为医疗数字化的核心载体，包含海量患者全生命周期健康数据。据统计，全球医疗数据量正以每年**48%的速度增长**，单个三甲医院年数据量可达**PB级**。这些数据蕴藏着疾病规律、治疗效能的宝贵知识，但传统技术难以有效挖掘。**Jav
UMLS（统一医学语言系统）—— 小白最强攻略（讲解+运用）
1概念介绍1.1UMLS介绍UMLS(UnifiedMedicalLanguageSystem)，是由美国国立医学图书馆（NLM）开发的，旨在通过整合各种生物医学术语系统来促进医学信息的统一检索和应用。链接：https://uts.nlm.nih.gov/uts/signUpUMLS参考手册：https://www.ncbi.nlm.nih.gov/books/NBK9676/技术上：Unifie
Windows后台运行jar包 BillKu windows jar java
在Windows系统中，可以通过以下几种方法让JAR文件在后台静默运行：方法1：使用javaw命令javaw是Java的无控制台版本，不会显示命令行窗口。直接运行命令：cmd复制下载javaw-jaryour-app.jar进程会在后台运行，但关闭当前命令提示符窗口时进程可能会终止（取决于启动方式）。持久化后台运行（推荐）：新建一个批处理文件（如run.bat），内容如下：bat复制下载@echo
c++ 反射与QMetaObject::invokeMethod介绍
文章目录c++QMetaObject::invokeMethodC++语言标准本身并不直接支持反射机制，这与Java、C#等语言不同，它们在语言层面提供了丰富的反射API。然而，C++是一种非常灵活的语言，可以通过一些设计和编程技巧来实现类似反射的功能。在C++中实现反射通常涉及以下几种技术：动态创建对象：反射可以在运行时创建任意一个已经定义的类的对象实例，即使你在编写代码时并不知道将要创建哪个类
Java 创建线程的方式笔记笑衬人心。 JAVA学习笔记 java 笔记开发语言 juc
一、Java中创建线程的四种主要方式方式简述适用场景继承Thread类重写run()方法，直接创建线程简单场景、临时任务实现Runnable接口将任务与线程分离推荐方式，任务更灵活实现Callable接口支持返回值和异常异步任务，需要结果的场景使用线程池（Executor）统一管理线程、复用资源高并发任务、后台服务等二、方式一：继承Thread类2.1示例代码publicclassMyThread
java中map和对象互转工具类
在项目开发中，经常碰到map转实体对象或者对象转map的场景，工作中，很多时候我们可能比较喜欢使用第三方jar包的API对他们进行转化，而且用起来也还算方便，比如像fastJson就可以轻松实现map和对象的互转，但这里，我想通过反射的方式对他们做转化，也算是对反射的学习和研究吧；1、map转对象；主要思路，将map中的key-value取出来，然后和给定的对象去匹配，为了使工具方法更具通用性，直
Redisson：强大的Redis Java客户端库大宝S**蜜 java
Redisson：强大的RedisJava客户端库在Java应用程序中，Redis经常作为缓存、消息代理、分布式锁等功能的首选。然而，直接使用Redis的原生协议或Jedis等简单的Java客户端可能不足以满足复杂的分布式和并发需求。这时，Redisson作为一个功能强大的RedisJava客户端库，提供了许多高级功能和易用性改进，成为开发者的有力工具。1.Redisson简介Redisson是一
Java双重检测锁解决MySQL和Redis数据一致性问题
Java双重检测锁解决MySQL和Redis数据一致性问题双重检测锁(Double-CheckedLocking)是一种在多线程环境下优化性能的设计模式，可以用于解决MySQL和Redis之间的数据一致性问题。下面我将介绍如何实现这一方案。问题背景在MySQL和Redis双存储系统中，常见的一致性问题包括：缓存穿透：查询不存在的数据，导致每次请求都打到数据库缓存击穿：热点key失效瞬间，大量请求直
APP开发注意事项
不仅仅是移动APP，包括面向服务的SOA架构，都需要制定一套统一、规范的接口，那么，做这样的后端接口需要注意哪些问题呢？1、跨平台性所谓跨平台是指我们的接口要能够支持不同的终端，比如android、ios、windowsphone以及桌面软件、网站等，一套接口，支持多端，就像当年Java的口号一样“WriteOnce,RunAnywhere”。当然从本质上讲，服务器端的接口跟终端是没有太大关系的，
Logger日志记录 Kiri霧开发语言 android java kotlin
Java日志记录简介日志是软件应用程序中的记录信息，我们可以选择将其保存到文件中，或显示在控制台上。这些记录可以描述任何内容：程序中的一个事件、变量的值、错误或异常等。日志主要用于调试目的。今天，我们将学习Java标准SDK中用于日志记录的java.util.logging包。要使用Java的日志功能，你需要了解以下几个组件：LoggerFileHandlerConsoleHandlerSimpl
Nodejs中process有哪些常用方法？
在Node.js中，process是一个全局对象，提供了与当前Node.js进程互动的接口。它包含了一系列的方法和属性，可以帮助你获取系统信息，处理命令行参数，以及控制进程的行为等。以下是一些process对象的常用方法：process.argv：这不是一个方法，而是一个包含命令行参数的数组。第一个元素是’node’，第二个元素是正在执行的JavaScript文件的路径，接下来的元素则是任何其他命
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

中文分词引擎 java 实现 — 正向最大、逆向最大、双向最大匹配法

正向最大匹配法

逆向最大匹配法

双向最大匹配法

载入字典和自定义添加词

歧义句测试

参考资料

你可能感兴趣的:(Natural,Language,Processing,Tokenize,Algorithem,中文分词,最大匹配,java,nlp,自然语言处理)