yangshangchuan

中文分词算法之基于词典的正向最大匹配算法

基于词典的正向最大匹配算法（最长词优先匹配），算法会根据词典文件自动调整最大长度，分词的好坏完全取决于词典。

算法流程图如下：

Java实现代码如下：

/**
 * 基于词典的正向最大匹配算法
 * @author 杨尚川
 */
public class WordSeg {
    private static final List<String> DIC = new ArrayList<>();
    private static final int MAX_LENGTH;
    static{
        try {
            System.out.println("开始初始化词典");
            int max=1;
            int count=0;
            List<String> lines = Files.readAllLines(Paths.get("D:/dic.txt"), Charset.forName("utf-8"));
            for(String line : lines){
                DIC.add(line);
                count++;
                if(line.length()>max){
                    max=line.length();
                }
            }
            MAX_LENGTH = max;
            System.out.println("完成初始化词典，词数目："+count);
            System.out.println("最大分词长度："+MAX_LENGTH);
        } catch (IOException ex) {
            System.err.println("词典装载失败:"+ex.getMessage());
        }
        
    }
    public static void main(String[] args){
        String text = "杨尚川是APDPlat应用级产品开发平台的作者";  
        System.out.println(seg(text));
    }
    public static List<String> seg(String text){        
        List<String> result = new ArrayList<>();
        while(text.length()>0){
            int len=MAX_LENGTH;
            if(text.length()<len){
                len=text.length();
            }
            //取指定的最大长度的文本去词典里面匹配
            String tryWord = text.substring(0, 0+len);
            while(!DIC.contains(tryWord)){
                //如果长度为一且在词典中未找到匹配，则按长度为一切分
                if(tryWord.length()==1){
                    break;
                }
                //如果匹配不到，则长度减一继续匹配
                tryWord=tryWord.substring(0, tryWord.length()-1);
            }
            result.add(tryWord);
            //从待分词文本中去除已经分词的文本
            text=text.substring(tryWord.length());
        }
        return result;
    }
}

词典文件下载地址dic.rar，简单吧，呵呵

实现功能是简单，不过这里的词典中词的数目为：427452，我们需要频繁执行DIC.contains(tryWord))来判断一个词是否在词典中，所以优化这行代码能够显著提升分词效率（不要过早优化、不要做不成熟的优化）。

上面的代码是利用了JDK的Collection接口的contains方法来判断一个词是否在词典中，而这个方法的不同实现，其性能差异极大，上面的初始版本是用了ArrayList：List<String> DIC = new ArrayList<>()。那么这个ArrayList的性能如何呢？还有更好性能的实现吗？

通常来说，对于查找算法，在有序列表中查找比在无序列表中查找更快，分区查找比全局遍历要快。

通过查看ArrayList、LinkedList、HashSet的contains方法的源代码，发现ArrayList和LinkedList采用全局遍历的方式且未利用有序列表的优势，HashSet使用了分区查找，如果hash分布均匀冲突少，则需要遍历的列表就很少甚至不需要。理论归理论，还是写个代码来测测更直观放心，测试代码如下：

/**
 * 比较词典查询算法的性能
 * @author 杨尚川
 */
public class SearchTest {
    //为了生成随机查询的词列表
    private static final List<String> DIC_FOR_TEST = new ArrayList<>();
    //通过更改这里DIC的实现来比较不同实现之间的性能
    private static final List<String> DIC = new ArrayList<>();
    static{
        try {
            System.out.println("开始初始化词典");
            int count=0;
            List<String> lines = Files.readAllLines(Paths.get("D:/dic.txt"), Charset.forName("utf-8"));
            for(String line : lines){
                DIC.add(line);
                DIC_FOR_TEST.add(line);
                count++;
            }
            System.out.println("完成初始化词典，词数目："+count);
        } catch (IOException ex) {
            System.err.println("词典装载失败:"+ex.getMessage());
        }        
    }
    public static void main(String[] args){
        //选取随机值
        List<String> words = new ArrayList<>();
        for(int i=0;i<100000;i++){
            words.add(DIC_FOR_TEST.get(new Random(System.nanoTime()+i).nextInt(427452)));
        }
        long start = System.currentTimeMillis();
        for(String word : words){
            DIC.contains(word);
        }
        long cost = System.currentTimeMillis()-start;
        System.out.println("cost time:"+cost+" ms");
    }
}

#分别运行10次测试，然后取平均值
LinkedList     10000次查询       cost time:48812 ms
ArrayList      10000次查询       cost time:40219 ms
HashSet        10000次查询       cost time:8 ms
HashSet        1000000次查询     cost time:258 ms
HashSet        100000000次查询   cost time:28575 ms

我们发现HashSet性能最好，比LinkedList和ArrayList快约3个数量级！这个测试结果跟前面的分析一致，LinkedList要比ArrayList慢一些，虽然他们都是全局遍历，但是LinkedList需要操作下一个数据的引用，所以会多一些操作，LinkedList因为需要保存前驱和后继引用，占用的内存也要高一些。

虽然HashSet已经有不错的性能了，但是如果词典越来越大，内存占用越来越多怎么办？如果有一个数据结构，有接近HashSet性能的同时，又能对词典的数据进行压缩以减少内存占用，那就完美了。

前缀树（Trie）有可能可以实现“鱼与熊掌兼得”的好事，自己实现一个Trie的数据结构，代码如下：

/**
 * 前缀树的Java实现
 * 用于查找一个指定的字符串是否在词典中
 * @author 杨尚川
 */
public class Trie {
    private final TrieNode ROOT_NODE = new TrieNode('/');

    public boolean contains(String item){
        //去掉首尾空白字符
        item=item.trim();
        int len = item.length();
        if(len < 1){
            return false;
        }
        //从根节点开始查找
        TrieNode node = ROOT_NODE;
        for(int i=0;i<len;i++){
            char character = item.charAt(i);
            TrieNode child = node.getChild(character);
            if(child == null){
                //未找到匹配节点
                return false;
            }else{
                //找到节点，继续往下找
                node = child;
            }
        }
        if(node.isTerminal()){
            return true;
        }
        return false;
    }
    public void addAll(List<String> items){
        for(String item : items){
            add(item);
        }
    }
    public void add(String item){
        //去掉首尾空白字符
        item=item.trim();
        int len = item.length();
        if(len < 1){
            //长度小于1则忽略
            return;
        }
        //从根节点开始添加
        TrieNode node = ROOT_NODE;
        for(int i=0;i<len;i++){
            char character = item.charAt(i);
            TrieNode child = node.getChildIfNotExistThenCreate(character);
            //改变顶级节点
            node = child;
        }
        //设置终结字符，表示从根节点遍历到此是一个合法的词
        node.setTerminal(true);
    }
    private static class TrieNode{
        private char character;
        private boolean terminal;
        private final Map<Character,TrieNode> children = new ConcurrentHashMap<>();        
        public TrieNode(char character){
            this.character = character;
        }
        public boolean isTerminal() {
            return terminal;
        }
        public void setTerminal(boolean terminal) {
            this.terminal = terminal;
        }        
        public char getCharacter() {
            return character;
        }
        public void setCharacter(char character) {
            this.character = character;
        }
        public Collection<TrieNode> getChildren() {
            return this.children.values();
        }
        public TrieNode getChild(char character) {
            return this.children.get(character);
        }        
        public TrieNode getChildIfNotExistThenCreate(char character) {
            TrieNode child = getChild(character);
            if(child == null){
                child = new TrieNode(character);
                addChild(child);
            }
            return child;
        }
        public void addChild(TrieNode child) {
            this.children.put(child.getCharacter(), child);
        }
        public void removeChild(TrieNode child) {
            this.children.remove(child.getCharacter());
        }        
    }
    
    public void show(){
        show(ROOT_NODE,"");
    }
    private void show(TrieNode node, String indent){
        if(node.isTerminal()){
            System.out.println(indent+node.getCharacter()+"(T)");
        }else{
            System.out.println(indent+node.getCharacter());
        }
        for(TrieNode item : node.getChildren()){
            show(item,indent+"\t");
        }
    }
    public static void main(String[] args){
        Trie trie = new Trie();
        trie.add("APDPlat");
        trie.add("APP");
        trie.add("APD");
        trie.add("Nutch");
        trie.add("Lucene");
        trie.add("Hadoop");
        trie.add("Solr");
        trie.add("杨尚川");
        trie.add("杨尚昆");
        trie.add("杨尚喜");
        trie.add("中华人民共和国");
        trie.add("中华人民打太极");
        trie.add("中华");
        trie.add("中心思想");
        trie.add("杨家将");        
        trie.show();
    }
}

修改前面的测试代码，把List<String> DIC = new ArrayList<>()改为Trie DIC = new Trie()，使用Trie来做词典查找，最终的测试结果如下：

#分别运行10次测试，然后取平均值
LinkedList     10000次查询       cost time:48812 ms
ArrayList      10000次查询       cost time:40219 ms
HashSet        10000次查询       cost time:8 ms
HashSet        1000000次查询     cost time:258 ms
HashSet        100000000次查询   cost time:28575 ms
Trie           10000次查询       cost time:15 ms
Trie           1000000次查询     cost time:1024 ms
Trie           100000000次查询   cost time:104635 ms

可以发现Trie和HashSet的性能差异较小，在半个数量级以内，通过jvisualvm惊奇地发现Trie占用的内存比HashSet的大约2.6倍，如下图所示：

HashSet:

Trie:

词典中词的数目为427452，HashSet是基于HashMap实现的，所以我们看到占内存最多的是HashMap$Node、char[]和String，手动执行GC多次，这三种类型的实例数一直在变化，当然都始终大于词数427452。Trie是基于ConcurrentHashMap实现的，所以我们看到占内存最多的是ConcurrentHashMap、ConcurrentHashMap$Node[]、ConcurrentHashMap$Node、Trie$TrieNode和Character，手动执行GC多次，发现Trie$TrieNode的实例数一直保持不变，说明427452个词经过Trie处理后的节点数为603141。

很明显地可以看到，这里Trie的实现不够好，选用ConcurrentHashMap占用的内存相当大，那么我们如何来改进呢？把ConcurrentHashMap替换为HashMap可以吗？HashSet不是也基于HashMap吗？看看把ConcurrentHashMap替换为HashMap后的效果，如下图所示：

内存占用虽然少了10M左右，但仍然是HashSet的约2.4倍，本来是打算使用Trie来节省内存，没想反正更加占用内存了，既然使用HashMap来实现Trie占用内存极高，那么试试使用数组的方式，如下代码所示：

/**
 * 前缀树的Java实现
 * 用于查找一个指定的字符串是否在词典中
 * @author 杨尚川
 */
public class TrieV2 {
    private final TrieNode ROOT_NODE = new TrieNode('/');

    public boolean contains(String item){
        //去掉首尾空白字符
        item=item.trim();
        int len = item.length();
        if(len < 1){
            return false;
        }
        //从根节点开始查找
        TrieNode node = ROOT_NODE;
        for(int i=0;i<len;i++){
            char character = item.charAt(i);
            TrieNode child = node.getChild(character);
            if(child == null){
                //未找到匹配节点
                return false;
            }else{
                //找到节点，继续往下找
                node = child;
            }
        }
        if(node.isTerminal()){
            return true;
        }
        return false;
    }
    public void addAll(List<String> items){
        for(String item : items){
            add(item);
        }
    }
    public void add(String item){
        //去掉首尾空白字符
        item=item.trim();
        int len = item.length();
        if(len < 1){
            //长度小于1则忽略
            return;
        }
        //从根节点开始添加
        TrieNode node = ROOT_NODE;
        for(int i=0;i<len;i++){
            char character = item.charAt(i);
            TrieNode child = node.getChildIfNotExistThenCreate(character);
            //改变顶级节点
            node = child;
        }
        //设置终结字符，表示从根节点遍历到此是一个合法的词
        node.setTerminal(true);
    }
    private static class TrieNode{
        private char character;
        private boolean terminal;
        private TrieNode[] children = new TrieNode[0];
        public TrieNode(char character){
            this.character = character;
        }
        public boolean isTerminal() {
            return terminal;
        }
        public void setTerminal(boolean terminal) {
            this.terminal = terminal;
        }        
        public char getCharacter() {
            return character;
        }
        public void setCharacter(char character) {
            this.character = character;
        }
        public Collection<TrieNode> getChildren() {
            return Arrays.asList(children);            
        }
        public TrieNode getChild(char character) {
            for(TrieNode child : children){
                if(child.getCharacter() == character){
                    return child;
                }
            }
            return null;
        }        
        public TrieNode getChildIfNotExistThenCreate(char character) {
            TrieNode child = getChild(character);
            if(child == null){
                child = new TrieNode(character);
                addChild(child);
            }
            return child;
        }
        public void addChild(TrieNode child) {
            children = Arrays.copyOf(children, children.length+1);
            this.children[children.length-1]=child;
        }
    }
    
    public void show(){
        show(ROOT_NODE,"");
    }
    private void show(TrieNode node, String indent){
        if(node.isTerminal()){
            System.out.println(indent+node.getCharacter()+"(T)");
        }else{
            System.out.println(indent+node.getCharacter());
        }        
        for(TrieNode item : node.getChildren()){
            show(item,indent+"\t");
        }
    }
    public static void main(String[] args){
        TrieV2 trie = new TrieV2();
        trie.add("APDPlat");
        trie.add("APP");
        trie.add("APD");
        trie.add("杨尚川");
        trie.add("杨尚昆");
        trie.add("杨尚喜");
        trie.add("中华人民共和国");
        trie.add("中华人民打太极");
        trie.add("中华");
        trie.add("中心思想");
        trie.add("杨家将");        
        trie.show();
    }
}

内存占用情况如下图所示：

现在内存占用只有HashSet方式的80%了，内存问题总算是解决了，进一步分析，如果词典够大，词典中有共同前缀的词足够多，节省的内存空间一定非常客观。那么性能呢？看如下重新测试的数据：

#分别运行10次测试，然后取平均值
LinkedList     10000次查询       cost time:48812 ms
ArrayList      10000次查询       cost time:40219 ms
HashSet        10000次查询       cost time:8 ms
HashSet        1000000次查询     cost time:258 ms
HashSet        100000000次查询   cost time:28575 ms
Trie           10000次查询       cost time:15 ms
Trie           1000000次查询     cost time:1024 ms
Trie           100000000次查询   cost time:104635 
TrieV1         10000次查询       cost time:16 ms
TrieV1         1000000次查询     cost time:780 ms
TrieV1         100000000次查询   cost time:90949 ms
TrieV2         10000次查询       cost time:50 ms
TrieV2         1000000次查询     cost time:4361 ms
TrieV2         100000000次查询   cost time:483398

总结一下，ArrayList和LinkedList方式实在太慢，跟最快的HashSet比将近慢约3个数量级，果断抛弃。Trie比HashSet慢约半个数量级，内存占用多约2.6倍，改进的TrieV1比Trie稍微节省一点内存约10%，速度差不多。进一步改进的TrieV2比Trie大大节省内存，只有HashSet的80%，不过速度比HashSet慢约1.5个数量级。

TrieV2实现了节省内存的目标，节省了约70%，但是速度也慢了，慢了约10倍，可以对TrieV2做进一步优化，TrieNode的数组children采用有序数组，采用二分查找来加速。

下面看看TrieV3的实现：

使用了一个新的方法insert来加入数组元素，从无到有构建有序数组，把新的元素插入到已有的有序数组中，insert的代码如下：

        /**
         * 将一个字符追加到有序数组
         * @param array 有序数组
         * @param element 字符
         * @return 新的有序数字
         */
        private TrieNode[] insert(TrieNode[] array, TrieNode element){
            int length = array.length;
            if(length == 0){
                array = new TrieNode[1];
                array[0] = element;
                return array;
            }
            TrieNode[] newArray = new TrieNode[length+1];
            boolean insert=false;
            for(int i=0; i<length; i++){
                if(element.getCharacter() <= array[i].getCharacter()){
                    //新元素找到合适的插入位置
                    newArray[i]=element;
                    //将array中剩下的元素依次加入newArray即可退出比较操作
                    System.arraycopy(array, i, newArray, i+1, length-i);
                    insert=true;
                    break;
                }else{
                    newArray[i]=array[i];
                }
            }
            if(!insert){
                //将新元素追加到尾部
                newArray[length]=element;
            }
            return newArray;
        }

有了有序数组，在搜索的时候就可以利用有序数组的优势，重构搜索方法getChild：

数组中的元素是TrieNode，所以需要自定义TrieNode的比较方法：

好了，一个基于有序数组的二分搜索的性能提升重构就完成了，良好的单元测试是重构的安全防护网，没有单元测试的重构就犹如高空走钢索却没有防护垫一样危险，同时，不过早优化，不做不成熟的优化是我们应该谨记的原则，要根据应用的具体场景在算法的时空中做权衡。

OK，看看TrieV3的性能表现，当然了，内存使用没有变化，和TrieV2一样：

TrieV2         10000次查询       cost time:50 ms
TrieV2         1000000次查询     cost time:4361 ms
TrieV2         100000000次查询   cost time:483398 ms
TrieV3         10000次查询       cost time:21 ms
TrieV3         1000000次查询     cost time:1264 ms
TrieV3         100000000次查询   cost time:121740 ms

提升效果很明显，约4倍。性能还有提升的空间吗？呵呵......

参考资料：

二分查找模板--从题目中讲解三大二分模板大胆飞猪算法训练篇算法 c++leetcode
二分查找的特点：最恶心、细节最多、最容易写出死循环的算法目录1.朴素的二分模板1.1题目链接：704.二分查找1.2题目描述：1.3算法流程：1.4算法代码：1.5朴素二分模板：2.查找左,右边界的二分模板2.1题目链接：34.在排序数组中查找元素的第一个和最后一个位置2.2题目描述：2.3算法思路：2.4算法代码2.5左右边界的二分模板：2.6左右边界模板的记忆方法：1.朴素的二分模板1.1题目
【华为OD机试】真题E卷-最佳对手（Python）西攻城狮北华为od python 华为华为od机试最佳对手
一、题目描述题目描述：游戏里面，队伍通过匹配实力相近的对手进行对战。但是如果匹配的队伍实力相差太大，对于双方游戏体验都不会太好。给定n个队伍的实力值，对其进行两两实力匹配，两支队伍实例差距在允许的最大差距d内，则可以匹配。要求在匹配队伍最多的情况下匹配出的各组实力差距的总和最小。二、输入输出输入描述：第一行：nd，分别表示：队伍个数，允许的最大实力差距2≤n≤500≤d≤100第二行：n个队伍的实
结合《星际穿越》快速带你了解数据库中一些难点奇思妙想q 数据库
让我们把数据库的知识点「穿越」到《星际穿越》的宇宙中，用虫洞、黑洞、五维空间和墨菲定律来一场硬核科幻类比！1.索引≈虫洞（Wormhole）电影场景：库珀利用虫洞瞬间抵达遥远星系，跳过了漫长的太空航行。数据库类比：虫洞是宇宙的「捷径」，而索引是数据库的「捷径」，让查询跳过全表扫描，直达目标数据。联合索引的最左匹配原则：就像穿越虫洞需要精确坐标（星系→行星→轨道），缺少左侧条件会迷失在太空中！索引失
独家专访精选：计算大小和值技巧规律的心态转变 2501_91407761 人工智能大数据
在现代社会，创造力被认为是推动社会进步和经济发展的重要动力。在这个变化万千、竞争激烈的时代，企业和学术界都在不断探索如何更有效地激发和管理创造力，以实现创新和经济效益的双重目标。因此，创造领域模式的探讨显得尤为重要。首先，创造领域模式为我们提供了一种框架，使我们能够更好地理解创造力的本质及其在不同领域中的表现。根据米哈伊·契克森米哈伊的“流动理论”，创造力往往在个体最投入并感到快乐的状态中涌现。这
什么是 Embedding？——从直觉到应用的全面解读忍者算法人工智能深度学习神经网络机器学习
什么是Embedding？——从直觉到应用的全面解读在机器学习和深度学习的世界里，我们经常会听到“Embedding”这个词。它是深度学习中最核心的概念之一，尤其在自然语言处理（NLP）和推荐系统中应用广泛。但很多初学者对Embedding的理解可能只是：“它是把一个东西转换成数字的方式。”这种解释虽然没错，但过于简略，难以真正理解Embedding的作用。这篇文章将用最直观的方式，带你深入理解E
算法-深度优先搜索 Java版蜡笔小新算法算法深度优先
在图上寻找路径在图上如何寻找从1到8的路径?一种策略：只要能发现没走过的点，就走到它。有多个点可走就随便挑一个，如果无路可走就回退，再看有没有没走过的点可走。运气最好：1->2->4->82运气稍差：1->2->4->5->6->8运气坏：1->3->7->9=>7->A=>7=>3->5->6->8（双线箭头表示回退）不连通的图，无法从节点1走到节点8。完整的尝试过程可能如下：1->2->4->
Spring cloud gateway详解和配置使用 ewenge java gateway springcloud spring boot
一、基本功能网关核心功能是路由转发，因此不要有耗时操作在网关上处理，让请求快速转发到后端服务上网关还能做统一的熔断（Hystrix断路器）、请求限流（接口、用户）、安全认证、日志监控、路径重写、服务注册发现、可针对路由设置Predicate（断言）和Filter（过滤器）等匹配的注册中心：Eureka、Consul、NacosZuul对比gateway：Zuul1.x是阻塞的，2.x的版本中，Zu
蓝桥杯算法实战分享：十大经典案例助你突破编程瓶颈清水白石008 课程教程学习笔记职业生涯蓝桥杯算法职场和发展
蓝桥杯算法实战分享：十大经典案例助你突破编程瓶颈蓝桥杯作为国内最负盛名的编程大赛，其题目不仅考查编程能力，更检验选手对算法思想的理解与实践水平。今天，我将带大家深度解析历年蓝桥杯中的经典算法题，分享十个实战案例，助你在备赛阶段建立一整套高效、灵活的解题思路，并提升编程技能。一、蓝桥杯算法题的价值与挑战蓝桥杯题目覆盖数据结构、搜索、动态规划、贪心算法、图论、字符串处理等多个领域。从简单的数组遍历、排
博途 TIA Portal之1200的PN通讯之（1200做控制器与智能设备） Amos_ FAT 博途 TIA Portal 西门子200SMART 经验分享网络协议
1、博途组态PNIO通讯的三种途径；1.1、最简洁的方式，打开“设备与网络”/网络视图项，然后在右侧“硬件目录”中查看是否有我们需要的设备。例如ET200SP，大多数的ET200S可以在这里找到。如下图所示：1.2、还有一部分的IO设备需要在其官方网站上提前下载好GSD文件，然后导入GSD文件后，才能在上图中的硬件目录中找到。例如那一小部分的ET200S，汇川EASY系列做PNIO设备通讯时；导入
MateChat：前端智能化场景解决方案集，轻松构建你的AI应用开源项目精选人工智能
MateChat致力于构建不同业务场景下高一致性的GenAI体验系统语言，同时匹配各种工具/平台的原生业务场景和界面特征，提供更适合研发工具领域的对话组件，打造流畅亲和、跨界一致、易学易用的用户体验，以及易接入、易维护、易扩展的开发体验。主要特点开箱即用的解决方案：一站式智能对话解决方案内置对话逻辑及常用模板，支持自由定制与二次开发组件丰富，功能全面：基于DevUI基础组件，提供了50+基础组件，
OpenAI、谷歌、DeepSeek 同日发布新成果！技术较量，实力如何？算力云人工智能行业资讯算力租赁人工智能 AIGC LLM大模型 GPU算力
3月25日，AI领域迎来密集更新。前脚谷歌上线了最强大的推理模型Gemini2.5Pro，后脚OpenAI发布了GPT-4o图像生成功能，而中国的深度求索团队也在官网宣布DeepSeek-V3完成小版本的更新，版本号为DeepSeek-V30324。三大AI巨头同日交锋，各展身手，揭开2025年AI领域的第一轮混战？让我们一起来看看这些新版本、新功能有何亮点吧！谷歌上线最智能的AI模型Gemini
网关及路由大象荒野开发工具服务器 linux 网络
Linux网卡优先级配置及同时访问内外网设置-轶哥碰到的情况是，板卡上一个wlan一个eth0，有线接的摄像头，连了有线就上不了网。Ubuntu持久化route配置Ubuntu/LinuxMint/Ukylin/国产麒麟系统中开机执行route命令，只需要直接修改/etc/rc.local文件，把需要开机自动执行的命令写在exit0前面：(sleep30/usr/sbin/routedeldefa
HBase 命令行坠月川
hbase是一款分布式数据库.其对数据的索引只通过rowkey进行.在存储数据的时候,通过rowkey的排序进行存储.在面对一个新的数据库时,深究其原理并不知一个明智的选择,正如开车一般,大多数人都是先学会开车,然后在开车的过程中车子出故障了,再慢慢学着去修理.不管怎么说,第一步都是要先会使用.这篇文章主要为了整理hbase命令行的使用,留待以后用到时翻阅.读取数据因为一个数据库使用,通常最复杂的
一文读懂Sql Server读写分离和分库分表 Marzlam Sql Server基础知识 sqlserver
读写分离顾名思义就是读和写分离在不同数据库操作减免操作之间影响提升性能读写分离通过将数据库的读操作（SELECT）和写操作（INSERT/UPDATE/DELETE）分发到不同的物理实例上，从多个维度优化资源利用和并发处理能力，从而显著提升整体性能。思路：主从同步发布订阅主库应对写从库应对读可扩展从库数量适用场景：读多写少，对数据实时性要求较高的业务（如电商商品查询）实现建议：优先在读多写少（读写
【Python】matplotlib：Python可视化库，补充：报错处理（安装超时，numpy/pandas/matplotlib版本匹配问题，scipy安装报错） yannan20190313 Python python matplotlib 信息可视化
Matplotlib是Python中最基础的可视化模块，主要用于绘制二维平面图。其它可视化库有些是基于matplotlib，例如：seaborn库就是基于matplotlib专用于统计数据可视化。Matplotlib官网：Matplotlib—VisualizationwithPythonMatplotlib是第三方库，需要安装：pipinstallmatplotlib导入Matplotlib库：
二叉树理论基础详解：从零开始理解数据结构的核心 weixin_47868976 数据结构算法深度优先
二叉树理论基础详解：从零开始理解数据结构的核心在算法与数据结构的学习中，二叉树是一种非常基础但又极其重要的数据结构。无论是编程面试还是实际开发，对二叉树的理解都是必不可少的技能。本文将从头开始，系统地介绍二叉树的基本概念、实现方式以及相关操作。目录二叉树简介二叉树的种类满二叉树完全二叉树二叉树的存储方式顺序存储（数组）链式存储（指针结构）二叉树的遍历方式深度优先遍历前序遍历中序遍历后序遍历广度优先
保安员证考试资料分享，附答案解析人人题职场和发展微信公众平台学习方法微信小程序笔记教育电商业界资讯
一、理论知识题（单选题）题目：警车、消防车、救护车、工程救险车执行紧急任务时，其他车辆（）A.加速穿行B.谨慎超越C.视情让行D.应当让行答案：D解析：根据《道路交通安全法》规定，特种车辆执行紧急任务时，其他车辆和行人应当让行，确保其优先通行权。题目：根据《保安服务管理条例》，下列不属于保安员义务的是（）A.遵守纪律B.履行劳动合同C.保守秘密D.登记出入物品答案：D解析：保安员的义务包括遵守法律
P1481 魔族密码好好学习^按时吃饭算法
题目来自洛谷网站：字典树trie思路：题目要求我们找到最长的词链，题目告诉我们：如果在一个由一个词或多个词组成的表中，除了最后一个以外，每个单词都被其后的一个单词所包含，即前一个单词是后一个单词的前缀，则称词表为一个词链。①将输入的字符串存入字典树中，在存入的过程中，我们用dp数组来记录以这个字符串末尾结尾的字符串链接了几个字符串。②也就是说，题目的最长词链一定是树上最长的支，当我们找完了这个字符
第12章:优化并发_《C++性能优化指南》notes 郭涤生性能优化 c/c++c++性能优化算法笔记
优化并发一、并发基础与优化核心知识点二、关键代码示例与测试三、关键优化策略总结四、性能测试方法论多选题设计题答案与详解多选题答案：设计题答案示例一、并发基础与优化核心知识点线程vs异步任务核心区别：std::thread直接管理线程，std::async由运行时决定异步策略（可能用线程池）。优化点：频繁创建线程开销大，优先用std::async。原子操作与内存序原子类型：std::atomic确保
opengl绘制文字 huangzhichang13 opengl
转自网摘http://www.cnblogs.com/mattins/p/4126298.html。没示例程序。增加了两个文件，showline.c,showtext.c。分别为第二个和第三个示例程序的main函数相关部分。在ctbuf.h和textarea.h最开头部分增加了一句#include附件中一共有三个示例程序：第一个，飘动的“曹”字旗。代码为：flag.c,GLee.c,GLee.h第
IDEA基础快捷键幼稚调皮的钟 JAVA编程开发 intellij-idea java ide
IDEA版本|IntelliJIDEA2023.3.4(UltimateEdition)对于旧版本或新版本的IDEA快捷键可能会有变化，具体功能还请自行实践快捷键速查代码操作代码补全代码修改，注释，添加代码美化代码Debug文本查询快捷键代码信息查询搜索查询文本代码结构查询代码操作代码补全功能说明快捷键快速修补Alt+Enter代码补全Ctrl+空格智能补全Ctrl+Shift+空格自动匹配类型补
运维“鄙视链”，哪个更有前途？反正不是最后一个！无法无天霸王龙运维 linux 云计算学习
截止到目前，有不少粉丝朋友前来咨询，咨询多了，我发现了一个问题。很多运维朋友，还处于低端运维岗。哪些是低端运维岗？哪些是高端运维岗呢？今天简单和大家聊一聊。1、DevOps和云原生架构师处于运维天花板级别的，绝对当属DevOps和云原生架构师了，最直接了当的，他们掌握的技术比较全面高端，在各个IT企业里，开出的薪资一般也是运维里最高的了。2、DBADBA也属于高端运维了，别看它只是数据库方向，在企
Android Studio 常见问题解决 YJlio android studio android ide
AndroidStudio常见问题解决1.AndroidStudio无法启动或崩溃可能原因：JDK版本不兼容、内存不足、插件冲突。解决方法：检查并更新JDK到最新版本。增加内存分配：修改studio.vmoptions文件中的-Xmx值。禁用或卸载冲突的插件。2.Gradle构建失败可能原因：Gradle版本不兼容、网络问题、依赖冲突。解决方法：更新Gradle和AndroidGradle插件到最
Verilog 中寄存器类型（reg）与线网类型（wire）的区别千千道 FPGA fpga开发
目录一、前言二、基本概念与分类1.寄存器类型2.线网类型三、六大核心区别对比四、使用场景深度解析1.寄存器类型的典型应用2.线网类型的典型应用五、常见误区与注意事项1.寄存器≠物理寄存器2.未初始化值陷阱3.SystemVerilog的改进六、总结一、前言在Verilog硬件描述语言中，寄存器类型（RegisterTypes）和线网类型（NetTypes）是两类最基础且容易混淆的变量类型。理解二者
第 3 章 | 重入攻击 Reentrancy 全解析白马区块Crypto100 web3安全审计 Solidity 安全硬核教程区块链智能合约 solidity web3 web安全区块链安全
第3章|重入攻击Reentrancy全解析——从TheDAO闪崩事件开始，构建你对链上攻击的基本盘✅章节导读“你把钱转出去了，却还没更新余额，攻击者趁你没反应，再次提款。然后……再来一次。”这就是重入攻击。Reentrancy是Solidity最臭名昭著、历史最悠久的合约漏洞类型。它不仅出现在**TheDAO（2016）**的事件中，几乎每年都有重大项目中招。本章我们将：搞清楚Reentrancy
CSS多设备兼容-媒体查询以及在SCSS中的应用！
CSS媒体查询为你提供了一种应用CSS的方法，仅在浏览器和设备的环境与你指定的规则相匹配的时候CSS才会真的被应用，例如“视口宽于480像素”的时候。我们可以利用媒体查询来实现响应式布局，适应各种设备(pc、ipad、phone)视口大小。媒体查询参考：媒体查询媒体查询的类型有一下4种：类型说明all默认值，所有设备（可省略不写）print打印设备(用于打印机和打印预览）screen用于电脑屏幕，
VSCode 中 Git 功能比较：内置 Git、GitLens 与 Git History 插件 scoone Git vscode git ide
在软件开发领域，版本控制是维护代码变更的重要工具。Git作为最流行的版本控制系统，被广泛集成在各种代码编辑器中。VisualStudioCode（VSCode）不仅内置了Git支持，还提供了丰富的扩展来增强Git功能。本文将对比VSCode内置Git功能、GitLens扩展以及GitHistory插件在代码比较方面的应用。VSCode内置Git功能VSCode的内置Git功能为开发者提供了一套基本
CAA记录技术解析与工程实践指南后端
一、CAA技术规范解析1.1协议定义与RFC标准CAA（CertificationAuthorityAuthorization）记录定义于RFC6844标准，属于DNS资源记录类型（TYPE257）。该记录通过DNS系统声明授权证书颁发机构（CA），其核心作用在于建立域名与合法CA的绑定关系。技术参数说明：生效层级：遵循DNS树状继承结构，子域名默认继承父域策略，显式声明可覆盖上级设置策略优先级：
从入门到精通：SQL注入防御与攻防实战——红队如何突破，蓝队如何应对！ Aishenyanying33 护网 mysql 注入漏洞护网红蓝对抗 sql注入和防御
引言：为什么SQL注入攻击依然如此强大？SQL注入（SQLInjection）是最古老且最常见的Web应用漏洞之一。尽管很多公司和组织都已经采取了WAF、防火墙、数据库隔离等防护措施，但SQL注入依然在许多情况下能够突破防线，成为攻击者渗透内网、窃取敏感信息的重要手段。本篇文章将深入剖析SQL注入攻击的全过程，详细讲解红队是如何突破现有防线的，并且为蓝队提供实战防御策略。通过真实场景案例，从简单到
DeepSeek AI大模型 Prompt工程 Langchain AI原生应用开发 Milvus AnythingLLM Dify知识点详解，一次到位，少走弯路 yuanlaile prompt langchain AI-native deepseek
AI引领的第四次工业革命正席卷而来，如何精准把握这一历史性机遇，将会成为我们这一代人不容忽视且需深入思考与积极行动的重要课题。在AGI（通用人工智能）时代，那些既精通AI技术、又具备编程能力和业务洞察力的复合型人才将成为最宝贵的资源。DeepSeekR1本地部署DeepSeekApi接口调用DeepSeekRAG知识库工作流系列教程通过上面视频的学习，我们能够全面掌握PromptEngineeri
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分

中文分词算法 之 基于词典的正向最大匹配算法

你可能感兴趣的:(中文分词,最长词优先匹配,正向最大匹配,基于词典)

中文分词算法之基于词典的正向最大匹配算法