杨尚川

中文分词算法之基于词典的逆向最大匹配算法

在之前的博文中介绍了基于词典的正向最大匹配算法，用了不到50行代码就实现了，然后分析了词典查找算法的时空复杂性，最后使用前缀树来实现词典查找算法，并做了3次优化。

下面我们看看基于词典的逆向最大匹配算法的实现，实验表明，对于汉语来说，逆向最大匹配算法比(正向)最大匹配算法更有效，如下代码所示：

    public static List<String> segReverse(String text){        
        Stack<String> result = new Stack<>();
        while(text.length()>0){
            int len=MAX_LENGTH;
            if(text.length()<len){
                len=text.length();
            }
            //取指定的最大长度的文本去词典里面匹配
            String tryWord = text.substring(text.length() - len);
            while(!DIC.contains(tryWord)){
                //如果长度为一且在词典中未找到匹配，则按长度为一切分
                if(tryWord.length()==1){
                    break;
                }
                //如果匹配不到，则长度减一继续匹配
                tryWord=tryWord.substring(1);
            }
            result.push(tryWord);
            //从待分词文本中去除已经分词的文本
            text=text.substring(0, text.length()-tryWord.length());
        }
        int len=result.size();
        List<String> list = new ArrayList<>(len);
        for(int i=0;i<len;i++){
            list.add(result.pop());
        }
        return list;
    }

算法跟正向相差不大，重点是使用Stack来存储分词结果，具体差异如下图所示：

下面看看正向和逆向的分词效果，使用如下代码：

public static void main(String[] args){
	List<String> sentences = new ArrayList<>();
	sentences.add("杨尚川是APDPlat应用级产品开发平台的作者");
	sentences.add("研究生命的起源");
	sentences.add("长春市长春节致辞");
	sentences.add("他从马上下来");
	sentences.add("乒乓球拍卖完了");
	sentences.add("咬死猎人的狗");
	sentences.add("大学生活象白纸");
	sentences.add("他有各种才能");
	sentences.add("有意见分歧");
	for(String sentence : sentences){
		System.out.println("正向最大匹配: "+seg(sentence));
		System.out.println("逆向最大匹配: "+segReverse(sentence));
	}
}

运行结果如下：

开始初始化词典
完成初始化词典，词数目：427452
最大分词长度：16
正向最大匹配: [杨尚川, 是, APDPlat, 应用, 级, 产品开发, 平台, 的, 作者]
逆向最大匹配: [杨尚川, 是, APDPlat, 应用, 级, 产品开发, 平台, 的, 作者]
正向最大匹配: [研究生, 命, 的, 起源]
逆向最大匹配: [研究, 生命, 的, 起源]
正向最大匹配: [长春市, 长春, 节, 致辞]
逆向最大匹配: [长春, 市长, 春节, 致辞]
正向最大匹配: [他, 从, 马上, 下来]
逆向最大匹配: [他, 从, 马上, 下来]
正向最大匹配: [乒乓球拍, 卖完, 了]
逆向最大匹配: [乒乓球拍, 卖完, 了]
正向最大匹配: [咬, 死, 猎人, 的, 狗]
逆向最大匹配: [咬, 死, 猎人, 的, 狗]
正向最大匹配: [大学生, 活象, 白纸]
逆向最大匹配: [大学生, 活象, 白纸]
正向最大匹配: [他, 有, 各种, 才能]
逆向最大匹配: [他, 有, 各种, 才能]
正向最大匹配: [有意, 见, 分歧]
逆向最大匹配: [有, 意见分歧]

下面看看实际的分词性能如何，对输入文件进行分词，然后将分词结果保存到输出文件，输入文本文件从这里下载，解压后大小为69M，词典文件从这里下载，解压后大小为4.5M，项目源代码托管在GITHUB：

/**
 * 将一个文件分词后保存到另一个文件
 * @author 杨尚川
 */
public class SegFile {    
    public static void main(String[] args) throws Exception{
        String input = "input.txt";
        String output = "output.txt";
        if(args.length == 2){
            input = args[0];
            output = args[1];
        }
        long start = System.currentTimeMillis();
        segFile(input, output);
        long cost = System.currentTimeMillis()-start;
        System.out.println("cost time:"+cost+" ms");
    }
    public static void segFile(String input, String output) throws Exception{
        float max=(float)Runtime.getRuntime().maxMemory()/1000000;
        float total=(float)Runtime.getRuntime().totalMemory()/1000000;
        float free=(float)Runtime.getRuntime().freeMemory()/1000000;
        String pre="执行之前剩余内存:"+max+"-"+total+"+"+free+"="+(max-total+free);
        try(BufferedReader reader = new BufferedReader(new InputStreamReader(new FileInputStream(input),"utf-8"));
                BufferedWriter writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(output),"utf-8"))){
            int textLength=0;
            long start = System.currentTimeMillis();
            String line = reader.readLine();
            while(line != null){
                textLength += line.length();
                writer.write(WordSeg.seg(line).toString()+"\n");
                line = reader.readLine();
            }
            long cost = System.currentTimeMillis() - start;
            float rate = textLength/cost;
            System.out.println("文本字符："+textLength);
            System.out.println("分词耗时："+cost+" 毫秒");
            System.out.println("分词速度："+rate+" 字符/毫秒");
        }
        max=(float)Runtime.getRuntime().maxMemory()/1000000;
        total=(float)Runtime.getRuntime().totalMemory()/1000000;
        free=(float)Runtime.getRuntime().freeMemory()/1000000;
        String post="执行之后剩余内存:"+max+"-"+total+"+"+free+"="+(max-total+free);
        System.out.println(pre);
        System.out.println(post);
    }
}

测试结果如下（对比TrieV3和HashSet的表现）：

开始初始化词典
dic.class=org.apdplat.word.dictionary.impl.TrieV3
dic.path=dic.txt
完成初始化词典，耗时695 毫秒，词数目：427452
词典最大词长：16
词长  0 的词数为：1
词长  1 的词数为：11581
词长  2 的词数为：146497
词长  3 的词数为：162776
词长  4 的词数为：90855
词长  5 的词数为：6132
词长  6 的词数为：3744
词长  7 的词数为：2206
词长  8 的词数为：1321
词长  9 的词数为：797
词长 10 的词数为：632
词长 11 的词数为：312
词长 12 的词数为：282
词长 13 的词数为：124
词长 14 的词数为：116
词长 15 的词数为：51
词长 16 的词数为：25
词典平均词长：2.94809
字符数目：24960301
分词耗时：64014 毫秒
分词速度：389.0 字符/毫秒
执行之前剩余内存:2423.3901-61.14509+60.505272=2422.7505
执行之后剩余内存:2423.3901-961.08545+203.32925=1665.6339
cost time:64029 ms

开始初始化词典
dic.class=org.apdplat.word.dictionary.impl.HashSet
dic.path=dic.txt
完成初始化词典，耗时293 毫秒，词数目：427452
词典最大词长：16
词长  0 的词数为：1
词长  1 的词数为：11581
词长  2 的词数为：146497
词长  3 的词数为：162776
词长  4 的词数为：90855
词长  5 的词数为：6132
词长  6 的词数为：3744
词长  7 的词数为：2206
词长  8 的词数为：1321
词长  9 的词数为：797
词长 10 的词数为：632
词长 11 的词数为：312
词长 12 的词数为：282
词长 13 的词数为：124
词长 14 的词数为：116
词长 15 的词数为：51
词长 16 的词数为：25
词典平均词长：2.94809
字符数目：24960301
分词耗时：77254 毫秒
分词速度：323.0 字符/毫秒
执行之前剩余内存:2423.3901-61.14509+60.505295=2422.7505
执行之后剩余内存:2423.3901-900.46466+726.91455=2249.84
cost time:77271 ms

在上篇文章基于词典的正向最大匹配算法中，我们已经优化了词典查找算法（DIC.contains(tryWord)）的性能（百万次查询只要一秒左右的时间），即使经过优化后TrieV3仍然比HashSet慢4倍，也不影响它在分词算法中的作用，从上面的数据可以看到，TrieV3的整体分词性能领先HashSet十五个百分点（15%），而且内存占用只有HashSet的80%。

如何来优化分词算法呢？分词算法有什么问题吗？

回顾一下代码：

public static List<String> seg(String text){        
	List<String> result = new ArrayList<>();
	while(text.length()>0){
		int len=MAX_LENGTH;
		if(text.length()<len){
			len=text.length();
		}
		//取指定的最大长度的文本去词典里面匹配
		String tryWord = text.substring(0, 0+len);
		while(!DIC.contains(tryWord)){
			//如果长度为一且在词典中未找到匹配，则按长度为一切分
			if(tryWord.length()==1){
				break;
			}
			//如果匹配不到，则长度减一继续匹配
			tryWord=tryWord.substring(0, tryWord.length()-1);
		}
		result.add(tryWord);
		//从待分词文本中去除已经分词的文本
		text=text.substring(tryWord.length());
	}
	return result;
}

分析一下算法复杂性，最坏情况为切分出来的每个词的长度都为一（即DIC.contains(tryWord)始终为false），因此算法的复杂度约为外层循环数*内层循环数（即文本长度*最大词长）=25025017*16=400400272，以TrieV3的查找性能来说，4亿次查询花费的时间大约8分钟左右。

进一步查看算法，发现外层循环有2个substring方法调用，内层循环有1个substring方法调用，substring方法内部new了一个String对象，构造String对象的时候又调用了System.arraycopy来拷贝数组。

最坏情况下，25025017*2+25025017*16=50050034+400400272=450450306，需要构造4.5亿个String对象和拷贝4.5亿次数组。

怎么来优化呢？

除了我们不得不把切分出来的词加入result中外，其他的两个substring是可以去掉的。这样，最坏情况下我们需要构造的String对象个数和拷贝数组的次数就从4.5亿次降低为25025017次，只有原来的5.6%。

看看改进后的代码：

public static List<String> seg(String text){        
	List<String> result = new ArrayList<>();
	//文本长度
	final int textLen=text.length();
	//从未分词的文本中截取的长度
	int len=DIC.getMaxLength();
	//剩下未分词的文本的索引
	int start=0;
	//只要有词未切分完就一直继续
	while(start<textLen){
		if(len>textLen-start){
			//如果未分词的文本的长度小于截取的长度
			//则缩短截取的长度
			len=textLen-start;
		}
		//用长为len的字符串查词典
		while(!DIC.contains(text, start, len)){
			//如果长度为一且在词典中未找到匹配
			//则按长度为一切分
			if(len==1){
				break;
			}
			//如果查不到，则长度减一后继续
			len--;
		}
		result.add(text.substring(start, start+len));
		//从待分词文本中向后移动索引，滑过已经分词的文本
		start+=len;
		//每一次成功切词后都要重置截取长度
		len=DIC.getMaxLength();
	}
	return result;
}
public static List<String> segReverse(String text){        
	Stack<String> result = new Stack<>();
	//文本长度
	final int textLen=text.length();
	//从未分词的文本中截取的长度
	int len=DIC.getMaxLength();
	//剩下未分词的文本的索引
	int start=textLen-len;
	//处理文本长度小于最大词长的情况
	if(start<0){
		start=0;
	}
	if(len>textLen-start){
		//如果未分词的文本的长度小于截取的长度
		//则缩短截取的长度
		len=textLen-start;
	}
	//只要有词未切分完就一直继续
	while(start>=0 && len>0){
		//用长为len的字符串查词典
		while(!DIC.contains(text, start, len)){
			//如果长度为一且在词典中未找到匹配
			//则按长度为一切分
			if(len==1){
				break;
			}
			//如果查不到，则长度减一
			//索引向后移动一个字，然后继续
			len--;
			start++;
		}
		result.push(text.substring(start, start+len));
		//每一次成功切词后都要重置截取长度
		len=DIC.getMaxLength();            
		if(len>start){
			//如果未分词的文本的长度小于截取的长度
			//则缩短截取的长度
			len=start;
		}
		//每一次成功切词后都要重置开始索引位置
		//从待分词文本中向前移动最大词长个索引
		//将未分词的文本纳入下次分词的范围
		start-=len;
	}
	len=result.size();
	List<String> list = new ArrayList<>(len);
	for(int i=0;i<len;i++){
		list.add(result.pop());
	}
	return list;
}

对于正向最大匹配算法，代码行数从23增加为33，对于逆向最大匹配算法，代码行数从28增加为51，除了代码行数的增加，代码更复杂，可读性和可维护性也更差，这就是性能的代价！所以，不要过早优化，不要做不成熟的优化，因为不是所有的场合都需要高性能，在数据规模未达到一定程度的时候，各种算法和数据结构的差异表现不大，至少那个差异对你无任何影响。你可能会说，要考虑到明天，要考虑将来，你有你自己的道理，不过，我还是坚持不过度设计，不过早设计，通过单元测试和持续重构来应对变化，不为遥不可及的将来浪费今天，下一秒会发生什么谁知道呢？更不用说明天！因为有单元测试这张安全防护网，所以在出现性能问题的时候，我们可以放心、大胆、迅速地重构来优化性能。

下面看看改进之后的性能（对比TrieV3和HashSet的表现）：

开始初始化词典
dic.class=org.apdplat.word.dictionary.impl.TrieV3
dic.path=dic.txt
完成初始化词典，耗时689 毫秒，词数目：427452
词典最大词长：16
词长  0 的词数为：1
词长  1 的词数为：11581
词长  2 的词数为：146497
词长  3 的词数为：162776
词长  4 的词数为：90855
词长  5 的词数为：6132
词长  6 的词数为：3744
词长  7 的词数为：2206
词长  8 的词数为：1321
词长  9 的词数为：797
词长 10 的词数为：632
词长 11 的词数为：312
词长 12 的词数为：282
词长 13 的词数为：124
词长 14 的词数为：116
词长 15 的词数为：51
词长 16 的词数为：25
词典平均词长：2.94809
字符数目：24960301
分词耗时：24782 毫秒
分词速度：1007.0 字符/毫秒
执行之前剩余内存:2423.3901-61.14509+60.505272=2422.7505
执行之后剩余内存:2423.3901-732.0371+308.87476=2000.2278
cost time:25007 ms

开始初始化词典
dic.class=org.apdplat.word.dictionary.impl.HashSet
dic.path=dic.txt
完成初始化词典，耗时293 毫秒，词数目：427452
词典最大词长：16
词长  0 的词数为：1
词长  1 的词数为：11581
词长  2 的词数为：146497
词长  3 的词数为：162776
词长  4 的词数为：90855
词长  5 的词数为：6132
词长  6 的词数为：3744
词长  7 的词数为：2206
词长  8 的词数为：1321
词长  9 的词数为：797
词长 10 的词数为：632
词长 11 的词数为：312
词长 12 的词数为：282
词长 13 的词数为：124
词长 14 的词数为：116
词长 15 的词数为：51
词长 16 的词数为：25
词典平均词长：2.94809
字符数目：24960301
分词耗时：40913 毫秒
分词速度：610.0 字符/毫秒
执行之前剩余内存:907.8702-61.14509+60.505295=907.2304
执行之后剩余内存:907.8702-165.4784+123.30369=865.6955
cost time:40928 ms

可以看到分词算法优化的效果很明显，对于TrieV3来说，提升了2.5倍，对于HashSet来说，提升了1.9倍。我们看看HashSet的实现：

public class HashSet implements Dictionary{
    private Set<String> set = new java.util.HashSet<>();
    private int maxLength;
    @Override
    public int getMaxLength() {
        return maxLength;
    }
    @Override
    public boolean contains(String item, int start, int length) {
        return set.contains(item.substring(start, start+length));
    }
    @Override
    public boolean contains(String item) {
        return set.contains(item);
    }
    @Override
    public void addAll(List<String> items) {
        for(String item : items){
            add(item);
        }
    }
    @Override
    public void add(String item) {
        //去掉首尾空白字符
        item=item.trim();
        int len = item.length();
        if(len < 1){
            //长度小于1则忽略
            return;
        }
        if(len>maxLength){
            maxLength=len;
        }
        set.add(item);
    }
}

JDK的HashSet没有这里优化所使用的contains(String item, int start, int length)方法，所以用了substring，这是HashSet提速没有TrieV3大的原因之一。

看一下改进的算法和原来的算法的对比：

正向最大匹配算法：

逆向最大匹配算法：

代码托管于GITHUB

参考资料：

1、中文分词十年回顾

2、中文信息处理中的分词问题

3、汉语自动分词词典机制的实验研究

4、由字构词_中文分词新方法

5、汉语自动分词研究评述

NUTCH/HADOOP视频教程

Python爬虫：Feapder 的详细使用和案例数据知道 2025年爬虫和逆向教程 python 爬虫开发语言
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.Feapder概述1.1Feapder介绍1.2Feapder核心特点1.3Feapder主要组件1.4Feapder的安装2.基础爬虫编写2.1创建爬虫2.2运行爬虫3.数据采集案例3.1新闻网站采集3.2电商商品采集3.3使用Spider类创建更强大爬虫4.高级功能使用4.1分布式爬虫4.2浏览器渲染4.3文件下载4.4监控与报警5.数据
MySQL & NaviCat 安装及配置教程（Windows）【安装】 m0_66323401 面试学习路线阿里巴巴 mysql windows 数据库
文章目录一、MySQL下载1.官网下载2.其它渠道二、MySQL安装三、MySQL验证及配置四、NaviCat下载1.官网下载2.其它渠道五、NaviCat安装六、NaviCat逆向工程软件/环境安装及配置目录一、MySQL下载1.官网下载安装地址：https://www.mysql.com/cn/打开浏览器输入网址https://www.mysql.com/cn/，进入MySQL官网点击MySQ
PCB抄板解密芯片解密抄板V13316480658 pcb工艺嵌入式硬件单片机
抄板解密的概念抄板解密是一种逆向工程技术，它结合了PCB（印制电路板）抄板和芯片解密两种技术。具体来说，抄板解密是在已有电子产品实物和电路板实物的前提下，通过反向研发技术手段对电路板进行逆向解析，提取并还原原有产品的PCB文件、物料清单（BOM）文件、原理图文件等技术文件，同时对电路板上的加密芯片或单片机进行解密，获取其内部程序或数据。这一过程旨在完整复制原电路板的功能和性能，甚至进行改进或升级。
HoRain云--JavaScript逆向工程：破解Mytoken的请求参数 HoRain 云小助手 javascript 开发语言 ecmascript
HoRain云小助手：个人主页⛺️生活的理想，就是为了理想的生活!⛳️推荐前些天发现了一个超棒的服务器购买网站，性价比超高，大内存超划算！忍不住分享一下给大家。点击跳转到网站。目录⛳️推荐JavaScript逆向工程：破解Mytoken的请求参数步骤1：捕获目标请求步骤2：定位关键JavaScript代码步骤3：动态调试代码步骤4：还原加密逻辑步骤5：验证与优化注意事项JavaScript逆向工程
生成式AI驱动的高分子材料研发与应用 keyan_889 材料人工智能材料科学高分子化学 AI 航空航天电力工业硕博研究生
近年来，生成式人工智能（如大语言模型）在材料科学领域掀起革命性浪潮，其核心能力（从海量数据中挖掘构效关系、实现分子逆向设计）正在颠覆传统材料研发模式。以聚合物为例，传统依赖实验试错或量子计算的设计方法面临周期长、成本高、多目标优化困难等瓶颈，而生成式AI通过“数据驱动+智能生成”范式，可快速预测材料性能、生成新型分子结构，加速从实验室到产业化的进程。据《Nature》子刊统计，2020年以来基于生
逆向爬虫-筑基篇-第二层-壹-计算机网络和因特网-008 蓝花楹下逆向爬虫计算机网络网络
第二层网络初探计算机网络和因特网计算机网络与因特网之史分组交换之兴：1961-1972昔时，电话网为天下通信之主宰，其以电路交换之术，使语音恒速传于发收之间。然至20世纪60年代，计算机之重要日增，分时计算机亦现于世。彼时，智者思虑如何将计算机相连，使地理分布之用户共享其能。用户之流量，多具突发之性，如发一令于远机，继而静待其应，或思其答。当此之时，天下有三组智者，各自发明分组交换之术，以代电路交
Android React Native应用逆向分析初探 byc6352 android android
随着移动互联网时代的到来，用户在移动设备上花费的时间越来越多，不仅是因为移动设备方便携带，而且还因为层出不穷的大量应用提供为用户使用，以往在电脑上才能做的事情，现在仅靠一部手机就可以解决了。当前的移动设备厂商很多，但是被广泛使用的主流系统却只有两个，Android和iOS，因此现在大多数应用都会有两个版本，Android版本和iOS版本。然而这两种应用的开发方式却完全不同，移动客户端开发人员不得不
实时光线追踪技术：Ray Tracing_2024-07-21_02-55-16.Tex chenjj4003 游戏开发 python 算法人工智能矩阵线性代数骨骼绑定开发语言
实时光线追踪技术：RayTracing实时光线追踪技术教程基础知识光线追踪原理光线追踪是一种渲染技术，它通过模拟光线在场景中的传播和反射来生成图像。在实时光线追踪中，这一过程被优化以在有限的时间内完成，通常用于游戏和实时动画。其核心原理是逆向追踪，即从观察者（摄像机）发出光线，而不是从光源发出，这样可以减少计算量。示例：光线追踪的基本算法#Python示例代码，展示如何计算光线与场景中物体的交点c
自然语言处理（5）—— 中文分词隐私无忧人工智能 #自然语言处理自然语言处理中文分词人工智能
中文分词的基本原理及实现1.什么是词2.基本原理3.发展趋势：多数场景无需显式分词信息处理的目标是使用计算机能够理解和产生自然语言。而自然语言理解和产生的前提是对语言能够做出全面的解析。汉语词汇是语言中能够独立运用的最小的语言单位，是语言中的原子结构。由于中文缺乏类似英文的空格分隔，分词的准确性直接影响后续任务（如机器翻译、情感分析）的效果。因此，对中文进行分词就显得至关重要。中文分词（Chine
从零至巅：逆向爬虫之道 0_0 蓝花楹下逆向爬虫爬虫
逆向爬虫-涅槃吾本一介凡鸟，栖于尘世，碌碌无为，浑浑噩噩，如沧海一粟，渺小而无足轻重。然，虽为小雀，心亦怀鸿鹄之志，欲挥羽向天，如凤凰般，翱翔九天，俯瞰苍茫大地。奈何羽翼未丰，学识浅薄，常感力不从心，困于樊笼，不得展翅高飞。然，吾深知，学如逆水行舟，不进则退。故，今执笔为记，以明志，以自勉。愿以此笔记为舟，载吾渡学海，以勤为桨，以思为帆，逐浪前行，终至彼岸。虽前路漫漫，荆棘丛生，然吾心坚定，誓不负
用python执行js代码：PyExecJS库详解数据知道 2025年爬虫和逆向教程 python javascript 爬虫数据采集 nodejs
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.介绍和安装1.1PyExecJS介绍1.2安装JavaScript运行时1.3安装PyExecJS2.PyExecJS的基本使用2.1执行简单的JavaScript代码2.2使用外部JavaScript文件2.3先编译、后调用2.4传递参数和获取返回值3.PyExecJS的高级功能3.1指定JavaScript运行时3.2处理异步JavaSc
jieba库词频统计_jieba分词器（应用及字典的补充）及文档高频词提取实战袁圆园建建 jieba库词频统计
jieba分词器是Python中最好的中文分词组件，本文讲解一下jieba分词器及其应用。1、jieba分词器的分词模式jieba分词器提供了三种常用的分词模式1、精确模式：将句子按照最精确的方法进行切分，适合用于进行文本分析；2、全模式：将句子当中所有可以成词的词语都扫描出来，分词速度很快但容易产生歧义；3、搜索引擎模式：在精确模式分词的基础上，将长的句子再次进行切分，提高召回率，适用于搜索引擎
抖音用户视频批量下载工具开发全解析木觞清音视频 python
一、逆向工程原理剖析1.1抖音Web端防护体系抖音采用五层防御机制保护数据接口：graphLRA[浏览器指纹检测]-->B[请求参数签名]B-->C[Cookie动态验证]C-->D[请求频率限制]D-->E[IP信誉评级]1.2核心参数解密参数名称作用原理生成方式有效期x-bogus请求签名防篡改前端JS生成（需反混淆）5分钟msToken设备会话标识首次访问自动生成30分钟__ac_signa
Python逆向爬取Tik Tok，MsToken,X-Bogus以及signature 才华是浅浅的耐心 python javascript 前端
自5月起，抖音正式开放Web接口，并不断升级风控机制。从最初的_signature参数，到增加滑块验证，再到如今的JSVM混淆处理，以及mstoken和x-bougs等参数的引入。分析发现，部分国内接口仅需提供Cookie即可访问，无需额外验签，而获取Cookie的方式多种多样，其中利用OpenCV识别滑块验证码是一种简单可行的方法。相比之下，TikTok的接口无需Cookie，但对签名的校验更加
js逆向第4例：猿人学1初识-送分题，AES算法魔改，md5算法魔改，环境检测我是花臂不花 js逆向100例 javascript 算法开发语言
第二届猿人学js逆向大赛，本以为送分题分分钟搞定，没想到第一题就这么难。查看请求存在token加密参数，接下就是打断点找到加密点破解直接进入下一步函数可以看到如下代码vare=Date['now'](),f=a('crypto-js'),g='666yuanrenxue66',h=f['AES']['encrypt'](e+String(d),g,{'mode':f['mode']['ECB'],
webpack初识（js逆向） shix . js逆向知识点 webpack javascript 前端
webpack调试很多时候再看webpack的代码块的时候都一头雾水，不知道这个函数的具体逻辑在哪里，因为打包之后一些函数块是通过数字或者字符串进行调用的就像这样这里每个括号包括着的字符串都相当于一个函数，但是他们的逻辑在其他地方第二种情况：window["webpackJsonp"]大概长这样(=window["webpackJsonp"]||[]).push(["login"])作用就是把打包
每日实战：python爬虫之网页跳转-以某博为例代码CC python爬虫 python 爬虫 pandas 开发语言
一、项目背景与核心需求通过逆向分析微博热榜接口，实现实时热搜数据抓取，重点解决：话题跳转链接参数缺失问题页面数据清洗规范化处理多维度数据采集存储二、网页跳转爬虫实现原理2.1跳转链接生成逻辑原始热搜词→"雷军刚知道柯洁定了SU7Ultra"处理流程：1.添加话题标识→#雷军刚知道柯洁定了SU7Ultra#2.URL编码→%23雷军刚知道柯洁定了SU7Ultra%233.添加搜索参数→&t=31生成
PyArmor：一个超级厉害的 Python 库！一只蜗牛儿 python 开发语言
在Python的世界里，如何保护我们的代码不被轻易盗用或者破解，一直是开发者们关注的问题。尤其是在发布软件时，如何有效防止源代码泄漏或者被逆向工程分析，成为了一个重要课题。PyArmor作为一款强大的Python加密工具，能够帮助开发者对Python源代码进行加密保护，防止非法复制和破解。本文将全面介绍PyArmor，并通过代码示例展示如何使用它对Python脚本进行加密、打包和保护。1.PyAr
最新xhs旋转滑块验证码分析（含识别与轨迹算法）吴秋霖深耕爬虫领域算法验证码滑块验证 Python
文章目录1.写在前面2.接口分析3.验证轨迹4.算法还原【作者主页】：吴秋霖【作者介绍】：擅长爬虫与JS加密逆向分析！Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python与爬虫领域研究与开发工作！【作者推荐】：对爬虫领域以及JS逆向分析感兴趣的朋友可以关注《爬虫JS逆向实战》《深耕爬虫领域》未来作者会持续更新所用到、学到、看到的技术知识！
CTF学习法则——寒假篇新手赶快收藏吧！网络安全技术分享学习网络安全 web安全 php
CTF（CapturetheFlag）是网络安全领域中的一种比赛形式，涵盖了漏洞利用、逆向工程、加密解密、编码解码等多方面的技术，参与者通过解决难题（称为“Flag”）获得积分。对于想要在寒假期间提升CTF技能的同学们，以下是一些有效的学习法则，可以帮助你高效地进行学习和提升：1.合理规划学习时间寒假时间有限，建议制定合理的学习计划：每天固定时间学习：保持稳定的学习节奏，避免临时抱佛脚。分阶段学习
【python】Python中常见的KeyError报错分析景天科技苑 python 开发语言 python报错 KeyError
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，linux，shell脚本等实操
JS逆向案例-致远OA的前端密码加密逆向分析布啦啦李我的渗透笔记 python JS逆向 javascript逆向致远OA 密码爆破防范措施 js逆向
免责声明本文仅为技术研究与渗透测试思路分享，旨在帮助安全从业人员更好地理解相关技术原理和防御措施。任何个人或组织不得利用本文内容从事非法活动或攻击他人系统。如果任何人因违反法律法规或不当使用本文内容而导致任何法律后果，本文作者概不负责。请务必遵守法律法规，合理使用技术知识。一、致远OA的登录过程1.1实验版本致远A6+协同管理软件V8.0SP2用户名不变，密码加密，无验证码。1.2登录过程步骤操作
MySQL算法篇（一）先睡算法
Hash算法，也称为哈希算法或散列算法，是一种将任意长度的输入（如文本、图片等）通过某种规则转换成固定长度的输出的算法。这个输出通常被称为哈希值、哈希码或哈希摘要。以下是一些关于哈希算法的关键点：不可逆性：理论上，从哈希值不能逆向推导出原始输入数据。确定性：对于同一个输入，无论何时何地使用相同的哈希算法，都会得到相同的哈希值。快速计算：哈希算法通常设计得非常高效，可以快速计算出哈希值。抗冲突性：不
国密系列加密技术及其在爬虫逆向中的应用研究 ylfhpy 爬虫项目实战 python javascript 逆向反爬爬虫
一、引言在当今数字化飞速发展的时代，互联网已深入到社会生活的各个层面，数据的流通与交互变得极为频繁。与此同时，数据安全问题日益成为人们关注的焦点。加密技术作为保障数据安全的核心手段，其重要性不言而喻。国密系列加密算法是我国自主研发的一套具有高安全性、高性能特点的加密标准，它为我国金融、政务、医疗等关键领域的数据安全提供了坚实的保障。对于爬虫逆向分析而言，随着网站对数据保护意识的增强，越来越多的网站
阿里云国际站代理商：服务器为什么建议定期更换密钥对？聚搜云—服务器分享网络阿里云云计算
降低安全风险密钥对是服务器登录的重要凭证，定期更换密钥对可以有效降低密钥被破解或泄露的风险，从而保护服务器免受未经授权的访问。防止暴力破解SSH密钥对的安全强度远高于传统密码，且从公钥逆向推出私钥的难度极高。定期更换密钥对可以进一步减少暴力破解的可能性。应对潜在威胁随着网络安全威胁的不断升级，黑客攻击手段也越来越复杂。定期更换密钥对可以及时应对潜在的安全威胁，确保服务器的安全性。符合安全最佳实践定
系分 02 软件工程一越王超软考系统分析师软件工程
软件工程本身涵盖内容很广，从系统规划到分析……到维护都属于软件工程，但是我们将会在其他章节讨论相关内容，本节我们主要内容如下：系统规划软件工程信息系统生命周期（★）软件开发模型（★★★★）逆向工程（★★）净室软件工程（★）需求工程系统设计系统测试与维护基础知识软件工程是指应用计算机科学、数学及管理科学等原理，以工程化的原则和方法来解决软件问题的工程，其目的是提高软件生产率、提高软件质量、减低软件成
【蓝桥杯速成】| 2.逆向思维最好的药物是乌梅算法
题目一：青蛙跳台阶题目描述一只青蛙一次可以跳上1级台阶，也可以跳上2级台阶。求该青蛙跳上一个n级的台阶总共有多少种跳法。解题步骤选用递归的方法解决该问题！使用递归只需要考虑清楚边界条件/终止条件，再写清楚单层循环逻辑剩下的交给程序就好啦！那么如果顺着一级一级去想会非常麻烦，不妨倒着想想，青蛙以什么姿势跳上第n级台阶是优雅的迈了一步？还是急速蹦了两级？以jump(n)为求步数的函数，根据该思路则有：
Android手机中各类安全相关知识总结数据知道 2025年爬虫和逆向教程 android 智能手机安全
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.Android安全威胁2.Android安全防护措施3.Android安全建议和最佳实践4.Android安全工具推荐5.Android安全常见问题5.1如何检测设备是否感染恶意软件？5.2如何防止应用滥用权限？5.3如何保护设备免受网络攻击？5.4设备丢失后如何保护数据？6.学习资源7.总结Android手机作为全球使用最广泛的移动操作系统
什么是mybatis？十二.413 mybatis java 数据库
目录一、mybatis框架介绍二、mybatis配置三、mybatis逆向工程三、userMapper.xml配置一、mybatis框架介绍1.1mybatis本是apache的一个开源项目iBatis,2010年这个项目由apachesoftwareoundation迁移到了googlecode，并且改名为MyBatis。2013年11月迁移到Github。mybatis是一个基于Java的持久
Python 爬虫：一文掌握 SVG 映射反爬虫数据知道 2025年爬虫和逆向教程 python 爬虫 microsoft 爬虫逆向数据采集
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.SVG概述1.1SVG的优点1.1映射反爬虫的原理2.SVG映射反爬虫的示例3.应对SVG映射反爬虫的方法3.1解析SVG图像3.2处理自定义字体3.3使用OCR技术3.4动态生成SVG的处理4.实战案例4.1使用SVG映射显示价格4.2解析SVG文件并提取其中的内容和属性4.3模拟交互行为4.4使用无头浏览器4.5某网站使用SVG实现动态验
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$

中文分词算法 之 基于词典的逆向最大匹配算法

你可能感兴趣的:(中文分词,逆向最大匹配,基于词典)

中文分词算法之基于词典的逆向最大匹配算法