陈亦

JavaScript: 实现简单的中文分词

中文分词在大数据横行的今天是越来越有用武之地了。它不仅被广泛用于专业的中文搜索引擎中，而且在关键词屏蔽、黑白名单以及文本相似度等方面也能大显身手。中文分词最简单也最常用的方式是基于字典查找的方式，通过遍历待分词字符串并在字典中进行查找匹配以达到分词的目的。本文即是采用这种方式。

字典

在本文中，完全依赖于字典，因此需要准备好字典。一般面对不同的领域用不同的字典。比如面向医学的，则字典会添加许多医学术语方面的词。可以很容易的找到常用词的字典，比如搜狗输入法自带的字典等。

停止词

停止词不能用于成词。停止词主要包括无意义的字符(如的、地、得)或词。

常规实现

本文由于只是简单的介绍和实现，所以定义好了简单的字典和停止词，如下代码所示：

<!DOCTYPE html>
<html>
<head>
    <meta charset="utf-8">
    <title>简单的中文分词</title>
    <meta name="author" content="" />
    <meta http-equiv="X-UA-Compatible" content="IE=7" />
    <meta name="keywords" content="简单的中文分词" />
    <meta name="description" content="简单的中文分词" />
</head>
<body>
<script type="text/javascript">
// 字典
var dict  = {
	"家乡"     : 1,
	"松花"     : 1,
	"松花江"   : 1,
	"那里"     : 1,
	"四季"     : 1,
	"四季迷人" : 1,
	"迷人"     : 1,
	"花香"     : 1
};
// 停止词
var stop  = {
	"的" : 1
};
// 待分词的字符串
var words = "我的家乡在松花江边上，那里有四季迷人的花香。";
</script>
</body>
</html>

dict和stop之所以定义为Object，是因为这样可令查找的时间复杂度为常值O(1)。分词的过程有点像正则表达式的惰性匹配。先从words中读取第一个字符"我"并在dict中和stop中查找，如果是停止词，则丢掉已读取的，然后读取第二个字"的"。如果在dict中，则添加到结果集，然后继续读到下一个，再同样去stop和dict中查找，直到处理完成。代码如下：

<!DOCTYPE html>
<html>
<head>
    <meta charset="utf-8">
    <title>简单的中文分词</title>
    <meta name="author" content="" />
    <meta http-equiv="X-UA-Compatible" content="IE=7" />
    <meta name="keywords" content="简单的中文分词" />
    <meta name="description" content="简单的中文分词" />
</head>
<body>
<script type="text/javascript">
// 字典
var dict  = {
	"家乡"     : 1,
	"松花"     : 1,
	"松花江"   : 1,
	"那里"     : 1,
	"四季"     : 1,
	"四季迷人" : 1,
	"迷人"     : 1,
	"花香"     : 1
};
// 停止词
var stop  = {
	"的" : 1
};
// 待分词的字符串
var words = "我的家乡在松花江边上，那里有四季迷人的花香。";

function splitWords(words) {
	var start = 0, end = words.length - 1, result = [];
	while (start != end) {
		var str = [];
		for (var i = start; i <= end; i++) {
			var s = words.substring(i, i + 1);
			// 如果是停止词，则跳过
			if (s in stop) {
				break;
			}
			str.push(s);
			// 如果在字典中，则添加到分词结果集
			if (str.join('') in dict) {
				result.push(str.join(''));
			}
		}

		start++;
	}

	return result;
}

console.group("Base 分词: ");
console.log("待分词的字符串: ", words);
console.log("分词结果:       ", splitWords(words));
console.groupEnd();
</script>
</body>
</html>

Trie树实现

但是想一下，在实际应用中，字典可能包含了足够多的词，而且字典中很多词是有共同前缀的。比如上述代码中的"松花"和"松花江"就有共同的前缀"松花"，存储重复的前缀将导致字典占用大量的内存，而这部分其实是可以优化的。还记得我之前的一篇介绍Trie树的文章吗？如果您忘了，那请看：Python: Trie树实现字典排序。事实上还是有不同之处的，因为之前只是针对26个字母的Trie树。对于需要支持中文的Trie树来说，如果直接用一个字符(这个字符可能是ASCII码字符，也可能是中文字符或其它多字节字符)来表示一个节点，则是不可取的。大家知道最常用的汉字有将近一万个，如果每一个节点都要用一个数组来保存将近一万个子节点，那就太吓人了。所以我这里选择Object的方式来保存，这样的好处是查找时间复杂度为O(1)。但即使这样，这个Object还将容纳将近一万个key，所以我这里将结合另外一种方案来实现。

JavaScript的内码是Unicode，它用1~2个字节来存储。如果我们将一个双字节转成UTF8的三个字节(嗯，是的。本文只考虑UTF8的单字节和三字节，因为双字节、四字节、五字节和六字节太少见了)，单字节还是不变，以第一个字节为起始节点，那么节点的子节点数就变成了固定的256个，然后我们通过起始字节的大小可以知道这是一个单字节或三字节。这种方式有效的节约了内存。接下来是实现代码：

<!DOCTYPE html>
<html>
<head>
    <meta charset="utf-8">
    <title>简单的中文分词</title>
    <meta name="author" content="" />
    <meta http-equiv="X-UA-Compatible" content="IE=7" />
    <meta name="keywords" content="简单的中文分词" />
    <meta name="description" content="简单的中文分词" />
</head>
<body>
<script type="text/javascript">
// 字典
var dict  = [
	"家乡",
	"松花",
	"松花江",
	"那里",
	"四季",
	"四季迷人",
	"迷人",
	"花香",
	"hello",
	"kitty",
	"fine"
];
// 停止词
var stop  = {
	"的" : 1
};
// 待分词的字符串
var words = "hello, kitty!我的家乡在松花江边上，那里有四季迷人的花香。fine~";

// Trie树
function Trie() {
	this.root = new Node(null);
}
Trie.prototype = {
	/**
	* 将Unicode转成UTF8的三字节
	*/
	toBytes : function(word) {
		var result = [];
		for (var i = 0; i < word.length; i++) {
			var code = word.charCodeAt(i);
			// 单字节
			if (code < 0x80) {
				result.push(code);
			} else {
				// 三字节
				result = result.concat(this.toUTF8(code));
			}
		}

		return result;
	},
	toUTF8 : function(c) {
		// 1110xxxx 10xxxxxx 10xxxxxx
		// 1110xxxx
		var byte1 = 0xE0 | ((c >> 12) & 0x0F);
		// 10xxxxxx
		var byte2 = 0x80 | ((c >> 6) & 0x3F);
		// 10xxxxxx
		var byte3 = 0x80 | (c & 0x3F);

		return [byte1, byte2, byte3];
	},
	toUTF16 : function(b1, b2, b3) {
		// 1110xxxx 10xxxxxx 10xxxxxx
		var byte1 = (b1 << 4) | ((b2 >> 2) & 0x0F);
		var byte2 = ((b2 & 0x03) << 6) | (b3 & 0x3F);
		var utf16 = ((byte1 & 0x00FF) << 8) | byte2

		return utf16;
	},
	/**
	* 添加每个词到Trie树
	*/
	add : function(word) {
		var node = this.root, bytes = this.toBytes(word), len = bytes.length;
		for (var i = 0; i < len; i++) {
			var c = bytes[i];
			// 如果不存在则添加，否则不需要再保存了，因为共用前缀
			if (!(c in node.childs)) {
				node.childs[c] = new Node(c);
			}
			node = node.childs[c];
		}
		node.asWord(); // 成词边界
	},
	/**
	* 按字节在Trie树中搜索
	*/
	search : function(bytes) {
		var node = this.root, len = bytes.length, result = [];
		var word = [], j = 0;
		for (var i = 0; i < len; i++) {
			var c = bytes[i], childs = node.childs;
			if (!(c in childs)) {
				return result;
			}

			if (c < 0x80) {
				word.push(String.fromCharCode(c));
			} else {
				j++;
				if (j % 3 == 0) {
					var b1 = bytes[i - 2];
					var b2 = bytes[i - 1];
					var b3 = c;
					word.push(String.fromCharCode(this.toUTF16(b1, b2, b3)));
				}
			}
			// 如果是停止词，则退出
			if (word.join('') in stop) {
				return result;
			}

			// 成词
			var cnode = childs[c];
			if (cnode.isWord()) {
				result.push(word.join(''));
			}

			node = cnode;
		}

		return result;
	},
	/**
	* 分词
	*/
	splitWords : function(words) {
		// 转换成单字节进行搜索
		var bytes  = this.toBytes(words);
		var start = 0, end = bytes.length - 1, result = [];

		while (start != end) {
			var word = [];
			for (var i = start; i <= end; i++) {
				var b = bytes[i]; // 逐个取出字节
				word.push(b);
				
				var finds = this.search(word);
				if (finds !== false && finds.length > 0) {
					// 如果在字典中，则添加到分词结果集
					result = result.concat(finds);
					break;
				}
			}

			start++;
		}

		return result;
	},
	/**
	* 词始化整棵Trie树
	*/
	init : function(dict) {
		for (var i = 0; i < dict.length; i++) {
			this.add(dict[i]);
		}
	}
};

// 节点
function Node(_byte) {
	this.childs   = {}; // 子节点集合
	this._byte    = _byte || null; // 此节点上存储的字节
	this._isWord  = false; // 边界保存，表示是否可以组成一个词
}
Node.prototype = {
	isWord : function() {
		return this._isWord;
	},
	asWord : function() {
		this._isWord = true;
	}
};

var trie = new Trie();
trie.init(dict);
var result = trie.splitWords(words);

console.group("Trie 分词: ");
console.log("待分词的字符串: ", words);
console.log("分词结果:       ", result);
console.groupEnd();
</script>
</body>
</html>

各位看了输出结果后就会发现，这个分词是有问题的，因为明显少了"松花江"和"四季迷人"。拿"四季"和"四季迷人"来说，"四季"是"四季迷人"的前缀，在通过trie.isWrod()方法来判断是否成词时，一遇到"四季"就成功了，所以"四季迷人"没有机会得到判断，所以我们需要修改代码，在Node上加一个属性，表示已判断的次数。代码如下：

<!DOCTYPE html>
<html>
<head>
    <meta charset="utf-8">
    <title>简单的中文分词</title>
    <meta name="author" content="" />
    <meta http-equiv="X-UA-Compatible" content="IE=7" />
    <meta name="keywords" content="简单的中文分词" />
    <meta name="description" content="简单的中文分词" />
</head>
<body>
<script type="text/javascript">
// 字典
var dict  = [
	"家乡",
	"松花",
	"松花江",
	"那里",
	"四季",
	"四季迷人",
	"迷人",
	"花香",
	"hello",
	"kitty",
	"fine"
];
// 停止词
var stop  = {
	"的" : 1
};
// 待分词的字符串
var words = "hello, kitty!我的家乡在松花江边上，那里有四季迷人的花香。fine~";

// Trie树
function Trie() {
	this.root = new Node(null);
}
Trie.prototype = {
	/**
	* 将Unicode转成UTF8的三字节
	*/
	toBytes : function(word) {
		var result = [];
		for (var i = 0; i < word.length; i++) {
			var code = word.charCodeAt(i);
			// 单字节
			if (code < 0x80) {
				result.push(code);
			} else {
				// 三字节
				result = result.concat(this.toUTF8(code));
			}
		}

		return result;
	},
	toUTF8 : function(c) {
		// 1110xxxx 10xxxxxx 10xxxxxx
		// 1110xxxx
		var byte1 = 0xE0 | ((c >> 12) & 0x0F);
		// 10xxxxxx
		var byte2 = 0x80 | ((c >> 6) & 0x3F);
		// 10xxxxxx
		var byte3 = 0x80 | (c & 0x3F);

		return [byte1, byte2, byte3];
	},
	toUTF16 : function(b1, b2, b3) {
		// 1110xxxx 10xxxxxx 10xxxxxx
		var byte1 = (b1 << 4) | ((b2 >> 2) & 0x0F);
		var byte2 = ((b2 & 0x03) << 6) | (b3 & 0x3F);
		var utf16 = ((byte1 & 0x00FF) << 8) | byte2

		return utf16;
	},
	/**
	* 添加每个词到Trie树
	*/
	add : function(word) {
		var node = this.root, bytes = this.toBytes(word), len = bytes.length;
		for (var i = 0; i < len; i++) {
			var c = bytes[i];
			// 如果不存在则添加，否则不需要再保存了，因为共用前缀
			if (!(c in node.childs)) {
				node.childs[c] = new Node(c);
			}
			node = node.childs[c];
		}
		node.asWord(); // 成词边界
	},
	/**
	* 按字节在Trie树中搜索
	*/
	search : function(bytes) {
		var node = this.root, len = bytes.length, result = [];
		var word = [], j = 0;
		for (var i = 0; i < len; i++) {
			var c = bytes[i], childs = node.childs;
			if (!(c in childs)) {
				return result;
			}

			if (c < 0x80) {
				word.push(String.fromCharCode(c));
			} else {
				j++;
				if (j % 3 == 0) {
					var b1 = bytes[i - 2];
					var b2 = bytes[i - 1];
					var b3 = c;
					word.push(String.fromCharCode(this.toUTF16(b1, b2, b3)));
				}
			}
			// 如果是停止词，则退出
			if (word.join('') in stop) {
				return result;
			}

			// 成词
			var cnode = childs[c];
			if (cnode.isWord()) {
				cnode.addCount(); // 用于计数判断
				result.push(word.join(''));
			}

			node = cnode;
		}

		return result;
	},
	/**
	* 分词
	*/
	splitWords : function(words) {
		// 转换成单字节进行搜索
		var bytes  = this.toBytes(words);
		var start = 0, end = bytes.length - 1, result = [];

		while (start != end) {
			var word = [];
			for (var i = start; i <= end; i++) {
				var b = bytes[i]; // 逐个取出字节
				word.push(b);
				
				var finds = this.search(word);
				if (finds !== false && finds.length > 0) {
					// 如果在字典中，则添加到分词结果集
					result = result.concat(finds);
				}
			}

			start++;
		}

		return result;
	},
	/**
	* 词始化整棵Trie树
	*/
	init : function(dict) {
		for (var i = 0; i < dict.length; i++) {
			this.add(dict[i]);
		}
	}
};

// 节点
function Node(_byte) {
	this.childs   = {}; // 子节点集合
	this._byte    = _byte || null; // 此节点上存储的字节
	this._isWord  = false; // 边界保存，表示是否可以组成一个词
	this._count   = 0;
}
Node.prototype = {
	isWord : function() {
		return (this._isWord && (this._count == 0));
	},
	asWord : function() {
		this._isWord = true;
	},
	addCount : function() {
		this._count++;
	},
	getCount : function() {
		return this._count;
	}
};

var trie = new Trie();
trie.init(dict);
var result = trie.splitWords(words);

console.group("Trie 分词: ");
console.log("待分词的字符串: ", words);
console.log("分词结果:       ", result);
console.groupEnd();
</script>
</body>
</html>

结束语

现在已经能正确的分词了，即使有相同的前缀也没有问题。我上面分词用到的Trie树称为标准Trie树，这种标准Trie树比较直观。对于需要存储中文的Trie树，也有很多是用数组的方式实现的，比如双数组Trie树(Double Array Trie，简称DAT)、三数组Trie树等，有兴趣的朋友可以去了解一下。

本文只是简单的实现了中文分词，还有很多不足的地方。比如没有考虑未登录词的自动成词，人名、岐义等等。但对于一般的如关键词屏蔽和计算文本相似度等应用已经足够了。

webpack和vite的区别阿丽塔~ 前端面试 vite webpack
主要区别是：1.构建速度Vite：开发环境下，Vite利用浏览器原生支持的ES模块（ESM），按需编译和加载模块，避免了全量打包。这使得Vite的启动速度和热更新速度极快，尤其在大型项目中优势明显。使用esbuild进行依赖预构建，性能比基于JavaScript的工具快10-100倍。Webpack：需要分析所有模块的依赖关系并进行全量打包，导致启动和热更新速度较慢，尤其是在项目规模较大时。2.打
前端打包优化相关 Webpack 怒放的生命1991 webpack 前端 webpack node.js
前端打包优化相关Webpack打包时间的优化（基于VueCLI4+Webpack5）1.Webpack配置减少打包时间1.1对JS配置：排除node_modules和src中的打包内容在开发环境下，修改Webpack的JS规则，排除/node_modules和src目录中的JavaScript文件。这意味着node_modules和src目录中的JavaScript文件不会经过该规则定义的加载器处
【编程向导】-JavaScript-基础语法-类型检测 wtrees_松阳 javaScript知识图谱 javascript 原型模式开发语言
类型检测类型检测的方法：typeofinstanceofObject.prototype.toStringconstructortypeoftypeof操作符返回一个字符串，表示未经计算的操作数的类型。typeofundefined;//"undefined"typeofnull;//"object"typeof100;//"number"typeofNaN;//"number"typeoftru
【SpringBoot】实现登录功能一只爱打拳的程序猿 Spring MyBatis HTML5+CSS spring boot mybatis javascript html5 css
在上一篇博客中，我们讲解了注册页面的实现。在此基础上会跳转到登录页面，今天给大家带来的是使用SpringBoot，MyBatis，Html，CSS，JavaScript，前后端交互实现一个登录功能。目录一、效果二、源码2.1前端2.2后端一、效果用户名和密码栏输入空或没有值时，提示错误。在数据库中有以下信息，任意挑选一条信息进行登录操作。输入用户lisi，123后登陆成功跳转到个人列表。二、源码2
封装AJAX(带详细注释) Rverdoser okhttp
封装AJAX请求是前端开发中常见的需求，可以帮助我们简化代码，提高可重用性。下面我将通过JavaScript（使用XMLHttpRequest对象）和现代JavaScript（使用FetchAPI）两种方式来展示如何封装AJAX请求。1.使用XMLHttpRequest封装AJAXfunctionajax(method,url,data,callback){//创建XMLHttpRequest对象
JavaScript性能优化实战仰望丨苍穹前端：技巧与实践 javascript 性能优化前端
深入探讨JavaScript性能瓶颈，分享优化技巧与最佳实践：性能瓶颈DOM操作开销大：DOM操作往往是JavaScript性能的一个关键瓶颈。每次对DOM进行访问、修改或创建，都可能触发浏览器的重排（reflow）和重绘（repaint）操作。例如频繁地使用innerHTML修改元素内容，或者大量地动态创建DOM节点，都会导致性能问题。全局作用域查找慢：在JavaScript中，变量的查找是从当
JavaScript性能优化实战：从瓶颈分析到高效编码策略 AAEllisonPang Java 数据库
一、性能瓶颈分析：从问题出发1.1常见性能问题类型渲染阻塞：同步脚本加载导致DOMContentLoaded延迟内存泄漏：未解绑的事件监听、闭包引用残留重复计算：高频触发的回调函数无节制运算布局抖动：强制同步布局（ForcedSynchronousLayout）网络瓶颈：未优化的资源加载策略典型案例：某电商网站商品筛选功能，用户选择规格时界面卡顿。经分析发现每次选择都会触发全量DOM重新渲染，导致
使用Jest和React Testing Library测试React组件邹澜鹤Gardener
使用Jest和ReactTestingLibrary测试React组件去发现同类优质开源项目:https://gitcode.com/项目介绍这个开源项目是TestingJavaScript.com课程的一部分，专注于教你怎么用最智能、最高效的方式去测试任何JavaScript应用，特别是针对React组件的测试。它提供了一系列示例代码，涵盖了从基础的React渲染到复杂的Redux连接组件以及自
了解JS递归几度泥的菜花 javascript 前端
在JavaScript中，递归是一个非常重要的概念，它允许函数在其定义内部调用自身。递归在处理许多类型的问题时非常有用，尤其是那些可以通过分解成更小、更简单的子问题来解决的问题。然而，递归也需要谨慎使用，因为它可能导致堆栈溢出（特别是当递归调用非常深时）。以下是关于JavaScript递归的一些深入了解：1.递归的基本结构递归函数通常包含两个基本部分：基本情况（BaseCase）：这是递归停止的条
JavaScript（7）几度泥的菜花 javascript 前端
函数的含义函数：封装一段可被重复调用执行的代码块，通过函数可以实现大量代码的重复使用。函数也是一种引用数据类型。函数的使用创建函数（常用）：通过function关键字声明函数，又叫命名函数匿名函数：通过函数表达式定义函数，又叫做匿名函数函数的参数形参：函数定义时候，传递的参数(实参值会传递给形参,相当于不用声明的变量)实参：函数调用时候，传递的参数参数的返回值返回值：函数调用后返回的数据；函数执行
6个必备的 Node 网络爬虫库 zz_jesse 爬虫
作为一名程序员，你是否曾遇到过需要从各大网站提取数据的需求？随着互联网的快速扩展，能够高效地进行网络爬虫已经成为企业、研究人员以及个人的一项重要技能。在这个数据为王的时代，如何利用JavaScript和Node.js来实现高效的数据抓取，是每一个开发者都应该掌握的技巧。网络爬虫，即从网站提取数据的过程，已经成为各行各业的重要工具。而JavaScript和Node.js因其强大的功能和丰富的库，成为
vue3+ts+vite+pinia+element-plus搭建一个项目貂蝉空大 vue axios typescript vite pinia vue 前端
创建一个基于Vue3、TypeScript、Vite、Pinia和ElementPlus的项目是一个现代化的前端开发流程，这种配置通常用于构建轻量级、快速和模块化的单页应用程序（SPA）。下面是一个简单的介绍：1.Vue3是Vue.js的最新主要版本，提供了CompositionAPI、更好的TypeScript支持、自定义渲染器等功能。2.TypeScript是JavaScript的一个超集，添
支持 40+ 插件，Spring AI Alibaba 简化智能体私有数据集成阿里云云原生人工智能 spring 数据挖掘
作者：张震霆&何裕墙，SpringAIAlibabaContributor在AI智能体（AIAgent）开发的过程中，RAG（Retrieval-AugmentedGeneration）和ToolCalling已经成为两种至关重要的模式。RAG通过结合检索技术和生成模型的强大能力，使智能体能够实时从外部数据源获取信息，并在生成过程中增强其知识深度和推理能力。通过这种方式，智能体不仅能依赖于模型的预
Django REST Framework 中 ModelViewSet 的接口方法及参数详解，继承的方法和核心类方法，常用查询方法接口 coderZT django python 后端
第一部分（ModelViewSet）一、ModelViewSet的继承结构ModelViewSet继承自以下类：ModelViewSet=(CreateModelMixin+#创建RetrieveModelMixin+#检索单个UpdateModelMixin+#更新DestroyModelMixin+#删除ListModelMixin+#列表GenericViewSet#基础视图集)二、默认接口
字典树(Trie) 理论知识复习及精选例题解析 BrainWen1 算法 java c++数据结构 python leetcode vscode
字典树理论知识复习及精选例题解析一、字典树理论知识二、精选例题解析例题1.P8306【模板】字典树例题2.P2580于是他错误的点名开始了例题3.P10471最大异或对TheXORLargestPair三、字典树的使用思路和细节使用思路细节注意四、总结一、字典树理论知识1.定义字典树（Trie）字典树（Trie）字典树（Trie），又称前缀树，是一种树形数据结构，用于高效地存储和检索字符串集合。它
Deepsearch 、Rag 、RraphRag kse_music 混杂 rag graphrag deepsearch
文章目录前言一、Ai-Search1.DeepSearch2.RAG（Retrieval-AugmentedGeneration）3.GraphRAG（Graph-basedRetrieval-AugmentedGeneration）二、选择指南三、结合应用总结前言DeepSearch、RAG（Retrieval-AugmentedGeneration）和GraphRAG这三种技术在智能检索、信息
利用微软的 HTML 应用程序宿主程序的攻击 zhaoyong631 microsoft html 前端
mshta.exe是微软的HTML应用程序宿主程序（MicrosoftHTMLApplicationHost），属于Windows系统组件。它的核心功能是运行.hta（HTMLApplication）文件，允许通过HTML、JavaScript、VBScript等技术创建交互式图形界面应用。何时会调用mshta.exe？1.合法用途运行本地/企业级HTA应用：企业可能用.hta开发内部工具（如配置
react 组件封装原则_如何基于antd封装自己的react组件并发布到npm 楚云卿 react 组件封装原则
引言在前端项目开发过程中，有大量重复的内容，比如布局相似的模块，较多的功能表单等，我们可以提炼成组件来提升效率，减少重复建设。文章以实际工作中的项目为例，介绍如何将项目中常用的组件进行封装并发布到npm中。1前提要求在开始前你需要具备以下条件：安装了Node&npm安装了Git基本掌握npm，git使用方法熟练使用JavaScript&ES6&CSS基本掌握React熟悉React,antd2开始
Node_文件上传&令牌 katsukichan Node
信息获取来源EnoYao创建脚手架expresskatsuki-project（express名称）在katsuki-project目录下安装依赖包npminstall上传单文件项目在katsuki-project安装multer模块npminstallmulter--save目录中创建一个uploads文件夹，不创建运行也会自动创建项目结构publicjavascriptsjquery.jsup
c#读取json某一节点数据_C#获取Json字符串中的某个值鹿哥说 c#读取json某一节点数据
问题描述：json数据格式{"resCode":0,"resMag":"aaa","data":[{"parkName":"B1停车场"，"freeSpaceNum":100}]}。第一方法：使用JavaScriptSerializerJavaScriptSerializerJss=newJavaScriptSerializer();DictionaryDicText=(Dictionary)Js
前端-webpack一些常用配置的作用大嘴史努比前端 webpack node.js
1.LoaderLoader用于对模块的源代码进行转换。它可以将非JavaScript文件（如CSS、图片、字体等）转换为webpack能够处理的模块。常用Loader及其作用Loader作用babel-loader将ES6+代码转换为ES5，兼容旧版浏览器。css-loader解析CSS文件，处理@import和url()等语法。style-loader将CSS插入到DOM中，通过标签生效。sa
教你如何免费获取股票数据用python、JavaScript (Node.js)、JAVA等多种语言的实例代码演示（实时数据、历史数据、CDMA、KDJ等指标数据）配有股票数据API接口说明文档说明蝶澈乐乐 python javascript node.js 数据仓库金融
近一两年来，股票量化分析逐渐受到广泛关注。而作为这一领域的初学者，首先需要面对的挑战就是如何获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息，这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的核心任务是从这些数据中挖掘出有价值的信息，为我们的投资策略提供有力的支持。在寻找数据的过程中，我尝试了多种途径，包括自编网易股票页面爬虫、申万行业数据爬虫，以及同花
javascript Day_1 Mswanga javascript 前端 java javascript
script的书写位置1，写在标签的正上方constnewItem=12，写在外部，然后引入到HTML文件输入输出1.输入：prompt('请输入一段文字')结果：会显示一个对话框，包含一个文字信息，用来提示用户输入。2.输出：//普通输出document.write('要输出的内容')//内容可以包含标签//弹出警告框输出alert('要输出的内容')//控制台打印输出，程序员可见console
JavaScript_Day2 Mswanga javascript 前端开发语言
对象的声明let对象名={属性值，方法}letsir={name:"wang",address:"Henan",age:18}//修改属性sir.name="li";//增加属性sir.sex="man";//删除属性deletesir.age;console.log(sir);查找的两种方法1.对象名.属性名2.对象名["属性名"]，如sir['name']如何写方法例如song方法song:f
Vue.Js 是一个渐进式的 JavaScript 框架，专为构建用户界面而生，尤其擅长打造单页应用（SPA）。其核心设计理念在于组件化，即将用户界面拆解为独立且可复用的组件单元。以下是 Vue.Js 一一代码 python vue.js
1.创建Vue.Js组件在Vue.js中，组件是一个Vue实例，可以包含模板、数据、方法、生命周期钩子等。1.1全局组件全局组件可以在任何Vue实例中使用。```javascript//定义一个全局组件Vue.component('my-component',{template:'这是一个全局组件'});//创建Vue实例newVue({el:'#app'});```在HTML中使用：```htm
RAG(检索增强生成)系统实践与调优 python_知世 android 金融自然语言处理大模型技术人工智能 RAG 大模型
在人工智能领域，检索增强生成（RetrievalAugmentedGeneration,RAG）是一种结合信息检索和生成式人工智能的技术，它通过从外部数据源中检索相关信息，来辅助大语言模型（LargeLanguageModel,LLM）生成更为准确、上下文相关的答案。1什么是RAG检索增强生成（RetrievalAugmentedGeneration,RAG）是一种结合信息检索和生成式人工智能的技
JS事件冒泡和事件捕获一朵好运莲 javascript 前端开发语言
在JavaScript中，事件冒泡（EventBubbling）和事件捕获（EventCapturing）是两种不同的事件传播机制。当你在DOM元素上注册事件时，事件的触发并不会立即发生，而是会按照一定的顺序进行传播。事件的传播机制决定了事件如何从目标元素传递到DOM树中的其他元素。目录事件捕获和事件冒泡的提出为什么整合了捕获和冒泡机制？事件传播的顺序具体例子实现事件捕获和事件冒泡的提出事件冒泡最
深入解析CSS动画：从基础到实战的完整指南斯~内克 css css 前端
一、CSS动画的现代意义与核心优势在Web开发领域，CSS动画已成为构建现代交互体验的核心技术。相比传统的JavaScript动画实现方式，CSS动画具有以下显著优势：硬件加速优化：浏览器可自动使用GPU加速，实现更流畅的动画效果声明式语法：通过简洁的代码描述复杂动画序列性能优势：浏览器原生支持，无需额外脚本解析维护便捷：动画逻辑与业务代码分离，易于修改和扩展响应式支持：可结合媒体查询实现多设备适
全局引用scss文件定义的变量魏时烟 vue3+ts+scss scss 前端 css
在vite.config.ts文件中写如下代码css:{preprocessorOptions:{scss:{additionalData:`@use"@/assets/styles/index.scss";`,//这一句javascriptEnabled:true}}}在scss文件中定义变量$color:#000;在其他文件引用变量.text{color:index.$color;}
JavaScript基础-顺序流程控制難釋懷 javascript 开发语言
在学习任何编程语言时，理解如何控制程序的执行流程是至关重要的。JavaScript中的顺序流程控制指的是按照代码书写的顺序依次执行语句的过程。虽然它看起来非常直接和简单，但正是这种基本的控制流构成了所有复杂逻辑的基础。本文将详细介绍JavaScript中的顺序流程控制，并通过示例展示其应用。一、什么是顺序流程控制？顺序流程控制是最简单的程序控制形式，指的是代码从上到下、从左到右逐行执行。除非受到特
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地

JavaScript: 实现简单的中文分词

字典

停止词

常规实现

Trie树实现

结束语

你可能感兴趣的:(JavaScript,中文分词,trie)