yanebupt

正向最大匹配中文分词算法

中文分词一直都是中文自然语言处理领域的基础研究。目前，网络上流行的很多中文分词软件都可以在付出较少的代价的同时，具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不管实现如何，目前而言的分词系统绝大多数都是基于中文词典的匹配算法。

在这里我想介绍一下中文分词的一个最基础算法：最大匹配算法 (Maximum Matching，以下简称MM算法) 。MM算法有两种：一种正向最大匹配，一种逆向最大匹配。

● 算法思想

正向最大匹配算法：从左到右将待分词文本中的几个连续字符与词表匹配，如果匹配上，则切分出一个词。但这里有一个问题：要做到最大匹配，并不是第一次匹配到就可以切分的。我们来举个例子：

待分词文本： content[]={"中"，"华"，"民"，"族"，"从"，"此"，"站"，"起"，"来"，"了"，"。"}

词表： dict[]={"中华"， "中华民族" ， "从此"，"站起来"}

(1) 从content[1]开始，当扫描到content[2]的时候，发现"中华"已经在词表dict[]中了。但还不能切分出来，因为我们不知道后面的词语能不能组成更长的词(最大匹配)。

(2) 继续扫描content[3]，发现"中华民"并不是dict[]中的词。但是我们还不能确定是否前面找到的"中华"已经是最大的词了。因为"中华民"是dict[2]的前缀。

(3) 扫描content[4]，发现"中华民族"是dict[]中的词。继续扫描下去：

(4) 当扫描content[5]的时候，发现"中华民族从"并不是词表中的词，也不是词的前缀。因此可以切分出前面最大的词——"中华民族"。

由此可见，最大匹配出的词必须保证下一个扫描不是词表中的词或词的前缀才可以结束。

● 算法实现

词表的内存表示：很显然，匹配过程中是需要找词前缀的，因此我们不能将词表简单的存储为Hash结构。在这里我们考虑一种高效的字符串前缀处理结构——Trie树《Trie Tree 串集合查找》。这种结构使得查找每一个词的时间复杂度为O(word.length)，而且可以很方便的判断是否匹配成功或匹配到了字符串的前缀。

下图是我们建立的Trie结构词典的部分，(词语例子："中华"，"中华名族"，"中间"，"感召"，"感召力"，"感受")。

(1) 每个结点都是词语中的一个汉字。

(2) 结点中的指针指向了该汉字在某一个词中的下一个汉字。这些指针存放在以汉字为key的hash结构中。

(3) 结点中的"#"表示当前结点中的汉字是从根结点到该汉字结点所组成的词的最后一个字。

TrieNode源代码如下：

Java代码

import java.util.HashMap;
/**
* 构建内存词典的Trie树结点
*
* @author single(宋乐)
* @version 1.01, 10/11/2009
*/
public class TrieNode {
/**结点关键字，其值为中文词中的一个字*/
public char key=(char)0;
/**如果该字在词语的末尾，则bound=true*/
public boolean bound=false;
/**指向下一个结点的指针结构，用来存放当前字在词中的下一个字的位置*/
public HashMap childs=new HashMap();
public TrieNode(){
}
public TrieNode(char k){
this.key=k;
}
}

这套分词代码的优点是：

(1) 分词效率高。纯内存分词速度大约240.6ms/M，算上IO读取时间平均1.6s/M。测试环境：Pentium(R) 4 CPU 3.06GHZ、1G内存。

(2) 传统的最大匹配算法需要实现确定一个切分的最大长度maxLen。如果maxLen过大，则大大影响分词效率。而且超过maxLen的词语将无法分出来。但本算法不需要设置maxLen。只要词表中有的词，不管多长，都能够切分。

(3) 对非汉字的未登录词具备一定的切分能力。比如英文单词[happy, steven]，产品型号[Nokia-7320]，网址[http://www.sina.com]等。

缺点也很明显：

(1) 暂时无词性标注功能，对中文汉字的未登录词无法识别，比如某个人名。

(2) 内存占用稍大，目前词表为86725个词。如果继续扩展词表，很有可能内存Trie树将非常庞大。

代码的进一步优化方案：

(1) 想在内存占用空间上降低代价。实际上Trie树主要的空间消耗在每个结点的指针HashMap上。我使用的是JDK中的HashMap，其加载因子为 loadFactor= 0.75，初始化空间大小为DEFAULT_INITIAL_CAPACITY= 16。每次存储数据量超过 loadFactor*DEFAULT_INITIAL_CAPACITY的时候，整个Map空间将翻倍。因此会照成一定的空间浪费。

但目前还没有想到很好的办法，即能够随机定位到下一个结点的指针，又降低Hash结构的空间代价？

转自：http://hxraid.iteye.com/blog/667134

【串和序列处理 3】Trie Tree 串集合查找

文章分类:综合技术

Trie 树， 又称字典树，单词查找树。它来源于retrieval(检索)中取中间四个字符构成(读音同try)。用于存储大量的字符串以便支持快速模式匹配。主要应用在信息检索领域。

Trie 有三种结构：标准trie (standard trie)、压缩trie、后缀trie(suffix trie) 。最后一种将在《字符串处理4：后缀树》中详细讲，这里只将前两种。

1. 标准Trie (standard trie)

标准 Trie树的结构 ：所有含有公共前缀的字符串将挂在树中同一个结点下。实际上trie简明的存储了存在于串集合中的所有公共前缀。假如有这样一个字符串集合X{bear,bell,bid,bull,buy,sell,stock,stop}。它的标准Trie树如下图：

上图（蓝色圆形结点为内部结点，红色方形结点为外部结点），我们可以很清楚的看到字符串集合X构造的Trie树结构。其中从根结点到红色方框叶子节点所经历的所有字符组成的串就是字符串集合X中的一个串。

注意这里有一个问题：如果X集合中有一个串是另一个串的前缀呢？比如，X集合中加入串bi。那么上图的Trie树在绿色箭头所指的内部结点i 就应该也标记成红色方形结点。这样话，一棵树的枝干上将出现两个连续的叶子结点(这是不合常理的)。

也就是说字符串集合X中不存在一个串是另外一个串的前缀。如何满足这个要求呢？我们可以在X中的每个串后面加入一个特殊字符$(这个字符将不会出现在字母表中)。这样，集合X{bear$、bell$、.... bi$、bid$}一定会满足这个要求。

总结：一个存储长度为n，来自大小为d的字母表中s个串的集合X的标准trie具有性质如下：

(1) 树中每个内部结点至多有d个子结点。

(2) 树有s个外部结点。

(3) 树的高度等于X中最长串的长度。

(4) 树中的结点数为O(n)。

标准 Trie树的查找

对于英文单词的查找，我们完全可以在内部结点中建立26个元素组成的指针数组。如果要查找a，只需要在内部节点的指针数组中找第0个指针即可(b=第1个指针，随机定位)。时间复杂度为O(1)。

查找过程：假如我们要在上面那棵Trie中查找字符串bull (b-u-l-l)。

(1) 在root结点中查找第('b'-'a'=1)号孩子指针，发现该指针不为空，则定位到第1号孩子结点处——b结点。

(2) 在b结点中查找第('u'-'a'=20)号孩子指针，发现该指针不为空，则定位到第20号孩子结点处——u结点。

(3) ... 一直查找到叶子结点出现特殊字符'$'位置，表示找到了bull字符串

如果在查找过程中终止于内部结点，则表示没有找到待查找字符串。

效率：对于有n个英文字母的串来说，在内部结点中定位指针所需要花费O(d)时间，d为字母表的大小，英文为26。由于在上面的算法中内部结点指针定位使用了数组随机存储方式，因此时间复杂度降为了O(1)。但是如果是中文字，下面在实际应用中会提到。因此我们在这里还是用O(d)。查找成功的时候恰好走了一条从根结点到叶子结点的路径。因此时间复杂度为O(d*n)。

但是，当查找集合X中所有字符串两两都不共享前缀时，trie中出现最坏情况。除根之外，所有内部结点都自由一个子结点。此时的查找时间复杂度蜕化为O(d*(n^2))

标准 Trie树的Java代码实现：

Java代码

package net.hr.algorithm.stroper;
import java.util.ArrayList;
enum NodeKind{LN,BN};
/**
* Trie结点
*/
class TrieNode{
char key;
TrieNode[] points=null;
NodeKind kind=null;
}
/**
* Trie叶子结点
*/
class LeafNode extends TrieNode{
LeafNode(char k){
super.key=k;
super.kind=NodeKind.LN;
}
}
/**
* Trie内部结点
*/
class BranchNode extends TrieNode{
BranchNode(char k){
super.key=k;
super.kind=NodeKind.BN;
super.points=new TrieNode[27];
}
}
/**
* Trie树
* @author heartraid
*/
public class StandardTrie {
private TrieNode root=new BranchNode(' ');
/**
* 想Tire中插入字符串
*/
public void insert(String word){
//System.out.println("插入字符串："+word);
//从根结点出发
TrieNode curNode=root;
//为了满足字符串集合X中不存在一个串是另外一个串的前缀
word=word+"$";
//获取每个字符
char[] chars=word.toCharArray();
//插入
for(int i=0;i
//System.out.println(" 插入"+chars[i]);
if(chars[i]=='$'){
curNode.points[26]=new LeafNode('$');
// System.out.println(" 插入完毕,使当前结点"+curNode.key+"的第26孩子指针指向字符：$");
}
else{
int pSize=chars[i]-'a';
if(curNode.points[pSize]==null){
curNode.points[pSize]=new BranchNode(chars[i]);
// System.out.println(" 使当前结点"+curNode.key+"的第"+pSize+"孩子指针指向字符: "+chars[i]);
curNode=curNode.points[pSize];
}
else{
// System.out.println(" 不插入，找到当前结点"+curNode.key+"的第"+pSize+"孩子指针已经指向字符: "+chars[i]);
curNode=curNode.points[pSize];
}
}
}
}
/**
* Trie的字符串全字匹配
*/
public boolean fullMatch(String word){
//System.out.print("查找字符串："+word+"/n查找路径：");
//从根结点出发
TrieNode curNode=root;
//获取每个字符
char[] chars=word.toCharArray();
for(int i=0;i
if(curNode.key=='$'){
System.out.println('&');
// System.out.println(" 【成功】");
return true;
}else{
System.out.print(chars[i]+" -> ");
int pSize=chars[i]-'a';
if(curNode.points[pSize]==null){
// System.out.println(" 【失败】");
return false;
}else{
curNode=curNode.points[pSize];
}
}
}
// System.out.println(" 【失败】");
return false;
}
/**
* 先根遍历Tire树
*/
private void preRootTraverse(TrieNode curNode){
if(curNode!=null){
System.out.print(curNode.key+" ");
if(curNode.kind==NodeKind.BN)
for(TrieNode childNode:curNode.points)
preRootTraverse(childNode);
}
}
/**
* 得到Trie根结点
*/
public TrieNode getRoot(){
return this.root;
}
/**
* 测试
*/
public static void main(String[] args) {
StandardTrie trie=new StandardTrie();
trie.insert("bear");
trie.insert("bell");
trie.insert("bid");
trie.insert("bull");
trie.insert("buy");
trie.insert("sell");
trie.insert("stock");
trie.insert("stop");
trie.preRootTraverse(trie.getRoot());
trie.fullMatch("stoops");
}
}

中文词语的 标准 Trie树

由于中文的字远比英文的26个字母多的多。因此对于trie树的内部结点，不可能用一个26的数组来存储指针。如果每个结点都开辟几万个中国字的指针空间。估计内存要爆了，就连磁盘也消耗很大。

一般我们采取这样种措施：

(1) 以词语中相同的第一个字为根组成一棵树。这样的话，一个中文词汇的集合就可以构成一片Trie森林。这篇森林都存储在磁盘上。森林的root中的字和root所在磁盘的位置都记录在一张以Unicode码值排序的有序字表中。字表可以存放在内存里。

(2) 内部结点的指针用可变长数组存储。

特点：由于中文词语很少操作4个字的，因此Trie树的高度不长。查找的时间主要耗费在内部结点指针的查找。因此将这项指向字的指针按照字的Unicode码值排序，然后加载进内存以后通过二分查找能够提高效率。

标准Trie树的应用和优缺点

(1) 全字匹配：确定待查字串是否与集合的一个单词完全匹配。如上代码fullMatch()。

(2) 前缀匹配：查找集合中与以s为前缀的所有串。

注意：Trie树的结构并不适合用来查找子串。这一点和前面提到的PAT Tree以及后面专门要提到的Suffix Tree的作用有很大不同。

优点：查找效率比与集合中的每一个字符串做匹配的效率要高很多。在o(m)时间内搜索一个长度为m的字符串s是否在字典里。

缺点：标准Trie的空间利用率不高，可能存在大量结点中只有一个子结点，这样的结点绝对是一种浪费。正是这个原因，才迅速推动了下面所讲的压缩trie的开发。

2. 压缩Trie (compressed trie)

压缩Trie类似于标准Trie，但它能保证trie中的每个内部结点至少有两个子节点(根结点除外)。通过把单子结点链压缩进叶子节点来执行这个规则。

压缩Trie的定义

冗余结点(redundant node)：如果T的一个非根内部结点v只有一个子结点，那么我们称v是冗余的。

冗余链(redundant link)：如上标准Trie图中，内部结点e只有一个内部子结点l，而l也只有一个叶子结点。那么e-l-l就构成了一条冗余链。

压缩(compressed)：对于冗余链 v1- v2- v3- ... -vn，我们可以用单边v1-vn来替代。

对上面标准Trie的图压缩之后，形成了Compressed Trie的字符表示图如下：

压缩Trie的性质和优势：

与标准Trie比较，压缩Trie的结点数与串的个数成正比了，而不是与串的总长度成正比。一棵存储来自大小为d的字母表中的s个串的结合T的压缩trie具有如下性质：

(1) T中的每个内部结点至少有两个子结点，至多有d个子结点。

(2) T有s个外部结点。

(3) T中的结点数为O(s)

存储空间从标准Trie的O(n)降低到压缩后的O(s)，其中n为集合T中总字符串长度，s为T中的字符串个数。

压缩Trie的压缩表示

上面的图是压缩Trie的字符串表示。相比标准Trie而言，确实少了不少结点。但是细心的读者会发现，叶子结点中的字符数量增加了，比如结点ell，那么这种压缩空间的效率当然会打折扣了。那么有什么好办法呢，这里我们介绍一种压缩表示方法。即把所有结点中的字符串用三元组的形式表示如下图：

其中三元组(i，j，k)表示S[i]的从第j个位置到第k个位置间的子串。比如(5,1,3,)表示S[5][1...3]="ell"。

这种压缩表示的一个巨大的优点就是：无论结点需要存储多长的字串，全部都可以用一个三元组表示，而且三元组所占的空间是固定有限的。但是为了做到这一点，必须有一张辅助索引结构（如上图右侧s0—s7所示）。

转自：http://hxraid.iteye.com/blog/618962

《引爆视频号》张萌成长的饭团
书籍名称：《引爆视频号》作者：张萌推荐理由：在网络时代短视频每个人都不陌生，也占据了多数人的注意力。现在每个人都可以拥有自己的自媒体，也是互联网全民创业的时代。如果你错过了抖音、快手，那么视频号你一定不能错过。视频号的优势在于它自带流量，可以和公众号、朋友圈结合。轻松完成1、2级传播（好友和好友的好友）。视频号内容有三种视频号点击率高的内容，技术类的内容，分享各种小技巧、美食制作、衣服穿搭、化妆品
科锐国际（计算机类），汤臣倍健，中建三局，宁德时代，途游游戏，得物，顺丰，康冠科技24春招内推 weixin_53585422 c++算法 python java c语言
科锐国际（计算机类），汤臣倍健，中建三局，宁德时代，途游游戏，得物，顺丰，康冠科技24春招内推①汤臣倍健【内推岗位】：市场类、营销类、研发类、电商类、职能类、IT技术类、商业分析类、生产运营类【内推链接】https://sourl.cn/JSDhLU【推荐码】ES3W2T②科锐国际(OD项目组--计算机专场)【招聘岗位】软件开发工程师、软件测试工程师、大数据开发工程师、运维工程师等计算机类岗位，2
汤臣倍健，中建三局，宁德时代，金证科技，途游游戏，得物，蓝禾，顺丰，康冠科技24春招内推 weixin_53585422 c++python java 前端算法硬件工程嵌入式硬件
汤臣倍健，中建三局，宁德时代，金证科技，途游游戏，得物，蓝禾，顺丰，康冠科技24春招内推①汤臣倍健【内推岗位】：市场类、营销类、研发类、电商类、职能类、IT技术类、商业分析类、生产运营类【内推链接】https://sourl.cn/JSDhLU【推荐码】ES3W2T②得物【岗位】技术，设计，供应链，风控，产品，运营，商品研究等【内推码】:RTHEA59【一键内推】:https://poizon.j
重塑未来：碳捕集与存储（CCS）的革命性突破与可持续发展路径给生活加糖！热门知识大数据人工智能
随着全球气候变化的加剧，减少二氧化碳（CO₂）排放已成为应对气候变化的关键任务之一。碳捕集与存储（CCS）技术因其能够直接从源头捕捉CO₂并将其安全存储，避免其进入大气层，而受到广泛关注。CCS被认为是实现气候目标，尤其是在高排放行业中实现碳中和的一个重要手段。本文将详细探讨CCS的工作原理、技术类型、应用领域、面临的挑战以及未来的发展方向。一、碳捕集与存储的概念与重要性1.碳捕集与存储的定义碳捕
未来的十年，热门专业和冷门专业分别有哪些？ MrxMyx IT杂谈职场和发展业界资讯
文章目录前言一、热门专业1、计算机科学与技术及相关专业2、医学及健康相关专业3、电子信息与通信技术类专业4、金融学及经济学相关专业5、外语及国际交流类专业6、新能源与环保类专业7、教育学及教育技术类专业二、冷门专业1、部分传统工科专业2、部分人文社科专业3、部分新兴但尚未普及的专业总结前言每个年代都会有不同的热门专业和冷门专业，它们代表了这个年代的发展方向。未来的十年，我们预测一下会有哪些热门专业
题解 | #将真分数分解为埃及分数# 不取巧也没有公式的硬做 huaxinjiayou java
阿里云-瓴羊秋招面经8.28开9.12投瓴羊（其他基本都要9硕）9.16一面电话面30min项目怎么自学最近在看什么技术类的书籍java集合类hashmap能putnull吗题解|#明明的随机数#n=int(input())nums=[]whilen>0:num=int(input())nums.append(nu题解|#计算某字符出现次数#constrl=require("readline").
游卡，得物，三七互娱，顺丰（提前批），快手，oppo，埃科光电，康冠科技25届秋招内推 2401_86288678 c语言 python 算法 java 前端
游卡，得物，三七互娱，顺丰（提前批），快手，oppo，埃科光电，康冠科技25届秋招内推①游卡【岗位】程序技术类、产品策划类、美术类、发型运营类、职能综合类、桌游业务类【一键内推】https://sourl.cn/PHiZZE【内推码】DSymte2c②得物【八大职类】技术类、供应链类、产品类、运营类、设计类、职能类、商品研究类、风控类；【三大城市】上海、杭州、北京【内推码】RTHEA59【一键内推
oppo，埃科光电25届秋招，快手25届技术人才专项计划内推 2401_86288678 python 算法 java c语言测试工具
oppo，埃科光电25届秋招，快手25届技术人才专项计划内推①【OPPO】25届秋招开启！内推简历优先筛选！【岗位类别】AI/算法类，软件类，硬件类，工程技术类，品牌策划类，设计类，产品类，职能类等工作地点：东莞，深圳，西安，成都，北京，上海，武汉，南京等【内推码】：X6866447【一键内推】:https://careers.oppo.com/university/oppo/campus/pos
评论_摄影任梦晨
@7组｜Eating雷｜1505｜班长北京标题:《别让照片毁了你精心准备的假期》链接:https://mp.weixin.qq.com/s/pxB3819O80OYK4Vcj5hIdg刚带着舒适享受的心情看完班长的这篇文章，先给你个大大的赞！一篇文章优质与否，不是是看文笔多华丽，也不是文字量有多宽长，而是从中看到的是绝对认真的态度，这是其一；其二，文章带给人的价值意义，实用（技术类）价值也好，还是
游卡，得物，三七互娱，顺丰（提前批），快手，oppo，埃科光电，康冠科技25届秋招内推 2401_86288678 游戏策划算法前端 python c语言
游卡，得物，三七互娱，顺丰（提前批），快手，oppo，埃科光电，康冠科技25届秋招内推①游卡【岗位】程序技术类、产品策划类、美术类、发型运营类、职能综合类、桌游业务类【一键内推】https://sourl.cn/PHiZZE【内推码】DSymte2c②得物【八大职类】技术类、供应链类、产品类、运营类、设计类、职能类、商品研究类、风控类；【三大城市】上海、杭州、北京【内推码】RTHEA59【一键内推
分布式系统架构手册 ArchManual 分布式架构 java big data elasticsearch 分布式微服务
ArchManual分布式系统架构手册项目介绍ArchManual不是：某个技术架构的深度剖析某个技术框架的源码分析某个技术工具的安装运维某个技术类库的代码示例而是：常用分布式技术的总体概览常用技术主题的归纳总结常用技术框架的归类罗列常用技术架构的简单分享希望成为：速查手册：平时工作中做技术架构、框架选型时的速查手册学习提纲：业余学习或者面试时的一个学习提纲技术地图：对技术框架有一个整体和全面的了
2021 年江西省职业院校技能大赛网络搭建与应用技能竞赛方案（中职组）耗同学一米八网络搭建赛题网络 linux 服务器运维
2021年江西省职业院校技能大赛网络搭建与应用技能竞赛方案（中职组）各高职院校（中专部）、中等职业学校:根据江西省教育厅《关于举办2021年江西省职业院校技能大赛的通知》（赣教职成字〔2021〕29号）文件精神，现举办2021年江西省职业院校技能大赛信息技术类（网络搭建与应用）项目技能竞赛，为了确保竞赛工作顺利开展，特制定本竞赛方案。一、比赛时间、地点报名时间：2021年9月13日-2021年9月
Pytorch学习记录-接近人类水平的GEC（使用混合机器翻译模型）我的昵称违规了
五月第二周要结束了，接下来的三个月主要是文献阅读，准备8、9月的开题报告，技术类的文献集中在GEC和Textmaching的应用方面，读完之后找demo复现，然后应用。理论方面的论文也都是英文的8.NearHuman-LevelPerformanceinGrammaticalErrorCorrectionwithHybridMachineTranslation昨天一天没看论文，发现我文献阅读速度太
英文小说入门技术指南 VincentPeng
阅读英文原本书籍难度判定本推荐是关于新手上路阅读英文原版小说，英文技术类书籍不包含。很多情况是对英文阅读来了兴趣，但是呢，不知道当前手上的厚厚英文读物对自己来说到底是个何等难度，就像小学生去读语言比较隐晦的名著一样，一句话只认识一两个单词、一个一个都查出来了又看不懂心里烦不烦？基本三页过后就看不下去了。还不够查字典的时间。这里推荐一个国外的读物评级标准Lexlie(蓝思)蓝思标准包含了单词难易程度
（一）人生百态——顺风车那点事儿梦里寻梦8
从小就有一个文笔的梦，高中时期尝试写过小说，还是用纸一笔一画写的，想来在高三这么宝贵竟然花了那么多时间来写日子跟小说，无怪乎没多大学习能力的提升。现在日计好厚的一本被全封死来，权当青春当回忆又不能翻开，而那个小小说也不知道飘落在哪个角落里，至今无法追寻。想写这么一个专集很久了，一直迟迟没有动笔，可能真是太懒了。现在就想着一方面写一些技术类的文章，一面写一些对生活现象对一些理解，而写这么一个专集的初
一年读50本书吃撑的舞伶
自主学习，读得多才读得快。爱学习的人会越来越善于学习。这50本书，可以包括方方面面，技术类的、理财类的、小说类的都可以。重点是必须要有些启发性才行。
安卓逆向能做什么｜APP自动化执行爱因斯坦爱编程
“安卓逆向”不是一个新名词，它伴随着安卓开发而生，但是一直以来，仅限于技术圈内流行，对于非技术圈人士，往往把“APP破解”和“安卓逆向”划等号。这篇文章是写给非技术圈人士看的，在于普及安卓逆向的概念及其应用场景。一、安卓逆向是什么？目前百度知道都没有收录安卓逆向这个词条，大部分能搜索到的资料都是技术人员写的偏技术类的文章，往往充斥着代码和各类工具集合，非技术人员一看就比较懵逼。简单地来说，安卓逆向
[日更第14天]整理书架-完结爱读书的夏夏
昨天整理了书架里的部分格子，今天继续进行整理，最终将所有的格子都整理完了。今天整理书架的时候清理出来好多书，基本都是技术类的书籍，大多是前端类的书籍。曾经的故事，逐渐浮现在眼前。大概是3年前的一段时间，我对测试工作失去了兴趣，并且对这个职业的价值产生了质疑。当时觉得前端工作更有价值一些，而且也适合女生，职业生存期比较长一些。因此我一门心思，想学习前端，于是我买了很多很多前端的书。我找我们公司的一个
我是如何毁掉孩子学习奥数的兴趣倾听者阳光
大白菜开花我是如何毁掉孩子学奥数的兴趣文/阳光现在中考改革了，只有一半的孩子可以上高中，另外一半的孩子只能上技术类学校，就是中专。好多家长都给孩子补课，补奥英、奥语、奥数，为了上好的初中，然后有机会考上好的高中。才有机会上好大学。开始，我并不赞同补课，我认为补不补课无所谓，孩子也不愿意补。这样相安无事地处着也挺好，孩子写完作业就去玩，看电视之类的。但是孩子的同学大部分都在补课，周末那些同学不是补课
《高性能 JavaScript》笔记前端技师胡帅博
2015年自学的时候看网上有个人的推荐买的，这么些年一直没看，前两天翻出来发现里面大多数的内容都已经不适用了，所以以后技术类的书应该不会再买纸质的了，技术的发展迭代实在是太快了。将多个脚本文件合并成一个，减少请求次数；将脚本文件放在文档底部，避免阻塞页面加载；如果不是写原生的话，这两条基本用不上，框架都已经做好了标识符解析的性能：location.href比window.location.href
不用买书：一文看懂基金基础知识精华提炼大佛聊互联网金融
终于，有人把基金基础知识精华部分总结完整了。我们常说：人永远也赚不到超出您认知范围以外的钱。何谓认知？万丈高楼平地起，只有把基金基础知识掌握牢固了，以后再去看基金技术类的文章时才更容易看得懂，理解透，玩基金的技术才更有希望获得飞跃式的发展，而不是靠运气，靠听人说，靠感觉去赚钱。人能赚到且守住的财富，都是要靠自己的实力去获取。一、基金类别1.证券投资基金2.契约型基金3.公司型基金4.封闭式基金5.
认知颠覆10—你的未来，究竟是什么样子幻宇宸空
你期望未来的自己是什么样子？有车有房有存款？升职加薪当老板？还是周游世界？当然，这只是打个比方，但什么样的未来才是最好的？我想，应该就像作者所说的那样——比现在更好。那么如何才能变得更好？比如，你看了关于提升演讲技术类的书，知道了演讲的结构是坡道——论据——甜点，你学到这个知识，就会在演讲中发挥得更好。比如，你很确定自己公司里扮演的角色，很确定该说什么话，不该说什么话，这就可能会使你过得比别人好。
连载42《管理：使命、责任、实务（实务篇）》笔记医管求索者
第42章组织的基本构成单位【对第42章总的理解】从关键活动去思考组织的基本构成单元是首要的任务。其次根据与产生成果的关系再把基本构成单位分类，不要按照技术类别划分，而是根据产出划分和合并。【对文章内容的理解】组织的基本构成单位首先来着关键活动在设计组织的基本构成单位是必须从想要得到的成果出发分析各种关键活动。注意是承担重任的部分。比如为了达到公司的目标，必须在哪个领域有出色的表现？哪些领域会影响企
我的2023年：程序员的自我迭代、技术复盘与生活点滴 2023-年度总结前端年终总结
今年的年终总结延迟了两个月，每年都会年底的时候来写一篇来复盘下这一年自我发生了什么变化。至于为啥延迟了这么久，感觉没啥可写的，或与是好久没写非技术类文章，不知如何开头。今年是我从事程序员行业的第四年了，现在早已没当初入行干这份工作的热情了，那会可以为了学会一个知识点去熬夜通宵，甚至一周去看视频学习，那会盲目学习各种技术；如今，工作四年了，这四年之间也没少卷各种技术(Go,Flutter,Nest.
《当下的力量》读书分享会你是谁谁是我
这是一本不太容易读下去的书，即便读进去了，也不太容易完整地复述出它的内容，为什么呢？它不同于有引人故事结构的小说，也不是简洁明了技术类的工具书，更不是抒发情志的散文随笔，它里面绝大部分都是利用人类内心的体验在沟通，无论如何，这是一本造福人类的书，这一点是无庸置疑的。首先我们对书中的几个概念做出解释。当下，什么是当下？这是一个非常抽象的名词，它表达的是一种状态，一种非常美妙的状态。我举个例子，大家就
怎么做？这么做。慢了半拍i 生活笔记经验分享微信
一、每天输入每天读2——3篇文章，可以是行业趋势、技术推文(与自己的工作有关的方向)，每天坚持一年就会是1000篇。推荐：大厂的技术博客：纯技术类，美团技术团队、阿里技术团队；科技资讯类：量子位、差评、新智元、无敌信息差；经验分享、编程趋势、技术干货的up二、持续学习新技术每天抽不到1小时，看2——3集教程，坚持一个月，看完一套课程。三、复盘总结每天记录自己完成的工作，贴个文档啥的都可以；每月开始
中兴之怒与战略上的懒惰凯文大弟
中兴事件表明只想走捷径，闷声发财对技术类企业来说是走不远的。中国的各大汽车厂和飞机制造商最好也借此反思一下自己的战略。试想如果有一天外国供应商不再提供发动机给自己，自己该何去何从。去年的c919飞机试飞成功是一个契机，表明中国有志于在核心的商飞制造领域有所突破。但汽车制造业呢?一汽上汽东风广汽等等，经过这几年的发展，除了通过合资车大赚特赚外，有没有研发出不求人的发动机技术呢?据我所知好像没有。
新年！一些文章债 D_D Hehuyi_In 杂七杂八数据库
新的一年工作内容和量的变化都比较大，遇到不少有意思的主题，还有一些需要深入学习的内容，却又不像之前有那么多时间写文档记录。套用一下工作套路——拉清单记待办：技术类各类共享存储、主要用途与区别向量数据库的基本原理和主要类型入门pgwal日志清理：对归档进程的影响，wal日志与.ready间的关系，pg10中是否存在wal日志而不存在.ready时，.ready会重新生成pgbackrest归档进程的
Pytorch学习记录-GEC语法纠错我的昵称违规了
Pytorch学习记录-GEC语法纠错01五月第一周要结束了，接下来的三个月主要是文献阅读，准备8、9月的开题报告，技术类的文献集中在GEC和Textmaching的应用方面，读完之后找demo复现，然后应用。理论方面的论文也都是英文的，国内这块做的真的不行啊……学习计划GEC概念AlibabaatIJCNLP-2017Task1:EmbeddingGrammaticalFeaturesintoL
12省份明确证书直接对应职称！小明是图书管理员
为贯彻落实中央办公厅国务院办公厅《关于深化职称制度改革的意见》（中办发〔2016〕77号），人力资源社会保障部工业和信息化部《关于深化工程技术人才职称制度改革的指导意见》（人社部发〔2019〕16号）的文件精神，各省委办公厅省政府办公厅结合省内实际情况，对部分职业领域建立职称与专业技术类职业资格对应关系的有关事项进行了明确。截至目前，四川、福建、河南、黑龙江、湖北、安徽、江苏、浙江、陕西、海南、广
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

正向最大匹配中文分词算法

【串和序列处理 3】Trie Tree 串集合查找

你可能感兴趣的:(技术类)