dmqkt22626

[转]自然语言分词工具

一.分词软件简介

分词算法在20世纪80年代就有研究，不过基于当时的技术条件所限，大多数就是原始的机械分词算法。比如，最大匹配算法，mmseg等。关于原始的机械分词算法 http://www.cnblogs.com/alic/articles/1215001.html 这篇blog有很详细的介绍。

之后随着统计算法在自然语言处理领域地位的奠定以及机器学习的兴起，基于统计和机器学习的分词算法逐渐成为主流。根据机器学习方法的分类，分词算法也可以分成无监督分词，半监督分词以及有监督的分词。目前有监督的分词以及半监督的分词已经研究的比较成熟。对于这种分词算法，大致可以分为四类：

第一类是生成式的基于词的分词方法，这类具有代表的是中科院的ICTCLAS等等比较经典的分词软件。
第二类是判别式的基于词的分词方法，这类中的算法比较少，其中一个是基于平衡感知机的分词。
第三类是生成式基于字的生成式分词方法，比如Wang(2009)所提出的n元模型分词算法。
第四类也是目前主流的是基于字的判别式分词方法，主要是最大熵模型和条件随机场模型。几乎全部2003年之后提出的分词算法都与这一类别有关，比如哈工大的LTP和Stanford Word Segmenter就是采用CRF模型。

此外，分词算法还可以根据在自然预言处理中的步骤来分，比如纯分词，就是除了分词之外什么都不做，大多数基于字的分词算法都属于这一类。此外将分词和词性标注结合在一起完成，比如ICTCLAS。还有基于语义网络分词的算法。总的来说，结合额外信息越多，对于分词结果就越好。比如ICTCLAS将分词与词性标注结果结合起来，效果就比光光使用一元概率模型（ICTCLAS）效果要好。

分词模型

分词模型大致可以分为判别式和生成式，以及基于词和基于字的方法。主要使用到的模型为: n-Gram，Percepton，HMM，SVM，ME，CRF。判别式和生成式的区别就是判别式是计算P(Y|X)的条件概率，但是生成式则是计算P(X1, X2)的联合概率，通常来说判别式的效果要比生成式的要好，这一分类比较复杂，不好解释，涉及到很多数学模型，详情可以去看看相关资料。

基于词和基于字的分词的区别就是基于词的算法将词看成算法中最小单元，比如这句话

结合/成/分子/时

在基于词的分词算法中，主要用到一个词典，“结合”、“成”、“分子”在词典中，它们是分词中的最小单元，不可拆分，一旦拆分就会出现分词错误。但是基于字的分词算法则不同，它将每个字看成是一个单元，通常和序列标注相结合，对每个字进行标注，然后得出分词结果。比如

结合成分子时

使用CRF等序列标注模型得出的序列标注结果是

B E S B E S

其中B表示一个词的开头，E表示一个词的结尾，S表示单个字作为词。然后分词的结果经过一些小处理就可以得出了。

通常来说基于词的分词算法在词典比较全，文章比较正式的时候效果比较好。但是总是会遇见一些比较变态的词典中没有的词，其中最有代表的就是人名地名还有商标名等等。所以一般这些基于词分词软件还必须要加上识别人名地名的功能。

基于字的分词算法主要是依赖于某些字在构词方面的特征，比如“的”字通常就是单个字出现，有很大的几率是标注S，“化”字比较喜欢出现在词的末尾，比如现代化，工业化等等。根据这些信息进行标注分词，它对于词典中不存在的词效果识别几率比较大，但是对于词典中的词可能会识别错误，另外还会出现千奇百怪的分词错误，比如“沙把”等等。因此，现在多数的分词软件在基于字的基于上，或多或少的结合了一点基于词的特征。

二.实现中文分词的18种分词工具

由于中文文本词与词之间没有像英文那样有空格分隔，因此很多时候中文文本操作都涉及切词，这里整理了一些。一般来说用CRF实现的分词工具的处理速度是比较慢的（训练CRF模型是非常耗时的），但是精度高，涉及CRF的分词工具有CRF++，Stanford分词工具。

Bakeoff是一个国际中文处理比赛，有多个语料，所以每个语料都有排名。只有部分优秀的Bakeoff工具开源，以下介绍以下18种分词工具（大部分是基于java语言）：

Stanford 汉语分词工具

官网：http://nlp.stanford.edu/software/segmenter.shtmlStanford 汉语分词工具的成绩：2005年Bakeoff2两个语料的测试第一。Stanford 汉语分词工具

一篇使用介绍：http://hi.baidu.com/liheming333/item/585fba1f898838623e87ce18

斯坦福自然语言小组直接使用CRF 的方法，特征窗口为5。

哈工大语言云（LTP -cloud）

项目网址：http://www.ltp-cloud.com/download/#ltp_cloud_sdk

HIT的ITNLP Lab, HIT Wei JIANG在Bakeoff 2005的open语料MSR上获得测评第一名。语言云曾获CoNLL2009七国语言句法语义分析评测总成绩第一名，使用方式为web service。

语言云（语言技术平台云 LTP-Cloud）是由哈工大社会计算与信息检索研究中心研发的云端自然语言处理服务平台。后端依托于语言技术平台，语言云为用户提供了包括分词、词性标注、依存句法分析、命名实体识别、语义角色标注在内的丰富高效的自然语言处理服务。

作为基于云端的服务，语言云具有如下一些优势：

免安装：用户只需要下载语言云客户端源代码，编译执行后即可获得分析结果，无需调用静态库或下载模型文件。
省硬件：语言云客户端几乎可以运行于任何硬件配置的计算机上，用户不需要购买高性能的机器，即可快捷的获得分析结果。
跨平台：语言云客户端几乎可以运行于任何操作系统之上，无论是Windows、Linux各个发行版或者Mac OS。
跨编程语言：时至今日，语言云已经提供了包括C++，Java，C#，Python，Ruby在内的客户端，其他编程语言的客户端也在开发之中。

在运算资源有限，编程语言受限的情况下，语言云无疑是用户进行语言分析更好的选择。

从2006年9月5日开始该平台对外免费共享目标代码，截止目前，已经有国内外400多家研究单位共享了LTP，也有国内外多家商业公司购买了LTP，用于实际的商业项目中。2011年6月1日，为了与业界同行共同研究和开发中文信息处理核心技术，正式将LTP的源代码对外共享，LTP由C++语言开发，可运行于Windows和Linux操作系统。

ICTCLAS：　汉语词法分析系统

官网：http://ictclas.nlpir.org/ Author：中国科学院计算技术研究所

ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)获取Bakeoff 1两项第一。这是最早的中文开源分词项目之一，ICTCLAS在国内973专家组组织的评测中活动获得了第一名，在第一届（2003）国际中文处理研究机构SigHan组织的评测中都获得了多项第一名。

性能：分词速度单机996KB/s， API 不超过 200KB ，各种词典数据压缩后不到 3M.

准确率：分词精度98.45%

语言和平台：ICTCLAS全部采用 C/C++ 编写，支持 Linux 、 FreeBSD 及 Windows 系列操作系统，支持 C/C++ 、 C# 、 Delphi、 Java 等主流的开发语言。

主要功能：中文分词；词性标注；命名实体识别；新词识别；同时支持用户词典；支持繁体中文；支持GBK 、 UTF-8 、 UTF-7 、 UNICODE 等多种编码格式。

算法：完美PDAT 大规模知识库管理技术（ 200510130690.3 ），在高速度与高精度之间取得了重大突破，该技术可以管理百万级别的词典知识库，单机每秒可以查询 100 万词条，而内存消耗不到知识库大小的 1.5 倍。层叠隐马尔可夫模型（ Hierarchical Hidden Markov Model ），该分词系统的主要是思想是先通过 CHMM( 层叠形马尔可夫模型 ) 进行分词 , 通过分层 , 既增加了分词的准确性 , 又保证了分词的效率 . 共分五层, 如下图所示。基本思路是进行原子切分 , 然后在此基础上进行N- 最短路径粗切分 , 找出前 N 个最符合的切分结果 , 生成二元分词表 , 然后生成分词结果 , 接着进行词性标注并完成主要分词步骤 .

Ansj（ICTCLAS的java实现）

项目网址：https://github.com/ansjsun/ansj_seg

作者网址：http://www.ansj.org/

ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict.中文分词,人名识别,词性标注,用户自定义词典增加了对lucene的支持.如果不想编译文件可以直接到 https://github.com/ansjsun/mvn-repo/tree/gh-pages/org/ansj这里下载jar包!

这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化。

性能：内存中中文分词每秒钟大约100万字(速度上已经超越ictclas)，文件读取分词每秒钟大约30万字

正确率：准确率能达到96%以上

功能：目前实现了.中文分词. 中文姓名识别 . 用户自定义词典可以应用到自然语言处理等方面,适用于对分词效果要求搞的各种项目.

庖丁解牛分词

官网：http://code.google.com/p/paoding/

语言和平台：Java,提供 lucence 3.0 接口，仅支持 Java 语言。

性能：在PIII 1G 内存个人机器上， 1 秒可准确分词 100 万汉字。

算法：采用基于不限制个数的词典文件对文章进行有效切分

主要功能：使能够将对词汇分类定义。能够对未知的词汇进行合理解析

盘古分词

官网：http://pangusegment.codeplex.com

博客：http://www.cnblogs.com/eaglet/

是一个中英文分词组件。Pan Gu Segment is alibrary that can segment Chinese and English words from sentence.盘古分词是一个中英文分词组件。作者eaglet 曾经开发过KTDictSeg 中文分词组件，拥有大量用户。作者基于之前分词组件的开发经验，结合最新的开发技术重新编写了盘古分词组件。

主要功能：中文分词功能，中文未登录词识别，词频优先，盘古分词可以根据词频来解决分词的歧义问题，多元分词，盘古分词提供多重输出解决分词粒度和分词精度权衡的问题，中文人名识别，强制一元分词，繁体中文分词，同时输出简体和繁体中文词性输出盘古分词可以将以登录词的中文词性输出给用户，以方便用户做进一步处理，全角字符支持，盘古分词可以识别全角的字母和数字，英文分词，英文专用词识别（一些英文简写是字母符号混合，或者是字母数字混合，这个分词起来就不能按照空格符号这样分割了，对于字母符号混合的如 U.S.A ，只要将这个词录入到字典中，盘古分词就可以分出整词。对于字母和数字混合的，盘古分词会自动作为整词输出），英文原词输出，英文大小写同时输出。

其他功能：

停用词过滤：对于一些标点符号，连词，助词等有时候需要在分词时过滤掉，盘古分词提供一个 StopWord.txt 文件，用户只要将需要过滤的词加入到这个文件中，并将停用词过滤开发打开，就可以过滤掉这些词。

设置分词权值：盘古分词可以让用户对如下特性设置自定义权值，1 未登录词权值 2 最匹配词权值 3 次匹配词权值 4 再次匹配词权值 5 强行输出的单字的权值 6 数字的权值 7 英文词汇权值 8 符号的权值 9 强制同时输出简繁汉字时，非原来文本的汉字输出权值。

用户自定义规则：

字典管理，盘古分词提供一个字典管理工具 DictManage 通过这个工具，你可以增加，修改，和删除字典中的单词

动态加载字典，通过字典工具增加，修改，和删除字典中的单词后，保持字典，盘古分词会自动将新的字典文件加载进去，而不需要重新启动。

关键词高亮组件，Lucene 提供了一个关键词高亮组件，但这个组件对中文的支持不是特别好，特别是如果还有多元分词的情况，处理的就更不好。盘古分词提供了一个针对中文和英文的关键词高亮组件 PanGu.HighLight ，其对中文的支持要好于Lucene 那个高亮组件。

同义词输出( 后续版本提供 )，Lucene.net 接口及示例等在PanGu4Lucene 这个包里面有我做的一个盘古 +Lucene 的简单新闻搜索 Web 示例程序， Release 包里面有使用说明。

性能：Core Duo 1.8 GHz 下单线程分词速度为 390K 字符每秒， 2 线程分词速度为 690K 字符每秒。

算法：盘古分词提供的字典包括17万个中文常用单词，但这个字典依然不够完整，如果要分词更准确，需要适当维护一下这个字典。中文人名的识别能力取决于 ChsSingleName.txt ， ChsDoubleName1.txt ， ChsDoubleName2.txt 这三个文件，它们分别表示单子人名，双字人名的首字和双字人名的尾字。

IKAnalyzer

官网：http://code.google.com/p/ik-analyzer/

作者博客：http://linliangyi2007.iteye.com/

从2006年12月推出1.0版开始。开源轻量级的包语言和平台：基于java 语言开发，最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。新版本的 IKAnalyzer3.0 则发展为面向 Java 的公用分词组件，独立于 Lucene 项目，同时提供了对 Lucene 的默认优化实现。

算法：采用了特有的“ 正向迭代最细粒度切分算法 “ 。采用了多子处理器分析模式，支持：英文字母（ IP 地址、 Email 、 URL ）、数字（日期，常用中文数量词，罗马数字，科学计数法），中文词汇（姓名、地名处理）等分词处理。优化的词典存储，更小的内存占用。支持用户词典扩展定义。针对 Lucene 全文检索优化的查询分析器 IKQueryParser ；采用歧义分析算法优化查询关键字的搜索排列组合，能极大的提高 Lucene 检索的命中率。

性能：在系统环境：Core2i7 3.4G双核，4G内存，window 7 64位， Sun JDK 1.6_29 64位普通pc环境测试，IK2012具有160万字/秒（3000KB/S）的高速处理能力

imdict-chinese-analyzer

官网：http://code.google.com/p/imdict-chinese-analyzer/是imdict 智能词典的智能中文分词模块，ictclas4j中文分词系统是 sinboy 在中科院张华平和刘群老师的研制的 FreeICTCLAS 的基础上完成的一个 java 开源分词项目，简化了原分词程序的复杂度，旨在为广大的中文分词爱好者一个更好的学习机会。

算法：基于隐马尔科夫模型(Hidden Markov Model， HMM) ，是中国科学院计算技术研究所的 ictclas 中文分词程序的重新实现（基于 Java ），可以直接为lucene搜索引擎提供简体中文分词支持。

主要功能：

1，完全 Unicode 支持，分词核心模块完全采用Unicode 编码，无须各种汉字编码的转换，极大的提升了分词的效率。2. 提升搜索效率，根据imdict 智能词典的实践，在有智能中文分词的情况下，索引文件比没有中文分词的索引文件小 1/3

3. 提高搜索准确度，imdict-chinese-analyzer采用了 HHMM 分词模型，极大的提高了分词的准确率，在此基础上的搜索，比对汉字逐个切分要准确得多！

4. 更高效的数据结构，为了提高效率，针对常用中文检索的应用场景，imdict-chinese-analyzer 对一些不必要的功能进行了删减，例如词性标注、人名识别、时间识别等等。另外还修改了算法的数据结构，在内存占用量缩减到 1/3 的情况下把效率提升了数倍。imdict-chinese-analyzer的分词效率与 C ＋＋实现的 ICTCLAS 3.0的分词效率在同一个数量级，是 ictclas4j 的 36 倍！

mmseg4j

项目网址：（旧）http://code.google.com/p/mmseg4j/

（新）https://github.com/chenlb/mmseg4j-solr

作者博客：http://blog.chenlb.com/ http://chenlb.iteye.com/

算法：

1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/)实现的中文分词器，并实现 lucene 的 analyzer和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。

2、MMSeg 算法有两种分词方法：Simple和Complex，都是基于正向最大匹配。Complex 加了四个规则过虑。官方（指mmseg论文的作者）说：词语的正确识别率达到了 98.41%。

mmseg4j 已经实现了这两种分词算法。

1.5版的分词速度simple算法是 1100kb/s左右、complex算法是 700kb/s左右，（测试机：AMD athlon 64 2800+ 1G内存 xp）。

1.6版在complex基础上实现了最多分词(max-word)。“很好听” -> “很好|好听”; “中华人民共和国” -> “中华|华人|共和|国”; “中国人民银行” -> “中国|人民|银行”。

1.7-beta 版, 目前 complex 1200kb/s左右, simple 1900kb/s左右, 但内存开销了50M左右. 上几个版都是在10M左右.

1.8 后,增加 CutLetterDigitFilter过虑器，切分“字母和数”混在一起的过虑器。比如：mb991ch 切为 “mb 991 ch”。

mmseg4j实现的功能详情请看：http://mmseg4j.googlecode.com/svn/trunk/CHANGES.txt

FudanNLP(复旦大学)

官网：http://code.google.com/p/fudannlp/

2013.8.14 发布FudanNLP1.6.1版。时常更新。复旦大学开发的软件。FudanNLP主要是为中文自然语言处理而开发的工具包，也包含为实现这些任务的机器学习算法和数据集。本工具包及其包含数据集使用LGPL3.0许可证。开发语言为Java。功能包括中文分词等，不需要字典支持。

功能：

信息检索：文本分类新闻聚类

中文处理：中文分词词性标注实体名识别关键词抽取依存句法分析时间短语识别

结构化学习：在线学习层次分类聚类精确推理

Jcseg

官网：http://code.google.com/p/jcseg/

jcseg是使用Java开发的一个中文分词器，使用mmseg算法实现。目前最高版本：jcseg1.9.0。兼容最高版本lucene-4.x和最高版本solr-4.x

主要特性：

mmseg四种过滤算法，分词准确率达到了98.41%。

支持自定义词库。在lexicon文件夹下，可以随便添加/删除/更改词库和词库内容，并且对词库进行了分类。如何给jcseg添加词库/新词。

中英文同义词追加/同义词匹配 + 中文词条拼音追加．词库整合了《现代汉语词典》和cc-cedict辞典中的词条，并且依据cc-cedict词典为词条标上了拼音，依据《中华同义词词典》为词条标上了同义词(尚未完成)。更改jcseg.properties配置文档可以在分词的时候加入拼音和同义词到分词结果中。

中文数字和中文分数识别，例如：”一百五十个人都来了，四十分之一的人。”中的”一百五十”和”四十分之一”。并且jcseg会自动将其转换为阿拉伯数字加入到分词结果中。如：150， 1/40。

支持中英混合词和英中混合词的识别(维护词库可以识别任何一种组合)。例如：B超, x射线, 卡拉ok, 奇都ktv, 哆啦a梦。

更好的英文支持，电子邮件，网址，小数，分数，百分数，字母和标点组合词（例如C++, c#）的识别。(这个对购物网址来说很重要)。

支持阿拉伯数字/小数/中文数字基本单字单位的识别，例如2012年，1.75米，38.6℃，五折，并且jcseg会将其转换为“5折”加入分词结果中。

智能圆角半角, 英文大小写转换；特殊字母识别：例如：Ⅰ，Ⅱ；特殊数字识别：例如：①，⑩

配对标点内容提取：例如：最好的Java书《java编程思想》，‘畅想杯黑客技术大赛’，被《,‘,“,『标点标记的内容。(1.6.8版开始支持)。

智能中文人名识别。中文人名识别正确率达94%以上。（可以维护lex-lname.lex，lex-dname-1.lex，lex-dname-2.lex来提高准确率），(引入规则和词性后会达到98%以上的识别正确率)。

自动中英文停止词过滤功能（需要在jcseg.properties中开启该选项，lex-stopwords.lex为停止词词库）。

词库更新自动加载功能, 开启一个守护线程随时检测词库的更新并且加载。

自动词性标注。

分词速度：

测试环境：2.8GHZ/2G/Ubuntu

Simple 模式： 1366058字/秒 3774.5KB/秒

Complex 模式： 479338字/秒 1324.4KB/秒

分词正确率98%以上，请参考本算法的原作：http://technology.chtsai.org/mmseg/

测试文章，“世界与和平” 简易模式830msec，复杂模式2461msec。

SCWS

算法：基于词频词典的机械中文分词引擎，采用的是采集的词频词典，并辅以一定的专有名称，人名，地名，数字年代等规则识别来达到基本分词

准确率：经小范围测试大概准确率在 90% ~ 95% 之间，已能基本满足一些小型搜索引擎、关键字提取等场合运用。

性能：45Kb左右的文本切词时间是 0.026 秒，大概是 1.5MB 文本 / 秒，

语言和平台：SCWS 采用纯 C 代码开发，以 Unix-Like OS 为主要平台环境，提供共享函数库，方便植入各种现有软件系统。此外它支持 GBK ， UTF-8 ，BIG5 等汉字编码。支持 PHP4 和PHP 5 。

版本列表

Friso

官网http://code.google.com/p/friso/

friso是使用c语言开发的一个中文分词器，使用流行的mmseg算法实现。完全基于模块化设计和实现，可以很方便的植入到其他程序中，例如：MySQL，PHP等。并且提供了一个php中文分词扩展robbe。

特性：

只支持UTF-8编码。【源码无需修改就能在各种平台下编译使用，加载完20万的词条，内存占用稳定为14M。】。

mmseg四种过滤算法，分词准确率达到了98.41%。

支持自定义词库。在dict文件夹下，可以随便添加/删除/更改词库和词库词条，并且对词库进行了分类。

词库使用了friso的Java版本jcseg的简化词库。

支持中英混合词的识别。例如：c语言，IC卡。

很好的英文支持，电子邮件，网址，小数，分数，百分数。

支持阿拉伯数字基本单字单位的识别，例如2012年，5吨，120斤。

自动英文圆角/半角，大写/小写转换。并且具有很高的分词速度：简单模式：3.7M/秒，复杂模式：1.8M/秒。

HTTPCWS：

PHPCWS 是一款开源的 PHP 中文分词扩展，目前仅支持 Linux/Unix 系统。

算法：PHPCWS 先使用“ICTCLAS 3.0 共享版中文分词算法 ” 的 API 进行初次分词处理，再使用自行编写的 “ 逆向最大匹配算法 ” 对分词和进行词语合并处理，并增加标点符号过滤功能，得出分词结果。 ICTCLAS 3.0 商业版是收费的，而免费提供的 ICTCLAS 3.0 共享版不开源，词库是根据人民日报一个月的语料得出的，很多词语不存在。所以本人对 ICTCLAS 分词后的结果，再采用逆向最大匹配算法，根据自己补充的一个 9 万条词语的自定义词库（与 ICTCLAS 词库中的词语不重复），对 ICTCLAS 分词结果进行合并处理，输出最终分词结果。由于 ICTCLAS 3.0 共享版只支持 GBK 编码，因此，如果是 UTF-8 编码的字符串，可以先用 PHP 的 iconv 函数转换成 GBK 编码，再用 phpcws_split 函数进行分词处理，最后转换回 UTF-8 编码。

性能：5 8字节的一句话 ——“2009 年 2 月 13 日，我编写了一款PHP 中文分词扩展： PHPCWS 1.0.0。 ” ，分词速度只需 0.0003 秒。对于那些采用二元交叉切分的搜索引擎， PHPCWS 用在前端搜索层对用户输入的搜索关键字、短语进行分词处理，同样适合。 PHPCWS 开发的目的正在于此，对于短句、小文本中文分词切分，速度非常之快。

libmmseg

语言和平台：用C++ 编写的开源的中文分词软件， libmmseg 主要被作者用来实现 Sphinx 全文检索软件的中文分词功能，因此作者给 Sphinx 提供了一个补丁文件，可以让 Sphinx 集成 libmmseg ，从而支持对于中文文章的全文检索功能。 libmmseg 从 0.7.2版本开始，作者提供了 ruby 调用的接口，所以我们可以直接在ruby 程序里面调用 libmmseg 进行分词了。特别是我们可以用 ferret 去调用 libmmseg 分词功能，从而让 ruby 原生支持中文的全文检索。

算法：“基于词库的最大匹配算法 ”

性能：分词速度为每秒300KB左右。

OpenCLAS

是一个开源的中文词法分析库。

主要功能：其中包括了中文分词、词性标注等功能。系统使用基于概率的多层HMM 。可以对已登录词和未登录词进行识别分析。OpenCLAS是对原有的 ICTCLAS ( 中科院中文词法分析系统 ) 进行的重写。 OpenCLAS 将不包含任何 ICTCLAS 中的源代码，并且以 BSD 协议发布。因此其代码可以在满足 BSD 协议的前提下，用于包括商用在内的各种场合。OpenCLAS将包含三个语言分支，C++, Java 和 C# 。 ( 目前只实现了 C++ 的版本 ) 。

CRF++（上海交大）

项目网址：http://code.google.com/p/crfpp/

详细介绍：http://crfpp.googlecode.com/svn/trunk/doc/index.html

个人主页：http://bcmi.sjtu.edu.cn/~zhaohai/index.ch.html

参考原文地址：

http://ling0322.info/2013/02/13/cws-intro.html

http://www.onexin.net/to-achieve-the-18-chinese-word-segmentation-tool/

转载于:https://www.cnblogs.com/I-Tegulia/p/4613480.html

你可能感兴趣的:([转]自然语言分词工具)

QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
直抒《紫罗兰永恒花园外传》雷姆的黑色童话
没看过《紫罗兰永恒花园》的我莫名的看完了《紫罗兰永恒花园外传》，又莫名的被故事中的姐妹之情狠狠地感动了的一把。感动何在：困苦中相依为命的姐妹二人被迫分离，用一个人的自由换取另一个人的幸福。之后，虽相隔不知几许依旧心心念念彼此牵挂。这种深深的姐妹情谊就是令我为之动容的所在。贝拉和泰勒分别影片开始，海天之间一个孩童凭栏眺望，手中拿着折旧的信纸。镜头一转，挑灯伏案的薇尔莉特正在打字机前奋笔疾书。这些片段
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
直返最高等级与直返APP：无需邀请码的返利新体验古楼
随着互联网的普及和电商的兴起，直返模式逐渐成为一种流行的商业模式。在这种模式下，消费者通过购买产品或服务，获得一定的返利，并可以分享给更多的人。其中，直返最高等级和直返APP是直返模式中的重要概念和工具。本文将详细介绍直返最高等级的概念、直返APP的使用以及与邀请码的关系。【高省】APP（高佣金领导者）是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，运行三年，稳定可靠。高省APP，
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
利用Requests Toolkit轻松完成HTTP请求 nseejrukjhad http 网络协议网络 python
RequestsToolkit的力量：轻松构建HTTP请求Agent在现代软件开发中，API请求是与外部服务交互的核心。RequestsToolkit提供了一种便捷的方式，帮助开发者构建自动化的HTTP请求Agent。本文旨在详细介绍RequestsToolkit的设置、使用和潜在挑战。引言RequestsToolkit是一个强大的工具包，可用于构建执行HTTP请求的智能代理。这对于想要自动化与外
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
CX8903：Ebike自行车仪表电源方案开发,Ebike智能仪表电源芯片诚芯微科技社交电子
CX8903：电动Ebike自行车仪表电源方案开发,Ebike智能仪表电源芯片推荐。电动助力自行车EBIKE凭借其环保、健康、低噪、和便捷等特点，成为了越来越受欢迎的骑行便利交通工具。提供电动Ebike自行车仪表电源方案开发、E-BIKE电动助力自行车仪表供电电源解决方案。CX8903采用100V高压制造工艺（芯片最高耐压可到100V以上），SOP-8L贴片封装，CX8903内置100V/90mΩ
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】-测试八股文真题题库（1）算法大师华为od 面试 python 算法前端
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.黑盒测试和白盒测试的区别2.假设我们公司现在开发一个类似于微信的软件1.0版本，现在要你测试这个功能：打开聊天窗口，输入文本，限制字数在200字以内。问你怎么提取测试点。功能测试性能测试安全性测试可用性测试跨平台兼容性测试网络环境测试3.接口测试的工具你了解哪些
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
mac电脑命令行获取电量小米人er 我的博客 macos 命令行
在macOS上，有几个命令行工具可以用来获取电量信息，最常用的是pmset命令。你可以通过以下方式来查看电池状态和电量信息：查看电池状态：pmset-gbatt这个命令会返回类似下面的输出：Nowdrawingfrom'BatteryPower'-InternalBattery-0(id=1234567)95%;discharging;4:02remainingpresent:true输出中包括电
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
摩托车加装车载手机充电usb方案/雅马哈USB充电方案开发诚芯微科技社交电子
长途骑行需要给手机与行车记录仪等设备供电，那么，加装USB充电器就相继在两轮电动车上应用起来了。摩托车加装usb充电方案主要应用于汽车、电动自行车、摩托车、房车、渡轮、游艇等交通工具。提供电动车USB充电器方案/摩托车加装usb充电方案/渡轮加装usb充电方案/游艇加装usb充电方案开发。摩托车加装车载手机充电usb方案、汽车游艇改装四孔面板装双USB车充点烟器5V/4A电动车USB充电器输入4.
如何选择最适合你的项目研发管理软件？TAPD卓越版全面解析北京云巴巴信息技术有限公司产品经理需求分析
在当今快速发展的科技时代，项目研发管理软件已成为企业不可或缺的重要工具。面对市场上琳琅满目的产品，如何选择一款适合自己团队的项目研发管理软件呢？本文将围绕项目研发管理软件的选择标准，重点介绍TAPD卓越版的特点、优势以及使用体验，让你更好地理解和选择适合自己的项目研发管理软件。项目研发管理软件的选择标准在选择项目研发管理软件时，我们需要考虑以下几个方面的因素：功能全面性：软件是否覆盖了从需求管理、
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
希望和悲伤都是照亮我们人生的一缕光山月映雪
我开始并不想读《云边有个小卖部》，但看到好几个学生就都在读这本书，为了了解学生的阅读实际，我就拿起这本书翻看起来。读了十几页，发现小说的语言中不时有一些粗俗的字眼，感觉自己读不下去了。小说一开始把云边镇风景写的特别的美好，我错判为脱离现实的鸳鸯蝴蝶派小说，对于人为制造的童话世界的人与物，我真的不太感兴趣，所以就没有再读了。有天在教室闲转，顺手又拿起了这本书看了起来，这次我才真的看进去了。这部小说除
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
一次冒险追梦少年_4509
每个人应该都会经历很多冒险，这样你才能变得坚强起来，变得勇敢起来，冒险就是用来磨练自己，勇气的工具，接下来就给大家说说，我经历过的最吓人的冒险。2016年的夏天我和大爷大娘一起去北地捉知了我们边走边找，我负责拿着罐子大娘拿了一个电灯四处照，大爷就拿着一个棍子负责把知了，弄下来我们边走边捉，一会儿罐子就满了，就在我四处看分神的时候看见了一个知了接着我叫大爷大娘来拿知了我一看旁边没有人，我的心里十分害
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s