lizzy05

Lucene的各中文分词比较

对几种中文分析器，从分词准确性和效率两方面进行比较。分析器依次为：StandardAnalyzer、ChineseAnalyzer、 CJKAnalyzer、IK_CAnalyzer、MIK_CAnalyzer、MMAnalyzer（JE分词）、PaodingAnalyzer。
单纯的中文分词的实现一般为按字索引或者按词索引。按字索引顾名思义，就是按单个字建立索引。按词索引就是按词喽，根据词库中的词，将文字进行切分。车东的交叉双字分割或者叫二元分词我觉得应该算是按字索引的改进，应该还是属于字索引的范畴吧。
分词准确性的评估比较难，很难有统一的标准，不同应用的要求也不同，这个统一以“2008年8月8日晚，举世瞩目的北京第二十九届奥林匹克运动会开幕式在国家体育场隆重举行。”为例说明。
分词效率，统一使用《射雕英雄传》的全文文本为例说明。呵呵。对于按词索引的分析器，使用统一的基本词库，词汇量为227,719个。在开发环境下运行，性能不准确，但可比较相对值。

分析器：

按字	StandardAnalyzer	Lucene自带的标准分析器。
	ChineseAnalyzer	Lucene contrib中附带的分析器，与StandardAnalyzer类似。注意是类似啊，还是有区别的。
	CJKAnalyzer	Lucene contrib中附带的二元分词
按词	IK_CAnalyzer、MIK_CAnalyzer	http://lucene-group.group.javaeye.com/group/blog/165287。使用版本为2.0.2
	MMAnalyzer	现在能找到的最新版本是1.5.3。不过在原始网站已经找不到下载了，而且据说声明为不提供维护和支持。因为谈论的人比较多，所以列出来。但在使用中感觉不太稳定。
	PaodingAnalyzer	庖丁解牛。http://code.google.com/p/paoding/downloads/list。使用版本为2.0.4beta。

分词准确性：

StandardAnalyzer	2008/年/8/月/8/日/晚/举/世/瞩/目/的/北/京/第/二/十/九/届/奥/林/匹/克/运/动/会/开/幕/式/在/国/家/体/育/场/隆/重/举/行/	一元分词，没什么好说的。
ChineseAnalyzer	年/月/日/晚/举/世/瞩/目/的/北/京/第/二/十/九/届/奥/林/匹/克/运/动/会/开/幕/式/在/国/家/体/育/场/隆/重/举/行/	还是有区别吧，这是因为ChineseAnalyzer只对Character.LOWERCASE_LETTER、 Character.UPPERCASE_LETTER、和Character.OTHER_LETTER进行了处理，其他类型的都滤掉了。具体可以参见代码。
CJKAnalyzer	2008/年/8/月/8/日晚/举世/世瞩/瞩目/目的/的北/北京/京第/第二/二十/十九/九届/届奥/奥林/林匹/匹克/克运/运动/动会/会开/开幕/幕式/式在/在国/国家/家体/体育/育场/场隆/隆重/重举/举行/	二元分词，作为一元分词的改进，建立的索引小于一元，查询效率较好，能满足一般的查询要求。
PaodingAnalyzer	2008/年/8/月/8/日/晚/举世/瞩目/举世瞩目/目的/北京/二/第二/十/二十/第二十/九/十九/二十九/九届/奥林/奥林匹克/运动/运动会/奥林匹克运动会/开幕/开幕式/国家/体育/体育场/隆重/举行/隆重举行/	细粒度全切分。对于不在词典中的词进行二元分词。
IK_CAnalyzer	2008年/2008/年/8月/8/月/8日/8/晚/举世瞩目/举世/瞩目/目的/北京/第二十九届/第二十九/第二十/第二/二十九/二十 /十九/九届/九/奥林匹克运动会/奥林匹克/奥林/运动会/运动/开幕式/开幕/在国/国家/国/体育场/体育/隆重举行/隆重/举行/行/	细粒度全切分。对于不在词典中的词进行二元分词。
MIK_CAnalyzer	2008年/8月/8日/晚/举世瞩目/目的/北京/第二十九届/奥林匹克运动会/开幕式/在国/国家/体育场/隆重举行/	最大匹配分词。和细粒度全切分配合使用。
MMAnalyzer	2008/年/8/月/8/日/晚/举世瞩目/北京/第二十/九届/奥林匹克运动会/开幕式/国家/体育场/隆重举行/	对于不在字典项的内容，进行一元分词。

分词性能（毫秒）：

分析器	第一次	第二次	第三次	分词数
StandardAnalyzer	243	246	241	767675
ChineseAnalyzer	245	233	242	766298
CJKAnalyzer	383	383	373	659264
PaodingAnalyzer	927	899	909	482890
IK_CAnalyzer	1842	1877	1855	530830
MIK_CAnalyzer	2009	1978	1998	371013
MMAnalyzer	2923	2933	2948	392521

需要说明的是，IK_CAnalyzer在性能上对于词典的敏感度较高。
总结：
对于一般性的应用，采用二元分词法应该就可以满足需求。如果需要分词的话，从分词效果、性能、扩展性、还是可维护性来综合考虑，建议使用庖丁解牛。

mmseg4j 多分词模式与 paoding 分词效果对比

发表于：2009年4月12日 | 分类： mmseg4j | 标签： mmseg4j, paoding, 中文分词 | views(6,709)

版权信息: 可以任意转载, 转载时请务必以超链接形式标明文章原文出处, 即下面的声明.

原文出处：http://blog.chenlb.com/2009/04/mmseg4j-max-word-segment-compare-with-paoding-in-effect.html

mmseg4j 1.6支持最多分词，应网友的要求：分词效果与 paoding 对比下。观察了 paoding 部分分词结果，现总结下。

paoding 分词效果：

--------------------------
清华大学
清华 | 大 | 华大 | 大学 |
--------------------------
华南理工大学
华南 | 理工 | 大 | 大学 |
--------------------------
广东工业大学
广东 | 工业 | 大 | 业大 | 大学 |
--------------------------
西伯利亚
西伯 | 伯利 | 西伯利亚 |
--------------------------
研究生命起源
研究 | 研究生 | 生命 | 起源 |
--------------------------
为首要考虑
为首 | 首要 | 考虑 |
--------------------------
化装和服装
化装 | 和服 | 服装 |
--------------------------
中国人民银行
中国 | 国人 | 人民 | 银行 |
--------------------------
中华人民共和国
中华 | 华人 | 人民 | 共和 | 共和国 |
--------------------------
羽毛球拍
羽毛 | 羽毛球 | 球拍 |
--------------------------
人民币
人民 | 人民币 |
--------------------------
很好听
很好 | 好听 |
--------------------------
下一个
下一 | 一个 |
--------------------------
为什么
为什么 |
--------------------------
北京首都机场
北京 | 首都 | 机场 |
--------------------------
东西已经拍卖了
东西 | 已经 | 拍卖 | 卖了 |
--------------------------
主人因之生气
主人 | 生气 |
--------------------------
虽然某些动物很凶恶
动物 | 凶恶 |
--------------------------
朋友真背叛了你了
朋友 | 真 | 背叛 |
--------------------------
建设盒蟹社会
建设 | 盒蟹 | 社会 |
--------------------------
建设盒少蟹社会
建设 | 盒少 | 少蟹 | 社会 |
--------------------------
我们家门前的大水沟很难过。
我们 | 家门 | 前 | 门前 | 前的 | 大 | 大水 | 水沟 | 很难 | 难过 |
--------------------------
罐头不如果汁营养丰富。
罐头 | 不如 | 如果 | 果汁 | 营养 | 丰富 |
--------------------------
今天真热，是游泳的好日子。
今天 | 天真 | 热 | 游泳 | 日子 | 好日子 |
--------------------------
妹妹的数学只考十分，真丢脸。
妹妹 | 数学 | 只考 | 十分 | 真 | 丢脸 |
--------------------------
我做事情，都是先从容易的做起。
做事 | 事情 | 都是 | 先从 | 从容 | 容易 | 容易的 | 做起 |
--------------------------
老师说明天每个人参加大队接力时，一定要尽力。
老师 | 师说 | 说明 | 明天 | 每个 | 个人 | 人参 | 参加 | 大 | 加大 | 大队 | 接力 | 时 | 一定 | 定要 | 要尽 | 尽力 |
--------------------------
小明把大便当作每天早上起床第一件要做的事
小明 | 大 | 大便 | 便当 | 当作 | 每天 | 早上 | 上起 | 起床 | 床第 | 第一 | 一件 | 要做 | 做的 | 的事 |

mmseg4j maxword 分词效果：

--------------------------
清华大学
清华 | 大学 |
--------------------------
华南理工大学
华南 | 理工 | 工大 | 大学 |
--------------------------
广东工业大学
广东 | 工业 | 大学 |
--------------------------
西伯利亚
西 | 伯利 | 利亚 |
--------------------------
研究生命起源
研究 | 生命 | 起源 |
--------------------------
为首要考虑
为首 | 要 | 考虑 |
--------------------------
化装和服装
化装 | 和 | 服装 |
--------------------------
中国人民银行
中国 | 国人 | 人民 | 银行 |
--------------------------
中华人民共和国
中华 | 华人 | 人民 | 共和 | 国 |
--------------------------
羽毛球拍
羽毛 | 球拍 |
--------------------------
人民币
人民 | 币 |
--------------------------
很好听
很好 | 好听 |
--------------------------
下一个
下一 | 一个 |
--------------------------
为什么
为 | 什么 |
--------------------------
北京首都机场
北京 | 首都 | 机场 |
--------------------------
东西已经拍卖了
东西 | 已经 | 拍卖 | 了 |
--------------------------
主人因之生气
主人 | 因 | 之 | 生气 |
--------------------------
虽然某些动物很凶恶
虽然 | 某些 | 动物 | 很 | 凶恶 |
--------------------------
朋友真背叛了你了
朋友 | 真 | 背叛 | 了 | 你了 |
--------------------------
建设盒蟹社会
建设 | 盒 | 蟹 | 社会 |
--------------------------
建设盒少蟹社会
建设 | 盒 | 少 | 蟹 | 社会 |
--------------------------
我们家门前的大水沟很难过。
我们 | 家 | 门前 | 的 | 大水 | 水沟 | 很难 | 过 |
--------------------------
罐头不如果汁营养丰富。
罐头 | 不如 | 果汁 | 营养 | 丰富 |
--------------------------
今天真热，是游泳的好日子。
今天 | 天真 | 热 | 是 | 游泳 | 的 | 好 | 日子 |
--------------------------
妹妹的数学只考十分，真丢脸。
妹妹 | 的 | 数学 | 只 | 考 | 十分 | 真 | 丢脸 |
--------------------------
我做事情，都是先从容易的做起。
我做 | 事情 | 都是 | 先 | 从容 | 易 | 的 | 做起 |
--------------------------
老师说明天每个人参加大队接力时，一定要尽力。
老师 | 师说 | 明天 | 每个 | 个人 | 参加 | 大队 | 接力 | 时 | 一定 | 要 | 尽力 |
--------------------------
小明把大便当作每天早上起床第一件要做的事
小明 | 把 | 大便 | 当作 | 每天 | 早上 | 起床 | 第一 | 一件 | 要做 | 的 | 事 |

paoding 几乎把所有的子词都拆出来，有时候还有最长的词，还没搞懂“华南理工大学”会分出“大”；mmseg4j 的 maxword 是在 complex分词后的结果再把子词都拆出来（1.6版按二元，不是词的去掉或保存单字。下一版本可能方式有点不同，“为什么”不应该为“为|什么”，也即是三个字的前后不是词的应该不分，有待研究，:)）。

如“化装和服装” mmseg4j 的 complex是可以较好的分出来（“化装 | 和 | 服装”），而 paoding 少了字频的信息，比较难到这事。mmseg4j complex 也有个缺点：“都是先从容易的做起” 不能把“容易”分出来，这是因为 mmseg 算法是用 3 个chunk的原因，我认为把整句的 chunk （还是仅仅3个chunk）来处理的话，分词效果要好），当然要更多的开销，选3个可能是效果与性能平衡吧。

mmseg4j 没有加任何 stopword，这东西留给使用者自己加，因为我不认为加 stopword 是好的方法。如音乐搜索，给加上 the,this……，还能找到歌曲？

当然分词效果还与词库有关，sogou 的词库是统计得出，有些高频的单字组合也成了词，如“我们的”。如果还要提高 mmseg4j 的分词效果，还要在整理下词库。

当前几个主要的Lucene中文分词器的比较

作者：唐福林　来源：福林雨博客　酷勤网收集　2009-08-04

1. 基本介绍：

paoding ：Lucene中文分词“庖丁解牛” Paoding Analysis
imdict ：imdict智能词典所采用的智能中文分词程序
mmseg4j ：用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器
ik ：采用了特有的“正向迭代最细粒度切分算法“，多子处理器分析模式

2. 开发者及开发活跃度：

paoding ：qieqie.wang， google code 上最后一次代码提交：2008-06-12，svn 版本号 132
imdict ：XiaoPingGao，进入了 lucene contribute，lucene trunk 中 contrib/analyzers/smartcn/ 最后一次提交：2009-07-24，
mmseg4j ：chenlb2008，google code 中 2009-08-03 （昨天），版本号 57，log为：mmseg4j-1.7 创建分支
ik ：linliangyi2005，google code 中 2009-07-31，版本号 41

3. 用户自定义词库：

paoding ：支持不限制个数的用户自定义词库，纯文本格式，一行一词，使用后台线程检测词库的更新，自动编译更新过的词库到二进制版本，并加载
imdict ：暂时不支持用户自定义词库。但原版 ICTCLAS 支持。支持用户自定义 stop words
mmseg4j ：自带sogou词库，支持名为 wordsxxx.dic， utf8文本格式的用户自定义词库，一行一词。不支持自动检测。 -Dmmseg.dic.path
ik ：支持api级的用户词库加载，和配置级的词库文件指定，无 BOM 的 UTF-8 编码，/r/n 分割。不支持自动检测。

4. 速度（基于官方介绍，非自己测试）

paoding ：在PIII 1G内存个人机器上，1秒可准确分词 100万汉字
imdict ：483.64 (字节/秒)，259517(汉字/秒)
mmseg4j ： complex 1200kb/s左右, simple 1900kb/s左右
ik ：具有50万字/秒的高速处理能力

5. 算法和代码复杂度

paoding ：svn src 目录一共1.3M，6个properties文件，48个java文件，6895 行。使用不用的 Knife 切不同类型的流，不算很复杂。
imdict ：词库 6.7M（这个词库是必须的），src 目录 152k，20个java文件，2399行。使用 ICTCLAS HHMM隐马尔科夫模型，“利用大量语料库的训练来统计汉语词汇的词频和跳转概率，从而根据这些统计结果对整个汉语句子计算最似然(likelihood)的切分”
mmseg4j ： svn src 目录一共 132k，23个java文件，2089行。MMSeg 算法，有点复杂。
ik ： svn src 目录一共6.6M(词典文件也在里面)，22个java文件，4217行。多子处理器分析，跟paoding类似，歧义分析算法还没有弄明白。

6. 文档

paoding ：几乎无。代码里有一些注释，但因为实现比较复杂，读代码还是有一些难度的。
imdict ：几乎无。 ICTCLAS 也没有详细的文档，HHMM隐马尔科夫模型的数学性太强，不太好理解。
mmseg4j ： MMSeg 算法是英文的，但原理比较简单。实现也比较清晰。
ik ：有一个pdf使用手册，里面有使用示例和配置说明。

7. 其它

paoding ：引入隐喻，设计比较合理。search 1.0 版本就用的这个。主要优势在于原生支持词库更新检测。主要劣势为作者已经不更新甚至不维护了。
imdict ：进入了 lucene trunk，原版 ictclas 在各种评测中都有不错的表现，有坚实的理论基础，不是个人山寨。缺点为暂时不支持用户词库。
mmseg4j ：在complex基础上实现了最多分词(max-word)，但是还不成熟，还有很多需要改进的地方。
ik ：针对Lucene全文检索优化的查询分析器IKQueryParser

8. 结论

个人觉得，可以在 mmseg4j 和 paoding 中选一个。关于这两个分词效果的对比，可以参考：

http://blog.chenlb.com/2009/04/mmseg4j-max-word-segment-compare-with-paoding-in-effect.html

或者自己再包装一下，将 paoding 的词库更新检测做一个单独的模块实现，然后就可以在所有基于词库的分词算法之间无缝切换了。

ps，对不同的 field 使用不同的分词器是一个可以考虑的方法。比如 tag 字段，就应该使用一个最简单的分词器，按空格分词就可以了。

分析器：

按字	StandardAnalyzer	Lucene自带的标准分析器。
	ChineseAnalyzer	Lucene contrib中附带的分析器，与StandardAnalyzer类似。注意是类似啊，还是有区别的。
	CJKAnalyzer	Lucene contrib中附带的二元分词
按词	IK_CAnalyzer、MIK_CAnalyzer	http://lucene-group.group.javaeye.com/group/blog/165287。使用版本为2.0.2
	MMAnalyzer	现在能找到的最新版本是1.5.3。不过在原始网站已经找不到下载了，而且据说声明为不提供维护和支持。因为谈论的人比较多，所以列出来。但在使用中感觉不太稳定。
	PaodingAnalyzer	庖丁解牛。http://code.google.com/p/paoding/downloads/list。使用版本为2.0.4beta。

分词准确性：

StandardAnalyzer	2008/年/8/月/8/日/晚/举/世/瞩/目/的/北/京/第/二/十/九/届/奥/林/匹/克/运/动/会/开/幕/式/在/国/家/体/育/场/隆/重/举/行/	一元分词，没什么好说的。
ChineseAnalyzer	年/月/日/晚/举/世/瞩/目/的/北/京/第/二/十/九/届/奥/林/匹/克/运/动/会/开/幕/式/在/国/家/体/育/场/隆/重/举/行/	还是有区别吧，这是因为ChineseAnalyzer只对Character.LOWERCASE_LETTER、 Character.UPPERCASE_LETTER、和Character.OTHER_LETTER进行了处理，其他类型的都滤掉了。具体可以参见代码。
CJKAnalyzer	2008/年/8/月/8/日晚/举世/世瞩/瞩目/目的/的北/北京/京第/第二/二十/十九/九届/届奥/奥林/林匹/匹克/克运/运动/动会/会开/开幕/幕式/式在/在国/国家/家体/体育/育场/场隆/隆重/重举/举行/	二元分词，作为一元分词的改进，建立的索引小于一元，查询效率较好，能满足一般的查询要求。
PaodingAnalyzer	2008/年/8/月/8/日/晚/举世/瞩目/举世瞩目/目的/北京/二/第二/十/二十/第二十/九/十九/二十九/九届/奥林/奥林匹克/运动/运动会/奥林匹克运动会/开幕/开幕式/国家/体育/体育场/隆重/举行/隆重举行/	细粒度全切分。对于不在词典中的词进行二元分词。
IK_CAnalyzer	2008年/2008/年/8月/8/月/8日/8/晚/举世瞩目/举世/瞩目/目的/北京/第二十九届/第二十九/第二十/第二/二十九/二十 /十九/九届/九/奥林匹克运动会/奥林匹克/奥林/运动会/运动/开幕式/开幕/在国/国家/国/体育场/体育/隆重举行/隆重/举行/行/	细粒度全切分。对于不在词典中的词进行二元分词。
MIK_CAnalyzer	2008年/8月/8日/晚/举世瞩目/目的/北京/第二十九届/奥林匹克运动会/开幕式/在国/国家/体育场/隆重举行/	最大匹配分词。和细粒度全切分配合使用。
MMAnalyzer	2008/年/8/月/8/日/晚/举世瞩目/北京/第二十/九届/奥林匹克运动会/开幕式/国家/体育场/隆重举行/	对于不在字典项的内容，进行一元分词。

分词性能（毫秒）：

分析器	第一次	第二次	第三次	分词数
StandardAnalyzer	243	246	241	767675
ChineseAnalyzer	245	233	242	766298
CJKAnalyzer	383	383	373	659264
PaodingAnalyzer	927	899	909	482890
IK_CAnalyzer	1842	1877	1855	530830
MIK_CAnalyzer	2009	1978	1998	371013
MMAnalyzer	2923	2933	2948	392521

mmseg4j 多分词模式与 paoding 分词效果对比

发表于：2009年4月12日 | 分类： mmseg4j | 标签： mmseg4j, paoding, 中文分词 | views(6,709)

版权信息: 可以任意转载, 转载时请务必以超链接形式标明文章原文出处, 即下面的声明.

原文出处：http://blog.chenlb.com/2009/04/mmseg4j-max-word-segment-compare-with-paoding-in-effect.html

mmseg4j 1.6支持最多分词，应网友的要求：分词效果与 paoding 对比下。观察了 paoding 部分分词结果，现总结下。

paoding 分词效果：

--------------------------
清华大学
清华 | 大 | 华大 | 大学 |
--------------------------
华南理工大学
华南 | 理工 | 大 | 大学 |
--------------------------
广东工业大学
广东 | 工业 | 大 | 业大 | 大学 |
--------------------------
西伯利亚
西伯 | 伯利 | 西伯利亚 |
--------------------------
研究生命起源
研究 | 研究生 | 生命 | 起源 |
--------------------------
为首要考虑
为首 | 首要 | 考虑 |
--------------------------
化装和服装
化装 | 和服 | 服装 |
--------------------------
中国人民银行
中国 | 国人 | 人民 | 银行 |
--------------------------
中华人民共和国
中华 | 华人 | 人民 | 共和 | 共和国 |
--------------------------
羽毛球拍
羽毛 | 羽毛球 | 球拍 |
--------------------------
人民币
人民 | 人民币 |
--------------------------
很好听
很好 | 好听 |
--------------------------
下一个
下一 | 一个 |
--------------------------
为什么
为什么 |
--------------------------
北京首都机场
北京 | 首都 | 机场 |
--------------------------
东西已经拍卖了
东西 | 已经 | 拍卖 | 卖了 |
--------------------------
主人因之生气
主人 | 生气 |
--------------------------
虽然某些动物很凶恶
动物 | 凶恶 |
--------------------------
朋友真背叛了你了
朋友 | 真 | 背叛 |
--------------------------
建设盒蟹社会
建设 | 盒蟹 | 社会 |
--------------------------
建设盒少蟹社会
建设 | 盒少 | 少蟹 | 社会 |
--------------------------
我们家门前的大水沟很难过。
我们 | 家门 | 前 | 门前 | 前的 | 大 | 大水 | 水沟 | 很难 | 难过 |
--------------------------
罐头不如果汁营养丰富。
罐头 | 不如 | 如果 | 果汁 | 营养 | 丰富 |
--------------------------
今天真热，是游泳的好日子。
今天 | 天真 | 热 | 游泳 | 日子 | 好日子 |
--------------------------
妹妹的数学只考十分，真丢脸。
妹妹 | 数学 | 只考 | 十分 | 真 | 丢脸 |
--------------------------
我做事情，都是先从容易的做起。
做事 | 事情 | 都是 | 先从 | 从容 | 容易 | 容易的 | 做起 |
--------------------------
老师说明天每个人参加大队接力时，一定要尽力。
老师 | 师说 | 说明 | 明天 | 每个 | 个人 | 人参 | 参加 | 大 | 加大 | 大队 | 接力 | 时 | 一定 | 定要 | 要尽 | 尽力 |
--------------------------
小明把大便当作每天早上起床第一件要做的事
小明 | 大 | 大便 | 便当 | 当作 | 每天 | 早上 | 上起 | 起床 | 床第 | 第一 | 一件 | 要做 | 做的 | 的事 |

mmseg4j maxword 分词效果：

--------------------------
清华大学
清华 | 大学 |
--------------------------
华南理工大学
华南 | 理工 | 工大 | 大学 |
--------------------------
广东工业大学
广东 | 工业 | 大学 |
--------------------------
西伯利亚
西 | 伯利 | 利亚 |
--------------------------
研究生命起源
研究 | 生命 | 起源 |
--------------------------
为首要考虑
为首 | 要 | 考虑 |
--------------------------
化装和服装
化装 | 和 | 服装 |
--------------------------
中国人民银行
中国 | 国人 | 人民 | 银行 |
--------------------------
中华人民共和国
中华 | 华人 | 人民 | 共和 | 国 |
--------------------------
羽毛球拍
羽毛 | 球拍 |
--------------------------
人民币
人民 | 币 |
--------------------------
很好听
很好 | 好听 |
--------------------------
下一个
下一 | 一个 |
--------------------------
为什么
为 | 什么 |
--------------------------
北京首都机场
北京 | 首都 | 机场 |
--------------------------
东西已经拍卖了
东西 | 已经 | 拍卖 | 了 |
--------------------------
主人因之生气
主人 | 因 | 之 | 生气 |
--------------------------
虽然某些动物很凶恶
虽然 | 某些 | 动物 | 很 | 凶恶 |
--------------------------
朋友真背叛了你了
朋友 | 真 | 背叛 | 了 | 你了 |
--------------------------
建设盒蟹社会
建设 | 盒 | 蟹 | 社会 |
--------------------------
建设盒少蟹社会
建设 | 盒 | 少 | 蟹 | 社会 |
--------------------------
我们家门前的大水沟很难过。
我们 | 家 | 门前 | 的 | 大水 | 水沟 | 很难 | 过 |
--------------------------
罐头不如果汁营养丰富。
罐头 | 不如 | 果汁 | 营养 | 丰富 |
--------------------------
今天真热，是游泳的好日子。
今天 | 天真 | 热 | 是 | 游泳 | 的 | 好 | 日子 |
--------------------------
妹妹的数学只考十分，真丢脸。
妹妹 | 的 | 数学 | 只 | 考 | 十分 | 真 | 丢脸 |
--------------------------
我做事情，都是先从容易的做起。
我做 | 事情 | 都是 | 先 | 从容 | 易 | 的 | 做起 |
--------------------------
老师说明天每个人参加大队接力时，一定要尽力。
老师 | 师说 | 明天 | 每个 | 个人 | 参加 | 大队 | 接力 | 时 | 一定 | 要 | 尽力 |
--------------------------
小明把大便当作每天早上起床第一件要做的事
小明 | 把 | 大便 | 当作 | 每天 | 早上 | 起床 | 第一 | 一件 | 要做 | 的 | 事 |

mmseg4j 没有加任何 stopword，这东西留给使用者自己加，因为我不认为加 stopword 是好的方法。如音乐搜索，给加上 the,this……，还能找到歌曲？

当前几个主要的Lucene中文分词器的比较

作者：唐福林　来源：福林雨博客　酷勤网收集　2009-08-04

1. 基本介绍：

2. 开发者及开发活跃度：

3. 用户自定义词库：

4. 速度（基于官方介绍，非自己测试）

5. 算法和代码复杂度

6. 文档

7. 其它

8. 结论

个人觉得，可以在 mmseg4j 和 paoding 中选一个。关于这两个分词效果的对比，可以参考：

http://blog.chenlb.com/2009/04/mmseg4j-max-word-segment-compare-with-paoding-in-effect.html

或者自己再包装一下，将 paoding 的词库更新检测做一个单独的模块实现，然后就可以在所有基于词库的分词算法之间无缝切换了。

ps，对不同的 field 使用不同的分词器是一个可以考虑的方法。比如 tag 字段，就应该使用一个最简单的分词器，按空格分词就可以了。

转载自：http://ctwen.iteye.com/blog/2233696

分析器：

按字	StandardAnalyzer	Lucene自带的标准分析器。
	ChineseAnalyzer	Lucene contrib中附带的分析器，与StandardAnalyzer类似。注意是类似啊，还是有区别的。
	CJKAnalyzer	Lucene contrib中附带的二元分词
按词	IK_CAnalyzer、MIK_CAnalyzer	http://lucene-group.group.javaeye.com/group/blog/165287。使用版本为2.0.2
	MMAnalyzer	现在能找到的最新版本是1.5.3。不过在原始网站已经找不到下载了，而且据说声明为不提供维护和支持。因为谈论的人比较多，所以列出来。但在使用中感觉不太稳定。
	PaodingAnalyzer	庖丁解牛。http://code.google.com/p/paoding/downloads/list。使用版本为2.0.4beta。

分词准确性：

StandardAnalyzer	2008/年/8/月/8/日/晚/举/世/瞩/目/的/北/京/第/二/十/九/届/奥/林/匹/克/运/动/会/开/幕/式/在/国/家/体/育/场/隆/重/举/行/	一元分词，没什么好说的。
ChineseAnalyzer	年/月/日/晚/举/世/瞩/目/的/北/京/第/二/十/九/届/奥/林/匹/克/运/动/会/开/幕/式/在/国/家/体/育/场/隆/重/举/行/	还是有区别吧，这是因为ChineseAnalyzer只对Character.LOWERCASE_LETTER、 Character.UPPERCASE_LETTER、和Character.OTHER_LETTER进行了处理，其他类型的都滤掉了。具体可以参见代码。
CJKAnalyzer	2008/年/8/月/8/日晚/举世/世瞩/瞩目/目的/的北/北京/京第/第二/二十/十九/九届/届奥/奥林/林匹/匹克/克运/运动/动会/会开/开幕/幕式/式在/在国/国家/家体/体育/育场/场隆/隆重/重举/举行/	二元分词，作为一元分词的改进，建立的索引小于一元，查询效率较好，能满足一般的查询要求。
PaodingAnalyzer	2008/年/8/月/8/日/晚/举世/瞩目/举世瞩目/目的/北京/二/第二/十/二十/第二十/九/十九/二十九/九届/奥林/奥林匹克/运动/运动会/奥林匹克运动会/开幕/开幕式/国家/体育/体育场/隆重/举行/隆重举行/	细粒度全切分。对于不在词典中的词进行二元分词。
IK_CAnalyzer	2008年/2008/年/8月/8/月/8日/8/晚/举世瞩目/举世/瞩目/目的/北京/第二十九届/第二十九/第二十/第二/二十九/二十 /十九/九届/九/奥林匹克运动会/奥林匹克/奥林/运动会/运动/开幕式/开幕/在国/国家/国/体育场/体育/隆重举行/隆重/举行/行/	细粒度全切分。对于不在词典中的词进行二元分词。
MIK_CAnalyzer	2008年/8月/8日/晚/举世瞩目/目的/北京/第二十九届/奥林匹克运动会/开幕式/在国/国家/体育场/隆重举行/	最大匹配分词。和细粒度全切分配合使用。
MMAnalyzer	2008/年/8/月/8/日/晚/举世瞩目/北京/第二十/九届/奥林匹克运动会/开幕式/国家/体育场/隆重举行/	对于不在字典项的内容，进行一元分词。

分词性能（毫秒）：

分析器	第一次	第二次	第三次	分词数
StandardAnalyzer	243	246	241	767675
ChineseAnalyzer	245	233	242	766298
CJKAnalyzer	383	383	373	659264
PaodingAnalyzer	927	899	909	482890
IK_CAnalyzer	1842	1877	1855	530830
MIK_CAnalyzer	2009	1978	1998	371013
MMAnalyzer	2923	2933	2948	392521

mmseg4j 多分词模式与 paoding 分词效果对比

发表于：2009年4月12日 | 分类： mmseg4j | 标签： mmseg4j, paoding, 中文分词 | views(6,709)

版权信息: 可以任意转载, 转载时请务必以超链接形式标明文章原文出处, 即下面的声明.

原文出处：http://blog.chenlb.com/2009/04/mmseg4j-max-word-segment-compare-with-paoding-in-effect.html

mmseg4j 1.6支持最多分词，应网友的要求：分词效果与 paoding 对比下。观察了 paoding 部分分词结果，现总结下。

paoding 分词效果：

--------------------------
清华大学
清华 | 大 | 华大 | 大学 |
--------------------------
华南理工大学
华南 | 理工 | 大 | 大学 |
--------------------------
广东工业大学
广东 | 工业 | 大 | 业大 | 大学 |
--------------------------
西伯利亚
西伯 | 伯利 | 西伯利亚 |
--------------------------
研究生命起源
研究 | 研究生 | 生命 | 起源 |
--------------------------
为首要考虑
为首 | 首要 | 考虑 |
--------------------------
化装和服装
化装 | 和服 | 服装 |
--------------------------
中国人民银行
中国 | 国人 | 人民 | 银行 |
--------------------------
中华人民共和国
中华 | 华人 | 人民 | 共和 | 共和国 |
--------------------------
羽毛球拍
羽毛 | 羽毛球 | 球拍 |
--------------------------
人民币
人民 | 人民币 |
--------------------------
很好听
很好 | 好听 |
--------------------------
下一个
下一 | 一个 |
--------------------------
为什么
为什么 |
--------------------------
北京首都机场
北京 | 首都 | 机场 |
--------------------------
东西已经拍卖了
东西 | 已经 | 拍卖 | 卖了 |
--------------------------
主人因之生气
主人 | 生气 |
--------------------------
虽然某些动物很凶恶
动物 | 凶恶 |
--------------------------
朋友真背叛了你了
朋友 | 真 | 背叛 |
--------------------------
建设盒蟹社会
建设 | 盒蟹 | 社会 |
--------------------------
建设盒少蟹社会
建设 | 盒少 | 少蟹 | 社会 |
--------------------------
我们家门前的大水沟很难过。
我们 | 家门 | 前 | 门前 | 前的 | 大 | 大水 | 水沟 | 很难 | 难过 |
--------------------------
罐头不如果汁营养丰富。
罐头 | 不如 | 如果 | 果汁 | 营养 | 丰富 |
--------------------------
今天真热，是游泳的好日子。
今天 | 天真 | 热 | 游泳 | 日子 | 好日子 |
--------------------------
妹妹的数学只考十分，真丢脸。
妹妹 | 数学 | 只考 | 十分 | 真 | 丢脸 |
--------------------------
我做事情，都是先从容易的做起。
做事 | 事情 | 都是 | 先从 | 从容 | 容易 | 容易的 | 做起 |
--------------------------
老师说明天每个人参加大队接力时，一定要尽力。
老师 | 师说 | 说明 | 明天 | 每个 | 个人 | 人参 | 参加 | 大 | 加大 | 大队 | 接力 | 时 | 一定 | 定要 | 要尽 | 尽力 |
--------------------------
小明把大便当作每天早上起床第一件要做的事
小明 | 大 | 大便 | 便当 | 当作 | 每天 | 早上 | 上起 | 起床 | 床第 | 第一 | 一件 | 要做 | 做的 | 的事 |

mmseg4j maxword 分词效果：

--------------------------
清华大学
清华 | 大学 |
--------------------------
华南理工大学
华南 | 理工 | 工大 | 大学 |
--------------------------
广东工业大学
广东 | 工业 | 大学 |
--------------------------
西伯利亚
西 | 伯利 | 利亚 |
--------------------------
研究生命起源
研究 | 生命 | 起源 |
--------------------------
为首要考虑
为首 | 要 | 考虑 |
--------------------------
化装和服装
化装 | 和 | 服装 |
--------------------------
中国人民银行
中国 | 国人 | 人民 | 银行 |
--------------------------
中华人民共和国
中华 | 华人 | 人民 | 共和 | 国 |
--------------------------
羽毛球拍
羽毛 | 球拍 |
--------------------------
人民币
人民 | 币 |
--------------------------
很好听
很好 | 好听 |
--------------------------
下一个
下一 | 一个 |
--------------------------
为什么
为 | 什么 |
--------------------------
北京首都机场
北京 | 首都 | 机场 |
--------------------------
东西已经拍卖了
东西 | 已经 | 拍卖 | 了 |
--------------------------
主人因之生气
主人 | 因 | 之 | 生气 |
--------------------------
虽然某些动物很凶恶
虽然 | 某些 | 动物 | 很 | 凶恶 |
--------------------------
朋友真背叛了你了
朋友 | 真 | 背叛 | 了 | 你了 |
--------------------------
建设盒蟹社会
建设 | 盒 | 蟹 | 社会 |
--------------------------
建设盒少蟹社会
建设 | 盒 | 少 | 蟹 | 社会 |
--------------------------
我们家门前的大水沟很难过。
我们 | 家 | 门前 | 的 | 大水 | 水沟 | 很难 | 过 |
--------------------------
罐头不如果汁营养丰富。
罐头 | 不如 | 果汁 | 营养 | 丰富 |
--------------------------
今天真热，是游泳的好日子。
今天 | 天真 | 热 | 是 | 游泳 | 的 | 好 | 日子 |
--------------------------
妹妹的数学只考十分，真丢脸。
妹妹 | 的 | 数学 | 只 | 考 | 十分 | 真 | 丢脸 |
--------------------------
我做事情，都是先从容易的做起。
我做 | 事情 | 都是 | 先 | 从容 | 易 | 的 | 做起 |
--------------------------
老师说明天每个人参加大队接力时，一定要尽力。
老师 | 师说 | 明天 | 每个 | 个人 | 参加 | 大队 | 接力 | 时 | 一定 | 要 | 尽力 |
--------------------------
小明把大便当作每天早上起床第一件要做的事
小明 | 把 | 大便 | 当作 | 每天 | 早上 | 起床 | 第一 | 一件 | 要做 | 的 | 事 |

mmseg4j 没有加任何 stopword，这东西留给使用者自己加，因为我不认为加 stopword 是好的方法。如音乐搜索，给加上 the,this……，还能找到歌曲？

当前几个主要的Lucene中文分词器的比较

作者：唐福林　来源：福林雨博客　酷勤网收集　2009-08-04

1. 基本介绍：

2. 开发者及开发活跃度：

3. 用户自定义词库：

4. 速度（基于官方介绍，非自己测试）

5. 算法和代码复杂度

6. 文档

7. 其它

8. 结论

个人觉得，可以在 mmseg4j 和 paoding 中选一个。关于这两个分词效果的对比，可以参考：

http://blog.chenlb.com/2009/04/mmseg4j-max-word-segment-compare-with-paoding-in-effect.html

或者自己再包装一下，将 paoding 的词库更新检测做一个单独的模块实现，然后就可以在所有基于词库的分词算法之间无缝切换了。

ps，对不同的 field 使用不同的分词器是一个可以考虑的方法。比如 tag 字段，就应该使用一个最简单的分词器，按空格分词就可以了。

你可能感兴趣的:(Lucene的各中文分词比较)

集成测试详解飞滕人生TYF 集成测试测试
集成测试详解集成测试（IntegrationTesting）是一种软件测试方法，用于验证多个模块或组件之间的交互是否符合预期。它在单元测试之后执行，确保各模块在组合后能够协同工作。一、集成测试的定义集成测试的重点是测试模块之间的接口和交互，而不是单个模块的功能。目标是发现模块集成过程中可能存在的问题，如数据格式不匹配、通信协议错误或逻辑交互缺陷。二、集成测试的特点模块交互性：测试模块间的通信是否正
ChatGPT和DeepSeek打造科研与办公的高效引擎 AAIshangyanxiu 编程算法统计语言农林生态遥感 chatgpt
一、2024大语言模型最新进展与ChatGPT各模型讲解1、2024AIGC技术最新进展介绍（生成式人工智能的基本概念与原理、最新前沿技术和发展趋势简介）2、国内外大语言模型（ChatGPT4O、Gemini、Claude、Llama3、PerplexityAI、文心一言、星火、通义千问、Kimi、智谱清言、秘塔AI等）对比分析3、OpenAI12天12场直播新功能解读与演示（ChatGPTO1模
C#中的设计模式：构建更加优雅的代码 Envyᥫᩣᩚ c#开发语言
C#在面向对象编程（OOP）方面的强大支持，我们可以探讨“C#中的设计模式”。这不仅有助于理解如何更好地组织代码，还能提高代码的可维护性和可扩展性。引言设计模式是软件工程中经过实践验证的解决方案模板，它们提供了一种标准化的方法来解决常见的开发问题。对于使用C#进行开发的程序员来说，理解和应用这些模式可以帮助创建结构良好、易于维护和扩展的应用程序。本文将介绍几种常用的设计模式，并展示如何用C#实现它
Python 继承详解江湖一条鱼 python
继承是面向对象编程（OOP）的一个重要特性，允许一个类（子类）从另一个类（父类）继承属性和方法。继承可以提高代码的重用性，增强程序的可扩展性和可维护性。目录一、继承的作用二、继承的语法1.单继承2.多继承三、子类扩展1.添加新功能2.重写父类方法3.调用父类方法四、继承的特殊情况1.子类初始化父类2.方法解析顺序（MRO）五、抽象类与接口1.抽象类2.接口3.ABC类4.使用方法1.定义抽象基类2
【数据挖掘】ARFF格式与数据收集布鲁惠比寿数据挖掘数据挖掘人工智能
【数据挖掘】ARFF格式与数据收集三级目录1.ARFF格式与数据收集2.稀疏数据3.属性类型4.缺失值与不正确的值5.了解数据6.知识表达7.聚类机器学习算法训练数据挖掘分析数据共享与交换三级目录1.ARFF格式与数据收集ARFF（Attribute-RelationFileFormat）是一种用于存储数据集的文本文件格式，常用于机器学习和数据挖掘领域。它可以表示结构化数据，包括属性定义、关系信息
常用网络工具分析（ping，tcpdump等）一户董杂 tcpdump 网络
写在前面本文看下常用网络工具。1：ping1.1：用途用于检验网络的连通性。1.2：实战在Linux环境中执行：pingwww.sina.com.cn：[root@localhost~]#pingwww.sina.com.cnPINGspool.grid.sinaedge.com(111.62.129.51)56(84)bytesofdata.64bytesfrom111.62.129.51(11
【如何学习商城源码】启山智软商城源码微信小程序小程序 java
学习商城源码是一个系统而深入的过程，需要掌握多种方法和技巧。以下是一些建议，帮助你有效地学习商城源码：一、搭建学习环境准备开发工具编程语言相关：根据商城源码使用的编程语言，安装相应的集成开发环境（IDE）。例如，若源码是Java语言编写的，可安装IntelliJIDEA或Eclipse；若是Python语言，可选择PyCharm等。这些IDE能帮助你高效地编辑、调试代码，提供语法高亮、自动补全等功
从零创建一个 Django 项目 m0_74824823 面试学习路线阿里巴巴 django python 后端
1.准备环境在开始之前，确保你的开发环境满足以下要求：安装了Python(推荐3.8或更高版本)。安装pip包管理工具。如果要使用MySQL或PostgreSQL，确保对应的数据库已安装。创建虚拟环境在项目目录中创建并激活虚拟环境，保证项目依赖隔离：#创建虚拟环境python-mvenvenv#激活虚拟环境#WindowsenvScriptsactivate#Linux/Macsourceenv/
集成测试总结文档脚本之家集成测试
1.集成测试的定义集成测试（IntegrationTesting）是在单元测试之后，将多个独立的软件模块或组件组合在一起进行测试的过程，目的是验证这些模块之间的接口、数据传递、协作逻辑是否符合设计要求，并发现因集成引发的缺陷。2.集成测试的核心目标检测模块/组件间的接口错误（如参数传递错误、数据格式不一致）。验证集成后的功能是否符合系统设计预期。确保全局数据结构在跨模块使用时的一致性。发现资源冲突
C++ 游戏开发：从零到英雄的进阶之旅孤寂大仙v c++c++android
在当今数字化时代，游戏开发已然成为极具吸引力与挑战性的领域。C++作为游戏开发中极为常用的语言之一，凭借其高性能和强大功能，长久以来都是游戏开发者的心头好。若你对游戏开发满怀热忱，却不知如何起步，这篇博客就将为你揭开C++游戏开发的神秘面纱，引领你踏上从新手到高手的进阶之路。一、为什么选择C++进行游戏开发？在游戏开发的广袤天地里，编程语言的抉择至关重要。C++以其独有的优势，成为众多开发者的不二
量子测量：如何从量子状态获取信息？ Ash Butterfield 量子计算机学习计划量子计算人工智能
量子测量是量子力学中的一个基本概念，它涉及如何从量子系统中获取信息。与经典物理不同，量子系统的状态并不是一个确定的值，而是由多个可能的状态组成的概率波函数，测量过程在其中扮演了至关重要的角色。量子测量不仅为我们提供了对量子系统的理解，也引发了许多深刻的哲学和物理学问题。本文将详细讨论量子测量的基本概念、量子态的表示、测量过程的理论基础以及一些重要的量子测量实验。1.量子态的表示在量子力学中，物理系
CCF-CSP 2013-12（前四题）啦哈拉哈算法数据结构
提前声明：由于本人自身能力，只做了前四题，根据acwing上面的CCF-CSP辅导写的。第一题：出现次数最多的数问题描述给定n个正整数，找出它们中出现次数最多的数。如果这样的数有多个，请输出其中最小的一个。输入格式输入的第一行只有一个正整数n(1≤n≤1000)，表示数字的个数。输入的第二行有n个整数s1,s2,…,sn(1≤si≤10000,1≤i≤n)。相邻的数用空格分隔。输出格式输出这n个次
代码随想录打卡第五十一天 zengy5 代码随想录刷题流程深度优先算法图论 c++leetcode
代码随想录–图论部分day51图论第二天文章目录代码随想录--图论部分一、卡码网99--岛屿数量二、卡码网100--岛屿的最大面积一、卡码网99–岛屿数量代码随想录题目链接：代码随想录给定一个由1（陆地）和0（水）组成的矩阵，你需要计算岛屿的数量。岛屿由水平方向或垂直方向上相邻的陆地连接而成，并且四周都是水域。你可以假设矩阵外均被水包围。没太看懂教程的解法，所以这里是自己的做法正常把图存进来，遍历
php glob 排序,php 使用 Glob() 查找文件技巧 weixin_39770311 php glob 排序
php使用Glob()查找文件技巧定义和用法glob()函数返回匹配指定模式的文件名或目录该函数返回一个包含有匹配文件/目录的数组如果出错返回false参数描述file必需。规定检索模式。size可选。规定特殊的设定。GLOB_MARK-在每个返回的项目中加一个斜线GLOB_NOSORT-按照文件在目录中出现的原始顺序返回(不排序)GLOB_NOCHECK-如果没有文件匹配则返回用于搜索的模式GL
php glob 指定目录,php使用glob函数快速查询指定目录文件的方法_php技巧程序员小智和大鹏 php glob 指定目录
本文实例讲述了php使用glob函数快速查询指定目录文件的方法。分享给大家供大家参考。具体如下：php搜索当前目录所有文件,代码如下:$array=glob('*.*');print_r($array);/*Array([0]=>1.php[1]=>10.php[2]=>11.php[3]=>2.asp[4]=>3.asp[5]=>4.aspx[6]=>5.html[7]=>6.php[8]=>7
c语言日志模块,一个简单又高效的日志系统 jy ch c语言日志模块
下载源代码摘要：本文给出一个性能高，使用简单的日志解决方案。本模块实现日志信息的批量写入文件，定时自动flush到文件中，写入文件的日志级别可动态调整，单个日志文件大小可配置，循环对日志文件写入，这样不会造成机器空间被日志文件耗尽。关键字：日志性能日志级别一、程序日志是商品程序中必不可少的部分。在正式商用的程序中一般对于日志都会有一些类似的要求：性能要求运行时日志级别可调整日志文件空间使用安全性问
anaconda中的python在pycharm中用不了_Pycharm中使用Anaconda 白白前
Pycharm中使用Anaconda问题：安装完Pycharm和Anaconda后，想让Pycharm能调用Anaconda中包含的各种包。这样就不用重复安装各种包了。Anaconda下载安装Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项。因为包含了大量的科学包，Anaconda的下载文件比较大(约515MB)。安装Anacond
DeepSeek在企业中的有那些具体应用？大势下的牛马搭建本地gpt Deepseek 大模型推理微调人工智能
在当今竞争激烈的商业世界里，企业就像在大海中航行的船只，需要不断寻找新的方向和动力来保持领先。而DeepSeek，就是那股强劲的东风，能给企业带来全新的活力和机遇。它就像一个超级智能助手，能帮企业解决各种难题，提高效率，降低成本，还能让客户更满意。接下来，就让我们看看DeepSeek到底是怎么做到的，它又能给企业带来哪些实实在在的好处。应用场景1、客户服务与支持智能客服实现方式：DeepSeek能
Docker 与 CI/CD：自动化构建和部署 drebander docker docker ci/cd 自动化
在现代软件开发中，CI/CD（持续集成/持续部署）是一种高效的软件开发和运维方法。CI/CD通过自动化构建、测试和部署流程，减少了人为错误，提高了软件交付的速度和质量。Docker，作为一种容器化平台，为CI/CD提供了理想的运行环境，通过容器化实现应用的一致性和可移植性。本文将探讨如何将Docker与CI/CD集成，实现自动化构建和部署。1.Docker与CI/CD集成的优势1.1通过Docke
DeepSeek混合专家模型：低成本高精度革新多语言AI应用智能计算研究中心其他
内容概要当前人工智能领域正经历从通用模型向垂直化、场景化应用的关键转型，DeepSeek混合专家模型（MoE）通过突破性的架构设计，为这一进程提供了技术范本。该模型采用分治策略的混合专家架构，通过动态激活670亿参数中的子模块处理特定任务，既保证了模型规模带来的知识广度，又显著降低了计算资源的冗余消耗。在此基础上，其多模态处理能力不仅覆盖80余种自然语言的高精度互译，还实现了视觉符号与文本语义的跨
python - 永久存储 susie0815 python python 服务器
打开文件使用open()函数打开文件时，openfilemode（文件打开模式）是一个决定了以何种方式打开文件以及对文件可以进行哪些操作的重要参数。基本模式只读模式（‘r’）默认的打开模式，用于读取文件。如果文件不存在，会抛出FileNotFoundError异常。try:file=open('test.txt','r')content=file.read()print(content)file.
使用分布式锁解决淘客返利系统中的并发问题微赚淘客系统开发者@聚娃科技分布式
使用分布式锁解决淘客返利系统中的并发问题大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！1.引言在淘客返利系统中，常常需要处理高并发的订单和返利计算。由于并发请求可能会导致数据不一致的问题，因此需要一种有效的解决方案来管理并发访问。分布式锁是一种常见的并发控制机制，可以确保在同一时刻只有一个请求对共享资源进行修改。本文将详细介绍如何在Java中使用分布式锁解决淘客返利
B - N! HDU - 1042 Ws＿ c++算法开发语言
GivenanintegerN(0≤N≤10000),yourtaskistocalculateN!InputOneNinoneline,processtotheendoffile.OutputForeachN,outputN!inoneline.SampleInputcopyOutputcopy123126翻译：这个问题是计算给定整数N的阶乘N!，其中0≤N≤10000。阶乘的定义是从1到N的所
自动化测试的学习路线 Ws＿学习
自动化测试是提高软件开发效率和质量的关键手段。学习自动化测试通常涉及多个方面的技能，从基础的编程语言知识到测试工具的使用，再到实际的测试脚本编写和执行。以下是一个学习自动化测试的路线图，帮助你有条不紊地掌握相关技能：1.基础知识在开始自动化测试之前，首先要具备一定的编程和软件测试基础：编程语言：Python、Java、JavaScript或者Ruby（根据你选择的自动化测试工具决定）软件测试基础：
Python自动化测试 Ws＿ python python
Python自动化测试是软件开发中的重要组成部分，可以帮助提高测试效率和准确性。以下是学习Python自动化测试的基本路线，以及相关资料的链接：学习路线1.基础知识Python基础：掌握Python语言的基本语法、数据类型、控制流、函数、面向对象编程等。你可以先确保对Python的基本语法有清晰的理解。参考资料：Python官方文档书籍推荐：《Python编程：从入门到实践》2.了解自动化测试的基
Everything搜索神器：秒级检索背后的黑科技码农技术栈 everything 科技 java python windows
开篇小剧场：你是否经历过这样的场景？Windows自带的搜索：输入关键词，等待……转圈……继续等待……Everything：输入关键词，结果瞬间呈现！为什么Everything能这么快？它到底用了什么“黑科技”？今天我们就来揭开它的神秘面纱！一、Everything的“快”从何而来？1.颠覆传统：不搜索文件内容，只搜索文件名Everything的核心目标是快速定位文件，而不是像Windows搜索那
Python实现Excel表格保存到不同文件夹 Leo_Aqu excel python
"""点击“上传”按钮，从本地上传待处理的Excel表格点击“处理”按钮，对Excel表格进行处理点击“保存A”按钮，保存处理后的Excel表格到A文件夹下点击“保存B”按钮，保存处理后的Excel表格到B文件夹下"""#作者:Leo#时间:2024/9/2621:52importtkinterastkfromtkinterimportfiledialog,messageboximportpand
Docker 在微服务架构中的应用（一）计算机毕设定制辅导-无忧学长 #Docker 架构 docker 微服务
一、引言在当今数字化时代，软件开发领域正经历着快速的变革。随着业务需求的日益复杂和多样化，传统的单体架构逐渐暴露出其局限性，如可维护性差、扩展困难以及开发效率低下等问题。在这样的背景下，微服务架构应运而生，它将大型应用拆分成多个小型、独立的服务，每个服务专注于特定的业务功能，通过轻量级的通信机制进行协作。这种架构模式不仅提高了系统的可维护性和可扩展性，还使得开发团队能够更加独立地进行开发和部署，大
通义灵码AI程序员天天向上杰 AI编程 AIGC 人工智能
通义灵码是阿里云与通义实验室联合打造的智能编码辅助工具，基于通义大模型技术，为开发者提供多种编程辅助功能。它支持多种编程语言，包括Java、Python、Go、TypeScript、JavaScript、C/C++、PHP、C#、Ruby等200多种编码语言。通义灵码AI程序员：今年1月，通义灵码AI程序员全面上线，同时支持VSCode、JetBrainsIDEs，是国内首个真正落地的AI程序员。
简识MQ之Kafka、ActiveMQ、RabbitMQ、RocketMQ传递机制天天向上杰 MQ kafka activemq rabbitmq rocketmq
四种主流消息队列（Kafka、ActiveMQ、RabbitMQ、RocketMQ）的生产者与消费者传递信息的机制说明，以及实际使用中的注意事项和示例：1.ApacheKafka传递机制模型：基于发布-订阅模型，生产者向主题（Topic）发送消息，消费者订阅主题并消费消息。核心流程：生产者将消息发送到Kafka集群的Broker，根据分区策略（如轮询、哈希）将消息写入对应的分区（Partition
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D