dspam词法分析-链式分割

转http://www.extmail.org/forum/thread-21828-1-1.html
基于贝叶斯网络的二元语法中文分词模型
w2|w1就是w1出现的情况下w2出现的概率
跟顺序有关系


一、声明:
本文源自翻译Dspam的技术文档,如其他个人、第三方网站或媒体报刊等需转载全文或节选,为支持我们的工作,请务必注明如下信息:

文档所有者:ExtmailDevTeam;
文章原始出处:http://www.extmail.org/forum/thread-21828-1-1.html
项目首页:http://www.extmail.org
如果因此而给您带来麻烦,请您原谅,谢谢合作;
发布本文的初衷,是为了提高大家对Dspam分词技术的了解;
感谢Stevan Bajić提供的支持;
文章的OSB、SBPH 备注 部分摘自 谭营、朱元春 的 "反垃圾电子邮件方法研究"

备注:关于“Token”的一些解释
Tokenizer 分词器,通过逐字符的分析输入流进行词法分析
token :令牌
tokenize :令牌化
tokenizer :令牌解析器
token :标记
tokenize :标记解析 或 解析标记
tokenizer :标记解析器

现在要解释tokenizers如何创建令牌/模式,这样做是因为我希望新的用户不要多次问同一个问题。我只解释相关的令牌生成部分。Dspam 的使用算法超出了本文的范围。Dspam产生不同的tokens,这取决于你所选用的tokenizer。



二、Dspam的几种分词技术

1、WORD
Tokenizer 将词分成单个单词。

例如文本:"Heute Abend war ich mit meiner Freundin im Kino und habe viel gelacht "将分成为:
1、 Heute
2、 Abend
3、 war
4、 ich
5、 mit
6、 meiner
7、 Freundin
8、 im
9、 Kino
10、und
11、habe
12、viel
13、gelacht

DSPAM将为每个单词创建tokens:
* TOKEN: 'Heute' CRC: 6716984897371635712
* TOKEN: 'Abend' CRC: 6670531613365895168
* TOKEN: 'war' CRC: 4772677679197454336
* TOKEN: 'ich' CRC: 6329956816985784320
* TOKEN: 'mit' CRC: 5158417007107899392
* TOKEN: 'meiner' CRC: 4773009072114954240
* TOKEN: 'Freundin' CRC:13580161102417572361
* TOKEN: 'im' CRC: 5811385145726337024
* TOKEN: 'Kino' CRC: 6035516550826426368
* TOKEN: 'und' CRC: 6670506629311496192
* TOKEN: 'habe' CRC: 6712962585043402752
* TOKEN: 'viel' CRC: 5844870173739188224
* TOKEN: 'gelacht' CRC: 5158829993465032208


2、CHAIN
Tokenizer CHAIN 分散同样的信息为(+ = 组合词):

例如文本:"Heute Abend war ich mit meiner Freundin im Kino und habe viel gelacht "
1、 Heute+Abend
2、 Abend+war
3、 war+ich
4、 ich+mit
5、 mit+meiner
6、 meiner+Freundin
7、 Freundin+im
8、 im+Kino
9、 Kino+und
10、und+habe
11、habe+viel
12、viel+gelacht 

DSPAM将为每个chain创建tokens:
* TOKEN: 'Heute+Abend' CRC: 9299536586222406967
* TOKEN: 'Abend+war' CRC: 5205867775940263209
* TOKEN: 'war+ich' CRC: 6329956649787979024
* TOKEN: 'ich+mit' CRC: 5158416839735805488
* TOKEN: 'mit+meiner' CRC: 9567822050683308311
* TOKEN: 'meiner+Freundin' CRC:11339548565549479056
* TOKEN: 'Freundin+im' CRC: 7816109150855533158
* TOKEN: 'im+Kino' CRC: 6035516551245899312
* TOKEN: 'Kino+und' CRC: 3139684354012378707
* TOKEN: 'und+habe' CRC: 2029218973535212134
* TOKEN: 'habe+viel' CRC:15552379170419714363
* TOKEN: 'viel+gelacht' CRC: 5059261385542544937

你可能感兴趣的:(dspam)