

1. 分类中混淆矩阵的本质

2. 垃圾邮件分类原理

文本挖掘(Text Mining,从文字中获取信息)是一个比较宽泛的概念,这一技术在如今每天都有海量文本数据生成的时代越来越受到关注。目前,在机器学习模型的帮助下,包括情绪分析,文件分类,话题分类,文本总结,机器翻译等在内的诸多文本挖掘应用都已经实现了自动化。

在这些应用中,垃圾邮件过滤算是初学者实践文件分类的一个很不错的开始,例如 Gmail 账户里的“垃圾邮箱”就是一个垃圾邮件过滤的现实应用。下面我们将基于一份公开的邮件数据集 Ling-spam,编写一个垃圾邮件的过滤器。Ling-spam 数据集的下载地址如下:

这里我们已经从 Ling-spam 中提取了相同数量的垃圾邮件和非垃圾邮件,具体下载地址如下:
http://t.cn/RKQBkRu ·····//这里需要注册一下才能够成功下载数据集。

1>. 准备文本数据;
2>. 创建词典(word dictionary);
3>. 特征提取;
4>. 训练分类器。

3. 对原始垃圾邮件内容的全套数据处理过程实现
a.清除停用词 — 像 “and”, “the”, “of” 等这些停用词在英语语句中非常常见。然而,这些停用词对于判定邮件的真实身份并没有什么卵用,所以这些词已经从邮件中被移除。
c.还需要移除一些非文字类的符号(non-words),比如标点符号或者特殊字符之类的。要实现这一步有很多方法,这里,我们将首先创建一个词典(creating a dictionary),之后再移除这些非文字类的符号。需要指出的是,这种做法其实非常方便,因为当你手上有了一个词典之后,对于每一种非文字类符号,只需要移除一次就 ok 了。

from bs4 import BeautifulSoup
import re
import nltk
import os 
import os
import numpy as np
from collections import Counter #集合
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import LinearSVC
from sklearn.metrics import confusion_matrix
from  nltk.corpus import stopwords
def mail_text_preprocessing(mail,remove_stopwords):
    letters=re.sub('[^a-zA-Z-]',' ',raw_text) #e-mail这样的形式被分割开了,需要改进。'-'可以排除在外.
    words=letters.lower().split() #将英文词汇转换为小写形式
    if remove_stopwords:
        #words=[stemmer.stem(w) for w in words if w not in stop_words]
        words=[w for w in words if w not in stop_words]
        for item in words:
            if item=='-':
            elif len(item)==1: 
    return result
4. 垃圾邮件分类代码实现

from bs4 import BeautifulSoup
import re
import nltk
import os 
import os
import numpy as np
from collections import Counter #集合
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import LinearSVC
from sklearn.metrics import confusion_matrix
from  nltk.corpus import stopwords
def mail_text_preprocessing(mail,remove_stopwords):
    letters=re.sub('[^a-zA-Z-]',' ',raw_text) #e-mail这样的形式被分割开了,需要改进。'-'可以排除在外.
    words=letters.lower().split() #将英文词汇转换为小写形式
    if remove_stopwords:
        #words=[stemmer.stem(w) for w in words if w not in stop_words]
        words=[w for w in words if w not in stop_words]
        for item in words:
            if item=='-':
            elif len(item)==1: 
    return result
def make_Dictionary(train_dir):
    emails=[os.path.join(train_dir,f) for f in os.listdir(train_dir)]
    for mail in emails:
        with open(mail) as m:
            for i,line in enumerate(m):
                if i==2: #body of email is only 3rd line of text file.
                    words=mail_text_preprocessing(line,True) #在这里对文档的每一行进行NLP语言文字的数据预处理
    dictionary=Counter(all_words) #计数函数,直接对一个句子中的各个单词进行计数
    list_to_remove = list(dictionary.keys()) #需要转为list来存储,不然原始的代码这里有问题。
    #return list_to_remove
    jinli=[w for w in list_to_remove if len(w)==2]
    for i in range(len(paichu)):
            del jinlist[jinlist.index(paichu[i])]  #paichu列表中的不删除
    for item in list_to_remove:
        if item.isalpha() == False: #不是字符的删除,如数字和特殊符号均删除,只保留26个字母的字符串。
            del dictionary[item] 
        elif len(item) == 1:        #单个字符删除
            if item!='I':
                del dictionary[item]
        elif item in jinlist:
            del dictionary[item]
    dictionary = dictionary.most_common(3000)
    return dictionary
#通过输入 print dictionary 指令就可以输出词典==词典里应该会有以下这些高频词(本例中我们选取了频率最高的 3000 个词)
def extract_features(mail_dir):
    files=[os.path.join(mail_dir,fi) for fi in os.listdir(mail_dir)]
    features_matrix=np.zeros((len(files),3000)) #这里的维度大小使用()传入。
    for fil in files:
        with open(fil) as fi:
            for i,line in enumerate(fi):
                if i==2:
                    words=mail_text_preprocessing(line,True) #在这里对文档的每一行进行NLP语言文字的数据预处理
                    for word in words:
                        for i,d in enumerate(dictionary):
                            if d[0]==word:
    return features_matrix
train_labels = np.zeros(702)
train_labels[351:701] = 1
train_matrix = extract_features(train_path)

#Training SVM and Naive bayes classifier and its variants

model1 = LinearSVC()
model2 = MultinomialNB()


# Test the unseen mails for Spam
test_dir = 'C:/Users/Administrator/Desktop/ling-spam/test-mails/'
test_matrix = extract_features(test_dir)
test_labels = np.zeros(260)
test_labels[130:260] = 1

result1 = model1.predict(test_matrix)
result2 = model2.predict(test_matrix)


5. 分类结果的简单说明



