机器学习实战 垃圾邮件文本分类正则匹配 re.split() ,分类错误问题解决

机器学习实战 垃圾邮件文本分类正则匹配 re.split() ,分类错误问题解决

今天在看《机器学习实战》的时候,对文本的划分一直不理想,最后发现是书上正则化这一部分不是很正确。
书中的代码用了

def textParse(bigString): 
    import re
    listOfTokens = re.split(r'\\w*',bigString)
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]

但是划分不出数据,我从网上找了一下对代码改进了一下

def textParse(bigString): 
    import re
    listOfTokens = re.split(r'[!@#$%^&*()? \n~/]',bigString)
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]

这样划分之后结果就比较正常了。

机器学习实战 垃圾邮件文本分类正则匹配 re.split() ,分类错误问题解决_第1张图片
参考文献:https://blog.csdn.net/CityzenOldwang/article/details/78398406

你可能感兴趣的:(python,机器学习实战,python3,正则匹配,垃圾邮件分类,文本划分)