机器学习实战--朴素贝叶斯分类器RSS源和分词

在机器学习实战第四章 4.7 的示例中,书上写的两个 RSS 源打不开,替换成如下源:

https://newyork.craigslist.org/search/res?format=rss
https://sfbay.craigslist.org/search/apa?format=rss

OK

然而笔者在运行的时候却发现结果全为空列表,经过一顿 print 发现是在分词的时候将单词都分成了一个一个的字母,把分词函数里的 * 号改成 + 号运行成功,分词函数如下

def textParse(bigString):
	listOfTokens = re.split(r'\W+', bigString)
	return [tok.lower() for tok in listOfTokens if len(tok) > 2]

运行成功!

你可能感兴趣的:(BUG&报错随记)