2018-06-22

今天是我的Lucky day,和Lucky car,班车师傅等了4分钟,赶上了班车,下车的时候找到了失踪的伞,好开心。Lucky 

开始写分类了,首先统计词频,选取18年数据进行词频统计

os.getcwd()函数获得当前的路径;os.path.join():  将多个路径组合后返回,拼接路径;

发现了一个学python的教程:Python3 列表 | 菜鸟教程

http://www.runoob.com/python3/python3-list.html

Python 的元组与列表类似,不同之处在于元组的元素不能修改。

元组使用小括号,列表使用方括号。字典的每个键值(key=>value)对用冒号(:)分割,每个对之间用逗号(,)分割,整个字典包括在花括号({})中 ,格式如下所示:d = {key1 : value1, key2 : value2 };

编码问题有时候是由于txt文档的格式,要注意。

WordFreq.py:统计词频高的词语,在分类过程中将词频较高词去掉;

具体步骤:从数据库中查询得到数据,将采购内容写入到my_words.txt中,读取my_words.txt中数据,进行分词(在分词过程中去掉停用词),分词后按照词频降序排序,将前500个词和对应词频写入到my_infor.txt中。


接下来找个分类代码实现,看看要求的数据格式。

https://blog.csdn.net/laobai1015/article/details/80415080

你可能感兴趣的:(2018-06-22)