Python 文本挖掘:数据存储和读取

一、用Excel 存储数据
在使用爬虫软件LocoySpider(火车头采集器)把网站上的数据(商品评论和其它一些元数据)采集下来后,用Excel 保存。其形式如下:
 
不要问我为什么不用数据库存储,因为,不会啊。。。努力学习MySQL中。。。
当然,用Excel 存储也很方便,处理也不难,而且也可以直接在Excel 中实现排序,筛选各种简单操作,所以数据量不大的情况下,Excel 是可行的。

二、读取Excel 数据
要把Excel 中的数据读取到Python 中,需要使用xlrd 库。曾经我试过Python 自带的csv 库,但貌似出错了,时间久远已经忘记出错原因了。但xlrd 库读取数据完全没有问题,而且速度也不错。最重要的一点:
从xlrd 读取的数据是 unicode 编码的!
这样就不用像处理txt 文档时要解码才能在Python 中处理,而可以直接处理。Nice!

xlrd 库主要使用如下:

#! /usr/bin/env python #coding=utf-8 import xlrd table_data = xlrd.open_workbook('D:/code/Motorala ME525+_review_test.xlsx') #把整个Excel数据传给变量 table = table_data.sheet_by_index(0) #取Excel其中一个工作表的数据,按索引取 col_data = table.col_values(3) #取列数据

raw_data = table.raw_values(2) #取行数据 row_num = table.nrows #取工作表的总行数

for i in col_data:

print i #循环遍历每一个数据

如果需要分析商品评论文本时,就取那一列的数据即可。
存储在Python 中变量的数据形式是数组(list),每一行是一个值。
所以要循环遍历数组来读每一个数据。

你可能感兴趣的:(Python 文本挖掘:数据存储和读取)