爬虫 之 numpy,matplotlib

数据分析还是很难的

我准备了一点京东的商品数据进行简单分析

我用的是mongodb数据库,首先我们先将mongodb中的数据库导出成csv格式

进入到mongodb的bin文件目录下进入cmd,通过下面这条命令将数据导出成csv格式

mongoexport -d 数据库名称 -c 表名称 -f key名称,多个用逗号分隔 --csv -o 路径

然后用exel表打开我们的csv

1-1

安装numpy     pip install numpy

安装matplotlib   pip install matplotlib

首先我们需要第二列的评分

import numpyas np

filename ="csv文件的路径"

data_list = np.genfromtxt(

    filename,#需要打开的文件

    delimiter ="," ,#文件的分隔符

    skip_header =1,#可以选择调过开头指定的行

    dtype=str, #数据按字符串格式存储,不进行bytes编码

    usecols = (2)   #指定输出列的索引   

    )

我们输出一下data_list

1-2

输出的是一个列表,如果出现问题,可以将需要分析的那列数据导成一个单独的csv,再进行分析。

然后就是我们的数据可视化工具matplotlib。

第一个参数是数据列表,第二个参数是数据生成的可视化图片显示的列数,第三个参数是颜色,第四个参数是颜色的透明度,还有很对可选参数,请自行参考官方文档

import matplotlib.pyplotas plt

plt.hist(data_list,bins=50,color ="b",alpha=1)

plt.show()

1-3

这是生成的直方图,也可以生成饼状图,散点图,柱形图等多种图片。

有兴趣的可以自行研究。还有pandas,可以给我留言,大家一起研究。

你可能感兴趣的:(爬虫 之 numpy,matplotlib)