数据分析Day1: 艰难

在没有一个整体概念前,只是记录,用于后续整理。在看的书《利用Python进行数据分析》

pandas官网上的一段代码,生成随机数,按日期变化绘制曲线生成图片。昨天就把环境弄好了,但是图片还是没有出来,今天快两个小时仍然没有出来。

Anaconda中的应用这么多,用jupyter和ipython(qtconsole)都能显示数据,但是没有生成数据图。最后用了一下spyder,没想到图就出来了。正常jupyter, ipython也能生成数据的图片呀。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
matplotlib.style.use('ggplot')
ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))
ts = ts.cumsum()
ts.plot()

数据分析Day1: 艰难_第1张图片
QQ20160601-4.png
数据分析Day1: 艰难_第2张图片
QQ20160601-3.png

感受:目前就是一些命令和函数的应用,函数是比较多的。数据分析先要对数据源进行数据清洗。函数比如如何对数据分段,聚合应该跟SQL一样吧。

pandas数据源的问题

我之前一直想当然地理解,DataFrame应该给定参数连接数据库再进行操作分析,结果看书,看一些示例代码都是导入的本地文件。
后来转换一下思路,把数据库中的记录导出来,通过path不就把数据源加载进来了吗?

我导入了我的第一个10W+数据,从mongoDB中导出32M,加载到DataFrame中处理很快。

import json
records=[json.loads(line) for line in open(path)]

from pandas import DataFrame, Series
frame = DataFrame(records)

慢慢熟悉了这种命令行+Python代码的方式。

图终于出来了!%pylab inline

晚上问了一下简友cherryup, 她试了一下,告诉我,少了一行代码 %pylab inline。之前在书上看到过类似代码,但是导入安装的方式,当时就有疑问,试了一下,无法安装啊。

数据分析Day1: 艰难_第3张图片
图表无法显示的原因

python的可视化工具图表太多,一下子get不到重点,而且这些方法参数、设置比较多。学习的时候应该注重梳理。

temp=[2,6,3,5,7,4]
plot(temp)
数据分析Day1: 艰难_第4张图片
QQ20160602-2.png
x = range(1,6)
bar(x,temp)

数据分析Day1: 艰难_第5张图片
QQ20160602-3.png

你可能感兴趣的:(数据分析Day1: 艰难)