matplotlib数据可视化分析
# matplotlib 数据可视化分析
from matplotlib import pylab
import numpy
# 下面2行定义X轴,Y轴
x=[1,2,3,4,8]
y=[1,2,3,4,8]
plot的方法是这样使用(x轴数据,y轴数据,展现形式)
pylab.plot(x,y) # 先把x,y轴的信息塞入pylab里面,再调用show方法来画图
pylab.show() # 这一步开始画图,默认是至线图
pylab.plot(x,y,'or') # 添加O表示画散点图,r表示red
pylab.show()
pylab.plot(x,y,'r:') #虚线图
pylab.show()
pylab.plot(x,y,'pr--') #p是图形为五角星,r为红色,--表示虚线
pylab.title('for learnning') # 图形标题
pylab.xlabel('args') # x轴标签
pylab.ylabel('salary') # y轴标签
pylab.xlim(2) # 从y轴的2开始做线
pylab.show()
'''
关于图形类型,有下面几种:
1.直线图(默认)
2.- 直线
3.-- 虚线
4.-. -.形式
5.: 细小虚线
关于颜色,有下面几种:
1.c-青色
2.r-红色
3.m-品红
4.g-绿色
5.b-蓝色
6.y-黄色
7.k-黑色
8.w-白色
关于形状,有下面几种:
1.s 方形
2.* 星形
3.p 五角形
'''
直方图
# 直方图
from matplotlib import pylab
import numpy
data1 = numpy.random.normal(5.0,4.0,10) # 正态随机数
pylab.hist(data1)
pylab.show()
'''
Y轴为出现的次数,X轴为这个数的值(或者是范围)
还可以指定直方图类型通过histtype参数:
图形区别语言无法描述很详细,大家可以自信尝试。
1.bar :is a traditional bar-type histogram. If multiple data
are given the bars are aranged side by side.
(1.bar:是传统的条形柱状图。)
2.barstacked :is a bar-type histogram where multiple
data are stacked on top of each other.
(2.barstacked:一个多个条形柱状图数据堆叠在一起。)
3.step :generates a lineplot that is by default
unfilled.
(3.step:内部不填充。)
4.stepfilled :generates a lineplot that is by default
filled.
(4.stepfilled:内部填充。)
'''
# 举个例子:
sty=numpy.arange(1,30,2)
pylab.hist(data1,histtype='barstacked')
pylab.show()
子图功能
什么是子图功能呢?子图就是在一个大的画板里面能够显示多张小图,每个一小图为大画板的子图。
我们知道生成一个图是使用plot功能,子图就是subplog。代码操作如下:
from matplotlib import pylab
pylab.subplot(2,2,1) # 申明一个大图里面划分成4块(即2*2),子图使用第一个区域(坐标为x=1,y=1)
pylab.subplot(2,2,2) # 申明一个大图里面划分成4块(即2*2),子图使用第二个区域(坐标为x=2,y=2)
x1=[1,4,6,9]
x2=[3,21,33,43]
pylab.plot(x1,x2) # 这个plot表示把x,y轴数据塞入前一个子图中。我们可以在每一个子图后使用plot来塞入x,y轴的数据
pylab.subplot(2,1,2) # 申明一个大图里面划分成2块(即),子图使用第二个区域(坐标为x=1,y=2)
pylab.show()
实践小例子
我们现在可以通过一堆数据来绘图,根据图能够很容易的发现异常。下面我们就通过一个csv文件来实践下,这个csv文件是某个网站的文章阅读数与评论数。
先说说这个csv的文件结构,第一列是序号,第二列是每篇文章的URL,第三列每篇文章的阅读数,第四列是每篇评论数。
我们的需求就是把评论数作为Y轴,阅读数作为X轴,所以我们需要获取第三列和第四列的数据。我们知道获取数据的方法是通过pandas的values方法来获取某一行的值,在对这一行的值做切片处理,获取下标为3(阅读数)和4(评论数)的值,但是,这里只是一行的值,我们需要是这个csv文件下的所有评论数和阅读数,那怎么办?聪明的你会说,我自定义2个列表,我遍历下这个csv文件,把阅读数和评论数分别添加到对应的列表里,这不就行了嘛。呵呵,其实有一个更快捷的方法,那么就是使用T转置方法,这样再通过values方法,就能直接获取这一评论数和阅读数了,此时在交给你matplotlib里的pylab方法来作图,那么就OK了。了解思路后,那么就写吧。
代码
csv_data = pandas.read_csv('F:\Learnning\CSDN-python大数据\hexun.csv')
dt = csv_data.T # 装置下,把阅读数和评论数转为行
readers=dt.values[3]
comments = dt.values[4]
pylab.xlabel(u'reads')
pylab.ylabel(u'comments') # 打上标签
pylab.title(u"The Article's reads and comments")
pylab.plot(readers,comments,'ob')
pylab.show()