数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图

安装环境 和 库

需要操作工具anaconda, jupyter notebook

库 pandas numpy matplotlib等
数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第1张图片
matplotlib 画图
numpy 处理数据
pandas 处理数据
TA-Lib 技术指标库
table 支持读取某种特殊数据文件 hdf5
jupyter 数据挖掘分析展示的平台

小Tips:安装Ta-Lib出现问题,操作如下

数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第2张图片

Jupyter Notebook使用

Jupyter notebook介绍:
源于ipython
交互模式快
ipynb文件格式 用于计算型 的JSON文档格式

可以用来编程,写文档,数据结果展示

启动: 直接在终端输入

jupyter notebook

优势:
1 画图方便
2 读取大数据,可视化方便

Jupyter Notebook操作

直接在终端输入

jupyter notebook

或者

ipython notebook

新建文件
数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第3张图片
运行快捷键
shift + enter

cell操作

一对 in out会话,视为一个代码单元,成为cell
jupyter notebook
有两个模式
编辑模式 和 命令模式
数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第4张图片

常用快捷键操作

执行代码
数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第5张图片
添加 删除 cell
数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第6张图片
代码的状态
cell 前面是* 表示代码正在运行

多光标操作
按住commmand不动,选择多行,可以同时增加or删除

markdown模式

改为标记 /markdown模式
数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第7张图片
shift + enter 执行cell 就可以了
数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第8张图片

matplotlib绘图

用来绘制2D/3D图
mat - matrix 矩阵
二维数组 二维图表
plot 画图

lib -library 库

模仿自 matlab

简单绘图

import matplotlib.pyplot as plt
# 创建画布(计算机开辟内存)
plt.figure()
# 传入横纵坐标
plt.plot([1,0,9],[4,5,6])
# 展示图像
plt.show()

数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第9张图片

matplotlib 三层基础结构

三板斧:
容器层
辅助显示层
图像层

容器层

画板层 Canvas
数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第10张图片

画布层 Figure
可以在画布层,又增加 绘图区,每个绘图区有两个坐标轴
数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第11张图片

辅助显示层

图例 横纵坐标 方便注释
数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第12张图片

图像层

各种各样的图表
比如散点图 折线图 气泡图 柱状图
数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第13张图片

总结:

数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第14张图片

实战画图

折线图绘制
eg: 周天气数据展示
figsize:画布大小
dpi: dot per inch 图像清晰度
数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第15张图片

# 展示一周天气的温度变化
# 创建画布
plt.figure(figsize=(20,8),dpi=80)
# 绘制图像
plt.plot([1,2,3,4,5,6,7],[17,17,18,12,19,29,32])
# # 显示图像
# plt.show()
# 保存图片
plt.savefig('test1')

注意: plt.show() 会释放figure内存,show之后,保存图片是空白图片,因为内容已经被释放了。

设置x,y刻度和显示

# 准备x y
x = range(60)
y_shanghai = [random.uniform(15,18) for i in x]

# 创建画布
plt.figure(figsize = (20,8),dpi = 80)

# 绘制图像
plt.plot(x,y_shanghai)

# 修改x,y刻度
x_label = ['11点{}分' .format(i) for i in x]# 准备x的刻度说明

plt.xticks(x[::5],x_label[::5]) # 每隔5步显示1次
plt.yticks(range(0,40,5)) # 刻度为0——40,步长为5

# 显示图
plt.show()

中文显示问题解决

安装字体
删除matplotlib 缓存文件
配置文件

mac配置一劳永逸
ubuntu每次创建虚拟环境,需要从新配置
window

安装字体:
linux系统
数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第16张图片
删除缓存文件
数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第17张图片
修改配置文件 matplotlibrc
数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第18张图片

backend:TkAgg
font.family     : sans-serif
font.sans-serif         :SimHei
axes.unicode_minus      :False
~                                                                               
~                                                                             
-- INSERT --

数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第19张图片
数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第20张图片
数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第21张图片
mac是自己创建,linux是找到文件,用vi打开文件,找到相应的行,进行修改。

添加网格显示

# 添加网格显示
plt.grid(True,linestyle='--',alpha=0.5)
# 显示图
plt.show()

添加描述信息

# 添加描述信息
plt.xlabel("时间变化")
plt.ylabel("温度变化")
plt.title("某城市11点到12点每分钟的温度变化状况")

再增加一条折线

调用两个plot就可以了

y_shanghai = [random.uniform(15,18) for i in x]
# 再添加一个城市的温度变化
# 收集到北京丹田温度变化情况,温度在1到3度
y_beijing = [random.uniform(1,3) for i in x]

# 创建画布
plt.figure(figsize = (20,8),dpi = 80)

# 绘制图像 添加颜色color r红色 b蓝色; 线条风格linstyle --虚线 
plt.plot(x,y_shanghai, color = 'r', linestyle= '--')
# 添加第二个plot
plt.plot(x,y_beijing, color = 'b')

设置线条风格 颜色

# 绘制图像 添加颜色color r红色 b蓝色; 线条风格linstyle --虚线 
plt.plot(x,y_shanghai, color = 'r', linestyle= '--')
# 添加第二个plot
plt.plot(x,y_beijing, color = 'b')

数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第22张图片

增加图例

# 绘制图像 添加颜色color r红色 b蓝色; 线条风格linstyle --虚线 
plt.plot(x,y_shanghai, color = 'r', linestyle= '--',label ='上海')
# 添加第二个plot
plt.plot(x,y_beijing, color = 'b',label = '北京')

#显示图例
plt.legend()

选择图例位置
数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第23张图片

#显示图例
plt.legend(loc = 'lower left')

数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第24张图片

#显示图例
plt.legend(loc = 4)

数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第25张图片
一般来说什么都不填写就可以了!

代码总结:

# 准备x y
x = range(60)
y_shanghai = [random.uniform(15,18) for i in x]
# 再添加一个城市的温度变化
# 收集到北京丹田温度变化情况,温度在1到3度
y_beijing = [random.uniform(1,3) for i in x]

# 创建画布
plt.figure(figsize = (20,8),dpi = 80)

# 绘制图像 添加颜色color r红色 b蓝色; 线条风格linstyle --虚线 
plt.plot(x,y_shanghai, color = 'r', linestyle= '--',label ='上海')
# 添加第二个plot
plt.plot(x,y_beijing, color = 'b',label = '北京')

#显示图例
plt.legend(loc = 'lower left')

# 修改x,y刻度
x_label = ['11点{}分' .format(i) for i in x]# 准备x的刻度说明

plt.xticks(x[::5],x_label[::5]) # 每隔5步显示1次
plt.yticks(range(0,40,5)) # 刻度为0——40,步长为5

# 添加网格显示
plt.grid(True,linestyle='--',alpha=0.5)

# 添加描述信息
plt.xlabel("时间变化")
plt.ylabel("温度变化")
plt.title("某城市11点到12点每分钟的温度变化状况")



# 显示图
plt.show()

多个绘图区画图

推荐 subplots函数
在这里插入图片描述
nrows 行
ncols 列
后面是图像大小设置

# 准备x y
x = range(60)
y_shanghai = [random.uniform(15,18) for i in x]
# 再添加一个城市的温度变化
# 收集到北京丹田温度变化情况,温度在1到3度
y_beijing = [random.uniform(1,3) for i in x]

# 创建画布
# figure,axes = plt.subplots(nrows =1,ncols=2,figsize(20,8),dpi=80)
figure, axes = plt.subplots(nrows=1, ncols=2, figsize=(20, 8), dpi=80)

# 绘制图像 添加颜色color r红色 b蓝色; 线条风格linstyle --虚线 
axes[0].plot(x,y_shanghai, color = 'r', linestyle= '--',label ='上海')
# 添加第二个plot
axes[1].plot(x,y_beijing, color = 'b',label = '北京')

#显示图例
axes[0].legend()
axes[1].legend()

# 修改x,y刻度
x_label = ['11点{}分' .format(i) for i in x]# 准备x的刻度说明



axes[0].set_xticks(x[::5]) # 每隔5步显示1次
axes[0].set_yticks(range(0,40,5)) # 刻度为0——40,步长为5
axes[0].set_xticklabels(x_label[::5])

axes[1].set_xticks(x[::5]) # 每隔5步显示1次
axes[1].set_yticks(range(0,40,5)) # 刻度为0——40,步长为5
axes[1].set_xticklabels(x_label[::5])

# 添加网格显示
axes[0].grid(True,linestyle='--',alpha=0.5)
axes[1].grid(True,linestyle='--',alpha=0.5)

# 添加描述信息
axes[0].set_xlabel("时间变化")
axes[0].set_ylabel("温度变化")
plt.title("上海11点到12点每分钟的温度变化状况")
axes[1].set_xlabel("时间变化")
axes[1].set_ylabel("温度变化")
plt.title("北京11点到12点每分钟的温度变化状况")



# 显示图
plt.show()

数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第26张图片
折线图应用:某事物,某场景 随时间的变化。
可以绘制任何数学函数的图像。

import numpy as np
# 绘制数学函数图像
# 准备数据 x,y
x = np.linspace(-1,1,1000)# 生成-1到1之间等距离的1千个数据
y = 2*x*x
# 创建画布
plt.figure(figsize=(20,8),dpi=80)
# 绘制图像
plt.plot(x,y)
# 添加网格显示
plt.grid(linestyle='--',alpha=0.5)
# 显示图像
plt.show()

数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第27张图片

常见图形种类

plot 折线图: 某一个事物or指标 随时间变化。
scatter 散点图: 判断变量之间是否存在 关系 or 规律。
plot 柱状图:统计不同类别的数量大小。
pie 饼图: 占比

散点图

房屋面积 和 房屋价格

# 房屋面积 和 房屋价格数据的关系
# 准备数据
# 房屋面积
x = [225.98, 247.07, 253.14, 457.85, 241.58, 301.01,  20.67, 288.64,
       163.56, 120.06, 207.83, 342.75, 147.9 ,  53.06, 224.72,  29.51,
        21.61, 483.21, 245.25, 399.25, 343.35]
# 房屋价格
y = [196.63, 203.88, 210.75, 372.74, 202.41, 247.61,  24.9 , 239.34,
       140.32, 104.15, 176.84, 288.23, 128.79,  49.64, 191.74,  33.1 ,
        30.74, 400.02, 205.35, 330.64, 283.45]
# 创建画布
plt.figure(figsize=(20,8),dpi=80)
# 绘制图像
plt.scatter(x,y)
# 显示图像
plt.show()

数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第28张图片

柱状图 bar

对不不同类型的大小
x 轴 数量
y轴 类别
数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第29张图片
对比票房收入

# 准备数据
movie_names = ['雷神3:诸神黄昏','正义联盟','东方快车谋杀案','寻梦环游记','全球风暴', '降魔传','追捕','七十七天','密战','狂兽','其它']
tickets = [73853,57767,22354,15969,14839,8725,8716,8318,7916,6764,52222]
# 创建画布
plt.figure(figsize=(20,8),dpi=80)
# 绘制柱状图
x_ticks = range(len(movie_names))
plt.bar(x_ticks,tickets,color = ['b','r','g','y','c','m','y','k','c','g','b'])

# 修改x刻度
plt.xticks(x_ticks,movie_names)
# 添加标题
plt.title("电影票房收入对比")
plt.grid(linestyle='--',alpha=0.5)
# 显示图像
plt.show()

数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第30张图片
对比相同天数的票房

# 比较相同天数的电影的票房(上映时间相同)
# 准备数据
movie_name = ['雷神3:诸神黄昏','正义联盟','寻梦环游记']
first_day = [10587.6,10062.5,1275.7]
first_weekend=[36224.9,34479.6,11830]

# 创建画图
plt.figure(figsize=(20,8),dpi=80)
# 绘制柱状图
x = range(len(movie_name))
plt.bar(x,first_day,width=0.2,label='首日票房')
plt.bar([i+0.2 for i in x],first_weekend,width=0.2,label='首周票房')
# 或者写成
# plt.bar(range(3),first_day,width=0.2)
# plt.bar([0.2,1.2,2.2],first_weekend,width=0.2)

# 修改刻度
plt.xticks([i+0.1 for i in x],movie_name)
# 设置图例
plt.legend()

# # 显示图像
plt.show()

数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第31张图片

直方图 histogram

hist
直方图 和 柱状图 很像

组数: 分了几组
组距: 每组间的端点差

直方图侧重数据分布
数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第32张图片
数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第33张图片
直方图 柱子宽度有意义;柱状图 无意义。

电影时长的分布状况

x 是times
bins 是组数
组数 = (最大值-最小值)➗组距

# 电影时长分布状况
# 准备数据
time = [131,  98, 125, 131, 124, 139, 131, 117, 128, 108, 135, 138, 131, 102, 107, 114, 119, 128, 121, 142, 127, 130, 124, 101, 110, 116, 117, 110, 128, 128, 115,  99, 136, 126, 134,  95, 138, 117, 111,78, 132, 124, 113, 150, 110, 117,  86,  95, 144, 105, 126, 130,126, 130, 126, 116, 123, 106, 112, 138, 123,  86, 101,  99, 136,123, 117, 119, 105, 137, 123, 128, 125, 104, 109, 134, 125, 127,105, 120, 107, 129, 116, 108, 132, 103, 136, 118, 102, 120, 114,105, 115, 132, 145, 119, 121, 112, 139, 125, 138, 109, 132, 134,156, 106, 117, 127, 144, 139, 139, 119, 140,  83, 110, 102,123,107, 143, 115, 136, 118, 139, 123, 112, 118, 125, 109, 119, 133,112, 114, 122, 109, 106, 123, 116, 131, 127, 115, 118, 112, 135,115, 146, 137, 116, 103, 144,  83, 123, 111, 110, 111, 100, 154,136, 100, 118, 119, 133, 134, 106, 129, 126, 110, 111, 109, 141,120, 117, 106, 149, 122, 122, 110, 118, 127, 121, 114, 125, 126,114, 140, 103, 130, 141, 117, 106, 114, 121, 114, 133, 137,  92,121, 112, 146,  97, 137, 105,  98, 117, 112,  81,  97, 139, 113,134, 106, 144, 110, 137, 137, 111, 104, 117, 100, 111, 101, 110,105, 129, 137, 112, 120, 113, 133, 112,  83,  94, 146, 133, 101,131, 116, 111,  84, 137, 115, 122, 106, 144, 109, 123, 116, 111,111, 133, 150]
# 创建画布
plt.figure(figsize=(20,8),dpi=80)
# # 绘制直方图
distance = 2
group_num = int((max(time) - min(time)) / distance)
plt.hist(time,bins=group_num) 

plt.xticks(range(min(time),max(time)+2,distance))
# 添加网格
plt.grid(linestyle="--",alpha=0.5)
# 显示图像
plt.show()

用于观察数据分布
数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第34张图片

饼图

查看 占比
数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第35张图片
数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第36张图片

# 饼图
# 创建数据
movie_name = ['雷神3:诸神黄昏','正义联盟','东方快车谋杀案','寻梦环游记','全球风暴','降魔传','追捕','七十七天','密战','狂兽','其它']
place_count = [60605,54546,45819,28243,13270,9945,7679,6799,6101,4621,20105]

# 添加画布
plt.figure(figsize=(20,8),dpi=80)
# 绘制饼图 autopct 显示百分比格式
plt.pie(place_count,labels=movie_name,autopct="%1.2f%%",colors=['b','r','g','y','c','m','y','k','c','g','y'])

# 调整横纵轴比例
plt.axis("equal")
# 显示图例
plt.legend()
# 显示图像
plt.show()

数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第37张图片

当类别超过 9 个,不推荐饼图,推荐柱状图就可以了

matplotlib总结

数据挖掘快速入门 第一章 Jupyter Notebook使用 和matplotlib绘图_第38张图片

你可能感兴趣的:(Python,Python入门知识整理,数据挖掘,jupyter,r语言)