需要操作工具anaconda, jupyter notebook
库 pandas numpy matplotlib等
matplotlib 画图
numpy 处理数据
pandas 处理数据
TA-Lib 技术指标库
table 支持读取某种特殊数据文件 hdf5
jupyter 数据挖掘分析展示的平台
小Tips:安装Ta-Lib出现问题,操作如下
Jupyter notebook介绍:
源于ipython
交互模式快
ipynb文件格式 用于计算型 的JSON文档格式
可以用来编程,写文档,数据结果展示
启动: 直接在终端输入
jupyter notebook
优势:
1 画图方便
2 读取大数据,可视化方便
直接在终端输入
jupyter notebook
或者
ipython notebook
一对 in out会话,视为一个代码单元,成为cell
jupyter notebook
有两个模式
编辑模式 和 命令模式
执行代码
添加 删除 cell
代码的状态
cell 前面是* 表示代码正在运行
多光标操作
按住commmand不动,选择多行,可以同时增加or删除
改为标记 /markdown模式
shift + enter 执行cell 就可以了
用来绘制2D/3D图
mat - matrix 矩阵
二维数组 二维图表
plot 画图
lib -library 库
模仿自 matlab
import matplotlib.pyplot as plt
# 创建画布(计算机开辟内存)
plt.figure()
# 传入横纵坐标
plt.plot([1,0,9],[4,5,6])
# 展示图像
plt.show()
三板斧:
容器层
辅助显示层
图像层
画布层 Figure
可以在画布层,又增加 绘图区,每个绘图区有两个坐标轴
折线图绘制
eg: 周天气数据展示
figsize:画布大小
dpi: dot per inch 图像清晰度
# 展示一周天气的温度变化
# 创建画布
plt.figure(figsize=(20,8),dpi=80)
# 绘制图像
plt.plot([1,2,3,4,5,6,7],[17,17,18,12,19,29,32])
# # 显示图像
# plt.show()
# 保存图片
plt.savefig('test1')
注意: plt.show() 会释放figure内存,show之后,保存图片是空白图片,因为内容已经被释放了。
# 准备x y
x = range(60)
y_shanghai = [random.uniform(15,18) for i in x]
# 创建画布
plt.figure(figsize = (20,8),dpi = 80)
# 绘制图像
plt.plot(x,y_shanghai)
# 修改x,y刻度
x_label = ['11点{}分' .format(i) for i in x]# 准备x的刻度说明
plt.xticks(x[::5],x_label[::5]) # 每隔5步显示1次
plt.yticks(range(0,40,5)) # 刻度为0——40,步长为5
# 显示图
plt.show()
安装字体
删除matplotlib 缓存文件
配置文件
mac配置一劳永逸
ubuntu每次创建虚拟环境,需要从新配置
window
安装字体:
linux系统
删除缓存文件
修改配置文件 matplotlibrc
backend:TkAgg
font.family : sans-serif
font.sans-serif :SimHei
axes.unicode_minus :False
~
~
-- INSERT --
mac是自己创建,linux是找到文件,用vi打开文件,找到相应的行,进行修改。
# 添加网格显示
plt.grid(True,linestyle='--',alpha=0.5)
# 显示图
plt.show()
# 添加描述信息
plt.xlabel("时间变化")
plt.ylabel("温度变化")
plt.title("某城市11点到12点每分钟的温度变化状况")
调用两个plot就可以了
y_shanghai = [random.uniform(15,18) for i in x]
# 再添加一个城市的温度变化
# 收集到北京丹田温度变化情况,温度在1到3度
y_beijing = [random.uniform(1,3) for i in x]
# 创建画布
plt.figure(figsize = (20,8),dpi = 80)
# 绘制图像 添加颜色color r红色 b蓝色; 线条风格linstyle --虚线
plt.plot(x,y_shanghai, color = 'r', linestyle= '--')
# 添加第二个plot
plt.plot(x,y_beijing, color = 'b')
# 绘制图像 添加颜色color r红色 b蓝色; 线条风格linstyle --虚线
plt.plot(x,y_shanghai, color = 'r', linestyle= '--')
# 添加第二个plot
plt.plot(x,y_beijing, color = 'b')
# 绘制图像 添加颜色color r红色 b蓝色; 线条风格linstyle --虚线
plt.plot(x,y_shanghai, color = 'r', linestyle= '--',label ='上海')
# 添加第二个plot
plt.plot(x,y_beijing, color = 'b',label = '北京')
#显示图例
plt.legend()
#显示图例
plt.legend(loc = 'lower left')
#显示图例
plt.legend(loc = 4)
代码总结:
# 准备x y
x = range(60)
y_shanghai = [random.uniform(15,18) for i in x]
# 再添加一个城市的温度变化
# 收集到北京丹田温度变化情况,温度在1到3度
y_beijing = [random.uniform(1,3) for i in x]
# 创建画布
plt.figure(figsize = (20,8),dpi = 80)
# 绘制图像 添加颜色color r红色 b蓝色; 线条风格linstyle --虚线
plt.plot(x,y_shanghai, color = 'r', linestyle= '--',label ='上海')
# 添加第二个plot
plt.plot(x,y_beijing, color = 'b',label = '北京')
#显示图例
plt.legend(loc = 'lower left')
# 修改x,y刻度
x_label = ['11点{}分' .format(i) for i in x]# 准备x的刻度说明
plt.xticks(x[::5],x_label[::5]) # 每隔5步显示1次
plt.yticks(range(0,40,5)) # 刻度为0——40,步长为5
# 添加网格显示
plt.grid(True,linestyle='--',alpha=0.5)
# 添加描述信息
plt.xlabel("时间变化")
plt.ylabel("温度变化")
plt.title("某城市11点到12点每分钟的温度变化状况")
# 显示图
plt.show()
推荐 subplots函数
nrows 行
ncols 列
后面是图像大小设置
# 准备x y
x = range(60)
y_shanghai = [random.uniform(15,18) for i in x]
# 再添加一个城市的温度变化
# 收集到北京丹田温度变化情况,温度在1到3度
y_beijing = [random.uniform(1,3) for i in x]
# 创建画布
# figure,axes = plt.subplots(nrows =1,ncols=2,figsize(20,8),dpi=80)
figure, axes = plt.subplots(nrows=1, ncols=2, figsize=(20, 8), dpi=80)
# 绘制图像 添加颜色color r红色 b蓝色; 线条风格linstyle --虚线
axes[0].plot(x,y_shanghai, color = 'r', linestyle= '--',label ='上海')
# 添加第二个plot
axes[1].plot(x,y_beijing, color = 'b',label = '北京')
#显示图例
axes[0].legend()
axes[1].legend()
# 修改x,y刻度
x_label = ['11点{}分' .format(i) for i in x]# 准备x的刻度说明
axes[0].set_xticks(x[::5]) # 每隔5步显示1次
axes[0].set_yticks(range(0,40,5)) # 刻度为0——40,步长为5
axes[0].set_xticklabels(x_label[::5])
axes[1].set_xticks(x[::5]) # 每隔5步显示1次
axes[1].set_yticks(range(0,40,5)) # 刻度为0——40,步长为5
axes[1].set_xticklabels(x_label[::5])
# 添加网格显示
axes[0].grid(True,linestyle='--',alpha=0.5)
axes[1].grid(True,linestyle='--',alpha=0.5)
# 添加描述信息
axes[0].set_xlabel("时间变化")
axes[0].set_ylabel("温度变化")
plt.title("上海11点到12点每分钟的温度变化状况")
axes[1].set_xlabel("时间变化")
axes[1].set_ylabel("温度变化")
plt.title("北京11点到12点每分钟的温度变化状况")
# 显示图
plt.show()
折线图应用:某事物,某场景 随时间的变化。
可以绘制任何数学函数的图像。
import numpy as np
# 绘制数学函数图像
# 准备数据 x,y
x = np.linspace(-1,1,1000)# 生成-1到1之间等距离的1千个数据
y = 2*x*x
# 创建画布
plt.figure(figsize=(20,8),dpi=80)
# 绘制图像
plt.plot(x,y)
# 添加网格显示
plt.grid(linestyle='--',alpha=0.5)
# 显示图像
plt.show()
plot 折线图: 某一个事物or指标 随时间变化。
scatter 散点图: 判断变量之间是否存在 关系 or 规律。
plot 柱状图:统计不同类别的数量大小。
pie 饼图: 占比
房屋面积 和 房屋价格
# 房屋面积 和 房屋价格数据的关系
# 准备数据
# 房屋面积
x = [225.98, 247.07, 253.14, 457.85, 241.58, 301.01, 20.67, 288.64,
163.56, 120.06, 207.83, 342.75, 147.9 , 53.06, 224.72, 29.51,
21.61, 483.21, 245.25, 399.25, 343.35]
# 房屋价格
y = [196.63, 203.88, 210.75, 372.74, 202.41, 247.61, 24.9 , 239.34,
140.32, 104.15, 176.84, 288.23, 128.79, 49.64, 191.74, 33.1 ,
30.74, 400.02, 205.35, 330.64, 283.45]
# 创建画布
plt.figure(figsize=(20,8),dpi=80)
# 绘制图像
plt.scatter(x,y)
# 显示图像
plt.show()
# 准备数据
movie_names = ['雷神3:诸神黄昏','正义联盟','东方快车谋杀案','寻梦环游记','全球风暴', '降魔传','追捕','七十七天','密战','狂兽','其它']
tickets = [73853,57767,22354,15969,14839,8725,8716,8318,7916,6764,52222]
# 创建画布
plt.figure(figsize=(20,8),dpi=80)
# 绘制柱状图
x_ticks = range(len(movie_names))
plt.bar(x_ticks,tickets,color = ['b','r','g','y','c','m','y','k','c','g','b'])
# 修改x刻度
plt.xticks(x_ticks,movie_names)
# 添加标题
plt.title("电影票房收入对比")
plt.grid(linestyle='--',alpha=0.5)
# 显示图像
plt.show()
# 比较相同天数的电影的票房(上映时间相同)
# 准备数据
movie_name = ['雷神3:诸神黄昏','正义联盟','寻梦环游记']
first_day = [10587.6,10062.5,1275.7]
first_weekend=[36224.9,34479.6,11830]
# 创建画图
plt.figure(figsize=(20,8),dpi=80)
# 绘制柱状图
x = range(len(movie_name))
plt.bar(x,first_day,width=0.2,label='首日票房')
plt.bar([i+0.2 for i in x],first_weekend,width=0.2,label='首周票房')
# 或者写成
# plt.bar(range(3),first_day,width=0.2)
# plt.bar([0.2,1.2,2.2],first_weekend,width=0.2)
# 修改刻度
plt.xticks([i+0.1 for i in x],movie_name)
# 设置图例
plt.legend()
# # 显示图像
plt.show()
hist
直方图 和 柱状图 很像
组数: 分了几组
组距: 每组间的端点差
直方图侧重数据分布
直方图 柱子宽度有意义;柱状图 无意义。
电影时长的分布状况
x 是times
bins 是组数
组数 = (最大值-最小值)➗组距
# 电影时长分布状况
# 准备数据
time = [131, 98, 125, 131, 124, 139, 131, 117, 128, 108, 135, 138, 131, 102, 107, 114, 119, 128, 121, 142, 127, 130, 124, 101, 110, 116, 117, 110, 128, 128, 115, 99, 136, 126, 134, 95, 138, 117, 111,78, 132, 124, 113, 150, 110, 117, 86, 95, 144, 105, 126, 130,126, 130, 126, 116, 123, 106, 112, 138, 123, 86, 101, 99, 136,123, 117, 119, 105, 137, 123, 128, 125, 104, 109, 134, 125, 127,105, 120, 107, 129, 116, 108, 132, 103, 136, 118, 102, 120, 114,105, 115, 132, 145, 119, 121, 112, 139, 125, 138, 109, 132, 134,156, 106, 117, 127, 144, 139, 139, 119, 140, 83, 110, 102,123,107, 143, 115, 136, 118, 139, 123, 112, 118, 125, 109, 119, 133,112, 114, 122, 109, 106, 123, 116, 131, 127, 115, 118, 112, 135,115, 146, 137, 116, 103, 144, 83, 123, 111, 110, 111, 100, 154,136, 100, 118, 119, 133, 134, 106, 129, 126, 110, 111, 109, 141,120, 117, 106, 149, 122, 122, 110, 118, 127, 121, 114, 125, 126,114, 140, 103, 130, 141, 117, 106, 114, 121, 114, 133, 137, 92,121, 112, 146, 97, 137, 105, 98, 117, 112, 81, 97, 139, 113,134, 106, 144, 110, 137, 137, 111, 104, 117, 100, 111, 101, 110,105, 129, 137, 112, 120, 113, 133, 112, 83, 94, 146, 133, 101,131, 116, 111, 84, 137, 115, 122, 106, 144, 109, 123, 116, 111,111, 133, 150]
# 创建画布
plt.figure(figsize=(20,8),dpi=80)
# # 绘制直方图
distance = 2
group_num = int((max(time) - min(time)) / distance)
plt.hist(time,bins=group_num)
plt.xticks(range(min(time),max(time)+2,distance))
# 添加网格
plt.grid(linestyle="--",alpha=0.5)
# 显示图像
plt.show()
# 饼图
# 创建数据
movie_name = ['雷神3:诸神黄昏','正义联盟','东方快车谋杀案','寻梦环游记','全球风暴','降魔传','追捕','七十七天','密战','狂兽','其它']
place_count = [60605,54546,45819,28243,13270,9945,7679,6799,6101,4621,20105]
# 添加画布
plt.figure(figsize=(20,8),dpi=80)
# 绘制饼图 autopct 显示百分比格式
plt.pie(place_count,labels=movie_name,autopct="%1.2f%%",colors=['b','r','g','y','c','m','y','k','c','g','y'])
# 调整横纵轴比例
plt.axis("equal")
# 显示图例
plt.legend()
# 显示图像
plt.show()
当类别超过 9 个,不推荐饼图,推荐柱状图就可以了