数据分析 matplotlib.pyplot 模块 简单使用

jupter notbook ; matplotlib

什么是数据挖掘

  • 对大规模数据进行自动或者半自动化的分析,得到之前不知道的有价值的潜在信息
  • 举个例子:从共享单车的客户使用信息得到国庆节前后,单车使用量的趋势变化

为什么要学

  • 公司可以根据现有数据或者购买的数据获得潜在的价值信息,指导之后的经营方向,制定更加稳健的经营计划
  • 一直数据挖掘都是存在的,为什么近两年才火?数据挖掘的需要大量的数据以及较强的机器性能,而这两个条件都是最近两年才爆发式发展的。
  • 社会对这方面人才足需求旺盛,薪资也普遍较高

数据挖掘流程

  • 问题定义
  • 数据采集
  • 数据探索及预处理
  • 数据挖掘
  • 模式的评估
  • 数据的可视化
  • 模型发布

数据挖掘基础学习目标

  • 定位:用数据为企业创造价值
  • 1.建立对数据挖掘的认知
  • 2.掌握Python流行数据处理类库

CONDA

  • 用来进行数据挖掘的一个软件,数据挖掘的环境

工具

  • matplotlib:2D画图库
  • NumPy:数值计算库
  • pandas:数据分析库
  • jupyter notebook:一款编程/文档/笔记/展示软件

matplotlib

什么是matplotlib

  • 用来开发2D图表(也可以开发3D图表)的库
  • 特点:
    • 使用简单
    • 以渐进,交互的方式实现可视化

为什么要学?

  • 可视化在整个数据挖掘的过程中是关键的辅助工具,可以清晰的理解数据,从而调整我们的分析方法

matplotlib架构

  • Backend层
    • 系统层
    • matplotlib API 位于该层
    • 其中:
    • FigureCanvas对象实现了绘图区域这个概念
    • Renderer对象在FigureCanvas上绘图
  • Artist层
    • 绘制的图形中能看到的元素都属于Ariitst层
    • Figure:对应整个画板
    • Axes:Figure可以有多个图表,每一个图表就是一个Axes
    • Axis:一个坐标横轴/纵轴
  • Scripting层
    • 主要用于数据分析和可视化
    • pyploy:
    • 1.操作或者改动Figure对象,例如,创建Figure对象
    • 2.大部分工作是处理样本文件的图形与坐标的生成

使用pyplot画折线图

  • 简单操作
# 导入模块
import matplotlib.pyplot as plt

# 准备数据
x = [1,2,3,4,5,6,7]
y = [17,17,18,11,11,13,13]

# 绘制折线图
plt.plot(x,y)

# 展示折线图
plt.show()

  • 其他操作

    • 设置图片大小

    plt.figure(figsize=(20,8), dpi=100)

    • 保存到本地

    plt.savefig('first_image.png')

    • 调整x/y轴刻度的间距
x1 = x[::5]
plt.xticks(x1) 
  • x轴/y轴/标题的描述信息

    
    # x轴描述信息
    
    plt.xlabel('时间')
    
    # y轴描述信息
    
    plt.ylabel('温度')
    
    # 表格描述信息
    
    plt.tilte('温度随着时间的变化')

折线图的应用场景

  • 折线图表现的是变化和趋势,凡是有此倾向的问题,都可以用折线图表达
  • 共享单车在国庆节前后每日使用量的变化
  • 股票k线
  • 温度在一年中的变化

总结

  • 折线图的绘制:plt.plot
  • 设置图片的大小:plt.figure
  • 图表的保存:plt.savefig
  • 设置x/y轴刻度:plt.xticks,plt.yticks
  • 设置标,x/y轴的描述:plt.title,plt.xlabel,plt.ylabel
  • 分图:plt.subplts

你可能感兴趣的:(学习日志)