Python 数据可视化分析(一)

Python 数据可视化分析

使用到的扩展库:

import warnings
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
warnings.filterwarnings('ignore')

Tips:
(1)warnings库:用于提示警告(可有可无)
(2)numpy库:支持数组的维度运算与矩阵运算。
(3)pandas库:提供了各种分析结构化数据的方法,通常和numpy结合使用
(4)matplotlib.pyplot库:可视化绘图库
(5)sns.set():是matplotlib库的进阶版,提供了更多可视化操作


单变量可视化(即只关注一个变量分析其特征)

通常采用直方图和密度图来表示可视化的单变量数据

  • 使用hist()方法来绘制直方图
    df.hist(figsize=(10,4)) // 创建一个尺寸是10x4的直方图

Python 数据可视化分析(一)_第1张图片

  • 使用plot()方法创建密度图
    // 创建一个尺寸为10x4的密度图
    df.plot(kind='density', figsize=(10, 4))

Python 数据可视化分析(一)_第2张图片

  • 使用seaborn的distplot()方法同时显示直方图与密度图
    // sns即seaborn库
    sns.distplot(df['Total intl calls'])

Python 数据可视化分析(一)_第3张图片

  • 使用seanborn的boxplot()方法创建箱型图
    // x 表示横坐标的数据  ; data 表示数据源
    sns.boxplot(x='Total intl calls', data=df)

Python 数据可视化分析(一)_第4张图片

  • 使用violinplot()创建提琴形图
    // 创建一个小提琴图
    sns.violinplot(data=df['Total intl calls'], figsize=(6, 4))

Python 数据可视化分析(一)_第5张图片

  • 使用describe()方法获取分布的精确数值统计
    df.describe()

describe()的输出基本上是自解释性的,25%,50% 和 75% 是相应的百分数

  • 使用 value_counts()方法得到一张频率表
    df.value_counts()

image.png

  • 条形图使用 seaborn 的countplot()函数。让我们来画出两个分类变量的分布。
    sns.countplot(x='Customer service calls', data=df, figsize(12, 4))

Python 数据可视化分析(一)_第6张图片

你可能感兴趣的:(python,人工智能,机器学习,数据挖掘)