Python数据可视化:一文读懂直方图和密度图

一图胜千言,使用Python的matplotlib库,可以快速创建高质量的图形。

用matplotlib生成基本图形非常简单,只需要几行代码,但要创建复杂的图表,需要调用更多的命令和反复试验,这要求用户对matplotlib有深入的认识。

我们推出一个新的系列教程:Python数据可视化,针对初级和中级用户,将理论和示例代码相结合,分别使用matplotlib, seaborn, plotly等工具实现可视化。

本文主题是如何用Matplotlib创建直方图和密度图。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

%matplotlib inline

plt.style.use("ggplot")

1. 频数表

直方图(histogram)是探索数值型变量分布的方法,例如单峰还是双峰分布,是否接近钟型分布,左偏还是右偏等。

在创建直方图之前,首先要了解一个概念:频数表。

什么是频数表(frequency table)?

给定一个数值变量,将变量的极差(最大值与最小值的差)均匀地分割为多个等距分段,然后统计落入每个分段的数值个数。

然我们看一个具体的例子。

# 生成数值变量,假设服从标准正态分布
np.random.seed(123)
x = np.random.randn(100)

# 定义分段的数量
bins = 10

# 将变量均匀地分割为多个等距分段
breaks = np.linspace(np.min(x), np.max(x), bins)

# 统计落入每个分段的数值个数
counts = {
   }
for i in range(len(breaks) - 1):
    l

你可能感兴趣的:(python,数据可视化,python,可视化,数据分析,大数据)