Aurelius-Shu

「Python 机器学习」Matplotlib 数据探索

Matplotlib 是一个 Python 的数据可视化库，它能够轻松创建各种类型的图表和图形；Matplotlib 可以在 Jupyter Notebooks、交互式应用程序和脚本中使用，并支持多种绘图样式和格式；

Matplotlib 最初是为科学计算而设计的，可以用于绘制折线图、散点图、条形图、面积图、饼图、直方图等多种图表类型。除了基本的图表类型之外，Matplotlib 还支持更高级的数据可视化，如 3D 绘图、动画、地图绘制等功能；

Matplotlib 提供了丰富的 API，包括函数式接口和面向对象接口，用户可以根据自己的需要选择不同的接口进行操作。利用 Matplotlib，用户可以实现复杂的数据可视化，探索数据中的模式和关系，从而更好地理解数据并做出有意义的分析和预测；

除了提供 API 接口，Matplotlib 还有一些其他的特性，例如：

支持多种输出格式：Matplotlib 可以将图表输出为多种格式，包括 PNG、PDF、SVG 等常见的图像格式；
多种样式风格：Matplotlib 内置了多种样式风格，用户可以通过设置不同的风格来快速改变图表的样式；
交互式可视化：Matplotlib 提供了多种交互式功能，如缩放、平移、旋转等，用户可以通过这些功能对图表进行交互式操作；
支持 LaTeX 公式：Matplotlib 支持在图表中使用 LaTeX 公式，从而方便地绘制包含数学符号和公式的图表；

总之，Matplotlib 是一个功能强大的数据可视化库，提供了丰富的 API 和多种样式风格，可以帮助用户轻松创建各种类型的图表和图形，从而更好地探索和理解数据；

matplotlib 官网

![toc]

1. 图的结构

使用 numpy 组织数据, 使用 matplotlib API 进行数据图像绘制；

一幅数据图基本上包括如下结构：

Data，数据区，包括数据点、描绘形状；
Axis，坐标轴，包括 X 轴、 Y 轴及其标签、刻度尺及其标签；
Title，标题，数据图的描述；
Legend，图例，区分图中包含的多种曲线或不同分类的数据；
Text，图形文本；
Annotate，注解；

2. 绘图步骤

导入 matplotlib 包相关工具包；
准备数据，numpy 数组存储；
绘制原始曲线；
配置标题、坐标轴、刻度、图例；
添加文字说明、注解；
显示、保存绘图结果；

示例：con、sin、sqrt 函数的完整图像

1. 导包

# 让 matplotlib 绘制的图嵌在当前页面中
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
from pylab import *

2. 准备数据

# 从 0. 开始 间隔为 0.2 的 10 以前的所有数
x = np.arange(0.,10, 0.2)
y1 = np.cos(x)
y2 = np.sin(x)
y3 = np.sqrt(x)

3. 绘制简单曲线

# linewidth
plt.plot(x, y1, color='blue', linewidth=1.5,
         linestyle='-', marker='.', label=r'$y = cos{x}$')
plt.plot(x, y2, color='green', linewidth=1.5,
         linestyle='-', marker='*', label=r'$y = sin{x}$')
plt.plot(x, y3, color='m', linewidth=1.5, linestyle='-',
         marker='x', label=r'$y = \sqrt{x}$')

4. color 参数

r 红色
g 绿色
b 蓝色
c cyan
m 紫色
y 土黄色
k 黑色
w 白色

5. linestyle 线条样式

6. marker 标记

7. 坐标轴

# 坐标轴上移
ax = plt.subplot(111)
# 去掉右边的边框线
ax.spines['right'].set_color('none')
# 去掉上边的边框线
ax.spines['top'].set_color('none')

# 移动下边边框线，相当于移动 X 轴
ax.xaxis.set_ticks_position('bottom')
ax.spines['bottom'].set_position(('data', 0))

# 移动左边边框线，相当于移动 y 轴
ax.yaxis.set_ticks_position('left')
ax.spines['left'].set_position(('data', 0))

8. 刻度尺间隔 lim、刻度标签 ticks

# 设置 x, y 轴的刻度取值范围
plt.xlim(x.min()*1.1, x.max()*1.1)
plt.ylim(-1.5, 4.0)

# 设置 x, y 轴的刻度标签值
plt.xticks([2, 4, 6, 8, 10], [r'2', r'4', r'6', r'8', r'10'])
plt.yticks([-1.0, 0.0, 1.0, 2.0, 3.0, 4.0],
    [r'-1.0', r'0.0', r'1.0', r'2.0', r'3.0', r'4.0'])

9. 设置 X、Y 坐标轴和标题

# 设置标题、x 轴、y 轴
plt.title(r'$the \ function \ figure \ of \ cos(), \ sin() \ and \ sqrt()$', fontsize=19)
plt.xlabel(r'$the \ input \ value \ of \ x$', fontsize=18, labelpad=10.8)
plt.ylabel(r'$y = f(x)$', fontsize=18, labelpad=12.5)

10. 文字描述与注解

# 数据图中添加文字描述 text
plt.text(1., 1.38, r'$x \in [0.0, \ 10.0]$', color='k', fontsize=15)
plt.text(1., 1.18, r'$y \in [-1.0, \ 4.0]$', color='k', fontsize=15)

# 特殊点添加注解
plt.scatter([8,], [np.sqrt(8),], 50, color='m')  # 使用散点图放大当前点
plt.annotate(r'$2\sqrt{2}$', xy=(8, np.sqrt(8)), xytext=(8.05, 2.85), fontsize=16, color='#090909',
             arrowprops=dict(arrowstyle='->', connectionstyle='arc3, rad=0.1', color='#090909'))

11. 图例设置

# 在 plt.plot 函数中添加 label 参数后，使用 plt.legend(loc=’up right’)
# 或 不使用参数 label, 直接使用如下命令：
plt.plot(x, y1, color='blue', linewidth=1.5,
         linestyle='-', marker='.', label=r'$y = cos{x}$')
plt.plot(x, y2, color='green', linewidth=1.5,
         linestyle='-', marker='*', label=r'$y = sin{x}$')
plt.plot(x, y3, color='m', linewidth=1.5, linestyle='-',
         marker='x', label=r'$y = \sqrt{x}$')
plt.legend(['cos(x)', 'sin(x)', 'sqrt(x)'], loc='upper right')

12. 网格线

plt.grid(True)

13. 显示与保存

# 显示
plt.show()
# 保存
savefig('../images/ml-03-matplotlib/plot3d_ex.png', dpi=48)

3. 完整图例

# coding:utf-8

import numpy as np
import matplotlib.pyplot as plt
from pylab import *

# 定义数据部分
x = np.arange(0., 10, 0.2)
y1 = np.cos(x)
y2 = np.sin(x)
y3 = np.sqrt(x)

# 绘制 3 条函数曲线
plt.plot(x, y1, color='blue', linewidth=1.5,
         linestyle='-', marker='.', label=r'$y = cos{x}$')
plt.plot(x, y2, color='green', linewidth=1.5,
         linestyle='-', marker='*', label=r'$y = sin{x}$')
plt.plot(x, y3, color='m', linewidth=1.5, linestyle='-',
         marker='x', label=r'$y = \sqrt{x}$')

# 坐标轴上移
ax = plt.subplot(111)
ax.spines['right'].set_color('none')     # 去掉右边的边框线
ax.spines['top'].set_color('none')       # 去掉上边的边框线

# 移动下边边框线，相当于移动 X 轴
ax.xaxis.set_ticks_position('bottom')
ax.spines['bottom'].set_position(('data', 0))

# 移动左边边框线，相当于移动 y 轴
ax.yaxis.set_ticks_position('left')
ax.spines['left'].set_position(('data', 0))

# 设置 x, y 轴的取值范围
plt.xlim(x.min()*1.1, x.max()*1.1)
plt.ylim(-1.5, 4.0)

# 设置 x, y 轴的刻度值
plt.xticks([2, 4, 6, 8, 10], [r'2', r'4', r'6', r'8', r'10'])
plt.yticks([-1.0, 0.0, 1.0, 2.0, 3.0, 4.0],
           [r'-1.0', r'0.0', r'1.0', r'2.0', r'3.0', r'4.0'])

# 添加文字
plt.text(4, 1.68, r'$x \in [0.0, \ 10.0]$', color='k', fontsize=15)
plt.text(4, 1.38, r'$y \in [-1.0, \ 4.0]$', color='k', fontsize=15)

# 特殊点添加注解
plt.scatter([8,], [np.sqrt(8),], 50, color='m')  # 使用散点图放大当前点
plt.annotate(r'$2\sqrt{2}$', xy=(8, np.sqrt(8)), xytext=(8.5, 2.2), fontsize=16, color='#090909',
             arrowprops=dict(arrowstyle='->', connectionstyle='arc3, rad=0.1', color='#090909'))

# 设置标题、x轴、y轴
plt.title(
    r'$the \ function \ figure \ of \ cos(), \ sin() \ and \ sqrt()$', fontsize=19)
plt.xlabel(r'$the \ input \ value \ of \ x$', fontsize=18, labelpad=88.8)
plt.ylabel(r'$y = f(x)$', fontsize=18, labelpad=12.5)

# 设置图例及位置
plt.legend(loc='upper right')
# plt.legend(['cos(x)', 'sin(x)', 'sqrt(x)'], loc='up right')

# 显示网格线
plt.grid(True)

# 显示绘图
plt.show()

4. 常用图形

曲线图，matplotlib.pyplot.plot(data)；
灰度图，matplotlib.pyplot.hist(data)；
散点图，matplotlib.pyplot.scatter(data)；
箱式图，matplotlib.pyplot.boxplot(data)；

1. 曲线图

x = np.arange(-5, 5, 0.1)
y = x ** 2
z = y ** 2
plt.plot(x, y)
plt.plot(x, z)

2. 灰度图

x = np.random.normal(size=1000)
plt.hist(x, bins=10)

3. 散点图

x = np.random.normal(size=1000)
y = np.random.normal(size=1000)
plt.scatter(x,y)

4. 箱式图

plt.boxplot(x)

上边缘（Q3+1.5IQR）、下边缘（Q1-1.5IQR）、IQR=Q3-Q1
上四分位数（Q3）、下四分位数（Q1）
中位数
异常值
处理异常值时与 3 σ 标准的异同：统计边界是否受异常值影响、容忍度的大小

5. 应用案例：自行车租赁数据分析

关联分析、数值比较：散点图、曲线图；
分布分析：灰度图、密度图；
涉及分类的分析：柱状图、箱式图；

1. 导入数据

import pandas as pd
import urllib
import tempfile  # 创建临时文件系统
import shutil  # 文件操作
import zipfile  # 压缩解压缩

# 创建临时目录
temp_dir = tempfile.mkdtemp()
# 网络数据
data_source = 'http://archive.ics.uci.edu/ml/machine-learning-databases/00275/Bike-Sharing-Dataset.zip'
zipname = temp_dir + '/Bike-Sharing-Dataset.zip'
# 获得数据
urllib.request.urlretrieve(data_source, zipname)

# 创建一个 ZipFile 对象处理压缩文件
zip_ref = zipfile.ZipFile(zipname, 'r')
# 解压
zip_ref.extractall(temp_dir)
zip_ref.close()

daily_path = temp_dir + '/day.csv'
daily_data = pd.read_csv(daily_path)
# 把字符串数据转换成日期数据
daily_data['dteday'] = pd.to_datetime(daily_data['dteday'])
# 不关注的列
drop_list = ['instant', 'season', 'yr', 'mnth',
             'holiday', 'workingday', 'weathersit', 'atemp', 'hum']
# inplace = true 表示在对象上直接操作
daily_data.drop(drop_list, inplace=True, axis=1)

# 删除临时文件目录
shutil.rmtree(temp_dir)

# 查看数据
daily_data.head(10)

      dteday  weekday      temp  windspeed  casual  registered   cnt
0 2011-01-01        6  0.344167   0.160446     331         654   985
1 2011-01-02        0  0.363478   0.248539     131         670   801
2 2011-01-03        1  0.196364   0.248309     120        1229  1349
3 2011-01-04        2  0.200000   0.160296     108        1454  1562
4 2011-01-05        3  0.226957   0.186900      82        1518  1600
5 2011-01-06        4  0.204348   0.089565      88        1518  1606
6 2011-01-07        5  0.196522   0.168726     148        1362  1510
7 2011-01-08        6  0.165000   0.266804      68         891   959
8 2011-01-09        0  0.138333   0.361950      54         768   822
9 2011-01-10        1  0.150833   0.223267      41        1280  1321

2. 配置参数

# 引入 3.x 版本的出发和打印
from __future__ import division, print_function
from matplotlib import pyplot as plt
import pandas as pd
import numpy as np

# 在 notebook 中显示绘图结果
%matplotlib inline

# 设置一些全局的资源参数
import matplotlib

# 设置图片尺寸 14 x 7
# rc: resource configuration
matplotlib.rc('figure', figsize=(14, 7))

# 设置字体 14
matplotlib.rc('font', size = 14)

# 不显示顶部和右侧的坐标线
matplotlib.rc('axes.spines', top = False, right = False)

# 不显示网格
matplotlib.rc('axes', grid = False)

# 设置背景颜色是白色
matplotlib.rc('axes', facecolor = 'white')

3. 关联分析（散点图 - 分析变量关系）

# 包装一个散点图的函数便于复用
def scatterplot(x_data, y_data, x_label, y_label, title):

    # 创建一个绘图对象
    fig, ax = plt.subplots()

    # 设置数据、点的大小、点的颜色和透明度
    # http://www.114la.com/other/rgb.htm
    ax.scatter(x_data, y_data, s=10, color='#539caf', alpha=0.75)

    # 添加标题和坐标说明
    ax.set_title(title)
    ax.set_xlabel(x_label)
    ax.set_ylabel(y_label)
    plt.show()


# 绘制散点图
scatterplot(x_data=daily_data['temp'], y_data=daily_data['cnt'], x_label='Normalized temperature (C)',
            y_label='Check outs', title='Number of Check Outs vs Temperature')

4. 关联分析（曲线图 - 拟合变量关系）

# 线性回归 最小二乘
import statsmodels.api as sm

# 获得汇总信息
from statsmodels.stats.outliers_influence import summary_table

# 线性回归增加常数项 y=kx+b
x = sm.add_constant(daily_data['temp'])
y = daily_data['cnt']

# 普通最小二乘模型，ordinary least square model
regr = sm.OLS(y, x)
res = regr.fit()

# 从模型获得拟合数据
# 置信水平alpha=5%，st数据汇总，data数据详情，ss2数据列名
st, data, ss2 = summary_table(res, alpha=0.05)
fitted_values = data[:, 2]

# 包装曲线绘制函数
def lineplot(x_data, y_data, x_label, y_label, title):
    # 创建绘图对象
    _, ax = plt.subplots()

    # 绘制拟合曲线，lw=linewidth，alpha=transparancy
    ax.plot(x_data, y_data, lw=2, color='#539caf', alpha=1)

    # 添加标题和坐标说明
    ax.set_title(title)
    ax.set_xlabel(x_label)
    ax.set_ylabel(y_label)


# 调用绘图函数
lineplot(x_data=daily_data['temp'], y_data=fitted_values, x_label='Normalized temperature (C)',
         y_label='Check outs', title='Line of Best Fit for Number of Check Outs vs Temperature')

>>> x.size
1462

>>> type(regr)
statsmodels.regression.linear_model.OLS

>>> # st.head()
>>> pd.DataFrame.from_records(st.data).head()
    0           1            2             3            4            5   \
0  Obs     Dep Var    Predicted     Std Error      Mean ci      Mean ci
1       Population        Value  Mean Predict      95% low      95% upp
2  1.0       985.0  3500.155357     72.432281  3357.954604   3642.35611
3  2.0       801.0  3628.394108     68.827331  3493.270679  3763.517537
4  3.0      1349.0  2518.638497    106.979293  2308.614241  2728.662754

           6            7            8            9         10        11
0  Predict ci   Predict ci     Residual    Std Error   Student    Cook's
1     95% low      95% upp                  Residual  Residual         D
2  533.478562  6466.832152 -2515.155357  1507.649519 -1.668263  0.003212
3  662.048124  6594.740092 -2827.394108  1507.818393 -1.875156  0.003663
4 -452.061814  5489.338809 -1169.638497  1505.592554 -0.776863  0.001524

>>> ss2
['Obs',
 'Dep Var\nPopulation',
 'Predicted\nValue',
 'Std Error\nMean Predict',
 'Mean ci\n95% low',
 'Mean ci\n95% upp',
 'Predict ci\n95% low',
 'Predict ci\n95% upp',
 'Residual',
 'Std Error\nResidual',
 'Student\nResidual',
 "Cook's\nD"]

>>> data
array([[ 1.00000000e+00,  9.85000000e+02,  3.50015536e+03, ...,
         1.50764952e+03, -1.66826263e+00,  3.21190276e-03],
       [ 2.00000000e+00,  8.01000000e+02,  3.62839411e+03, ...,
         1.50781839e+03, -1.87515560e+00,  3.66326560e-03],
       [ 3.00000000e+00,  1.34900000e+03,  2.51863850e+03, ...,
         1.50559255e+03, -7.76862568e-01,  1.52350164e-03],
       ...,
       [ 7.29000000e+02,  1.34100000e+03,  2.89695311e+03, ...,
         1.50654569e+03, -1.03279517e+00,  2.01463700e-03],
       [ 7.30000000e+02,  1.79600000e+03,  2.91355488e+03, ...,
         1.50658291e+03, -7.41781203e-01,  1.02560619e-03],
       [ 7.31000000e+02,  2.72900000e+03,  2.64792648e+03, ...,
         1.50594093e+03,  5.38357901e-02,  6.64260501e-06]])

5. 带置信区间的曲线图 - 评估权限拟合结果

# 获得5%置信区间的上下界
predict_mean_ci_low, predict_mean_ci_upp = data[:, 4:6].T

# 创建置信区间DataFrame，上下界
CI_df = pd.DataFrame(columns=['x_data', 'low_CI', 'upper_CI'])
CI_df['x_data'] = daily_data['temp']
CI_df['low_CI'] = predict_mean_ci_low
CI_df['upper_CI'] = predict_mean_ci_upp
CI_df.sort_values('x_data', inplace=True)  # 根据x_data进行排序

# 绘制置信区间
def lineplotCI(x_data, y_data, sorted_x, low_CI, upper_CI, x_label, y_label, title):
    # 创建绘图对象
    _, ax = plt.subplots()

    # 绘制预测曲线
    ax.plot(x_data, y_data, lw=1, color='#539caf', alpha=1, label='Fit')
    # 绘制置信区间，顺序填充
    ax.fill_between(sorted_x, low_CI, upper_CI,
                    color='#539caf', alpha=0.4, label='95% CI')
    # 添加标题和坐标说明
    ax.set_title(title)
    ax.set_xlabel(x_label)
    ax.set_ylabel(y_label)

    # 显示图例，配合label参数，loc=“best”自适应方式
    ax.legend(loc='best')


# Call the function to create plot
lineplotCI(x_data=daily_data['temp'], y_data=fitted_values, sorted_x=CI_df['x_data'], low_CI=CI_df['low_CI'], upper_CI=CI_df['upper_CI'],
           x_label='Normalized temperature (C)', y_label='Check outs', title='Line of Best Fit for Number of Check Outs vs Temperature')

>>> predict_mean_ci_low
array([3357.95460434, 3493.2706787 , 2308.61424066, 2334.61511966,
       2527.1743799 , 2365.69916755, 2309.74422092, 2084.09224731,
       1892.90173201, 1982.55120771, 2113.4006319 , 2139.44397   ,
       2084.09224731, 2054.49814292, 2572.66032092, 2560.77755361,
       2161.68700285, 2453.71655445, 2991.06693905, 2774.47282774,
       2173.62331635, 1323.87879839, 1592.70114322, 1598.94940723,
       2502.34533239, 2459.66533233, 2298.85873944, 2359.48023561,
       2309.74422092, 2452.68101446, 2197.48538328, 2278.64410965,
       2762.61518008, 2241.31702524, 2415.40839107, 2572.66032092,
       2946.11512008, 2845.5587389 , 2483.46378131, 1867.43225439,
       1936.04737195, 2256.58702583, 2495.3642587 , 3163.28624958,
       3850.82088667, 2805.90262872, 3175.56105833, 3993.62059464,
       4568.15553475, 3741.55716105, 2941.746223  , 3070.07683526,
       2207.42834256, 2489.93178099, 3015.70611753, 3499.35231432,
       2922.47209315, 3353.11577628, 3797.57171434, 2810.02576103,
       3293.51825779, 2322.69524907, 2774.47282774, 3637.51586294,
       3584.30939921, 2774.98492788, 2993.37692847, 3016.98804377,
       3671.72232094, 3163.28624958, 3252.45565962, 3638.77413698,
       3224.62303583, 3169.4205805 , 3505.42562991, 3850.82088667,
       4687.81236982, 4241.92285953, 3275.92466748, 3956.7321869 ,
       4033.39618479, 3377.54137823, 2940.20709584, 2792.25173921,
       2804.0968969 , 2713.10649495, 2793.53874375, 3064.18335719,
       3046.49142163, 2821.86760563, 3046.49142163, 3152.54017204,
       3596.92375538, 4902.84424832, 3845.08751497, 3683.81159355,
       4004.99592   , 3299.37851782, 3346.2460944 , 3930.93527485,
...
       3016.98804377, 2916.56152591, 3217.22108861, 3486.43250237,
       3701.14990982, 3822.12298042, 3275.92466748, 3258.32254957,
       3234.84243973, 2804.0968969 , 2661.76079882, 2558.18822718,
       2984.90173382, 2643.9488419 , 2721.10770942, 2715.17095217,
       2715.17095217, 2732.96547894, 2447.76025905])

6. 双坐标曲线图

曲线拟合不满足置信阈值时，考虑增加独立变量；
分析不同尺度多变量的关系；

# 双纵坐标绘图函数
def lineplot2y(x_data, x_label, y1_data, y1_color, y1_label, y2_data, y2_color, y2_label, title):
    _, ax1 = plt.subplots()
    ax1.plot(x_data, y1_data, color=y1_color)
    # 添加标题和坐标说明
    ax1.set_ylabel(y1_label, color=y1_color)
    ax1.set_xlabel(x_label)
    ax1.set_title(title)

    ax2 = ax1.twinx()  # 两个绘图对象共享横坐标轴
    ax2.plot(x_data, y2_data, color=y2_color)
    ax2.set_ylabel(y2_label, color=y2_color)
    # 右侧坐标轴可见
    ax2.spines['right'].set_visible(True)


# 调用绘图函数
lineplot2y(x_data=daily_data['dteday'], x_label='Day', y1_data=daily_data['cnt'], y1_color='#539caf', y1_label='Check outs',
           y2_data=daily_data['windspeed'], y2_color='#7663b0', y2_label='Normalized windspeed', title='Check Outs and Windspeed Over Time')

7. 分布分析（灰度图 - 粗略区间计数）

# 绘制灰度图的函数
def histogram(data, x_label, y_label, title):
    _, ax = plt.subplots()
    res = ax.hist(data, color='#539caf', bins=10)  # 设置bin的数量
    ax.set_ylabel(y_label)
    ax.set_xlabel(x_label)
    ax.set_title(title)
    return res


# 绘图函数调用
res = histogram(data=daily_data['registered'], x_label='Check outs',
                y_label='Frequency', title='Distribution of Registered Check Outs')
res[0]  # value of bins
res[1]  # boundary of bins

8. 堆叠直方图 - 比较两个分布

# 绘制堆叠的直方图
def overlaid_histogram(data1, data1_name, data1_color, data2, data2_name, data2_color, x_label, y_label, title):
    # 归一化数据区间，对齐两个直方图的bins
    max_nbins = 10
    data_range = [min(min(data1), min(data2)), max(max(data1), max(data2))]
    binwidth = (data_range[1] - data_range[0]) / max_nbins
    bins = np.arange(data_range[0], data_range[1] +
                     binwidth, binwidth)  # 生成直方图bins区间

    # Create the plot
    _, ax = plt.subplots()
    ax.hist(data1, bins=bins, color=data1_color, alpha=1, label=data1_name)
    ax.hist(data2, bins=bins, color=data2_color, alpha=0.75, label=data2_name)
    ax.set_ylabel(y_label)
    ax.set_xlabel(x_label)
    ax.set_title(title)
    ax.legend(loc='best')


# Call the function to create plot
overlaid_histogram(data1=daily_data['registered'], data1_name='Registered', data1_color='#539caf', data2=daily_data['casual'],
                   data2_name='Casual', data2_color='#7663b0', x_label='Check outs', y_label='Frequency', title='Distribution of Check Outs By Type')

registered：注册的分布，正态分布，why；
casual：偶然的分布，疑似指数分布，why；

9. 密度图 - 精细刻画概率分布

KDE: kernal density estimate

$f*h(x)={\frac{1}{n}}\sum*{i=1}^nK*h(x−xi)={\frac{1}{nh}}\sum*{i=1}^nK({\frac{x−x_i}{h}})$

# 计算概率密度
from scipy.stats import gaussian_kde

data = daily_data['registered']

# kernal density estimate: https://en.wikipedia.org/wiki/Kernel_density_estimation
density_est = gaussian_kde(data)

# 控制平滑程度，数值越大，越平滑
density_est.covariance_factor = lambda: .3
density_est._compute_covariance()
x_data = np.arange(min(data), max(data), 200)

# 绘制密度估计曲线
def densityplot(x_data, density_est, x_label, y_label, title):
    _, ax = plt.subplots()
    ax.plot(x_data, density_est(x_data), color='#539caf', lw=2)
    ax.set_ylabel(y_label)
    ax.set_xlabel(x_label)
    ax.set_title(title)


# 调用绘图函数
densityplot(x_data=x_data, density_est=density_est, x_label='Check outs',
            y_label='Frequency', title='Distribution of Registered Check Outs')

>>> type(density_est)
scipy.stats._kde.gaussian_kde

10. 组间分析（柱状图 - 一级类间均值方差比较）

组间定量比较
分组粒度
组间聚类

# 分天分析统计特征
mean_total_co_day = daily_data[['weekday', 'cnt']].groupby('weekday').agg([
    np.mean, np.std])
mean_total_co_day.columns = mean_total_co_day.columns.droplevel()

# 定义绘制柱状图的函数
def barplot(x_data, y_data, error_data, x_label, y_label, title):
    _, ax = plt.subplots()
    # 柱状图
    ax.bar(x_data, y_data, color='#539caf', align='center')
    # 绘制方差
    # ls='none'去掉bar之间的连线
    ax.errorbar(x_data, y_data, yerr=error_data,
                color='#297083', ls='none', lw=5)
    ax.set_ylabel(y_label)
    ax.set_xlabel(x_label)
    ax.set_title(title)


# 绘图函数调用
barplot(x_data=mean_total_co_day.index.values, y_data=mean_total_co_day['mean'], error_data=mean_total_co_day[
        'std'], x_label='Day of week', y_label='Check outs', title='Total Check Outs By Day of Week (0 = Sunday)')

>>> mean_total_co_day.columns
Index(['mean', 'std'], dtype='object')

>>> daily_data[['weekday', 'cnt']].groupby('weekday').agg([np.mean, np.std])
                 cnt
                mean          std
weekday
0        4228.828571  1872.496629
1        4338.123810  1793.074013
2        4510.663462  1826.911642
3        4548.538462  2038.095884
4        4667.259615  1939.433317
5        4690.288462  1874.624870
6        4550.542857  2196.693009

11. 堆积柱状图 - 多级类间相对占比比较

>>> mean_by_reg_co_day = daily_data[[
>>>     'weekday', 'registered', 'casual']].groupby('weekday').mean()
>>> mean_by_reg_co_day
          registered       casual
weekday
0        2890.533333  1338.295238
1        3663.990476   674.133333
2        3954.480769   556.182692
3        3997.394231   551.144231
4        4076.298077   590.961538
5        3938.000000   752.288462
6        3085.285714  1465.257143

# 分天统计注册和偶然使用的情况
mean_by_reg_co_day = daily_data[[
    'weekday', 'registered', 'casual']].groupby('weekday').mean()
# 分天统计注册和偶然使用的占比
mean_by_reg_co_day['total'] = mean_by_reg_co_day['registered'] + \
    mean_by_reg_co_day['casual']
mean_by_reg_co_day['reg_prop'] = mean_by_reg_co_day['registered'] / \
    mean_by_reg_co_day['total']
mean_by_reg_co_day['casual_prop'] = mean_by_reg_co_day['casual'] / \
    mean_by_reg_co_day['total']


# 绘制堆积柱状图
def stackedbarplot(x_data, y_data_list, y_data_names, colors, x_label, y_label, title):
    _, ax = plt.subplots()
    # 循环绘制堆积柱状图
    for i in range(0, len(y_data_list)):
        if i == 0:
            ax.bar(x_data, y_data_list[i], color=colors[i],
                   align='center', label=y_data_names[i])
        else:
            # 采用堆积的方式，除了第一个分类，后面的分类都从前一个分类的柱状图接着画
            # 用归一化保证最终累积结果为1
            ax.bar(x_data, y_data_list[i], color=colors[i],
                   bottom=y_data_list[i - 1], align='center', label=y_data_names[i])
    ax.set_ylabel(y_label)
    ax.set_xlabel(x_label)
    ax.set_title(title)
    ax.legend(loc='upper right')  # 设定图例位置


# 调用绘图函数
stackedbarplot(x_data=mean_by_reg_co_day.index.values, y_data_list=[mean_by_reg_co_day['reg_prop'], mean_by_reg_co_day['casual_prop']], y_data_names=['Registered', 'Casual'], colors=[
               '#539caf', '#7663b0'], x_label='Day of week', y_label='Proportion of check outs', title='Check Outs By Registration Status and Day of Week (0 = Sunday)')

从这幅图你看出了什么？工作日 VS 节假日；
为什么会有这样的差别？

12. 分组柱状图 - 多级类间绝对数值比较

# 绘制分组柱状图的函数
def groupedbarplot(x_data, y_data_list, y_data_names, colors, x_label, y_label, title):
    _, ax = plt.subplots()
    # 设置每一组柱状图的宽度
    total_width = 0.8
    # 设置每一个柱状图的宽度
    ind_width = total_width / len(y_data_list)
    # 计算每一个柱状图的中心偏移
    alteration = np.arange(-total_width/2+ind_width/2,
                           total_width/2+ind_width/2, ind_width)

    # 分别绘制每一个柱状图
    for i in range(0, len(y_data_list)):
        # 横向散开绘制
        ax.bar(x_data + alteration[i], y_data_list[i],
               color=colors[i], label=y_data_names[i], width=ind_width)
    ax.set_ylabel(y_label)
    ax.set_xlabel(x_label)
    ax.set_title(title)
    ax.legend(loc='upper right')


# 调用绘图函数
groupedbarplot(x_data=mean_by_reg_co_day.index.values, y_data_list=[mean_by_reg_co_day['registered'], mean_by_reg_co_day['casual']], y_data_names=[
               'Registered', 'Casual'], colors=['#539caf', '#7663b0'], x_label='Day of week', y_label='Check outs', title='Check Outs By Registration Status and Day of Week (0 = Sunday)')

偏移前：ind_width/2；
偏移后：total_width/2；
偏移量：total_width/2-ind_width/2；

13. 箱式图

多级类间数据分布比较；
柱状图 + 堆叠灰度图；

# 只需要指定分类的依据，就能自动绘制箱式图
days = np.unique(daily_data['weekday'])
bp_data = []
for day in days:
    bp_data.append(daily_data[daily_data['weekday'] == day]['cnt'].values)

# 定义绘图函数
def boxplot(x_data, y_data, base_color, median_color, x_label, y_label, title):
    _, ax = plt.subplots()

    # 设置样式
    ax.boxplot(y_data               # 箱子是否颜色填充
               , patch_artist=True               # 中位数线颜色
               # 箱子颜色设置，color：边框颜色，facecolor：填充颜色
               , medianprops={'color': base_color}               # 猫须颜色whisker
               # 猫须界限颜色whisker cap
               , boxprops={'color': base_color, 'facecolor': median_color}, whiskerprops={'color': median_color}, capprops={'color': base_color})

    # 箱图与x_data保持一致
    ax.set_xticklabels(x_data)
    ax.set_ylabel(y_label)
    ax.set_xlabel(x_label)
    ax.set_title(title)


# 调用绘图函数
boxplot(x_data=days, y_data=bp_data, base_color='b', median_color='r', x_label='Day of week',
        y_label='Check outs', title='Total Check Outs By Day of Week (0 = Sunday)')

>>> bp_data
[array([ 801,  822, 1204,  986, 1096, 1623, 1589, 1812, 2402,  605, 2417,
       2471, 1693, 3249, 2895, 3744, 4191, 3351, 4333, 4553, 4660, 4788,
       4906, 4460, 4744, 5305, 4649, 4881, 5302, 3606, 4302, 3785, 3820,
       3873, 4334, 4940, 5046, 4274, 5010, 2918, 5511, 5041, 4381, 3331,
       3649, 3717, 3520, 3071, 3485, 2743, 2431,  754, 2294, 3425, 2311,
       1977, 3243, 2947, 1529, 2689, 3389, 3423, 4911, 5892, 4996, 6041,
       5169, 7132, 1027, 6304, 6359, 6118, 7129, 6591, 7641, 6598, 6978,
       6891, 5531, 4672, 6031, 7410, 6597, 5464, 6544, 4549, 5255, 5810,
       8227, 7333, 7907, 6889, 3510, 6639, 6824, 4459, 5107, 6852, 4669,
       2424, 4649, 3228, 3786, 1787, 1796]), array([1349, 1321, 1000, 1416, 1501, 1712, 1913, 1107, 1446, 1872, 2046,
       2077, 2028, 3115, 3348, 3429, 4073, 4401, 4362, 3958, 4274, 4098,
       4548, 5020, 4010, 4708, 6043, 4086, 4458, 3840, 4266, 4326, 4338,
       4758, 4634, 3351, 4713, 4539, 4630, 3570, 5117, 4570, 4187, 3669,
       4035, 4486, 2765, 3867, 3811, 3310, 3403, 1317, 1951, 2376, 2298,
       2432, 3624, 3784, 3422, 3129, 4322, 3333, 5298, 6153, 5558, 5936,
       5585, 6370, 3214, 5572, 6273, 2843, 4359, 6043, 6998, 6664, 5099,
       6779, 6227, 6569, 6830, 6966, 7105, 7013, 6883, 6530, 6917, 6034,
       7525, 6869, 7436, 6778, 5478, 5875, 7058,   22, 5259, 6269, 5499,
       5087, 6234, 5170, 4585,  920, 2729]), array([1562, 1263,  683, 1985, 1360, 1530, 1815, 1450, 1851, 2133, 2056,
       2703, 2425, 1795, 2034, 3204, 4400, 4451, 4803, 4123, 4492, 3982,
       4833, 4891, 4835, 4648, 4665, 4258, 4541, 4590, 4845, 4602, 4725,
       5895, 5204, 2710, 4763, 3641, 4120, 4456, 4563, 4748, 4687, 4068,
       4205, 4195, 1607, 2914, 2594, 3523, 3750, 1162, 2236, 3598, 2935,
       4339, 4509, 4375, 3922, 3777, 4363, 3956, 5847, 6093, 5102, 6772,
       5918, 6691, 5633, 5740, 5728, 5115, 6073, 5743, 7001, 4972, 6825,
...
       5976, 8714, 8395, 8555, 7965, 7109, 8090, 7852, 5138, 6536, 5629,
       2277, 5191, 5582, 5047, 1749, 1341])]

>>> days
[0 1 2 3 4 5 6]

6. 应用案例：航班乘客变化分析

1. 折线图：分析年度乘客总量变化情况

%matplotlib inline
import matplotlib as mpl
from matplotlib import pyplot as plt
import seaborn as sns
import pandas as pd

import ssl
ssl._create_default_https_context = ssl._create_unverified_context

data = sns.load_dataset("flights")
data.head()
# 年份，月份，乘客数

   year month  passengers
0  1949   Jan         112
1  1949   Feb         118
2  1949   Mar         132
3  1949   Apr         129
4  1949   May         121

months_data = {'month': ['January', 'February', 'March', 'April', 'May', 'June', 'July', 'August',
                         'September', 'October', 'November', 'December'], 'month_int': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]}
months = pd.DataFrame(months_data)
months

        month  month_int
0     January          1
1    February          2
2       March          3
3       April          4
4         May          5
5        June          6
6        July          7
7      August          8
8   September          9
9     October         10
10   November         11
11   December         12

data = pd.merge(data, months, on='month')
data.head(15)

    year     month  passengers  month_int
0   1949   January         112          1
1   1950   January         115          1
2   1951   January         145          1
3   1952   January         171          1
4   1953   January         196          1
5   1954   January         204          1
6   1955   January         242          1
7   1956   January         284          1
8   1957   January         315          1
9   1958   January         340          1
10  1959   January         360          1
11  1960   January         417          1
12  1949  February         118          2
13  1950  February         126          2
14  1951  February         150          2

import numpy as np
x = np.arange(1,13)
for name, group in data.groupby('year'):
#     print(name)
    plt.plot(x, group['passengers'], label=name)
    plt.legend(loc='upper right')
#     print(group[['month_int', 'passengers']])

2. 柱状图：分析乘客在一年中各月份的分布

data_month = pd.merge(data.groupby('month').sum()[
                      ['passengers']], months, on='month').sort_values(by='month_int')
plt.bar(data_month['month_int'], data_month['passengers'])
plt.plot(data_month['month_int'], data_month['passengers'])

7. 应用案例：鸢尾花花型尺寸分析

1. 散点图：萼片（sepal）和花瓣（petal）的大小关系

data = sns.load_dataset('iris')
iris_colors = pd.DataFrame(
    {'species': ['setosa', 'versicolor', 'virginica'], 'colors': ['r', 'g', 'b']})
data_colors = pd.merge(data, iris_colors, on='species')
# data_colors
plt.scatter(data_colors['sepal_length'],
            data_colors['sepal_width'], c=data_colors['colors'])

2. 分类散点子图：不同种类（species）鸢尾花萼片和花瓣的大小关系

data = sns.load_dataset("iris")
data.groupby('species').sum()
# 萼片长度，萼片宽度，花瓣长度，花瓣宽度，种类

            sepal_length  sepal_width  petal_length  petal_width
species
setosa             250.3        171.4          73.1         12.3
versicolor         296.8        138.5         213.0         66.3
virginica          329.4        148.7         277.6        101.3

还可以探索柱状图或者箱式图：不同种类鸢尾花萼片和花瓣大小的分布情况；

8. 应用案例：餐厅小费情况分析

散点图：小费和总消费之间的关系；
分类箱式图：男性顾客和女性顾客，谁更慷慨；
分类箱式图：抽烟与否是否会对小费金额产生影响；
分类箱式图：工作日和周末，什么时候顾客给的小费更慷慨；
分类箱式图：午饭和晚饭，哪一顿顾客更愿意给小费；
分类箱式图：就餐人数是否会对慷慨度产生影响；
分组柱状图：性别 + 抽烟的组合因素对慷慨度的影响；

data = sns.load_dataset("tips")
data.head()
# 总消费，小费，性别，吸烟与否，就餐星期，就餐时间，就餐人数

   total_bill   tip     sex smoker  day    time  size
0       16.99  1.01  Female     No  Sun  Dinner     2
1       10.34  1.66    Male     No  Sun  Dinner     3
2       21.01  3.50    Male     No  Sun  Dinner     3
3       23.68  3.31    Male     No  Sun  Dinner     2
4       24.59  3.61  Female     No  Sun  Dinner     4

9. 应用案例：泰坦尼克号海难幸存状况分析

堆积柱状图：不同仓位等级中幸存和遇难的乘客比例；
堆积柱状图：不同性别的幸存比例；
分类箱式图：幸存和遇难乘客的票价分布；
分类箱式图：幸存和遇难乘客的年龄分布
分组柱状图：不同上船港口的乘客仓位等级分布；
分类箱式图：幸存和遇难乘客堂兄弟姐妹的数量分布；
分类箱式图：幸存和遇难乘客父母子女的数量分布；
堆积柱状图或者分组柱状图：单独乘船与否和幸存之间有没有联系；

data = sns.load_dataset("titanic")
data.head()
# 幸存与否，仓位等级，性别，年龄，堂兄弟姐妹数，父母子女数，票价，上船港口缩写，仓位等级，人员分类，是否成年男性，所在甲板，上船港口，是否幸存，是否单独乘船

   survived  pclass     sex   age  sibsp  parch     fare  ...  class    who adult_male  deck  embark_town alive  alone
0         0       3    male  22.0      1      0   7.2500  ...  Third    man       True   NaN  Southampton    no  False
1         1       1  female  38.0      1      0  71.2833  ...  First  woman      False     C    Cherbourg   yes  False
2         1       3  female  26.0      0      0   7.9250  ...  Third  woman      False   NaN  Southampton   yes   True
3         1       1  female  35.0      1      0  53.1000  ...  First  woman      False     C  Southampton   yes  False
4         0       3    male  35.0      0      0   8.0500  ...  Third    man       True   NaN  Southampton    no   True

上一篇：「Python 机器学习」Pandas 数据分析
专栏：《Python 基础》 | 《机器学习》

PS：欢迎各路道友阅读与评论，感谢道友点赞、关注、收藏！

你可能感兴趣的:(《机器学习》,《Python,基础》,python,机器学习,matplotlib,数据挖掘)

Linux驱动开发实战之SRIO驱动（一） niuTaylor linux 驱动开发 c语言开发语言
活动发起人@小虚竹想对你说：这是一个以写作博客为目的的创作活动，旨在鼓励大学生博主们挖掘自己的创作潜能，展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴，那么，快来参加吧！我们一起发掘写作的魅力，书写出属于我们的故事。我们诚挚邀请你参加为期14天的创作挑战赛！提醒：在发布作品前，请将不需要的内容删除。LinuxSRIO驱动开发终极指南：从基础到实战一、SRIO协议基础SRI
Go-- Hello World 实例 zhangfang68 golang 开发语言后端
Go语言的基础组成有以下几个部分：包声明引入包函数变量语句&表达式注释接下来让我们来看下简单的代码，该代码输出了"HelloWorld!":实例packagemainimport"fmt"funcmain(){/*这是我的第一个简单的程序*/fmt.Println("Hello,World!")}让我们来看下以上程序的各个部分：第一行代码packagemain定义了包名。你必须在源文件中非注释的第
从零开始：使用原生JS打造简易飞机大战游戏西域情歌
本文还有配套的精品资源，点击获取简介：在本教程中，我们将探讨如何利用原生JavaScript的特性，包括事件处理、DOM操作、定时器和音频处理，来构建一个基础的“飞机大战”游戏。该游戏的核心元素包括玩家飞机、敌机、子弹和碰撞检测，它们通过HTML和CSS展现在页面上。通过编写JavaScript脚本，我们实现游戏对象的创建与状态管理，响应用户的键盘和点击事件，更新游戏内容，并通过定时器维护游戏循环
python做飞机大战让敌机打子弹_python（pygame）滑稽大战(类似飞机大战) 教程青云若水
初始准备工作本项目使用的python3版本(如果你用python2，我不知会怎么样)Ide推荐大家选择pycharm(不同ide应该没影响)需要安装第三方库pygame，pygame安装方法(windows电脑，mac系统本人实测与pygame不兼容，强行运行本项目卡成ppt)电脑打开cmd命令窗口，输入pip3installpygame补充说明:由于众所周知的原因，安装过程中下载可能十分缓慢，甚
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
python之连连看游戏 CrMylive. python 游戏 pygame
实现一个简单的连连看游戏需要用到pygame库和一些基本的数据结构和算法。导入pygame库在程序开始之前，首先需要导入pygame库。在Python中，可以使用以下代码导入pygame库：importpygame初始化Pygame在导入pygame库之后，需要使用以下代码初始化pygame：pygame.init()设置游戏窗口设置游戏窗口的大小、标题等属性。可以使用以下代码设置游戏窗口大小为6
【USTC 计算机网络】第二章：应用层 - TCP & UDP 套接字编程柃歌计算机网络计算机网络 tcp/ip udp websocket 网络协议
本文详细介绍了TCP与UDP套接字编程，并在Windows下使用C++实现套接字编程，对代码做了十分精细的讲解，这部分内容非常重要，是计算机网络学到目前为止第一次编程，也是网络编程开发中最基础的一个部分，必须彻底掌握。1.Windows使用C++实现TCPSocket在Windows下进行套接字编程需要遵循如下步骤：初始化Winsock库：使用WSAStartup初始化Winsock库。该函数需要
Python, Java, C ++开发全球热能动态监测APP Geeker-2025 python java c++
开发一个“全球热能动态监测APP”是一个非常有意义的想法，尤其是在能源管理和环境保护领域。以下是开发该APP的详细思路和技术实现方案，分别针对Python、Java和C++。---###**功能需求分析**1.**全球热能数据展示**：-各国或地区的热能生产、消费和进出口数据。-实时监测热能动态（如发电厂的热能输出、温度变化等）。2.**地图可视化**：-在地图上标注热能发电厂的位置。-使用颜色或
Java基础笔记（小白友好版）代码什么的真不会呀 java 笔记开发语言
Java基础笔记（小白友好版）1.Java简介Java是一种广泛使用的计算机编程语言，由詹姆斯·高斯林（JamesGosling）在1995年创建Java的口号是"一次编写，到处运行"（WriteOnce,RunAnywhere）Java程序需要先编译成字节码（.class文件），然后在Java虚拟机（JVM）上运行主要特点：面向对象：一切皆对象，代码更清晰易懂平台无关性：可以在Windows、M
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
动物识别系统代码python_动物识别系统__代码 weixin_39812065 动物识别系统代码python
1动物识别专家系统动物识别专家系统是流行的专家系统实验模型，它用产生式规则来表示知识，共15条规则、可以识别七种动物，这些规则既少又简单，可以改造他们，也可以加进新的规则，还可以用来识别其他东西的新规则来取代这些规则。动物识别15条规则的中文表示是：规则1：如果：动物有毛发则：该动物是哺乳动物规则2：如果：动物有奶则：该单位是哺乳动物规则3:如果：该动物有羽毛则：该动物是鸟规则4：如果：动物会飞，
动物识别系统代码python_动物识别系统代码 weixin_39862794 动物识别系统代码python
简易动物识别专家系统源代码（调试无错！）#includevoidbirds(){inta;printf("**************************************\n");printf("1.长腿，长脖子，黑色，不会飞。\n");printf("2.不会飞，会游泳，黑色.\n");printf("3.善飞\n");printf("4.无上述特征\n");printf("****
C++ 学习需要多长时间？ c++
学习C++所需的时间因个人的学习目标、基础、学习方法和投入的时间而异。以下是一些大致的时间范围和学习阶段的参考：一、初学者阶段（0-3个月）目标：掌握C++的基本语法、数据类型、控制结构（如循环、条件语句）、函数等基础知识。学习内容：学习变量声明、数据类型（如int、float、char等）。掌握基本的输入输出操作（如cin和cout）。理解并使用循环（for、while）和条件语句（if、swi
Netty基础—7.Netty实现消息推送服务一东阳马生架构 Netty应用与源码 Netty 消息推送 WebSocket
大纲1.Netty实现HTTP服务器2.Netty实现WebSocket3.Netty实现的消息推送系统(1)基于WebSocket的消息推送系统说明(2)消息推送系统的PushServer(3)消息推送系统的连接管理封装(4)消息推送系统的ping-pong探测(5)消息推送系统的全连接推送(6)消息推送系统的HTTP响应和握手(7)消息推送系统的运营客户端(8)运营客户端连接PushServe
Python深浅拷贝 Karl_zhujt Python python
文章目录1概述2数据类型2.1可变类型2.2不可变类型3深浅拷贝3.1浅拷贝3.2深拷贝4深浅拷贝对数据类型的影响4.1对于不可变类型的影响4.2对于可变类型的影响4.3总结5实现机制5.1copy5.2id6示例6.1普通赋值6.2浅拷贝可变类型6.3浅拷贝不可变类型6.4深拷贝可变类型6.5深拷贝不可变类型7注意事项1概述在Python中，可变类型和不可变类型的拷贝行为有所不同。理解它们的区别
spring5-介绍Spring框架 m0_74824845 面试学习路线阿里巴巴 spring java 后端
Spring框架是一个Java平台，它为开发Java应用程序提供全面的基础架构支持。Spring负责基础架构，因此您可以专注于应用程序的开发。Spring可以让您从“plainoldJavaobjects”（POJO）中构建应用程序和通过非侵入性的POJO实现企业应用服务。此功能适用于JavaSE的编程模型，全部的或部分的适应JavaEE模型。2.1依赖注入和控制反转Java应用程序-这是一个宽松
基于 EMA12 指标结合 iTick 外汇报价 API 、股票报价API、指数报价API的量化策略编写与回测
iTick提供了强大的外汇报价API、股票报价API和指数报价API服务，为量化策略的开发提供了丰富的数据支持。本文将详细介绍如何使用Python结合EMA12指标和iTick的报价API来构建一个简单的量化交易策略，并对该策略进行回测。1.引言在量化交易领域，技术指标是构建交易策略的重要基础。iTick提供了强大的外汇报价API、股票报价API和指数报价API服务，为量化策略的开发提供了丰富的数
Node.js 定时任务详解：从基础到高级调度策略红衣大叔 nodejs帮助文档 javascript 交互
在Node.js中处理定时任务有多种方式，可以根据任务的需求选择不同的实现方法。以下是一些常见的用于执行定时任务的技术和库，以及它们的使用场景和示例代码。1.使用setTimeout和setInterval这是最基本的定时任务实现方式，适用于简单的、不需要持久化或复杂调度的任务。示例：使用setTimeout//在5秒后执行一次任务setTimeout(()=>{console.log('This
python动物识别系统(仅有识别功能) OnlySecondS
''@Time:2022/03/298:39@Author:11863@File:AIS_main.py@software:PyCharm'''rules={}#以字典形式存储#读取文件defreadRules():rulesFile=open("rules.txt","r",encoding='utf-8')forlineinrulesFile:#按行读取line=line.replace('I
JAVA网络通信 MeyrlNotFound java 开发语言
IP地址与InetAddress类在Java网络通信中，IP地址是设备在网络中的唯一标识，而InetAddress类则是Java对IP地址的高层表示，它封装了IP地址和域名的相关信息，并提供了一系列方法来获取和操作这些信息。以下是对IP地址与InetAddress类的详细解析：一、IP地址基础•定义：IP（InternetProtocol）地址是分配给上网设备的唯一标志，用于指明因特网上的一台计算
深度优先搜索和广度优先搜索详细解析和区别潇杨爱吃粉深度优先宽度优先算法数据结构
一、深度优先搜索（DFS）1.核心思想像探险家走迷宫，遇到岔路就选一条路走到头，无路可走时返回上一个岔路口换另一条路。2.实现方式数据结构：栈（Stack，先进后出）或递归（隐式栈）遍历顺序：纵向深入，优先访问最深层的节点3.图解示例假设有以下树结构：A/\BC/\/DEFDFS遍历顺序（从根节点A出发）：A→B→D→E→C→F4.代码实现（Python）defdfs(graph,start):s
DeepSeek 模型未来怎么走？技术创新、行业落地全解析！网罗开发 AI 大模型人工智能人工智能职场和发展
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
网络编程、URI和URL的区别、TCP/IP协议、IP和端口、URLConnection 述雾学java Java核心基础 tcp/ip java java基础网络编程
DAY12.1Java核心基础网络编程在互联网时代，网络在生活中处处可见，javaWeb占据了很大一部分那如何实现javaWeb编程呢？Web编程就是运行在同一个网络下面的终端，使得它们之间可以进行数据传输计算机网络基本知识计算机网络是通过硬件设施，传输媒介把不同物理地址上的计算机网络进行连接，形成一个资源共享和数据传输的网络系统两台终端进行连接需要遵守规定的网络协议语法：数据信息的结构语义：描述
Python-modbustcp通信-plc读写张凯的工作室 python python
Python-modbustcp通信-plc读写1，功能码说明读取：%m对应READ_COILS线圈寄存器数值0和1%mw存单字节%mf浮点数%md双字节对应READ_HOLDING_REGISTERS保持寄存器写入单个写入线圈寄存器WRITE_SINGLE_COIL%m单个写入保持寄存器WRITE_SINGLE_REGISTER写入多个保持寄存器WRITE_MULTIPLE_REGISTERS写
PyCharm v2024.3.5 强大的Python IDE工具支持M、Intel芯片 2401_89264762 python ide pycharm
PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具，比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外，该IDE提供了一些高级功能，以用于支持Django框架下的专业Web开发。应用介绍PyCharm是由JetBrains打造的一款PythonIDE，VS2010的重构插件Resharper就是出自
npm 命令使用文档喆星时瑜安装部署前端 npm 前端 node.js
目录简介安装与配置基础命令依赖管理版本控制脚本管理包发布高级命令配置管理最佳实践常见问题1.简介npm(NodePackageManager)是Node.js的官方包管理工具，提供：130万+开源包的注册表访问依赖解析与版本管理项目脚本自动化私有包管理能力完整的包生命周期管理2.安装与配置2.1安装Node.js#通过官方安装包https://nodejs.org#验证安装node-vnpm-v2
免费界面库 python_一个非常简单好用的Python图形界面库(PysimpleGUI) 不妧免费界面库 python
前一阵，我在为朋友编写一个源代码监控程序的时候，发现了一个Python领域非常简单好用的图形界面库。说起图形界面库，你可能会想到TkInter、PyQt、PyGUI等流行的图形界面库，我也曾经尝试使用，一个很直观的感受就是，这太难用了。就去网上搜搜，看看有没有一些demo，拿来改改，结果很少有，当时我就放弃了这些图形库的学习，转而使用了vue+flask的形式以浏览器网页作为程序界面，因为我会这个
PySimpleGUI模块用法的示例(从入门到进阶) 赵阿萌 java 前端服务器 linux javascript
入门版下面是几个全面展示PySimpleGUI模块用法的示例，并附有详细的代码注释，帮助你更好地掌握该模块的使用。示例1：简单的输入输出界面这是一个基础的GUI示例，展示了如何使用文本输入框、按钮和文本输出框。登录后复制importPySimpleGUIassg#定义布局layout=[[sg.Text("请输入您的名字：")],#标签组件[sg.InputText(key="-NAME-")],
Python 网络爬虫：从入门到实践一ge科研小菜菜编程语言 Python python
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注网络爬虫是一种自动化的程序，用于从互联网上抓取数据。Python以其强大的库和简单的语法，是开发网络爬虫的绝佳选择。本文将详细介绍Python网络爬虫的基本原理、开发工具、常用框架以及实践案例。一、网络爬虫的基本原理网络爬虫的工作流程通常包括以下步骤：发送请求：向目标网站发送HTTP请求，获取网页内容。解析内容：提取需要的数据，可以是HTML标签
PySimpleGUI 4.60.5 孔帆贝
PySimpleGUI4.60.5【下载地址】PySimpleGUI4.60.5**PySimpleGUI**是一款专为简化PythonGUI（图形用户界面）编程而生的库。该库设计宗旨在于通过提供简洁、易懂的API接口，使开发者能够以更快的速度和更少的代码量创建出美观实用的应用程序。对于无论是GUI编程新手还是寻求快速开发工具的老手来说，PySimpleGUI都是一个极具吸引力的选择。其通过封装了
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p