机器未来

【Python数据科学快速入门系列 | 09】Matplotlib数据关系图表应用总结

这是机器未来的第57篇文章

原文首发地址：https://robotsfutures.blog.csdn.net/article/details/127116651

《Python数据科学快速入门系列》快速导航：

【Python数据科学快速入门系列 | 01】Numpy初窥——基础概念
【Python数据科学快速入门系列 | 02】创建ndarray对象的十多种方法
【Python数据科学快速入门系列 | 03】玩转数据摘取：Numpy的索引与切片
【Python数据科学快速入门系列 | 04】Numpy四则运算、矩阵运算和广播机制的爱恨情仇
【Python数据科学快速入门系列 | 05】常用科学计算函数
【Python数据科学快速入门系列 | 06】Matplotlib数据可视化基础入门（一）
【Python数据科学快速入门系列 | 07】Matplotlib数据可视化基础入门（二）
【Python数据科学快速入门系列 | 08】类别比较图表应用总结

文章目录

《Python数据科学快速入门系列》快速导航：
1. 概述
2. 常用的数据关系图表应用
- 2.1 散点图
- - 2.1.1 单特征与标签的相关性分析
  - 2.1.1 双特征与标签的相关性分析
  - 2.1.3 双特征散点矩阵与标签的相关性分析
- 2.2 散点曲线图
- 2.3 曲线图
3. 总结

写在开始：

博客简介：专注AIoT领域，追逐未来时代的脉搏，记录路途中的技术成长！

博主社区：AIoT机器智能, 欢迎加入！

专栏简介：从0到1掌握数据科学常用库Numpy、Matploblib、Pandas。

面向人群：AI初级学习者

1. 概述

本篇文章总结常用的数据关系图表。

数据关系图表强调2个或以上变量的相关性关系。例如机器学习、深度学习时分析特征与标签的相关性分析。数据关系图表又分为数值关系、层次关系和网络关系三种。

2. 常用的数据关系图表应用

2.1 散点图

散点图也叫 X-Y 图，它将所有的数据以点的形式展现在直角坐标系上，以显示变量之间的相互影响程度，点的位置由变量的数值决定。

通过观察散点图上数据点的分布情况，我们可以推断出变量间的相关性。如果变量之间不存在相互关系，那么在散点图上就会表现为随机分布的离散的点，如果存在某种相关性，那么大部分的数据点就会相对密集并以某种趋势呈现。数据的相关关系主要分为：正相关（两个变量值同时增长）、负相关（一个变量值增加另一个变量值下降）、不相关、线性相关、指数相关等，表现在散点图上的大致分布如下图所示。那些离点集群较远的点我们称为离群点或者异常点。

散点图经常与回归线（就是最准确地贯穿所有点的线）结合使用，归纳分析现有数据以进行预测分析。

对于那些变量之间存在密切关系，但是这些关系又不像数学公式和物理公式那样能够精确表达的，散点图是一种很好的图形工具。但是在分析过程中需要注意，这两个变量之间的相关性并不等同于确定的因果关系，也可能需要考虑其他的影响因素。

在matplotlib中，散点图是通过方法scatter来实现的。

plt.scatter??

A scatter plot of *y* vs. *x* with varying marker size and/or color.

Parameters
----------
x, y : float or array-like, shape (n, )
    The data positions.

s : float or array-like, shape (n, ), optional
    The marker size in points**2.
    Default is ``rcParams['lines.markersize'] ** 2``.

c : array-like or list of colors or color, optional
    The marker colors. Possible values:

    - A scalar or sequence of n numbers to be mapped to colors using
      *cmap* and *norm*.
    - A 2D array in which the rows are RGB or RGBA.
    - A sequence of colors of length n.
    - A single color format string.

    Note that *c* should not be a single numeric RGB or RGBA sequence
    because that is indistinguishable from an array of values to be
    colormapped. If you want to specify the same RGB or RGBA value for
    all points, use a 2D array with a single row.  Otherwise, value-
    matching will have precedence in case of a size matching with *x*
    and *y*.

    If you wish to specify a single color for all points
    prefer the *color* keyword argument.

    Defaults to `None`. In that case the marker color is determined
    by the value of *color*, *facecolor* or *facecolors*. In case
    those are not specified or `None`, the marker color is determined
    by the next color of the ``Axes``' current "shape and fill" color
    cycle. This cycle defaults to :rc:`axes.prop_cycle`.

marker : `~.markers.MarkerStyle`, default: :rc:`scatter.marker`
    The marker style. *marker* can be either an instance of the class
    or the text shorthand for a particular marker.
    See :mod:`matplotlib.markers` for more information about marker
    styles.

cmap : str or `~matplotlib.colors.Colormap`, default: :rc:`image.cmap`
    A `.Colormap` instance or registered colormap name. *cmap* is only
    used if *c* is an array of floats.

norm : `~matplotlib.colors.Normalize`, default: None
    If *c* is an array of floats, *norm* is used to scale the color
    data, *c*, in the range 0 to 1, in order to map into the colormap
    *cmap*.
    If *None*, use the default `.colors.Normalize`.

vmin, vmax : float, default: None
    *vmin* and *vmax* are used in conjunction with the default norm to
    map the color array *c* to the colormap *cmap*. If None, the
    respective min and max of the color array is used.
    It is an error to use *vmin*/*vmax* when *norm* is given.

alpha : float, default: None
    The alpha blending value, between 0 (transparent) and 1 (opaque).

linewidths : float or array-like, default: :rc:`lines.linewidth`
    The linewidth of the marker edges. Note: The default *edgecolors*
    is 'face'. You may want to change this as well.

edgecolors : {'face', 'none', *None*} or color or sequence of color, default: :rc:`scatter.edgecolors`
    The edge color of the marker. Possible values:

    - 'face': The edge color will always be the same as the face color.
    - 'none': No patch boundary will be drawn.
    - A color or sequence of colors.

    For non-filled markers, *edgecolors* is ignored. Instead, the color
    is determined like with 'face', i.e. from *c*, *colors*, or
    *facecolors*.

plotnonfinite : bool, default: False
    Whether to plot points with nonfinite *c* (i.e. ``inf``, ``-inf``
    or ``nan``). If ``True`` the points are drawn with the *bad*
    colormap color (see `.Colormap.set_bad`).

Returns
-------
`~matplotlib.collections.PathCollection`

Other Parameters
----------------
data : indexable object, optional
    If given, the following parameters also accept a string ``s``, which is
    interpreted as ``data[s]`` (unless this raises an exception):

    *x*, *y*, *s*, *linewidths*, *edgecolors*, *c*, *facecolor*, *facecolors*, *color*
**kwargs : `~matplotlib.collections.Collection` properties

See Also
--------
plot : To plot scatter plots when markers are identical in size and
    color.

Notes
-----
* The `.plot` function will be faster for scatterplots where markers
  don't vary in size or color.

* Any or all of *x*, *y*, *s*, and *c* may be masked arrays, in which
  case all masks will be combined and only unmasked points will be
  plotted.

* Fundamentally, scatter works with 1D arrays; *x*, *y*, *s*, and *c*
  may be input as N-D arrays, but within scatter they will be
  flattened. The exception is *c*, which will be flattened only if its
  size matches the size of *x* and *y*.

2.1.1 单特征与标签的相关性分析

首先，先来看一下单个特征与标签的关系，以鸢尾花花萼长度与鸢尾花的分类的相关性分析为例。

"""
    加载鸢尾花数据集
"""
import numpy as np

data = []
column_name = []
with open(file='iris.txt',mode='r') as f:
    # 过滤标题行
    line = f.readline()
    if line:
        column_name = np.array(line.strip().split(','))
        
    while True:
        line = f.readline()
        if line:
            data.append(line.strip().split(','))
        else:
            break

data = np.array(data,dtype=float)

# 使用切片提取前4列数据作为特征数据
X_data = data[:, :4]  # 或者 X_data = data[:, :-1]

# 使用切片提取最后1列数据作为标签数据
y_data = data[:, -1]

data.shape, X_data.shape, y_data.shape

((150, 5), (150, 4), (150,))

from matplotlib import pyplot as plt

plt.rcParams["font.sans-serif"]=["SimHei"] #设置字体
plt.rcParams["axes.unicode_minus"]=False #该语句解决图像中的“-”负号的乱码问题

fig, ax = plt.subplots()
# 花萼长度与鸢尾花分类的相关性分析
ax.scatter(X_data[:,0], y_data, c='blueviolet',marker='.', s=20)
ax.set_xlabel("花萼长度")
ax.set_ylabel("鸢尾花分类")

Text(0, 0.5, '鸢尾花分类')

2.1.1 双特征与标签的相关性分析

从上面的图上来看，可以看到花萼长度和鸢尾花分类之间的相关性不是很直观，有重叠的部分。可以引入双变量，查看双变量与鸢尾花分类之间的相关性。其实散点图只能看两个变量之间的相关性，如何查看3个变量的相关性呢，用了个取巧的方式，将因变量(Y)作为颜色代码填入，其余两个自变量(X)作为x,y的值填入来实现。

看例子：查看一下花萼长度、花萼宽度与鸢尾花分类之间的相关性。

from matplotlib import pyplot as plt

plt.rcParams["font.sans-serif"]=["SimHei"] #设置字体
plt.rcParams["axes.unicode_minus"]=False #该语句解决图像中的“-”负号的乱码问题

fig, ax = plt.subplots()
# 花萼长度与鸢尾花分类的相关性分析
ax.scatter(x=X_data[:,0], y=X_data[:,1], c=y_data, marker='.', s=20)
ax.set_xlabel("花萼长度")
ax.set_ylabel("花萼宽度")

Text(0, 0.5, '花萼宽度')

可以看到通过颜色将3种分类区分开了。除了上面的方式，也可以单独绘制3次不同颜色的点来实现，同时还可以增加图例，但是明显麻烦很多。

from cProfile import label
from matplotlib import pyplot as plt

plt.rcParams["font.sans-serif"]=["SimHei"] #设置字体
plt.rcParams["axes.unicode_minus"]=False #该语句解决图像中的“-”负号的乱码问题

fig, ax = plt.subplots()
# 花萼长度与鸢尾花分类的相关性分析
ax.scatter(x=X_data[:,0][y_data==0], y=X_data[:,1][y_data==0], c="red", marker='.', s=20, label="Setosa")
ax.scatter(x=X_data[:,0][y_data==1], y=X_data[:,1][y_data==1], c="green", marker='.', s=20, label="Versicolor")
ax.scatter(x=X_data[:,0][y_data==2], y=X_data[:,1][y_data==2], c="blueviolet", marker='.', s=20, label="Virginical")

ax.set_xlabel("花萼长度")
ax.set_ylabel("花萼宽度")

ax.legend()

2.1.3 双特征散点矩阵与标签的相关性分析

因为鸢尾花的特征数量其实为4个，那么其实有 $C_{4}^{2}$ 共12种组合，可以通过散点矩阵图来实现可视化展现双变量与标签之间的相关性分析。
斜对角线是核密度曲线，展示不同鸢尾花分类对应不同特征的值的密度分布，其它子图展示两个特征与表现的相关性。

from matplotlib import pyplot as plt
import seaborn as sns

fig, ax = plt.subplots(4,4, figsize=(12, 12))

for i in range(4):
    for j in range(4):
        if i != j:
            ax[i][j].scatter(X_data[:,i], X_data[:,j], c=y_data, cmap='brg', s=10)
        else:
            # 核密度曲线KDE
            # 
            sns.kdeplot(X_data[y_data==0][:,i], ax=ax[i][j], label="Setosa")
            sns.kdeplot(X_data[y_data==1][:,i], ax=ax[i][j], label="Versicolor")
            sns.kdeplot(X_data[y_data==2][:,i], ax=ax[i][j], label="Virginical")

        # 显示横轴自变量名称
        if i==0:
            ax[i][j].set_title(column_name[j])
        # 显示纵轴自变量名称
        if j==0:
            ax[i][j].set_ylabel(column_name[i])

plt.show()

从上面的散点矩阵图可以看到已经有些散点图已经体现出聚类表现了。以上就是散点图的简单应用。

2.2 散点曲线图

在做机器学习线性回归分析的时候，我们通过机器学习训练完模型后，还需要验证模型是否符合数据集，我们可以在散点图上绘制回归线，看模型是否拟合良好。

import numpy as np
from matplotlib import pyplot as plt

mu = 0
sigma = 0.1

x_data = np.linspace(0,2*np.pi, 100)
y_data = np.sin(x_data)

error = 1.2
noise = np.random.normal(loc=mu, scale=sigma, size=len(y_data))*error

y_data_1 = y_data + noise

plt.scatter(x_data, y_data_1, c="blueviolet", marker='.', s=20)
plt.plot(x_data, y_data, c='green')

[]

2.3 曲线图

曲线图可以很直观的展现X-Y之间的相关性。

import numpy as np
from matplotlib import pyplot as plt

mu = 0
sigma = 0.1

x_data = np.linspace(0, 50, 100)
y_data = x_data**2 + x_data + 15
y_data_2 = (-1) * x_data**2 - x_data + 15

plt.plot(x_data, y_data, c='green')
plt.plot(x_data, y_data_2, c='red')
plt.show()

3. 总结

曲线图、散点图、散点矩阵图在机器学习和深度学习中应用到也较多，除了matplotlib可以绘制以外，pandas也带有很多绘图方法，后面进一步讨论。

参考文献：

https://antv-2018.alipay.com/zh-cn/vis/chart/scatter.html

— 博主热门专栏推荐 —

Python零基础快速入门系列
深入浅出i.MX8企业级开发实战系列
MQTT从入门到提高系列
物体检测快速入门系列
自动驾驶模拟器AirSim快速入门
安全利器SELinux入门系列
Python数据科学快速入门系列

YOLOv8 Pose使用RKNN进行推理い不靠譜︶朱Sir 实用项目部署 YOLO 人工智能 python linux pip
关注微信公众号：朱sir的小站，发送202411081即可免费获取源代码下载链接一、简单介绍YOLOv8-Pose是一种基于YOLOv8架构的姿态估计模型，能够识别图像中的关键点位置，这些关键点通常表示人体的关节、特征点或其他显著位置。该模型在COCO关键点数据集上训练，适合多种姿势估计任务。二、ONNX推理1.首先需要先将Pytorch模型转换为Onnx模型，下载pt模型这里给出官方的权重下载地
分布式数据库解析 qcidyu 文章归档数据分片高可用架构云数据库共识算法全球一致性分布式事务 CAP定理
title:分布式数据库解析date:2025/2/20updated:2025/2/20author:cmdragonexcerpt:通过金融交易、社交平台、物联网等9大真实场景，结合GoogleSpanner跨洲事务、DynamoDB毫秒级扩展等38个生产级案例，揭示分布式数据库的核心原理与工程实践。内容涵盖CAP定理的动态权衡策略、Paxos/Raft协议的工程实现差异、TrueTime时钟
PyCharm 集成 DeepSeek：本地运行 or API 直连？打造你的 AI 编程神器！ AI云极【AI智能系列】pycharm 人工智能 ide deepseek
在AI赋能编程的时代，如何让AI辅助写代码，提升开发效率？DeepSeek作为一款开源、强大、免费的AI编程助手，结合PyCharm，能够大幅提升Python编程体验。今天，我们就来详细讲解如何在PyCharm中接入DeepSeek，无论你想使用本地部署的DeepSeek，还是官方API版本，都能轻松实现！为什么选择DeepSeek+PyCharm？DeepSeekR1采用6710亿参数的MoE（
Python3.5源码分析-sys模块及site模块导入小屋子大侠 python Python分析 python源码
Python3源码分析本文环境python3.5.2。参考书籍>python官网Python3的sys模块初始化根据分析完成builtins初始化后，继续分析sys模块的初始化，继续分析_Py_InitializeEx_Private函数的执行，void_Py_InitializeEx_Private(intinstall_sigs,intinstall_importlib){...sysmod=
java竞赛优化输入输出效率 px不是xp 蓝桥准备 java 开发语言
在编程竞赛中，输入输出效率至关重要。Java的`Scanner`和`System.out.println`虽然简单，但在处理大规模数据时会严重拖慢速度。以下是**竞赛专用输入输出模板**及其原理详解，助你轻松应对高频I/O场景。---###⚡竞赛级输入输出模板（Java）importjava.io.*;importjava.util.*;publicclassMain{ publicstatic
快速复制A库表数据前10000行到B库 musk1212 数据库 sql mysql
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录应用场景一、存储过程，快速复制A库表数据前10000行到B库二、使用优化点说明结构优化性能调整错误处理增强安全改进调用示例应用场景表结构可预先存在或不存在mysql5.7快速复制A库表数据前10000行到B库一、存储过程，快速复制A库表数据前10000行到B库/*设置自定义分隔符以处理存储过程中的分号*/DELIMITER$$
OpenLayers总结3 Super毛毛穗 WebGIS开发 OpenLayers GIS WebGIS
一、静态测距1.原理静态测距主要是针对地图上已有的矢量要素（如线要素），利用OpenLayers提供的几何计算函数来获取其长度。在实际操作中，先加载包含几何要素的GeoJSON数据到矢量图层，当鼠标指针移动到要素上时，获取该要素的几何信息，再调用getLength函数计算其长度。2.代码实现步骤及注释//引入必要的模块importVectorLayerfrom"ol/layer/Vector.js
产品架构图怎么画？看这篇就够了！小天才学习机打游戏 caffe 人工智能深度学习 AI编程金融 prompt 机器学习
1.什么是产品架构图?产品是由不同的业务功能单元组成的，功能单元之间又有一定逻辑关系，将这些功能单元和它们的逻辑关系以可视化形式展现出来就是产品架构图，这张图最重要的作用就是在产品规划阶段帮助各方快速建立这个产品画像。立项评审时这个图必不可少，产品最后做出来长么样，大家就对着这张图yy了田所以如何画出一张各方(领导、研发、测试)都看得懂的产品架构图就很考验功力。2.怎么画?产品架构图一般由上至下分
【CUDA】Pytorch_Extensions joker D888 深度学习 pytorch python cuda c++深度学习
【CUDA】Pytorch_Extensions为什么要开发CUDA扩展？当我们在PyTorch中实现自定义算子时，通常有两种选择：使用纯Python实现（简单但效率低）使用C++/CUDA扩展（高效但需要编译）对于计算密集型的操作（如神经网络中的自定义激活函数），使用CUDA扩展可以获得接近硬件极限的性能。本文将以实现一个多项式激活函数x²+x+1为例，展示完整的开发流程。完整CUDA扩展代码解
Labelbox：引领AI与人类协作的未来魏兴雄Milburn
Labelbox：引领AI与人类协作的未来labelbox-pythonLabelboxPythonClient项目地址:https://gitcode.com/gh_mirrors/la/labelbox-python项目介绍Labelbox是一款专为企业和学术研究社区设计的开源工具，旨在简化数据标注、生成高质量的人类反馈数据、评估和提升模型性能，并通过无缝结合AI与人类工作流程来自动化任务。无
探索HeidiSQL：一款强大的数据库管理工具夏庭彭Maxine
探索HeidiSQL：一款强大的数据库管理工具HeidiSQLHeidiSQL:是一个免费且强大的SQL编辑器和数据库管理工具，支持MySQL、PostgreSQL、SQLite等多种数据库。适合数据库管理员和开发者使用HeidiSQL管理数据库和查询数据。项目地址:https://gitcode.com/gh_mirrors/he/HeidiSQL项目介绍HeidiSQL是一款开源的图形化数据库
基于python使用scanpy分析单细胞转录组数据探序基因单细胞分析 python 开发语言
探序基因肿瘤研究院整理相关后缀的格式介绍：.h5ad：是一种用于存储单细胞数据的文件格式，可以通过anndata库在Python中处理.loom：高效的数据存储格式（.loom文件），使得用户可以轻松地存储、查询和分析大规模的单细胞数据集。Loompy的设计目标是提供一个快速、灵活且易于使用的工具，以支持生物信息学家和研究人员在单细胞水平上进行数据分析。python的单细胞转录组数据结构说明：da
GATK3.5GATK4.0与java版本的关系探序基因 java
探序基因肿瘤研究院整理操作系统centosstream9yum安装java后，输入java-version可看到：openjdkversion"11.0.20.1"2023-08-24LTSOpenJDKRuntimeEnvironment(Red_Hat-11.0.20.1.1-2)(build11.0.20.1+1-LTS)OpenJDK64-BitServerVM(Red_Hat-11.0.
位图（BitMap）实现小猫猫猫◍˃ᵕ˂◍ bitmap 算法
位图（BitMap）实现1.位图简介位图（BitMap）是一种高效的数据结构，用于存储和操作位（bit）数据。每个位可以表示一个布尔值（0或1），常用于去重、排序、快速查找等场景。2.核心功能⚙️设置位（Set）：将某一位设置为1。清除位（Clear）：将某一位设置为0。获取位（Get）：检查某一位是否为1。打印位图（Print）：以二进制形式打印位图。3.代码实现packageMyStruct;
TCP 握手数据包分析 inquisiter tcp/ip 网络 linux
一、客户端数据分析：spu@spu:~/code/pcap$tcpdump-rclient_all.pcap-Xreadingfromfileclient_all.pcap,link-typeEN10MB(Ethernet)17:58:56.346748IP192.168.1.178.55814>192.168.1.117.socks:Flags[S],seq2615205588,win64240
本地搭建小型 DeepSeek 并进行微调非著名架构师大模型知识文档智能硬件人工智能大数据大模型 deepseek
本文将指导您在本地搭建一个小型的DeepSeek模型，并进行微调，以处理您的特定数据。1.环境准备Python3.7或更高版本PyTorch1.8或更高版本CUDA(可选，用于GPU加速)Git2.克隆DeepSeek仓库bash复制gitclonehttps://github.com/deepseek-ai/deepseek.gitcddeepseek3.安装依赖bash复制pipinstall
前端导出word文件—包含canvas(echarts图表) Liuer_Qin js canvas echarts echarts 前端 javascript
一、使用的插件html-docx-js二、整体思路因为canvas是运行在内存中的，所以不能简单的通过dom获取canvas图片，需要手动的先将canvas转为image。三、实现先克隆要下载的DOM的副本。因为canvas是运行在内存中的，所以也不能通过cloneNode方法克隆下来（克隆下来是空的）。我们这里将原DOM中的canvas转成图片，然后插入到副本的对应位置，这样操作不会影响原DOM
网络安全常识网络安全Ash web安全网络安全
一、网络安全常识什么是网络安全？网络安全是指网络系统的硬件、软件及其系统中的数据受到保护，不因偶然的或者恶意的原因而遭到破坏、更改、泄露，系统可以连续可靠正常地运行，网络服务不被中断。什么是计算机病毒？计算机病毒（ComputerVirus）是指编制者在计算机程序中插入的破坏计算机功能或者破坏数据，影响计算机使用并且能够自我复制的一组计算机指令或者程序代码。什么是木马？木马是一种带有恶意性质的远程
SQL 注入攻击黄亚磊11 数据库
SQL注入攻击了解吗？攻击者在HTTP请求中注入恶意的SQL代码，服务器使用参数构建数据库SQL命令时，恶意SQL被一起构造，并在数据库中执行。用户登录，输入用户名lianggzone,密码123or1=1,如果此时使用参数构造的方法，就会出现select*fromuserwherename='lianggzone'andpassword='123'or'1'='1';不管用户名和密码是什么内容，
MVCC（多版本并发控制）机制讲解十五001 基础 oracle 数据库 mysql
MVCC（Multi-VersionConcurrencyControl，多版本并发控制）这是一个在数据库管理系统中非常重要的技术，尤其是在处理并发事务时。别担心，我会用简单易懂的方式来讲解，让你轻松掌握它的原理和作用。1.什么是MVCC？定义MVCC是一种数据库技术，用于通过保留数据的多个版本来提高并发性能，同时避免事务之间的冲突。简单来说，它允许数据库在读取和写入操作时，同时存在多个版本的数据
使用Python和OpenCV实现图像像素压缩与解压东方佑量子变法 python opencv 开发语言
在本文中，我们将探讨如何使用Python和OpenCV库来实现一种简单的图像像素压缩算法。我们将详细讨论代码的工作原理，并提供一个具体的示例来演示该过程。1.引言随着数字媒体的普及，图像处理成为了一个重要的领域。无论是为了减少存储空间还是加快网络传输速度，图像压缩技术都扮演着至关重要的角色。这里，我们提出了一种基于像素重复模式的简单压缩算法，它适用于具有大量连续相同像素值的图像。2.技术栈介绍2.
【Python系列】Python 解释器的站点配置 Kwan的解忧杂货铺@新空间代码工作室 s1 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
SQL面试题集：累计值与1000差值最小的记录数星星的阿波罗 Sql能力通关 sql 算法数据库数据仓库大数据数据分析面试
一、题目描述司机累计收入首次接近目标值的订单定位，滴滴平台计划优化司机奖励策略的触发机制，需精准识别司机在接单过程中累计收入首次接近特定目标值1000元的订单节点。该分析用于动态调整奖励发放规则，提升司机接单积极性。样例数据假设表t_sales结构如下：driver_idorder_idincomeorder_time11012002025-02-1909:00:0011023002025-02-
B4158 [BCSP-X 2024 小学高年级组] 质数补全 wwjjjww 算法数据结构
题目描述Alice在纸条上写了一个质数，第二天再看时发现有些地方污损看不清了。在大于1的自然数中，除了1和它本身以外不再有其他因数的自然数称为质数请你帮助Alice补全这个质数，若有多解输出数值最小的，若无解输出−1。例如纸条上的数字为1∗（∗代表看不清的地方），那么这个质数有可能为11,13,17,19，其中最小的为11。输入格式第一行1个整数t，代表有t组数据。接下来t行，每行1个字符串s代表
【自然语言处理|迁移学习-08】：中文语料完型填空爱学习不掉头发深度学习自然语言处理（NLP）自然语言处理迁移学习人工智能
文章目录1中文语料完型填空任务介绍2数据集加载及处理3定义下游任务模型4模型训练5.模型测试1中文语料完型填空任务介绍任务介绍：完成中文语料完型填空完型填空是一个分类问题，[MASK]单词有21128种可能数据构建实现分析：使用迁移学习方式完成使用预训练模型bert模型提取文特征，后面添加全连接层和softmax进行单标签多分类2数据集加载及处理数据介绍：数据文件有三个train.csv，test
2025年2月9日（数据分析_2） Mason Lin Python学习数据分析数据挖掘
散点图frommatplotlibimportpyplotaspltfrommatplotlibimportfont_manager#字体相关#字体font_path=r"C:\Windows\Fonts\msyh.ttc"my_font=font_manager.FontProperties(fname=font_path)x=list(range(31))x2=list(range(31,62
利用Beautiful Soup和Pandas进行网页数据抓取与清洗处理实战傻啦嘿哟 pandas
目录一、准备工作二、抓取网页数据三、数据清洗四、数据处理五、保存数据六、完整代码示例七、总结在数据分析和机器学习的项目中，数据的获取、清洗和处理是非常关键的步骤。今天，我们将通过一个实战案例，演示如何利用Python中的BeautifulSoup库进行网页数据抓取，并使用Pandas库进行数据清洗和处理。这个案例不仅适合初学者，也能帮助有一定经验的朋友快速掌握这两个强大的工具。一、准备工作在开始之
鸢尾花分类项目 GUI 编织幻境的妖分类数据挖掘人工智能
1.机器学习的定义机器学习是一门人工智能的分支，专注于开发算法和统计模型，使计算机能够在没有明确编程的情况下从数据中自动学习和改进。通过识别数据中的模式和规律，机器学习系统可以做出预测或决策。常见的应用包括图像识别、语音识别、推荐系统等。2.为什么使用鸢尾花数据集（Irisdataset）鸢尾花数据集是一个经典的多类分类问题数据集，由英国统计学家和遗传学家RonaldFisher在1936年引入。
Mybatisplus更新某个字段为null 辉夜姬想环游世界日常记录 java spring 开发语言
使用@TableField(updateStrategy=FieldStrategy.IGNORED)注解要更新的字段。@TableField注解是Mybatisplus框架中提供的一个注解，主要用于实体类（Entity）的字段上，帮助开发者更灵活地映射Java对象属性与数据库表字段之间的关系主要功能：1、字段映射：当实体类和数据库字段不一致时，可以是使用value属性指定数据库字段名@Table
python做一个注册界面_python如何做一个登录注册界面 weixin_39824033 python做一个注册界面
python做一个登录注册界面的方法：首先初始化一个window界面，并使用画布实现欢迎的logo；然后用代码实现登录和注册按钮；接着并进行登录判断代码；最后完成注册界面即可。【相关学习推荐：python视频教程】python做一个登录注册界面的方法：一、登录界面1、首先初始化一个window界面window=tk.Tk()window.title('WelcometoMofanPython')w
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23