Bigdataxy

【EDA与特征工程】数据探索与特征工程综合指南

文章目录

前言
一、探索性数据分析(EDA)
- 1.变量识别
- 2.单变量分析
- 3.双变量分析
二、特征工程
- 1.缺失值处理
- - 1.为什么需要处理缺失值
  - 2.为什么数据存在缺失值
  - 3.处理缺失值的方法有哪些？
- 2.异常值检测与处理技术
- - 1.什么是异常值？
  - 2.异常值有哪些类型？
  - 3.什么导致异常值？
  - 4.异常值对数据集有什么影响？
  - 5.如何检测异常值？
  - 6.如何去除异常值？
- 3.变量转换
- - 1.什么是变量转换？
  - 2.什么时候应该使用变量转换？
  - 3.变量变换的常用方法有哪些？
- 4.特征/变量构造
- - 1.什么是特征/变量构造及其好处？
总结

前言

本综合指南主要参考《A Comprehensive Guide to Data Exploration》进行编写，用作日常学习。原文中将缺失值插补与异常值处理两大块作为数据探索部分，通过查阅资料及结合数据分析经验，本文将变量识别、单变量分析、双变量分析划为探索性数据分析(EDA) 部分，将缺失值插补、异常值处理、变量转化、特征/变量构造、特征筛选及降维划为特征工程部分。

一、探索性数据分析(EDA)

对于数据挖掘相关任务，数据输入的质量决定了输出的质量。数据探索、清理和准备可能占用总项目时间的70%。在这里花费大量时间和精力是有意义的。
EDA主要包括如下三个部分：变量识别、单变量分析、双变量分析。

1.变量识别

首先，确定预测变量（输入）和目标变量（输出）。接下来，确定变量的数据类型和类别。

示例：- 假设，我们想要预测，学生是否会打板球（参考下面的数据集）。在这里，您需要识别预测变量、目标变量、变量的数据类型和变量的类别。

下面，变量已定义在不同的类别中：

2.单变量分析

执行单变量分析的方法取决于变量类型是分类类型还是连续类型。下面是分类变量和连续变量的方法和统计度量：

连续变量：在连续变量的情况下，需要了解变量的集中趋势和扩散。可通过各种统计指标可视化方法测量，如下所示：

分类变量：对于分类变量，将使用频率表来了解每个类别的分布。还可以读取每个类别下值的百分比。可以使用两个指标来衡量它，即针对每个类别的计数和计数百分比。条形图可用作可视化效果。

注意：单变量分析还用于突出显示缺失值和异常值。

3.双变量分析

双变量分析是找出两个变量之间的关系。在预定义的显著性水平上寻找变量之间的关联和分离。我们可以对分类变量和连续变量的任意组合进行双变量分析。组合可以是：分类和分类，分类和连续以及连续和连续。在分析过程中，使用不同的方法来处理这些组合。

连续和连续：在两个连续变量之间进行双变量分析时，应该查看散点图。这是找出两个变量之间关系的好方法。散点图的模式指示变量之间的关系。关系可以是线性的，也可以是非线性的。

散点图显示两个变量之间的关系，但不指示它们之间的关系强度。为了找到关系的强度，我们使用相关性。相关性在 -1 和 +1 之间变化。

相关性公式推导，查看博客协方差，协方差矩阵理论(机器学习)

分类和分类：要找到两个分类变量之间的关系，可以使用以下方法：
- 双向表：可以通过创建计数和计数的双向表来开始分析关系。行表示一个变量的类别，列表示另一个变量的类别。我们显示了行和列类别的每个组合中可用的观测值的计数或计数百分比。
- 堆积柱形图：这种方法更像是双向表的视觉形式。
- 卡方检验：该检验用于推导变量之间关系的统计显著性。此外，它还测试样本中的证据是否足够强大，可以概括更大人群的关系。卡方基于双向表中一个或多个类别中预期频率和观测频率之间的差异。它返回计算的卡方分布的概率和自由度。
分类和连续：在探索分类变量和连续变量之间的关系时，可以为每个级别的分类变量绘制箱形图。如果水平数量较少，则不会显示统计显著性。要查看统计显著性，我们可以执行 Z 检验、T 检验或方差分析。
- Z 检验/ T 检验：-任一检验均值评估两组的均值在统计上是否彼此不同。
  如果 Z 的概率很小，则两个平均值的差值更显著。T 检验与 Z 检验非常相似，但在两个类别的观测值数都小于 30 时使用。
方差分析：- 它评估两个以上组的平均值在统计上是否不同。
例：假设，我们要测试五种不同练习的效果。为此，我们招募了20名男性，并为4名男性（5组）分配了一种类型的锻炼。几周后记录它们的体重。我们需要找出这些练习对它们的影响是否显着不同。这可以通过比较 5 组每组 4 名男性的体重来完成。

二、特征工程

什么是特征工程：特征工程是从现有数据中提取更多信息的科学，对于原始数据集，没有添加任何新数据，但实际上是使原有的数据更有用。
特征工程的过程是什么： 本文将特征工程主要分为五步：
- 缺失值处理
- 异常值处理
- 变量转换
- 变量/特征构造
- 特性筛选及降维

1.缺失值处理

1.为什么需要处理缺失值

训练数据集中缺少数据会降低模型的拟合度，或者可能导致模型有偏差，因为我们没有正确分析行为和与其他变量的关系。它可能导致错误的预测或分类。

请注意上图中的缺失值：在左侧场景中，我们尚未处理缺失值。从这个数据集中推断，男性打板球的机会高于女性。另一方面，如果您查看第二个表格，该表显示了处理缺失值（基于性别）后的数据，我们可以看到与男性相比，女性打板球的机会更高。

2.为什么数据存在缺失值

前文以及论述处理数据集中缺失值的重要性，接下来分析出现缺失值的原因。主要发生在两个阶段：

数据提取：提取过程可能存在问题。在这种情况下，我们应该与数据监护人仔细检查数据是否正确。
数据收集：这些错误发生在数据收集时，往往较难纠正。它们可以分为四种类型：
- 完全随机丢失：当所有观测值的缺失变量概率相同时，会出现这种情况。例如，收集数据时，采访者有50%的概率不透露收入。
- 随机失踪：这是随机缺少变量并且缺失比率因其他输入变量的不同值/水平而异的情况。例如：我们正在收集年龄数据，与男性相比，女性的缺失值更高。
- 缺少它取决于未观察到的预测因子：当缺失值不是随机的并且与未观察到的输入变量相关时，会出现这种情况。例如：在医学研究中，如果特定的诊断引起不适，那么退出研究的可能性就会更高。这个缺失值不是随机的，除非我们将“不适”作为所有患者的输入变量。
- 缺少取决于缺失值本身：在这种情况下，缺失值的概率与缺失值本身直接相关。例如：收入较高或较低的人可能会对他们的收入做出无反应。

3.处理缺失值的方法有哪些？

删除：它有两种类型：成列删除和成对删除。
- 在成列删除中，删除缺少任何变量的观察结果。简单性是此方法的主要优点之一，但此方法会降低模型的功效，因为它减少了样本量。
- 在成对删除中，我们对存在感兴趣变量的所有情况进行分析。这种方法的优点是，它可以保留尽可能多的案例可供分析。这种方法的缺点之一是它对不同的变量使用不同的样本量。
- 当缺失数据的性质为“完全随机缺失”时，使用删除方法，否则非随机缺失值可能会使模型输出产生偏差。
均值/众数/中位数插补:插补是一种用估计值填充缺失值的方法。目标是使用可以在数据集的有效值中识别的已知关系来帮助估计缺失值。均值/众数/中位数插补是最常用的方法之一。它包括用该变量的所有已知值的平均值或中位数（定量属性）或模式（定性属性）替换给定属性的缺失数据。它可以有两种类型：
- 广义插补：在这种情况下，我们计算该变量的所有非缺失值的平均值或中位数，然后将缺失值替换为平均值或中位数。如上表所示，变量“Manpower”缺失，因此我们取“Manpower”（28.33）的所有非缺失值的平均值，然后用它替换缺失值。
- 类似案例归因：在这种情况下，我们分别计算非缺失值的性别“男性”（29.75）和“女性”（25）的平均值，然后根据性别替换缺失值。对于“男性”，我们将用 29.75 替换缺失的人力值，将“女性”替换为 25。
预测模型：预测模型是处理缺失数据的复杂方法之一。在这里，创建了一个预测模型来估计将替代缺失数据的值。将数据集分为两组：一组没有变量缺失值，另一组有缺失值。第一个数据集成为模型的训练数据集，第二个具有缺失值的数据集是测试数据集，具有缺失值的变量被视为目标变量。之后创建一个模型来根据训练数据集的其他属性预测目标变量，并填充测试数据集的缺失值。可以使用回归、方差分析、逻辑回归和各种建模技术来执行此操作。这种方法有两个缺点：
- 模型估计值通常比真实值表现更好。
- 如果数据集中的属性与缺失值的属性没有关系，那么模型估计缺失值将不准确。
KNN 插补：在这种插补方法中，使用与缺失值的属性最相似的给定数量的属性来插补属性的缺失值。使用距离函数确定两个属性的相似性。它也有一定的优势和劣势。
- 好处：
  - k-最近邻可以预测定性和定量属性
  - 不需要为每个缺少数据的属性创建预测模型
  - 可以轻松处理具有多个缺失值的属性
  - 考虑了数据的相关结构
- 坏处：
  - KNN 算法在分析大型数据库时非常耗时。它搜索所有数据集以寻找最相似的实例。
  - k 值的选择非常关键。较高的 k 值将包括与我们需要的显着不同的属性，而较低的 k 值意味着丢失重要属性。

在处理完缺失值之后，接下来的任务就是处理异常值。

2.异常值检测与处理技术

1.什么是异常值？

离群值是一种观察结果，它看起来很远并且偏离了样本中的整体模式。举个例子，做客户画像时，发现客户的平均年收入是80万美元。但是，有两个客户的年收入分别为 4 美元和 420 万美元。这两个客户的年收入与其他人群差距明显。这两个观察结果将被视为异常值。

2.异常值有哪些类型？

异常值可以有两种类型： 单变量和多变量。上文讨论了单变量离群值的例子。当查看单个变量的分布时，可以找到这些异常值。多变量异常值是 n 维空间中的异常值。为了找到它们，必须查看多维分布。

举个例子，假设我们正在理解身高和体重之间的关系。下面，有身高、体重的单变量和双变量分布。看看箱线图。我们没有任何异常值（高于和低于 1.5*IQR，最常用的方法）。现在看看散点图，在这里，有两个低于和一个高于特定体重和身高分布的异常点。

3.什么导致异常值？

每当我们遇到异常值时，解决它们的理想方法是找出产生这些异常值的原因。处理它们的方法将取决于它们发生的原因。异常值的原因可分为两大类：

人工（错误）/非自然
自然
- 数据输入错误： 人为错误，例如在数据收集、记录或输入过程中引起的错误，可能会导致数据出现异常值。例如：客户的年收入为 100,000 美元。不小心，数据输入操作员在图中多加了一个零。现在收入变成 1,000,000 美元，增加了 10 倍。显然，与其他人群相比，这将是异常值。
- 测量误差： 这是异常值的最常见来源。这是由于使用的测量仪器出现故障造成的。例如：有 10 台称重机。其中9条正确，1条错误。故障机器上的人测量的体重将高于/低于组中其他人。在有故障的机器上测量的重量可能会导致异常值。
- 实验误差： 异常值的另一个原因是实验误差。例如：在 7 名跑步者的 100 米短跑中，一名跑步者错过了专注于“开始”的呼叫，导致他迟到了。因此，这导致跑步者的跑步时间比其他跑步者多。他的总运行时间可能是一个异常值。
- 故意离群值： 这常见于涉及敏感数据的自我报告措施中。例如：青少年通常会少报他们的饮酒量。他们中只有一小部分会报告实际价值。这里的实际值可能看起来像异常值，因为其余的青少年都在报告消耗量。
- 数据处理错误： 每当我们进行数据挖掘时，我们都会从多个来源提取数据。一些操作或提取错误可能会导致数据集中出现异常值。
- 抽样误差： 比如我们要测量运动员的身高。我们错误地在样本中包含了一些篮球运动员。这种包含很可能会导致数据集中出现异常值。
- 自然误差： 当异常值不是人为的（由于错误）时，它就是自然异常值。

4.异常值对数据集有什么影响？

异常值可以极大地改变数据分析和统计建模的结果。数据集中的异常值有许多不利影响：

它增加了误差方差并降低了统计检验的功效
如果异常值是非随机分布的，它们会降低正态性
他们可能会产生偏差或影响可能具有实质性意义的估计
它们还会影响回归、方差分析和其他统计模型假设的基本假设。

为了深入了解影响，让我们举个例子来检查数据集中有和没有异常值的数据集会发生什么。

例子：

具有异常值的数据集具有显著不同的均值和标准差。在第一种情况下，我们会说平均值是 5.45。但有了异常值，平均值飙升至 30。这将完全改变估计。

5.如何检测异常值？

最常用的检测异常值的方法是可视化。我们使用了各种可视化方法，如Box-plot、Histogram、Scatter Plot（上面，我们使用了 box plot 和 scatter plot 进行可视化）。一些分析师还使用各种经验法则来检测异常值。他们之中有一些是：

超出 -1.5 x IQR 至 1.5 x IQR 范围的任何值
使用封顶方法。任何超出第 5 个和第 95 个百分位数范围的值都可以被视为异常值
数据点，偏离平均值三个或更多标准偏差被认为是离群值
离群值检测只是对有影响的数据点进行数据检查的特例，它还取决于业务理解
双变量和多变量异常值通常使用影响指数或杠杆指数或距离来衡量。Mahalanobis 距离和 Cook’s D 等热门指标经常用于检测异常值。这里推荐一个多变量异常值检测工具包PyOD，之后会专门写一篇文章介绍该工具包。

6.如何去除异常值？

大多数处理异常值的方法类似于缺失值的方法，如删除观察值、转换它们、分箱、将它们视为一个单独的组、插补值等统计方法。在这里，我们将讨论用于处理异常值的常用技术：

删除观察值：如果由于数据输入错误、数据处理错误或异常值数量非常小，可以删除离群值。还可以在两端使用修剪来去除异常值。
转换和装箱值：转换变量也可以消除异常值。值的自然对数减少了由极值引起的变化。分箱也是变量变换的一种形式。对变量进行分箱，决策树算法可以很好地处理异常值。还可以使用为不同的观察值分配权重。
插补： 与缺失值插补一样，也可以使用均值、中值、众数等方法插补异常值。在估算值之前，应该分析它是自然异常值还是人为异常值。如果它是人为的，可以使用估算值。除上述方法，还可以使用统计模型来预测异常值的观察值，然后用预测值来估算它。
分开处理： 如果有大量异常值，我们应该在统计模型中分开处理。一种方法是将两个组视为两个不同的组，并为两个组构建单独的模型，然后组合输出。

3.变量转换

1.什么是变量转换？

在数据建模中，转换是指用函数替换变量。例如，用平方根/立方根或对数 x 替换变量 x 是一种转换。换句话说，转换是改变变量与其他变量的分布或关系的过程。

2.什么时候应该使用变量转换？

以下是需要进行变量转换的情况：

当我们想要更改变量的比例或标准化变量的值以便更好地理解时。如果有不同比例的数据，则此转换是必须的，但此转换不会改变变量分布的形状
当我们可以将复杂的非线性关系转化为线性关系时。与非线性或曲线关系相比，变量之间存在线性关系更容易理解。变换帮助我们将非线性关系转化为线性关系。散点图可用于查找两个连续变量之间的关系。这些转换也改进了预测。对数转换是这些情况下常用的转换技术之一。
对称分布优于偏态分布，因为它更容易解释和生成推论。一些建模技术需要变量的正态分布。因此，每当我们有偏斜分布时，我们都可以使用减少偏斜度的变换。对于右偏分布，我们取变量的平方/立方根或对数，对于左偏分布，我们取变量的平方/立方或指数。
变量变换也是从实现的角度（Human involvement）来完成的。让我们更清楚地了解它。在关于员工绩效的项目之一中，年龄与员工绩效直接相关，即年龄越大，绩效越好。从实施的角度来看，启动基于年龄的计划可能会带来实施挑战。然而，将销售代理分为 30 岁以下、30-45 岁和 45 岁以上三个年龄组，然后为每个组制定三种不同的策略是一种明智的方法。这种分类技术称为变量分箱。

3.变量变换的常用方法有哪些？

有多种方法可用于转换变量。正如上文讨论的，其中一些包括平方根、立方根、对数、合并、倒数等等。让我们通过强调这些转换方法的优缺点来详细了解这些方法。

对数：变量的对数是一种常用的变换方法，用于改变变量在分布图上的分布形状。一般用于减小变量的右偏度。但是，它也不能应用于零值或负值。
平方根/立方根：变量的平方根和立方根对变量分布有很好的影响。但是，它不如对数变换那么重要。立方根有它自己的优势。它可以应用于包括零在内的负值。平方根可以应用于包括零在内的正值。
Binning：用于对变量进行分类。它是根据原始值、百分位数或频率执行的。分类技术的决策基于业务理解。例如，我们可以将收入分为三类，即：高收入、平均收入和低收入。我们还可以根据多个变量的值执行协变量分箱。

4.特征/变量构造

1.什么是特征/变量构造及其好处？

特征/变量构造是基于现有变量生成新变量/特征的过程。例如，我们将 date(dd-mm-yy) 作为数据集中的输入变量。我们可以生成新的变量，如日、月、年、周、工作日，这些变量可能与目标变量有更好的关系。此步骤用于突出显示变量中的隐藏关系：

有多种技术可以创建新特征。让我们看看一些常用的方法：

构造派生变量：这是指使用一组函数或不同的方法从现有变量创建新变量。我们通过“泰坦尼克号-Kaggle竞赛”来看。在这个数据集中，变量 age 有缺失值。为了预测缺失值，使用姓名的称呼（Master、Mr、Miss、Mrs）作为新变量。如何决定创建哪个变量？老实说，这取决于分析师对业务的理解、他的好奇心以及他可能对问题的假设集。变量取对数、变量分箱等变量变换方法也可用于创建新变量。
构造虚拟变量：虚拟变量最常见的应用之一是将分类变量转换为数值变量。虚拟变量也称为指示变量。在统计模型中将分类变量作为预测变量很有用。分类变量可以取值 0 和 1。让我们取一个变量“性别”。我们可以生成两个变量，即“ Var_Male ”，值为 1（男性）和 0（无男性），“ Var_Female ”，值为 1（女性）和 0（无女性）。我们还可以为具有 n 或 n-1 个虚拟变量的两类以上的分类变量创建虚拟变量。

总结

在数据探索及特征工程上投入的质量和努力可以觉得模型的好坏，在提出改进的模型之前，我们需要多次迭代特征工程。

后续数据探索和特征工程的相关内容，会分别更新在《数据探索》与《特征工程》两个专栏，本文特征工程的第四部分“构造虚拟变量”及第五部分“特征筛选及降维”有单独文章进行论述，特性筛选及降维。

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
苦练Python第5天：字符串从入门到格式化 python后端人工智能前端
苦练Python第5天：字符串从入门到格式化原文链接：https://dev.to/therahul_gupta/day-5100-working-with-strings-basics-to-formatting-2kkn作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本