dzysunshine

特征工程总结与学习

文章目录

1. 机器学习流程
2. 数值型数据

2.1 标量、向量和空间
2.2 处理计数
2.3 对数变换
2.4 特征缩放/归一化
2.5 交互特征
2.6 特征选择

3. 文本数据：扁平化、过滤和分块

3.1 元素袋：将自然文本转换为扁平向量
3.2 使用过滤获取清洁特征

4. 特征缩放的效果：从词袋到tf-idf

4.1 tf-idf：词袋的一种简单扩展

5. 分类变量：自动化时代的数据计数

5.1 分类变量的编码
5.2 处理大型分类变量

6. 数据降维：使用PCA挤压数据

6.1 PCA直观理解
6.2 数学推导

小伙伴介绍了一本精通特征工程的书，觉得很不错，特将其进行学习和整理。

特征：原始数据某个方面的一种表示形式，是数据和模型之间的重要的纽带。
特征工程：是指从原始数据中提取特征并将其转换为适合机器学习模型的格式。

1. 机器学习流程

数据：是对现实世界的现象的观测。
统计中通常对数据有以下几种描述：错误数据，冗余数据及缺失数据。
特征工程就是在给定数据、模型和任务的情况下设计出最合适特征的过程。

2. 数值型数据

尽管数值型数据已经很容易被数学模型所使用了，但并不意味着不需要进行特征工程。好的特征不仅能够表示出数据的主要特点，还应该符合模型的假设，因此通常必须进行数据转换。

对于数值型数据，我们既要查看它的量级，又要查看它的尺度，即最大值和最小值分别是多少。通常K均值聚类、K近邻、径向基核函数及使用欧氏距离的方法对数据的尺度都是比较敏感的，通常需要对数据进行标准化，以便输出控制在期望的范围之内。相反，一些树模型对数据的尺度并不敏感，通常不需要进行标准化。
预测目标分布在多个数量级中的时候，在这种情况下，误差符合高斯分布的假定将不会被满足。一种解决方法是对输出目标进行转换，以消除数量级带来的影响。（严格说来，这应该称为目标工程，而不是特征工程。）对数变换（指数变换的一种特殊形式）可以使变量的分布更加接近于高斯分布。

2.1 标量、向量和空间

标量：单独的数值型特征
向量：标量的有序列表，向量位于向量空间中，在绝大多数机器学习应用中，模型的输入通常表示为数值向量。

2.2 处理计数

当数据被大量且快速地生成时，很有可能包含一些极端值。这时就应该检查数据的尺度，确定是应该保留数据原始的数值形式，还是应该将它们转换成二值数据，或者进行粗粒度的分箱操作。

2.2.1 二值化

假设我们的任务是创建一个向用户推荐歌曲的推荐器，它的一个功能是预测某个用户喜欢
某首歌曲的程度。如果高收听次数意味着用户真的喜欢这首歌，低收听次数意味着用户对这首歌不感兴趣，那么就可以用它作为目标变量。但是，数据表明，尽管 99% 的收听次数是 24 或更低，还是有一些收听次数达到了几千，最大值是 9667。这些值高得离谱，如果我们试图去预测实际的收听次数，模型会被这些异常值严重带偏。

在百万歌曲数据集中，原始的收听次数并不是衡量用户喜好的强壮指标。（在统计学术语中，“强壮”意味着该方法适用于各种情况。）不同的用户有不同的收听习惯，有些人会无限循环地播放他们最喜欢的歌曲，有些人则只是在特定情形下欣赏音乐。我们不能认为收听了某首歌曲 20 次的人喜欢该歌曲的程度肯定是收听了 10 次的人的两倍。更强壮的用户偏好表示方法是将收听次数二值化，把所有大于 1 的次数值设为 1。换言之，如果用户收听了某首歌曲至少一次，那么就认为该用户喜欢该歌曲。这样，模型就不用花费开销来预测原始收听次数之前的时间差别。二值目标变量是一个既简单又强壮的用户偏好衡量指标。

2.2.2 区间量化（分箱）

假设一份数据集是用户对商家的点评数据，每个商家都有一个点评数量。点评数量会是一个非常有用的输入特征，因为人气和高评分之间通常有很强的相关性。实际情况可能是大多数商家的点评数量很少，但有些商家具有几千条点评。

原始的点评数量横跨了若干个数量级，这对很多模型来说都是个问题。数据向量某个元素中过大的计数值对相似度的影响会远超其他元素，从而破坏整体的相似度测量。

一种解决方法是对计数值进行区间量化，然后使用量化后的结果。换言之，我们将点评数量分到多个箱子里面，去掉实际的计数值。区间量化可以将连续型数值映射为离散型数
值，我们可以将这种离散型数值看作一种有序的分箱序列，它表示的是对密度的测量。
为了对数据进行区间量化，必须确定每个分箱的宽度。有两种确定分箱宽度的方法：固定
宽度分箱和自适应分箱。

1. 固定宽度分箱

通过固定宽度分箱，每个分箱中会包含一个具体范围内的数值。这些范围可以人工定制，也可以通过自动分段来生成，它们可以是线性的，也可以是指数性的。例如，我们可以按10 年为一段来将人员划分到多个年龄范围中： 0 ~ 9岁的在分箱1中，10 ~ 19 岁的在分箱 2中，等等。要将计数值映射到分箱，只需用计数值除以分箱的宽度，然后取整数部分。

当数值横跨多个数量级时，最好按照 10 的幂（或任何常数的幂）来进行分组： 0~9、
10 ~ 99、 100 ~ 999、 1000~9999，等等。这时分箱宽度是呈指数增长的，从 O(10) 到O(100)、O(1000) 以及更大。要将计数值映射到分箱，需要取计数值的对数。指数宽度分箱与对数变换的关系非常紧密。

2. 分位数分箱

固定宽度分箱非常容易计算，但如果计数值中有比较大的缺口，就会产生很多没有任何数
据的空箱子。根据数据的分布特点，进行自适应的箱体定位，就可以解决这个问题。这种
方法可以使用数据分布的分位数来实现。

分位数是可以将数据划分为相等的若干份数的值。例如，中位数（即二分位数）可以将数
据划分为两半，其中一半数据点比中位数小，另一半数据点比中位数大。四分位数将数据
四等分，十分位数将数据十等分，等等。

2.3 对数变换

对数函数是指数函数的反函数，它的定义是 loga(ax) = x，其中 a 是个正的常数， x 可以是
任意正数。因为 a0 = 1，所以有 loga(1) = 0。这意味着对数函数可以将 (0, 1) 这个小区间中
的数映射到 (-∞, 0) 这个包括全部负数的大区间上。函数 log10(x) 可以将区间 [1, 10] 映射到
[0, 1]，将 [10, 100] 映射到 [1, 2]，以此类推。换言之，对数函数可以对大数值的范围进行压缩，对小数值的范围进行扩展。 x 越大， log(x) 增长得越慢。

通过查看对数函数的图形，可以更好地理解上面的内容。注意一下横轴上从100 到 1000 的 x 值是如何被压缩到纵轴上从 2.0 到 3.0 的 y 值的，小于 100 的 x 值只占横轴的一小部分，但通过对数函数的映射，却占据了纵轴的剩余部分。

2.4 特征缩放/归一化

有些特征的值是有界限的，比如经度和纬度，但有些数值型特征可以无限制地增加，比如
计数值。有些模型是输入的平滑函数，比如线性回归模型、逻辑回归模型或包含矩阵的模
型，它们会受到输入尺度的影响。相反，那些基于树的模型则根本不在乎输入尺度有多大。如果模型对输入特征的尺度很敏感，就需要进行特征缩放。顾名思义，特征缩放会改变特征的尺度，有些人将其称为特征归一化。

2.4.1 min-max缩放

令 x 是一个独立的特征值（即某个数据点中的特征值), min(x) 和 max(x) 分别为这个特征在整个数据集中的最小值和最大值。 min-max 缩放可以将所有特征值压缩（或扩展）到 [0, 1]区间中。
2.4.2　特征标准化/方差缩放
特征标准化可以用下面的公式来定义：

它先减去特征的均值（对所有数据点），再除以方差，因此又称为方差缩放。缩放后的特征均值为 0，方差为 1。如果初始特征服从高斯分布，那么缩放后的特征也服从高斯分布。

2.5 交互特征

两个特征的乘积可以组成一对简单的交互特征，这种相乘关系可以用逻辑操作符 AND 来类比，它可以表示出由一对条件形成的结果：“该购买行为来自于邮政编码为 98121 的地区” AND“用户年龄在 18 和 35 岁之间”。这种特征在基于决策树的模型中极其常见，在广义线性模型中也经常使用。

交互特征的构造非常简单，使用起来却代价不菲。如果线性模型中包含有交互特征对，那它的训练时间和评分时间就会从 O(n) 增加到 O(n2)，其中 n 是单一特征的数量。

有若干种方法可以绕过高阶交互特征所带来的计算成本。我们可以在构造出所有交互特征之后再执行特征选择，或者，也可以更加精心地设计出少量复杂特征。

这两种策略各有千秋。特征选择使用计算手段为一个具体问题选择出最佳特征。（这种技术并不局限于交互特征。）但是，一些特征选择技术仍然需要使用大量特征去训练多个模型。

2.6 特征选择

特征选择技术可以精简掉无用的特征，以降低最终模型的复杂性，它的最终目的是得到一个简约模型，在不降低预测准确率或对预测准确率影响不大的情况下提高计算速度。为了得到这样的模型，有些特征选择技术需要训练不止一个待选模型。换言之，特征选择不是为了减少训练时间（实际上，一些技术会增加总体训练时间），而是为了减少模型评分时间。

特征选择技术可以分为以下三类。

过滤

过滤技术对特征进行预处理，以除去那些不太可能对模型有用处的特征。例如，我们可以计算出每个特征与响应变量之间的相关性或互信息，然后过滤掉那些在某个阈值之下的特征。过滤技术的成本比下面描述的打包技术低廉得多，但它们没有考虑我们要使用的模型，因此，它们有可能无法为模型选择出正确的特征。我们最好谨慎地使用预过滤技术，以免在有用特征进入到模型训练阶段之前不经意地将其删除。

打包

这些技术的成本非常高昂，但它们可以试验特征的各个子集，这意味着我们不会意外地删除那些本身不提供什么信息但和其他特征组合起来却非常有用的特征。打包方法将模型视为一个能对推荐的特征子集给出合理评分的黑盒子。它们使用另外一种方法迭代地对特征子集进行优化。

嵌入

这种方法将特征选择作为模型训练过程的一部分。例如，特征选择是决策树与生俱来的一种功能，因为它在每个训练阶段都要选择一个特征来对树进行分割。另一个例子是ℓ1 正则项，它可以添加到任意线性模型的训练目标中。 ℓ1 正则项鼓励模型使用更少的特征，而不是更多的特征，所以又称为模型的稀疏性约束。嵌入式方法将特征选择整合为模型训练过程的一部分。它们不如打包方法强大，但成本也远不如打包方法那么高。与过滤技术相比，嵌入式方法可以选择出特别适合某种模型的特征。从这个意义上说，嵌入式方法在计算成本和结果质量之间实现了某种平衡。

3. 文本数据：扁平化、过滤和分块

3.1 元素袋：将自然文本转换为扁平向量

词袋将一个文本文档转换为一个扁平向量，之所以说这个向量是“扁平”的，是因为它不包含原始文本中的任何结构。原始文本是一个单词序列，但词袋中没有任何序列，它只记录每个单词在文本中出现的次数。因此，向量中单词的顺序根本不重要，只要它在数据集的所有文档之间保持一致即可。词袋也不表示任何单词层次。例如，“animal”这个概念包括“dog”“cat”“raven”等，但在词袋表示中，这些单词在向量中都是平等的元素。

词袋是一种简单而有效的启发式方法，但离正确的文本语义理解还相去甚远。

n 元词袋（bag-of-n-grams）是词袋的一种自然扩展。 n-gram（n 元词）是由 n 个标记（token）组成的序列。 n-gram 能够更多地保留文本中的初始序列结构，因此 n 元词袋表示法可以表达更丰富的信息。然而，这不是没有代价的。理论上，有 k 个不同的单词，就会有 k*2 个不同的 2-gram（又称二元词）。实际上，没有这么多，因为不是每个单词都可以跟在另一个单词后面。尽管如此， n-gram（n>1）一般来说也会比单词多得多。这意味着 n 元词袋是一个更大也更稀疏的特征空间，也意味着 n 元词袋需要更强的计算、存储和建模能力。 n 越大，能表示的信息越丰富，相应的成本也会越高。

3.2 使用过滤获取清洁特征

停用词 ：通常指一些带刺、冠词及介词等没有较大价值的词。停用词列表是一种剔除形成无意义特征的单词的方法。

基于频率的过滤 ：高频词和罕见词

词干提取：一种将每个单词转换为语言学中的基本词干形式的 NLP 技术。词干提取有多种方法，有的基于语言学规则，有的基于统计观测。有一种算法子类综合了词性标注和语言
规则，这种处理过程称为词形还原。

词袋表示法简单易懂，容易计算，并对分类和搜索任务非常有效。但有时单个单词还是太简单了，无法表述出文本中的某些信息。为了解决这个问题，我们要求助于更长的序列。n 元词袋是词袋的一种自然推广，它的概念非常好理解，计算起来也和词袋一样容易。

n 元词袋可以生成大量互不相同的 n 元词，它增加了特征存储成本，在模型训练和预测阶段也需要更多计算能力。对于同样数量的数据点， n 元词袋使得特征空间的维度大大增加。因此，数据变得特别稀疏。 n 越大，存储和计算的成本就越高，数据也越稀疏。基于这些原因，更长的 n 元词并不是总能提高模型的准确率或带来其他方面的性能改善。通常只使用二元词和三元词，很少使用更长的 n 元词。

要解决稀疏性和成本增加的问题，一种方法是对 n 元词进行过滤，只保留那些最有意义的短语。这就是搭配提取的目标。理论上，搭配（或短语）可以形成文本中不连贯的标记序列，但实际上，找出不连贯的短语需要非常高的计算成本，而且收效甚微。所以，搭配提取通常从一个备选二元词列表开始，然后使用统计方法对其进行过滤。

所有这些方法都是将一个文本标记序列转换为一个与之无关的计数集合。相对于单词序列，集合中的结构很少，它们可以生成扁平的特征向量。

4. 特征缩放的效果：从词袋到tf-idf

4.1 tf-idf：词袋的一种简单扩展

tf-idf 是在词袋方法基础上的一种简单扩展，它表示词频 - 逆文档频率。 tf-idf 计算的不是
数据集中每个单词在每个文档中的原本计数，而是一个归一化的计数，其中每个单词的计
数要除以这个单词出现在其中的文档数量。

tf-idf 的直观理解
tf-idf 突出了罕见词，并有效地忽略了常见词。

特征缩放实质上是数据矩阵上的列操作。特别地， tf-idf 和 ℓ2 归一化都是对整个列（例如，一个 n 元词特征）乘以一个常数。

特征缩放（包括 ℓ2 归一化和 tf-idf）的真正用武之地是加快解的收敛速度。

5. 分类变量：自动化时代的数据计数

文档语料库的词汇表可以表示为一个大型分类变量，类别就是唯一的单词。表示如此多的不同类别需要很高的计算成本。如果一个类别（如一个单词）在一个数据点（文档）中出现了多次，就可以将它表示为一个计数，并通过计数统计表示所有类别。这种方法称为分箱计数。

5.1 分类变量的编码

5.1.1 one-hot 编码
**one-hot 编码，**它可以通过 scikit-learn 中的 sklearn.preprocessing.OneHotEncoder 实现。每个比特位表示一个特征，因此，一个可能有 k 个类别的分类变量就可以编码为一个长度为 k 的特征向量。表 5-1给出了一个例子。

5.1.2 虚拟编码
one-hot 编码的问题是它允许有 k 个自由度，而变量本身只需要 k-1 个自由度。虚拟编码 2在进行表示时只使用 k-1 个特征，除去了额外的自由度（见表 5-2）。没有被使用的那个特征通过一个全零向量来表示，它称为参照类。虚拟编码和 one-hot 编码都可以通过 Pandas包中的 pandas.get_dummies 来实现。

使用虚拟编码的模型结果比使用 one-hot 编码的模型结果更具解释性。

# 将数据框中的分类变量转换为one-hot编码
>>> one_hot_df = pd.get_dummies(df, prefix=['city'])
>>> one_hot_df
# 为虚拟编码训练一个线性回归模型，指定drop_first标志来生成虚拟编码
>>> dummy_df = pd.get_dummies(df, prefix=['city'], drop_first=True)
>>> dummy_df

5.1.3 效果编码
效果编码与虚拟编码非常相似，区别在于参照类是用全部由 -1 组成的向量表示的，参见表 5-5。

5.1.4 各种分类变量编码的优缺点

one-hot 编码、虚拟编码和效果编码彼此之间非常相似，它们都有各自的优缺点。 one-hot编码有冗余，这会使得同一个问题有多个有效模型，这种非唯一性有时候比较难以解释。它的优点是每个特征都明确对应一个类别，而且可以把缺失数据编码为全零向量，模型输出也是目标变量的总体均值。

虚拟编码和效果编码没有冗余，它们可以生成唯一的可解释的模型。虚拟编码的缺点是不太容易处理缺失数据，因为全零向量已经映射为参照类了。它还会将每个类别的效果表示为与参照类的相对值，这看上去有点不直观。

效果编码使用另外一种编码表示参照类，从而避免了这个问题，但是全由 -1 组成的向量是个密集向量，计算和存储的成本都比较高。正是因为这个原因，像 Pandas 和 scikit-learn这样的常用机器学习软件包更喜欢使用虚拟编码或 one-hot 编码，而不是效果编码。

当类别的数量变得非常大时，这 3 种编码方式都会出现问题，所以需要另外的策略来处理超大型分类变量。

5.2 处理大型分类变量

5.2.1 特征散列化

散列函数是一种确定性函数，它可以将一个可能无界的整数映射到一个有限的整数范围
[1, m] 中。因为输入域可能大于输出范围，所以可能有多个值被映射为同样的输出，这称
为碰撞。均匀散列函数可以确保将大致相同数量的数值映射到 m 个分箱中。

我们可以形象地将散列函数想象为一台机器，它吸入一些带数字标号的圆球（键），再把
它们分发到 m 个分箱中。标有同样数字的球总是被分发到同一个分箱中（见图 5-1）。散列
函数在保持特征空间的同时，又可以在机器学习的训练和评价周期中减少存储空间和处理
时间。

特征散列化对计算能力大有裨益，但牺牲了直观的用户可解释性。对于大数据集，当从数据探索和可视化进展到机器学习流程时，我们可以很容易地在二者之间做出取舍。

5.2.2 分箱计数

分箱计数的思想稍有一点复杂：它不使用分类变量的值作为特征，而是使用目标变量取这个值的条件概率。换句话说，我们不对分类变量的值进行编码，而是要计算分类变量值与要预测的目标变量之间的相关统计量。

5.3 小结

6. 数据降维：使用PCA挤压数据

通过自动数据收集和特征生成技术，可以快速获取大量特征，但不是所有特征都是有用的。主成分分析（principal component analysis， PCA）可以用来降低特征维度。

6.1 PCA直观理解

数据降维就是在保留重要信息的同时消除那些“无信息量的信息”。“无信息量”有多种定义方法，PCA 关注的是线性相关性。

我们将数据矩阵的列空间描述为所有特征向量的生成空间。如果列空间的秩小于特征总数，那么多数特征就是几个关键特征的线性组合。线性相关的特征是对空间和计算能力的浪费，因为它们包含的信息可以从更少的几个特征中推导出来。为了避免这种情况， PCA 试图将数据挤压到一个维度大大小于原空间的线性子空间，从而消除这些“臃肿”。

6.2 数学推导

令 X 表示 n×d 的数据矩阵，其中 n 是数据点的数量， d 是特征的数量。令 x是表示单个数据点的列向量（所以 x 是 X 中一行的转置）。令 v 是表示新特征的向量，即要找出的主成分。

6.2.1 线性投影

LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
Google机器学习实践指南(模型预测偏差) AI_Auto 人工智能机器学习人工智能
Google机器学习（31）-模型预测偏差预测偏差：模型为何总是"猜不准"的真相揭秘你的模型预测准确率高达95%，却总是与实际情况差那么一点点？这可能是预测偏差在作祟！本文将带你深入探索这个被忽视的模型"隐形杀手"。一、什么是预测偏差？一个生活化案例想象一下，你网购了一个智能体重秤，连续一周称重显示都是60kg。但你去健身房用专业设备测量，实际是62kg。这种系统性的测量偏差，就是预测偏差在现实中
【机器学习|学习笔记】用 Python 结合 graphviz 生成 ID3、C4.5、CART 三种决策树的结构示意图。
【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图文章目录【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图用Python结合graphviz生成ID3、C4.5、CART三种
智能产品经理的核心能力 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
智能产品经理的核心能力1.背景介绍在当今快节奏的数字时代,产品经理扮演着至关重要的角色,他们负责确保产品满足用户需求,实现商业目标,并保持竞争优势。随着人工智能(AI)和机器学习(ML)技术的不断发展,智能产品经理的概念应运而生。智能产品经理需要将传统的产品管理技能与新兴技术相结合,以创建具有创新性和智能化的产品体验。智能产品不仅需要满足功能需求,还需要提供个性化、智能化和无缝的用户体验。这对产品
使用Python进行机器学习入门指南软考和人工智能学堂 Python开发经验 python 机器学习开发语言
使用Python进行机器学习入门指南机器学习（MachineLearning）是人工智能（ArtificialIntelligence,AI）的一个重要分支，旨在通过算法和统计模型，使计算机系统能够自动从数据中学习和改进。Python作为机器学习领域的主流编程语言，提供了丰富的库和工具来实现各种机器学习任务。本文将介绍如何使用Python进行机器学习，包括基本概念、常用库以及一个实战项目示例。目录
【亲测免费】 CatBoost 教程项目使用指南
CatBoost教程项目使用指南tutorials项目地址:https://gitcode.com/gh_mirrors/tutorials1/tutorials1.项目介绍CatBoost是一个高效、灵活且易于使用的梯度提升库，特别适用于处理分类特征。它由Yandex开发，广泛应用于机器学习和数据科学领域。CatBoost提供了丰富的功能，包括自动处理分类特征、支持GPU训练、内置的交叉验证和模
Python自动化机器学习平台库之mindsdb使用详解
概要MindsDB是一个开源的自动化机器学习平台，它通过SQL接口简化了机器学习模型的创建、训练和预测过程。该库的核心理念是将机器学习功能直接集成到数据库中，让开发者无需深入了解复杂的机器学习算法，就能够快速构建和部署预测模型。MindsDB支持多种数据源连接，包括MySQL、PostgreSQL、MongoDB等主流数据库，同时提供了丰富的PythonAPI接口，使得数据科学家和开发者能够在熟悉
堡垒机操作行为异常检测的机器学习算法应用
一、传统检测模式的困境与机器学习的破局价值在数字化转型浪潮中，堡垒机作为运维安全的核心防线，面临着操作行为复杂度激增与检测能力滞后的双重挑战。传统检测手段主要依赖静态规则库与统计模型，存在三大致命缺陷：规则固化与误报泛滥：某金融机构曾因规则库未及时更新，导致运维人员正常批量操作被误判为“暴力破解”，单日误报量超2000次，消耗安全团队60%的精力。动态行为适应性弱：微服务架构下，运维人员访问路径呈
最全自动驾驶数据集（11/4号已更新）数据猎手小k 自动驾驶人工智能机器学习
自动驾驶是一个快速发展的行业，它融合了人工智能、机器学习、传感器技术、高精度地图和先进的计算平台等多种技术。技术方面，自动驾驶汽车依赖于先进的传感器、如激光雷达、摄像头、毫米波雷达等，以及强大的计算平台来处理大量数据，自动驾驶数据集是训练和验证自动驾驶系统的关键资源，它提供了丰富的场景和条件，使算法能够学习和适应复杂的真实世界驾驶环境。一、研究背景自动驾驶技术的发展需要大量的数据来训练和优化算法，
机器学习深度学习驱动在光子学设计中的应用与未来【专题培训会议邀您共探科技前沿】软研科技信息与通信信号处理量子计算人工智能
一、背景介绍在智能科技飞速发展的今天，光子学设计与智能算法的结合正成为科研创新的热点。深度学习、机器学习等算法在光子器件的逆向设计、超构表面材料设计、光学神经网络构建等方面展现出巨大潜力。二、会议亮点由北京软研国际信息技术研究院主办的“智能算法驱动的光子学设计与应用”专题培训会议，将深入探讨以下核心内容：光子器件的逆向设计：利用深度学习优化多参数光子器件设计。超构表面与超材料设计：智能算法在新型光
机器学习与光子学的融合正重塑光学器件设计范式 m0_75133639 光电智能电视二维材料电子半导体人工智能顶刊 nature
Nature/Science最新研究表明，该交叉领域聚焦六大前沿方向：光子器件逆向设计、超构材料智能优化、光子神经网络加速器、非线性光学芯片开发、多任务协同优化及光谱智能预测。系统掌握该领域需构建四维知识体系：1、基础融合——从空间/集成光学系统切入，解析机器学习赋能光学的理论必然性，涵盖光学神经网络构建原理2、逆向设计革命——通过AnsysOptics实战，掌握FDTD算法与粒子群/拓扑优化技术
AI模型训练新范式：基于同态加密的隐私保护方案 AIGC应用创新大全人工智能同态加密区块链 ai
AI模型训练新范式：基于同态加密的隐私保护方案技术解析关键词同态加密（HomomorphicEncryption）、隐私保护机器学习（PPML）、全同态加密（FHE）、安全多方计算（MPC）、加密数据训练摘要本报告系统解析基于同态加密的AI模型训练新范式，覆盖从理论基础到工程实践的全生命周期。首先通过第一性原理推导同态加密的数学本质，对比传统隐私保护技术的局限性；其次构建“加密-训练-解密”全流程
量子机器学习入门：从理论到实践
量子机器学习入门：从理论基石到实践路径元数据框架标题量子机器学习入门：从理论基石到实践路径——连接量子计算与人工智能的未来桥梁关键词量子计算；机器学习；量子算法；量子神经网络；Qiskit；PennyLane；量子变分算法摘要量子机器学习（QuantumMachineLearning,QML）是量子计算与机器学习的交叉领域，通过量子计算的叠加态、纠缠和并行性解决传统机器学习的计算瓶颈（如高维数据处
全球人工智能与机器学习大会PPT a flying bird 论文解读和大咖技术号记录人工智能
大会演讲PPT合集https://ppt.infoq.cn/list/93PPT分享|ppt|人工智能|aicon|infoq|机器学习PPT分享,前段时间的AICon北京站2021全球人工智能与机器学习大会（https://aicon.infoq.cn/2021/beijing），汇集了很多业界大佬，工业界多个方向的从业人员分享了他们在实际业……https://xw.qq.com/cmsid/2
人工智能基础知识PPT课件智慧化智能化数字化方案方案解读馆人工智能入门人工智能学习人工智能课件人工智能PPT
人工智能基础知识定义与概念：人工智能是研究、开发用于模拟、延伸和扩展人类智能行为的综合性科学，其目的是让计算机系统具备执行人类智能任务的能力。涉及计算机科学、数学等多学科，研究对象是让系统具备智能，智能包括认知、适应和自主能力等维度。学派与方法学派：有符号主义、联结主义、行为主义等学派，分别从不同角度研究人工智能。方法：包括基于知识、学习和仿生的方法，如专家系统、机器学习、深度学习等。分类与发展分
数据挖掘：从理论到实践的深度探索代码老y 数据挖掘人工智能
在当今数字化时代，数据已经成为企业决策的重要依据。数据挖掘作为一门从大量数据中提取有价值信息的技术，已经广泛应用于各个领域，如金融、医疗、零售、互联网等。本文将深入探讨数据挖掘的基本概念、主要技术和实际应用案例，帮助读者更好地理解数据挖掘的价值和应用。一、数据挖掘的基本概念（一）数据挖掘的定义数据挖掘（DataMining）是从大量数据中提取有用信息的过程。它结合了统计学、机器学习、数据库技术和人
开发智能化的企业并购风险评估模型
开发智能化的企业并购风险评估模型关键词：企业并购、风险评估、人工智能、机器学习、深度学习、数学建模摘要：本文详细探讨了开发智能化企业并购风险评估模型的背景、核心概念、算法原理、系统架构设计以及项目实战。通过结合机器学习和深度学习技术，提出了一种基于数据驱动的智能化风险评估方法，旨在帮助企业更准确地识别和预测并购过程中的潜在风险，提升决策的科学性和有效性。第1章:企业并购风险评估模型的背景与问题描述
机器学习手写字体识别系统：技术演进与应用实践万能小贤哥机器学习人工智能
引言：手写字体识别的技术定位与价值在信息处理领域，人工录入手写文本的低效性与机器识别的高效性形成鲜明对比。例如，医疗处方的人工处理需约5分钟/张，而采用手写字体识别技术可将时间缩短至10秒/张，显著提升处理效率。作为计算机视觉与人工智能的重要分支，手写字体识别技术通过将手写文本转换为可编辑电子文本，不仅大幅减少人工输入时间和错误，降低人工处理成本，还能在大量数据处理时保持高于人工录入的准确性，是人
机器学习算法：核心原理与前沿发展综述 fmvrj34202 机器学习算法人工智能
机器学习算法作为人工智能的核心驱动力，正在重塑我们解决问题的范式。本文将系统性地探讨机器学习算法的分类体系、数学基础、优化方法以及最新发展趋势，为从业者提供技术参考。一、算法分类体系根据学习范式，机器学习算法可分为三大类：监督学习：基于标注数据的建模方法线性回归：最小化平方误差的闭式解θ=(XᵀX)⁻¹Xᵀy支持向量机：通过核技巧实现非线性分类，优化目标为max(0,1-yᵢ(w·xᵢ+b))决策
「日拱一码」020 机器学习——数据处理胖达不服输「日拱一码」机器学习人工智能数据处理 python
目录数据清洗缺失值处理删除缺失值：填充缺失值：重复值处理检测重复值处理重复值异常值处理Z-score方法IQR方法（四分位距）数据一致性检查数据转换规范化（归一化）Min-Max归一化MaxAbsScaler标准化离散化等宽离散化等频离散化数据清洗数据清洗是数据处理的第一步，目的是去除噪声数据、处理缺失值和异常值，使数据更加干净、可用缺失值处理删除缺失值：如果数据集中缺失值较少，可以直接删除包含缺
机器学习每周挑战——二手车车辆信息&交易售价数据梦想成为一名机器学习高手机器学习 python 人工智能
这是数据集的截图目录背景描述数据说明车型对照：燃料类型对照：老规矩，第一步先导入用到的库第二步，读入数据：第三步，数据预处理第四步：对数据的分析第五步：模型建立前的准备工作第六步：多元线性回归模型的建立第七步：随机森林模型的建立问题：背景描述本数据爬取自印度最大的二手车交易平台CARS24，包含8000+该平台上交易车辆的关键评估信息。CARS24成立于2015年，总部位于印度古尔冈，是一个在印度
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?