TingXiao-Ul

机器学习之为什么要数据预处理？如何预处理数据？

在现实生活问题中，我们得到的原始数据往往非常混乱、不全面，机器学习模型往往无法从中有效识别并提取信息。数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已，在采集完数据后，机器学习建模的首要步骤以及主要步骤便是数据预处理。

真实的训练数据总是存在各种各样的问题：

各特征(变量)的尺度(量纲)和数量级差异大

存在噪声：包含错误和异常值

存在缺失值

存在冗余特征(变量)

.....

存在上述问题的数据有时也称为“脏数据”，这些"脏数据"会影响机器学习模型预测的有效性(有时会得到相反的结论)、可重复性和泛化能力，从而影响模型的质量。

例如：

数据预处理包含哪些处理？

特征缩放：数据标准化处理

缺失值处理

离群值/异常值处理

数据转换：数据类型转换和数据分布转换

数据缩减：降维

数据升维：多项式特征

数据预处理一般步骤：

1、数据清洗：

处理缺失值

识别错误分类

检测、处理异常值

标志变量？

将分类变量(非数值)转换为数值变量

绑定数值变量？

添加索引字段

删除无用变量

寻找有价值变量

2、数据集成：

组合/汇总来自多个资源的数据

删除重复记录

3、数据分布转换：

4、数据缩减：

降维

1.特征缩放：数据标准化处理

若原始数据中各维数据特征分布范围差异大，如果直接使用原始数据来建模，会突出数值尺度较大的特征在建模中的作用，而相对削弱或忽略数值尺度较小的特征的作用。因此，为了保证模型的有效性、可靠性，需要对原始数据的特征做特征缩放，使得各维特征对目标函数有相同权重的影响。

通常为了能够消除数据不同特征的尺度差异大的影响，需要把各维特征都缩放到同一个标准时，这样才具有可比性，这个过程就是数据标准化处理。

数据标准化处理

目标：使各维特征的取值均在相同的范围内以去除不同尺度特征的干扰。
作用：加快训练速度以及避免模型被分布范围较大或较小的特征干扰

1.1数据标准化处理包含哪些方法？

1.1.1.归一化

归一化主要有以下两种目标：

将数据各维特征映射到指定的范围之内：[0, 1]或者[-1, 1]
压缩量纲

就是将数据各维特征映射到指定的范围之内(通常映射到[0, 1]或者[-1, 1]之间)或者。

归一化类型可分为

极大极小归一化
均值归一化
非线性归一化

1）极大极小归一化公式如下所示

式中， $\mathbf{X}_{old}$ 为原始数据集，有m个样本，n项特征。 $min(\textbf{X}_{old})$ 、 $max(\textbf{X}_{old})$ 表示对原始数据集的各列特征分别取极值。

2）均值归一化公式如下所示

式中， $mean(\textbf{X}_{old})$ 表示对原始数据集的各列特征分别取均值。

3）非线性归一化指对原数据取对数。

非线性归一化没有把原数据各维特征缩放到某一范围内而是缩小各维特征的尺度(量纲)。平时在一些数据处理中，经常会把原始数据取对数后在做进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数，取对数之后不会改变数据的性质和相关关系，还可以压缩特征的尺度(量纲)。

归一化总结

特点：归一化会改变原始数据的数据分布，所以不能保留原始信息
对不同特征做伸缩变换，其目的是使得各个特征维度对目标函数的影响权重是同等程度的。同时，由于对不同特征做伸缩变换程度不同，使得那些扁平分布的目标函数的投影等高线趋于圆形，这样也就改变了原始数据的分布类型。
作用：
1、加快训练速度：如迭代算法中目标函数的收敛速度
2、平衡各维特征权重，避免数值尺度过大、过小的特征对模型的干扰
缺陷：
归一化处理数据后，虽然平衡了各维特征权重，但也改变了原始数据的数据分布，即破坏了数据结构。

1.1.2.z-score

z-score对数据标准化处理就是将数据缩放到以0为中心，标准差为1的某种数据分布(注意：均值为0，标准差为1的数据分布不一定是正态分布，也有可能是t分布或者其他分布)，此外，z-score保留原始数据信息，不会改变原数据分布类型。z-score的目的也是使原始数据的不同特征具有可比性。

z-score公式如下所示

式中， $\mu$ 为原始数据集的各列特征的均值的向量， $\mu$ = $mean(\textbf{X}_{old})$ ， $\sigma$ 为原始数据集的各列特征的标准差的向量。z-score的一个应用是测量原始数据与数据总体均值相差多少个标准差，如下所示

1.1.3归一化和z-score区别和联系

联系：

都是对原始数据做线性变换，即都是将样本点平移然后缩短距离，使原始数据的不同特征具有可比性。

区别：

归一化对目标函数的影响体现在数值上，而z-score对目标函数的影响体现在数据几何分布上
归一化改变了数据的量级并同时也改变了数据的分布，Z-score只改变了数据的量级但未改变数据的分布类型。
标准化处理数据，不会改变目标函数的等高线投影，并且会继续保持原有目标函数扁平性，而归一化处理数据会使目标函数的等高线投影呈现圆形。
在梯度下降算法中，归一化处理数据有助于加快算法收敛速度。

图片来自知乎：https://zhuanlan.zhihu.com/p/148394470?ivk_sa=1024320u

为什么归一化改变了数据分布类型，而z-score没有改变？

归一化和标准化，都是将样本点平移然后缩短距离，不同的是，由于缩短尺度不同，要从公式方面理解，二者的主要不同是分母的缩短尺度不同，一个是极值差，另一个平均差(标准差)。

对于归一化方式处理的数据，它的每一项特征缩放程度都不同(因为每一项特征的极值可能都不同从而使每一项特征的缩放程度差异大)，而z-score处理的数据，它的每一项特征的缩放程度大体相同，因为除的都是平均值，效果是"温和的"、平稳的。所以归一化会改变数据分布(样本点的相对距离关系会被改变)，而z-socre不会使样本点之间的相对距离关系有根本变化。注意，这里样本点的关系用相对距离来表示。

举个例子，在SVM模型中，设(0,0)处有一个负例，(1,1)和(2,0.5)处各有一个正例。容易验证，取(0,0)和(1,1)为支持向量时，间隔最大。现在归一化处理数据，把水平方向缩小至原来的1/10，垂直方向缩小至原来的1/1(即两个维度的特征缩放程度差异大)，两个正例变成了(0.1,1)和(0.2,0.5)。容易验证，现在要让margin最大，支持向量就得取(0,0)和(0.2,0.5)了。你看，是不是改变了样本点的相对距离关系，从而也就改变了分布。

何时使用归一化或z-score预处理数据？

数据中各维特征尺度差异大(量纲)，目标函数易受尺度大的特征的干扰。比如涉及距离计算的模型：knn、kmeans、dbscan、svm等需要将数据量纲统一标准
使用梯度下降的参数估计模型：使用归一化处理后的数据可以提高算法收敛速度
涉及皮尔逊相关系数的模型：使用标准化处理的数据可以及方便计算相似度，why?
见文章计算相似度的四种方法
PCA降维算法需要去中心化，可以使用z-score处理
对数值范围有具体要求的，需使用归一化处理数据，比如图像处理，其中像素强度必须归一化以适应一定范围(RGB颜色范围为0到255)
概率模型对特征量纲差异性不敏感，可以不做。如决策树
一般：不确定使用哪种数据处理方式时，就用z-score处理，至少z-score处理不会改变数据分布类型，即不会破坏数据结构。

1.2.中心化/零均值化

中心化处理后的数据，数据均值为0向量，就是将原始数据平移到原点附近。中心化处理数据就一个一个平移的过程，不会改变数据分布类型。中心化预处理表达式如下

作用：

方便计算协方差矩阵
去除截距项(偏置项)的影响
"增加基向量的正交性"？？？摘自网络，不理解

适用于PCA降维算法。见文章

1.3.正则化

正则化处理数据将每个样本的某个范数(L1范数、L2范数)缩放为1，即对每个样本计算其p-范数，然后对该样本中的每个元素除以该范数，使得处理后数据的每个样本的p-范数等于1。公式如下所示

正则化处理数据主要应用于文本分类和聚类中，对需要计算样本间相似度有很大的作用，例如计算样本x1和样本x2的余弦相似度

正则化处理数据是否会改变数据分布类型？实践出真知，如下所示

貌似并不会改变数据分布类型，待严谨的数据证明......

1.4.哪些模型对标准化处理比较敏感？

基于距离度量的模型、决策边界学习模型：KNN、kmeans聚类、感知机和SVM
1、由于距离对特征之间不同取值范围非常敏感，若某个特征取值非常大而导致其掩盖了特征之间的距离对总距离的影响，这样距离模型便不能很好地将不同类别的特征区分开。所以基于距离读量的模型是十分有必要做数据预处理的，此类模型在标准化处理后可有可能提高精度。

2、有些模型在各个维度进行不均匀伸缩后，最优解与原来不等价，例如SVM。对于这样的模型，除非本来各维数据的分布范围就比较接近，否则必须进行z-score，以免模型参数被分布范围较大或较小的数据占住主导地位。
判别模型：指模型直接学习后验分布来进行分类，如逻辑回归
有些模型在各个维度进行不均匀伸缩后，最优解与原来等价，例如逻辑回归。对于这样的模型，是否标准化处理数据理论上不会改变最优解。但是，由于实际求解往往使用迭代算法，如果目标函数的形状太"扁"，迭代算法可能收敛得很慢甚至不收敛。所以对于具有伸缩不变性的模型，最好也进行标准化处理处理数据。
通过迭代优化算法求解最优解的模型：如逻辑回归模型
使用归一化来标准化处理数据可以加快迭代优化算法求最优解的速度，如运用梯度下降，其损失函数的等高线是椭圆形，需要进行多次迭代才能达到最优点，如果进行归一化了，那么等高线就是圆形的，促使往原点迭代，从而导致需要迭代次数较少。因此如果机器学习模型使用梯度下降法求最优解时，归一化往往非常有必要，否则很难收敛甚至不能收敛。

概率模型：如决策树、基于决策树的Boosting和Bagging等集成学习模型、随机森林
树模型是通过寻找最优分裂点构成的，样本点的特征缩放不影响分裂点的位置，对树模型的结构也不造成影响，而且树模型不能进行梯度下降，因为树模型是阶跃的，阶跃是不可导的，因此不需要归一化。
决策树、基于决策树的Boosting和Bagging等集成学习模型对于特征取值大小并不敏感。因为它们不关心变量的值，而是关心变量的分布和变量之间的条件概率。

1.5.什么情况下需要对数据标准化处理？

判断模型是否具有伸缩不变性以及模型算法是否使用了迭代优化算法？

一般概率模型具备伸缩不变性，因为对特征缩放处理不会对概率模型的结构造成影响，所以概率模型不必采用数据标准化处理，如决策树；但是，若概率模型计算目标函数过程中使用了迭代优化算法，为了能够加快算法收敛速度，可以对数据做归一化的标准化处理。

那些模型伸缩可变？即数据标准化处理前后得到的最优解不一致的模型？

基于距离计算的模型：回归算法(除了逻辑回归)、SVM、kmeans、dbsecan、
需要基于距离计算相似度的模型：最小角回归(基于距离计算相似度)
待归纳

伸缩可变的模型需要标准化处理。

1.6.训练集做了标准化处理后，然后训练出模型，那么测试集或者新样本是否如何处理？

待补充

2.缺失值处理

现实生活中的数据往往是不全面的，很多样本的属性值会有缺失，例如某个人填写的个人信息不完整或者对个人隐私的保护政策导致建模时可能无法得到所需要的特征，尤其是在数据量较大时，这种缺失值的产生会对模型的性能造成很大的影响

2.1.删除缺失值

处理缺失值最简单也是最暴力的方法便是删除含有缺失值的样本或者特征。注：工业上数据非常重要，一般不推荐这样做。

2.2填充缺失值

方法：使用用哪一种方法没有硬性的要求，具体问题具体分析

缺失值替换为：平均值、中位数、众数
使用KNN算法填充：缺失样本点周围最近的k个样本的均值或最大值填充(使用前提是，数据不是连片缺失，否则缺失样本点周围的样本也有缺失值，那就用不成了)
加权平均值/期望替换缺失值：比较含缺失值的样本与其他样本之间的的相似度，计算其加权平均值=Σ(特征值i*相似度i)/sum(相似度)，过程和基于用户相似度的SVD推荐系统差不多。
......

3.离群值/异常值处理

3.1异常检测

3.1.1异常样本

3.1.2异常特征

3.2检测原则

3.3处理方法

4.多项式特征

多项式特征是一种数据升维的方式，在线性回归中，当使用简单的x1,x2特征去拟合曲线，欠拟合，但是我们可以创建新的特征如 $x^{2}$ 去拟合数据，可能会得到一个较好的模型，所以我们有时候会对特征做一个多项式处理，即把特征 $x_{1},x_{2}$ 变成 $x_{1}^{2},x_{2}^{2}$ 。

5.数据转换

机器学习模型很多分布都采用高斯分布(正态分布)，如线性回归机器学习模型要求数据特征是高斯分布的。如果数据特征不是高斯分布，有时需要找到一个数学变换来把特征按照高斯分布进行变换。

5.1数据转换方法

数据转换为高斯分布方法：

对数变换
倒数变换
平方根变换
指数变换

以下总结摘自博客机器学习中的特征分布_TianCMCC的博客-CSDN博客_特征分布

对数变换：对于高度偏态（如Skewness为其标准误差的3倍以上）的数据分布，我们则可以对其取对数处理。其中又可分为自然对数和以10为基数的对数，其中以10为基数的对数处理纠偏力度最强，但有时会矫枉过正，将正偏态转换成负偏态。

平方根变换：平方根变换使服从泊松（Poisson）分布的样本或具有轻度偏态的样本正态化，或者是当各样本的方差与均数呈正相关时，使用平方根变换可使其达到方差齐性。

倒数变换：常用于分布两端波动较大的数据，倒数变换可使极端值的影响减小

平方根反正旋变换：常用于服从二项分布或百分比的数据。一般认为等总体率较小（如＜30%时）或较大（如＞70%时），偏离正态较为明显，通过样本率的平方根反正玄变换，可使数据接近正态分布，达到方差齐性的要求。

BOX-COX变换：通常用于连续的响应变量不满足正态分布的情况。在一些情况下（特征分布的P值<0.003）上述方法（平方变换等）很难实现正态化处理，所以可以考虑使用Box-Cox转换，但是当P值>0.003时，使用两种方法均可，优先考虑普通的平方变换。（其中 λ \lambdaλ 为待定变换参数）

注意：再次提醒Z - score标准化处理后的数据的特征并不一定遵循高斯分布。

为了使我们的数据趋向高斯分布，我们首先需要使数据对称，这意味着消除偏度，为了消除偏度，我们要对数据进行转换

实操演示：

待补充

5.1.1为什么机器学习中很多分布都采用高斯分布？

根据概率论中的中心极限定理，当样本容量无穷大时，许多分布的极限就是高斯分布(正态分布)现实中的很多随机变量是由大量相互独立的随机因素的综合影响所形成的，而其中每一个因素在总的影响中所起的作用都是微小的，这种随机变量往往近似服从高斯分布（中心极限定理的客观背景）。

熵：用来度量信息混乱程度

从熵的角度来看，在已知数据的均值和方差的情况下(原数据分布类型未知)，高斯分布的熵是所有其他分布中最大的。按照熵标准，“最大熵”约等价于“同约束下最接近均匀分布”，即更符合实际。可以这样理解，“熵最大”是为了使理想更接近实际，让特殊逼近一般，从而使模型更具一般性。注意高斯分布的熵其实是由方差决定的，“高斯变量最大熵”是在方差固定的背景下的结论。不同的方差显然会带来不同的高斯分布，而熵越大的高斯分布方差越大——在实轴上也越接近“均匀”

5.1.2是否一定要对数据转换分布

待补充

5.2 数据数值类型转换

针对非数值型数据，映射为数值。例如，现有一个汽车样本集，通过这个汽车样本集可以判断人们是否会购买该汽车。但是这个样本集的特征值是离散型的，为了确保计算机能正确读取该离散值的特征，需要给这些特征做编码处理，即创建一个映射表。如果特征值分类较少，可以选择自定义一个字典存放特征值与自定义值的关系。

5.2.1自定义数据类型编码

待补充

5.2.2独热编码

待补充

6.数据缩减

大数据集存在以下问题:

对一个模型来说，太多的预测特征会不必要地使分析的解释复杂化。
保留过多的特征可能会导致过度拟合。

解决这些问题最常用的方法之一是“降维”。此方法的目标是实现以下目标。

减少预测特征的数量。
确保这些预测项特征是独立的。

降维方法：

PCA
LDA
T-SNE

二、数据预处理实践

待补充

机器学习的下一个前沿是因果推理吗？——探索机器学习的未来方向！真智AI 人工智能机器学习
机器学习的进化：从预测到因果推理机器学习凭借强大的预测能力，已经彻底改变了多个行业。然而，要实现真正的突破，机器学习还需要克服实践和计算上的挑战，特别是在因果推理方面的应用。未来，因果推理或许将成为推动机器学习发展的新前沿。什么是因果推理，它如何与机器学习相关？如果你和我一样没有数学背景，你可能会好奇“因果推理”到底意味着什么？它与机器学习又有什么关系？当我刚开始学习机器学习时，第一次听到“因果推
深入解析LTE-A到5G的系统消息架构与功能演进罗博深
本文还有配套的精品资源，点击获取简介：系统消息是移动通信网络中，UE与网络间信息交换的核心，涵盖了网络状态、服务信息与系统配置。文章深入分析了4GLTE-A到5G网络中系统消息的组成、作用及其演进，包括MIB和SIBs的功能与内容，以及5G对系统消息的优化和新技术的引入，如动态调度、网络切片和针对物联网设备的特定参数配置。5G系统消息还通过机器学习和大数据分析实现智能化分发，增强了网络灵活性、智能
解决约束多目标优化问题的新方法：MOEA/D-DAE算法深度解析木子算法多目标优化人工智能算法多目标人工智能
解决约束多目标优化问题的新方法：MOEA/D-DAE算法深度解析在工程优化、机器学习等众多领域，约束多目标优化问题（CMOPs）广泛存在。传统方法在处理这类问题时，常因可行区域不连通或约束违反局部极小点陷入停滞。近期，IEEETransactionsonEvolutionaryComputation上的一篇论文提出了一种新颖的解决方案——MOEA/D-DAE算法，通过结合检测-逃逸策略（DAE）和
python 人工智能实战案例 2401_86114612 pygame python java
大家好，今天我们要分享，python编程人工智能小例子python人工智能100例子，一起探索吧！1.背景介绍概述在这个世纪，人类已经处于数字化的时代，而这也让很多其他行业都进入了数字化领域python列表有哪些基本操作,python列表功能很重要吗。其中包括游戏行业。游戏行业的蓬勃发展促使机器学习的产生，通过计算机能够进行高效率地模拟人类的学习、决策过程，不断升级提升人类的能力。游戏领域中的AI
Python 在人工智能领域的实际6大案例 Solomon_肖哥弹架构人工智能机器学习 python
Python作为一种功能强大且易于学习的编程语言，在人工智能（AI）领域得到了广泛的应用。从机器学习到深度学习，从自然语言处理到计算机视觉，Python提供了丰富的库和框架，使得开发者能够快速实现各种AI应用。本文将通过多个实际案例，展示Python在人工智能领域的强大功能和应用前景。二、案例一：手写数字识别（MNIST）1.背景介绍手写数字识别是机器学习领域的经典入门项目，MNIST数据集包含了
基于AI算法实现的情感倾向分析的方法程序员奇奇计算机毕设人工智能算法
完整代码：https://download.csdn.net/download/pythonyanyan/87430621背景目前，情感倾向分析的方法主要分为两类：一种是基于情感词典的方法；一种是基于机器学习的方法，如基于大规模语料库的机器学习。前者需要用到标注好的情感词典，英文的词典有很多，中文主要有知网整理的情感词典Hownet和台湾大学整理发布的NTUSD两个情感词典，还有哈工大信息检索研究
机器学习算法实战——天气数据分析（主页有源码）喵了个AI 机器学习实战机器学习算法数据分析
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.引言天气数据分析是气象学和数据科学交叉领域的一个重要研究方向。随着大数据技术的发展，气象数据的采集、存储和分析能力得到了显著提升。机器学习算法在天气数据分析中的应用，不仅能够提高天气预报的准确性，还能为气候研究、灾害预警等提供有力支持。本文将介绍机器学习在天气数据分析中的应用，探讨
【Python机器学习】2.2. 聚类分析算法理论：K均值聚类(KMeans Analysis)、KNN(K近邻分类)、均值漂移聚类(MeanShift) SomeB1oody Python机器学习机器学习算法 python 聚类分类算法
喜欢的话别忘了点赞、收藏加关注哦（关注即可查看全文），对接下来的教程有兴趣的可以关注专栏。谢谢喵！(=･ω･=)2.2.1.K均值聚类(KMeansAnalysis)K均值算法是以空间中K个点为中心进行聚类，对最靠近他们的对象归类，是聚类算法中最为基础但也最为重要的算法。数学原理计算数据点与各簇中心点的距离：dist(xi,ujt){dist}(x_i,u_j^t)dist(xi,ujt)然后根据
Julia语言的学习路线樟松包罗万象 golang 开发语言后端
Julia语言学习路线指南引言在编程语言层出不穷的今天，Julia作为一门新兴的高级编程语言，以其出色的性能和易用性逐渐获得了越来越多的关注。特别是在科学计算、数据分析和机器学习等领域，Julia的表现十分出色，成为研究人员和开发者的热门选择。本文将为希望学习Julia语言的读者提供一条详细的学习路线，包括基础知识、工具、库、项目和实践经验等，帮助大家有效地掌握这门语言。一、了解Julia语言在开
【机器学习】基于t-SNE数据可视化工程无水先生 AI原理和python实现人工智能综合人工智能算法
一、说明t-SNE(t-DistributedStochasticNeighborEmbedding)是一种常用的非线性降维技术。它可以将高维数据映射到一个低维空间（通常是2D或3D）来便于可视化。Scikit-learnAPI提供TSNE类，以使用T-SNE方法可视化数据。在本教程中，我们将简要学习如何在Python中使用TSNE拟合和可视化数据。二、t-SNE是个什么？2.1什么是t-SNE？
数据处理和分析之数据降维：t-SNE：使用t-SNE进行数据可视化实践 kkchenkx 数据挖掘信息可视化算法聚类均值算法数据挖掘机器学习
数据处理和分析之数据降维：t-SNE：使用t-SNE进行数据可视化实践数据降维简介降维技术的重要性在数据科学和机器学习领域，数据降维是一种关键的技术，用于减少数据集的维度，同时保留数据的结构和重要信息。降维不仅可以帮助我们更有效地存储和处理数据，还能在高维数据中发现潜在的模式和结构，这对于数据可视化和模型训练尤为重要。高维数据往往难以直观理解，通过降维，我们可以将其转换为二维或三维空间，便于可视化
数据分布偏移检测：保障模型在生产环境中的稳定性 trust Tomorrow 机器学习 python 机器学习人工智能深度学习
数据分布偏移检测：保障模型在生产环境中的稳定性引言在机器学习系统从开发环境部署到生产环境的过程中，数据分布偏移问题是影响模型性能的主要挑战之一。当训练数据与生产环境中的数据分布不一致时，即使是经过精心调优的模型也可能表现出明显的性能下降。本文将深入探讨数据分布偏移的检测方法，并提供一套系统化的解决方案，帮助读者构建更加稳健的机器学习系统。1.数据分布偏移问题概述1.1分布偏移的类型数据分布偏移主要
基于热力梯度的线圈设计用来更替新型的储能方式热爱电气数学建模
摘要研究背景：传统电磁储能技术受限于较低的能量密度（约1-5Wh/kg）和充放电速度。热力梯度储能技术通过调控温度场实现多模式能量转换，其潜力能量密度可达100Wh/kg以上。创新点：1.提出三层异质线圈结构（铜基主储层+Bi₂Te₃热电转换层+GdFeO₃磁热调谐层），实现温度梯度与磁场的协同调控。2.开发动态热-电-磁耦合模型，结合有限元分析（COMSOL）与机器学习算法（遗传算法优化参数）。
【机器学习】skit-learn中LSI模型的实现一穷二白到年薪百万机器学习 python sklearn
参考文献[1]sklearn_api.lsimodel–ScikitlearnwrapperforLatentSemanticIndexing[2]Pythonmodels.LsiModel方法代码示例
Transformer动画讲解 - 工作原理 ghx3110 transformer 深度学习人工智能
Transformer模型在多模态数据处理中扮演着重要角色，其能够高效、准确地处理包含不同类型（如图像、文本、音频、视频等）的多模态数据。Transformer工作原理四部曲：Embedding（向量化）、Attention（注意力机制）、MLPs（多层感知机）和Unembedding（模型输出）。阶段一：Embedding（向量化）“Embedding”在字面上的翻译是“嵌入”，但在机器学习和自
Java：AI 浪潮中的隐形支柱 —— 探秘 Java 在人工智能领域的独特地位琢磨先生David 人工智能
引言在人工智能技术席卷全球的今天，当人们谈论AI开发时，Python、R语言、C++等工具总是最先被提及。然而在这个充满创新的领域，有一个"老兵"正悄然发挥着不可替代的作用——自1995年诞生至今的Java语言，凭借其独特的工程化基因，正在构建起AI世界的底层基础设施。本文将揭示Java如何在大数据、机器学习、企业级AI系统等领域持续创造价值。一、Java的AI基因解码跨平台优势的现代意义"一次编
【大一新生必收藏系列】❤机器学习7大方面，30个数据集。纯干货分享❤ .Boss. 机器学习人工智能 python 算法开发语言笔记 #大一新生
.记住了就可以跟同学装起来了嗷....目录.纯干货回归问题分类问题图像分类文本情感分析自然语言处理自动驾驶金融类...........纯干货..................在刚刚开始学习算法的时候，大家有没有过这种感觉，最最重要的那必须是算法本身！其实在一定程度上忽略了数据的重要性。而事实上一定是，质量高的数据集可能是最重要的！数据集在机器学习算法项目中具有非常关键的重要性，数据集的大小、质量
机器学习中的梯度到底是什么？（chat-gpt问答）湫怿机器学习 gpt 人工智能梯度
1、梯度是对损失函数求导吗？是的，梯度是对损失函数（或目标函数）求导数值化后的结果。梯度告诉我们目标函数在某个点上的方向性和变化率，这些信息是优化算法推进参数评估和更新的重要指标。在机器学习中，我们通过不断调整参数，使目标函数达到最小值，从而实现模型的训练和学习。2、为什么梯度要求偏导来求解？梯度是一个向量，它的方向指向函数值增加最快的方向，其大小表示函数值的变化率。为了确定梯度的方向和大小，需要
机器学习中的梯度下降是什么意思？ yuanpan 机器学习人工智能
梯度下降（GradientDescent）是机器学习中一种常用的优化算法，用于最小化损失函数（LossFunction）。通过迭代调整模型参数，梯度下降帮助模型逐步逼近最优解，从而提升模型的性能。1.核心思想梯度下降的核心思想是利用损失函数的梯度（即导数）来指导参数的更新方向。具体来说：梯度：梯度是损失函数对模型参数的偏导数，表示损失函数在当前参数点上的变化率。下降：通过沿着梯度的反方向（即损失函
CIR-DFENet：结合跨模态图像表示和双流特征增强网络进行活动识别是Dream呀神经网络计算机视觉人工智能神经网络深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和求职工作的先行者！【优惠信息】•新专栏订阅前200名享9.9元优惠•订阅量破200
机器学习-----决策树多巴胺与内啡肽. 机器学习机器学习决策树人工智能
文章目录1、概念2.决策树的构建过程2.1特征选择2.2树的生成2.3树的剪枝3.决策树的优缺点4.决策树的应用4.1分类任务4.2回归任务4.3集成学习代码示例总结1、概念1.1决策树是什么决策树是通过对样本的训练，建立出分类规则，并对新样本进行预测，属于有监督学习。根节点：最上面的节点。叶子节点：能直接看到结果的节点。非叶子节点：位于中间的节点。1.2决策树的类型分类树：用于分类任务，叶节点代
机器学习驱动的智能化电池管理技术与应用萌萌可爱郭德纲机器学习人工智能
电池管理技术概述电池的工作原理与关键性能指标电池管理系统的核心功能ØSOC估计ØSOH估计Ø寿命预测Ø故障诊断人工智能机器学习基础人工智能的发展机器学习的关键概念机器学习在电池管理中的应用案例介绍人工智能在电池荷电状态估计中的应用荷电状态估计方法概述基于迁移学习的SOC估计(1)基于迁移学习的SOC估计方法数据集、估计框架、估计结果(2)全生命周期下的SOC估计方法数据集、估计框架、估计结果基于数
机器学习_重要知识点整理嘉羽很烦机器学习机器学习
机器学习重要知识点整理一、数学与理论基础1.概率与统计术语作用使用场景概率分布描述随机变量的取值概率，如正态分布、二项分布。数据建模（如高斯分布假设）、生成模型（如贝叶斯网络）。贝叶斯定理计算条件概率，更新先验知识以获得后验概率。贝叶斯分类器、文本分类（如垃圾邮件检测）。最大似然估计（MLE）通过数据最大化似然函数，估计模型参数。线性回归、逻辑回归参数估计。假设检验判断假设是否成立（如t检验、卡方
用Python打造智能家居安防系统，让科技守护你的家 Echo_Wish Python 笔记 Python 算法 python 智能家居科技
友友们好！我是Echo_Wish，我的的新专栏《Python进阶》以及《Python！实战！》正式启动啦！这是专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发
Java对比Python，谁才是编程王者？ Java学研大本营 python java 开发语言
Python和Java是目前编程最受欢迎的两种语言，本文从多角度比较二者的相同点和差异，帮助你更深入地了解两种语言的特点，最终能根据你自身的需求来进行选择。微信搜索关注《Java学研大本营》Python和Java是当今世界上最流行的两种编程语言。两者都被广泛用于各种行业和应用，从网络开发到机器学习再到数据分析。但是这两种语言哪个更好呢？在这本中，我们将多方面比较Python和Java，探索二者的历
HarmonyNext深度解析：ArkUI高效渲染与性能优化实战披光人 harmonyOS ubuntu linux 运维
一、HarmonyNext渲染引擎技术演进（约1200字技术解析）HarmonyOSNext在UI渲染架构层面实现了重大突破，其创新的ArkUI渲染引擎采用分层异步架构设计。核心改进包括：原子化渲染管线采用基于Vulkan的跨平台渲染后端，通过原子化渲染指令拆分技术，实现绘制指令的并行执行能力。在华为Mate60系列实测中，复杂界面渲染延迟降低42%智能脏区检测机制基于机器学习的区域更新预测算法，
Python多版本环境管理UV 坐吃山猪 Python python uv 开发语言
Python多版本环境管理UV1-参考网址Python虚拟环境UV管理工具-官网Python虚拟环境UV管理工具-快速开始pyproject.toml使用指导2-核心知识点1）python项目维护requirements.txt2）python机器学习环境Anaconda3）python轻量级环境管理uv4）uvx快速上手使用3-上手实操1-安装UV虚拟环境管理工具UV官网安装教程#Windows
数据架构与机器学习：如何构建智能系统 AI天才研究院 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍机器学习（MachineLearning）是一种使计算机程序在未被明确编程的情况下，通过经验的学习自动改善其行为的技术。机器学习的目标是使计算机能够自主地从数据中学习，以便在未来的问题中做出更好的决策。数据架构（DataArchitecture）是一种用于有效管理、存储和处理数据的系统结构和组件。数据架构涉及到数据的收集、存储、处理和分析，以及数据的存储和传输。数据架构是构建智能系统的
超详细的Numpy基础教程！！！不会爬虫的闲鱼 numpy 数据分析 python
Numpy是一个开源的Python库，用于支持大型多维数组和矩阵运算，同时提供了大量的数学函数库。它是科学计算中非常重要的工具。Numpy在数据科学中非常重要，因为它提供了高效的数组处理能力和广泛的数学函数库，这对于处理大规模数据集、进行科学计算和机器学习等任务至关重要。一、安装与设置如何安装Numpypipinstallnumpy验证安装的方法importnumpyprint(numpy.__v
Python 科学计算与机器学习入门：NumPy + Scikit-Learn 实战指南吴师兄大模型 python numpy scikit-learn 人工智能开发语言机器学习编程
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio