lilong117194

奇异值分解SVD与PCA

首先：奇异值分解是一个有着很明显的物理意义的一种方法，它可以将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示，这些小矩阵描述的是矩阵的重要的特性。

1. 奇异值与特征值基础知识

特征值分解和奇异值分解的目的都是一样，就是提取出一个矩阵最重要的特征。

1.1 特征值

如果说一个向量v是方阵A的特征向量，将一定可以表示成下面的形式：

A v = λ v

这时候λ就被称为特征向量v对应的特征值，一个矩阵的一组特征向量是一组正交向量。特征值分解是将一个矩阵分解成下面的形式：

A = Q Σ Q - 1

其中Q是这个矩阵A的特征向量组成的矩阵，Σ是一个对角阵，每一个对角线上的元素就是一个特征值。其实一个矩阵其实就是一个线性变换，因为一个矩阵乘以一个向量后得到的向量，其实就相当于将这个向量进行了线性变换。

比如说下面的一个对称矩阵：
$M = [3001]$
矩阵M乘以一个向量(x,y)的结果是：
$[3001] [x y] = [3 x y]$
上面的矩阵是对称的，所以这个变换是一个对x，y轴的方向一个拉伸变换（每一个对角线上的元素将会对一个维度进行拉伸变换，当值>1时，是拉长，当值<1时时缩短）。
当矩阵不是对称的时候，假如说矩阵是下面的样子：
$M = [1011]$
这其实是在平面上的一个主要方向进行的拉伸变换（变化方向可能有不止一个），想要描述好一个变换，那就描述好这个变换主要的变化方向。反过头来看看之前特征值分解的式子，分解得到的 Σ 矩阵是一个对角阵，里面的特征值是由大到小排列的，这些特征值所对应的特征向量就是描述这个矩阵变化方向（从主要的变化到次要的变化排列），但此处要注意的是特征值分解时变换的矩阵必须是方阵。

1.2 奇异值

特征值分解是一个提取矩阵特征很不错的方法，但是它只是对方阵而言的，在现实的世界中，我们看到的大部分矩阵都不是方阵，奇异值分解可以用来干这个事情，奇异值分解是一个能适用于任意的矩阵的一种分解的方法：

A = U Σ V T

假设A是一个 N∗M 的矩阵，那么得到的U是一个 N∗N 的方阵（里面的向量是正交的， U 里面的向量称为左奇异向量）， Σ 是一个 N∗M 的矩阵（除了对角线的元素都是0，对角线上的元素称为奇异值）， VT (V的转置)是一个 N∗N 的矩阵，里面的向量也是正交的， V 里面的向量称为右奇异向量）。
矩阵 Σ 中也是从大到小排列，而且奇异值的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说，我们也可以用前r大的奇异值来近似描述矩阵。
从下图可以反映几个相乘的矩阵：

最下面右边的三个矩阵相乘的结果将会是一个接近于A的矩阵，在这儿，r越接近于n，则相乘的结果越接近于A。而这三个矩阵的占用存储远小于原始的矩阵A，比如：原始矩阵 10∗8=80 ，而奇异值分解后： 10∗2+2∗2+2∗8=40 ，可以看出压缩了一半。

2. PCA的数学原理

这里我想把PCA 的理论精要的做个笔记：

PCA（Principal Component Analysis）是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。

2.1 数据的向量表示及降维问题

一般情况下，在数据挖掘和机器学习中，数据被表示为向量。注意这里用的是转置，因为习惯上使用列向量表示一条记录。
降维的朴素思想很容易理解，但并不具有操作指导意义。例如，我们到底删除哪一列损失的信息才最小？亦或根本不是单纯删除几列，而是通过某些变换将原始数据变为更少的列但又使得丢失的信息最小？到底如何度量丢失信息的多少？如何根据原始数据决定具体的降维操作步骤？

要回答上面的问题，就要对降维问题进行数学化和形式化的讨论。而PCA是一种具有严格数学基础并且已被广泛采用的降维方法。下面我不会直接描述PCA，而是通过逐步分析问题。

2.2 向量的表示及基变换

既然我们面对的数据被抽象为一组向量，那么下面有必要研究一些向量的数学性质。

内积
两个维数相同的向量的内积被定义为：
$(a 1, a 2, \dots, a n) T \cdot (b 1, b 2, \dots, b n) T = a 1 b 1 + a 2 b 2 + \dots + a n b n$
内积运算将两个向量映射为一个实数。其计算方式非常容易理解，下面我们分析内积的几何意义。假设A和B是两个n维向量，我们知道n维向量可以等价表示为n维空间中的一条从原点发射的有向线段，为了简单起见我们假设A和B均为二维向量，则 A=(x1,y1)，B=(x2,y2) 。
现在我们从A点向B所在直线引一条垂线。我们知道垂线与B的交点叫做A在B上的投影，再设A与B的夹角是a，如果我们将内积表示为另一种我们熟悉的形式：
$A \cdot B = | A | | B | c o s (α)$
A与B的内积等于A到B的投影长度乘以B的模。再进一步，如果我们假设B的模为1，即让 |B|=1 ，那么就变成了：
$A \cdot B = | A | c o s (a)$
也就是说，设向量B的模为1，则A与B的内积值等于A向B所在直线投影的矢量长度！这就是内积的一种几何解释。

2.3 基

在代数表示方面，我们经常用线段终点的点坐标表示向量，例如上面的向量可以表示为(3,2)，这是我们再熟悉不过的向量表示。

不过我们常常忽略，只有一个 (3,2) 本身是不能够精确表示一个向量的。我们仔细看一下，这里的3实际表示的是向量在x轴上的投影值是3，在y轴上的投影值是2。也就是说我们其实隐式引入了一个定义：以x轴和y轴上正方向长度为1的向量为标准。那么一个向量 (3,2) 实际是说在x轴投影为3而y轴的投影为2。注意投影是一个矢量，所以可以为负。

更正式的说，向量(x,y)实际上表示线性组合：

x (1, 0) T + y (0, 1) T

不难证明所有二维向量都可以表示为这样的线性组合。此处(1,0)和(0,1)叫做二维空间中的一组基。

所以，要准确描述向量，首先要确定一组基，然后给出在基所在的各个直线上的投影值，就可以了。只不过我们经常省略第一步，而默认以 (1,0) 和 (0,1) 为基。

这里之所以默认选择 (1,0) 和 (0,1) 为基，当然是比较方便，因为它们分别是x和y轴正方向上的单位向量，因此就使得二维平面上点坐标和向量一一对应，非常方便。但实际上任何两个线性无关的二维向量都可以成为一组基，所谓线性无关在二维平面内可以直观认为是两个不在一条直线上的向量。

(1,1) 和 (−1,1) 也可以成为一组基。一般来说，我们希望基的模是1，因为从内积的意义可以看到，如果基的模是1，那么就可以方便的用向量点乘基而直接获得其在新基上的坐标了！实际上，对应任何一个向量我们总可以找到其同方向上模为1的向量，只要让两个分量分别除以模就好了。例如，上面的基可以变为 (12√,12√) 和
(−12√,12√)
现在，我们想获得 (3,2) 在新基上的坐标，即在两个方向上的投影矢量值，那么根据内积的几何意义，我们只要分别计算(3,2)和两个基的内积，不难得到新的坐标为 (52√,−12√) 。

另外这里要注意的是，我们列举的例子中基是正交的（即内积为0，或直观说相互垂直），但可以成为一组基的唯一要求就是线性无关，非正交的基也是可以的。不过因为正交基有较好的性质，所以一般使用的基都是正交的。

2.4 基变换的矩阵表示

下面我们找一种简便的方式来表示基变换。还是拿上面的例子，想一下，将 (3,2) 变换为新基上的坐标，就是用 (3,2) 与第一个基做内积运算，作为第一个新的坐标分量，然后用 (3,2) 与第二个基做内积运算，作为第二个新坐标的分量。实际上，我们可以用矩阵相乘的形式简洁的表示这个变换：

⎛ ⎝ ⎜ ⎜ ⎜ 1 2 \sqrt - 1 2 \sqrt 1 2 \sqrt 1 2 \sqrt ⎞ ⎠ ⎟ ⎟ ⎟ (32) = ⎛ ⎝ ⎜ ⎜ ⎜ 5 2 \sqrt - 1 2 \sqrt ⎞ ⎠ ⎟ ⎟ ⎟

其中矩阵的两行分别为两个基，乘以原向量，其结果刚好为新基的坐标，可以以此推广下去。

一般的，如果我们有M个N维向量，想将其变换为由R个N维向量表示的新空间中，那么首先将R个基按行组成矩阵A，然后将向量按列组成矩阵B，那么两矩阵的乘积AB就是变换结果，其中AB的第m列为A中第m列变换后的结果。

数学表示为：

其中 pi 是一个行向量，表示第i个基， aj 是一个列向量，表示第j个原始数据记录。

特别要注意的是，这里R可以小于N，而R决定了变换后数据的维数。也就是说，我们可以将一N维数据变换到更低维度的空间中去，变换后的维度取决于基的数量。因此这种矩阵相乘的表示也可以表示降维变换。

最后，上述分析同时给矩阵相乘找到了一种物理解释：两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每一行行向量为基所表示的空间中去。更抽象的说，一个矩阵可以表示一种线性变换。在学线性代数时对矩阵相乘的方法感到奇怪，但是如果明白了矩阵相乘的物理意义，其合理性就一目了然了。

2.5 协方差矩阵及优化目标

上面我们讨论了选择不同的基可以对同样一组数据给出不同的表示，而且如果基的数量少于向量本身的维数，则可以达到降维的效果。但是我们还没有回答一个最最关键的问题：如何选择基才是最优的。或者说，如果我们有一组N维向量，现在要将其降到K维（K小于N），那么我们应该如何选择K个基才能最大程度保留原有的信息？

这里我们用一种非形式化的直观方法来看这个问题：
为了避免过于抽象的讨论，我们仍以一个具体的例子展开。假设我们的数据由五条记录组成，将它们表示成矩阵形式：

(1113234424)

其中每一列为一条数据记录，而一行为一个字段。为了后续处理方便，我们首先将每个字段内所有值都减去字段均值，其结果是将每个字段都变为均值为0。
得到：

(- 1 - 2 - 1 0 002101)

如果我们必须使用一维来表示这些数据，又希望尽量保留原始的信息，你要如何选择？

通过上一节对基变换的讨论我们知道，这个问题实际上是要在二维平面中选择一个方向，将所有数据都投影到这个方向所在直线上，用投影值表示原始记录。这是一个实际的二维降到一维的问题。

那么如何选择这个方向（或者说基）才能尽量保留最多的原始信息呢？一种直观的看法是：希望投影后的投影值尽可能分散。

2.6 方差

我们希望投影后投影值尽可能分散，而这种分散程度，可以用数学上的方差来表述。此处，一个字段的方差可以看做是每个元素与字段均值的差的平方和的均值，即：

V a r (a) = 1 m \sum i = 1 m (a i - μ) 2

由于上面我们已经将每个字段的均值都化为0了，因此方差可以直接用每个元素的平方和除以元素个数表示：

V a r (a) = 1 m \sum i = 1 m a 2 i

于是上面的问题被形式化表述为：寻找一个一维基，使得所有数据变换为这个基上的坐标表示后，方差值最大。

2.7 协方差

最终要达到的目的与字段内方差及字段间协方差有密切关系。因此我们希望能将两者统一表示，仔细观察发现，两者均可以表示为内积的形式，而内积又与矩阵相乘密切相关。于是假设我们只有a和b两个字段，那么我们将它们按行组成矩阵X：

(a 1 b 1 a 2 b 2 \dots \dots a m b m)

然后我们用X乘以X的转置，并乘上系数

1m ：

1 m X X T = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ 1 m \sum i = 1 m a 2 i 1 m \sum i = 1 m a i b i 1 m \sum i = 1 m a i b i 1 m \sum i = 1 m b 2 i ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟

这个矩阵对角线上的两个元素分别是两个字段的方差，而其它元素是a和b的协方差。两者被统一到了一个矩阵的。

根据矩阵相乘的运算法则，这个结论很容易被推广到一般情况：

设我们有m个n维数据记录，将其按列排成n乘m的矩阵X，设 C=1mXXTC ，则C是一个对称矩阵，其对角线分别个各个字段的方差，而第i行j列和j行i列元素相同，表示i和j两个字段的协方差。

2.8 协方差矩阵对角化

根据上述推导，我们发现要达到优化目前，等价于将协方差矩阵对角化：即除对角线外的其它元素化为0，并且在对角线上将元素按大小从上到下排列，这样我们就达到了优化目的。进一步看下原矩阵与基变换后矩阵协方差矩阵的关系：

设原始数据矩阵X对应的协方差矩阵为C，而P是一组基按行组成的矩阵，设Y=PX，则Y为X对P做基变换后的数据。设Y的协方差矩阵为D，我们推导一下D与C的关系：

D = 1 m Y Y T = 1 m (P X) (P X) T = 1 m P X X T P T = P (1 m X X T) P T = P C P T

此时可以看出：
我们要找的P不是别的，而是能让原始协方差矩阵对角化的P。换句话说，优化目标变成了寻找一个矩阵P，满足 PCPT 是一个对角矩阵，并且对角元素按从大到小依次排列，那么P的前K行就是要寻找的基，用P的前K行组成的矩阵乘以X就使得X从N维降到了K维并满足上述优化条件。

现在所有焦点都聚焦在了协方差矩阵对角化问题上，这在数学上根本不是问题。由上文知道，协方差矩阵C是一个是对称矩阵，在线性代数上，实对称矩阵有一系列非常好的性质：

实对称矩阵不同特征值对应的特征向量必然正交。
设特征向量λ重数为r，则必然存在r个线性无关的特征向量对应于λλ，因此可以将这r个特征向量单位正交化。

由上面两条可知，一个n行n列的实对称矩阵一定可以找到n个单位正交特征向量，设这n个特征向量为 e1,e2,⋯,en ，我们将其按列组成矩阵：

E = (e 1, e 2 \dots e n)

则对协方差矩阵C有如下结论：

到这里，我们发现我们已经找到了需要的矩阵P：

P = E T

P是协方差矩阵的特征向量单位化后按行排列出的矩阵，其中每一行都是C的一个特征向量。如果设P按照

Λ 中特征值的从大到小，将特征向量从上到下排列，则用P的前K行组成的矩阵乘以原始数据矩阵X，就得到了我们需要的降维后的数据矩阵Y。

3. 奇异值与主成分分析（PCA）

这里主要谈谈如何用SVD去解PCA的问题：

3.1 PCA

PCA的问题其实是一个基的变换，使得变换后的数据有着最大的方差。方差的大小描述的是一个变量的信息量，我们在讲一个东西的稳定性的时候，往往说要减小方差，如果一个模型的方差很大，那就说明模型不稳定了。但是对于用于机器学习的数据（主要是训练数据），方差大才有意义，不然输入的数据都是同一个点，那方差就为0了，这样输入的多个数据就等同于一个数据了。以下面这张图为例子：

假如我们想要用一条直线去拟合这些点，那我们会选择什么方向的线呢？当然是图上标有signal的那条线。如果我们把这些点单纯的投影到x轴或者y轴上，最后在x轴与y轴上得到的方差是相似的（因为这些点的趋势是在45度左右的方向，所以投影到x轴或者y轴上都是类似的），如果我们使用原来的xy坐标系去看这些点，容易看不出来这些点真正的方向是什么。但是如果我们进行坐标系的变化，横轴变成了signal的方向，纵轴变成了noise的方向，则就很容易发现什么方向的方差大，什么方向的方差小了。

一般来说，方差大的方向是信号的方向，方差小的方向是噪声的方向，我们在数据挖掘中或者数字信号处理中，往往要提高信号与噪声的比例，也就是信噪比。对上图来说，如果我们只保留signal方向的数据，也可以对原数据进行不错的近似了。

PCA的全部工作简单点说，就是对原始的空间中顺序地找一组相互正交的坐标轴，第一个轴是使得方差最大的，第二个轴是在与第一个轴正交的平面中使得方差最大的，第三个轴是在与第1、2个轴正交的平面中方差最大的，这样假设在N维空间中，我们可以找到N个这样的坐标轴，我们取前r个去近似这个空间，这样就从一个N维的空间压缩到r维的空间了，但是我们选择的r个坐标轴能够使得空间的压缩使得数据的损失最小。

这就是机器学习实战中PCA的移动坐标轴的原理。

3.2 SVD

假设我们矩阵每一行表示一个样本，每一列表示一个feature，将一个m * n的矩阵A变换成一个m * r的矩阵，这样就会使得本来有n个feature的，变成了有r个feature了（r < n)，这r个其实就是对n个feature的一种提炼，我们就把这个称为feature的压缩。用数学语言表示就是：

A m \times n P n \times r = A^m \times r

SVD得出的奇异向量也是从奇异值由大到小排列的，按PCA的观点来看，就是方差最大的坐标轴就是第一个奇异向量，方差次大的坐标轴就是第二个奇异向量…
和之前得到的SVD式子对比：

A m \times n \approx U m \times r Σ r \times r V T r \times n

在矩阵的两边同时乘上一个矩阵

V ，由于

V 是一个正交的矩阵，所以

VTV=I ，所以可以化成后面的式子：

A m \times n V n \times r A m \times n V n \times r \approx \approx U m \times r Σ r \times r V T r \times n V r \times n U m \times r Σ r \times r

这里是将一个

m∗n 的矩阵压缩到一个

m∗r 的矩阵，也就是对列进行压缩，如果我们想对行进行压缩，类似于列压缩的形式，只需在

Am×n≈Um×rΣr×rVTr×n 两边左乘

UT ，这样就得到了对行进行压缩的式子。可以看出，其实PCA几乎可以说是对SVD的一个包装，如果我们实现了SVD，那也就实现了PCA了，而且更好的地方是，有了SVD，我们就可以得到两个方向的PCA，如果我们对

ATA 进行特征值的分解，只能得到一个方向的PCA。

参考：
https://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html

http://blog.codinglabs.org/articles/pca-tutorial.html

Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
深度学习算法，该如何深入，举例说明 liyy614 深度学习
深度学习算法的深入学习可以从理论和实践两个方面进行。理论上，深入理解深度学习需要掌握数学基础（如线性代数、概率论、微积分）、机器学习基础和深度学习框架原理。实践上，可以通过实现和优化深度学习模型来提升技能。理论深入数学基础线性代数：理解向量、矩阵、特征值和特征向量等，对于理解神经网络的权重和偏置矩阵至关重要。概率论：用于理解模型的不确定性，如Dropout等正则化技术。微积分：理解梯度下降等优化算
Python 机器学习基础之数据表示与特征工程【分箱、离散化、线性模型与树 / 交互特征与多项式特征】的简单说明仙魁XAN Python 机器学习基础+实战案例机器学习 python 分箱离散化线性模型与树交互特征与多项式特征
Python机器学习基础之数据表示与特征工程【分箱、离散化、线性模型与树/交互特征与多项式特征】的简单说明目录Python机器学习基础之数据表示与特征工程【分箱、离散化、线性模型与树/交互特征与多项式特征】的简单说明一、简单介绍二、分箱、离散化、线性模型与树三、交互特征与多项式特征附录一、参考文献一、简单介绍Python是一种跨平台的计算机程序设计语言。是一种面向对象的动态类型语言，最初被设计用于
机器学习基础（四）——决策树与随机森林 Bayesian小孙机器学习基础决策树机器学习随机森林
决策树与随机森林文章目录决策树与随机森林一、知识概要（一）二、决策树使用的算法三、sklearn决策树API四、决策树的案例1.数据清洗2.特征工程3.调用决策树API五、集成学习方法-随机森林1.知识概要（二）2.集成学习API3.随机森林的案例importpandasaspdfromsklearn.feature_extractionimportDictVectorizerfromsklear
【机器学习基础】Anaconda与Pycharm使用叫我东方小巴黎机器学习基础人工智能
这里写目录标题指定py版本安装包指定py版本安装包condaenvlistactivatexxxcondalistpipinstallxxx
Datawhale X 李宏毅苹果书 AI夏令营｜机器学习基础之案例学习 Monyan 人工智能机器学习学习李宏毅深度学习
机器学习（MachineLearning,ML）：机器具有学习的能力，即让机器具备找一个函数的能力函数不同，机器学习的类别不同：回归（regression）：找到的函数的输出是一个数值或标量（scalar）。例如：机器学习预测某一个时间段内的PM2.5，机器要找到一个函数f，输入是跟PM2.5有关的的指数，输出是明天中午的PM2.5的值。分类（classification）：让机器做选择题，先准备
应用数学与机器学习基础 - 线性代数篇绎岚科技机器学习深度学习机器学习线性代数
线性代数1.标量、向量、矩阵、张量学习线性代数，会涉及以下几个数学概念：标量（scalar）：定义：一个标量就是一个单数的数，不同于线性代数中大多数概念会涉及到多个数。表示法：我们用斜体表示标量。标量通常赋予小写的变量名称。当我们介绍标量时，会明确它们是哪种类型的数。比如，在定义实数标量时，我们可能会说”让s∈Rs\in\mathbb{R}s∈R表示一条线的斜率“；在定义自然数标量时，我们可能会说
机器学习基础篇（八）——逻辑回归柚子味的羊数据分析机器学习机器学习算法逻辑回归
机器学习基础篇（八）——逻辑回归一、简介分类问题是机器学习中常见的一种问题，而逻辑回归则是非常适合二分类问题的一种算法。逻辑回归可以将数据集中的点划分成为两个类别。例如，我们可以将数据分成A类和B类。模型将给出特定数据点属于B类的概率，如果它低于0.5，那么就属于A类。如果高于0.5，那么该数据点属于B类。（大部分情况下阈值设为0.5，特定情况下也可以设置为其他值）举个栗子如图所示，学生考试是否成
深度学习如何入门？ nanshaws yolov5 深度学习
深度学习是机器学习的一个子领域，它基于人工神经网络的研究。入门深度学习可以分为以下几个步骤：基础知识准备：（1）掌握基础数学知识，特别是线性代数、概率论和统计学、微积分。（2）学习编程语言，Python是目前最流行的深度学习语言，因其简洁易学且有大量的库支持。（3）了解机器学习基础，包括监督学习和非监督学习的概念、模型评估与选择等。学习深度学习理论：（1）理解神经网络的基本组成，如神经元、激活函数
【机器学习基础】正则化为梦而生~ 机器学习机器学习人工智能
个人主页：为梦而生~关注我一起学习吧！专栏：机器学习欢迎订阅！后面的内容会越来越有意思~⭐特别提醒：针对机器学习，特别开始专栏：机器学习python实战欢迎订阅！本专栏针对机器学习基础专栏的理论知识，利用python代码进行实际展示，真正做到从基础到实战！往期推荐：【机器学习基础】机器学习入门（1）【机器学习基础】机器学习入门（2）【机器学习基础】机器学习的基本术语【机器学习基础】机器学习的模型评
机器学习基础（一）理解机器学习的本质昊昊该干饭了人工智能 python 机器学习人工智能 python
导读：在本文中，将深入探索机器学习的根本原理，包括基本概念、分类及如何通过构建预测模型来应用这些理论。目录机器学习机器学习概念相关概念机器学习根本：模型数据的语言：特征与标签训练与测试：模型评估机器学习的分类监督学习：有指导的学习过程非监督学习：自我探索的过程强化学习：通过试错学习构建与分析鸢尾花数据模型鸢尾花数据集简介加载数据集创建和训练模型进行预测与评估模型机器学习机器学习概念机器学习是人工智
【深度学习】讲透深度学习第3篇：TensorFlow张量操作（代码文档已分享）
本系列文章md笔记（已分享）主要讨论深度学习相关知识。可以让大家熟练掌握机器学习基础,如分类、回归（含代码），熟练掌握numpy,pandas,sklearn等框架使用。在算法上，掌握神经网络的数学原理，手动实现简单的神经网络结构，在应用上熟练掌握TensorFlow框架使用，掌握神经网络图像相关案例。具体包括：TensorFlow的数据流图结构，神经网络与tf.keras，卷积神经网络(CNN)
四、机器学习基础概念介绍 ITS_Oaij 脑电机器学习机器学习人工智能
四、机器学习基础概念介绍1_机器学习基础概念机器学习分类1.1有监督学习1.2无监督学习2_有监督机器学习—常见评估方法数据集的划分2.1留出法2.2校验验证法（重点方法）简单交叉验证K折交叉验证（单独流出测试集）（常用方法/Sklearn的默认方法）k折交叉验证（不单独留出测试集）留一法交叉验证Subject-wise交叉验证2.3bootstrap自助法3_有监督机器学习—学习评价指标3.1准
【机器学习 & 深度学习】开发工具Anaconda的安装与使用为梦而生~ 机器学习python实战机器学习深度学习 python conda pycharm 人工智能
个人主页：为梦而生~关注我一起学习吧！专栏：机器学习：相对完整的机器学习基础教学！机器学习python实战：用python带你感受真实的机器学习深度学习：现代人工智能的主流技术介绍往期推荐：【机器学习&深度学习】神经网络简述【机器学习&深度学习】卷积神经网络学习笔记【Python基础&机器学习】Python环境搭建（适合新手阅读的超详细教程）文章目录前言安装Anaconda关于Anaconda的介
跨模态行人重识别都需要学什么 ALGORITHM LOL 人工智能
跨模态行人重识别（Cross-ModalityPersonRe-identification,简称Cross-ModalityRe-ID）是计算机视觉领域的一项挑战性任务，旨在跨越不同模态之间（例如，可见光与红外线图像）识别同一行人。该任务涉及图像处理、特征提取、模态转换、深度学习等多个方面。1.基础知识计算机视觉与图像处理：理解图像基础（如像素、色彩空间）、图像变换、图像增强技术。机器学习基础：
ChatGPT学习大纲冷暖从容 ChatGPT chatgpt 学习人工智能
引言在2023年2月份左右开始使用ChatGPT时，就被它强大的理解能力和应答效果所折服，这期间一直在断断续续的学习和使用，也没形成一个完整的学习过程，最近刚好有空，就寻思着好好再学习总结一下，故写出了ChatGPT学习系列的文章，供与大家学习交流。第1周-ChatGPT基础知识ChatGPT简介了解ChatGPT的基本功能和应用场景。人工智能与机器学习基础学习AI和机器学习的基本概念，为理解
机器学习概述及流程机智的冷露机器学习人工智能机器学习 python
概述一、目标1、掌握机器学习基础环境安装2、掌握常用的科学计算库对数据进行展示、分析二、人工智能三要素1、数据2、算法2、算力：CPU适合I/O密集型程序，GPU适合计算密集型和易于并行的程序。三、人工智能主要分支1、计算机视觉（CV）2、自然语言处理（NLP）：文本挖掘/分类、机器翻译、语音识别3、机器人四、机器学习工作流程简介从数据中自动分析获得模型，再利用模型对未知数据进行预测。1、获取数据
机器学习基础——matplotlib.pyplot和seaborn的使用小螳螂
importmatplotlib.pyplotaspltimportnumpyasnp第一步生成数据集x=np.linspace(-3,3,50)#平均采样,[-3,3]采样50个x.shape(50,)y1=2*x+1y1.shape(50,)y2=x**2y2array([9.00000000e+00,8.28029988e+00,7.59058726e+00,6.93086214e+00,6
【深度学习】讲透深度学习第3篇：TensorFlow张量操作（代码文档已分享）程序员一诺 python笔记人工智能深度学习深度学习 tensorflow 人工智能
本系列文章md笔记（已分享）主要讨论深度学习相关知识。可以让大家熟练掌握机器学习基础,如分类、回归（含代码），熟练掌握numpy,pandas,sklearn等框架使用。在算法上，掌握神经网络的数学原理，手动实现简单的神经网络结构，在应用上熟练掌握TensorFlow框架使用，掌握神经网络图像相关案例。具体包括：TensorFlow的数据流图结构，神经网络与tf.keras，卷积神经网络(CNN)
机器学习入门-----sklearn 辣椒酱. python 机器学习 sklearn 人工智能
机器学习基础了解概念机器学习是人工智能的一个实现途径深度学习是机器学习的一个方法发展而来定义：从数据中自动分析获得模型，并利用模型对特征数据【数据集：特征值+目标值构成】进行预测算法数据集的目标值是类别的话叫做分类问题；目标值是连续的数值的话叫做回归问题；统称监督学习；另一类是无监督学习，这一类的数据集没有目标值，典型：聚类；做什么可以进行传统预测、图像识别、自然语言处理传统预测店铺销量预测、量化
【机器学习】科学库使用手册第2篇：机器学习任务和工作流程（已分享，附代码）程序员一诺 python笔记机器学习人工智能机器学习人工智能
本系列文章md笔记（已分享）主要讨论人工智能相关知识。主要内容包括，了解机器学习定义以及应用场景，掌握机器学习基础环境的安装和使用，掌握利用常用的科学计算库对数据进行展示、分析，学会使用jupyternotebook平台完成代码编写运行，应用Matplotlib的基本功能实现图形显示，应用Matplotlib实现多图显示，应用Matplotlib实现不同画图种类，学习Numpy运算速度上的优势，知
【深度学习】从0完整讲透深度学习第2篇：TensorFlow介绍和基本操作（代码文档已分享）程序员一诺 python笔记深度学习人工智能深度学习 tensorflow 人工智能
本系列文章md笔记（已分享）主要讨论深度学习相关知识。可以让大家熟练掌握机器学习基础,如分类、回归（含代码），熟练掌握numpy,pandas,sklearn等框架使用。在算法上，掌握神经网络的数学原理，手动实现简单的神经网络结构，在应用上熟练掌握TensorFlow框架使用，掌握神经网络图像相关案例。具体包括：TensorFlow的数据流图结构，神经网络与tf.keras，卷积神经网络(CNN)
2024-01-06-AI 大模型全栈工程师 - 机器学习基础流雨声人工智能机器学习
摘要2024-01-06阴杭州晴本节简介:a.数学模型&算法名词相关概念;b.学会数学建模相关知识；c.学会自我思考，提升认知，不要只会模仿；课程内容1.Fine-Tuning有什么作用？a.什么是模型训练（Training）b.什么是模型预训练（Pre-Training）c.微调（Fine-Tuning）d.轻量化微调（ParameterEfficientFine-Tuning,PEFT）2.什
机器学习基础、数学统计学概念、模型基础技术名词及相关代码个人举例是lethe先生机器学习人工智能
1.机器学习基础（1）机器学习概述机器学习是一种人工智能（AI）的分支，通过使用统计学和计算机科学的技术，使计算机能够从数据中学习并自动改进性能，而无需进行明确的编程。它涉及构建和训练机器学习模型，以便能够对未见过的数据进行预测或做出决策。机器学习的基本目标是通过从数据中发现模式和规律，自动提取和学习数据中的特征，并用这些特征构建预测模型或分类模型。（2）数学统计学概念1、概率论：概率论是研究随机
2024-01-06-AI 大模型全栈工程师 - 机器学习基础流雨声人工智能机器学习
摘要2024-01-06阴杭州晴本节简介:a.数学模型&算法名词相关概念;b.学会数学建模相关知识；c.学会自我思考，提升认知，不要只会模仿；课程内容1.Fine-Tuning有什么作用？a.什么是模型训练（Training）b.什么是模型预训练（Pre-Training）c.微调（Fine-Tuning）d.轻量化微调（ParameterEfficientFine-Tuning,PEFT）2.什
【机器学习 & 深度学习】卷积神经网络简述为梦而生~ 机器学习深度学习机器学习人工智能深度学习神经网络 cnn 计算机视觉自然语言处理
个人主页：为梦而生~关注我一起学习吧！专栏：机器学习欢迎订阅！相对完整的机器学习基础教学！⭐特别提醒：针对机器学习，特别开始专栏：机器学习python实战欢迎订阅！本专栏针对机器学习基础专栏的理论知识，利用python代码进行实际展示，真正做到从基础到实战！往期推荐：【机器学习基础】一元线性回归（适合初学者的保姆级文章）【机器学习基础】多元线性回归（适合初学者的保姆级文章）【机器学习基础】决策树（
【Python基础 & 机器学习】Python环境搭建（适合新手阅读的超详细教程）为梦而生~ 机器学习python实战 python 机器学习开发语言人工智能数据挖掘 pycharm
个人主页：为梦而生~关注我一起学习吧！重要专栏：机器学习：相对完整的机器学习基础教学！机器学习python实战：用python带你感受真实的机器学习深度学习：现代人工智能的主流技术介绍python网络爬虫从基础到实战：Python的主流应用领域之一，也可以与人工智能领域相结合的技术往期推荐：【机器学习&深度学习】神经网络简述【机器学习&深度学习】卷积神经网络简述【python爬虫开发实战&情感分析
深度学习知识点汇总-机器学习基础（5）深度学习模型优化
2.5分类算法的评估指标有哪些？图1混淆矩阵上图中术语解释：TP（Truepositives）。表示被正确地划分为正例的个数，即实际为正例且被分类器划分为正例的实例数；FP（Falsepositives）。表示被错误地划分为正例的个数，即实际为负例但被分类器划分为正例的实例数；FN（Falsenegatives）。表示被错误地划分为负例的个数，即实际为正例但被分类器划分为负例的实例数；TN（Tru
机器学习基础2 qingxi_ran 机器学习人工智能
提示：MachneLearning机器学习吴恩达目录一、JupyterNotebooks（数据分析神器）二、回归模型（线性回归）三、分类模型（离散）四、术语一、JupyterNotebooks（数据分析神器）机器学习和数据科学从业者使用最广泛的工具在命令行输入pipinstalljupyter在命令行输入jupyternotework熟练使用jupyternotebook（三天）二、回归模型（线性
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1