visionshop

从拉普拉斯矩阵说到谱聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。
本文链接：https://blog.csdn.net/v_JULY_v/article/details/40738211
从拉普拉斯矩阵说到谱聚类

0 引言
11月1日上午，机器学习班第7次课，邹讲聚类（PPT），其中的谱聚类引起了自己的兴趣，邹从最基本的概念：单位向量、两个向量的正交、方阵的特征值和特征向量，讲到相似度图、拉普拉斯矩阵，最后讲谱聚类的目标函数和其算法流程。

课后自己又琢磨了番谱聚类跟拉普拉斯矩阵，打算写篇博客记录学习心得，若有不足或建议，欢迎随时不吝指出，thanks。

1 矩阵基础
在讲谱聚类之前，有必要了解一些矩阵方面的基础知识。

1.0 理解矩阵的12点数学笔记
如果对矩阵的概念已经模糊，推荐国内一人写的《理解矩阵by孟岩》系列，其中，抛出了很多有趣的观点，我之前在阅读的过程中做了些笔记，如下：

“1、简而言之：矩阵是线性空间里的变换的描述，相似矩阵则是对同一个线性变换的不同描述。那，何谓空间？本质而言，“空间是容纳运动的一个对象集合，而变换则规定了对应空间的运动”by孟岩。在线性空间选定基后，向量刻画对象的运动，运动则通过矩阵与向量相乘来施加。然，到底什么是基？坐标系也。

2、有了基，那么在(1)中所言的则应是：矩阵是线性空间里的变换的描述，相似矩阵则是对同一个线性变换在不同基（坐标系）下的不同描述。出来了两个问题，一者何谓变换，二者不同基（坐标系）如何理解？事实上，所谓变换，即空间里从一个点（元素/对象）到另一个（元素对象）的跃迁，矩阵用来描述线性变换。基呢?通过前面已知，矩阵无非不过就是用来描述线性空间中的线性变换的一个东西而已，线性变换为名词，矩阵为描述它的形容词，正如描述同一个人长得好看可以用多个不同形容词"帅”"靓”描述，同一个线性变换也可以由多个不同的矩阵来描述，而由哪一个矩阵描述它，则由基（坐标系）确定。

3、前面说了基，坐标系也，形象表述则为角度，看一个问题的角度不同，描述问题得到的结论也不同，但结论不代表问题本身，同理，对于一个线性变换，可以选定一组基，得到一个矩阵描述它，换一组基，得到不同矩阵描述它，矩阵只是描述线性变换非线性变换本身，类比给一个人选取不同角度拍照。

4、前面都是说矩阵描述线性变换，然，矩阵不仅可以用来描述线性变换，更可以用来描述基（坐标系/角度），前者好理解，无非是通过变换的矩阵把线性空间中的一个点给变换到另一个点上去，但你说矩阵用来描述基(把一个坐标系变换到另一个坐标系)，这可又是何意呢？实际上，变换点与变换坐标系，异曲同工！
（@坎儿井围脖：矩阵还可以用来描述微分和积分变换。关键看基代表什么，用坐标基就是坐标变换。如果基是小波基或傅里叶基，就可以用来描述小波变换或傅里叶变换）

5、矩阵是线性运动（变换）的描述，矩阵与向量相乘则是实施运动（变换）的过程，同一个变换在不同的坐标系下表现为不同的矩阵，但本质/征值相同，运动是相对的，对象的变换等价于坐标系的变换，如点(1,1)变到(2,3)，一者可以让坐标点移动，二者可以让X轴单位度量长度变成原来1/2，让Y轴单位度量长度变成原来1/3，前后两者都可以达到目的。

6、Ma=b，坐标点移动则是向量a经过矩阵M所描述的变换，变成了向量b；变坐标系则是有一个向量，它在坐标系M的度量下结果为a，在坐标系I（I为单位矩阵，主对角为1，其它为0）的度量下结果为b，本质上点运动与变换坐标系两者等价。为何？如(5)所述，同一个变换，不同坐标系下表现不同矩阵，但本质相同。

7、Ib，I在(6)中说为单位坐标系，其实就是我们常说的直角坐标系，如Ma=Ib，在M坐标系里是向量a，在I坐标系里是向量b，本质上就是同一个向量，故此谓矩阵乘法计算无异于身份识别。且慢，什么是向量？放在坐标系中度量，后把度量的结果（向量在各个坐标轴上投影值）按顺序排列在一起，即成向量。

8、b在I坐标系中则是Ib，a在M坐标系中则是Ma，故而矩阵乘法MxN，不过是N在M坐标系中度量得到MN，而M本身在I坐标系中度量出。故Ma=Ib，M坐标系中的a转过来在I坐标系中一量，却成了b。如向量(x,y)在单位长度均为1的直角坐标系中一量，是(1,1)，而在X轴单位长度为2.Y轴单位长度为3一量则是(2,3)。

9、何谓逆矩阵? Ma=Ib，之前已明了坐标点变换a-〉b等价于坐标系变换M-〉I，但具体M如何变为I呢，答曰让M乘以M的逆矩阵。以坐标系

    为例，X轴单位度量长度变为原来的1/2，Y轴单位度量长度变为原来的1/3，即与矩阵

    相乘，便成直角坐标系I。即对坐标系施加变换，即让其与变换矩阵相乘。 ”
1.1 一堆基础概念
    根据wikipedia的介绍，在矩阵中，n阶单位矩阵，是一个的方形矩阵，其主对角线元素为1，其余元素为0。单位矩阵以表示；如果阶数可忽略，或可由前后文确定的话，也可简记为（或者E）。如下图所示，便是一些单位矩阵：

    单位矩阵中的第列即为单位向量。单位向量同时也是单位矩阵的特征向量，特征值皆为1，因此这是唯一的特征值，且具有重数n。由此可见，单位矩阵的行列式为1，且迹数为n。

    单位向量又是什么呢？数学上，赋范向量空间中的单位向量就是长度为 1 的向量。欧几里得空间中，两个单位向量的点积就是它们之间角度的余弦（因为它们的长度都是 1）。
    一个非零向量的正规化向量（即单位向量）就是平行于的单位向量，记作：

这里是的范数（长度）。
何谓点积？点积又称内积，两个向量 = [a1, a2,…, an]和 = [b1, b2,…, bn]的点积定义为：

这里的Σ指示求和符号。
例如，两个三维向量[1, 3, -5]和[4, -2, -1]的点积是：

使用矩阵乘法并把（纵列）向量当作n×1 矩阵，点积还可以写为：

这里的指示矩阵的转置。使用上面的例子，将一个1×3矩阵（就是行向量）乘以一个3×1向量得到结果(通过矩阵乘法的优势得到1×1矩阵也就是标量)：

除了上面的代数定义外，点积还有另外一种定义：几何定义。在欧几里得空间中，点积可以直观地定义为：

这里||表示的模（长度），θ表示两个向量之间的角度。根据这个定义式可得：两个互相垂直的向量的点积总是零。若和都是单位向量（长度为1），它们的点积就是它们的夹角的余弦。

正交是垂直这一直观概念的推广，若内积空间中两向量的内积（即点积）为0，则称它们是正交的，相当于这两向量垂直，换言之，如果能够定义向量间的夹角，则正交可以直观的理解为垂直。而正交矩阵（orthogonal matrix）是一个元素为实数，而且行与列皆为正交的单位向量的方块矩阵（方块矩阵，或简称方阵，是行数及列数皆相同的矩阵。）

    若数字和非零向量满足，则为的一个特征向量，是其对应的特征值。换句话说，在这个方向上，做的事情无非是把沿其的方向拉长/缩短了一点（而不是毫无规律的多维变换），则是表示沿着这个方向上拉伸了多少的比例。简言之，对做了手脚，使得向量变长或变短了，但本身的方向不变。
     矩阵的迹是矩阵的对角线元素之和，也是其个特征值之和。
    更多矩阵相关的概念可以查阅相关wikipedia，或《矩阵分析与应用》。

2 拉普拉斯矩阵
2.1 Laplacian matrix的定义
拉普拉斯矩阵（Laplacian matrix)），也称为基尔霍夫矩阵, 是表示图的一种矩阵。给定一个有n个顶点的图，其拉普拉斯矩阵被定义为:

其中为图的度矩阵，为图的邻接矩阵。
举个例子。给定一个简单的图，如下：

把此“图”转换为邻接矩阵的形式，记为：

把的每一列元素加起来得到个数，然后把它们放在对角线上（其它地方都是零），组成一个的对角矩阵，记为度矩阵，如下图所示：

根据拉普拉斯矩阵的定义，可得拉普拉斯矩阵为：

2.2 拉普拉斯矩阵的性质
介绍拉普拉斯矩阵的性质之前，首先定义两个概念，如下：
①对于邻接矩阵，定义图中A子图与B子图之间所有边的权值之和如下：

其中，定义为节点到节点的权值，如果两个节点不是相连的，权值为零。
②与某结点邻接的所有边的权值和定义为该顶点的度d，多个d 形成一个度矩阵（对角阵）

    拉普拉斯矩阵具有如下性质：
是对称半正定矩阵；
，即的最小特征值是0，相应的特征向量是。证明： *  = ( - ) * = 0 = 0 * 。（此外，别忘了，之前特征值和特征向量的定义：若数字和非零向量满足，则为的一个特征向量，是其对应的特征值）。
  有n个非负实特征值
且对于任何一个属于实向量，有以下式子成立

其中，，，。
下面，来证明下上述结论，如下：

3 谱聚类
    所谓聚类（Clustering），就是要把一堆样本合理地分成两份或者K份。从图论的角度来说，聚类的问题就相当于一个图的分割问题。即给定一个图G = (V, E)，顶点集V表示各个样本，带权的边表示各个样本之间的相似度，谱聚类的目的便是要找到一种合理的分割图的方法，使得分割后形成若干个子图，连接不同子图的边的权重（相似度）尽可能低，同子图内的边的权重（相似度）尽可能高。物以类聚，人以群分，相似的在一块儿，不相似的彼此远离。
    至于如何把图的顶点集分割/切割为不相交的子图有多种办法，如
cut/Ratio Cut
Normalized Cut
不基于图，而是转换成SVD能解的问题
    目的是为了要让被割掉各边的权值和最小，因为被砍掉的边的权值和越小，代表被它们连接的子图之间的相似度越小，隔得越远，而相似度低的子图正好可以从中一刀切断。
    本文重点阐述上述的第一种方法，简单提一下第二种，第三种本文不做解释，有兴趣的可以参考文末的参考文献条目13。
3.1 相关定义
    为了更好的把谱聚类问题转换为图论问题，定义如下概念（有些概念之前已定义，权当回顾下）：
无向图，顶点集V表示各个样本，带权的边表示各个样本之间的相似度
与某结点邻接的所有边的权值和定义为该顶点的度d，多个d 形成一个度矩阵（对角阵）

邻接矩阵，A子图与B子图之间所有边的权值之和定义如下：

其中，定义为节点到节点的权值，如果两个节点不是相连的，权值为零。
相似度矩阵的定义。相似度矩阵由权值矩阵得到，实践中一般用高斯核函数（也称径向基函数核）计算相似度，距离越大，代表其相似度越小。

子图A的指示向量如下：

3.2 目标函数
    因此，如何切割图则成为问题的关键。换言之，如何切割才能得到最优的结果呢？
   举个例子，如果用一张图片中的所有像素来组成一个图，并把（比如，颜色和位置上）相似的节点连接起来，边上的权值表示相似程度，现在要把图片分割为几个区域（或若干个组），要求是分割所得的 Cut 值最小，相当于那些被切断的边的权值之和最小，而权重比较大的边没有被切断。因为只有这样，才能让比较相似的点被保留在了同一个子图中，而彼此之间联系不大的点则被分割了开来。

    设为图的几个子集（它们没有交集），为了让分割的Cut 值最小，谱聚类便是要最小化下述目标函数：

其中k表示分成k个组，表示第i个组，表示的补集，表示第组与第组之间的所有边的权重之和（换言之，如果要分成K个组，那么其代价就是进行分割时去掉的边的权值的总和）。

为了让被切断边的权值之和最小，便是要让上述目标函数最小化。但很多时候，最小化cut 通常会导致不好的分割。以分成2类为例，这个式子通常会将图分成了一个点和其余的n-1个点。如下图所示，很明显，最小化的smallest cut不是最好的cut，反而把{A、B、C、H}分为一边，{D、E、F、G}分为一边很可能就是最好的cut：

为了让每个类都有合理的大小，目标函数尽量让A1,A2...Ak 足够大。改进后的目标函数为：

其中|A|表示A组中包含的顶点数目。

或：

其中，。

3.3 最小化RatioCut 与最小化等价
下面，咱们来重点研究下RatioCut 函数。

目标函数：
定义向量，且：

根据之前得到的拉普拉斯矩阵矩阵的性质，已知

现在把的定义式代入上式，我们将得到一个非常有趣的结论！推导过程如下：

是的，我们竟然从推出了RatioCut，换句话说，拉普拉斯矩阵L 和我们要优化的目标函数RatioCut 有着密切的联系。更进一步说，因为是一个常量，所以最小化RatioCut，等价于最小化。

同时，因单位向量的各个元素全为1，所以直接展开可得到约束条件：且，具体推导过程如下：

最终我们新的目标函数可以由之前的，写成：

其中，，且因，所以有：f'f = n（注：f是列向量的前提下，f'f是一个值，实数值，ff'是一个N*N的矩阵）。

继续推导前，再次提醒特征向量和特征值的定义：

若数字和非零向量满足，则为的一个特征向量，是其对应的特征值。
假定 = ，此刻，是特征值，是的特征向量。两边同时左乘，得到 = ，而f'f=n，其中n为图中顶点的数量之和，因此 = n，因n是个定值，所以要最小化，相当于就是要最小化。因此，接下来，我们只要找到的最小特征值及其对应的特征向量即可。

但到了这关键的最后一步，咱们却遇到了一个比较棘手的问题，即由之前得到的拉普拉斯矩阵的性质“最小的特征值为零，并且对应的特征向量正好为”可知：其不满足的条件，因此，怎么办呢？根据论文“A Tutorial on Spectral Clustering”中所说的Rayleigh-Ritz 理论，我们可以取第2小的特征值，以及对应的特征向量。

    更进一步，由于实际中，特征向量里的元素是连续的任意实数，所以可以根据是大于0，还是小于0对应到离散情况下的，决定是取，还是取。而如果能求取的前K个特征向量，进行K-means聚类，得到K个簇，便从二聚类扩展到了K 聚类的问题。
    而所要求的这前K个特征向量就是拉普拉斯矩阵的特征向量（计算拉普拉斯矩阵的特征值，特征值按照从小到大顺序排序，特征值对应的特征向量也按照特征值递增的顺序排列，取前K个特征向量，便是我们所要求的前K个特征向量）！
    所以，问题就转换成了：求拉普拉斯矩阵的前K个特征值，再对前K个特征值对应的特征向量进行 K-means 聚类。而两类的问题也很容易推广到 k 类的问题，即求特征值并取前 K 个最小的，将对应的特征向量排列起来，再进行 K-means聚类。两类分类和多类分类的问题，如出一辙。
    就这样，因为离散求解很困难，但RatioCut 巧妙地把一个NP难度的问题转换成拉普拉斯矩阵特征值（向量）的问题，将离散的聚类问题松弛为连续的特征向量，最小的系列特征向量对应着图最优的系列划分方法。剩下的仅是将松弛化的问题再离散化，即将特征向量再划分开，便可以得到相应的类别。不能不说妙哉！

3.4 谱聚类算法过程
综上可得谱聚类的算法过程如下：

根据数据构造一个Graph，Graph的每一个节点对应一个数据点，将各个点连接起来（随后将那些已经被连接起来但并不怎么相似的点，通过cut/RatioCut/NCut 的方式剪开），并且边的权重用于表示数据之间的相似度。把这个Graph用邻接矩阵的形式表示出来，记为。
把的每一列元素加起来得到个数，把它们放在对角线上（其他地方都是零），组成一个的对角矩阵，记为度矩阵，并把 - 的结果记为拉普拉斯矩阵。
求出的前个特征值（前个指按照特征值的大小从小到大排序得到），以及对应的特征向量。
把这个特征（列）向量排列在一起组成一个的矩阵，将其中每一行看作维空间中的一个向量，并使用 K-means 算法进行聚类。聚类的结果中每一行所属的类别就是原来 Graph 中的节点亦即最初的个数据点分别所属的类别。
或许你已经看出来，谱聚类的基本思想便是利用样本数据之间的相似矩阵（拉普拉斯矩阵）进行特征分解（通过Laplacian Eigenmap 的降维方式降维），然后将得到的特征向量进行 K-means聚类。

此外，谱聚类和传统的聚类方法（例如 K-means）相比，谱聚类只需要数据之间的相似度矩阵就可以了，而不必像K-means那样要求数据必须是 N 维欧氏空间中的向量。

4 参考文献与推荐阅读
孟岩之理解矩阵系列：http://blog.csdn.net/myan/article/details/1865397；
理解矩阵的12点数学笔记：http://www.51weixue.com/thread-476-1-1.html；
一堆wikipedia，比如特征向量：https://zh.wikipedia.org/wiki/%E7%89%B9%E5%BE%81%E5%90%91%E9%87%8F；
wikipedia上关于拉普拉斯矩阵的介绍：http://en.wikipedia.org/wiki/Laplacian_matrix；
邹博之聚类PPT：http://pan.baidu.com/s/1i3gOYJr；
关于谱聚类的一篇非常不错的英文文献，“A Tutorial on Spectral Clustering”：http://engr.case.edu/ray_soumya/mlrg/Luxburg07_tutorial_spectral_clustering.pdf；
知乎上关于矩阵和特征值的两个讨论：http://www.zhihu.com/question/21082351，http://www.zhihu.com/question/21874816；
谱聚类：http://www.cnblogs.com/fengyan/archive/2012/06/21/2553999.html；
谱聚类算法：http://www.cnblogs.com/sparkwen/p/3155850.html；
漫谈 Clustering 系列：http://blog.pluskid.org/?page_id=78；
《Mining of Massive Datasets》第10章：http://infolab.stanford.edu/~ullman/mmds/book.pdf；
Tydsh: Spectral Clustering：①http://blog.sina.com.cn/s/blog_53a8a4710100g2rt.html，②http://blog.sina.com.cn/s/blog_53a8a4710100g2rv.html，③http://blog.sina.com.cn/s/blog_53a8a4710100g2ry.html，④http://blog.sina.com.cn/s/blog_53a8a4710100g2rz.html；
H. Zha, C. Ding, M. Gu, X. He, and H.D. Simon. Spectral relaxation for K-means clustering. Advances in Neural Information Processing Systems 14 (NIPS 2001). pp. 1057-1064, Vancouver, Canada. Dec. 2001；
机器学习中谱聚类方法的研究：http://lamda.nju.edu.cn/conf/MLA07/files/YuJ.pdf；
谱聚类的算法实现：http://liuzhiqiangruc.iteye.com/blog/2117144。
————————————————
版权声明：本文为CSDN博主「v_JULY_v」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/v_july_v/article/details/40738211

从System Prompt来看Claude3、Kimi和ChatGLM4之间的差距 herosunly 大模型 system prompt gpt4 claude kimi ChatGLM4
大家好，我是herosunly。985院校硕士毕业，现担任算法t研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了从SystemPrompt来看Claude3、Kimi和ChatGLM
Python从0到100（八十一）：神经网络-Fashion MNIST数据集取得最高的识别准确率是Dream呀 python 神经网络开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
python cv2 matchtemplate_机器学习进阶-图像金字塔与轮廓检测-模板匹配（单目标匹配和多目标匹配）1.cv2.matchTemplate(进行模板匹配) 2.cv2.minMa... weixin_39621044 python cv2 matchtemplate
1.cv2.matchTemplate(src,template,method)#用于进行模板匹配参数说明：src目标图像，template模板，method使用什么指标做模板的匹配度指标2.min_val,max_val,min_loc,max_loc=cv2.minMaxLoc(ret)#找出矩阵中最大值和最小值，即其对应的(x,y)的位置参数说明：min_val，max_val,min_lo
机器学习进阶-图像金字塔与轮廓检测-图像金字塔(拉普拉斯金字塔) weixin_33908217 人工智能 python
拉普拉斯金字塔:使用原始图片-pyrUp(pyrDown(Gi))，获得的结果有一点像边缘轮廓的提取上图的意思：1.进行低通滤波2.进行样本的下采样3.进行样本的上采样4.原始图片-经过上面三步后的图片代码：第一步：读入图片第二步：进行样本的下采样第三步：进行样本的上采样第四步：原始图片-变化后的图片importcv2importnumpyasnpimg=cv2.imread('AM.png')#
决策树ID3算法小波LFZZB 算法决策树机器学习数据挖掘 sklearn
决策树决策树概念决策树，一种基于规则的机器学习方法，主要用于分类和回归，常用作机器学习中的预测模型。树形结构图，树中每个节点表示某个对象，每个分叉路径代表的某个可能的属性值，每个叶结点对应从根节点到该叶节点所经历的路径所表示的对象的值。它通过递归地划分数据空间并在每个分区内拟合一个简单的预测模型来工作。选择分区是为了在每个细分中最大化目标变量的同质性。决策树特点1.树形结构决策树由根节点、内部节点
监督学习、无监督学习和强化学习的特点和应用场景 BugNest AI 学习 ai 机器学习人工智能
在机器学习中，监督学习、无监督学习和强化学习是三种核心的学习范式，它们各自具有独特的特点和应用场景。以下是对这三种学习方法的详细对比和总结：监督学习（SupervisedLearning）特点：数据标注：训练数据包含明确的输入特征和对应的标签（目标输出）。学习方式：模型通过学习输入特征和标签之间的关系来进行训练，这种关系通常表现为一个映射函数。预测能力：一旦训练完成，模型能够对新的、未见过的输入数
python（scikit-learn）实现k均值聚类算法嘿哈哈哈哈哈哈机器学习聚类 python 算法机器学习人工智能
k均值聚类算法原理详解示例为链接中的例题直接调用python机器学习的库scikit-learn中k均值算法的相关方法fromsklearn.clusterimportKMeansimportnumpyasnpimportmatplotlib.pyplotaspltx=np.array([[0,2],[0,0],[1,0],[5,0],[5,2]])#计算k均值聚类kmeans=KMeans(n_
Scikit-Learn K均值聚类对许 #Python #人工智能与机器学习 scikit-learn 聚类机器学习
Scikit-LearnK均值聚类1、K均值聚类1.1、K均值聚类及原理1.2、K均值聚类的优缺点1.3、聚类与分类的区别2、Scikit-LearnK均值聚类2.1、Scikit-LearnK均值聚类API2.2、K均值聚类初体验（寻找最佳K）2.3、K均值聚类案例1、K均值聚类K-均值（K-Means）是一种聚类算法，属于无监督学习。K-Means在机器学习知识结构中的位置如下：1.1、K均值
数据挖掘常用算法优缺点分析天波烟客00 数据挖掘数据挖掘机器学习
领取机器学习视频教程：http://www.admin444.com/P-c8129a48常用的机器学习、数据挖掘方法有分类，回归，聚类，推荐，图像识别等。在实际应用中，一般都是采用启发式学习方式来实验。偏差&方差偏差：描述的是预测值（估计值）的期望与真实值之间的差距，偏差越大，越偏离真实数据。偏差bias其实是模型太简单而带来的估计不准确的部分---欠拟合方差：描述的是预测值的变化范围、离散程度
【机器学习与数据挖掘实战】案例11：基于灰色预测和SVR的企业所得税预测分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘灰色预测 SVR 人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
Scikit-learn提供了哪些机器学习算法以及如何使用Scikit-learn进行模型训练和评估 Java资深爱好者机器学习 scikit-learn 算法
Scikit-learn库的使用一、Scikit-learn提供的机器学习算法Scikit-learn（通常简称为sklearn）是一个广泛使用的Python机器学习库，它提供了多种用于数据挖掘和数据分析的算法。Scikit-learn支持的机器学习算法可以大致分为以下几类：分类算法：支持向量机（SVM）随机森林（RandomForest）逻辑回归（LogisticRegression）朴素贝叶斯
数据挖掘常用算法 kaiyuanheshang AI 数据挖掘算法人工智能
文章目录基于机器学习~~线性/逻辑回归~~树模型~~贝叶斯~~~~聚类~~集成算法神经网络~~支持向量机~~~~降维算法~~基于机器学习线性/逻辑回归类似单层神经网络y=k*x+b树模型优点可以做可视化分析速度快结果稳定依赖前期对业务和数据的理解贝叶斯贝叶斯依赖先验概率，先验知识越准，结果越好聚类集成算法xgboostlightbgm神经网络在文本、视觉领域效果非常好。但是过程黑盒，缺乏解释性支持
因果关系推断与机器学习 hhhh106 读书笔记大数据
因果关系定义设X和Y是两个随机变量。定义X是Y的因，即因果关系X→Y存在，当且仅当Y的取值一定会随X的取值变化而发生变化。两个变量X、Y之间有相关性往往不是我们能判断它们之间有因果关系的依据。其中包括三种情况：X是Y的因、X是Y的果、X与Y有共同原因(commoncause)。对于第三种情况，我们把这种不是因果关系的相关性叫作虚假相关(spuriouscorrelation)。机器学习模型是强大的
【中科院1区】Matlab实现黏菌优化算法SMA-RF锂电池健康状态估计算法研究 matlab科研助手 matlab 算法开发语言
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍摘要锂离子电池作为一种重要的储能器件，在电动汽车、便携式电子设备等领域发挥着至关重要的
【深度学习】因果推断与机器学习的高级实践数学建模_问题根因分析机器学习 2401_84239830 程序员深度学习机器学习数学建模
现阶段深度学习有三大特征：数据驱动：即数据训练，将数据输入到模型中进行训练；关联学习：模型基于给定训练数据集，进行关联学习；概率输出：即最后的输出，判断这个图片有“狗“的概率是多少。以数据驱动、关联学习、概率输出为特征的深度学习存在什么问题呢？以一个简单的图片识别问题为例：识别一张图片中是否有狗。在很多预测问题中，我们拿到的数据集往往都是有偏的，比如我们拿到的数据中有80%的图片中狗都在草地上，这
因果推断与机器学习—因果推断入门（1）樱花的浪漫因果推断机器学习人工智能计算机视觉搜索引擎深度学习算法
在机器学习被广泛应用于对人类产生巨大影响的场景（如社交网络、电商、搜索引擎等）的今天，因果推断的重要性开始在机器学习社区的论文和演讲中被不断提及。图灵奖得主YoshuaBengio在对系统2（system2，这个说法来自心理学家DanielKahneman的作品，人类大脑由两套系统构成：系统1负责快速思考，做出下意识的反应；系统2则负责比较耗时的思考，如理解事物之间的因果关系）的畅想中强调，在实现
人工智能在药物研发中的应用 - 从靶点发现和化合物筛选：利用AI深度学习技术加速药物研发流程 AI_DL_CODE 人工智能深度学习药物研发 deep learning
摘要：本文探讨了人工智能（AI）在药物研发中的应用，强调了AI在加速药物发现、降低成本和提高成功率方面的重要性。文章概述了AI在药物靶点识别、化合物筛选、药物设计优化等方面的应用，并详细介绍了机器学习和深度学习的基本原理。通过一个实操案例，展示了如何利用AI技术对化合物数据进行分析，预测潜在的药物候选物。案例包括数据预处理、模型训练、评估和优化等步骤，证明了AI在提高药物研发效率和准确性方面的潜力
PyTorch 官方文档中文版本圣心 pytorch 机器学习
文档来源https://pytorch.cadn.net.cn大多数机器学习工作流都涉及处理数据、创建模型、优化模型参数，并保存经过训练的模型。本教程向您介绍完整的ML工作流在PyTorch中实现，并提供了用于了解有关每个概念的更多信息的链接。我们将使用FashionMNIST数据集来训练一个神经网络，该神经网络预测输入图像是否属于到以下类别之一：T恤/上衣、裤子、套头衫、连衣裙、外套、凉鞋、衬衫
深度学习基因组学+机器学习单细胞分析，当下最火热研究方向！ qwmb919 人工智能深度学习机器学习 python
深度学习已经被广泛应用于基因组学研究中，利用已知的训练集对数据的类型和应答结果进行预测，深度学习，可以进行预测和降维分析。深度学习模型的能力更强且更灵活，在适当的训练数据下，深度学习可以在较少人工参与的情况下自动学习特征和规律。调控基因组学，变异检测，致病性评分成功应用。深度学习可以提高基因组数据的可解释性，并将基因组数据转化为可操作的临床信息。深度学习通过强大的深度神经网络模型从高维大数据中自动
深度学习之线性代数 ousinka DJL d2lcoder Java开发者动手学习深度学习深度学习 java 机器学习
深度学习之线性代数标量如果你从来没有学过线性代数或机器学习，那么你过去的数学经历可能是一次只想一个数字。如果你曾经用钱买个茶叶蛋，或者在付过打车费，那么你已经知道如何做一些基本的事情，比如在数字间相加或相乘。例如，上海的温度现在为13摄氏度。严格来说，我们称仅包含一个数值的叫标量（scalar）。在数学表示法，其中标量变量由普通小写字母表示（例如，x、y和z）。我们用R表示所有（连续）实数标量的空
深度学习的应用场景及常用技术 eso1983 深度学习
深度学习作为机器学习的一个重要分支，在众多领域都有广泛的应用，以下是一些主要的应用场景及常用技术。1.应用场景1.计算机视觉图像分类描述：对图像中的内容进行分类，识别出图像中物体所属的类别。例如，在安防领域，通过对监控摄像头拍摄的图像进行分类，判断是否有可疑人员或物品出现；在电商领域，对商品图片进行分类，方便用户搜索和筛选商品。示例：识别图片中的动物是猫还是狗，或者判断一张图片是风景照还是人物照。
深入解析：Python中的决策树与随机森林小鹿( ﹡ˆoˆ﹡ ) Python python 决策树随机森林 Python
在这个数据驱动的时代，机器学习技术已经成为许多企业和研究机构不可或缺的一部分。其中，决策树和随机森林作为两种强大的算法，在分类和回归任务中表现尤为出色。本文将带领大家深入了解这两种算法在Python中的实现，从基础到实战，逐步揭开它们的神秘面纱。引言决策树是一种非常直观的预测模型，它通过一系列规则对数据进行分割，最终形成树状结构。而随机森林则是基于决策树的一种集成学习方法，通过构建多个决策树并取其
大语言模型丨ChatGPT-4o深度科研应用、论文与项目撰写、数据分析、机器学习、深度学习及AI绘图（BP神经网络、支持向量机、决策树、随机森林、变量降维与特征选择、群优化算法等）赵钰老师 ChatGPT python 人工智能语言模型深度学习数据分析 chatgpt 机器学习随机森林
目录第一章、2024大语言模型最新进展与ChatGPT各模型第二章、ChatGPT-4o提示词使用方法与高级技巧（最新加入思维链及逆向工程及GPTs）第三章、ChatGPT4-4o助力日常生活、学习与工作第四章、基于ChatGPT-4o课题申报、论文选题及实验方案设计第五章、基于ChatGPT-4o信息检索、总结分析、论文写作与投稿、专利idea构思与交底书的撰写第六章、ChatGPT-4o编程入
【python】在【机器学习】与【数据挖掘】中的应用：从基础到【AI大模型】小李很执着杂乱无章机器学习数据挖掘 python 人工智能语言模型
目录一、Python在数据挖掘中的应用1.1数据预处理数据清洗数据变换数据归一化高级预处理技术1.2特征工程特征选择特征提取特征构造二、Python在机器学习中的应用2.1监督学习分类回归2.2非监督学习聚类降维三、Python在深度学习中的应用3.1深度学习框架TensorFlowPyTorch四、Python在AI大模型中的应用4.1大模型简介4.2GPT-4o实例五、实例验证5.1数据集介绍
Python软体中使用Scikit-learn库训练简单线性回归模型清水白石008 Python题库 python python scikit-learn 线性回归
Python软体中使用Scikit-learn库训练简单线性回归模型1.引言作为数据科学家和机器学习从业者,我们经常需要处理各种类型的数据,并从中提取有价值的信息。其中,线性回归是最基础也是最常用的机器学习算法之一。它可以帮助我们预测连续型目标变量,在很多实际应用场景中都有广泛应用,比如房价预测、销量预测等。在本文中,我将使用Python的Scikit-learn库,介绍如何训练一个简单的线性回归
超实用的Python机器学习教程 - 基于scikit - learn库 AI_DL_CODE 人工智能 python 机器学习人工智能
一、机器学习简介机器学习的定义与概念机器学习是一门多领域交叉学科，它涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。简单来说，机器学习是让计算机从数据中学习规律并进行预测或决策的技术。它旨在构建能够自动从数据中学习模式并进行改进的算法，而无需被明确编程来执行特定任务。例如，我们可以让机器学习算法通过分析大量的历史天气数据来预测未来的天气情况，或者通过分析用户的购物历史来推荐可能感兴趣
【python】利用 GridSearchCV 和 SVM 进行学生成绩预测码银支持向量机机器学习人工智能
在机器学习领域，寻找最优模型参数是一个重要的步骤，它直接影响模型的泛化能力和预测准确性。本文将通过一个具体案例介绍如何使用支持向量机（SVM）和网格搜索（GridSearchCV）来预测学生的成绩，并通过调整参数来优化模型性能。数据集：公众号“码银学编程”后台回复：学生成绩-SVM前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家：前言–人工智能教程引言学生的成绩预测
机器学习笔记——特征工程好评笔记补档机器学习人工智能论文阅读 AIGC transformer 深度学习面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本笔记介绍机器学习中常见的特征工程方法、正则化方法和简要介绍强化学习。文章目录特征工程（FzeatureEngineering）1.特征提取（FeatureExtraction）手工特征提取（ManualFeatureExtraction）：自动特征提取（AutomatedFeatureExtraction）：2.特征选择
不同物体运动方向的检测-python 人工智能专属驿站 python 开发语言
方法优点适用场景缺点光流法实时性强、支持稠密方向分析视频流中物体整体运动对背景复杂场景鲁棒性差特征点跟踪精确捕捉局部运动特征点明显的物体特征点丢失影响结果帧间差分简单快速，适合实时检测背景稳定、低复杂度场景对噪声和阴影敏感深度摄像头三维方向检测，抗背景干扰能力强需要深度信息的场景需要特殊硬件，成本较高惯性传感器不依赖视觉，适用环境广泛设备本体的运动分析精度受传感器噪声影响机器学习能适应复杂非线性场
机器学习强基计划7-6：图文详解层次聚类AGNES算法(附Python实现)_agnes聚类算法python代码软件开发Java 2024年程序员学习机器学习算法聚类
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

从拉普拉斯矩阵说到谱聚类

你可能感兴趣的:(机器学习)