冰冰ing

sklearn中的线性回归合集

引言：线性回归模型的种类有很多，如lasso回归、岭回归及逻辑回归等。同时，根据求解函数的不同，又可以衍生到线性分类。接下来将一一介绍。

1 概述

回归是一种应用广泛的预测建模技术，这种技术的核心在于预测的结果是连续型变量。通常，我们可以通过矩阵和代数这两个角度来理解模型，在这里，我们采用矩阵的角度来理解。

2.多元线性回归LinearRegression

2.1 定义

多元线性回归就是指一个样本有多个特征的线性回归问题，对于有n个特征的i样本而言，它的回归结果可以写成：

$y\hat{}=w_{0}+w_{1}x_{i1}+w_{2}x_{i2}+....+w_{n}x_{in}$

w被称为模型的参数，w0为截距，w1~wn被称为回归系数。线性回归的任务，就是构造一个预测函数来映射输入的特征矩阵X和标签值y之间的线性关系。而构造函数的关键就是找出模型的参数向量w。

回想其他机器学习的求解过程，我们都是先定义了损失函数，再通过最小化损失函数/损失函数的某种变化来求解参数向量，以此将单纯的求解问题转化为一个最优化问题。同理，在多元线性回归中，我们的损失函数是用最小二乘法来求得的：

$\sum(y_{i}-y_{i}\hat{})^{2}=\sum(y_{i}-X_{i}w)^{2}$

这个损失函数衡量了我们构造的模型的预测结果和真实标签的差异，因此我们希望这个差异越小越好。我们往往称这个式子为RSS残差平方和。

2.2 最小二乘法求解多元线性回归的参数

这种通过最小化真实值和预测值之间的RSS来求解参数的方法叫做最小二乘法。

接下来我们对w求导，并令其导数为0，得到w:

$w=(X^{T}X)^{-1}X^{T}y$

我们希望能求解得到w的前提是 $X^{T}X$ 的逆矩阵必须存在，而逆矩阵存在的条件是其行列式不为0，即矩阵满秩，而满秩的充分必要条件是特征矩阵不存在多重共线性。因此，逆矩阵存在的充分必要条件就是特征矩阵不存在多重共线性。

在sklearn中的参数及含义如下：

可以看出，线性回归的性能，往往取决于数据本身，而非是我们的调参能力，线性回归因此对数据有着较高的要求。

3.回归类的评估指标

3.1 是否预测了正确的数值

均方误差用来衡量我们预测值和真实值的差异：

$MSE=\frac{1}{m}\sum (y_{i}-y\hat{}_{i})^{2}$

在sklearn中，调用方法有：

使用sklearn专用的模型评估指标metrics中的类mean_squared_error
调用交叉验证的类cross_val_score,并使用里面的参数scoring="neg_mean_squared_error"来设置。

这里计算的是负均方误差，因为模型在计算时，会考虑指标本身的性质，均方误差本身就是一种误差，因此被sklearn划分为模型的一种损失，并且所有的损失都用负号来表示。

除了MSE，还有MAE这个指标能表示。

$MAE=\frac{1}{m}\sum\left | y_{i}-y\hat{}_{i} \right |$

3.2 是否拟合了足够的信息

除了数据本身的数值大小之外，我们还希望能捕捉到数据的规律，比如数据的分布规律，单调性等。我们使用决定系数R2来表示：

可以看出，分子是真实值和预测值之差的平方，也就是我们的模型没有捕获到的信息总量，分母是真实标签所带有的信息量，所以其衡量的是1-我们的模型没有捕获到的信息量占真实标签中所带的信息量的比例。所以值越接近1越好。

注：R2不一定为正，可能会出现R2为负的存在。说明这个时候模型对数据的拟合能力特别糟糕，模型完全不能使用。此时可以检查建模过程和数据处理过程是否正确，如果预处理没有问题的话，说明线性回归不适合你的数据，此时试试别的算法吧！

4.多重共线性：岭回归和Lasso

多重共线性和相关性

多重共线性是指精确相关关系和高度相关关系。多重共线性是一种统计现象，是指模型中的特征之间由于存在精确相关关系或高度相关关系使得模型无法建立，或者估计失真。

而相关性是衡量两个或多个变量一起波动的程度的指标，它可以为正为负或者为0。我们说变量具有相关性，通常是线性相关性，线性相关由皮尔逊相关系数进行衡量，非线性相关由互信息法/斯皮尔曼相关系数衡量。

由上文可知，多重共线性的存在会使模型极大的偏移，无法模拟数据点额全貌，为了解决这一问题，有以下三种方法：

我们的核心是使用第三种方法，为此，一系列的算法，岭回归，Lasso都被研究出来了。接下来将详细介绍。

4.1 岭回归

4.2.1 岭回归解决多重共线性问题

岭回归，又称为吉洪诺夫正则化。岭回归在多元线性回归的损失函数上加上了正则项，表示为系数w的L2范式乘以正则化系数α。因此，岭回归的损失函数为：

接下来，我们仍然使用最小二乘法对其求导，最终得到w为：

可以看出，α能直接作用于 $X^{T}X$ 上，使得本不为满秩矩阵的 $X^{T}X$ 变成满秩矩阵，从而避免求不出来解的情况。如果我们发现某个α下的模型无法求解，那我们只需要换一个α的取值即可。也就是说，这样的话，矩阵的逆是永远存在的！

如此，正则化系数α也就完美避免了“精确相关关系”带来的影响，当α越大，模型越不容易受到共线性的影响。

注：在机器学习中，我们可以通过模型来判断——如果一个数据集在岭回归中使用各种正则化参数取值下的模型表现没有明显上升（比如持平或者下降），这说明数据没有多重共线性。反之，如果一个数据集在岭回归的各种正则化参数取值下表现出明显的上升趋势，则说明数据存在多重共线性。

我们通过交叉验证来选择最佳的α。在sklearn中，有一个函数RidgeCV，能对不同取值下的α进行交叉验证。

4.3 Lasso

4.3.1 Lasso解决多重共线性问题

Lasso全称最小绝对收缩和选择算子，这个算法也是被用来创造作用于多重共线性问题的算法，不过Lasso使用的是系数w的L1范式乘以正则化系数α，其损失函数表达式为：

对其求导并进行求解后，得：

可以看出，它无法对 $X^{T}X$ 造成任何影响，也就说，Lasso无法解决特征之间“精确相关”的问题。我们只能通过增加α，来为w的计算增加一个负项，从而限制参数估计中w的大小，而防止多重共线性引起的参数w被估计过大导致模型失准的问题。因此，Lasso不是从根本上解决多重共线性的问题，而是限制多重共线性带来的影响。

可以看出，L1和L2正则化的一个核心差异就是他们对系数w的影响：两个正则化都会压缩w的大小，对标签贡献更少的特征的系数会更小，也更容易被压缩。不过，L2正则化只会将系数压缩到尽量接近0，而L1主导稀疏性，因此会将系数压缩到0。这个性质，也让Lasso成为了线性模型中特征选择工具首选。

在sklearn中，也有类Lasso和LassoCV类来进行模型求解和α的寻优。但是Lasso对正则化系数的变化过于敏感，因此我们只能让α在很小的空间里变动。因此在LassoCV中，我们定义了一个概念“正则化路径”，用来设定正则化系数的变化：我们把形成这个正则化路径的α的最小值除以α的最大值得到的量称为正则化路径的长度。

值得注意的是，RidgeCV中默认的模型评估指标为R2，但是Lasso默认的评估指标为均方误差。

LassoCV参数及接口如下：

除了解决模型共线性这个核心问题之外，线性模型还有更重要的事情要做：提升模型表现，接下来将介绍为了提升模型表现而做出的改进：多项式回归。

5 非线性问题：多项式回归

5.1.1 变量之间的线性关系

我们常使用的线性是指“变量之间的线性关系”，它表示两个变量之间的关系可以展示为一条直线，即可以使用y=ax+b来拟合。而三角函数，高次函数这些都是非线性函数。

5.1.2 数据的线性与非线性

当这些特征分别与标签存在线性关系时，我们就称这一组数据是线性数据。而当特征矩阵中任意一个特征与标签之间的关系需要使用三角函数等函数来进行定义时，我们就称这种数据为“非线性数据”。分类问题中特征与标签[0,1]或者[-1,1]之间关系明显是非线性关系。

在分类数据中，我们使用“是否线性可分”这个概念来划分分类数据集，当分类数据的分布上可以使用一条直线来将两类数据分开时，我们就说数据是线性可分的。

5.1.3 线性模型与非线性模型

线性模型的特点：其自变量都是一次项；

在实际问题中，其实线性模型可以用来拟合非线性数据，而非线性模型也可以用来拟合线性数据，更神奇的是，有些算法没有模型也可以处理各类数据，而有些模型可以既是线性，也可以是非线性模型！

其中使用非线性模型拟合线性数据时，很容易会有过拟合的现象。
而用线性模型拟合非线性数据时，通常表现会比较糟糕。我们可以对数据进行分箱，以此提高模型的表现。
支持向量机既是线性也是非线性模型，一切取决于他的核函数。

下面对线性和非线性模型进行总结：

注：在sklearn使用分箱处理非线性问题，相关的类为：from sklearn.preprocessing import KBinsDiscretizer,其中需要将连续变量离散化，分成多少个箱子即多少个类，encode为编码方式，有onehot/ordinal，其中onehot为独热编码：使用做哑变量方式来进行离散化，返回的是稀疏矩阵。

5.2 多项式回归

除了分箱以外，另一种用于解决“线性回归只能处理线性数据”问题的手段，就是使用多项式回归对线性回归进行改进。这种手段是从支持向量机中获得灵感的，支持向量机通过升维将非线性数据转化为线性可分，然后使用核函数在低维空间中进行计算，这是一种“高维呈现，低维解释”的思维。

多项式变化，是一种通过增加自变量上的次数，而将数据映射到高维空间的办法，只要我们设定一个自变量上的次数（大于1），就可以相应的获得数据投影在高次方的空间中的结果。这种方法可以通过sklearn中的类PolynomialFeatures来实现。

多项式回归是没有表达式的，这个过程只不过是将原始x上的次方增加，并且为这些次方加上权重W，然后增加一列所有次方为0的列作为截距乘数的x0。

狭义线性模型vs广义线性模型

狭义线性模型：自变量上不能有高次项，自变量和标签之间不能存在非线性关系。
广义线性模型：只要标签与模型拟合出的参数之间的关系是线性的，模型就是线性的。

因此，如果我们考虑广义线性模型的定义，多项式回归就是一种线性模型，毕竟它的系数w之间也没有相乘或者相除。

多项式是一种特殊的线性模型。其主要通过对自变量上的次方进行调整，来为线性回归赋予更多的学习能力，其核心表现在于提升现有模型在数据集上的表现。

6.逻辑回归

6.1 概述

逻辑回归的基本表达形式为：

其中这个联系函数为sigmoid函数，它是一个S型的函数，当自变量z趋近于正无穷时，因变量g(z)趋近于1，而当z趋近于负无穷时，g(z)趋近于0，它能将任何实数映射到（0,1）区间，使其可以将任意值函数转换为更适合二分类的函数。

逻辑回归的核心任务是：求解 $\theta$ 来构建一个能够尽量拟合数据的预测函数y(x)，并通过向预测函数中输入特征矩阵来获取相应的标签值y。

长期以来人们都是以“返回概率”的方式来理解逻辑回归，可以说，逻辑回归返回的数字，本质上不是概率，但可以被当成概率来看待和使用。

6.2 逻辑回归中的损失函数

我们使用损失函数这个评估指标，来衡量参数为θ的模型拟合训练集时产生的信息损失的大小，并以此来衡量参数θ的好坏。（注意：没有“求解参数”需求的模型没有损失函数，比如KNN,决策树）

逻辑回归的损失函数是由极大似然估计推导出来的，具体结果可以写成：

对逻辑回归中过拟合的控制，通过正则化来实现。

6.2.1 正则化

常见的有L1正则化和L2正则化，分别通过在损失函数后加上参数向量θ的L1范式和L2范式的倍速来实现。这个增加的范式，称为“正则项”，也称为“惩罚项”。损失函数写法如下：

其中C是正则化强度的倒数，C越小，损失函数会越小，模型对损失函数的惩罚越重，正则化的效力越强，参数θ被压缩的越来越小。

6.2.2 逻辑回归中的特征工程

在特征数量很多时，我们处于计算量的考虑，会对逻辑回归进行特征选择来降维。

业务选择：根据自己的业务能力进行选择；
PCA和SVD一般不用。因此PCA和SVD的降维结果是不可解释的，一旦降维后，我们无法解释特征与标签之间的关系。当然，在不需要探究特征和标签之间关系的线性数据上，降维算法也是可以使用的。
统计方法可以使用，但不是非常必要。

6.2.3 梯度下降

遍历θ的过程可以描述为：

α被称为步长，控制着每走一步（每迭代一次）后θ的变化，并以此来影响每次迭代后的梯度向量的大小和方向。注意：步长不是任何物理距离，它甚至不是梯度下降过程中任何距离的直接变化，它是梯度向量的大小d上的一个比例，影响着参数θ每次迭代后改变的部分。

在sklearn中设置了参数max_iter最大迭代次数来代替步长，帮助我们控制模型的迭代速度并适时地让模型停止。max_iter越大，代表步长越小，模型迭代的时间越长；反之，则代表步长设置很大，模型迭代的时间很短。

注：逻辑回归基于概率理论，假设样本为正样本的概率可以用sigmoid函数（S型函数）来表示，然后通过极大似然估计的方法估计出参数的值。

【西瓜书】机器学习（周志华）学习问题记录 _linyu__ 基础知识机器学习周志华西瓜书
简述西瓜书的鼎鼎大名早有耳闻，于是毫无疑问买来入门。写此文章的时候刚要做完第二章的练习题。在看的时候有一些感慨：需要一定的数理基础，尤其是概率论的内容。但是如果没学过也不建议直接去啃概率论，只要把相关的部分看看即可。周老师默认我们能力很强，所以有些地方说得不够详细，仅靠此书无法理解，需要自己另行查阅。有一些疑似谬误的地方，但是我自己能力较差，又苦于没有人佐证，所以并不敢说周老师一定错了。在看的过程
机器学习西瓜书笔记——机器学习基本术语，模型性能指标【一】 Code思铮机器学习笔记人工智能
西瓜书第一，二章笔记datawhale吃瓜教程task1学习笔记第一章第一张主要介绍了一些机器学习研究内容和基本术语，以及发展现状。基本术语由于有些术语过于基础，在此不做赘述大家可以去读西瓜书。1、分类任务：若模型的预测值是离散的，如“好瓜”，“坏瓜”，这是分类任务。在二分类任务中有两个标签（label）一个是正类，一个是反类2、回归任务：若模型的预测值是连续的，如“西瓜的成熟度是0.99“那么这
西瓜书--无监督学习（聚类） oisflo 学习聚类机器学习
无监督学习无监督学习无监督学习前言一、无监督学习是什么？1）机器学习的分类2）解释（图文结合）3）区别二、无监督学习应用范围三、无标注数据的结构1）用处四、聚类1）聚类的含义：2)怎么判断是好的聚类：原则：3）聚类的分类：1）软聚类（softclustering）vs.硬聚（hardclustering）2）层次聚类vs.非层次聚类（图）+举例3）==算法==：凝聚式层次聚类（步骤+图文显示）分裂
全局最小值、局部最小值以及如何跳出局部最小值 keep_humble 机器学习机器学习深度学习
前段时间在看深度学习的内容，对于全局最小值和局部最小值这两个概念之前理解的不太深入，总是容易混淆，看了西瓜书之后明白了，特此总结一下，加深印象。1.全局、局部最小值的概念局部最小值是在某一区域内，函数的取值达到了最小，但是如果将这个区域扩展到定义域上来，那么这个局部最小值就不一定是最小的。全局最小值，是在定义域内，函数值最小。全局最小一定是局部最小值，但是反之不一定成立。图中的点是一个局部最小值点
机器学习（周志华西瓜书）华华不在机器学习机器学习人工智能神经网络
注：此文仅作为个人学习笔记。第一章绪论1.机器学习（machineLearning）：致力于研究如何通过计算的手段，利用经验来改善系统自身性能；学习算法（learningalgorithm）：关于在计算机上从数据中产生“模型”（model）的算法；2.（基本术语解释）数据集（dataset）示例(instance)/样本（sample）：数据集中每条记录是关于一个事件获对象的描述；属性（attri
西瓜书【机器学习（周志华）】目录随机森林404 机器学习机器学习
第一部分：基础概念机器学习概述1.1人工智能与机器学习1.2机器学习分类1.3机器学习应用1.4机器学习常用术语解释模型的评估与选择2.1经验误差与过拟合2.2评估方法2.3性能度量2.4偏差与方差第二部分：核心算法线性模型3.1什么是回归3.2一元线性回归3.3多元线性回归3.4对数几率回归3.5线性判别分析（LDA）3.6多分类学习3.7类别不平衡问题决策树4.1决策树概述4.2ID3算法4.
深度学习如何入门？深度学习机器学习深度学习 python 机器学习图神经网络深度学习算法程序员 pytorch
有人说要学深度学习，机器学习是基础；有人说，要先学数学，数学基础很重要；也有人说，不学Python寸步难行；还有人说，不看论文怎么行？又有人说，我这有两本秘籍，你拿回去好好研究，将来必成大器！从理论基础开始稳扎稳打地往上学，自然是老铁没毛病的，但是也得看时间要求，以及投产比。尤其是在一开始的时候，心气儿正足，却在西瓜书南瓜书花书等经典大部头、高数、概率、python甚至c++上耗尽心力，到头来极容
基于鸢尾花数据和手写数字，决策树，随机森林，voting，bagging法的比较 zaprily 实验记录决策树 python sklearn
四种方法的具体的原理可以见博文和西瓜书先上代码根据结果分析鸢尾花数据#evaluatebaggingalgorithmforclassificationfromnumpyimportmeanfromnumpyimportstdfromsklearn.datasetsimportmake_classificationfromsklearn.model_selectionimportcross_val
我的机器学习学习之路花果山-马大帅机器学习机器学习人工智能 python 算法 scikit-learn
学习python的初衷•hi，今天给朋友们分享一下我是怎么从0基础开始学习机器学习的。•我是2023年9月开始下定决心要学python的，目的有两个，一是为了提升自己的技能和价值，二是将所学的知识应用到工作中去，提升工作效率。我的背景与书籍选择•我是上班族，2023年非全日制硕士研究生毕业。•我的导师是数学博士，在导师的推荐下买了周老师的《机器学习(西瓜书)》和李航老师的《统计学习方法》，这2本书
人工智能（11）——————计算机视觉長安一片月人工智能人工智能计算机视觉
目录声明正文1、简介2、步骤1）图像分类2）目标检测（目标定位）3）目标跟踪4）图像分割普通分割语义分割实例分割5）图像生成3、总结声明以下内容均来自B站吴恩达教授的视频以及西瓜书和众多前辈的学习成果总结，仅记录本人的大模型学习过程，如有侵权立马删除。言论仅代表自身理解，如有错误还请指正。正文1、简介我们先来看看百度百科里对计算机视觉的介绍：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说
人工智能（10）——————自然语言处理長安一片月人工智能人工智能自然语言处理学习 transformer
声明以下内容均来自B站吴恩达教授的视频以及西瓜书和众多前辈的学习成果总结，仅记录本人的大模型学习过程，如有侵权立马删除。言论仅代表自身理解，如有错误还请指正。正文简介其实在现在的人工智能领域，很多东西都是相互关联，相互促进的。比如机器学习可以引入到自然语言处理，计算机视觉等多个类别当中，而自然语言处理中特有的seq2seq方法也可以用于机器学习当中。但是根本上这些类别都存在自己独有之处。自然语言处
从零开始学AI——1 人工智能
前言最近总算有想法回到学习上来，这次就拿AI开刀吧。本系列叫从零开始学AI不是骗人的，我对AI的了解几乎就是道听途说，所以起了这么一个标题，希望学完从0变1（？此外，我应该不会特别关注代码实现上的内容，因为我对python也是一窍不通。本笔记为学习周志华老师《机器学习》（西瓜书）的个人学习记录，内容基于个人理解进行整理和再阐述。由于理解可能存在偏差，欢迎指正。引用模块说明：在笔记中，我会使用引用模
【西瓜书《机器学习》七八九章内容通俗理解】游戏乐趣人工智能机器学习人工智能
第七章：贝叶斯分类器7.1贝叶斯决策论基础核心概念：贝叶斯分类器是基于概率来做分类决策的。简单来说，就是根据已知的一些条件，去计算每个类别出现的概率，然后选择概率最大的那个类别作为分类结果。就好比你在猜一个盒子里装的是红球还是蓝球，你可以根据之前从这个盒子里摸球的一些经验（比如摸出红球的次数多），来判断这次盒子里更有可能是红球还是蓝球。例子：假如你要判断一幅图片是猫还是狗。你知道在所有的图片数据里
周志华机器学习西瓜书第五章神经网络-学习笔记(超详细) Sodas（填坑中....）周志华西瓜书——详细笔记附例题图解机器学习神经网络学习人工智能数据挖掘算法
在机器学习中，神经网络一般指的是"神经网络学习"，是机器学习与神经网络两个学科的交叉部分。所谓神经网络，目前用的最广泛的一个定义是"神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体做出交互反应"。神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向--深度学习的基础。学习神经网络不仅可以让你掌握一门强大的机器学习方法，同时也可以更好地帮助
《西瓜书》大白话思想总结-第三章小溪子子西瓜书概率论机器学习分类
第三章3.1+3.2分类和回归是监督式学习，都是根据数据，分析特征，作出预测，只是预测的值是离散的叫分类，连续的叫回归。为什么叫线性回归呢？因为线性就可以看成是直线，直线当然是连续的。而所给的直线就是根据离散点拟合出来的线，其本质就是一种预测。那么根据离散点的特征，给出了预测方程的这个直线，就符合回归的定义。因此，这就叫作线性回归。（个人理解，不一定对）这个拟合直线的方程，或者叫预测的函数，各个自
周工作计划2019-03-25 MikeShine
很久没有写工作计划了。之前一个星期生了病，很难受。上个星期基本上什么都没有干。但是好的一点是，西瓜书基本都看完了。本周工作计划：机器学习分享活动（关于决策树的分享）回看一下西瓜书的东西，每一章把开头总结写一下。老师没有给具体的任务，留了再说吧。
机器学习（西瓜书）学习笔记导览盛寒机器学习西瓜书学习机器学习人工智能
本篇文章会持续更新直到更新完毕，关注博主不迷路~（如果没有超链接，表示还没有更新到）第一章绪论1.1引言1.2基本术语1.3假设空间1.4归纳偏好第二章模型评估与选择2.1经验误差与过拟合2.2评估方法2.3性能度量2.4比较检验2.5偏差与方差第三章线性模型3.1基本形式3.2线性回归3.3对数几率回归3.4线性判别分析3.5多分类学习3.6类别不平衡问题第四章决策树4.1基本流程4.2划分选择
机器学习LDA线性判别器代码实现 Longlongaaago 机器学习 LDA 线性判别分析代码实现
机器学习LDA线性判别器代码实现西瓜书P60线性判别器LDA代码实现：importnumpyasnpimportmatplotlib.pyplotaspltdefload_data(file_name):'''数据导入函数:paramfile_name:(string)训练数据位置:return:feature_data(mat)特征lable_data(mat)标签'''fr=open(file
西瓜书-机器学习5.4 全局最小与局部极小 lestat_black 西瓜书机器学习
两种“最优”：“局部极小”(localminimum)和"全局最小"(globalminimum)对和，若存在使得多组不同参数值初始化多个神经网络使用“模拟退火”：以一定的概率接受比当前解更差的结果，有助于“跳出”局部极小使用随机梯度下降遗传算法(geneticalgorithms)[Goldberg,1989]也常用来训练神经网络以上用于跳出局部极小的技术大多是启发式，理论上商缺乏保障。Gold
2019-05-14《西瓜书》难啃杨熊猫Yang
周志华老师的《西瓜书：机器学习》这周看完1~10章锻炼：太极云手、100手/组，3组虎刨功（简）、100个/组，2组
机器学习——集成学习三三木木七机器学习集成学习人工智能
参考：ysu老师课件+西瓜书+期末复习笔记1.集成学习的基本概念集成学习（ensemblelearing）通过构建并结合多个学习器来完成学习任务。有时也被称为多分类器系统（multi-classifiersystem）、基于委员会的学习(committee-basedlearning)等。理解：集成学习是一种机器学习方法，其核心思想是将多个学习器（弱学习器）集成在一起，以达到比单个学习器更好的性能
西瓜书学习笔记——低维嵌入（公式推导+举例应用） Nie同学机器学习学习笔记机器学习
文章目录算法介绍实验分析算法介绍低维嵌入（Low-DimensionalEmbedding）是一种降低高维数据维度的技术，目的是在保留数据特征的同时减少数据的复杂性。这种技术常用于可视化、特征学习、以及数据压缩等领域。低维嵌入的目标是将高维数据映射到一个低维空间，以便更好地理解和可视化数据。在kkk近邻学习中，随着数据维度的增加，样本之间的距离变得更加稀疏，导致KNN算法性能下降。这是因为在高维空
西瓜书学习笔记——核化线性降维（公式推导+举例应用） Nie同学机器学习学习笔记机器学习
文章目录算法介绍实验分析算法介绍核化线性降维是一种使用核方法（KernelMethods）来进行降维的技术。在传统的线性降维方法中，例如主成分分析（PCA）和线性判别分析（LDA），数据被映射到一个低维线性子空间中。而核化线性降维则通过使用核技巧，将数据映射到一个非线性的低维空间中。核技巧的核心思想是通过一个非线性映射将原始数据转换到一个高维的特征空间，然后在该特征空间中应用线性降维方法。这种映射
西瓜书学习笔记——k近邻学习（公式推导+举例应用） Nie同学机器学习学习笔记机器学习
文章目录算法介绍实验分析算法介绍K最近邻（K-NearestNeighbors，KNN）是一种常用的监督学习算法，用于分类和回归任务。该算法基于一个简单的思想：如果一个样本在特征空间中的kkk个最近邻居中的大多数属于某个类别，那么该样本很可能属于这个类别。KNN算法不涉及模型的训练阶段，而是在预测时进行计算。以下是KNN算法的基本步骤：选择K值：首先，确定用于决策的邻居数量K。K的选择会影响算法的
西瓜书学习笔记——主成分分析（公式推导+举例应用） Nie同学机器学习学习笔记机器学习降维
文章目录算法介绍实验分析算法介绍主成分分析（PrincipalComponentAnalysis，PCA）是一种常用的降维技术，用于在高维数据中发现最重要的特征或主成分。PCA的目标是通过线性变换将原始数据转换成一组新的特征，这些新特征被称为主成分，它们是原始特征的线性组合。对于一个正交属性空间（各个属性之间是线性无关的）中的样本点，存在以下两个性质的超平面可对所有样本点进行恰当的表达：最近重构性
朴素贝叶斯分类算法三三木木七 #机器学习机器学习人工智能 sklearn
本文介绍了朴素贝叶斯分类算法，标记后的话一般是自己简要总结的，是比较通俗易懂的，也就是必看的。参考：西瓜书，ysu老师课件【摘要】1.分类算法：分类算法的内容是根据给定特征，求出它所属类别。2.先验概率：就是根据以往的数据分析所得到的概率。后验概率：是得到信息之后重新加以修正得到的概率。3.贝叶斯决策：贝叶斯决策理论中，我们希望选择那个最小化总体期望损失的决策。决策损失的期望值通过对所有可能状态的
决策树的相关知识点三三木木七 #机器学习决策树算法机器学习
参考：ysu老师课件+西瓜书1.决策树的基本概念【决策树】：决策树是一种描述对样本数据进行分类的树形结构模型，由节点和有向边组成。其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果。理解：它是一个树状结构，其中每个节点代表一个特征属性的判断，每个分支代表这个判断的结果，而每个叶节点（叶子）代表一种类别或回归值。关于决策树要掌握的概念：根节点（Roo
西瓜书学习笔记——层次聚类（公式推导+举例应用） Nie同学机器学习学习笔记聚类
文章目录算法介绍实验分析算法介绍层次聚类是一种将数据集划分为层次结构的聚类方法。它主要有两种策略：自底向上和自顶向下。其中AGNES算法是一种自底向上聚类算法，用于将数据集划分为层次结构的聚类。算法的基本思想是从每个数据点开始，逐步合并最相似的簇，直到形成一个包含所有数据点的大簇。这个过程被反复执行，构建出一个层次化的聚类结构。这其中的关键就是如何计算聚类簇之间的距离。但实际上，每个簇都是一个集合
西瓜书学习笔记——密度聚类（公式推导+举例应用） Nie同学机器学习学习笔记聚类
文章目录算法介绍实验分析算法介绍密度聚类是一种无监督学习的聚类方法，其目标是根据数据点的密度分布将它们分组成不同的簇。与传统的基于距离的聚类方法（如K均值）不同，密度聚类方法不需要预先指定簇的数量，而是通过发现数据点周围的密度高度来确定簇的形状和大小。我们基于DBSCAN算法来实现密度聚类。DBSCAN是基于一组邻域参数(ϵ,MinPts)(\epsilon,MinPts)(ϵ,MinPts)来刻
【机器学习·西瓜书学习笔记·线性模型】线性回归——最小二乘法（least square method）慈善区一姐机器学习学习线性回归
线性模型的基本形式给定由个属性描述的实例,其中是在第个属性上的取值，线性模型（linearmodel）试图学得一个通过属性的线性组合来进行预测的函数，即一般用向量形式写成：和确定后，模型就得以确定参数查阅表把数据集表示为一个m*（d+1）大小的矩阵，其中每行对应于一个实例，每行前d个元素对应于实例的d个属性值，最后一个元素恒置于1，即（一）均方误差（meansquarederror）基于欧几里得距
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &