BubbleCodes

吴恩达机器学习视频学习笔记

吴恩达机器学习视频笔记

介绍 Introduction
线性回归 Linear Regression
- 单变量 One Variable
- 多变量 Multiple Variables
- 多项式回归 Polynomial Regression
- 正规方程 Normal equation
Logistic Regression
- 单分类(OCC) One-Class Classification
- 多分类问题 Multi Classification
正则化 Regularization
- 过拟合 Overfitting 和欠拟合 Underfitting
- 正则化解决过拟合 Overfitting
神经网络 Neural Network
- 前向传播算法 Forward Propagation Algorithm
- 反向传播算法(BP) Back Propagation Algorithm
- 梯度检验 Gradient Checking
- 随机初始化Random Initialization
Advice for Applying Machine Learning
- Debugging a learning algorithm
- Learning Curves
机器学习系统设计 Machine Learning System Design
- 确定工作的重心 Prioritizing What to Work On
- 误差度量 Error Metric
支持向量机 (SVM) Support Vector Machines
- 从Logistic Regression 到 SVM
- 大间距分类器 Large Margin Classifier
- 核 kernel
聚类 Clustering
- K-Means算法
降维 Dimensionality Reduction
- 主成分分析(PCA) Principal Component Analysis
- 压缩重现 Reconstruction of the Driginal Data
异常检测 Anomaly Detection
- 异常检测算法 Anomaly Detection Algorithm
- 开发和评估一个异常检测系统 Developing and Evaluating an Anomaly Detection System
- 异常检测anomaly detection VS. 监督学习supervised learning
- 多元高斯分布 Multivariate Gaussian Distribution
推荐系统 Recommder System
- 基于内容[^15]的推荐算法 Content Based Recommendation
- 协同过滤 Collaboration Filtering
大规模机器学习 Large Scale Machine Learning
- 随机梯度下降 Stochastic gradient descent
- Mini-Batch gradient descent
- 减少映射和数据并行 Map reduce and Data parallelism
- 在线学习 online learning
运用举例：图像文字识别 Application Example：Photo OCR（Optical Character Recognition）
- 滑动窗口分类器 sliding window classifier
- 人工数据合成 artificial data synthesis
- 上限分析 ceiling analysis

学习并实践它们！老师你好！欢迎来到我的blog。

（21.8.4更新）在差不多快要学习玩吴恩达的深度学习和神经网络课程之后，回过头来看这篇关于吴恩达机器学习课程的学习笔记，发现自己不论是在记笔记的方式或者记录学习内容方面还有待加强，比如：使用过多的课程ppt截图，但是截图的质量和画质不高；还有记录过程中缺少自己独特的、深入的思考。所以今后会陆陆续续对这篇文章进行改进，一方面在学习了深度学习之后回过头来加深对整个机器学习领域一些算法的理解；另一方面我会这里增加一些新学习的机器学习知识，如决策树一类的。到时候似乎得改标题了:)

介绍 Introduction

机器学习的定义
机器学习一直没有一个统一的定义，一种经常引用的英文定义来自Tom Mitchell的《机器学习一书》：A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its’performance at tasks in T, as measured by P, imporves with experience. 其对应的中文译文：如果用P来衡量计算机程序在任务T上的性能，根据经验E在任务T上获得性能改善，那么我们称该程序从经验E中学习。

如何学习机器学习
如何学习机器学习或者说机器学习的路线是什么？这是一个需要机器学习初学者弄懂的问题。
从学习背景来说，机器学习需要必要的数学知识（微积分，线性代数，概率论与统计学，优化理论等）和关于一些用于科学计算的编程语言（如Matlab ，Octave，Python，R等）。

监督学习和无监督学习
可以根据是否有label来区分监督学习和无监督学习。监督学习主要包括分类和回归两种形式，无监督学习主要包括聚类和关联分析。
在本blog中涵盖的监督学习算法有：线性回归、logistic regression、神经网络、支持向量机(SVM)、协同过滤，涵盖的无监督学习算法有：K-Means、主成分分析(PCA)

线性回归 Linear Regression

单变量 One Variable

梯度下降算法 “Batch” Gradient Descent Algorithm
梯度¹下降法,就是负梯度方向来决定每次迭代的新的搜索方向,使得每次迭代能使待优化的目标函数逐步减小。用于求函数的局部最小值，它遍历了所有样本点，而有些算法只关注小集合内的样本点。

例子：房价预测
从最简单的单变量线性回归开始，假设函数h_θ(x) =θ₀+θ₁*x；θ₀，θ₁为模型参数，问题是如何选择模型参数，使得代价函数²最小。

梯度下降算法如下图所示：（其中α³是学习速率）

这里有几个问题需要注意：
    1、需要同时更新参数模型，吴恩达老师没有解释。
    2、梯度下降算法可能获得局部最优解。但是线性回归的梯度下降的代价函数是一个下凸函数，它没有局部最优解，只有全局最优解。
    3、学习速率太小导致下降梯度太小；学习速率太大可能导致无法收敛或者发散。
    4、随着我们越来越靠近局部最优解，导数值/偏导数值越来越小，梯度下降法每一步的幅度自动地越来越小。

多变量 Multiple Variables

多元梯度下降算法
随后讨论的是多变量线性回归，多变量线性回归是指自变量有多个的线性回归问题。此时模型参数->模型参数向量。

算法如下：

单元梯度下降算法和多元梯度下降算法对比：

根据J-Iteration曲线判断收敛性：
学习速率α不同，代价函数的收敛情况和收敛速率都有可能发生改变。
当该函数图像是发散的时候，我们需要适当调小α，当收敛速度过慢时，可以适当调大α。

多项式回归 Polynomial Regression

多项式回归是线性回归的一种，在一般形式的多项式回归中，特征向量中的某些维是多次项，合理选择多项式的特征向量可以使预测函数图像曲线和样本拟合地更好。上述的线性回归其实是多项式回归的一种特殊情况。

正规方程 Normal equation

正规方程是一种求解最小化代价函数J(θ)参数θ的方法，其区别于上述梯度下降中迭代的思想，正规方程通过数学解析的方法直接求出代价函数最小值。
并且不需要特征缩放。
其中的数学思想是：由于代价函数为凸函数，所以求解偏导数为0的点，该点即为最小值点。

关于θ向量的代价函数如何求最小值：

求解出来θ值为：

例子：

梯度下降法和正规方程对比：
    主要在于当n十分大时，选用梯度下降法，n不大时使用正规方程法。

线性回归运用时可能出现问题
    例子：判断肿瘤的良性与恶性，如果套用线性回归，则会出现一下问题：
    当出现某些偏离一般位置的点时，对预测结果影响较大。

Logistic Regression

Logistic Regression里面含有回归regression，但它其实是分类算法，而不是回归算法。
分类算法和回归算法在本质上是一样的，分类算法主要解决的问题是：给我数据，我将该数据归类为某一类，其预测值为离散值，而回归算法预测值为连续值。例如预测明天温度30℃以上还是一下和具体多少度。

单分类(OCC) One-Class Classification

决策边界⁴不是数据集的属性，而是假设本身的及其参数的属性。即决策边界是假设函数的一个属性，有确定的参数值（θ向量）我们就可以直接得到决策边界。数据集->预测函数->决策边界

如何获得logistic regression的参数θ向量？

    由于预测函数h_θ(x)为复杂的非线性函数，所以代价函数J(θ)不一定是凸函数convex。如果使用梯度下降法，那么可能不会收敛到全局最优解处。
    基本思想是修改代价函数为凸函数，但是代价函数所代表的意思不变，然后仍然使用梯度下降算法来解决问题。
    故解决方案为：我们可以修改cost function使得其为凸函数convex function

    先定义cost函数以下形式：
    y=1时，h_θ(X)趋向于1，代价J越小，最小值为0，最大值为无穷大；反之y=0时，h_θ(X)趋向于0，代价越小，最小值为0，最大值为无穷大。
    由此将非凸函数优化问题重新修正为凸函数优化问题，即解决了局部最优解问题。

    得到cost函数后，将cost函数的分段形式变成统一的形式，并得到代价函数J(θ)。将表达式合并的方法有很多，这里来自于统计学中极大似然法。

将预测函数的值域压缩到[0,1]，此时预测函数表达为预测为某分类值得概率。

logistics regression代价函数求导：
$\frac{\partial L}{\partial w}=\frac{\partial L}{\partial \hat y}*\frac{\partial \hat y}{\partial \hat z}*\frac{\partial z}{\partial w} \\ \frac{\partial L}{\partial w}=-\frac{1}{m}\Sigma\{ [y* \frac{1}{\hat y}+(1-y)* \frac{1}{{1-\hat y}}]*\hat y*(1-\hat y)*x\} \\ \frac{\partial L}{\partial w}=\frac{1}{n}\Sigma[(\hat y-y)*x]$
    此时我们惊讶地发现，代价函数对模型参数θ得偏导与前面linear regression表达式相同。那么难道说线性回归和logistic regression相同吗？
    答：不同，表达式看似相同，其实假设预测函数得表达式以及不同。

    optimization algorithm：
    1、gradient descent
    2、conjugate gradient
    3、BFGS
    4、L-BFGS
    线搜索算法

多分类问题 Multi Classification

多分类问题解决得思想是：One VS. All，即对于每一类都做一个分类器，用于分出该类和其他类，这样对于某数据集进行多分类预测时，即将每一数据都带入所有分类器中，哪个分类器的预测概率越大，则预测为哪一类。

正则化 Regularization

过拟合 Overfitting 和欠拟合 Underfitting

    回归问题和分类问题都有可能出现过拟合的现象，在回归问题中过拟合情况为：拟合曲线过于复杂；在分类问题中过拟合情况为：决策边界过于复杂。

    过拟合在数学上体现为高方差（high variance），具体表现为曲线过于复杂，泛化能力⁵不强。
    欠拟合在数学上体现为高偏差（high bias），具体体现为曲线过于简单，对数据的拟合能力不强。

引起过拟合和欠拟和的原因

    缓解过拟合问题overfitting的选择：
    1、手动或者使用模型选择算法来舍弃一些特征。但是可能所有的特征都是有用的。
    2、正则化regularization：保留所有的特征，但是降低特征变量的量级。

    环节欠拟和问题underfitting的选择：
    1、增加数据量
    2、增加特征向量的维度，提高模型复杂度

正则化解决过拟合 Overfitting

正则化的思想是：在不减少特征向量的维度的前提下，通过在代价函数J(θ)中添加正则项的，从而对特征向量的每一维对应的参数进行“惩罚 penalizing”（效果是xx前面的系数变小），最终达到缓解过拟合的效果。
其中：λ为参数类似于学习速率α，λ越大，惩罚越大；λ越小，惩罚越小。

惩罚机制penalizing例子：
在下图中添加了正则项，为了是代价函数达到最小，θ₃和θ₄会变得很小，从而x₃和x₄前面的系数很小，从而简化了模型。

λ起了平衡我们两个目标的作用：更好地拟合和保持特征值小。 但是如果λ太大，则惩罚penalizing太大，那么可能导致欠拟合，如下图所示。

一般我们不penalizing惩罚θ_0，为什么？
我的看法：theta_0对应的特征值为x_0，而x_0恒为1，故θ_0项只影响h函数的截距，对过拟合和欠拟合问题没有影响。
而由于cost function中正则化项不包括theta_0，所以grad J自然也不包括theta_0。

并且正则化一般在特征向量维数较高，而数据集较小时使用，因为此时易出现overfitting。

正则化线性回归
    线性回归求解参数向量θ两种方法：梯度下降算法和正规方程算法
    梯度下降算法修改（添加正则项）：

    正规方程法修改：

    optional/advanced：在使用正则方程时，可能会出现矩阵不可逆的情况，而在使用了正则化regularization之后矩阵变得可逆，解决了这一问题。

神经网络 Neural Network

前向传播算法 Forward Propagation Algorithm

    在有了线性回归和logistic regression之后为什么我们还需要Neural NetWork呢？
    原因如下：
    我们之前学的，无论是线性回归还是逻辑回归都有这样一个缺点，即：当特征太多时，计算的负荷会非常大.

    假使我们采用的都是 50x50 像素的小图片，并且我们将所有的像素视为特征，则会有2500 个特征，如果我们要进一步将两两特征组合构成一个多项式模型，则会有约25002/2个（接近 3 百万个）特征。普通的逻辑回归模型，不能有效地处理这么多的特征，这时候我们需要神经网络。所以Neural Network可运用于计算机视觉。

Nerual Network的基本结构如下图所示：
Nerual Network主要包括输入层⁶Input Layer、隐藏层⁷Hidden Layer和输出层⁸Output Layer，其中每层都有一个独立于其他神经元的偏置单元⁹Bias Unit，从前一层到后一层的单向全连接表示数据的流动和处理过程。每个层到后一层的权重参数θ构成的矩阵称为权重矩阵¹⁰但直接通过前一层和权重矩阵只能直接得到Z向量，Z向量到A向量还要通过激活函数¹¹（sigmoid函数）的映射得到。

Nerual Network向量表示形式：

    神经网络有个很大的特点是：它不直接使用已有的特征，而是通过学习获得新的更复杂的特征，这些特征往往难以理解。
    神经网络中神经元的连接方式成为神经网络的架构，不同的连接方式就是不同的架构。

用neural network的简单例子：
    AND运算：

    OR运算：

Neural Network神经网络解决多分类问题Multi-Class Classification
    例子：数字识别
    数字识别实际上就是多分类问题。其采用的方法本质上是一对多法One VS. All的拓展，在神经网络的架构上就是增加输出层，在每一次预测中我们取输出层中输出最大的一类作为预测结果。

Neural Network的CostFunction代价函数
    神经网络中的代价函数J(θ)是综合了所有分类器的代价函数，以相加的形式将他们连接起来。

反向传播算法(BP) Back Propagation Algorithm

反向传播算法的基本思想是：从输出层开始，逐层向前计算误差δ。

Back Propagation Algorithm 框图：

梯度检验 Gradient Checking

梯度检验的基本思想是利用数学上的导数/偏导数的定义的思想，在2*ε很小的情况下，将两点连线的斜率近似等于中点的曲线斜率，由此验证在算法中计算得到的导数/偏导的准确性。

    在θ为实数的情况下，计算过程如下图：

    θ是向量的情况下，计算过程如下图：

总结
    检验得知你的误差前向传播算法准确之后，关掉梯度检验算法，因为它计算量太大。

随机初始化Random Initialization

    在之前的θ向量初始化采取的策略是：zero initializtion(对称权重问题problem of symmetric weights)，这样初始化会出现同层hidden unit完全对称，出现高冗余，权重都相同。
    所以在这里我们采取随机初始化的策略。

random initialization
    对于权重矩阵中的每一个θ，我们选用[-ε, ε]的均匀分布来初始化它。

neural network 总结
    1、选择网络架构network architecture：connectivity pattern between the neurons。输入层和输出层units由特征维度和分类个数决定。注意输出矩阵y需要recoded as [1 0 0 …]T

    2、训练一个神经网络的基本步骤training a neural network
    初始化权重矩阵initialization weights
    前向传播算法计算预测值forward propagation
    获得代价函数get J(θ)
    反向传播算法计算误差矩阵backpropagation to get dJ/dθ
    梯度检验gradient check
    gradient descent or other advanced optimization methods to minize J(θ)(nn cost function is non-convex,it can 收敛到局部最优解而不是全局最优解)

Advice for Applying Machine Learning

Debugging a learning algorithm

手段method
    当算法出现问题时，你能够实施的手段有哪些？
    1、更多的数据集
    2、更多/少的特征
    3、添加多项式特征
    4、减小/增大惩罚系数λ

评估estimate 机器学习算法性能指标
    误差bias小并不一定说明他是一个好的假设方程，它还有可能是过拟合overfitting了。

判断over fitting的手段：
1、观察拟合图像（用处不大）
2、将样本分为training set、cross validation set、test set，分割比例一般6:2:2

在训练集、测试集后，利用训练集训练的模型（参数θ向量）分别计算训练集的代价J_train(θ)、验证集的代价J_cv(θ)、测试集的代价J_test(θ)

    计算泛化误差的基本步骤：
    1、最小化每个模型的训练误差，获得training error最小的模型(Theta向量)。
    2、计算每个模型的cross validation error（交叉验证误差），选择交叉验证误差最小的模型。（但是不用它作为泛化误差）
    3、使用test set计算选择模型的test error，将其作为泛化误差。

机器学习诊断法 Machine Learning Diagnostics
    （variance）overfit：训练误差很小，泛化误差很大。
    （bias）underfit：训练误差和泛化误差都很大，大小相近。

正则化Regularization 和误差、方差
    λ过大时，惩罚过大，导致underfitting，bias过大；
    λ太小时，惩罚过小，导致overfitting，variance过大；

选择lambda(regularization)
    1、生成λ序列，使用序列中每一个值最小化cost function得到对应的θ矩阵。
    2、计算每个θ的交叉验证损失，找出最小的交叉验证损失对应的λ和θ，并选择测试损失作为模型的泛化能力的指标。

误差/方差与lambda关系图：

Learning Curves

    用途：检查算法准确性或者优化算法，诊断是否存在bias problem or variance problem
    变化训练集training set的size，观察training cost和交叉验证误差。

high bias高误差情况下
    在高误差情况下，训练误差和交叉验证误差最后差不多重合,给予足够多的training set量也不能降低test cost和cross validation误差。
    个人理解：因为模型过于简单，盲目提高训练集的大小并不能有效降低两个误差，此时是模型的假设限制。

high variance高方差情况下
    给予更多的训练集有助于降低cross validation cost和test cost。

如何选择方法去优化算法
    more training -> fix high variance
    less features -> fix high variance
    more features -> fix high bias
    increase λ -> fix high variance
    decrease λ -> fix high bias
    总体的思路时，一开始尽量将模型的复杂度提升到足够高，当发现出现overfitting问题时，在考虑用正则化或者其他解决方案解决过拟合。

nerual network 和 overfitting
    如何选择神经网络的结构（连接结构）？总的来说：
    1、在满足精确度的前提下使hidden layer少，神经元单位少的神经网络（简单的神经网络）计算量少，但是可能存在underfitting
    2、对于复杂的神经网络，计算量较大，可能出现overfitting。
    3、选择的原则是：通常选择更复杂的神经网络，并且再出现overfitting时，使用regularization（正则化）解决overfitting的问题。
    4、对于hidden layer的层数选择，可以从小到大以此计算cross validation cost，选择小的那个。

机器学习系统设计 Machine Learning System Design

确定工作的重心 Prioritizing What to Work On

例子：垃圾邮件分类问题

设计流程
    在设计一个机器学习系统时，推荐的方法是：
    1、快速实现一个简单的算法，测试其cross validation cost。
    2、画出learning curves，判断其是否存在bias或variance问题，在那之后在判断是什么方法来解决。（避免过早优化）
    3、进行错误分析

误差度量 Error Metric

    通常在实现完一个简单的算法之后，我们需要判断加入某些细节能否提升我们算法的性能，比如：构建更复杂的特征等，此时我们需要一个关于算法好坏的度量。从该误差度量上，我们可以清楚地知道算法的性能是否提升。
    一般，我们选择例如准确率的量来评估算法的性能，比如：在癌症诊断中分类出的人中的真正癌症患者占所有人的比例等等。

不对称性分类的误差评估
    有时单纯只考虑一种情况的指标是不能很好地作为算法性能的指标的，例如例如我们希望用算法来预测癌症是否是恶性的，在我们的训练集中，只有 0.5%的实例是恶性肿瘤。假设我们编写一个非学习而来的算法，在所有情况下都预测肿瘤是良性的，那么误差只有 0.5%。然而我们通过训练而得到的神经网络算法却有 1%的误差。这时，误差的大小是不能视为评判算法效果的依据的。
    skewed classes 偏斜类的问题：正样本的数量比负样本的数量多得多。当出现偏斜问题时，使用分类精度来衡量（error rate or accuracy rate）算法并不是一个好方法。

precision/recall查准率和查全率
查准率precision表示准确率，即正确预测为1占所有预测的数目的比例；查全率recall表示没有漏掉的程度，即预测为1占所有实际为1的比例。
只有precision 和 recall都高的模型才是好模型，在某些特定情况下，漏判和误判严重程度不同，所以有时更侧重与某一种。

precision和recall的权衡
如果我们希望提高查全率，尽可能地让所有有可能是恶性肿瘤的病人都得到进一步地检查、诊断，我们可以使用比 0.5 更小的阀值，如 0.3。我们可以将不同阀值情况下，查全率与查准率的关系绘制成图表，曲线的形状根据数

调和平均数F₁Score
我们选择调和平均数来均衡准确率和查全率：调和平均数。调和平均数的趋势是使二者的值尽量相等，体现我们对于需要二者同时高的需求。

支持向量机 (SVM) Support Vector Machines

从Logistic Regression 到 SVM

    考虑costfunction中，当y = 1时，画出costfunction图像，如左下角所示，在SVM中与logistics regression中不同的是，我们使用洋红色的折现代替曲线。同理对于y = 0时，我们做相同的近似。

    在替换成cost₁和cost₂之后，将1/m常数去掉，不影响costfunction，将regularization term中的λ等价为A项前面的系数C（λ用来作为惩罚项的系数，使用C作为前项的系数可以做到同样的效果C不一定对于1/λ）

    最后与logistics regression不同的是，在最小化cost function之后得到的参数theta，计算预测值h(x)方法不同，在前面都是把其作为概率看待，而这里直接作为预测值。

大间距分类器 Large Margin Classifier

在修改后的cost function中，如果C较大时，如果想使得cost function最小，我们需要当thetaX≥1或者thetaX≤-1，此时我们的分界线不再是0，而是1和-1。这使得其有一定的robust（鲁棒性），而不是恰好将二者分开。

    当C非常大时，模型就像是急切地想将二者全部分开，而使得margin变小，决策边界变为洋红色。当C不是太大时，决策边界变为黑色。

大间隔分类器large margin classifier的数学原理

    由于我们的优化目标等价于最小化θ，故若使Pi*theta≥1或者≤-1，则Pi要尽量大，即每个数据点到决策边界的距离要尽量大。所以将SVM又称为大间隔分类器。
    有一个要注意的点：在计算cost function中用的是1和-1作为分界线，而在h函数中判别时用的是0作为分界线。

核 kernel

我们将特征向量X替换为特征向量f。为什么这样做？

    similarity为相似函数，表示x样本店与选取的l点的相似程度，即：两点靠的越近相似程度越高，其也称为核函数。而后面的exp项只是为高斯核函数，是核函数的一种。
    理解：每一个点是一个核，与核靠的越近，获得的参数越靠近1；而与某个核越远，获得的参数越靠近0；
    在做完特征向量的转变之后，特征向量的维度发生了改变，从n->m。fi代表m个样本点在第i维空间内的值。

高斯核函数为例：

    如何得到核?
    直接将training set中的每一个样本点作为标记点

    带核函数的SVM训练预测的基本过程：
    已知样本输入和输出，利用kernel核函数得到每一个样本对应的特征向量xi作为新的特征向量，并以此最小化cost function。获得参数向量theta。

    关于是否可以将核函数的思想应用于logistic regression的问题，吴恩达教授这样说：如果你硬是要这样做也不是不可以，但是那些专门用于带核函数的支持向量机SVM的运算技巧可能不能很好的泛化到logistic regression。所以运算时长增长。
    此外吴恩达教授还补充了关于如何选择支持向量机的参数：（偏差-方差折衷bias-variance trade off）
    参数C的作用与1/λ相同。即C大时，λ小，对应低偏差、高方差的模型。
    参数σ²是高斯核函数中的参数。当σ偏大时，模型有高偏差和低方差。当σ偏小时，有低偏差和高方差。原因分析如下（？）：
    当σ偏大时，高斯核函数的分布较为扁平光滑，表示即时与标记点相差较远时，参数的值

解决SVM中的问题
    一般来说调用库帮助我们解决大部分的问题，但是这里仍然有些需要注意的地方：
    1、参数C的选取
    2、kernel核函数（相似函数）的选择

例子：
    线性核函数linear kernel即是不使用核函数，即特征向量没变。当特征向量维度十分高，而样本数量十分少时，我们也许只需要拟合一个简单的决策边界，而不是一个非常复杂的非线性决策边界，因为没有足够的数据，我们的边界可能会overfitting。

    如果你已经选择高斯核函数，那么：
    在一些SVM包中，它们可能需要用户提供kernel核函数。在使用高斯核函数之前，你也可能需要做特征缩放

使用核函数的目的是什么？为什么要进行特征向量的变维？和聚类有关系吗？
答：在使用kernel时需要注意的是，许多关于求θ的算法都只适用于满足mercer’s theorem的核函数，通常我们使用高斯核函数和线性核函数最多。

关于SVM用于多分类问题时
其基本思想即时之前学习过的one vs all，即KSVMS，训练K个分类器。

关于面对分类问题如何选择logistic regression还是SVM
    当n≥m是，一般使用logisticregression 或者线性SVM
    当n不大，而m较大时，一般使用高斯核函数SVM
    当n不大，而m很大时，通常我们手动增加特征向量维度，然后使用logistic regression，因为此时使用高斯核函数SVM耗费时间太长。
    有时面对一些问题时，我们一般不使用neural network，因为耗费时间太长。

SVM是凸优化问题，所以不需要考虑局部最优解的问题。而neural network的这个问题不大不小。

聚类 Clustering

与监督学习最大的区别是：unsupervised learning的数据集没有标签，没有y。

K-Means算法

    cluster centroid聚类中心
    K-Means算法步骤：
    1、随即地选择一些聚类中心，要多少簇就做多少个聚类中心。
    2、内循环一：寻找每一个样本点最近的聚类中心，从而将样本点分为K类
    3、内循环二：计算每一类样本的均值点，随之将相应的聚类中心更新为均值点
    4、循环2、3操作

问题：如果某些聚类中心没有分到样本点，则通常的做法是：去除这个聚类中心。还有一种做法：去掉这样聚类中心之后，再随机一些样本中心。

K-Means 优化目标函数
作用：帮助我们调试算法，帮助我们寻找更好的簇并且避免局部最优解。

    带着失真函数distortion思考K-Means算法：
    1、内循环一实质上是通过分类样本（C）来最小化J
    2、内循环二实质上是通过移动centroid聚类中心（μ）来最小化J

初始化聚类中心
    聚类中心数目K一般小于样本数m：K＜m；随机初始化聚类中心可能使得K-Means算法落到局部最优解。
    为了得到一个尽可能好的局部最优解或者全局最优解，可以尝试的做法是：多次随机初始化聚类中心μ

随机初始化算法：
将之前的K-Means算法执行50-1000次，从中寻找畸变函数distortion function最小的情况。
一般来说我们只在k=2-10的情况下使用这样的方法，因为当K相当大时，这样的作法对于局部最优解问题改善不大。

如何选择聚类数量K
由于这是无监督学习，因而没有准确的答案。

    1、肘部法则elbow method
    左边情况有明显转折点，易于做出选择。
    右边情况没有明显转折点，肘部法则失效

    2、另一种方法是结合实际，你需要实际你需要多少就分多少。

降维 Dimensionality Reduction

动机：Data Compression 数据压缩
样本中的特征可能是有冗余的，比如：两个特征一个以cm为单位，一个以inch为单位。
数据压缩的好处：降低所需存储空间使机器学习算法运行更快

例子：2D->1D，使用某种映射方法将所有样本的二位特征向量映射到一个一维特征向量

    例子：3D->2D
    三维空间的点大部分分布在一个二维平面周围，所有将所有的样本点投影到该平面内，并用新的特征值作为新的特征向量的两个维度。

动机：可视化
    通过将高维的特征向量降维到3D或者2D，我们可以得到可视乎的图像，并分析图像中每一维可能代表的意义。

主成分分析(PCA) Principal Component Analysis

概念描述
    如果我们需要将ND的样本降维到KD，我们需要做的是：寻找K个向量使得ND样本在这K个向量组成的K维空间中的投影的projection error投影误差projection error最小。

    和线性回归的区别：
    1、linear regression做的是做预测，找出theta向量使得cost function最小，是拟合y和x组成的样本。
    2、principle component analysis(PCA)属于无监督学习，没有label y，我们需要找出k个线性无关的向量组成k维空间使得其在该空间内的投影最小。
简单点来说：linear regression只想最小化某个样本点（x1，x2…）的预测值和真实值的距离，而PCA想最小化样本点到投影之间的距离。

主成分分析算法 principle component analysis algorithm

特征向量eigenvector
奇异值分解 svd singular value decomposition
正定矩阵 symmetric positive

先使用m个样本的特征向量计算协方差矩阵¹² (n*n)，随后调用奇异值分解（特征向量）函数得出特征向量矩阵 n * n（U），根据我们的需要（例如k个特征向量）从中提取前k个向量组成U_reduce，然后计算新的k维特征向量z。
为什么取前k呢？因为我们需要将n维空间映射到k维空间且保证丢失的特征最少。

主成分数量选择

特征缩放¹³和均值归一化 feature scaling and mean normalization
数据预处理一般步骤：减去均值使新均值为0，除标准差或者最大最小值之差进行特征缩放。

应用PCA的建议
    当监督学习算法由于存在过量的冗余特征而使得算法运行时间太长时，使用PCA适当减少特征向量的维度可以加速监督算法。

    PCA存在一些误用的情况：
    1、缓解过拟合
    2、第一时间将PCA考虑到算法设计中

压缩重现 Reconstruction of the Driginal Data

异常检测 Anomaly Detection

高斯/正态分布 Gaussian/Normal distribution 和参数估计
其中的主要问题是参数估计¹⁴问题：我们这里使用的极大似然估计。

异常检测主要思想：
对训练集X进行概率建模，得到其概率分布，并设置阈值ε，在随后给定一个新样本点时，计算概率密度函数在该点值（密度估计）。

利用m个n维样本建模, 这里假设每一个维都相互独立（实际上不严格相互独立该算法work well），假设n维中的每一维都服从高斯分布。则有p(X)表达为：

异常检测算法 Anomaly Detection Algorithm

    异常检测算法（基于高斯分布Gaussian distribution ）：
    1、选择n维特征向量
    2、利用训练集数据计算特征向量每一维的参数值
    3、利用得到的概率分布模型计算新样本的概率密度函数的值，并与设置好的阈值ε比较

异常检测anomaly detection 的应用举例
    1、用于检测用户是否出现异常举动，以检测是否出现fraud 或者被盗号。
    2、用于工业中新出厂产品质量检测
    3、用于检测计算机中心的计算机工作是否正常

开发和评估一个异常检测系统 Developing and Evaluating an Anomaly Detection System

    1、使用带标签的数据，训练集使用某类（或者绝大部分是该标签）标签的数据，交叉验证集和测试集

    2、训练集用来拟合概率分布模型，交叉验证集或者测试集用来验证，验证的方法之前讨论过：
    如果数据是very skewed，那么仅仅使用误差度量值是不合适的，通常有其他度量值：
    选择使F₁Score最大的ε

异常检测anomaly detection VS. 监督学习supervised learning

    异常检测算法属于无监督算法，与监督学习有明显的区别。
    疑问：如果我们已经获得了样本和标签，为什么我们不直接使用supervised learning如logistic regression 或者 neural network来做预测，而要使用异常检测问题来判断（预测）？
    个人理解：面对一个very skewed，并且positive的样本很少的情况时，使用监督学习算法无法获得足够多的经验。

选择要使用的特征 Choosing What Features to Use
    前面的推演有一个假设前提：随机变量服从正态分布（我们使用的是基于正态分布的异常检测，因为正态分布十分常见），如果明显不服从正态分布可以采取以下方案：
    通常来说我们选择符合高斯分布的特征，对于不符合高斯分布的特征（某一维），我们也可以直接选择（一般对算法效果影响不大）或者将其变换为高斯分布的特征。

    在某些情况下：使用较少的特征维度会使得异常数据也会有较高的P(x)，因而被算法认为是正常的。这种情况下误差分析能够帮助我们，我们可以分析那些被算法错误预测为正常的数据，观察能否找出一些问题。我们可能能从问题中发现我们需要增加一些新的特征，增加这些新特征后获得的新算法能够帮助我们更好地进行异常检测。

多元高斯分布 Multivariate Gaussian Distribution

个人理解：在先前的分析中，我们默认特征变量各个维度之间是相互独立的，在这里我们考虑一种更加普遍的情况：各个特征变量之间的协方差不为0
引例：

协方差矩阵正对角线的值为各个维度变量方差，其他位置代表不同维度之间的相关性。使用多元高斯分布运用在异常检测时，没有要求各个特征变量相互独立。
图形化示例如下图所示：Σ为协方差矩阵，μ为均值矩阵。

多元高斯分布在异常检测中应用

原模型和多元高斯分布的对比：

大规模机器学习 Large Scale Machine Learning

为什么需要海量数据？
在遇到高方差、过拟合的情况下，使用海量数据对模型的性能提升有所帮助。有时决定一个预测模型好坏的不是算法的差异，而是在于你的数据量是否足够。

随机梯度下降 Stochastic gradient descent

在遇到海量数据时，使用普通梯度下降算法可能要付出很大的计算代价，而随机梯度下降算法是对普通梯度下降算法在应对海量数据时的改进。
随机梯度下降减少相较于普通迭代算法减少了迭代次数，它虽然不是每次迭代得到的损失函数都向着全局最优方向，但是大的整体的方向是向全局最优解的，最终的结果往往是在全局最优解附近。但是相比于普通迭代算法，这样的方法更快，更快收敛，虽然不是全局最优，但很多时候是我们可以接受的。

如何确定随机梯度下降算法已经收敛到了合适的位置，如何调节学习速率α？
在普通梯度下降算法中，我们利用绘制优化代价函数（关于迭代次数的函数）曲线。

选择α：
通过迭代次数的增大，逐渐减小α，使得随机梯度下降算法收敛得更好。

Mini-Batch gradient descent

Mini-Batch gradient descent可以说是一种折衷的算法，三种梯度下降算法的比较如下图所示：

减少映射和数据并行 Map reduce and Data parallelism

将加法运算分配给各个计算机或者CPU核，以达到加速算法的目的。
很多高级的线性代数函数库已经能够利用多核 CPU 的多个核心来并行地处理矩阵运算，这也是算法的向量化实现如此重要的缘故（比调用循环快）。

在线学习 online learning

当我们有连续的数据流时，我们便可以采用在线学习的方式，这种方式具有更强的灵活性。

运用举例：图像文字识别 Application Example：Photo OCR（Optical Character Recognition）

问题描述和OCR.pipeline
文字检测->字符分割->字符识别

滑动窗口分类器 sliding window classifier

字符检测

字符分割

字符识别
前面介绍过，使用Neural Network或者Logistic Regression做多分类器即可，这里不赘述。

人工数据合成 artificial data synthesis

1、从零开始自己创造数据
2、将小数据集变成大数据集

上限分析 ceiling analysis

另一个例子：

梯度：梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。 ↩︎
代价函数cost function（是模型参数的函数），吴恩达老师使用的是平方误差代价函数。 ↩︎
学习速率α：控制我们以多大的幅度更新模型参数。 ↩︎
决策边界 decision bundary：将不同类型的数据用决策边界分开
使用更加复杂 ↩︎
泛化能力（generalization ability）是指机器学习算法对新鲜样本的适应能力。 ↩︎
input layer输入层 ↩︎
output layer输出层 ↩︎
hidden layer隐藏层 ↩︎
偏置单元bias unit ↩︎
激活函数（Activation Function），就是在人工神经网络的神经元上运行的函数，负责将神经元的输入映射到输出端。 ↩︎
matrix of weights权重矩阵：控制前一层到后一层的映射 ↩︎
协方差矩阵covariance matrix Σ=n*n 代表的意义：即随机变量之间的线性相关关系。
协方差矩阵是对称阵，location（i，j）表示第i和j个变量之间的协方差，协方差表示对应两样本并评估之间的相关程度的。 ↩︎
特征缩放(feature scaling)大致的思路是这样的：梯度下降算法中，在有多个特征的情况下，如果你能确保这些不同的特征都处在一个相近的范围，这样梯度下降法就能更快地收敛。
使用单一指标对某事物进行评价并不合理，因此需要多指标综合评价方法。多指标综合评价方法，就是把描述某事物不同方面的多个指标综合起来得到一个综合指标，并通过它评价、比较该事物。
由于性质不同，不同评价指标通常具有不同的量纲和数量级。当各指标相差很大时，如果直接使用原始指标值计算综合指标，就会突出数值较大的指标在分析中的作用、削弱数值较小的指标在分析中的作用。
为消除各评价指标间量纲和数量级的差异、保证结果的可靠性，就需要对各指标的原始数据进行特征缩放（也有数据标准化、数据归一化的说法，但不准确，所以不推荐这么叫）。
由于量纲和数量级不同，所以需要特征缩放。特征缩放可以显著提升部分机器学习算法的性能，但它对部分算法没有帮助。 ↩︎
参数估计问题是：在已知随机变量分布函数的形式的情况下，求解其中的一个或者多个未知参数、写出概率密度函数的问题。
参数估计的方法有两大类：点估计（矩估计、最小二乘估计、极大似然估计等等）和区间估计。 ↩︎
顾名思义，它是利用项目的内在品质或者固有属性来进行推荐，比如音乐的流派、类型，电影的风格、类别等，不需要构建UI矩阵。它是建立在项目的内容信息上作出推荐的，而不需要依据用户对项目的评价意见，更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。我们已经拥有样本即我们已经拥有不同电影的特征。 ↩︎

你可能感兴趣的:(机器学习)

如何让AI真正理解你的意图（自适应Prompt实战指南） nine是个工程师大语言模型人工智能 prompt
目前的LLM模型，在理解用户意图方面，正在使用自适应Prompt技术，来提升模型的理解能力。目前使用deepseek推理模型能明显看到自适应的一个过程。前言：为什么你的AI总是"答非所问"？相信很多人都遇到过这样的情况：你问：“帮我写一个Python爬虫”AI答：给你一堆理论知识和完整教程（你只想要简单代码）你问：“推荐一部电影”AI答：推荐了《教父》（你想看轻松喜剧）你问：“解释一下机器学习”A
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
AI人工智能遇上TensorFlow：技术融合新趋势 AI大模型应用之禅人工智能 tensorflow python ai
AI人工智能遇上TensorFlow：技术融合新趋势关键词：人工智能、TensorFlow、深度学习、神经网络、机器学习、技术融合、AI开发摘要：本文深入探讨了人工智能技术与TensorFlow框架的融合发展趋势。我们将从基础概念出发，详细分析TensorFlow在AI领域的核心优势，包括其架构设计、算法实现和实际应用。文章包含丰富的技术细节，如神经网络原理、TensorFlow核心算法实现、数学
如何使用Python控制笔记本电脑屏幕亮度？很酷的站长编程笔记电脑 python 开发语言
Python已成为世界上最受欢迎的编程语言之一，这要归功于它的简单性、多功能性和广泛的应用程序。凭借其广泛的库和框架，Python可用于从Web开发到机器学习以及介于两者之间的任何内容。在Python中，最流行的数据分析和操作库之一是Pandas，它提供了处理表格数据的强大工具。在本教程中，我们将使用Python和屏幕亮度控制库来探索如何控制笔记本电脑屏幕亮度。我们将向您展示如何使用Python通
10、量子神经网络：从理论到实践安检量子神经网络 PennyLane Qiskit
量子神经网络：从理论到实践1.量子神经网络简介量子神经网络（QuantumNeuralNetworks,QNNs）是量子计算与经典机器学习相
深度学习之迁移学习路溪非溪人工智能迁移学习机器学习
认识迁移学习迁移学习（TransferLearning）是机器学习中的一种重要技术，其核心思想是将在一个任务上学习到的知识（模型参数、特征表示等），迁移应用到另一个相关但不同的任务中，从而提升新任务的学习效率和性能，尤其是在新任务数据有限的情况下。一、迁移学习的核心动机传统机器学习通常要求为每个新任务收集大量标注数据并从头训练模型，但现实中面临以下挑战：数据稀缺：例如医疗影像分析（罕见疾病样本少）
【机器学习】解密计算机视觉：CNN、目标检测与图像识别核心技术（第25天）吴师兄大模型 0基础实现机器学习入门到精通机器学习计算机视觉 cnn 人工智能目标检测图像识别 pytorch
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
英伟达终为 CUDA 添加原生 Python 支持，他有什么目的？朱卫军 AI python 开发语言
CUDA原来只支持C/C++/Fortran，在2025的CES上宣布支持原生Python其实是不得已而为之，一方面现在Python的AI开发者数量过于庞大，达到数千万级别，而CUDA仅几百万，CUDA想扩大自己的用户圈子，只能拉Python入伙。另一方面，Python生态的计算库实在太强大，比如numpy，几乎垄断了数组计算，还有像scipy、keras等，已经成为机器学习的主流工具，CUDA必
Python爬虫实战：爬取网易云音乐热评的完整教程 Python爬虫项目 python 爬虫开发语言能源 selenium
1.背景介绍：为什么爬网易云音乐热评？网易云音乐是中国最受欢迎的音乐平台之一，其用户活跃度极高。评论区往往蕴含丰富的情感表达和用户反馈，是音乐数据分析、情感分析、推荐算法等领域的宝贵数据源。爬取热评可以用于：歌曲口碑分析用户情绪挖掘热门歌曲趋势追踪机器学习训练数据准备但网易云音乐对评论接口进行了加密，直接请求很难成功。本文将帮你攻克这一难点。2.网易云音乐热评接口分析我们首先用浏览器开发者工具（C
Python编程菜鸟教程：从入门到精通的完全指南_python菜鸟教程 2401_89285717 python 开发语言
我们将介绍Python在数据科学、机器学习、Web开发等方面的应用，并带你了解Python社区和生态系统。基础入门Python安装：在官方网站下载安装包，根据不同操作系统进行安装。Mac用户可直接使用Homebrew进行安装Windows用户需下载安装包后进行手动安装Linux用户可使用apt-get或yum进行安装基础语法：Python是一种解释型语言，支持面向对象、函数式和面向过程等多种编程范
03 数据可视化的世界非常广阔，除了已提到的类型，还有许多更细分或前沿的可视化形式。晨曦543210 信息可视化人工智能
十五、机器学习与数据科学专用图表特征重要性图（FeatureImportancePlot）用途：展示机器学习模型中各特征对预测结果的贡献度。示例：随机森林模型中影响房价预测的关键因素。混淆矩阵热力图（ConfusionMatrixHeatmap）用途：分类模型性能评估，显示预测结果与真实标签的对比。示例：疾病诊断模型的真阳性/假阳性分布。学习曲线（LearningCurve）用途：分析模型训练过程
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
2025 年机器学习工作流程的 7 个 AI 代理框架盖瑞理 AI Agent 人工智能
介绍机器学习从业者花费大量时间在重复性任务上：监控模型性能、重新训练流程、检查数据质量以及跟踪实验。虽然这些操作任务至关重要，但它们通常会占用团队60%到80%的时间，几乎没有留下任何创新和模型改进的空间。传统的自动化工具可以处理简单的、基于规则的工作流程，但它们难以应对机器学习操作所需的动态决策。何时应该根据性能漂移重新训练模型？当数据分布发生变化时，如何自动调整超参数？这些场景需要能够推理复杂
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
机器学习知识点复习上（保研、复试、面试）百面机器学习笔记
机器学习知识点复习上一、特征工程1.为什么需要对数值类型的特征做归一化？2.文本表示模型3.图像数据不足的处理方法二、模型评估1.常见的评估指标2.ROC曲线3.为什么在一些场景中要使用余弦相似度而不是欧氏距离？4.过拟合和欠拟合三、经典算法1.支持向量机SVM2.逻辑回归3.决策树四、降维1.主成分分析（PrinalComponentsAnalysis,PCA）降维中最经典的方法2.线性判别分析
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- 实例化 OCR 对象的 predict() 方法介绍
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
NumPy：科学计算的超能引擎[特殊字符]（深入剖析+实战技巧）码海漫游者8 numpy 其他
文章目录为什么NumPy是Python科学计算的绝对核心？三维痛点直击ndarray：NumPy的核武器剖析内存布局揭秘（超级重要‼️）维度操作黑科技广播机制（Broadcasting）性能屠杀现场️高级技巧武装包️内存映射大文件爱因斯坦求和约定结构化数组真实世界应用场景图像处理机器学习数据预处理踩坑预警⚠️视图vs副本整数溢出性能压榨终极指南避免复制四法则终极加速方案你知道吗？就在你刷短视频的几
Python 机器学习实战：Scikit-learn 算法宝典，从线性回归到支持向量机清水白石008 python Python题库 python 机器学习算法
Python机器学习实战：Scikit-learn算法宝典，从线性回归到支持向量机引言各位Python工程师，大家好！欢迎来到激动人心的机器学习世界！在这个数据驱动的时代，机器学习已经渗透到我们生活的方方面面，从智能推荐系统到自动驾驶汽车，都离不开机器学习技术的支撑。作为一名Python开发者，掌握机器学习技能，无疑将为您的职业发展注入强大的动力，让您在人工智能浪潮中占据先机。Scikit-lea
Python机器学习入门必看！从原理到实战，手把手教你线性回归模型小张在编程 python 机器学习线性回归
引言在人工智能浪潮席卷全球的今天，机器学习（MachineLearning）早已不再是实验室的“黑科技”——打开购物APP的“猜你喜欢”、输入搜索词后的“相关推荐”、甚至天气预报中的温度预测，背后都有机器学习模型的身影。而在线性回归（LinearRegression）作为机器学习中最基础、最经典的监督学习模型，堪称机器学习的“敲门砖”。本文将从原理到实战，带你彻底掌握这一核心算法。一、机器学习的“
机器学习的数学基础-线性代数
本文用于复习并记录机器学习中的相关数学基础，仅供学习参考。很多总结和例子来源于mml项目（mml-book.github.io）十分感谢这本书的作者，PS：这本书目前没有中文版。线性代数线性方程组矩阵矩阵的加法与乘法矩阵加法矩阵乘法单位矩阵与标量相乘逆与转置逆转置解决线性方程组特解与通解高斯消元法初级变换应用：“-1”trick应用：求逆总结-如何解决线性方程组？向量空间群向量空间向量子空间线性独
【机器学习|学习笔记】随机森林（Random Forest, RF）详解，附代码。努力毕业的小土博^_^ 机器学习基础算法优质笔记1 机器学习学习笔记随机森林人工智能
【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。文章目录【机器学习|学习笔记】随机森林（RandomForest,RF）详解，附代码。前言起源随机子空间法与Bagging的萌芽原理算法机制理论保障发展应用优缺点优点缺点Python实现示例（Scikit-learn）欢迎铁子们点赞、关注、收藏
LSA主题模型：基于奇异值分解的主题模型 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LSA主题模型：基于奇异值分解的主题模型1.背景介绍主题模型是一种无监督的机器学习技术，用于发现大规模文本语料库中隐藏的语义结构。它能够自动识别文档集合中的主题，并根据这些主题对文档进行聚类和分类。主题模型在文本挖掘、信息检索、推荐系统等领域有着广泛的应用。LSA（LatentSemanticAnalysis）是一种经典的主题模型算法，基于奇异值分解（SVD）对词-文档矩阵进行分解，从而揭示词语和
【机器学习笔记 Ⅱ】9 模型评估巴伦是只猫机器学习机器学习笔记人工智能
评估机器学习模型是确保其在实际应用中有效性和可靠性的关键步骤。以下是系统化的评估方法，涵盖分类、回归、聚类等任务的评估指标和技术：一、分类模型评估1.基础指标2.高级指标ROC-AUC：通过绘制真正例率（TPR）vs假正例率（FPR）曲线下面积评估模型整体性能。AUC=1：完美分类；AUC=0.5：随机猜测。适用于二分类及多分类（OvR或OvO策略）。混淆矩阵：可视化模型在各类别上的具体错误（如将
【机器学习笔记 Ⅱ】7 多类分类巴伦是只猫机器学习机器学习笔记分类
1.多类分类（Multi-classClassification）定义多类分类是指目标变量（标签）有超过两个类别的分类任务。例如：手写数字识别：10个类别（0~9）。图像分类：区分猫、狗、鸟等。新闻主题分类：政治、经济、体育等。特点互斥性：每个样本仅属于一个类别（区别于多标签分类）。输出要求：模型需输出每个类别的概率分布，且概率之和为1。实现方式One-vs-Rest(OvR)：训练K个二分类器（
人工智能学习资源 Hemy08 人工智能学习
无机器学习基础：https://www.coursera.org/learn/machine-learning有机器学习基础：MachineYearning深度学习入门：https://www.coursera.org/learn/neural-networks-deep-learning
【机器学习笔记 Ⅱ】4 神经网络中的推理
推理（Inference）是神经网络在训练完成后利用学到的参数对新数据进行预测的过程。与训练阶段不同，推理阶段不计算梯度也不更新权重，仅执行前向传播。以下是其实现原理和代码示例的完整解析：1.推理的核心步骤加载训练好的模型参数（权重和偏置）。前向传播：输入数据逐层计算，得到输出。后处理：根据任务类型解析输出（如分类取概率最大值，回归直接输出）。2.代码实现（Python+NumPy）(1)定义模型
开源语音分离工具大比拼：人声 VS 背景音乐 ⚔️ - 获取干净训练语音 (数据截至 2025年4月17日)！！！小丁学Java python 人工智能
开源语音分离工具大比拼：人声VS背景音乐⚔️-获取干净训练语音(数据截至2025年4月17日)在音频处理，特别是机器学习训练数据的准备中，获取纯净的人声（去除背景音乐或噪声）是一个常见的痛点。幸运的是，开源社区提供了许多强大的工具来帮助我们完成这项任务！本文将盘点一系列GitHub上的开源语音分离项目，重点关注那些能有效分离“人物语音”和“背景音乐”的工具，并根据GitHub星标⭐（反映社区关注度
【机器学习笔记 Ⅲ】3 异常检测算法巴伦是只猫机器学习机器学习笔记算法
异常检测算法（AnomalyDetection）详解异常检测是识别数据中显著偏离正常模式的样本（离群点）的技术，广泛应用于欺诈检测、故障诊断、网络安全等领域。以下是系统化的解析：1.异常类型类型描述示例点异常单个样本明显异常信用卡交易中的天价消费上下文异常在特定上下文中异常（如时间序列）夏季气温突降至零下集体异常一组相关样本联合表现为异常网络流量中突然的DDOS攻击流量2.常用算法(1)基于统计的
【机器学习笔记 Ⅲ】4 特征选择巴伦是只猫机器学习机器学习笔记人工智能
特征选择（FeatureSelection）系统指南特征选择是机器学习中优化模型性能的关键步骤，通过筛选最相关、信息量最大的特征，提高模型精度、降低过拟合风险并加速训练。以下是完整的特征选择方法论：1.特征选择的核心目标提升模型性能：去除噪声和冗余特征，增强泛化能力。降低计算成本：减少训练和预测时间。增强可解释性：简化模型，便于业务理解。2.特征选择方法分类(1)过滤法（FilterMethods
机器学习笔记二-回归
回归是统计学和机器学习中的一种基本方法，用于建模变量之间的关系，特别是用一个或多个自变量（输入变量）来预测一个因变量（输出变量）的值。回归分析广泛应用于预测、趋势分析和关联研究中。根据目标和数据的性质，可以使用不同类型的回归方法。1.回归的基本概念：自变量（IndependentVariable）:也称为预测变量、解释变量，是模型中的输入变量，用于预测或解释因变量的变化。因变量（Dependent
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。