嘿哈哈哈

机器学习：考试总结

绪论

机器学习能做什么?

手写字符识别
汽车自动驾驶
下棋（Deep Blue）
判断你的年龄

如何实现，存在的问题：

用何种形式来表示经验。
如何从历史数据中提取经验。

什么是机器学习?

定义一：

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

定义二：

让计算机程序发现数据中的规律，并根据规律给出预测的一种智能技术。

定义三：

机器学习解决了如何构建计算机程序的问题，这些程序通过经验来提高它们在某些任务中的性能。

定义四：

机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。

经典的机器学习算法有什么?

分类(Classification)：把事物按标准分成一些类别。
- 例子：
  - 垃圾邮件诊断
  - 疾病诊断
  - 是否发放信用卡
  - 是否录用
- 特点：Y=f(x), 其中y为离散值。
回归(Regression)：由过去、现在的数据计算出未来状态。
- 例子：
  - 预测身高
  - 预测年龄
  - 预测方向盘旋转角度
- 特点：Y=f(x), 其中y为连续值。
聚类(Clustering, Unsupervised Learning)：没有类别的标准，按事物间的相似性划分成一些类别。
- 根据经验确定：如交易数据按上、下、晚
- 由机器自动确定给定记录间的相似的尺度不同类别间的差异尺度
- 对于有监督学习，需要训练样本{(x,y)}
- 对于无监督学习，只有{x}，没有可供训练的样本标签 y。
增强学习(Reinforce Learning)

机器学习的分类

监督学习：通过已有的一部分输入数据与输出数据之间的关系，生成一个函数，将输入映射到合适的输出，例如回归和分类。
- k近邻算法
- 线性回归
- 逻辑回归
- 支持向量机
- 决策树和随机森林
- 神经网络
- 贝叶斯学习
无监督学习：直接对输入数据进行建模，例如聚类。
- 聚类
- 降维（主成分分析，PCA）
- 关联规则学习
半监督学习：综合利用有类标的数据和没有类标的数据，来生成合适的分类函数。
强化学习：用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
- 标准的马尔可夫决策过程

线性方法

线性回归

任务和模型

获取样本数据的一些特征，看作特征空间中的点，然后寻找线去拟合样本分布。

训练集->学习算法->假设函数（h：是从 X 到 Y 的一个关系映射，可以是线性的，也可以是非线性的）

解决机器学习问题的一般流程

数据收集

数据预处理与特征工程

模型的选择与训练

模型的评估与优化

用线性函数表示预测模型。
用损失函数衡量模型（即线性函数的参数）。
梯度下降将损失函数最小化以获得最佳模型。

损失函数和梯度下降

线性回归使用平方损失函数
逻辑回归使用交叉熵损失函数

平方损失函数对每一个输出结果都非常看重，而交叉熵损失函数只对正确分类的结果看重。

等值线图

梯度下降方法

Batch gradient descent，BGD：一次迭代训练所有样本。
stochastic（随机的） gradient descent，SGD：每次只训练一个样本去更新参数。
- 随机把数据打乱很重要，因为这个随机性相当于引入了“噪音”，正是因为这个噪音，使得SGD可能会避免陷入局部最优解中。
Mini-batch gradient descent：每次用一部分样本来更新参数，即 batch_size。

多元线性回归

特征缩放

Make sure features are on a similar scale.

better：（-1，1）
maybe：（-1/3,1/3）or（-3，3）

学习率

特征与多项式回归

正态方程

一种分析地求解θ的方法。

若 X 不可逆，则存在冗余的特征，或特征数量太多。

梯度下降与正态方程的比较

m 个训练样本，n 个特征。

梯度下降	正态方程
需要选择α	不需要选择α
需要很多次迭代	不需要迭代
	需要计算 $X^TX)^{-1}$
即使 n 很大也能很好的工作	当 n 很大时计算慢

逻辑回归

假设表示

决策边界

所谓决策边界(decision boundary)就是能够把样本正确分类的一条边界，主要有线性决策边界(linear decision boundaries)和非线性决策边界(non-linear decision boundaries)。注意：决策边界是假设函数的属性，由参数决定，而不是由数据集的特征决定。

损失函数与梯度下降

如果逻辑回归使用平方损失函数：

这样代价函数J(θ)关于算法参数θ会是非凸函数，存在多个局部解。我们想要的代价函数是关于θ的凸函数，这样我们就可以根据梯度下降法等最优化手段去找到全局最优解了。

极大似然计算损失函数

高级优化

多元分类

有些二分类学习方法可直接推广到多分类，但在更多情形下，我们是基于一些基本策略，利用二分类学习器来解决多分类问题。

不失一般性，考虑 N 个类别 C1， C2， •••， CN，多分类学习的基本思路是"拆解法"，即将多分类任务拆为若干个二分类任务求解。具体来说，先对问题进行拆分，然后为拆出的每个二分类任务训练一个分类器；在测试时，对这些分类器的预测结果进行集成以获得最终的多分类结果。这里的关键是如何对多分类任务进行拆分，以及如何对多个分类器进行集成。

最经典的拆分策略有三种：

一对一（One vs. One，简称 OvO）
- OvO 将这 N 个类别两两配对，从而产生 N（N-1）/2 个二分类任务。在测试阶段，新样本将同时提交给所有分类器，于是将得到 N（N-1）/2 个分类结果，最终结果可通过投票产生：即把被预测得最多的类别作为最终分类结果。
一对其余（One vs. Rest，简称 OvR）（One vs. All）
- OvR 则是每次将一个类的样例作为正例、所有其他类的样例作为反例来训练 N 个分类器。在测试时若仅有一个分类器预测为正类，则对应的类别标记作为最终分类结果；若有多个分类器预测为正类，则通常考虑各分类器的预测置信度，选择置信度最大的类别标记作为分类结果。
多对多（Many vs. Many，简称 MvM）
- MvM 是每次将若干个类作为正类，若干个其他类作为反类。显然，OvO 和 OvR 是 MvM 的特例。MvM 的正、反类构造必须有特殊的设计，不能随意选取。

线性判别分析

线性判别分析（Linear Discriminant Analysis，LDA）是一种经典的线性学习方法。

LDA的思想非常朴素：给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离；在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新样本的类别。

LDA 的二维示意图

正则化

过拟合问题

过拟合：过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。
过拟合的判断方法：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在训练数据外的数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。
过拟合的常见原因：
1. 建模样本选取有误，如样本数量太少，选样方法错误，样本标签错误等，导致选取的样本数据不足以代表预定的分类规则；
2. 样本噪音干扰过大，使得机器将部分噪音认为是特征从而扰乱了预设的分类规则；
3. 假设的模型无法合理存在，或者说是假设成立的条件实际并不成立；
4. 参数太多，模型复杂度过高。

解决过拟合问题：

减少特征的数目
正则化

代价函数

正则化使 θo、……、θn尽可能小：

简化了假设模型（参数数值越小，得到的函数就越平滑，也越简单）
不太容易过拟合

若 λ 的值太大，则会导致欠拟合。

线性回归的正则化

梯度下降

正态方程

只要 λ 是严格大于 0 的，这个矩阵就一定是可逆的。因此，正则化还可以解决使用正态方程时不可逆的问题。

逻辑回归的正则化

神经网络

非线性假设

线性描述只能解决小部分问题，机器学习能解决的问题很少。
使用特征二次组合和三次组合过于复杂，容易过拟合。

非线性假设采用神经网络的原因：逻辑回归问题不是解决包含大量特征的数据分类问题好办法。所以我们引入了神经网络。

如果数据包含上百个特征时呢？例如包含上百个特征的房屋分类问题，或者图像识别领域。例如：（x1, x2, x3, … x100），则即便只包含二次项，二次项的个数也会非常的多。这将导致非常多的高阶多项式，多项式规模急剧膨胀。逻辑回归问题不是解决包含大量特征的数据分类问题好办法。所以我们引入了神经网络。

神经网络的定义：神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。

模型展示

神经网络所做的事情实际上就是逻辑回归，只不过不是以 x1、……、xn 为特征，而是用 a1、……、an 作为新的特征。a1、……、an 是学习得到的函数输入值，这样就可以学习到一些很有趣和复杂的特征，就可以得到一个更好的假设函数。

示例

多元分类

代价函数

和逻辑回归相似。

反向传播算法

正向传播

反向传播

梯度检测

为何进行梯度检验？

神经网络算法使用反向传播计算目标函数关于每个参数的梯度，可以看做解析梯度。由于计算过程中涉及到的参数很多，反向传播计算的梯度很容易出现误差，导致最后迭代得到效果很差的参数值。

为了确认代码中反向传播计算的梯度是否正确，可以采用梯度检验（gradient check）的方法。通过计算数值梯度，得到梯度的近似值，然后和反向传播得到的梯度进行比较，若两者相差很小的话则证明反向传播的代码是正确无误的。

一旦通过检验确定反向传播的实现是正确的，就应该关掉梯度检测，否则程序运行的速度就会非常慢。

随机初始化

如果没有随机初始化，θ 都初始化为 0，每次更新后，进入两个隐藏单元的输入对应的参数是相同的，那么每个节点到下一层节点的权重都是相同的。

训练神经网络

对于神经网络，代价函数 J(θ) 不是一个凸函数，因此理论上可能停留在局部最小值的位置。

模型评估与选择

假设空间

假设空间（hypothesis space）：由输入空间到输出空间的映射的集合。将学习过程看作一个在所有假设组成的空间中进行搜索的过程，搜索目标是找到与训练集"匹配"的假设。与训练集一致的"假设集合”称为版本空间（version space）。

归纳偏好

归纳偏好（inductive bias）：机器学习算法在学习过程中对某种类型假设的偏好。

任何一个有效的机器学习算法必有其归纳偏好，否则它将被假设空间中看似在训练集上"等效"的假设所迷惑，而无法产生确定的学习结果。归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或"价值观"。

奥卡姆剃刀（Occam’s razor）：是一种常用的、自然科学研究中最基本的原则，即"若有多个假设与观察一致，则选最简单的那个"。并且我们认为"更平滑"意味着"更简单"。

典型的归纳偏好

最大条件独立性
最小交叉验证误差
最大间隔(Maximum Margin)
最小描述长度(Minimum description length，奥卡姆剃刀)。
最少特征数
最近邻居

经验误差与过拟合

通常我们把分类错误的样本数占样本总数的比例称为"错误率"（error rate），即如果在m个样本中有α个样本分类错误，则错误率E=α/m；相应的，1一α/m称为"精度"（accuracy），即"精度=1一错误率"。

经验误差（empirical error）：我们把学习器的实际预测输出与样本的真实输出之间的差异称为"误差"（error），学习器在训练集上的误差称为"训练误差"（training error）或"经验误差"，在新样本上的误差称为"泛化误差"（generalization error）.

过拟合（over fitting）：应该从训练样本中尽可能学出适用于所有潜在样本的"普遍规律"，这样才能在遇到新样本时做出正确的判别。但是把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降，这种现象在机器学习中称为"过拟合"。与"过拟合"相对的是"欠拟合" （under fitting），这是指对训练样本的一般性质尚未学好。

评估方法

评估方法：们可通过实验测试来对学习器的泛化误差进行评估并进而做出选择。为此，需使用一个"测试集"（testing set）来测试学习器对新样本的判别能力，然后以测试集上的"测试误差" （testing error）作为泛化误差的近似。

通常我们假设测试样本也是从样本真实分布中独立同分布采样而得，但需注意的是，测试集应该尽可能与训练集互斥，即测试样本尽量不在训练集中出现、未在训练过程中使用过。

留出法（hold-out）：直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集S，另一个作为测试集T，即D=S∪T，S∩T=∅。在S上训练出模型后，用T来评估其测试误差，作为对泛化误差的估计。

交叉验证法（cross validation）：先将数据集D划分为k个大小相似的互斥子集，即D=D1∪D2∪…∪Dk，Di∩Dj=∅（i≠j）。每个子集Di都尽可能保持数据分布的一致性，即从D中通过分层采样得到。然后，每次用k-1个子集的并集作为训练集，余 F的那个子集作为测试集；这样就可获得k组训练/测试集，从而可进行k次训练和测试，最终返回的是这k个测试结果的均值。显然，交叉验证法评估结果的稳定性和保真性在很大程度上取决于 k的取值，为强调这一点，通常把交叉验证法称为"k折交叉验证"（k-fold cross validation）。k最常用的取值是 10，此时称为10折交叉验证；其他常用的k值有5、20等。

10折交叉验证示意图

自助法（bootstrapping）：给定包含m个样本的数据集D，我们对它进行采样产生数据集D’：每次随机从D中挑选一个样本，将其拷贝放入D’，然后再将该样本放回初始数据集D中，使得该样本在次采样时仍有可能被采到；这个过程重复执行 m 次后，我们就得到了包含m个样本的数据集D’，这就是自助采样的结果。显然，D中有一部分样本会在D’中多次出现，而另一部分样本不出现。可以做一个简单的估计，样本在m次采样中始终不被采到的概率是（1一1/m）^m，取极限得到

即通过自助采样，初始数据集D中约有36.8%的样本未出现在采样数据集D’中。于是我们可将D’用作训练集，D\D’用作测试集；这样实际评估的模型与期望评估的模型都使用m个训练样本，而我们仍有数据总量约1/3的、没在训练集中出现的样本用于测试。这样的测试结果，亦称"包外估计"（out-of-bag estimate）。

自助法在数据集较小、难以有效划分训练集和测试集时很有用；此外，自助法能从初始数据集中产生多个不同的训练集，这对集成学习等方法有很大的好处。然而，自助法产生的数据集改变了初始数据集的分布，这会引入估计偏差。因此，在初始数据量足够时，留出法和交叉验证法更常用一些。

大多数学习算法都有些参数（parameter）需要设定，参数配置不同，学得模型的性能往往有显著差别。因此，在进行模型评估与选择时，除了要对适用学习算法进行选择，还需对算法参数进行设定，这就是通常所说的"参数调节"或简称"调参"（parameter tuning）.

我们通常把学得模型在实际使用中遇到的数据称为测试数据，为了加以区分，模型评估与选择中用于评估测试的数据集常称为"验证集" （validation set）。例如，在研究对比不同算法的泛化性能时，我们用测试集上的判别效果来估计模型在实际使用时的泛化能力，而把训练数据另外划分为训练集和验证集，基于验证集上的性能来进行模型选择和调参。

性能度量

性能度量（performance measure）：对学习器的泛化性能进行评估，不仅需要有效可行的实验估计方法，还需要有衡量模型泛化能力的评价标准，这就是性能度量。

回归任务最常用的性能度量是"均方误差"（mean squared error），逻辑回归为"交叉熵”（Cross Entropy）。

查准率（precision）与查全率（recall）是更为适用的性能度量。两者分别定义为：

P=TP/（TP+FP）
R=TP/（TP+FN）

对于二分类问题，可将样例根据其真实类别与学习器预测类别的组合划分为真正例（true positive）、假正例（false positive）、真反例（true negative）、假反例（false negative）四种情形，令TP、FP、TN、FN分别表示其对应的样例数，则显然有TP+FP+TN+FN=样例总数。

混淆矩阵

综合考虑查准率、查全率的性能度量：

平衡点（Break-EventPointBEP）：它是"查准率=查全率"时的取值。
F1 度量：F1=2PR/（P+R）
Fβ 度量：F1= $1+β^2）PR/（β^2P+R）$ ，β>1时查全率有更大影响，β<1查准率有更大影响。
PR曲线与平衡点示意图

受试者工作特征曲线（Receiver Operating Characteristic curve，ROC）：ROC曲线的纵轴是"真正例率"（True Positive Rate，TPR），横轴是"假正例率"（False Positive Rate，FPR），两者分别定义为：

TPR=TP/（TP+FN）
FPR=FP/（TN+FP）

若一个学习器的ROC曲线被另一个学习器的曲线完全"包住"，则可断言后者的性能优于前者；则较为合理的判据是比较ROC曲线下的面积，即AUC（Area Under ROC Curve），AUC表示分类器接受true样本高于接受false样本的概率。AUC取值在0~1之间，AUC值越大的分类器，正确率越高。

ROC 曲线与 AUC 示意图

代价敏感（cost-sensitive）错误率为：

代价矩阵（cost matrix，其中 costij 表示将第 i 类样本预测为第 j 类样本的代价）

正例概率代价（取值[0，1]）

归一化代价（取值[0，1]）

其中 p 是样例为正例的概率，FPR 是假正例率，FNR=1 -TPR是假反例率。

ROC曲线上每一点对应了代价平面上的一条线段。

代价曲线和期望总体代价

设 ROC 曲线上点的坐标为（TPR，FPR），则可相应计算出FNR，然后在代价平面上绘制一条从（O，FPR）到（1，FNR）的线段，线段下的面积即表示了该条件下的期望总体代价；如此将ROC曲线上的每个点转化为代价平面上的一条线段，然后取所有线段的下界，围成的自积即为在所有条件下学习器的期望总体代价。

比较检验

统计假设检验（hypothesis test）为我们进行学习器性能比较提供了重要依据。基于假设检验结果我们可推断出，若在测试集上观察到学习器A比B好，则A的泛化性能是否在统计意义上优于B，以及这个结论的把握有多大。

二项检验：泛化错误率为 c 的学习器在 m 个测试样本中将 m’ 个样本误分类的概率服从二项分布。
交叉验证 t 检验：对两个学习器 A 和 B ，若错误率相同，则使用 k 折交叉验证法得到的测试错误率cAi-cBi的差均值为零，服从 t 分布。

偏差与方差

偏差方差分解（bias-variance decomposition）是解释学习算法泛化性能的一种重要工具。

泛化误差可分解为偏差、方差与噪声之和。

一般来说，偏差与方差是有冲突的，这称为偏差一方差窘境（bias-variance dilemma）。

假定我们能控制学习算法的训练程度，则在训练不足时，学习器的拟合能力不够强，训练数据的扰动不足以使学习器产生显著变化，此时偏差主导了泛化错误率；随着训练程度的加深，学习器的拟合能力逐渐增强，训练数据发生的扰动渐渐能被学习器学到，方差逐渐主导了泛化错误率；在训练程度充足后，学习器的拟合能力已非常强，训练数据发生的轻微扰动都会导致学习器发生显著变化，若训练数据自身的、非全局的特性被学习器学到了，则将发生过拟合。

泛化误差与偏差、方差的关系示意图

偏差（欠拟合）、方差（过拟合）

从偏差和方差角度看，很难同时追求最优。
从统计学习理论角度：
- 低偏差代表经验风险最小化
- 低方差代表结构风险最小化

正则化和偏差、方差

根据验证集选择 λ：

λ过大：偏差高（欠拟合）
λ过小：方差高（过拟合）

学习曲线

总结

通过画出学习曲线和检验误差来判断算法是否存在高偏差或者高方差的问题，再决定是否使用更多的数据或者特征。

机器学习数据

参数多，特征值多的假设模型可以得到低偏差
很大的测试集可以得到低方差

统计学习理论

统计学习的三要素

模型
策略
算法

支持向量机

优化目标

间隔与支持向量

如上图所示，距离超平面最近的这几个训练样本点使式（6.3）的等号成立，它们被称为"支持向量"（support vector），两个异类支持向量到超平面的距离之和为：

它被称为"间隔"（margin）。

直观上对大间隔的理解

要想优化损失函数，不仅需要大于 0，更需要大于 1 才可以。

大间隔的数学原理

间隔越大，X 到 θ 的投影越大，损失函数越小。

核函数

对线性不可分问题，可将样本从原始空间映射到一个更高维的特征空间，使得样本在这个特征空间内线性可分。如果原始空间是有限维，即属性数有限，那么一定存在一个高维特征空间使样本可分。

令φ（x）表示将x映射后的特征向量，可以设想这样一个函数：

有了这样的函数，我们就不必直接去计算高维甚至无穷维特征空间中的内积。这个函数就是核函数（kernel function）。

常用核函数

选择标记点（样本）
使用高斯核函数

使用核函数的 SVM 的损失函数

偏差方差折中

C=1/λ

C 越大（λ越小）：低偏差，高方差（过拟合）
C 越小（λ越大）：高偏差，低方差（欠拟合）

σ^2

σ^2 越大，f 越平缓，高偏差，低方差（欠拟合）
σ^2 越小，f 不平缓，低偏差，高方差（过拟合）

使用 SVM

选择 C
选择核函数（符合默瑟定理，Mercer’s Theorem）
- 高斯核函数
- 线性核函数（无核函数）
- 多项式核函数
- 字符串核函数
- 卡方核函数
- 直方相交核函数

SVM 和逻辑回归的选择

N 个特征，M 个样本

N 对于 M 很大：逻辑回归或者无核 SVM
N 很小，M 适中：高斯核 SVM
N 很小，M 很大：增加更多的特征，然后使用逻辑回归或者无核 SVM

SVM 不需要解决局部最优的问题，神经网络可以解决几乎所有的问题，但是训练速度比 SVM 慢。

其他

软间隔与正则化

在现实任务中往往很难确定合适的核函数使得训练样本在特征空间中线性可分；即使恰好找到了某个核函数使训练集在特征空间中线性可分，也很难断定这个貌似线性可分的结果不是由于过拟合所造成的。

所有样本都必须划分正确，这称为"硬间隔"（hard margin），而"软间隔”（soft margin）则是允许某些样本不满足约束。当然，在最大化间隔的同时，不满足约束的样本应尽可能少。

支持向量回归

对样本（x，y）的传统回归模型通常直接基于模型输出 f（x）与真实输出 y 之间的差别来计算损失，当且仅当 f（x）与 y 完全相同时，损失才为零。与此不同，支持向量回归（Support Vector Regression，SVR）假设我们能容忍 f（x）与 y 之间最多有 e 的偏差，即仅当 f（x）与 y 之间的差别绝对值大于 e 时才计算损失。

传统回归：f(x)与y完全相等时损失为0;
SVR: f(x)与y的差异大于一定值时才计算损失，落入间隔带中不计算损失。

网络机器学习

PageRank核心思想

PageRank算法

PageRank算法总的来说就是预先给每个网页一个PR值（下面用PR值指代PageRank值），由于PR值物理意义上为一个网页被访问概率，所以一般是 $\frac{1}{N}$ ，其中N为网页总数。另外，一般情况下，所有网页的PR值的总和为1。如果不为1的话也不是不行，最后算出来的不同网页之间PR值的大小关系仍然是正确的，只是不能直接地反映概率了。

所以PageRank算法实际上就是预先给定PR值后，通过每个网页之间的链接关系不断迭代，直至达到平稳分布为止。

各个网页的PR值之间的关系一般情况下表示为如下的式子：

$\LARGE PR(p_i)=α\sum_{p_j∈M_{p_i}}\frac{PR(p_j)}{L(p_j)}+\frac{(1-α)}{N}$

其中 $M_{p_i}$ 是所有对 $p_i$ 网页有出链的网页集合； $L(p_j)$ 是网页的出链数目； $N$ 是网页总数； $α$ 是阻尼系数，即用户离开当前网页重新输入网址访问的概率，一般取0.85。

根据这一关系不断迭代，当算法收敛的时候，得到的PR值即使每个网页的PR排序值。

PageRank随机游走

PageRank计算举例

随机游走算法

随机游走算法的基本思想是，从一个或一系列顶点开始遍历一张图。在任意一个顶点，遍历者将以概率1-a游走到这个顶点的邻居顶点，以概率a随机跳跃到图中的任何一个顶点，称a为跳转发生概率，每次游走后得出一个概率分布，该概率分布刻画了图中每一个顶点被访问到的概率。用这个概率分布作为下一次游走的输入并反复迭代这一过程。当满足一定前提条件时，这个概率分布会趋于收敛。收敛后，即可以得到一个平稳的概率分布。随机游走模型广泛应用于数据挖掘和互联网领域，PageRank算法可以看作是随机游走模型的一个实例。

重启随机游走算法

重启随机游走算法是在随机游走算法的基础的改进。从图中的某一个节点出发，每一步面临两个选择，随机选择相邻节点，或者返回开始节点。算法包含一个参数a为重启概率，1-a表示移动到相邻节点的概率，经过迭代到达平稳，平稳后得到的概率分布可被看作是受开始节点影响的分布。重启随机游走可以捕捉两个节点之间多方面的关系，捕捉图的整体结构信息。

其他的例子

论文权威程度（SCI 影响因子）
治病基因预测

聚类

性能度量

聚类性能度量亦称聚类"有效性指标"（validity index），与监督学习中的性能度量作用相似。

我们希望"物以类聚"，即同一簇的样本尽可能彼此相似，不同簇的样本尽可能不同。换言之，聚类结果的"簇内相似度"（intra-cluster similarity）高且"簇间相似度"（inter-cluster similarity）低。

聚类性能度量大致有两类。一类是将聚类结果与某个"参考模型"（reference model）进行比较，称为"外部指标"（external index）；另一类是直接考察聚类结果而不利用任何参考模型，称为"内部指标"（internal index）。

外部指标
- Jaccard 指数
- FM 指数
- Rand 指数
内部指标
- DB 指数
- Dunn 指数

距离计算

对函数dist（.，.），若它是一个"距离度量"（distance measure），则需满足一些基本性质：

闵可夫斯基距离（Minkowski distance）

欧氏距离（Euclidean distance）

曼哈顿距离（Manhattan distance）

K-means算法

优化目标

随机初始化

选取聚类数量

肘部方法

其他聚类算法

原型聚类（基于原型的聚类）
- k 均值（k-means）
- 学习向量化（Learning Vector Quantization，LVQ）
- 高斯混合聚类（Mixture-oι Gaussian）
密度聚类（基于密度的聚类）
- DBSCAN
层次聚类（基于层次的聚类）
- AGNES

贝叶斯分类器

贝叶斯决策论

极大似然估计

概率模型的训练过程就是参数估计（parameter estimation）过程。对于参数估计，统计学界的两个学派分别提供了不同的解决方案：频率主义学派（Frequentist）认为参数虽然未知，但却是客观存在的固定值，因此，可通过优化似然函数等准则来确定参数值；贝叶斯学派（Bayesian）则认为参数是未观察到的随机变量，其本身也可有分布，因此，可假定参数服从一个先验分布，然后基于观测到的数据来计算参数的后验分布。

朴素贝叶斯分类器

朴素贝叶斯分类器（naive Bayes classifier）采用了"属性条件独立性假设"（attribute conditional independence assumption）：对已知类别，假设所有属性相互独立。换言之，假设每个属性独立地对分类结果发生影响。

显然，拉普拉斯修正（Laplacian correction）避免了因训练集样本不充分而导致概率估值为零的问题，并且在训练集变大时，修正过程所引入的先验（prior）的影响也会逐渐变得可忽略，使得估值渐趋向于实际概率值。

贝叶斯网

贝叶斯网（Bayesian network）亦称"信念网"（belief network），它借助有向无环图（Directed Acyclic Graph，DAG）来刻画属性之间的依赖关系，并使用条件概率表（Conditional Probability Table，CPT）来描述属性的联合概率分布。

以上图为例，联合概率分布定义为：

贝叶斯网中三个变量之间的典型依赖关系：

EM 算法

未观测变量的学名是"隐变量"（latent variable）。我们可通过对隐变量计算期望，来最大化己观测数据的对数"边际似然" （marginal likelihood）。

EM算法（Expectation-Maximization）是常用的估计参数隐变量的利器，它是一种迭代式的方法。其基本想法是：

若参数θ己知，则可根据训练数据推断出最优隐变量Z的值（E 步）；
若Z的值已知，则可方便地对参数θ做极大似然估计（M 步）。

算法步骤：

基于 θt 推断 Z 的期望，记为 Zt。
基于已观察变量 X 和 Zt 对θ做极大似然估计，记为θt+1

集成学习

个体与集成

集成学习（ensemble learning）：通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器系统（multi-classifier system）、基于委员会的学习（committee-based learning）等。

同质（homogeneous）集成学习：神经网络。
异质（heterogenous）集成学习。

同质集成中的个体学习器亦称"基学习器"（base learner），相应的学习算法称为"基学习算法"（base learning algorithm）。异质集成中的个体学习器由不同的学习算法生成，这时就不再有基学习算法，相应的，个体学习器一般不称为基学习器，常称为"组件学习器"（component learner）或直接称为个体学习器。

集成学习通过将多个学习器进行结合，常可获得比单一学习器显著优越的泛化性能。因为集成学习的很多理论研究都是针对弱学习器（weak learner）进行的，所以基学习器有时也被直接称为弱学习器。

要获得好的集成，个体学习期应该"好而不同”，即个体学习器要有一定的"准确性”，即学习器不能太坏，并且要有"多样性" （diversity），即学习器间具有差异。

在基学习器的误差相互独立的情况下，随着集成中个体分类器数目 T 的增大，集成的错误率将指数级下降，最终趋向于零。

根据个体学习器的生成方式，目前的集成学习方法大致可分为两大类：

个体学习器间存在强依赖关系、必须串行生成的序列化方法：Boosting；
个体学习器间不存在强依赖关系、可同时生成的并行化方法：Bagging 和"随机森林"（Random Forest）。

Boosting

Boosting是一族可将弱学习器提升为强学习器的算法。这族算法的工作机制类似：先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多关注，然后基于调整后的样本分布来训练下一个基学习器；如此重复进行，直至基学习器数目达到事先指定的值T，最终将这T个基学习器进行加权结合。

Boosting 族算法最著名的代表是 AdaBoost。

Adaboost的自适应在于：最开始，所有的训练样本具有相同权重。被前一个分类器分错的样本会被用于训练下一个分类器，即提高这个分错的样本被选中进入下一个弱分类器选中的概率，分对的样本被选中的概率会被降低。

Bagging 与随机森林

Bagging是并行式集成学习方法最著名的代表。由自助采样法采样出 T 个含 m 个训练样本的采样集，然后基于每个采样集训练出一个基学习器，再将这些基学习器进行结合。这就是 Bagging 的基本流程。在对预测输出进行结合时，Bagging通常对分类任务使用简单投票法，对回归任务使用简单平均法。若分类预测时出现两个类收到同样票数的情形，则最简单的做法是随机选择一个，也可进一步考察学习器投票的置信度来确定最终胜者。

随机森林（Random Forest，RF）是Bagging的一个扩展变体。RF在以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机属性选择。具体来说，传统决策树在选择划分属性时是在当前结点的属性集合（假定有d个属性）中选择一个最优属性；而在RF中，对基决策树的每个结点，先从该结点的属性集合中随机选择一个包含k个属性的子集，然后再从这个子集中选择一个最优属性用于划分。这里的参数k控制了随机性的引入程度；若令k=d，则基决策树的构建与传统决策树相同；若令k=1，则是随机选择一个属性用于划分；一般情况下，推荐值k=log2d。

结合策略

学习器结合可能会从三个方面带来好处：

从统计的方面来看，由于学习任务的假设空间往往很大，可能有多个假设在训练集上达到同等性能，此时若使用单学习器可能因误选而导致泛化性能不佳，结合多个学习器则会减小这一风险。
从计算的方面来看，学习算法往往会陷入局部极小，有的局部极小点所对应的泛化性能可能很糟糕，而通过多次运行之后进行结合，可降低陷入糟糕局部极小点的风险。
从表示的方面来看，某些学习任务的真实假设可能不在当前学习算法所考虑的假设空间中，此时若使用单学习器则肯定无效，而通过结合多个学习器，由于相应的假设空间有所扩大，有可能学得更好的近似。

结合的常见策略：

平均法
- 简单平均法
- 加权平均法
投票法
- 绝对多数投票法（票低于半数拒绝预测）
- 相对多数投票法
- 加权投票法
学习法

当训练数据很多时，一种更为强大的结合策略是使用"学习法"，即通过另一个学习器来进行结合。Stacking学习法的典型代表，这里我们把个体学习器称为初级学习器，用于结合的学习器称为次级学习器或元学习器（meta-learner）。

Stacking先从初始数据集训练出初级学习器，然后"生成"一个新数据集用于训练次级学习器。在这个新数据集中，初级学习器的输出被当作样例输入特征，而初始样本的标记仍被当作样例标记。

降维与主成分分析（PCA）

目标

数据压缩
可视化

主成分分析（PCA）

PCA(Principal Component Analysis)，即主成分分析方法，是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴，新的坐标轴的选择与数据本身是密切相关的。其中，第一个新坐标轴选择是原始数据中方差最大的方向，第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的，第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推，可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴，我们发现，大部分方差都包含在前面k个坐标轴中，后面的坐标轴所含的方差几乎为0。于是，我们可以忽略余下的坐标轴，只保留前面k个含有绝大部分方差的坐标轴。事实上，这相当于只保留包含绝大部分方差的维度特征，而忽略包含方差几乎为0的特征维度，实现对数据特征的降维处理。

计算协方差矩阵
奇异值分解（SVD）计算特征向量
由特征向量计算降维后的表示 z

压缩重现

主成分数量选择

PCA 的使用

定义 X 到 Z 的映射。

PCA 的作用：

数据压缩
- 减少内存或硬盘的数据存储
- 提高算法的运行效率
可视化
错误使用：避免过拟合（可能有效果，但不是一个好的解决办法）

在使用 PCA 之前，先使用原始的数据尝试，如果没有达到效果再考虑使用 PCA。

非负矩阵分解（NMF）

计算学习理论

PAC 学习

计算学习理论中最基本的是概率近似正确（Probably Approximately Correct，PAC）学习理论。

有限假设空间

可分情形：
- 目标概念 c 属于假设空间 H，只保留与训练集 D 一致的假设，若训练集足够大，则直到 H 中只剩一个假设。
不可分情形：
- H 中必存在一个泛化误差最小的假设。

VC 维

现实学习任务所面临的通常是无限假设空间，最常见的办法是考虑假设空间的"VC维"（Vapnik-Chervonenkis dimension）。

假设空间H的VC维是能被H打散的最大示例集的大小，VC（H）=d 表明存在大小为d的示例集能被假设空间H打散。

注意：并不意味着所有大小为d的示例集都能被假设空间H打散，VC 维的定义与数据分布D无关，因此，在数据分布未知时仍能计算出假设空间H的VC维。

二维实平面上所有线性划分构成的假设空间的 VC 维为 3。

VC维反映了函数集的学习能力，VC维越大则学习机器越复杂（容量越大）

若输入数据量N小于VC维，则有可能输入数据D会被完全的二分类。

你可能感兴趣的:(机器学习,考试攻略)

人脸识别的一些代码饿了就干饭 CV相关人脸识别
1、cv2入门函数imread及其相关操作2、（详解）opencv里的cv2.resize改变图片大小Python3、机器学习之人脸识别face_recognition使用4、使用face_recognition进行人脸校准5、简单的人脸识别通用流程示意图（这个看着写的挺好的）6、face_recognition和图像处理中left、top、right、bottom解释7、使用pillow库对图片
探索Python中的集成方法：Stacking Echo_Wish Python 笔记 Python 算法 python 开发语言
在机器学习领域，Stacking是一种高级的集成学习方法，它通过将多个基本模型的预测结果作为新的特征输入到一个元模型中，从而提高整体模型的性能和鲁棒性。本文将深入介绍Stacking的原理、实现方式以及如何在Python中应用。什么是Stacking？Stacking，又称为堆叠泛化（StackedGeneralization），是一种模型集成方法，与Bagging和Boosting不同，它并不直
【Python】 Stacking: 强大的集成学习方法音乐学家方大刚 Python python 集成学习开发语言
我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的薛凯琪《找到天使了》在机器学习中，单一模型的性能可能会受到其局限性和数据的影响。为了解决这个问题，我们可以使用集成学习（EnsembleLearning）方法。集成学习通过结合多个基模型的预测结果，来提高整体模型的准确性和稳健性。Stacki
Stacking算法：集成学习的终极武器 civilpy 算法集成学习机器学习
Stacking算法：集成学习的终极武器在机器学习的竞技场中，集成学习方法以其卓越的性能而闻名。其中，Stacking（堆叠泛化）作为一种高级集成技术，更是被誉为“集成学习的终极武器”。本文将带你深入了解Stacking算法的原理和实现，并提供一些实战技巧和最佳实践。1.Stacking算法原理探秘Stacking算法的核心思想是训练多个不同的基模型，并将它们的预测结果作为新模型的输入特征，以此来
集成学习（上）：Bagging集成方法万事可爱^ 机器学习修仙之旅 #监督学习集成学习机器学习人工智能 Bagging 随机森林
一、什么是集成学习？在机器学习的世界里，没有哪个模型是完美无缺的。就像古希腊神话中的"盲人摸象"，单个模型往往只能捕捉到数据特征的某个侧面。但当我们把多个模型的智慧集合起来，就能像拼图一样还原出完整的真相，接下来我们就来介绍一种“拼图”算法——集成学习。集成学习是一种机器学习技术，它通过组合多个模型（通常称为“弱学习器”或“基础模型”）的预测结果，构建出更强、更准确的学习算法。这种方法的主要思想是
【集成学习】：Stacking原理以及Python代码实现 Geeksongs 机器学习 python 机器学习深度学习人工智能算法
Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用，尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。总体来说，stacking集成算法主要是一种基于“标签”的学习，有以下的特点：用法：模型利用交叉验证，对训练集进行预测，从而实现二次学习优点：可以结合不同的模型缺点：增加了时间开销，容
windows使用ssh-copy-id命令的解决方案爱编程的喵喵 Windows实用技巧 windows ssh ssh-copy-id 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了windows使用ssh-copy-
PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
机器学习中的贝叶斯网络：如何构建高效的风险预测模型 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术文章目录机器学习中的贝叶斯网络：如何构建高效的风险预测模型1.背景介绍2.基本概念术语说明2.1马尔科夫随机场（MarkovRandomField）2.2条件随机场（ConditionalRandomField，CRF）2.3变量elimination算法2.4贝叶斯网络3.核心算法原理和具体操作步骤以及数学公式讲解3.1原理介绍1.贝叶斯网络基础2.贝叶斯网络构建风险
使用 Milvus 进行向量数据库管理与实践 qahaj milvus 数据库 python
技术背景介绍在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。核心原理解析Milvus的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括IVF、HNSW等，使其能够高效地进行大规模向量的相似性搜索操
物理学不存在了？诺贝尔物理学奖颁给了人工智能资讯新鲜事人工智能
2024年10月8日，瑞典皇家科学院宣布，将2024年诺贝尔物理学奖授予美国普林斯顿大学教授约翰·J·霍普菲尔德（JohnJ.Hopfield）和加拿大多伦多大学教授杰弗里·E·辛顿（GeoffreyE.Hinton），以表彰他们“在人工神经网络机器学习方面的基础性发现和发明”。辛顿在接受电话采访时表示：“完全没想到”。实话实说，在结果出来前，大家也都没想到。因为在外界预测里，今年的诺贝尔物理学奖
PHP 爬虫实战：爬取淘宝商品详情数据 EcomDataMiner php 爬虫开发语言
随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍php爬虫的实战应用。准备工作在开始爬虫之前，我们需要做一些准备工作。首先，需要搭建一个本地服务器环境，推荐使用WAMP、XAMPP等集成化工具，方便部署PHP环境。其次，我
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
模拟退火算法：原理、应用与优化策略尹清雅算法
摘要模拟退火算法是一种基于物理退火过程的随机搜索算法，在解决复杂优化问题上表现出独特优势。本文详细阐述模拟退火算法的原理，深入分析其核心要素，通过案例展示在函数优化、旅行商问题中的应用，并探讨算法的优化策略与拓展方向，为解决复杂优化问题提供全面的理论与实践指导，助力该算法在多领域的高效应用与创新发展。一、引言在现代科学与工程领域，复杂优化问题无处不在，如资源分配、路径规划、机器学习模型参数调优等。
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？ yuanpan 机器学习神经网络 transformer
机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的
奇异值分解（SVD）文弱_书生乱七八糟神经网络人工智能
奇异值分解(SVD)介绍奇异值分解(SVD)，这是最强大的矩阵分解技术之一。SVD广泛应用于机器学习、数据科学和其他计算领域，用于降维、降噪和矩阵近似等应用。与仅适用于方阵的特征分解不同，SVD可以应用于任何矩阵，使其成为一种多功能工具。在这里煮啵将分解SVD背后的理论，通过手动计算示例进行分析，并展示如何在Python中实现SVD。在本节结束时，您将清楚地了解SVD的强大功能及其在机器学习中的应
yum install locate出现Error: Unable to find match: locate解决方案爱编程的喵喵 Linux解决方案 linux locate yum 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了yuminstalllocate出现
【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
【机器学习】建模流程 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能线性回归逻辑回归
1、数据获取1.1来源数据获取是机器学习建模的第一步，常见的数据来源包括数据库、API、网络爬虫等。数据库是企业内部常见的数据存储方式，例如：MySQL、Oracle等关系型数据库，以及MongoDB等非关系型数据库，它们能够存储大量的结构化和非结构化数据API（应用程序编程接口）提供了从外部获取数据的便捷方式，例如：社交媒体平台的API可以获取用户发布的内容和互动信息网络爬虫则适用于从网页中提取
机器学习课堂4线性回归模型+特征缩放木尘152132 机器学习线性回归 python
一、实验2-2，线性回归模型，计算模型在训练数据集和测试数据集上的均方根误差代码：#2-2线性回归模型importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt#参数设置iterations=3000#迭代次数learning_rate=0.0001#学习率m_train=3000#训练样本的数量flag_plot_lines=False
【机器学习】模型拟合 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能欠拟合过拟合
1、欠拟合1.1现象欠拟合是机器学习和统计建模中的一种常见问题，表现为模型无法充分捕捉数据中的潜在规律和模式。无论是训练数据还是测试数据，模型的预测误差都居高不下。在实际应用中，欠拟合的模型往往显得过于简单和粗糙，无法对数据进行有效的拟合和描述。1.2原因模型过于简单是导致欠拟合的主要原因：例如，使用直线去拟合具有明显曲线趋势的数据，或者使用低阶多项式去拟合高阶的复杂函数关系。这种情况下，模型的表
基于Python的智能决策支持系统：实现智能化决策的关键要素 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录基于Python的智能决策支持系统：实现智能化决策的关键要素11.背景介绍2.核心概念与联系数据收集与预处理模型构建与训练决策规则生成与优化决策结果评估与反馈3.核心算法原理具体操作步骤数据挖掘算法机器学习算法优化算法4.数学模型和公式详细讲解举例说明线性回归模型最小二乘法5.项目实践：代码实例和详细解释说明6.实际应用场景金融领域医疗领域供应链管理智能制造7.工具和资源推荐编程语言和开发
下一代模型技术演进与场景应用突破智能计算研究中心其他
内容概要当前模型技术正经历多维度的范式跃迁，可解释性模型与自动化机器学习（AutoML）成为突破传统黑箱困境的核心路径。在底层架构层面，边缘计算与量子计算的融合重构了算力分配模式，联邦学习技术则为跨域数据协作提供了安全可信的解决方案。主流框架如TensorFlow和PyTorch持续迭代优化能力，通过动态参数压缩与自适应超参数调优策略，显著提升模型部署效率。应用层创新呈现垂直化特征，医疗诊断模型通
TypeScript语言的计算机视觉苏墨瀚包罗万象 golang 开发语言后端
使用TypeScript进行计算机视觉：一个现代化的探索引言随着人工智能和机器学习的快速发展，计算机视觉（ComputerVision）成为了一个极具活力的研究领域。计算机视觉旨在使计算机能够“看”和“理解”数字图像或视频中的内容。近年来，TypeScript作为一种现代化的编程语言，因其类型安全和更好的开发体验，逐渐在前端和后端开发中得到了广泛应用。本文将探讨如何使用TypeScript进行计算
人工智能之数学基础：数学对人工智能技术发展的作用每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习机器学习神经网络自然语言处理数学
本文重点数学是人工智能技术发展的基础，它提供了人工智能技术所需的数学理论和算法，包括概率论、统计学、线性代数、微积分、图论等等。本文将从以下几个方面探讨数学对人工智能技术发展的作用。概率论和统计学概率论和统计学是人工智能技术中最为重要的数学分支之一。概率论和统计学的应用范围非常广泛，包括机器学习、数据挖掘、自然语言处理、计算机视觉等领域。在人工智能技术中，概率论和统计学主要用于处理不确定性的问题，
人工智能之数学基础：线性子空间每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习线性代数线性子空间线性空间
本文重点在前面的课程中，我们学习了线性空间，本文我们我们在此基础上学习线性子空间。在应用中，线性子空间的概念被广泛应用于信号处理、机器学习、图像处理等领域。子空间的性质子空间是线性空间的一部分，它需要满足下面的性质：设V是数域F上的线性空间，W是V的一个非空子集。如果W对于V中的加法运算和数乘运算也构成F上的一个线性空间，则称W为V的线性子空间（或称向量子空间）。具体来说，设V是一个线性空间，W是
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc