NULL not error

西瓜书~至臻笔记（二）——模型评估与选择（可直接享用）

文章目录

第二章模型评估与选择
- 2.1 经验误差与过拟合
- 2.2 评估方法
- - 2.2.1 留出法
  - - 分层采样
    - 数据集中样本的顺序
    - 数据集的大小比例
  - 2.2.2 交叉验证法
  - - 数据集的样本顺序
    - 留一法
  - 2.2.3 自助法（可重复采样法）
  - 2.2.4 调参与最终模型
  - - 范围调参
    - 验证集引入
- 2.3 性能度量
- - - 均方误差
    - 均方误差曲线
  - 2.3.1 将错误率与精度
  - 2.3.2 查准率、查全率与F1
  - - 查准率( $P$ )
    - 查全率( $R$ )
    - P-R曲线
    - F1分数
    - 宏查准、查全率以及宏 $F 1$
    - 微查准、查全率以及微 $F 1$
  - 2.3.3 ROC与AUC
  - 2.3.4 代价敏感错误率与代价曲线
- 2.4 比较检验
- - 2.4.1 假设检验
  - 2.4.2 交叉验证t检验
  - 2.4.3 McNemar检验
  - 2.4.4 Friedman与Nemenyi后续检验
- 2.5 偏差与方差
第二章阅读材料整理
第二章概念单词
第二章遗留问题

第二章模型评估与选择

有问题可联系QQ：3020889729，微信：cjh3020889729

笔记中——模型等价于学习器，训练误差等价于经验误差！

2.1 经验误差与过拟合

错误率是指分类错误的样本数占样本总数的比例。

精度是指分类正确的样本数占样本总数的比例。

$e g$ ： $i f$ 在 $m$ 个样本中，存在 $a$ 个样本分类错误，则：

错误率：
$E=\frac{a}{m} \quad \quad, E \rightarrow means:error$
精度：
$A=1-E=1-\frac{a}{m} \quad \quad , A \rightarrow means:accuracy$

更一般地，我们可以将分类错误这种差异大致分为：训练误差、泛化误差。

前者是学习器在训练集上的预测输出真实输出（标记/标签）的差异
后者是用于全新的数据上是所表现的差异。【泛化误差往往更重要】

单词笔记：

$a c c u r a c y$ : 精度

$e r r o r$ : 误差/错误——错误率: $\quad rate$

$\quad error$ : 经验误差

$\quad error$ : 泛化误差

无论是错误率、精度还是各种误差，都是为了服务于我们寻找一个“最满意”的学习器（模型）。因此，我们需要一个表现良好的学习器，但是怎么样的学习器才算好呢？训练误差小？训练集上表现很好？

$N o$ ，这还不够——我们通常期望的是——一个泛化误差小的学习器，即泛化能力强的学习器。因为这样的学习器能适应除训练集外的新预测环境，而不至于对于新样本一无所知，使学习器显得没有意义。

学习器的泛化误差大小怎么评估呢？常用的方法是将学习器应用于新样本上进行预测，再将预测结果与实际结果进行误差计算来评估的。这时我们就可能遇到两种截然不同的情况——过拟合、欠拟合。

过拟合：是指在训练集上的错误率比新样本上低、甚至低很多（也就是前者精度可能远高于后者）。
欠拟合：则是指在新样本上表现的结果已经比训练集上优异的，但是训练集上的误差还可以进一步优化。（即还可以继续让学习器从训练集中学习更多的信息/属性/特征）

在追求小泛化误差的学习器的路上，我们需要记住，过拟合是不可避免的，仅仅能通过有针对性的特定的办法来进行“缓解”，抑制过拟合程度。我们可以将过拟合不可避免问题简述为:
$既然无法实现P=NP,\quad 就尽可能使得P \neq NP的可能性降低 \\ P=NP,表示预测与真实情况一致， \\ p \neq NP,表示预测与真实情况不一致。$
在现实生活中，往往很难找到最理想的模型（学习器），因为模型的学习能力、过拟合程度受到模型算法以及数据内涵所决定，因此我们只能多不同参数的模型进行选择——模型选择，是我们获得满意的学习器所不可或缺的。【通常，我们通过对不同参数的模型，或者不同模型的进行泛化误差的评定，选择泛化误差最小的模型作为相对最优模型。】

单词笔记:

$o v e r f i t t i n g$ : 过拟合

$u n d e r f i t t i n g$ : 欠拟合

$\quad selection$ : 模型选择

PS：

欠拟合时的改进方法：增加训练轮次，或者增加模型复杂度等。
过拟合的改进方法：添加训练惩罚项等。

2.2 评估方法

从开始的泛化误差，我们可以知道，要想要比较好的模型，就需要我们对模型的泛化误差进行评估。此前，都是以新样本来说明，但是单个样本是无法用于有效的误差统计的，因此我们将所有用于测试的新样本组成一个数据集合，叫做“测试集”——并将测试集上的测试误差作为泛化误差的近似。

需要清楚一点的是，在数据划分时，通常存在一个假设——测试样本是真实的、独立同分布的。同时还需尽可能的使测试集中不包含训练集中的样本——即互斥。

我们清楚了模型评估需要一个测试集，此前模型训练又需要一个训练集，那么这样的数据应该从真是样本中如何划分呢？这就是下一步我们要学习的——对数据集进行有效合理的分割，即划分数据集。
$即：从D={(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{m},y_{m})},划分出训练集S和测试集T. \\ S={(x_{1},y_{1}),...,(x_{i},y_{i})}\quad, i=1,2,3...M_{S} \\ T={(x_{1},y_{1}),...,(x_{i},y_{i})}\quad, i=1,2,3...M_{T} \\ S \cap T = \varnothing \quad, M_{S}+M_{T}=m\\$

2.2.1 留出法

留出法：是直接将数据集D划分为互斥的两个集合，分别为训练集 $S$ 和测试集 $T$ 。即： $D=S\cup T \quad,S \cap T = \varnothing$ .

$S$ :用于学习器学习
$T$ :用于评估学习器的泛化误差

$e g$ : 以一个二分类问题来描述，假定 $D$ 含有样本 $1000$ ，利用留出法，留出 $300$ 个样本用于测试（即 $T$ ），因此余下的 $S$ 含有 $700$ 个样本。假设利用 $S$ 训练后，模型在 $T$ 上有 $30$ 个样本分类错误，那么其错误率为: $(30 / 300) * 100$ , 即精度为: $1 - 10$ .

留出法缺点：

会受数据影响，不可避免的引入一些因训练样本规模不同而导致的估计偏差。

分层采样

但通常，我们并不是直接将数据进行比例划分，还需要保持数据分布的一致性——即数据划分前后，给类别/类型的数据分布比例不变。如：原数据中苹果占 $\frac{1}{5}$ ，那么划分后的S和T中苹果也相应的占各自数据样本总数的 $\frac{1}{5}$ .【这种划分方法通常叫做——分层采样】

可能你会有一个疑惑，为什么需要这样划分呢？这是因为如果数据分布改变，会对模型训练和评估引入额外的偏差。【你可以留意一下，通常机器学习应用较好的数据通常是那些分布如同正态分布一样的数据】

举一个不按分层采样来进行划分的示例，来更直观的理解为什么需要使用分层采样保持数据分布来避免引入额外的误差。

$e g$ : 假设 $D$ 中含有 $400$ 个正例， $600$ 个反例，不按分层采样划分，留出 $200$ 个正例和 $100$ 个反例为测试集T，余下为训练集 $S$ 。当利用训练集 $S$ 训练的模型用于测试集T时，出现 $60$ 个分类错误，分别是预测正例 $20$ 项错误，反例 $40$ 项错误。那么此时在 $T$ 下的模型各分类的错误率为:
$E_{正} = 20/200*100\%=10\% \\ E_{反} = 40/100*100\%=40\%$
可以看出模型对假例预测的效果较差。此时，让我们利用分层采样的划分方法，对D进行按类别比例划分得到 $S$ 和 $T$ ， $T$ 为 $120$ 个正例和 $180$ 个反例, 于是各分类错误率如下(假设预测结果保持不变):
$E_{正} = 20/120*100\%=1/6*100\% \approx{16.7\%} \\ E_{反} = 40/180*100\%=2/9*100\% \approx{22.2\%}$
可以看出前后分类的评估情况大不相同，后者更稳定，误差不会偏向某一方，更倾向于实际的数据。前者之所以会在学习器上出现错误率差距如此大，是一方面是因为样本类别比例差异大，以及与原始数据的分布不相同导致的，从而使评估出现的偏差。【忽略S样本的一定影响，这里主要是为了表述分层抽样的必要性！】

数据集中样本的顺序

使用留出法时，除了要注意分层抽样以外，还要注意训练数据的顺序——要了解，单次使用留出法估计的结果往往不厚稳定可靠——需要将其划分的数据S和T，多次随机打乱后用于训练和评估。此时，每一次不同的随机顺序数据集，都会是模型产生不同的训练/评估结果，从而在对N次随机的结果取平均就可以得到较稳定的结果了。

数据集的大小比例

利用留出法时，还需要注意训练集S与测试集T之间的样本数目关系。如果训练集远大于测试集，此时模型的结果可能就会出现较大的偏差；因此，通常是取 $[\frac{2}{3} \quad , \frac{4}{5}]$ 得样本作为训练集，剩余样本作测试集。

PS：

划分数据集的比例，也有例外。当数据集很大时，比如总样本为 $100 万$ 个，那么我们就不必留 $[\frac{1}{5}\quad, \frac{1}{3}]$ 的样本作为测试集了，因为通常哪怕是 $1\% - 2\%$ 的样本作为测试集都已经足够我们用于模型的筛选了。

单词笔记：

$\quad error$ : 测试误差

$h o l d - o u t$ : “留出法”

$\quad sampling$ : 分层采样

2.2.2 交叉验证法

交叉验证法：

先将数据集 $D$ 划分成 $k$ 个大小相似（尽量相同）且互斥的子集，即 $D=D_{1} \cup D_{2} ... \cup D_{k}$ , $D_{i} \cap D_{j}=\varnothing$ .
每个子集都是通过分层采样得到
每次训练用 $k - 1$ 个子集的并集作为训练集，余下一个子集作为测试集
这样就会得到 $k$ 组不同的训练/测试集合， $k$ 次不同的测试结果
最后取k次测试结果平均值作为模型结果

交叉验证法的一个优势，可以通过调节k的大小来调整最终评估结果的一个稳定性和保真性——但不是越大越好，因为k越大所消耗的时间越多，并且对模型最终评估结果可能并没有太多改善。不过，也正是因为 $k$ 值可调，交叉验证法也被称为“K折交叉验证”。【 $k$ 常用的值为 $5 ， 10$ 等，即五折交叉验证、十折交叉验证】

交叉验证法缺点：

会受数据影响，不可避免的引入一些因训练样本规模不同而导致的估计偏差。

数据集的样本顺序

类似于留出法，交叉验证法也会因为训练样本的顺序不同而导致模型训练/评估结果不同。因此，类似的，进行 $p$ 次不同的划分顺序随机（子集中样本顺序随机）的k值不变的交叉验证，最后取 $p$ 次结果的平均值作为最终结果——此时的交叉验证叫做：p次k折交叉验证。
$[S\quad,T]_{i} \rightarrow \lambda_{i} \quad, \lambda_{i}为第i次验证的评估结果 \\ \lambda = \frac{1}{p}\sum_{j=0}^{p}\lambda_{j} \quad, \lambda为p次验证后的平均评估结果$

留一法

交叉验证中，有一种特殊情况，即数据集 $D$ 中仅含 $m$ 个样本，此时令 $k = m$ ，使得交叉验证中的k个子集均只含有单个样本 ——这就叫做留一法。

此时的验证数据集不再受到随机样本划分方式的影响，因为 $k （ m ）$ 个子集中仅含有一个样本，不存在其它的排序方式。

留一法特点：

训练集仅仅比初始数据集少一个样本，也就是说训练集几乎代表了整个数据集的潜在分布（或者说几乎所有的数据特征）。
从而留一法的评估结果通常与使用数据集D进行训练的模型评估结果相似——因此，即T集下的评估结果与S集下的训练结果相似。【留一法时，通常只需要考虑训练结果即可】
留一法的评估结果往往更为精确【评估结果不是一定优于其它的数据划分方法】

留一法的缺点：

数据集较大时，因为将每一个样本当一个子集来划分，就会造成很大的计算（时间）开销。

单词笔记：

$f i d e l i t y$ : 保真性

$\quad cross \quad validation$ : ”K折交叉验证“

$L e a v e - O n e - O u t$ : ”留一法“

2.2.3 自助法（可重复采样法）

自助法：

每次随机从数据集 $D$ 中挑选一个样本，将其拷贝放入 $D^{'}$ 中
然后将该样本放回数据集 $D$ ，使得下一次采样仍然可能抽取到该样本
重复以上步骤 $m$ 次，就得到了包含 $m$ 个样本的训练集 $D ‘$ ——即自助采样的结果

自助法特点：

D中的一部分样本可能多次出现 $D^{'}$ 中，而有的样本不出现在 $D^{'}$ 中。
减少训练样本规模不同造成的估计偏差影响

自助法中样本是否被抽样，可以用一个简单的估计来计算——设单个样本被采样的概率为 $\frac{1}{m}$ ，则不被采样的概率为 $1-\frac{1}{m}$ ，即一个 $0 ， 1 分布$ 。因此，（任意）单个样本m次采样的都没采样到的概率为 $(1-\frac{1}{m})^{m}$ ——即初始数据集 $D$ 在m次采样中单个样本不被采样的概率。

因此，将公式中 $m$ 扩展到 $\infty$ 就得到初始数据集D中单样本不被采样的概率：

由: $\lim_{x\rightarrow{0}}{(1+x)^{\frac{1}{x}}=e}$ 有:

令 $x=-\frac{1}{m}$ , 原式变为:
$x\rightarrow{0}\quad, 即m\rightarrow{\infty}:\quad lim_{m\rightarrow{\infty}}{(1-\frac{1}{m})^{-m}}=e \\$
此时，变换式略微变换一下:
$\lim_{m\rightarrow{\infty}}{(1-\frac{1}{m})^{-m}}=e \quad \rightarrow \quad \lim_{m\rightarrow{\infty}}{((1-\frac{1}{m})^{m})^{-1}}=e \\$
此时再对其求一个倒数，就能得到 $m$ 趋于 $\infty$ 的未采样概率：
$\lim_{m\rightarrow{\infty}}{((1-\frac{1}{m})^{m})^{-1}}=\lim_{m\rightarrow{\infty}}\frac{1}{(1-\frac{1}{m})^{m}}=e \\ \downarrow \\ \lim_{m\rightarrow{\infty}}{(1-\frac{1}{m})^{m}} = \frac{1}{e} \approx 0.368\\$
因此，我们就得出了，自助采样时，初始数据集 $D$ 中约有 $36.8\%$ 的样本不被采样到——即不会出现在采样数据集 $D ’$ 中。所以，通过自助法，我们可以将 $D^{'}$ 作为训练集，而 $D / D^{'}$ 作为测试集。【 $D / D^{'}, 指 D 中除 D ‘ 以外的样本$ 】

因为初始数据集 $D$ 中约有 $36.8\%$ 的样本未被采样过，不曾出现在训练集中，可以直接将这部分数据样本用于评估——这样的评估结果，称为“包外估计”。

自助法优点：

数据集较小时、难以有效划分训练/测试集时，自助法因 $\frac{1}{3}$ 的特性，而可以很好的有效划分数据（总能有 $\frac{1}{3}$ 的不曾出现在训练集中的数据可以作为测试集）。
自助法因为随机性，可以产生多个不同的不交叉的训练集和测试集。

自助法缺点：

虽然对小数据集也能很好的划分，但是却会改变初始数据集 $D$ 的分布，从而引入估计偏差
在数据集较大时，通常采用留出法或者交叉验证更为方便或有效。

单词笔记：

$b o o t s t r a p p i n g$ : ”自助法“

$\quad sampling$ : “自助采样法”

$\quad estimate$ : 包外估计

2.2.4 调参与最终模型

大多数学习算法的结果与其参数设定息息相关，不同的参数配置，学习到的潜在分布/特征就会有不同的差异，其最终的模型往往就有显著的差别。因此，再进行模型评估和选择前，除了选择学习算法（模型算法）外，我们还需要对算法参数进行设定——即参数调节，简称调参。

范围调参

为参数选择一定的范围，和变化步长。 $e g$ : 设定参数的调节范围 $[0, 0.2]$ ，并以 $0.05$ 作为步长，则训练该参数就需要训练 $0.2 / 0.05 + 1 = 4 + 1 = 5$ 次, 然后从这 $5$ 个候选值中选择最满意的一个参数值。【虽然这样产生的参数结果不一定最优，但是确是一个计算开销和性能估计的折中方法】

PS：

参数调得好坏往往决定着最终模型的性能

验证集引入

为了加以区分各种训练集的作用，现在将之前用于评估的数据集从测试集 $T$ 重新定义为验证集V，将验证集上表现的模型性能来进行模型选择和调参。

基本数据集的划分：

训练集：用于模型训练的数据集
验证集：用于模型评估的数据集
测试集：用于模拟模型实际测试的数据集

单词笔记：

$p a r a m e t e r$ : 参数

$\quad tuning$ : 调参

2.3 性能度量

所谓性能度量，就是衡量模型泛化能力的标准。

此前，我们仅仅是将错误率直接用于计算评估误差，这通常是不足够的。一般地，我们对不同的任务，会使用不同的性能度量方法，从而导致不同的训练结果。【这也意味着，模型”好坏“是相对的】

模型“好坏”的相关因素：

算法
数据
任务需求

这里列举一项在预测中使用较多的性能度量方法，均方误差——通常用于回归预测这样的连续预测任务。

均方误差

均方误差定义如下:
$E(f;D)=\frac{1}{m}\sum_{i=1}^{m}(f(x_{i})-y_{i})^{2}\\$
其中, $m$ 是预测样本总数， $f(x_{i})$ 是预测结果， $y_{i}$ 是真实标记/标签.

该性能度量就是通过计算模型预测输出与真实标签之间的距离，然后利用这个“误差距离”对进行模型修正。

对于连续的数据分布 $D$ ，可以将上式转换为关于概率密度函数 $p (\cdot)$ 的形式：
$E(f;D)=\int_{x \sim D}{(f(x)-y)^{2}p(x)}dx$
即：将 $\sum$ 换 $\int$ ，同时将原来的等概率 $\frac{1}{m}$ 换成关于x分布的概率密度函数 $p (x)$ 。

为了理解清晰，这里将以 $x$ 轴为 $f(x_{i})-y_{i})$ 的误差值， $y$ 轴为 $E (f; D)$ 。

均方误差曲线

可以看出， $M S E$ 均方误差对于离群点，也就是损失较大时，计算的误差值越大，且梯度也越大，使得数据向离群点方向靠近的趋势更明显，这一点在后边学习梯度下降法之后会更加清晰。【因此，数据中包含大量离群点时，可能MSE并不适合作为一个好的性能度量】

单词笔记：

$\quad measure$ : 性能度量

$\quad squared \quad error$ : 均方误差

【接下来介绍的度量方法，均与分类任务有关】

2.3.1 将错误率与精度

将前面提到错误率与精度, 进行一定形式的转换，引入一个指示函数来表征预测是否正确。
$I I (\cdot), 在 \cdot 为真时值为 1 ， \cdot 为假时值为 0$
所以错误率表示为：
$E(f;D)=\frac{1}{m}\sum_{i=1}^{m}II(f(x_{i})\neq{y_{i}})$
精度为:
$acc(f;D)=\frac{1}{m}\sum_{i=1}^{m}II(f(x_{i}) = y_{i})=1 - E(f;D)$
同样的，对于连续数据分布 $D$ , 可以表示为:
$E(f;D)=\int_{x \sim D}II(f(x)\neq{y})p(x)dx \\ acc(f;D)=\int_{x \sim D}II(f(x)={y})p(x)dx=1-E(f;D) \\$

2.3.2 查准率、查全率与F1

对于二分类问题，类别组合划分：

真正例( $T P$ )：预测为正例，标签为正例
假正例( $F P$ )：预测为正例，标签为反例
真反例( $T N$ )：预测为反例，标签为反例
假反例( $F N$ )：预测为反例，标签为正例

名称规律为——：

真假( $T / F$ )：对应标签与结果是否一致，一致为真( $T r u e$ )
正反( $P / N$ )：对应预测正反例( $P o s i t i v e, N e g a t i v e$ )
标签结果在前，预测结果在后进行表示

分类混淆矩阵：（左侧对应真实情况，上侧对应预测情况）

	正例	反例
正例	$y$ 与 $f (x)$ 一致为真，预测结果为正：真正例	$y$ 与 $f (x)$ 不一致为假，预测结果为反：假反例
反例	$y$ 与 $f (x)$ 不一致为假，预测结果为正：假正例	$y$ 与 $f (x)$ 一致为真，预测结果为假：真反例

所以，判断分类组合，先看后项——是什么例，然后看前项，真还是假即可判断实际分类情况了。

$e g$ :

真反例：反例意味着：预测为反例，真意味着标签与预测一致，所以可以判断标签和预测都是反例。
假反例：反例意味着：预测为反例，真意味着标签与预测不一致，所以可以判断标签是正例。

单词笔记：

$\quad positive$ : 真正例

$\quad positive$ : 假正例

$\quad negative$ : 真负例

$\quad negative$ : 假负例

$\quad matrix$ : 混淆矩阵

所以，分清楚组合情况后，我们就可以开始讨论查准率、查全率以及 $F 1$ 分数了。

查准率( $P$ )

查准率，也叫准确率。

定义为：
$P=\frac{TP}{TP+FP} \\ TP：真正例 \\ FP：假正例 \\$
即, 模型预测结果的真正例数占真正例与假正例之和的比例。

也就是模型预测结果中，预测为正例时，正确分类正例所占的比例——真正例，即标签与预测一致，分类正确；而FP则标签与预测不一致，预测为正例，分类错误。【即预测为正时的分类准确率】

因此，可以发现， $P$ 越大，那么预测正例正确的可能性越大。【主要对预测结果而言】

查全率( $R$ )

查全率，也叫召回率。

定义为:
$R=\frac{TP}{TP+FN} \\ TP：真正例 \\ FN：假反例 \\$
即，模型预测结果的真正例数占真正例与假反例之和的比例。

也就是模型预测结果中，标签为正例时，预测与标签一致所占的比例——假反例，即预测为反例，标签为正例。【即标签为正时的分类准确率】

因此，可以发现， $R$ 越大，那么正例正确的可能性越大。【主要对标签而言】

查准率与查全率是一对矛盾量——往往一者高，另一者就低。不过也有例外，比如在一些简单的分类任务（西瓜的好坏）中，可能两者都比较高。

单词笔记：

$p r e c i s i o n$ : ”查准率“

$r e c a l l$ : ”查全率“

P-R曲线

因此，我们将模型预测“最可能”是正例的样本排在前面，将“最不可能”是正例的样本排在后面，然后按此顺序依次计算出当前的 $P 、 R$ ——然后将所有计算的P、R值组成有序实数对 $(P ， R)$ ,然后绘制出图形，就得到了我们的“ $P - R 曲线$ ” 。

如图，将 $R$ 查全率作为横坐标， $P$ 查准率作为纵坐标：

图中的两条 $P - R 曲线$ ，没有出现明显的包含关系，因此无法做出直接的判断，需要进一步的分析。

F1分数

分析" $P - R 曲线$ " 对于模型选择的帮助主要从这些方面入手：

如果一个模型的的 $P - R 曲线$ 完全包住另一个模型的 $P - R 曲线$ ，则可以说前者性能更优异。
如果模型有交叉，则需要具体问题具体分析：
- 比较P-R曲线下面积大小，但是不好估算
- 平衡点( $B E P$ )：即查准率等于查全率时的取值，越大性能越好
- $F 1$ 度量： $F 1$ 分数越大越好
  $F1=\frac{2 \times P \times R }{P+R}, \quad P=\frac{TP}{TP+FP}, \quad R=\frac{TP}{TP+FN} \\ \downarrow \\ F1=\frac{2 \times \frac{TP}{TP+FP} \times \frac{TP}{TP+FN}}{\frac{TP}{TP+FP} + \frac{TP}{TP+FN}} = \frac{2 \times TP}{样例总数+TP-TN} \\ 样例总数: TP+TN+FP+FN \\$

其中 $F 1$ 度量是一个常用的评估量，其形式本身来自于， $P$ 与 $R$ 的调和平均: $\frac{1}{F_{1}}=\frac{1}{2}(\frac{1}{P} + \frac{1}{R})$ 。

虽然现在的 $F 1$ 表现已经显得比较优美了，但是我们还可以通过对调和平均进行一个加权操作，使得它满足实际训练过程中对查准率与查全率的要求不同的情况。【 $F 1$ 中 $P$ 与 $R$ 重要性相同！】

加权调和平均定义为:
$\frac{1}{F_{\beta}} = \frac{1}{1+\beta^{2}}(\frac{1}{P} + \frac{\beta^{2}}{R}) \\$
因此，更一般的 $F 1$ 度量标准， $F_{\beta}$ 定义为：
$F_{\beta}=\frac{(1+\beta^{2}) \times P \times R }{(\beta^{2} \times P)+R} \\$
（通常要求 $\beta > 0$ ，但是为了更一般的形式，且原式中使用 $\beta^{2}$ 参与计算，所以，以 $|\beta|$ 表示 $\beta > 0$ ）

【 $\beta|$ 表征了查全率对查准率的相对重要性】

根据 $|\beta|$ 的不同：

$|\beta|<1$ , 查准率有更大的影响
$|\beta|=1$ , 即退化为 $F 1$ ，查全率与查准率一样重要
$|\beta|>1$ , 查全率有更大影响

在执行多分类任务等时，我们拥有 $n$ 个二分类的混淆矩阵，此时我们就需要从 $n$ 个二分类混淆矩阵中综合考察 $P$ 、 $R$ 和 $F 1$ 。

宏查准、查全率以及宏 $F 1$

一种综合考察的方法：

先计算各混淆矩阵的查准率与查全率，并记为 $P_{1},R_{1}), (P_{2},R_{2}),...,(P_{n},R_{n})$
然后取其所有查准率与查全率的平均值
最有利用查准率与查全率的平均值计算F1
此时的平均查准率、平均查全率和F1，分别表示为:
$宏查准率：macro-P=\frac{1}{n}\sum_{i=1}^{n}P_{i} \\ 宏查全率：macro-R=\frac{1}{n}\sum_{i=1}^{n}R_{i} \\ 宏F1度量：macro-F1=\frac{2 \times macro-P \times macro-R}{macro-P+macro-R} \\$

微查准、查全率以及微 $F 1$

另一种综合度量多个二分类混淆举证的方法：

直接计算 $T P 、 F P 、 T N 、 F N$ 的平均值： $\overline{TP}, \overline{FP}, \overline{TN}, \overline{FN}$
利用平均分类情况计算查准率、查全率和F1
此时的查准率、查全率和F1的表示为：
$\frac{\overline{TP}}{\overline{TP} + \overline{FP}}\\ 微查全率：micro-R= \frac{\overline{TP}}{\overline{TP} + \overline{FN}}\\ 微F1度量：micro-F1=\frac{2 \times micro-P \times micro-R}{micro-P+micro-R} \\$

单词笔记：

$m a c r o - P$ ， $m a c r o - R$ ， $m a c r o - F 1$ : ”宏查准率“，”宏查全率“，”宏F1“

$m i c r o - P$ ， $m i c r o - R$ ， $m i c r o - F 1$ : ”微查准率“，”微查全率“，”微F1“

$\quad Point$ : 平衡点

2.3.3 ROC与AUC

在实际模型中，大多数模型对预测样本的输出都是一个实数值或者概率值，然后对模型的输出值进行一个分类阈值的比较：

输出值 > 分类阈值，则为正例
输出值 < 分类阈值，则为反例

比如，在神经网络分类中，借助 $s i g m o i d$ 和 $s o f t m a x$ 函数的特性进行分类预测输出时，总是一个在 $[0, 1.0]$ 之间的一个实值，然后将这个值与设定的分类阈值进行比较；假设分类阈值为 $0.5$ ，则当 $f (x) > 0.5$ 时，判断该预测输出为正例，反之为反例。

通常，这个实值的好坏，直接决定学习器的泛化能力。因此，我们可以按照输出的实值大小进行排序，大的在前，小的在后，此时相当于将预测“最可能”为正例的排在前，预测“最不可能”为正例的排在后。此时，分类过程就相当于是在这个排序中选择一个**“截断点”**将所有样本分为两部分，截断点前的样本部分判为正例，截断点后的样本部分判为反例。

在前面有提到过，样本的排序会对模型的好坏起到影响。因此，提出利用 $R O C 曲线$ 描述模型“一般情况下”泛化性能的好坏程度。

ROC：即受试者工作特征曲线。

在绘制 $R O C 曲线$ 前，需要满足以下条件：

首先对学习器的预测结果进行排序
然后把排序好的结果按则正例进行评估（即标签均为正例，然后比较预测是否也为正例）
注意：此时的预测结果仅仅是实值，而不是分类结果。

$R O C 曲线$ 的绘制：

计算真正例率和假正例率:
$TPR=\frac{TP}{TP+FN} \quad, 即:标签为正例时的正确分类比例 \\ FPR=\frac{FP}{FP+TN} \quad, 即:标签为反例时的错误分类比例 \\$
然后将 $T P R$ 作为纵轴， $F P R$ 作为横轴，如图:
- $R O C 曲线$ 分析：
  1. 图中对角线对应着“随机猜测”模型，也就是正例和反例的概率是相等的。
  2. 在点 $(0, 1)$ 处， $T P R = 1$ , $F P R = 0$ ，即对应将所有正例都排在反例前面的“理想模型”——因为截断点 $(F P R, T P R)$ 无论取 $R O C 曲线$ 上哪一点，都满足 $\geq 0$ , 所以满足(0,1)点的“理想模型”中正例总是排在前面，即预测分类总是正确的。【不要忘了前面的条件哦——正例总排在前，意味着模型输出的实值总与正例对应，因此，此时截断点无论取面积内哪一个点，结合标签为正，都可判断该理想模型对排在前面的预测结果是正确的。】

不过，实际任务中的ROC曲线并不是这么平滑的，因为样本总是有限的，因此，实际的ROC曲线通常是由离散的点进行相邻连接得到的。但，构成ROC曲线的点却不是随意得到的，而是有一定的规律：

假设给定了 $m^{+}$ 个正例和 $m^{-}$ 个反例，并对学习器的预测结果进行排序
首先将分类阈值设置为 $0$ ，此时的 $T P R$ (真正例率)与 $F P R$ (假正例率)均为零，于是在 $(0, 0)$ 处标一个点
然后将分类阈值往后移动，依次设置为后面的每一个预测结果——即依次将每一个样本划分为正例来判断
在确定分类阈值后，标记点坐标按照以下规则逐一标定:
首先确定作为分类阈值的样本的前一个样本的坐标: $(x, y)$
然后判断前一个样本的情况：
- 若为正例，则所作标记点坐标为 $y+\frac{1}{m^{+}})$ ，即沿着TPR轴移动
- 若为反例，则所作标记点坐标为 $(x+\frac{1}{m^{-}},y)$ ，即沿着FPR轴移动
- 可以发现，所做的偏移大小与所属类别大小有关。
最后，将做好的所有标记点按相邻点连接起来。

$R O C 曲线$ 的分析：

如果多个学习器的ROC曲线存在完全包含关系，那么被包含的学习器性能要差一些。
如果存在曲线交叉，那么就需要做一定的分析才可以判断性能高低，而常用的 $A U C$ 分析。

$A U C$ 分析：即 $R O C 曲线$ 下面积分析—— $A U C$ 越大，学习器性能越好。

$A U C$ 的计算：

令组成 $R O C 曲线$ 的有序点坐标依次为: ${(x_{1},y_{1}), (x_{2},y_{2}),..., (x_{m},y_{m})\}$ ，且 $x_{1}=0, x_{m}=1$
此时的 $A U C$ 计算公式为：
$AUC=\frac{1}{2}\sum_{i=1}^{m-1}(x_{i+1}-x_{i})·(y_{i}+y_{i+1}) \\$

AUC的结果也与样本预测的排序质量有关。因此，引入一个排序损失来说明AUC与样本预测的排序质量。

排序损失:

假设给定 $m^{+}$ 个正例和 $m^{-}$ 个反例，并满足：
$D^{+}包含所有的正例（m^{+}）,即正例集 \\ D^{-}包含所有的反例（m^{-}）,即反例集$
此时的排序损失:
$\ell_{rank}=\frac{1}{m^{+}m^{-}}\sum_{x^{+}\in D^{+}}\sum_{x^{-}\in D^{-}} \left( II(f(x^{+})ℓrank=m+m−1x+∈D+∑x−∈D−∑(II(f(x+)<f(x−))+21II(f(x+)=f(x−)))$
该损失计算会考虑每一对正反例，若正例预测值小于反例预测值，就意味着将反例拍到了正例的前面，此时记一个“罚分”；若正例预测值与反例预测值相等，意味着反例可能刚好在分割临界处或也排到正例前面了( $f(x_{i}^{+}) = f(x_{i}^{-}) > f(x_{i+1}^{+})$ )，此时记半个“罚分”。
该损失的计算值与 $A U C$ 一样总是小于 $1$ 的，且刚好对应 $R O C 曲线$ 之上的面积，满足:
$AUC=1-\ell_{rank} \\$

PS：

在 $R O C 曲线$ 上的点 $(x, y)$ ，其中 $x$ 表示排序在此之前的样本中反例占的比例； $y$ 表示正例的比例。【请结合 $T P R$ 与 $F P R$ 理解】

单词笔记：

$\quad point$ : 截断点

$R O C$ : 受试者工作特征曲线—— $\quad Operating \quad Characteristic$

$\quad Positive \quad Rate$ : 真正例率

$\quad Positive \quad Rate$ : 假正例率

$A U C$ : ROC曲线面积—— $\quad Under \quad ROC \quad Curve$

2.3.4 代价敏感错误率与代价曲线

在现实分类任务中，不同的分类错误的价值是不同的，比如对于疾病预测，如果分类错了造成的结果差异是巨大的。比如，一个健康人被判定为生病，偶尔的这样错误或许还可以接受；但是如果一个生病很重的，却被判断为健康，可能使得患者错失治疗的最佳时机，甚至死亡，这样的分类错误造成的影响就很大。因此，为了区分不同影响程度或者说对不同错误的忍受度不同，我们引入非均等代价来考量。

比如:
$\\ 将生病判为健康: 代价为\infty$
这就是两个不均等的代价，很明显，我们很不希望将生病判为健康，因此设定了很大的代价来提醒模型/学习器。

接下来还是以二分类为例，讨论不均等代价——首先引入代价矩阵:

	第0类	第1类
第0类	$cost_{ii}=0$	$cost_{01}$
第1类	$cost_{10}$	$cost_{ii}=0$

$cost_{ii}$ 表示将第 $i$ 类样本预测为第 $i$ 类，及预测正确，代价为 $0$
$cost_{01}$ 表示将第 $0$ 类样本预测为第 $1$ 类，预测错误，所以存在代价
$cost_{10}$ 表示将第 $1$ 类样本预测为第 $0$ 类，预测错误，所以存在代价
如果 $cost_{01}>cost_{10}$ , 意味着将0误判为1的错误更被重视。

我们来回顾一下文章一开始提到的错误率:
$E(f;D)=\frac{a}{m},\quad a为错误样本数,\quad m为总样本数 \\ 可以看出每一个错误样本对错误率的贡献都是一样的(\frac{1}{m}) \\$
在这里，我们将引入代价敏感（即不均等代价）到错误率中:

设0类对应正例，1类对应反例
$D^{+}包含所有的正例（m^{+}）,即正例集 \\ D^{-}包含所有的反例（m^{-}）,即反例集$
带入 $E (f; D)$ , 得**”代价敏感“错误率** :

$E(f;D;cost)=\frac{1}{m}\left( \sum_{x_{i} \in D^{+}}II(f(x_{i})\neq{y_{i}})\times cost_{01} + \sum_{x_{i} \in D^{-}}II(f(x_{i})\neq{y_{i}}) \times cost_{10}\right) \\ cost_{01}: 将正例判断为反例的代价 \\ cost_{10}: 将反例判断为正例的代价 \\$

此时的错误率对不同的类别错误有不同的忍受程度。

从错误率的代价引入，我们已经初步了解了代价敏感是怎么回事儿了。

接下来，我们将了解一下代价曲线——即基于分布定义的代价敏感错误率表示。

代价曲线是为了反应学习器在不均等代价下的期望总体代价，此时的ROC曲线已经不能满足此时模型的评估需要了。

代价曲线图的组成:

将正例概率代价作为横轴:
$P(+)_{cost}=\frac{p \times cost_{01}}{p\times{cost_{01}+(1-p)\times{cost_{10}}}} \\ p为样例为(标签)正例的概率 \\ cost_{01}: 正例误判为反例的代价 \\ cost_{10}: 反例误判为正例的代价 \\$
而纵轴取的是归一化代价——与 $F N R 和 F P R$ 相关:
$cost_{norm}=\frac{FNR \times p \times cost_{01} + FPR \times (1-p) \times cost_{10}} {p \times cost_{01} + (1-p) \times cost_{10}} \\ FPR为假正例率, \\ FNR=1-FPR, FNR为假反例率 \\$

代价曲线的绘制：

$R O C 曲线$ 上的每一个点(FPR,TPR)，都对应一条代价曲线
该代价曲线即代价平面上 $(0, F P R)$ 和 $(1, F P R)$ 两点连成的直线
然后逐次绘制 $R O C 曲线$ 上的其它点对应的代价曲线即可
绘制好所有曲线后，此时，所有代价曲线的公共下界面积——即为所有条件下学习器的期望总体代价

代价曲线示意图:

单词笔记：

$\quad cost$ : 非均等代价，又是也叫非等价代价

$\quad matrix$ : 代价矩阵

$c o s t - s e n s i t i v e$ : 代价敏感

$\quad curve$ : 代价曲线

$\quad learning$ : 代价敏感学习

2.4 比较检验

（待补充）

2.4.1 假设检验

（待补充）

2.4.2 交叉验证t检验

（待补充）

2.4.3 McNemar检验

（待补充）

2.4.4 Friedman与Nemenyi后续检验

（待补充）

2.5 偏差与方差

（待补充）

第二章阅读材料整理

【link名称为作者姓名等，可点击前往查看相关论文。】

自助采样法： $\quad and \quad Tibshirani \quad, 1993$
ROC曲线： $\quad, 1989$
AUC： $\quad,1997$ ，B站AUC解读教学视频
ROC曲线用途综述： $\quad, 2006$
代价曲线： $\quad and \quad Holte \quad, 2006$
代价敏感学习： $\quad, 2001$
交叉验证法： $\quad, 1998$
比较检验： $\quad, 2006$
偏差-方差-协方差分解： $\quad et \quad al. \quad, 1992$
对偏差和方差的估计实验： $\quad and \quad Dietterich \quad, 1998$

第二章概念单词

$\star$ $a c c u r a c y$ : 精度
$\star$ $e r r o r$ : 误差/错误——错误率: $\quad rate$
$\quad error$ : 经验误差
$\quad error$ : 泛化误差
$\star$ $o v e r f i t t i n g$ : 过拟合
$\star$ $u n d e r f i t t i n g$ : 欠拟合
$\quad selection$ : 模型选择
$\quad error$ : 测试误差
$h o l d - o u t$ : “留出法”
$\quad sampling$ : 分层采样
$f i d e l i t y$ : 保真性
$\star$ $\quad cross \quad validation$ : ”K折交叉验证“
$L e a v e - O n e - O u t$ : ”留一法“
$b o o t s t r a p p i n g$ : ”自助法“
$\quad sampling$ : “自助采样法”
$\quad estimate$ : 包外估计
$\star$ $p a r a m e t e r$ : 参数
$\star$ $\quad tuning$ : 调参
$\quad set$ : 验证集
$\star$ $\quad measure$ : 性能度量
$\star$ $\quad squared \quad error$ : 均方误差
$\star$ $p r e c i s i o n$ : ”查准率“
$\star$ $r e c a l l$ : ”查全率“
$m a c r o - P$ ， $m a c r o - R$ ， $m a c r o - F 1$ : ”宏查准率“，”宏查全率“，”宏F1“
$m i c r o - P$ ， $m i c r o - R$ ， $m i c r o - F 1$ : ”微查准率“，”微查全率“，”微F1“
$\star$ $\quad positive$ : 真正例
$\star$ $\quad positive$ : 假正例
$\star$ $\quad negative$ : 真负例
$\star$ $\quad negative$ : 假负例
$\star$ $\quad matrix$ : 混淆矩阵
$\quad Point$ : 平衡点
$\quad point$ : 截断点
$\star$ $R O C$ : 受试者工作特征曲线—— $\quad Operating \quad Characteristic$
$\star$ $\quad Positive \quad Rate$ : 真正例率
$\star$ $\quad Positive \quad Rate$ : 假正例率
$\star$ $A U C$ : ROC曲线面积—— $\quad Under \quad ROC \quad Curve$
$\quad cost$ : 非均等代价，又是也叫非等价代价
$\star$ $\quad matrix$ : 代价矩阵
$\star$ $c o s t - s e n s i t i v e$ : 代价敏感
$\star$ $\quad curve$ : 代价曲线
$\quad learning$ : 代价敏感学习
$\quad test$ : 假设检验
$\star$ $\quad distribution$ : 二项分布
$\quad test$ : 二项检验
$t - t e s t$ : T检验
$\quad t-tests$ : 成对t检验
$\quad test$ : 后续检验
$c o n f i d e n c e$ : 置信度
$\quad table$ : 列联表
$\quad hypothesis$ : 双边假设
$\quad decomposition$ : 偏差-方差分解
$\quad dilemma$ : 偏差-方差窘境
$\quad decomposition$ : 偏差-方差-协方差分解

第二章遗留问题

【关于遗留问题，会在后期单独整理后发布。】

深入了解并分析 $A U C$ 计算的原理，讨论 $\ell_{rank}$ 的意义。
深入了解代价曲线的计算原理和意义。
深入了解常用检验方法—— $t$ 检验、 $M c N e m a r$ 检验、 $F r i e d m a n$ 检验以及 $N e m e n n y i$ 后检验等。

如果对你有所帮助，不妨点个赞加个关注，你的鼓励是我创作的动力！做更多更好的笔记！

你可能感兴趣的:(西瓜书学习笔记,机器学习,算法,人工智能,python,深度学习)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring

西瓜书~至臻笔记（二）——模型评估与选择（可直接享用）

文章目录

第二章 模型评估与选择

2.1 经验误差与过拟合

2.2 评估方法

2.2.1 留出法

分层采样

数据集中样本的顺序

数据集的大小比例

2.2.2 交叉验证法

数据集的样本顺序

留一法

2.2.3 自助法（可重复采样法）

2.2.4 调参与最终模型

范围调参

验证集引入

2.3 性能度量

均方误差

均方误差曲线

2.3.1 将错误率与精度

2.3.2 查准率、查全率与F1

查准率( P P P)

查全率( R R R)

P-R曲线

F1分数

宏查准、查全率以及宏 F 1 F1 F1

微查准、查全率以及微 F 1 F1 F1

2.3.3 ROC与AUC

2.3.4 代价敏感错误率与代价曲线

2.4 比较检验

2.4.1 假设检验

2.4.2 交叉验证t检验

2.4.3 McNemar检验

2.4.4 Friedman与Nemenyi后续检验

2.5 偏差与方差

第二章 阅读材料整理

第二章 概念单词

第二章 遗留问题

你可能感兴趣的:(西瓜书学习笔记,机器学习,算法,人工智能,python,深度学习)

第二章模型评估与选择

查准率( $P$ )

查全率( $R$ )

宏查准、查全率以及宏 $F 1$

微查准、查全率以及微 $F 1$

第二章阅读材料整理

第二章概念单词

第二章遗留问题