TANK CHENG

西瓜书学习笔记第二章（一）

西瓜书学习笔记

开始学习时间：2020/1/14

作者：谭楷城

第二章：模型评估与选择

文章目录

西瓜书学习笔记
- 第二章：模型评估与选择
- - 2.1 经验误差与过拟合
  - 2.2 评估方法
  - - 如何产生测试（验证）集？
    - 2.2.1 留出法(hold-out）
    - 2.2.2 交叉验证法(cross validation)
    - 2.2.3 自助法(bootstrapping)
    - 2.2.4 调参与最终模型
  - 2.3 性能度量
  - - 2.3.2 查准率、查全率与F1
    - 2.3.3 ROC与AUC
    - 2.3.4 代价敏感错误率与代价曲线
- 在这里插入图片描述

2.1 经验误差与过拟合

错误率(error rate)：分类错误的样本数占样本总数的比例。
精度(accuracy)：精度 = 1 - 错误率（常常以百分比的形式书写）
误差(error)：实际预测输出与样本的真实输出之间的差异。
训练误差(training error)/经验误差(empirical error)：学习器在训练集上的误差。
泛化误差(generalization error)：新样本上的误差。

我们实际希望得到的是从新样本上能表现得很好的学习器，即泛化误差小。为了达到这个目的，应该从训练样本中尽可能学出适用于所有潜在样本的“普遍规律”。

学习器把训练样本学得太好了的时候，很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质。称之为“过拟合”(overfitting)。相对地，还没有学好训练样本中的一般性质称为“欠拟合”(underfitting)。

简述之，过拟合就是“过配”，欠拟合就是“欠配”。

过拟合的必然存在性

机器学习面临的问题通常是NP难甚至更难，而有效的学习算法必然是在多项式时间内运行完成。若可以彻底避免过拟合，则通过经验误差最小化就能获得最优解。这就意味着我们构造性的证明了P=NP。因此只要相信P $\neq$ NP，那么过拟合则不可避免。

在计算机领域，一般可以将问题分为可解问题和不可解问题。不可解问题也可以分为两类：一类如停机问题，的确无解；另一类虽然有解，但时间复杂度很高。可解问题也分为多项式问题(Polynomial Problem，P问题)和非确定性多项式问题(NondeterministicPolynomial Problem，NP问题)

P类问题：可以找到一个多项式时间复杂度的算法去解决的问题；

NP类问题：可以在多项式时间复杂度的算法去验证结果正确性的问题；比如随便拿一个结果，可在多项式时间内验证该结果是否正确，但是想要求解该结果的时间复杂度就不知道了。P类问题一定是NP类问题，但是NP类问题不一定能找到多项式时间复杂度的算法来解决（要是找到了就是P问题了）。所以人们关心的是：是否所有的NP问题都是P问题，即是否有 P=NP（信息学的巅峰问题）

P $\in$ NP

2.2 评估方法

通过实验测试来对学习器的泛化误差进行评估并进而做出选择。为此，需要使用一个"测试集"(testing set)来测试学习器对新样本的判别能力，然后以测试集上的测试误差(testing error)来作为泛化误差的近似。

如何产生测试（验证）集？

现在有包含m个样例的数据集 $D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_m,y_m)\}$ ，既要训练，又要测试，如何做到？

答案：对 $D$ 进行适当的处理，从中产生出训练集 $S$ 和测试集 $T$ 。

2.2.1 留出法(hold-out）

将数据集 $D$ 划分成两个互斥的集合。( $S\cup T$ ， $S\cap T=\varnothing$ )

在训练集 $S$ 训练得到模型后用 $T$ 评估其测试误差。

在划分训练集与测试集的时候要尽可能保持数据分布的一致性。

如分类任务中至少要保持样本的类别比例相似。

若是从采样(sampling)的角度来看待数据集划分，保留类别比例的采样方式通常称为分层采样(stratified sampling)。例如：

对 $D$ 进行分层采样，获得70%样本的训练集 $S$ 和30%样本的测试集 $T$ 。

保持样本分布的一致性，若样本集 $D$ 包含500个正例和500个反例，则分层采样得到的 $S$ 应该包含350个正例，350个反例，而 $T$ 包含150个正例和150个反例。

对于分层采样选取比例，如果测试集 $T$ 比较小，评估结果可能不够稳定准确。若 $T$ 多包含一些样本，训练集 $S$ 与 $D$ 的差别更大了，降低了评估结果的保真性(fidelity)。这个问题没有完美的解决方案，常见做法是将大约2/3~4/5的样本用来训练，剩余的样本用于测试。

当然，分割的方式有许多种。为了减少分割方式带来的差异，一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。例如上面例子中，就可以进行100次随机划分，每次产生一个训练/测试集用于实验评估，100次后就得到100个结果，而留出法返回的则是这100个结果的平均。同时也可以也可以得到估计结果的标准差。

2.2.2 交叉验证法(cross validation)

先将数据集 $D$ 划分为 $k$ 个大小相似的互斥子集并尽可能保持数据分布的一致性（分层采样）。然后每次用k-1个子集的并集作为训练集，余下的那个子集作为测试集。这样就获得了 $k$ 组的训练集和测试集，然后就进行 $k$ 次训练。

返回的是 $k$ 个测试结果的均值。交叉验证法评估结果的稳定性和保真性很大程度上取决于 $k$ 的取值。

通常也把交叉验证法称为 $k$ 折交叉验证(k-fold cross validation)。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pS0eRsQM-1580636139645)(C:\Users\HP\Desktop\学习笔记\交叉验证法.png)]

常用的 $k$ 的取值是10，此外还有5，20等。

当然，交叉验证法同样存在多种划分方式。为了减小因为样本划分不同而引入的差别，k折交叉验证也要随机使用不同的划分重复p次。常见的有 $p = 10$ ，即10次10折交叉验证。

特殊地，当 $k = m$ 折数等于样本个数（即每个样本作为一折）就得到了交叉验证法的一个特例留一法(Leave-One-Out,简称LOO)。留一法不受随机样本划分方式的影响。

优点是被实际评估的模型与期望评估用D训练出的模型很相似，评估结果往往被认为比较准确。
缺点是在数据集比较大时计算开销大。
NFL定理说明，得到的模型不一定比其他模型好。
- 留出法和交叉验证法由于保留了一部分样本用于测试，因此实际评估的模型所使用的训练集比 $D$ 小。这必然会引入一些因训练样本规模不同而导致的估计偏差。

2.2.3 自助法(bootstrapping)

以自助采样法为基础，由数据集 $D$ 采样得到 $D^{'}$ ：

每次随机从 $D$ 中挑选一个样本，将其拷贝放入 $D^{'}$ ，然后再将该样本放回到初始数据集 $D$ 中，使得该样本在下次采样时仍有可能被采到。
这个过程重复执行样本个数 $m$ 次，就得到了包含 $m$ 个样本的数据集 $D^{'}$ 。
$(1-\cfrac{1}{m})^m=\cfrac{1}{e}\approx0.368$ 为m次采集中始终不被采到的概率，也就是36.8%的样本未出现在 $D^{'}$ 中。
$D^{'}$ 作为训练集, $D / D^{'}$ 用作测试集。（/表示集合减法）；实际评估模型与期望评估模型都使用的是m个训练样本。
因为有1/3数据总量的数据没有在训练集中出现，这样的测试结果也成为包外估计(out-of-bag estimate)。

优缺点

自助法在数据集比较小，难以有效划分训练/测试集的时候很有用。
能够从初始数据集中产生多个不同的数据集。对集成学习等方法有很大好处。

自助法产生的数据集改变了初始数据集的分布，引入了估计偏差。
初始数据足够的情况下，留出法和交叉验证法更常用一些。

2.2.4 调参与最终模型

参数调节(parameter tuning)

学习算法的很多参数都是在实属范围内取值，因此对每种参数配置都训练出模型来是不可行的。

现实中常用的做法是对每个参数选定一个范围和变化步长。eg: 在[0,0.2]范围内以0.05为步长，则实际要评估的候选参数数值有5个。这是在计算开销和性能估计之间进行折中的结果。

参数调的好不好往往对最终模型性能有关键性的影响。

最终模型

经过上面的两种评估方法，事实上我们只使用了一部分数据训练模型。因此，在模型选择完成后，学习算法和参数配置已选定，此时应该用数据集 $D$ 重新训练模型。这个使用了所有 $m$ 个样本的训练模型才是我们最终提交给用户的。

！概念区分

注意：为了加以区分，模型评估与选择中用于评估测试的数据集常称为验证集(validation set)。

我们通常把学得的模型在实际使用中遇到的数据称为测试数据，而把训练数据另外划分为训练集和验证集，基于验证集上的性能来进、

参数

算法的参数（超参数）：数目通常在10以内
模型的参数：数目很多，大型深度学习参数甚至有上百亿个参数。

上面介绍了一些实验估计方法，但是还需要衡量模型泛化能力的评价标准。

2.3 性能度量

性能度量(performance measure)：反映任务需求，在对比不同模型的能力时，使用不同的性能度量往往会导致不同的评判结果。

什么样的模型是好的不仅取决于算法和数据，还决定于任务需求。

在预测任务中，评估学习器 $f$ 的性能，就要把学习器和预测结果 $f (x)$ 与真实标记 $y$ 进行比较。

回归任务：

最常用的性能度量是均方误差(MSE, mean squared error)。

一般的，对于数据分布 $D$ 和概率密度函数 $p(\cdot)$ ，均方误差可以描述为：
$\int_{x \sim D}(f(x)-y)^2p(x)dx$

分类任务

错误率和精度是分类任务中最常用的两种性能度量。

分类错误率定义为：
$E(f;D)=\frac{1}{m}\sum_{i=1}^{m}\textrm{II}(f(x_i)\neq y_i)$
精度则定义为：
$a c c (f; D) = 1 - E (f; D)$
同样的，对于数据分布和概率密度函数，我们也只需要将指示函数乘以概率密度后积分得到错误率与精度。

2.3.2 查准率、查全率与F1

错误率和精度不能满足所有任务需求。例如“所有的好瓜中有多少比例被挑了出来”，“检索出的信息中有多少比例是用户感兴趣的”之类的任务，查准率(precision)和查全率(recall)是更为适用于此类需求的性能度量。

有时候查准率也称为准确率，查全率也称为召回率。

样例根据其真实类别与学习器预测类别的组合划分为**真正例(TP),假正例(FP),真反例(TN),假反例(FN)**四种情形。
令 $T P$ 、 $F P$ 、 $T N$ 、 $F N$ 分别表示其对应的样例数。
分类结果混淆矩阵(confusion matrix)如下：

真实情况与预测结果	预测结果为正例	预测结果为反例
真实情况为正例	TP	FN
真实情况为反例	FP	TN

$\blacktriangleright$ 这些字母是true/false positive 还有 true/false negative 的简称。

查准率 $P$ 与查全率 $R$ 分别定义为：
$P=\frac{TP}{TP+FP}$

$\frac{TP}{TP+FN}$

查准率和查全率是一对矛盾的度量。一般来说，查准率高的时候，查全率往往偏低。而查全率高的时候，查准率往往偏低，除了一些简单的任务。

P-R曲线

我们根据学习器的预测结果对样例进行排序，排在最前面的则是最有可能是正例的样本，最后的则是最不可能是正例的样本。

按照这种顺序逐个把样本作为正例进行预测，则每次可以计算出当前的查全率、查准率，绘图得到P-R曲线：

要进行比较时：

若一条曲线被另一条曲线“包住”，则可断言后者性能优于前者。
如果曲线发生交叉，则难以一般性断言。可以根据P-R曲线下面积的大小进行判断，一定程度上表征了学习器在查准率和查全率上取得相对“双高”的比例。

当然，P-R曲线面积难以计算，人们又设计了一些综合考虑查准率和查全率的性能度量。

平衡点与F1度量

平衡点(Break-Even Point，BEP)是查准率=查全率时的取值。

BEP越大，说明曲线越靠近右上角，则下方面积越大。当然这还是过于简化了一点。

更常用的是F1度量。

$F1=\frac{2 \times P \times R}{P+R}=\frac{2\times TP}{样例总数+TP-TN}$

F1是基于查准率和查全率的调和平均定义而成的。

调和平均数分为简单调和平均数和加权调和平均数。F1是简单调和平均数。

在一些应用中，查准率和查全率的重要程度有所不同。为表达出查准率/查全率的不同偏好，定义为加权调和平均

$\large F_\beta$ 。
$F_\beta=\frac{(1+\beta^2)\times P \times R}{(\beta^2 \times P)+R}$
其中， $\beta>0$ 度量了查全率对查准率的相对重要性。 $\beta>1$ 时，查全率有更大影响。 $\beta<1$ 时，查准率有更大影响。

很多时候我们希望估计算法的全局性能，例如我们已经在多个数据集上进行训练、测试，有n个二分类混淆矩阵：

一种方法是计算各混淆矩阵的查准率与查全率的平均值，得到宏查准率(macro-P)，宏查全率(macro-R)以及相应的宏F1(macro-F1)。
$=\frac{1}{n}\sum_{i=1}^{n}P_i$
宏查全率、宏F1同理。
另一种方法是将混淆矩阵对应元素进行平均，得到TP、FP、TN、FN的平均值。再基于这些平均值计算微查准率(micro-P).微查全率(micro-R)和微F1(micro-F1)：
$\frac{\overline{TP}}{\overline{TP}+\overline{FP}}$
微查全率，微F1同理。

2.3.3 ROC与AUC

很多学习器是为测试样本产生一个实值或概率预测，然后再与分类阈值(threshold)进行比较。大于阈值则分为正类，否则为反类。根据这个实值或者概率预测结果，将测试样本进行排序。最可能是正例的就放在最前面，最不可能的放在最后面，相当于以某个截断点(cut point)将样本分为两部分。截断点的位置取决于任务需求，例如重视查准率则位置靠前。

$\blacktriangleright $这种排序本身的质量好坏体现了综合考虑学习器在不同任务下的期望泛化性能的好坏。

ROC曲线

与P-R曲线一样，根据学习器的预测结果对样例进行排序，再按照这个顺序把样本作为正例进行预测，每次都计算真正例率(True Positive Rate,TPR)和假正例率(False Positive Rate, FPR)。
$TPR=\frac{TP}{TP+FN}$

$FPR=\frac{FP}{TN+FP}$

TPR作为纵轴，而FPR作为横轴。

算法的性能判断方法与P-R图类似。不同的是，发生交叉时，较为合理的判断依据是比较ROC曲线下的面AUC（Area Under ROC Curve）。

AUC可以估算为：
$AUC=\frac{1}{2}\sum_{i=1}^{m-1}(x_{i+1}-x_i)\cdot(y_i+y_{i+1})$

令 $D^+,D^-$ 分别表示正反例集合，则排序损失(loss)定义为：
$l_{rank}=\frac{1}{m^+m^-}\sum_{x^+\in D^+}\sum_{x^-\in D^-}\Big(\rm II(f(x^+)lrank=m+m−1x+∈D+∑x−∈D−∑(II(f(x+)<f(x−))+21II(f(x+)=f(x−)))$

绘图过程

给定 $m^+$ 个正例、 $m^-$ 个反例：

根据学习器预测结果对样例进行排序
设置分类阈值为最大（即预测所有样例为反例），此时真正例率和假正例率均为0.
在坐标（0，0）处标记一个点
将分类阈值依次设为每个样例的预测值（即依次将每个样例划分为正例)。

设前一个标记点坐标为 $(x, y)$ ，当前若为真正例，则对应标记点的坐标为 $(x,y+\frac{1}{m^+})$ 。

若为假正例，则对应标记点坐标为 $(x+\frac{1}{m^-})$ 。 #点坐标表示TPR\FPR的增加
连接相邻点。

https://blog.csdn.net/Green2_0/article/details/83744119这篇文章对于理解ROC曲线有一定帮助，建议参考。
https://www.zhihu.com/question/265364451/answer/302612819对于AUC的计算以及理解有一定帮助，推荐参考。

问：为什么 $\cfrac{1}{m^+ \cdot m^-}$ 就是ROC图的一个单位格呢？

个人理解：ROC曲线的绘图过程告诉我们，TPR最终增至1在于分类阈值调节至最大导致进入排序队列的样本越多，最终全部进入而增至1。FPR同理。因此，ROC图可划分为 $m^+ \cdot m^-$ 个单元格。

2.3.4 代价敏感错误率与代价曲线

为了权衡不同类型错误所造成的不同损失，可为错误赋予“非均等代价”（unequal cost）。

代价矩阵(cost matrix)如下：

真实与预测类别	第0类	第1类
第0类	0	$cost_{01}$
第1类	$cost_{10}$	0

$cost_{ij}$ 表示将第 $i$ 类样本预测为第 $j$ 类样本的代价。
一般来说， $cost_{ii}=0$ ；
若将第0类判别为第1类所造成的损失更大，则 $cost_{01} > cost_{10}$
损失程度相差越大， $cost_{01}$ 和 $cost_{10}$ 的值的差别越大。

之前的性能度量隐式地假设了均等代价，没有考虑不同错误会造成不同的后果。

因此在非均等代价下，最小化总体代价(total cost)比最小化错误次数更有意义。

代价敏感(cost-sensitive)错误率：
$E(f;D;cost)=\frac{1}{m}\bigg(\sum_{x_i\in D^+} \rm{II}(f(x_i)\neq y_i)\times cost_{01}+\sum_{x_i\in D^- }\rm{II}(f(x_i)\neq y_i)\times cost_{10} \bigg)$

代价敏感应用广泛：

基于分布定义代价敏感错误率
其他的一些性能度量也可以应用代价敏感，如精度的代价敏感版本
多分类任务的代价敏感

代价曲线(cost curve)

横轴是取值为[0,1]的正例概率代价：
$P(+)cost=\frac{p\times cost_{01}}{p\times cost_{01}+(1-p)\times cost_{10}}$

其中， $p$ 是样例为正例的概率；

纵轴是取值为[0,1]的归一化代价：
$cost_{norm}=\frac{\mathbf{FNR}\times p \times cost_{01}+\mathbf{FPR} \times (1-p)\times cost_{10}}{p\times cost_{01}+(1-p)\times cost_{10}}$

$\mathbf{FNR=1-TPR}$

FPR是假正例率，FNR是假反例率(false negative rate)。

代价曲线的绘制

ROC曲线上每一点对应了代价平面上的一条线段，设ROC曲线上点的坐标为（FPR,TPR），则可以相应计算出FNR，然后在代价平面上绘制一条从(0,FPR)到(1,FNR)的线段，线段下的面积即表示了该条件下的期望总体代价。

如此，将ROC曲线上的每个点转化为代价平面上的一条线段，然后取所有线段的下界，围成面积即为在所有条件下学习器的期望总代价。

总结：期望总体代价由ROC曲线中每一个点计算FNR，根据FNR绘制线段得到与x轴围成面积。

至于为什么代价曲线下就是期望总体代价，我觉得可以用积分思想理解，但是并不严谨。

Python爬虫实战：批量下载小红书笔记图片的全流程技术解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫笔记开发语言音视频 github
1.引言：为什么要爬取小红书笔记图片小红书作为新兴的生活方式分享平台，聚集了大量高质量原创笔记内容，涵盖时尚、美妆、旅游、美食等多领域。笔记中的图片往往是内容的核心，批量下载小红书笔记图片，有助于：内容归档与备份数据分析与用户行为研究图像识别与机器学习训练电商推广及内容再加工但小红书对内容保护做得较好，爬取难度较高，需要结合多技术手段突破。2.小红书平台特点与爬取难点动态加载与API接口多变：页面
Python游戏开发实战：打造高仿俄罗斯方块掌机坦克大战
引言在那个电子游戏刚刚兴起的年代，俄罗斯方块掌机上的坦克大战承载着无数玩家的童年记忆。简单的像素画面、紧张刺激的战斗、精准的操作反馈，这些元素构成了一个经典的游戏体验。今天，我们将用Python和pygame库来重新诠释这个经典游戏，不仅要还原其精髓，更要在技术实现上进行创新和优化。这个项目不仅仅是一个简单的游戏复刻，更是一次完整的游戏开发实践。从游戏架构设计到用户体验优化，从碰撞检测算法到动态难
C#学习笔记说笑谈古松 C#c#
这是我以前的学习笔记，使用word写的，缩进应该有问题。3.1变量usingsystem;在这里定义的变量就可以在整个程序中使用;inta;publicclassmain{在这里定义的变量就可以在整个类中使用;intb;publicvoidstaticMain(){在这里定义的变量就可以在整个方法中使用;intc;}}也可以用static实现!3.1常量静态常量:publicconstintMAX
【华为od刷题（C++）】HJ89 24点运算 m0_64866459 华为od c++开发语言
我的代码：#include//包含了如排序、排列等常用算法#include//用于输入输出操作#include//无序映射，用于将扑克牌的字符映射到对应的数字#include//动态数组，用于存储输入的扑克牌usingnamespacestd;charops[4]={'+','-','*','/'};//这是一个操作符数组，包含了四个基本的数学运算符：加、减、乘、除unordered_mapmap
人脸识别实战：使用Python OpenCV 和深度学习进行人脸识别(2)
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
揭秘FloodFill算法：图像填充利器 KENYCHEN奉孝 python实践大全算法 python 开发工具
FloodFill算法概述FloodFill是一种用于填充连通区域的算法，常用于图像处理、绘图工具（如“油漆桶”工具）和迷宫求解等场景。其核心思想是从一个起始点出发，向四周（四邻域或八邻域）扩展，直到遇到边界或满足停止条件。算法原理连通性定义：根据需求选择四邻域（上、下、左、右）或八邻域（包含对角线方向）作为填充方向。边界条件：填充需在指定区域内进行，遇到边界颜色或特定标记时停止。实现方法递归实现
【算法300题】：双指针
双指针板块925.长按键入leetcode链接你的朋友正在使用键盘输入他的名字name。偶尔，在键入字符c时，按键可能会被长按，而字符可能被输入1次或多次。你将会检查键盘输入的字符typed。如果它对应的可能是你的朋友的名字（其中一些字符可能被长按），那么就返回True。思路这道题目只要是末尾的边界条件比较恶心一点classSolution{public:boolisLongPressedName
算法：floyd和高精度洛谷最短路 P1037 [NOIP 2002 普及组] 产生数健仙算法算法数据结构 c++
思路：因为某个数变成另一个数是单向的，并且一个数变成另一个数后还可以变，让我联想到图论的内容，一个数变成其他数就相当于这个数与另一个数有单向边，而且边之间的线路可以让一个数可能变成很多数，因为数据量很小，我就想到了floyd，就是我们用floyd做传递闭包，得出一个数可以变成哪些数，然后将每个位看一遍，乘起来就是答案，不过这里有个小坑，答案超过了2的64次方，所以还要高精度算法处理一下。代码：#i
算法：动态规划洛谷 P8776 [蓝桥杯 2022 省 A] 最长不下降子序列健仙算法动态规划蓝桥杯
思路：首先，这题你得先会（nlogn）复杂度的求最长不下降子序列方法。我们可以直接让k个数从下标为1开始，滑动到末端，这k个数就不用看它，因为我们把他设置成k个数后面的数，所以答案先加上k，然后我们看预处理每一个数从他开始（包括这个数）后面的最长不下降子序列，把长度放入b数组中，这样我们答案就是k加上b【k+1】，然后我们看k前面的数，k前面的数不是让答案加上前面的最长不下降子序列，因为此时我们有
算法竞赛备赛——【图论】求最短路径——Floyd算法 Aurora_wmroy 算法竞赛备赛算法图论 c++蓝桥杯数据结构
floyd算法基于动态规划应用：求多源最短路时间复杂度：n^3dijkstra：不能解决负边权floyd：能解决负边权不能解决负边权回路问题求最短路径：dijkstrabfsfloyd思路1.让任意两点之间的距离变短：引入中转点k通过k来中转i---->k---->jj2.找状态：n个点都可以做中转点的情况下，i到j之间的最短路径的长度是x最终状态：dp[n][i][j]=x;中间状态：dp[k]
《[系统底层攻坚] 张冬〈大话存储终极版〉精读计划启动——存储架构原理深度拆解之旅》-系统性学习笔记（适合小白与IT工作人员）谢郎Kobe 大活存储学习架构云计算硬件架构大数据
致所有存储技术探索者笔者近期将系统攻克存储领域经典巨作——张冬老师编著的《大话存储终极版》。这部近千页的存储系统圣经，以庖丁解牛的方式剖析了：存储硬件底层架构、分布式存储核心算法、超融合系统设计哲学等等。喜欢研究数据存储或者工作应用到存储的小伙伴，可以学习这本书。如果想利用碎片时间学习，也可以持续关注一下笔者不定期的章节解析。现在本人将此书的目录结构整理如下，未来笔者将按照顺序不定期更新【学习笔记
颠覆性的货币时代来了！千城攻略“主权资产货币系统”面世笔记侠
2020年7月7日，深圳千城攻略算法云技术有限公司与重塑布雷顿森林体系委员会云签约，成为面向央行提供服务的主权货币技术核心成员。重塑布雷顿森林委员会执行董事MarcUzan先生、千城攻略首席算法官郑志军先生出席签约仪式。与比特币、Libra完全不一样，千城攻略颠覆了长期以来根深蒂固的“主权信用货币”体制观念，推出了“主权资产货币”，由于其有着非常严谨科学的全新经济学理论和货币理论系统支撑，并且解决
【机器学习】必会降维算法之：独立成分分析（ICA） Carl_奕然机器学习算法人工智能
独立成分分析（ICA）1、引言2、独立成分分析（ICA）2.0引言2.1定义2.2应用场景2.3核心原理2.4实现方式2.5算法公式2.6代码示例3、总结1、引言小屌丝：鱼哥，最近胡塞武装很哇塞啊。小鱼：你什么时候开始关注军事了？小屌丝：这…还用关注吗？都上新闻了。小鱼：嗯，那你知道胡塞武装为什么这么厉害吗？小屌丝：额…当然是光脚不怕穿鞋的。小鱼：…你可真是…小屌丝：真是啥？小鱼：一个字，自己体会
ica算法c语言,独立成分分析(ICA)的模拟实验(R语言) weixin_39632212 ica算法c语言
本笔记是ESL14.7节图14.42的模拟过程。第一部分将以ProDenICA法为例试图介绍ICA的整个计算过程；第二部分将比较ProDenICA、FastICA以及KernelICA这种方法，试图重现图14.42。ICA的模拟过程生成数据首先我们得有一组独立(ICA的前提条件)分布的数据$S$(未知)，然后经过矩阵$A_0$混合之后得到实际的观测值$X$，即$$X=SA_0$$也可以写成$$S=
列梅兹remez算法求解最佳一致逼近多项式(C语言实现) landcruiser007 计算方法计算方法数值分析列梅兹算法
//remzf.h//实现remez算法#include#includevoidremz(a,b,p,n,eps,f)intn;doublea,b,eps,p[],(*f)(double);{inti,j,k,m;doublex[21],g[21],d,t,u,s,xx,x0,h,yy;if(n>20)n=20;//逼近多项式的最高次数为19m=n+1;d=1.0e+35;for(k=0;k<=n
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用青云交大数据新视界 Java 大视界 java 大数据机器学习情绪分析智能投资多源数据
Java大视界--Java大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用）引言：正文：一、金融情绪数据的立体化采集与治理1.1多模态数据采集架构1.2数据治理与特征工程二、Java机器学习模型的工程化实践2.1情感分析模型的深度优化2.2强化学习驱动的动态投资策略三、顶级机构实战：Java系统的金融炼金术四、技术前沿：Java与金融科技的未来融合4.1量子机器学习集成4.2联邦学习在合
Java数据结构与算法(爬楼梯动态规划) 盘门 java数据结构与算法实战 java 动态规划开发语言
前言爬楼梯就是一个斐波那契数列问题，采用动态规划是最合适不过的。实现原理初始化:dp[0]=1;dp[1]=2;转移方程：dp[i]=dp[i-1]+d[i-2];边界条件:无具体代码实现classSolution{publicintclimbStairs(intn){if(n==1){return1;}int[]dp=newint[n];dp[0]=1;dp[1]=2;for(inti=2;i<
TensorFlow深度学习实战——DCGAN详解与实现盼小辉丶深度学习 tensorflow 生成对抗网络
TensorFlow深度学习实战——DCGAN详解与实现0.前言1.DCGAN架构2.构建DCGAN生成手写数字图像2.1生成器与判别器架构2.2构建DCGAN相关链接0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetwork,DCGAN)是一种基于生成对抗网络(GenerativeAdversarialNetwork,GAN)的深度学
搜索插入位置 AWEN_33 算法 leetcode 数据结构
给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。请必须使用时间复杂度为O(logn)的算法（二分法）。classSolution{public:intsearchInsert(vector&nums,inttarget){//初始化二分查找的边界：//low：左边界，从数组起始位置开始（索引0）//high：右边界，从数组最后
c语言学习15四则运算
四则运算练习需求：进入一个界面选择+-*/printf选择运算法则（如果选择错误，提示重新选择）switchcasedefult显示100以内两个随机数，输入运算结果rand系统显示正确答案，并且判断正确错误要求：封装函数分析：intmain(void){//界面程序-----界面函数//输入和识别程序-----按键识别函数//随机数程序----产生随机数函数//系统计算并且对比答案----对比答
雷米兹交换算法（Remez Exchange Algorithm）的数学理论
雷米兹交换算法（RemezExchangeAlgorithm）的数学理论引言雷米兹交换算法（RemezExchangeAlgorithm）是数值逼近理论中的核心算法，其理论基础建立在19世纪切比雪夫（Chebyshev）的开创性工作之上。第一章切比雪夫逼近的理论基础1.1切比雪夫多项式的定义与性质第一类切比雪夫多项式Tn(x)T_n(x)Tn(x)在区间[−1,1][-1,1][−1,1]上通过如
【从零开始的LeetCode-算法】3202. 找出有效子序列的最大长度 II 九圣残炎算法 leetcode java
给你一个整数数组nums和一个正整数k。nums的一个子序列sub的长度为x，如果其满足以下条件，则称其为有效子序列：(sub[0]+sub[1])%k==(sub[1]+sub[2])%k==...==(sub[x-2]+sub[x-1])%k返回nums的最长有效子序列的长度。示例1：输入：nums=[1,2,3,4,5],k=2输出：5解释：最长有效子序列是[1,2,3,4,5]。示例2：输
剑指offer66_不用加减乘除做加法
不用加减乘除做加法写一个函数，求两个整数之和，要求在函数体内不得使用＋、－、×、÷四则运算符号。数据范围输入和输出都在int范围内。样例输入：num1=1,num2=2输出：3算法思路这是一个不使用加减运算符实现整数加法的算法，利用了位运算来模拟加法过程。核心思想是将加法分解为：无进位相加（通过异或运算^实现）计算进位（通过与运算&和左移<<实现）循环直到进位为0时间复杂度：O(1)因为整数位数固
java实现多表代替密码（维吉尼亚密码）就问你爱信不信维基利亚密码 java 密码加密解密密码学加密解密 java 算法
维吉尼亚密码（又译维热纳尔密码）是使用一系列凯撒密码组成密码字母表的加密算法，属于多表密码的一种简单形式。设d为一固定的正整数，d个位移代换表π=（π1,π2,…,πd），由密钥序列K=（k1,k2,…,kd）给定，第i+td个明文字母由表πi决定。即密钥ki决定加密算法如下：ek(xi+td)=(xi+td+ki)mod（q）e_k(x_{i+td})=(x_{i+td}+k_i)mod（q）e
MTALAB实现多表代替密码（维吉尼亚密码）就问你爱信不信 matlab加密解密维吉尼亚密码密码学加密解密算法 matlab
维吉尼亚密码（又译维热纳尔密码）是使用一系列凯撒密码组成密码字母表的加密算法，属于多表密码的一种简单形式。设d为一固定的正整数，d个位移代换表π=（π1,π2,…,πd），由密钥序列K=（k1,k2,…,kd）给定，第i+td个明文字母由表πi决定。即密钥ki决定加密算法如下：ek(xi+td)=(xi+td+ki)mod（q）e_k(x_{i+td})=(x_{i+td}+k_i)mod（q）e
【机器学习【9】】评估算法：数据集划分与算法泛化能力评估 roman_日积跬步-终至千里 #机器学习机器学习
文章目录一、数据集划分：训练集与评估集二、K折交叉验证：提升评估可靠性1.基本原理1.1.K折交叉验证基本原理1.2.逻辑回归算法与L22.基于K折交叉验证L2算法三、弃一交叉验证（Leave-One-Out）1、基本原理2、代码实现四、ShuffleSplit交叉验证1、基本原理2、为什么能降低方差3、代码测试五、选择建议在机器学习中，评估算法的核心目标是衡量模型在“未知数据”上的表现，而不是仅
三轴云台之姿态调节技术篇
三轴云台的姿态调节技术通过机械解耦、传感器融合、智能控制算法及动态补偿机制协同实现，能在复杂运动环境下保持高精度稳定，其核心技术与实现方式如下：一、机械结构优化：三轴解耦与轻量化设计三轴独立驱动解耦俯仰轴（Pitch）、横滚轴（Roll）、航向轴（Yaw）通过无刷电机+编码器+驱动器模块化设计实现运动解耦，避免轴间干扰。应用场景：无人机急转弯时，航向轴优先响应姿态变化，俯仰轴同步补偿相机倾斜，横滚
三轴云台之电机控制技术篇
三轴云台的电机控制技术以无刷直流电机（BLDC）为核心执行单元，结合磁场定向控制（FOC）、闭环反馈、多算法融合及减震设计，实现高精度、低延迟、抗干扰的稳定姿态调整。一、电机选型：无刷直流电机（BLDC）的优势高效率与低噪音BLDC电机通过电子换向替代传统电刷，减少机械摩擦，效率可达90%以上，同时噪音降低10-15dB，满足云台对静音和续航的要求。高精度控制配合编码器（如磁编码器）可实现0.01
三轴云台之控制算法协同技术篇 SKYDROID云卓小助手人工智能算法机器学习网络自动化
三轴云台的控制算法协同技术是确保云台在复杂动态环境下实现高精度、高稳定性运动控制的核心，其技术体系涵盖多传感器融合、多算法协同以及多目标优化三个关键维度。以下从技术架构与实现路径展开分析：一、多传感器融合：构建环境感知基础三轴云台通过集成IMU（惯性测量单元）、编码器、视觉传感器等多源数据，构建高鲁棒性的环境感知系统。IMU与编码器融合IMU提供高频率的姿态角速度数据，编码器提供低延迟的关节位置反
椭圆曲线密码学 Elliptic Curve Cryptography AIMercs BTC密码学密码学
密码学是研究在存在对抗行为的情况下还能安全通信的技术。即算法加密信息，再算法解密出信息。加密分为两类1.Symmetric-keyEncryption(secretkeyencryption)即一种密钥，加密和解密使用同一密钥，可相互转换2.Asymmetric-keyEncryption(publickeyencryption)分为公钥和私钥，不能转换，密钥搬运难题，用公钥加密，私钥解密椭圆密码
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS