謙卑

读西瓜书笔记（二）模型评估与选择

（一）误差与过拟合

1.经验误差(empirical error)/训练误差(training error)与泛化误差(generalization error)

错误率(error rate)：通常我们把分类错误的样本数占样本总数的比例称为“错误率"。
精度(accuracy)： 精度 = 1 - 错误率。即如果我们在m个样本中有a个样本分类错误，则错误率为E = a / m;相应的，1 - a / m 称为精度。
误差(error)：我们把学习器的实际预测输出与样本的真实输出之间的差异称为“误差”。
训练误差(training error)/训练误差(training error)：学习器在训练集上的误差称为“训练误差”/“经验误差”
泛化误差(generalization error)：学习器在新样本上的误差称为“泛化误差”。

2.过拟合(overfitting)与欠拟合(underfitting)

过拟合(overfitting)：当学习器把训练样本学的“太好了”，对训练样本过度学习导致把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样会导致泛化能力降低（也就是学习器/模型在训练集上的精度很好，但是在验证集上的精度不好），这种现象在机器学习中的称为“过拟合”
欠拟合(underfitting)：对训练样本的一般性质尚未学好称为“欠拟合”。
过拟合是机器学习面临的关键障碍，各类学习算法都必然带有一些针对过拟合的措施；
过拟合是无法彻底避免的，我们所能做的只是缓解过拟合，或者说是减少其风险。机器学习面临的问题通常是NP难甚至更难，而有效的学习方法必然是在多项式时间内运行完成的，而经验差最小化就是得到最优解，这意味着我们构造性的证明了"NP = P"，因此只要相信"NP != P"过拟合就不可避免。

（二）模型评估(Model Evaluation)

1.测试集(testing set)

测试集(testing set)：通常，我们可通过实验测验来对学习器的泛化误差进行评估并进而做出选择，为此，需要一个“测试集”来测试学习器对新样本的判别能力。然后以测试集上的“测试误差”(testing error)作为泛化误差的近似。
通常我们假设测试样本也是从样本真实分布中独立同分布采样而得到。但需要注意的是，测试集应该尽可能与训练集互斥，即测试样本尽量不在训练集中出现，未在训练过程中使用过。
训练集用于模型的训练，而测试集用于评估模型的性能。（即模型的泛化能力）一般来说，训练模型时，测试集从头到尾都不会参加模型的训练。

注：我们只在模型的参数调整好了，整个模型训练好了之后在测试集上进行评估测试模型的近似泛化误差以及性能。在训练过程中我们还要对模型进行选择和参数（超参数）调优，如果在模型选择的过程中，我们始终用测试集来评价模型性能进行参数调优，这实际上也将测试集变相地转为了训练集，这时候选择的最优模型很可能是过拟合的。所以我们要引入一个验证集(validation set)其作用是在训练的过程中进行模型选择和参数（超参数）调优，减缓训练时的过拟合。

（三）模型选择(Model Selection)

注：有资料把选择参数这一步称为模型选择，也有不少资料把选择何种模型算法称为模型选择。

参数（超参数(hyper parameters)）选择：：在训练模型这一步，我们非常关心如何选择参数来提高模型的预测能力，因为对于同一种机器学习算法，如果选择不同的参数(超参数)，模型的性能会有很大差别。

1.验证集(validation set)

验证集(validation set)：模型评估与选择中用于评估测试的数据集（基于验证集上的性能来进行模型选择和调参）常称为“验证集”
测试集(testing set)和验证集(validation set)的比较和区别

机器学习大致过程

有了模型评估(Model Evaluation)和模型选择(Model Selection)以及训练集(training set)、验证集（validation set)、测试集(testing set)的概念，可以大致归纳出机器学习的过程步骤：
将整个数据集按照正确的划分方式划分成训练集、验证集、测试集。
选取一个模型选择方法（如Hold-out Method），首先确定一个学习算法，然后确定模型的超参数集。
将模型用于训练集上训练，确定模型函数中的参数集。
将此时完整的模型用于验证集上进行性能评估。
重复2、3、4步骤，根据在验证集上的性能评估结果，得到效果最好的学习算法以及确定了其模型的超参数集。
此时，模型选择(Model Selection)已经完成，确定了最优的学习算法以及其超参数组合，把训练集和验证集合并，然后把模型置于合并后的训练集上训练，确定模型中的函数等参数，得到最优函数。
把训练好的模型用于测试集上进行模型评估（Model Evaluation)。
在整个数据集上训练最终模型，得到一个在未见数据集或未来数据集上能够更好地泛化的模型。

（四）Hold-out Method（留出法）

注： Hold-out Method是将整个数据集仅分出一部分作为训练集训练模型，另外的部分作为验证集和测试集，当在模型评估时我们用训练集训练,测试集来评估；而当用留出法做模型选择时，我们用训练集训练，验证集来调整参数（超参数）或者选择算法模型。（下面是有关Hold-out Method在模型评估（Model Evaluation）和模型选择（Model Selection）中的详细用法）

1.Hold-out Method for Model Evaluation（Hold-out Method用于模型评估）

留出法(Hold-out Method)：直接将数据集D划分成两个互斥的集合，其中一个为训练集S，另一个作为测试集T，这称为“留出法”。
需注意的是，训练/测试集的划分要尽可能保持数据分布的一致性，避免因数据划分过程引入额外的偏差而对最终结果产生影响，若S，T中样本类别比例差别很大，则误差估计将由于训练/测试数据分布的差异产生偏差。
分层采样(stratified sampling)：在对数据集进行划分的时候，保留类别比例的采样方式称为“分层采样”。若对数据集D（包含500个正例，500个反例）则分层采样的到的训练集S（70%）应为350个正例，350个反例，测试集(30%)应为150个正例，150个反例。
一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。
划分比例：若训练集S包含大多数样本则模型可能更接近于用整个数据集D训练出的样本，而因为测试集T太小，评估结果会不稳定不准确。反之，若测试集T很大，则训练集S训练出来的模型丧失了真实性。常见的做法是将大约2/3 ~ 4/5的样本用于训练，剩余样本呢用于测试。

用Hold-out Method在模型评估时的步骤：
将数据集分为训练集和测试集两部分（一般的比例时70-30%）
在训练集上训练模型，在训练之前要选择固定的一些模型超参数设置。
把训练好的模型在测试集上评估（测试）
在整个数据集上训练最终模型，得到一个在未见数据集或未来数据集上能够更好地泛化的模型。

注：此过程用于基于将数据集分割为训练数据集和测试数据集并使用固定的超参数集的模型评估。下面阐述的就是确定模型的超参数。

2.Hold-out method for Model Selection（Hold-out Method用于模型选择）

Hold-out Method也可用于模型选择或超参数调谐。事实上，有时模型选择过程被称为超参数调优。在模型选择的hold-out方法中，将数据集分为训练集(training set)、验证集(validation set)和测试集(testing set)。如下图：

用Hold-out Method在模型选择时的步骤：
把数据集分成训练集、验证集和测试集。
训练不同的模型用不同的机器学习算法（如logistic regression, random forest, XGBoost）。
对于用不同算法训练的模型，调整超参数，得到不同的模型。对于步骤2中提到的每个算法，改变超参数设置，并配备多个模型。
在验证集上测试每个模型(属于每个算法)的性能。
从验证数据集中测试的模型中选择最优的模型。对于特定的算法，最优模型将具有最优的超参数设置。
在测试数据集中测试最优模型的性能。

用Hold-out Method的整个训练的过程如下图：

（五）Cross-Validation（交叉验证）/ k-fold Cross-Validation（K折交叉验证） & Nested Cross-Validation（嵌套交叉验证）

1.k-fold Cross—Validation for Model Evaluation（k-fold Cross-Validation用于模型评估)

交叉验证法(cross validation)/k折交叉验证(k-fold cross validation)：将数据集D划分成k个大小相似的互斥子集，每个子集Di都尽量保持数据分布的一致性，即从D中通过分层采样得到，然后每次用k - 1个子集的并集作为训练集，余下的那个自己作为测试集，这样可以获得k组训练/测试集，从而进行k次训练测试，最终结果为k次训练测试的均值，这称为“k交叉折验证法”
与留出法相似，将数据集划分为k个子集有多种划分方式，为了减小样本划分不同而引入的差别，k折交叉验证通常要随机使用不同的划分重复p次，最终的结果是这p次k折交叉验证结果的均值。例如有10折10折交叉验证。

2.k-fold Cross-Validation for Model Selection（k-fold Cross-Validation用于模型选择）

和在Hold-out Method中讲述的一样，对于一个模型我们在训练的时候需要参数调优，那么k-fold Cross-Validation 也是一种很好的参数调优方法，在上述k-fold Cross-Validation用于模型评估的基础上，进一步对训练集进行划分成k（此处的k未必要等于模型评估时的k）个大小相似的互斥子集，每次用k - 1个子集用于训练，一个作为验证集，这样得到k组训练/验证集，从而进行k次训练验证，根据结果模型选择和进行超参数调整。

3.Nested Cross Validation（嵌套交叉验证）

根据上述的k-fold Cross-Validation在模型评估和模型选择的用法，可以在学习中嵌套使用两者。如下图所示：

上述图片中训练模型采用内环使用2-fold cross-validation（2折交叉验证）选取最优模型和超参数后，外环使用5-fold cross-validation（5折交叉验证）的方法得到近似的泛化误差来评估模型的性能。我们把这称为nested 5×2 cross-validation（嵌套5 * 2交叉验证）。

注：文章hold-out Method以及k-fold Cross-Validation参考于以下文章： （以下链接内容为英文但是讲述的很到位，建议阅读）
Hold-out Method for Training Machine Learning Models
K-Fold Cross Validation – Python Example
Python – Nested Cross Validation for Algorithm Selection

（六）Bootstrap sampling（自助采样法）

Bootstrap sampling（自助抽样法）在数据集较小，难以划分训练/测试集时很有用；此外自助法能从数据集中产生多个不同的训练集，这对集成学习等方法有很大好处。但是。自助抽样法产生的数据集改变了初始数据集的分布，这会引入估计偏差。

Booststrap Sampling（自助抽样法）：给定包含m个样本的数据集，每次随机从D中挑选一个样本，将其拷贝放入D’，然后再将该样本放回初始数据集D中，使得该样本在下次采样时仍有可能被采到。重复执行m次，就可以得到了包含m个样本的数据集。可以得知在m次采样中，样本始终不被采到的概率为(1 - 1 / m) ^ m;

通过自助采样，初始数据约有36.8%的样本未出现在采样数据集D'中，于是我们可以把数据集D'用作训练集，D \ D'(注：\是集合运算，即属于D且不属于D',D - D')用作测试集。
这样，实际评估的模型与期望评估的模型都是使用m个训练样本，而我们仍有约1 / 3的、没在训练集中出现的样本用于测试。这样的测试结果称为“包外估计”(out-of-bag estimate)

（七）性能度量(performance measure)

1.回归问题

回归问题最常用的性能度量是“均方误差”(mean squared error)。
给定D = {(x1, y1), (x2, y2),……,(xm, ym)}，其中yi是示例xi的真实标记；要评估学习器f的性能，要把学习器预测结果和f(x)与真实标记y比较：

$\frac{1}{m}\sum_{n=1}^{m}{(f(x_i) - y_i)^2}$

更一般的，对于数据分布D概率密度函数P(·),均方误差可描述为：

$\int_{x-D}^{}{(f(x) - y)^2p(x)}dx$

2.分类问题

错误率：分类错误的样本数占样本总数的比例。对于样例集D，错误率定义为：

精度：分类正确的样本数占样本总数的比例。

3.true positive（真正例）& false positive（假正例）& true negative （真反例）& false negative（假反例）

True Positive (TP)： True positive represents the value of correct predictions of positives out of actual positive cases.
False Positive (FP)： False positive represents the value of incorrect positive predictions.
True Negative (TN)： True negative represents the value of correct predictions of negatives out of actual negative cases.
False Negative (FN)： False negative represents the value of incorrect negative predictions.
confusion matrix（混淆举证）分类结果的混淆举证如下图：

4.Precision Score（查准率/准确率）& Recall Score（查全率/召回率）& F1-score

Precision(P): Model precision score represents the model’s ability to correctly predict the positives out of all the positive prediction it made. Precision score is a useful measure of success of prediction when the classes are very imbalanced. Mathematically, it represents the ratio of true positive to the sum of true positive and false positive.
查准率：在模型预测为positive(正)的样本中其中的正样本（真实的正样本）所占的比例。用书上的例子更容易理解：挑出来的瓜中好瓜所占的比例。
在类别的数量不均衡的情况下，查准率是评估模型性能的一个很有用的标准。

$\frac{TP}{(TP + FP)}$

Recall: Model recall score represents the model’s ability to correctly predict the positives out of actual positives. This is unlike precision which measures as to how many predictions made by models are actually positive out of all positive predictions made. Recall score is a useful measure of success of prediction when the classes are very imbalanced.
查全率：在所有正样本中被模型预测为正的样本数所占的比例。用书上的例子即：所有好瓜中被挑出来的瓜所占的比例。
同查准率一样，查全率在类别的数量不均衡的情况下，也是评估模型性能的一个很有用的标准。

$\frac{TP}{(TP + FN)}$

注：上述的例子都是二分类问题，所以只有正例和反例之分，理所当然的就只有唯一的P和R。而在多分类问题中，并没有所谓的正例和反例，precision和recall也不是只有一个，而是每一个类别都对应这一个precision（P）和recall（R）。而至于要得到多分类问题的整体的P和R，可以用后面所讲的macro和micro方法。

P-R曲线：在很多情况下，我们可以根据学习器预测的结果对样例进行排序，排在前面的是学习器认为“最可能”是正例的样本，排在最后面的则是学习器认为“最不可能”的样本。按此顺序逐个把样本作为正例进行预测，则每次可以计算出当前的precision（P）和recall（R），并以precision(P)作为纵轴，recall(R)作为横轴作图，就得到P—R曲线。

结合下面得动图更容易理解上面这段话：

图片来自网络中的一篇文章，查看原文更容易理解：

Interpreting ROC Curves, Precision-Recall Curves, and AUCs

下图为logistics模型在不同阈值上得P(precision)和R(recall)得计算：

图片来源于网络，可点击链接查看原文：

Classification: Precision and Recall

如何根据P-R曲线评估模型的性能：
很显然如果在P-R曲线图中，一个曲线完全“包住”另一个曲线，则可以断言前者的性能优于后者。如上图，很容易判断A > C, B > C.但是对于A和B而言我们并不好做出这样的断言。
如果在P-R曲线中，两个曲线出现了交叉，如A曲线和B曲线，我们要衡量出A和B的性能，有一种办法就是用Break-Even Point（BEP）来衡量，它考察的是Precision和Recall相等时的值，基于这一点可以看出A > B。
F1-score：上述的BEP过于简化，更常用的是F1-score：

如何根据P-R曲线评估模型的性能：
很显然如果在P-R曲线图中，一个曲线完全“包住”另一个曲线，则可以断言前者的性能优于后者。如上图，很容易判断A > C, B > C.但是对于A和B而言我们并不好做出这样的断言。
如果在P-R曲线中，两个曲线出现了交叉，如A曲线和B曲线，我们要衡量出A和B的性能，有一种办法就是用Break-Even Point（BEP）来衡量，它考察的是Precision和Recall相等时的值，基于这一点可以看出A > B。
F1-score：上述的BEP过于简化，更常用的是F1-score：

$\frac{2\times P \times R}{P + R} = \frac{2 \times TP}{样例总数 + TP - TN} = \frac{2 \times TP}{2 \times TP + FP + FN}$

F1-score是precision（P）和recall（R)的二数调和平均数：
$\frac{2}{\frac{1}{P} + \frac{1}{R}}$

Fβ-score：在一些应用中，对precision-score和recall-score的重视程度有所不同，这时F1-score的一般形式——Fβ能表达出对precision-Score/recall-score的不同偏好，Fβ定义为：

$\frac{(1 + β^2)\times P \times R}{(β^2 \times P) + R} (β > 0)$

β > 1时recall（R）有更大影响。

β < 1时precision（P）有大影响。

macro- 和 micro- 上述提到的precision和recall和F1等有关的例子都是单个二分类问题，但是很多时候我们hi多次训练/测试，或者是在多个数据集上训练/测试，这时候，我们会得到多个混淆矩阵，多个P和R和F1。我们这里开始考虑多分类问题，多分类问题的precision和recall和F1该如何计算。如下图的例子为多分类问题的(confusion martix)混淆矩阵：

多分类问题的TP，TN，FP，FN，precision，recall，F1-score
如上图的例子，为三分类问题，有Apple、Orange、Mango这三种，此时二分类中的正例和反例，但是，我们可以针对每一类分出“正例”和“反例”，针对Apple，Apple为正例，而Orange和Mango为反例，然后分别计算每一类的数据。
对于Apple的TP、TN、FP、FN：
- TP = 7
- TN = (2+3+2+1) = 8
- FP = (8+9) = 17
- FN = (1+3) = 4
对于Applede的Precision、Recall、F1-score
- Precision = 7/(7+17) = 0.29
- Recall = 7/(7+4) = 0.64
- F1-score = 0.40

多分类问题可以按照上面同样的方法计算每一类的相应数据，可以得到下图所示的表格

按照上面所说，多个confusion matrix（混淆矩阵）和多分类问题的confusion matrix会得出多个precision、recall、F1，那我们如何综合考察precision和recall呢？

macro：一种直接的办法是在个confusion matrix上分别计算出precision和recall，记为(P1, R1),(P2, R2)……(Pn, Rn)，然后再计算平均值，这样得到“macro-P（宏查准率）、macro-R（宏查全率）、macro-F1（宏F1）。

$\frac{1}{n}\sum_{i=1}^{n}{P_i}$

$\frac{1}{n}\sum_{i=1}^{n}{R_i}$

$\frac{1}{n}\sum_{i=1}^{n}{F1_i} = \frac{2 \times macro-P \times macro-R}{macro-P + macro-R}$

micro：还可以将各confusion martix的对应元素进行平均，得到TP、FP、TN、FN的平均值，再基于这些平均值计算出micro-P（微查准率）、micro-R（微查全率）、micro-F1（微F）。

$\frac{\overline{TP}}{\overline{TP} + \overline{FP}}$

$\frac{\overline{TP}}{\overline{TP} + \overline{FN}}$

$\frac{2 \times\overline{TP}}{2\times\overline{TP} + \overline{FP}+ \overline{FN}} = \frac{2\times micro-P \times micro-R}{micro-P + micro-R}$

(八）ROC与AUC

很多学习器是为测试样本产生一个实值或者是概率预测，然后将这个预测值和一个分类阈值(threshold)进行比较。若大于阈值，则为正类；反之为负类。根据这个学习器计算出来得预测值，我们可以将测试样本进行排序，“最可能”是正例的放在最前面，“最不可能”是正例的排在最后面，这样分类过程就相当于在这个排序中的某个”截断点”(cut point)将样本呢分为两类，前一部分为正例，后一部分为反例。

前面有precision和recall，可以根据对precision和recall的重视程度来选择截断点(cut point);但是排序本身的好坏，体现了综合考虑学习器早不同任务下的“期望泛化性能”的好坏，或者说，一般情况下泛化性能的好坏。ROC曲线则是从这个角度出发研究学习器泛化性能的有力工具。

1.TPR(True Positive Rate)真正例率和FPR(False Positive rate)假正例率

$\frac{TP}{TP + FN} = \frac{TP}{P}$

$\frac{FP}{TN + FP} = \frac{FP}{N} = 1 - \frac{TN}{N}$

由上述公式可以看出TPR == R（recall），有关P,R,TPR，FPR的公式可以见下图：

理解TPR和FPR：
TPR：TPR越大意味着TP越大，也就意味着对于测试样本中的所有正例来说，其中大部分都被学习器预测正确。
FPR：FPR越小意味着FP越小、TN越大，也就意味着FPR越小，则对于测试样例中的所有反例来说，其中大部分被学习器预测正确。
由上面可以看出，一个好的模型是TPR大PFR偏小的。

2.ROC曲线

ROC曲线: 与前面的P-R曲线相似，我们根据学习器的预测结果对样例进行排序，按此顺序逐个把样本作为正例进行预测，每次计算出TPR和FPR，分别以它们为横、纵坐标作图，就得到了 “ROC曲线”.与P - R曲线使用查准率、查全率为纵、横轴不同， R O C曲线的纵轴是“真正例率” (True Positive Rate,简称 TPR),横轴是“假正例率”一(False PositiveRate,简称FPR)
如何绘制ROC曲线：给定m+个正例和m-个反例，根据学习器的预测结果进行排序，然后把分类阈值设为最大，即把所有样例均预测为反例，此时TPR和FPR均为0，然后把阈值依次设为每个样例的预测值，即依次将每个样例划为正例。绘制过程大致可看下面的gif动图：

理解ROC曲线，不同的ROC曲线意味着什么
不同的模型与不同的ROC曲线：很显然不同的算法模型对应不同的ROC曲线，超参数不同的模型也对应不同的ROC曲线。

如上图所示，根据上面所说的一个结论，TPR越大，FPR越小则模型的性能就越好，图中的红色的虚线是盲猜时的POC曲线，也是一个基准，在红色上方的ROC曲线对应的模型时可取的，而红色下方的ROC曲线对应的模型时无效的。因为是盲猜，所以得到的模型的样本排序是随机的，也就意味着正反例的分布是按比例的随机分布的，所以在阈值改变的过程中，TPR和FPR是一直相等的。
ROC曲线上的点是一个模型上取不同阈值产生的不同的结果。
理想的决策阈值： 理想的决策阈值是TPR越接近1，FPR越接近0。即越接近上图中蓝色的点。

3.AUC(Area Under ROC Curve)

AUC： AUC即ROC曲线下方的面积。
与前面的P-R曲线一样，当两个P-R曲线相交时，我们需要选择一种方法来判断出两个曲线对应的模型性能孰优孰劣，AUC就是一个比较的指标。
注：
AUC的值只是衡量各个模型的排名，其绝对值大小没有意义。
AUC衡量的是在不管取什么阈值的情况下，模型的性能。

针对多分类的ROC和AUC，在多分类问题中，我们可以绘制N个ROC和AUC曲线图对应N个类别，基于One vs ALL的方法。例如，如果你有三个名为X, Y和Z的类，你将有一个ROC用于X，针对Y和Z进行分类，另一个ROC用于Y，针对X和Z进行分类，第三个ROC用于Z，针对Y和X进行分类。

以上文章的部分内容图片等内容参考与以下文章：
Classification: ROC Curve and AUC
https://vitalflux.com/roc-curve-auc-python-false-positive-true-positive-rate/
Interpreting ROC Curves, Precision-Recall Curves, and AUCs

QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
509. 斐波那契数(每日一题) lzyprime
lzyprime博客(github)创建时间：2021.01.04qq及邮箱：2383518170leetcode笔记题目描述斐波那契数，通常用F(n)表示，形成的序列称为斐波那契数列。该数列由0和1开始，后面的每一项数字都是前面两项数字的和。也就是：F(0)=0，F(1)=1F(n)=F(n-1)+F(n-2)，其中n>1给你n，请计算F(n)。示例1：输入：2输出：1解释：F(2)=F(1)+
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
运城寻访重逢石头纪实【严建设老照片395 集】我简直能把你想透，当我走进运城的时候。我已急得热汗直流，访问了十九个老头，把晋南的小城转了三周。虽然是悠久的思旧，我仍然是牛样的执... 严建设
运城寻访重逢石头纪实【严建设老照片395集】我简直能把你想透，当我走进运城的时候。我已急得热汗直流，访问了十九个老头，把晋南的小城转了三周。虽然是悠久的思旧，我仍然是牛样的执拗。说什么变换的世情，泛起了过去的逝流，你就是真正的故友。踏破铁鞋的淡愁，已化为不废功夫的范畴，是就像远在天涯近在咫尺，就像是梦乡的邂逅，我紧紧地攥着你的手。你已长成了高高的个头，俊逸的容颜却很清瘦，你那样顽皮的童音，已变到老
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
ARM中断处理过程落汤老狗嵌入式linux
一、前言本文主要以ARM体系结构下的中断处理为例，讲述整个中断处理过程中的硬件行为和软件动作。具体整个处理过程分成三个步骤来描述：1、第二章描述了中断处理的准备过程2、第三章描述了当发生中的时候，ARM硬件的行为3、第四章描述了ARM的中断进入过程4、第五章描述了ARM的中断退出过程本文涉及的代码来自3.14内核。另外，本文注意描述ARM指令集的内容，有些sourcecode为了简短一些，删除了T
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
第六集如何安装CentOS7.0，3分钟学会centos7安装教程 date分享
从光盘引导系统按回车键继续进入引导程序安装界面，选择语言这里选择简体中文版点击继续选择桌面安装下面给系统分区选择磁盘，点击完成选择基本分区，点击加号swap分区,大小填内存的两倍在选择根分区，使用所有可用的磁盘空间选择文件系统ext4点击完成，点击开始安装设置root密码，点击完成设置普通用户和密码，点击完成整个过程持续八分钟左右根据个人配置不同，时间长短不同好，现在点击重启系统进入重启状态点击本
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
【Git】常见命令(仅笔记) 好想有猫猫 Git Linux学习笔记 git 笔记 elasticsearch linux c++
文章目录创建/初始化本地仓库添加本地仓库配置项提交文件查看仓库状态回退仓库查看日志分支删除文件暂存工作区代码远程仓库使用`.gitigore`文件让git不追踪一些文件标签创建/初始化本地仓库gitinit添加本地仓库配置项gitconfig-l#以列表形式显示配置项gitconfiguser.name"ljh"#配置user.namegitconfiguser.email"[email protected]
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><

读西瓜书笔记（二）模型评估与选择

读西瓜书笔记（二）模型评估与选择

（一）误差与过拟合

1.经验误差(empirical error)/训练误差(training error)与泛化误差(generalization error)

2.过拟合(overfitting)与欠拟合(underfitting)

（二）模型评估(Model Evaluation)

1.测试集(testing set)

（三）模型选择(Model Selection)

1.验证集(validation set)

机器学习大致过程

（四）Hold-out Method（留出法）

1.Hold-out Method for Model Evaluation（Hold-out Method用于模型评估）

2.Hold-out method for Model Selection（Hold-out Method用于模型选择）

（五）Cross-Validation（交叉验证）/ k-fold Cross-Validation（K折交叉验证） & Nested Cross-Validation（嵌套交叉验证）

1.k-fold Cross—Validation for Model Evaluation（k-fold Cross-Validation用于模型评估)

2.k-fold Cross-Validation for Model Selection（k-fold Cross-Validation用于模型选择）

3.Nested Cross Validation（嵌套交叉验证）

（六）Bootstrap sampling（自助采样法）

（七）性能度量(performance measure)

1.回归问题

2.分类问题

3.true positive（真正例）& false positive（假正例）& true negative （真反例）& false negative（假反例）

4.Precision Score（查准率/准确率）& Recall Score（查全率/召回率）& F1-score

(八）ROC与AUC

1.TPR(True Positive Rate)真正例率和FPR(False Positive rate)假正例率

2.ROC曲线

3.AUC(Area Under ROC Curve)

你可能感兴趣的:(机器学习,笔记,机器学习,recall,ROC,过拟合,验证集)