fate252

关于分类模型评估指标的理解

准确度、精确率、召回率、F1值作为评估指标，经常用到评估模型的分类效率。准确度评估预测正确的比例，精确率评估预测正例的查准率，召回率评估真实正例的查全率，二分类问题比较好理解，面对多分类问题拆分成多个二分类问题，分别计算各个类别的每个类别的精确率和召回率，最终求均值既能作为所有样本的评估指标

一、基本概念

这里引入混淆矩阵并介绍Posion和Negative的概念，模型的优劣是借助目标样本作为评估载体来衡量的，目标样本定义为阳性（或称为Position、正），与之相对的则定义为隐性（或称为Negative、负）。而在预测过程中，则会出现以下四种情况，从而构建出基于预测值-实际值的混淆矩阵：

TP（True Positives)：真阳性，又称为真正例，预测为阳性而且实际上也是阳性

TN（True Negatives)：真阴性，又称为真负例，预测为阴性而且实际上也是阴性

FP（False Positives)：假阳性，又称为假正例，预测为阳性然而实际上却是阴性，属于误报 (在统计学假设检验中，假阳性也称为I型错误 Type I error)

FN（false Negatives)：假阴性，又称为假负例，预测为阴性然而实际上却是阳性，属于漏报 (在统计学假设检验中，假阴性也称为II型错误 Type II error)

阴性或阳性代表的是模型对样本的预测值，真假是与实际值比较是否一致的结论，一致为真相反为假。真阳性，代表模型预测值为阳性，与实际值一致，因此，遇到混淆矩阵的四种情况时，先考虑阴性阳性是预测结果值，再根据真假推断实际值，并统计出对应情况的样本数

用二分类的问题类举例，有10个不同编号的黑白小球，分别有3个黑球和7个白球：

模型预测同样编号小球的结果为黑球4个，白球6个。为了醒目将预测正确的结果用红色标出：

准确率 Accuracy

准确率：所有预测样本中预测正确所占的比例，主要关注的是对整体预测结果的正确性，即包含阴性的正确性TN也包含阳性的正确性TP，用公式表示：

以黑球为阳性P，则预测黑球正确的样本数TP=2，预测白球正确的样本数TN=5，预测黑球错误的样本数FP=2，预测白球错误的样本数FN=1，
预测结果中红色代表全部预测正确T的共7个样本数（黑色2个TP和白色5个TN），预测结果总共有10个样本(TP+TN+FP+FN)，则 ACC = (2+5)/10 = 0.7

注意，若以白球为阳性P，则全部预测正确T的同样也是7个样本数，预测结果同样共有10个样本，此时同样 ACC = 0.7，由此可见，准确率代表的是模型预测正确的能力，无论以何种标签值作为阳性P都是同样的结果

数据样本不平衡

分析数据会遇到一个样本数据不平衡的情况，如数据量呈现8比2的比例，这种情况下在做机器学习就需要考虑如何合理的训练与分配数据，值得一提的是，样本不平衡的情况并不罕见

一、样本不平衡会带来什么问题

假设有10个人的数据集中有8个好人和2个坏人，如果存在一个机器学习模型，对每一个样本“人”进行判断时都贴上“好人”的标签，那么模型的预测结果将会全是“好人”

在8个好人和2个坏人的10人数据集中，经过某机器学习模型运算，8个好人被预测为好人，2个坏人也被预测为好人，则以好人作为目标样本，假设好人为阳性，并根据混淆矩阵的定义，TP=8（将阳性好人正确预测为阳性好人），TN=0，FP=2（将阴性坏人错误预测为阳性好人），FN=0

则该模型的预测准确率为：
Accuracy = (8+0)/(8+0+2+0) = 0.8

同样也可以借助坏人作为目标样本，假设坏人为阳性，则TP=0，TN=8（将阴性好人正确预测为阴性好人），FP=0（将阴性好人错误预测为阳性坏人），FN=2（将阳性坏人错误预测为阴性好人），依然可以得到模型的的预测准确率为Accuracy = (0+8)/(0+8+0+2) = 0.8

由此可见，目标样本只是用来作为计算准确率的辅助载体，无论目标样本使用哪种样本作为阳性，准确率公式分母指代的所有样本TP+TN+FP+FN数目始终是相同的，而分子指代的正确预测阳性和正确预测阴性(TP+TN)的样本数目也始终是相同的，所以都不会影响代表模型预测数据集的准确率

注意，这是一个不能分辨好坏人的模型，却依然可以有高达80%的准确率，如果轻信这样一个模型的数据集预测结果是不明智的，究其原因在于这是一个极端不平衡的数据集，很明显采用准确率对不平衡数据集进行评估方法是有不那么管用的

二、准确率作为样本不平衡数据集的模型评估指标失效的原因

准确率是非常直观的评估指标，在二分类任务中，因为结果总共只有好人(Positive)或者坏人(Negative)，根据准确率公式，准确率体现的就是模型正确预测的能力，即所有正确预测（包含正确预测好人的和正确预测坏人的）的样本除以所有的样本。

准确率 = 正确预测阳性的能力(TP)+ 正确预测阴性的能力(TN)。

只预测好人的模型虽然不能够识别坏人，但是准确率是正确预测好人和正确预测坏人的总和，单方面的正确预测好人能力占总和的比重足够高也对准确率有决定性影响，如果数据集中好人坏人各占50%，那么预测全为好人（TP=50%，TN=0%）则表示模型正确预测能力就是50%，而只要数据集中好人多于坏人，那么就可以保证预测能力大于50%，如果全是好人，那么准确率就能到达100%。准确率就是这么被误导的。在数据不平衡的情况下，预测阳性能力的占比可能远大于一半，从而掩盖了预测阴性能力弱的事实。

这就是为什么在数据不平衡的情况下，准确率无法体现模型的真实水平。直接在数据不平衡下用准确率作为指标，将准确率高达90%的模型作为评估结果，这样的准确率和模型在实际预测中是毫无意义的。

三、从图形上解释混淆矩阵和准确率

在分类的逻辑回归预测函数评估中，预测结果是是一个连续性概率值，假设真值函数和预测函数的概率分布为正态分布，可将正态分布的凸起部分作为阳性的概率分布，平伏部分作为阴性的概率分布，由于预测函数不可能完全拟合真值函数，因此这两者的正态分布明显不会完全相同。

可转化为概率分布的散点图，图中黑色圆圈代表真值函数，红色圆圈代表预测函数，小圆球代表阳性，小圆环代表阴性。

由此可以很清楚地看出TN、FN、TP、FP所代表的含义以及相互间关系。而在实际的预测中，可能会没有FN或FP的情况，这取决于预测函数拟合真值函数时两者之间的位置包含关系。

四、样本不平衡数据集的模型评估指标

精确率 Precision

精确率：又称“查准率”，是以预测结果为判断依据，判断预测为阳性的样本中预测正确所占比例。关注的是阳性预测结果的正确性，决定该正确性的关键是假阳性FP，由于分母是限定范围的依据标准，即是以预测的阳性结果为衡量基准，用以衡量其中预测正确的比例，所以精确率就是阳性预测结果的准确度，而阳性预测结果分两种，要么实际是阳性的TP，要么实际是阴性的FP，用公式表示：

以黑球为阳性P，预测结果中为阳性的共有4个样本（黑色4个P），其中预测正确的有2个样本（TP），则 precision = 2/4 = 0.5

注意，若以白球为阳性P，则预测结果中为阳性的共有6个样本（白色6个P），其中预测正确的有5个样本（TP），则 precision = 5/6 = 0.83，与准确率的预测结果正确性不同，精确率是以阳性预测结果的正确性，也即阳性预测结果的准确度，是需要先确定阳性样本对象条件的

召回率 Recall

召回率：又称为“查全率”，是以实际样本为判断依据，判断实际阳性的样本中被预测正确所占的比例。关注的是实际阳性样本被预测的完整性，决定完整性的关键是假阴性FN，评估所有实际阳性样本是否被全部预测出来，召回率就是实际阳性样本的预测准确度，而实际阳性样本中，要么被预测正确TP，要么被预测错误FN，用公式表示：

以黑球为阳性P，实际样本中为阳性的共有3个（黑色3个P），其中预测正确的有2个样本（TP），则 recall = 2/3 = 0.67

同样注意，若以白球为阳性P，实际样本中为阳性的共有7个（白色7个），其中预测正确的5个样本（TP），则 recall = 5/7 = 0.71 ，与查准率相似，查全率是实际阳性样本被预测的准确度，同样需要先确定阳性样本对象条件

从图形上解释精确率和召回率

举个猫狗识别分类的例子，如下图所示，圆形区域代表识别结果，画布中线代表现实分类，小圆球代表狗的图片，小圆环代表猫的图片。现在利用模型去识别狗（阳性）的图片，结果在识别出的8张图片中有5张是狗的图片（TP），3张是猫的图片（FP误报），得到则该模型的精确率precision＝5/8，召回率recall＝5/12。

单独用精确率或者召回率是否能很好的评估模型好坏

1、什么情况下精确率很高但是召回率很低？

精确率高代表预测阳性结果中的TP命中数高，召回率低代表实际样本被预测的TP命中数低，那么，两者同时满足对相同的命中数TP而言阳性的预测结果样本会低于阳性的实际样本，即预测模型只预测正确了较少的实际阳性样本就可能造成这种情况，比如黑球为阳性实际样本有3个，分别是1、2、3号球，如果只预测出1号球是黑色，此时本该阳性的样本都被漏报了，精确率p=1，但是召回率r=1/3

2、什么情况下召回率很高但是精确率很低？

同样，精确率低代表预测阳性结果中的TP命中数低，召回率高代表实际样本被预测的TP命中数高，同时满足则阳性预测结果样本高于阳性的实际样本，即预测模型预测出了比实际阳性样本更多的样本就可能造成这种情况，比如黑球为阳性实际样本只有3个，分别是1、2、3号球，如果10个球都被预测为黑球，此时本该阴性的样本都被虚报了，召回率r=1，精确率p=3/10

对于不平衡的数据集，在现实中，往往都在追求捕捉占少数的样本，如判断潜在犯罪者和普通人的例子，潜在犯罪者相比普通人毕竟是极少数，一方面单纯地追求捕捉全少数样本而波及普通人，就会令甄别成本上升，另一方面过于放开对少数样本的捕捉力度导致漏掉潜在犯罪者，又会无法达成模型的目标。所以在现实中，往往在寻找捕全少数样本的能力（查全率）和将多数样本错判后需要付出的成本（查准率）之间的平衡。由此可见，准确率和召回率是互相影响的，理想情况下肯定是做到两者都高，但一般情况下召回率和精确率是此消彼长的，两者之间的平衡代表了尽可能捕全少数样本的需求和尽量不要误伤多数样本的需求的博弈。究竟要偏向于哪一方，取决于对业务的需求：究竟是误伤多数类的成本更高，还是无法捕捉少数类的代价更高，如果是做搜索，那就是保证召回率的情况下提升准确率；如果做疾病监测、反垃圾，则是保证准确率的条件下提升召回率。

F1值

为了同时兼顾精确率和召回率，创造了两者的调和平均数作为考量两者平衡的综合性指标，称之为F-measure。F-Measure是Precision和Recall加权调和平均数

当参数α=1时，就是最常见的F1，即Precision和Recall的调和平均数，两个数之间的调和平均倾向于靠近两个数中比较小的那一个数，因此追求尽量高的F1，能够保证精确率和召回率都比较高。F1在[0,1]之间分布，越接近1越好，因为F1综合了P和R的结果，当F1较高时则能说明试验方法比较有效

当在样本不平衡数据集中，如实际有10个黑球0个白球，以黑球为阳性进行模型预测也全被正确预测为阳性，此时P和R同时为1，F1=1。当有一个很大，另一个很小的时候，比如P=1，R～0，此时F1~0。分子2PR的2完全是为了使F1的最终取值在0-1之间，进行区间放大，无实际意义

sklearn 的评估函数

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
 
y_true = [1, 1, 1, 0, 0, 0, 0, 0, 0, 0]
y_pred = [1, 1, 0, 1, 1, 0, 0, 0, 0, 0]
print("acc:", accuracy_score(y_true, y_pred))
print("p:", precision_score(y_true, y_pred))
print("r:", recall_score(y_true, y_pred))
print("f1:", f1_score(y_true, y_pred))

输出结果为

acc: 0.7
p: 0.5
r: 0.6666666666666666
f1: 0.5714285714285715

pyspark 的评估函数

from pyspark.mllib.evaluation import MulticlassMetrics
from pyspark import SparkConf, SparkContext
 
conf = SparkConf() \
    .setMaster("local") \
    .setAppName("Metrics-test")
sc = SparkContext(conf=conf)
 
predictionAndLabels = sc.parallelize([  #(预测值，真实值)
    (1.0, 1.0),
    (1.0, 1.0),
    (0.0, 1.0),
    (1.0, 0.0),
    (1.0, 0.0),
    (0.0, 0.0),
    (0.0, 0.0),
    (0.0, 0.0),
    (0.0, 0.0),
    (0.0, 0.0)])
 
metrics = MulticlassMetrics(predictionAndLabels)
 
print("acc:", metrics.accuracy)
print("p:", metrics.precision(1.0)) # 必须传入label值，否则统计的是类别0和类别1的均值
print("r:", metrics.recall(1.0))
print("f1", metrics.fMeasure(1.0))

tensorflow 的评估函数

import tensorflow as tf
train_graph = tf.Graph()
with train_graph.as_default():
    labels = tf.constant([1, 1, 1, 0, 0, 0, 0, 0, 0, 0])
    predicts = tf.constant([1, 1, 0, 1, 1, 0, 0, 0, 0, 0])
 
    # 返回的是一个二元组tuple
    accuracy = tf.metrics.accuracy(labels, predicts)
    precision = tf.metrics.precision(labels, predicts)
    recall = tf.metrics.recall(labels, predicts)
    f1 = tf.metrics.mean((2 * precision[1] * recall[1]) / (precision[1] + recall[1]), name='f1_score')
 
with tf.Session(graph=train_graph) as sess:
    sess.run(tf.local_variables_initializer())
    result = sess.run([accuracy, precision, recall, f1])
    print(result)

输出结果为

[(0.0, 0.7), (1.0, 0.5), (1.0, 0.6666667), (0.0, 0.57142854)]

多分类下的评估

多分类问题的评估是可以转换成多个二分类的评估方式的，最后求均值就是多分类的评估指标

二分类也可以看成是特殊的多分类，比如黑球和白球的预测问题。前面都是拿预测黑球当作阳性，完全忽视了白球的预测情况，这样的评估也是不够完全的。如果也要考虑白球的预测情况，该如何修改评估指标？先算出黑球为阳性时的评估指标，精确率、召回率、F1值，然后可以把白球当作阳性，再算一次白球的精确率、召回率、F1值。最后算精确率的时候可以把黑球的准确率和白球的准确率进行求均值，就可以作为最后的评估指标

之前的例子中，黑球为阳性时，p = 2/4；同理可计算白球为阳性时，p = 5/6；如果不考虑样本分布，无加权求均值，p = (2/4+5/6)/2 。用sklearn的代码实现这个逻辑

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
 
y_true = [1, 1, 1, 0, 0, 0, 0, 0, 0, 0]
y_pred = [1, 1, 0, 1, 1, 0, 0, 0, 0, 0]
print("p:", precision_score(y_true, y_pred, average='macro'))

输出结果为：

p: 0.6666666666666667

sklearn还支持其他求均值方式，也可以设置权重值

类别更多的情况下，加入球色有黑、白、蓝三种颜色的球，真实颜色和预测颜色如下表格

对预测结果统计成混淆矩阵

计算准确率：
(2+3+1)/(2+1+1+1+3+1+0+0+1) = 0.6

按颜色计算精确率：
黑色为阳性时的P = 2/(2+1+1) = 0.5
白色为阳性时的P = 3/(3+1+1) = 0.6
蓝色为阳性时的P = 1/(1+0+0) = 1
求得均值为 (0.5+0.6+1)/3 = 0.7

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
 
y_true = [1, 1, 1, 0, 2, 0, 2, 2, 0, 0]
y_pred = [1, 1, 0, 1, 1, 0, 2, 0, 0, 0]
print("acc:", accuracy_score(y_true, y_pred))
print("p:", precision_score(y_true, y_pred, average='macro'))

输出结果为：

acc: 0.6
p: 0.7000000000000001

同理，对召回率、F1值同样计算

准确率分解

再回到准确率，把准确率细化为两个指标，分别是：指标1. 正确预测好人的能力；指标2. 正确预测坏人的能力

其实，正确预测好人的能力实际上就是敏感度，而正确预测坏人的能力就是特异度，都是机器学习上非常常用的度量指标

敏感度 sensitivity
样本实际值为好人，而模型预测为好人的正确率。公式： Sensitivity = True positives / (True positives + False negatives) = TP/(TP+FN)，也就是对于阳性的查全率/召回率

特异度 specificity
样本实际值为坏人，而模型预测为坏人的正确率。公式：Specificity = True negatives / (True negatives + False positives) = TN/(TN+FP)，也就是对于阴性的查全率/召回率

特异度是与敏感度/查全率/召回率同样针对实际样本为判断依据

如果敏感度高，特异度低，模型只会看好人，不会看坏人，即模型判定阳性的可能性远高于阴性
如果敏感度低，特异度高，模型只会看坏人，不会看好人，即模型识别阴性能力比识别阳性更强
只有敏感度和特异度都比较高，模型既可以分辨好人，也可以分辨坏人，才是一个有用的模型

还是以10个人中8个好人和2个坏人的不平衡数据集被全部识别为好人为例，以好人为阳性应用敏感度和特异度，得到 sensitivity = TP/(TP+FN) = 8/(8+0) =1，specifictiy = TN/(TN+FP) = 0/(0+2) = 0，虽然敏感度特别高，但是特异度为0，说明这个模型不具备识别坏人的能力，从评估指标上验证了这个模型是没有用的

五、模型评估指标的作用

在数据科学中，查看精确率和召回率来评估构建的模型是很常见的。而在医学领域，通常要观察特异度和敏感度来评估医学测试。这些概念非常相似，但又有所不同。当这两个世界相遇时，即当一个医学测试是一个机器学习模型时，这种差异可能会在医学界和从事数据科学研究的人员之间造成许多误解

再从医学应用角度重温一遍定义

精确率 —— 在所有预测为阳性的样本中，有多少是真的阳性？

召回率 —— 在所有阳性样本中，有多少是预测为阳性的?

特异度 —— 在所有没有患病的人当中，有多少人得到阴性结果?

敏感度 —— 在所有患病的人中，有多少人得到阳性结果?

如果把一个阳性的样本定义为患者，可以看到召回率和敏感度是一样的，但精确率和特异性是不同的。精确率也被称为PPV（阳性预测值）

精确率、召回率、敏感度的每一个组合都是可能的吗? 都代表什么情况?

为了更好地理解，创建了 8 个不同的分类问题和分类器。每个分类器尝试将 10 个样本以最大化或最小化每个度量的方式分类到阳性和阴性篮子中

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
xilinx vivado PULLMODE 设置思路坚持每天写程序 fpga开发
1.xilinx引脚分类XilinxIO的分类：以XC7A100TFGG484为例，其引脚分类如下：1.UserIO(用户IO)：用户使用的普通IO1.1专用(Dedicated)IO：命名为IO_LXXY_#、IO_XX_#的引脚，有固定的特定用途，多为底层特定功能的直接实现，如差分对信号、关键控制信号等，不能随意变更。1.2多功能(Multi-Function)IO：命名为IO_LXXY_ZZ
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
网络通信流程记得开心一点啊服务器网络运维
目录♫IP地址♫子网掩码♫MAC地址♫相关设备♫ARP寻址♫网络通信流程♫IP地址我们已经知道IP地址由网络号+主机号组成，根据IP地址的不同可以有5钟划分网络号和主机号的方案：其中，各类地址的表示范围是：分类范围适用网络网络数量主机最大连接数A类0.0.0.0~127.255.255.255大型网络12616777214【(2^24)-2】B类128.0.0.0~191.255.255.255中
5分钟说透AppStore审核原理，让你拥有上架新思路！ Q仔本人噢
在AppStore上架是越来越难了!相信非常多公司的技术人员都为此困扰，然而外包团队水平又层次不齐，容易遇坑，实在是内忧外患。是什么原因导致审核机制频繁调整？又是什么原因使得审核变得越发严格？那么接下来听小Q分解，马上给各位带来解答!首先看一下近一年的上下架的情况：近一年上架情况近一年下架情况通过数据我们发现越是马甲包产量权重高的分类里被下架的app数量越多，苹果此举可谓是上有政策，下有对策。通过
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
进销存小程序源码 PHP网络版ERP进销存管理系统全开源可二开摸鱼小号 php
可直接源码搭建部署发布后使用：一、功能模块介绍该系统模板主要有进，销，存三个主要模板功能组成，下面将介绍各模块所对应的功能；进：需要将产品采购入库，自动生成采购明细台账同时关联财务生成付款账单；销：是指对客户的销售订单记录，汇总生成产品销售明细及回款计划；存：库存的日常盘点与统计，库存下限预警、出入库台账、库存位置等。1.进购管理采购订单：采购下单审批→由上级审批通过采购入库；采购入库：货品到货>
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
【自动化测试】UI自动化的分类、如何选择合适的自动化测试工具以及其中appium的设计理念、引擎和引擎如何工作 Lossya ui 自动化测试工具自动化测试 appium
引言UI自动化测试主要针对软件的用户界面进行测试，以确保用户界面元素的交互和功能符合预期文章目录引言一、UI自动化的分类1.1基于代码的自动化测试1.2基于录制/回放的自动化测试1.3基于框架的自动化测试1.4按测试对象分类1.5按测试层次分类1.6按测试执行方式分类1.7按测试目的分类二、如何选择合适的自动化测试工具2.1项目需求分析2.2工具特性评估2.3成本考虑2.4团队技能2.5试用和评估
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发

关于分类模型评估指标的理解

你可能感兴趣的:(统计,分类,算法)