科学边界

机器学习1：机器学习的模型评估方法

机器学习有两个非常重要的问题：

1.How well is my model doing?

如果我们已经训练好了模型，该模型效果如何，用什么方式来检为测？

2.How do we improve the model based on these metrics?

如何根据这些检测指标改善模型。

如何合理，科学，有效的评估和改善模型，是所有机器学习算法通用问题，因此单独总结以下

1.分离数据：

将数据分为训练集和测试集

注意： $\underline{永远不要让测试集进入训练环境}$ ；

# Import statements 
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
import pandas as pd
import numpy as np

# Import the train test split
# http://scikit-learn.org/0.16/modules/generated/sklearn.cross_validation.train_test_split.html

# USE from sklearn.model_selection import train_test_split to avoid seeing deprecation warning.
from sklearn.model_selection import train_test_split
#from sklearn.cross_validation import train_test_split

# Read in the data.
data = np.asarray(pd.read_csv('data.csv', header=None))
# Assign the features to the variable X, and the labels to the variable y. 
X = data[:,0:2]
y = data[:,2]

# Use train test split to split your data 
# Use a test size of 25% and a random state of 42
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
# Instantiate your decision tree model
model = DecisionTreeClassifier()

# TODO: Fit the model to the training data.
model.fit(X_train, y_train)
# TODO: Make predictions on the test data
y_pred = model.predict(X_test)

# TODO: Calculate the accuracy and assign it to the variable acc on the test data.
acc = accuracy_score(y_test, y_pred)

print(acc)

0.9583333333333334

2.混淆矩阵(evaluation matrix)

比如医疗模型，检测结果可以分为四种境况；

真阳性：就诊者患病，模型检测为阳性，认为患病需要进一步检测或治疗；

真阴性：就诊者未患病，模型检测为阴性，认为患者健康，可以直接回家；

假阳性：就诊者未患病，模型检测为阳性，认为患病需要进一步检测或治疗；
注意此情况属于误诊，进一步检测会浪费医疗资源，但是可确保病人得到医治；

假阴性：就诊者患病，模型检测为阴性，认为患者健康，可以直接回家；此情况属于误诊，并且会让患者失去治疗机会；

类型1和类型2错误

有时在一些文档中，你会看到把假阳性和假阴性称为类型1和类型2错误。这是定义：

类型1错误（第一类错误或假阳性）：在医学诊断例子中，这是我们误诊一个健康人为病人

类型2错误（第二类错误或假阴性）：在医学诊断例子中，这是我们漏诊一个病人为健康人

画成矩阵图如下：

而对于垃圾邮件分类模型：

3.分类模型评估

3.1 准确率(accuracy)

评估模型效果的第一个指标，是准确率
$\frac{\#正确分类数量}{\#总分类数量}$

比如上述医疗模型：

垃圾邮件分类模型：

用sklearn库的模型可方便计算：

from sklearn.metrics import accuracy_score

accuracy_score(y_true, y_pred)

准确率不适用的情形

假设一个检测信用卡欺诈模型，有大量真实交易数据，

有284335笔正常交易，472笔欺诈交易，现在尝试设计一个准确率超过99%的模型。

假设所有交易都是正常的，其准确率：

这个模型准确率非常高，但实际上没有检测出一例欺诈交易。而模型设计主要目标就是检测出欺诈交易。

所以，不同类别的样本比例非常不均衡时，占比大的类别往往称为影响准确率的最主要因素。

对于以上误检的两种情况，假阳性和假阴性，哪种更糟糕呢：

医疗模型：

假阳性，即将健康人误诊为病人，进一步检测或治疗，会浪费医疗资源；

假阴性，将病人误诊为健康，这让病人直接回家，错过了治疗机会；

这个模型的目标是找到所有病人，可以容忍部分将健康人误诊为病人。相比，假阴性更严重。

垃圾邮件分类模型：

假阳性，将正常邮件误检为垃圾邮件，会漏过一些重要邮件；

假阴性，即垃圾邮件误检为正常邮件，这会浪费一定资源；

这个模型的目标是，删除掉垃圾邮件，但是不能容忍误删，假阴性只会浪费点时间，但假阳性可能会错过很重要邮件。

相比，假阳性更严重。

从医疗模型和垃圾邮件分类模型，可以看到不同模型，设计目标不同，对误检的容忍也不一样。

3.2 精确率和召回率

精确率定义：

$\frac{\#真阳性}{\#所有检测阳性样本(\#真阳性+\#假阳性)}$

按以上定义，医疗模型准确率：

垃圾邮件检测模型：

召回率定义：

$\frac{\#真阳性}{\#所有实际阳性样本(\#真阳性 + \#假阴性)}$

按以上定义，医疗模型召回率：

垃圾邮件检测模型：

医疗模型，要尽量排除假阴性，需要更高的召回率，尽可能多的检测出所有病人。

垃圾邮件模型，更在意的是避免假阳性，即删除正常的邮件，需要更高的精确率。

3.3 F1得分

综合精确率和召回率，统一成一个指标来表述模型效率，精确率的和召回率的调和平均值

也叫F1 scroe

$F1_{Score}=2⋅ \frac{Precision*Recall}{Precision+Recall}$

调和平均值，总是处于Precision，Recall之间，偏向较小值，

3.4 F-Beta得分

F1分数是将精确率和召回率取相同权重，假如需求要偏向某一方，精确率或召回率，可以用F-Beta得分

$F_{\beta}=(1+\beta^2)⋅ \frac{Precision*Recall}{\beta^2*Precision+Recall}$

F-β 得分的界限

$\beta$ 越小，越偏重于精确率，反之偏向召回率， $\beta$ =1, 权重相同，也就是F1 分数。

当 $\beta$ =0
$F_0=(1+0 ^2)⋅\frac{Precision⋅Recall}{0⋅Precision+Recall} = \frac{Precision⋅Recall}{Recall}=Precision$

如果 $\beta$ 非常大，
$F_{\beta}=(1+\beta^2)⋅ \frac{Precision*Recall}{\beta^2*Precision+Recall}$

$F_{\beta}=\frac{Precision*Recall}{\frac{\beta^2}{(1+\beta^2)}*Precision+\frac{Recall}{(1+\beta^2)}}$

随着 $\beta$ 变成无穷大，可以看出 $\frac{1}{1+\beta^2}$ 变成 0，并且 $\frac{\beta^2}{1+\beta^2}$ 变成1.

取极限，
$lim_{\beta→∞}F_{\beta}= \frac{Precision⋅Recall}{1⋅Precision+0⋅Recall}=Recall$

因此，测出结论： $\beta$ 界限是0和∞之间。

如果 $\beta=0$ ,得到精确率；

如果 $\beta=∞$ ，得出召回率；

如果 $\beta=1$ ，则得出精确率和召回率的调和平均值。

3.5 ROC曲线

受试者工作特性曲线(receiver operating characteristic)，简称ROC曲线。

ROC曲线的横坐标为假阳性率(False Positive Rate, FPR);纵轴为真阳性率(True Positive Rate, TPR),FPR和TPR的计算方法为

$\frac{FP}{N}$

$\frac{TP}{P}$

上式中，P是真实正样本数量，N是真实负样本数量，TP是P个样本中分类器预测正样本数量，FP是N个负样本中，分类器预测为负样本个数。

如何绘制ROC曲线

通过不断移动分类器的"截断点"来生成曲线上的一组关键点。

所谓截断点，就是设置一个阈值，每个样本预测为阳性的概率，超过这个阈值，即判为阳性，否则为阴性。

每个截断点，求相对应的FPR和TPR，以FPR为横轴，TPR为纵轴，描出所有点，连成曲线。

如何计算AUC

AUC就是ROC曲线下的面积大小，该值可以量化的反映基于ROC曲线衡量出的模型性能。计算AUC，沿着横轴求ROC曲线积分即可。

AUC越大，说明分类器可能把真正的正阳本排在前面，分类性能越好。

AUC一般在0.5～1之间，如果小于0.5,只要把模型预测的概率反转成1-p就可以得到一个更好的分类器。

ROC曲线相比P-R曲线有什么特点

P-R曲线，是以召回率为横轴，精确率为纵轴的曲线。

当正负样本比例出现较大改变时，P-R曲线变化较大，而ROC曲线形状基本不变。

t201.png（图片在手机，后面补上）

这个特点让ROC曲线能够尽量降低不同测试集带来的干扰，更加客观地衡量模型本身的性能。

绘制roc代码实现

def build_roc_auc(model, X_train, X_test, y_train, y_test):
    '''
    INPUT:
    model - an sklearn instantiated model
    X_train - the training data
    y_train - the training response values (must be categorical)
    X_test - the test data
    y_test - the test response values (must be categorical)
    OUTPUT:
    auc - returns auc as a float
    prints the roc curve
    '''
    import numpy as np
    import matplotlib.pyplot as plt
    from itertools import cycle
    from sklearn.metrics import roc_curve, auc, roc_auc_score
    from scipy import interp
    
    y_preds = model.fit(X_train, y_train).predict_proba(X_test)
    # Compute ROC curve and ROC area for each class
    fpr = dict()
    tpr = dict()
    roc_auc = dict()
    for i in range(len(y_test)):
        fpr[i], tpr[i], _ = roc_curve(y_test, y_preds[:, 1])
        roc_auc[i] = auc(fpr[i], tpr[i])

    # Compute micro-average ROC curve and ROC area
    fpr["micro"], tpr["micro"], _ = roc_curve(y_test.ravel(), y_preds[:, 1].ravel())
    roc_auc["micro"] = auc(fpr["micro"], tpr["micro"])
    
    plt.plot(fpr[2], tpr[2], color='darkorange',
             lw=2, label='ROC curve (area = %0.2f)' % roc_auc[2])
    plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
    plt.xlim([0.0, 1.0])
    plt.ylim([0.0, 1.05])
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.title('Receiver operating characteristic example')
    plt.show()
    
    return roc_auc_score(y_test, np.round(y_preds[:, 1]))
    
    
# Finding roc and auc for the random forest model    
build_roc_auc(rf_mod, training_data, testing_data, y_train, y_test)

4 回归模型评估

4.1平均绝对误差

就是将样本点到直线的距离绝对值的和;

平均绝对误差有个问题，绝对值函数是不可微分的，这不利于使用如梯度下降等方法。

为解决这个问题，一般用均方误差。

4.2均方误差

在sklearn也很容易实现

4.3 R2分数

通过将模型与最简单的可能模型相比得出

在sklearn的实现：

5 小结

训练和测试数据

首先，每次都要把你的数据划分为训练集和测试集，这很重要。先把模型在训练集数据上拟合好，然后你就可以用测试集数据来评估模型性能。

评估分类

如果你正在训练模型来预测分类（是否是垃圾邮件），比起预测具体数值（例如房价），有很多不同的评估方法来评估你的模型的性能。

当我们看分类指标时，这个主题的维基百科页面非常精彩，但也有点难度。我经常用它来记忆各个指标做什么。

具体来说，你看到了如何计算：

准确度

准确度通常用来比较模型，因为它告诉我们正确分类的比例。

通常准确度不应是你要优化的唯一指标。尤其是当你的数据存在类别不平衡情况时，只优化准确度可能会误导你对模型真实性能的评估。考虑到这一点，我们介绍了一些其他指标。

精度

精度主要关注的是数据集中预测为“阳性”的数据。通过基于精度的优化，你将能确定与误报假阳性相比，你是否在预测正例的工作上做的很好（减少误报假阳性）。

召回率

召回率主要关注数据集中的实际 “阳性”的数据。通过基于召回率的优化，你将能确定你是否在预测正例的工作上做的很好（减少漏报假阴性），而不必太考虑误报假阳性。如果你想在实际 ‘负例’上执行类似召回率的计算，这叫做特异性（specificity）。

F-Beta 分数

为同时考察两个指标（精度和召回率）的组合，有一些常用技术，如 F-Beta 分数（其中经常使用 F1 分数），以及 ROC 和 AUC。你可以看到 \betaβ 参数控制了精度在 F 分数中的权重，它允许同时考虑精度和召回率。最常见的 beta 值是1，因为这是精度和召回率的调和平均

ROC 曲线和 AUC

通过为我们的分类指标设置不同的阈值，我们可以测量曲线下的面积（曲线称为 ROC 曲线）。与上面的其他指标类似，当 AUC 比较高（接近1）时，这表明我们的模型比指标接近 0 时要好。

你可能最终会选择基于这些指标中的任何一项进行优化。在实践，我通常中使用 AUC 或 F1 分数。然而，要根据你的具体情况来选择评估方法。

评估回归

你想评估你的模型在预测数值时的性能吗？这种情况下，有三个常用的主要指标：平均绝对误差，均方误差，和 r2 值。

一个重要的注意事项：与优化均方误差相比，优化平均绝对误差可能会导致不同的“最优模型”。然而，与优化 R2 值相同，优化均方误差将总是导致相同的“最优”模型。

同样，如果你选择具有最佳 R2 分数（最高）的模型，它也将是具有最低均方误差（MSE）的模型。具体选择哪个，要根据你觉的在给别人解释时，哪个最方便。

平均绝对误差 (MAE)

你看到的第一个指标是平均绝对误差。当你要预测的数据遵循偏斜分布时，这是一个很有用的指标。在这些情况下，对绝对值做优化特别有用，因为与使用均方误差一样，异常值不会对试图优化这个指标的模型有影响。这个技术的最佳值是中位值。当优化均方误差的 R2 分数时，最佳值实际上是平均数。

均方误差 (MSE)

均方误差是回归问题中最常用的优化指标。与 MAE 类似，你希望找到一个最小化此值的模型。这个指标可能会受到偏斜分布和异常值的极大影响。当一个模型考虑用 MAE 而不是 MSE 做优化时，记住这一点很有用。在很多情况下，在 MSE 上进行优化更容易，因为二次项可微。而绝对值是不可微的。这一因素使得该指标 (MSE) 更适合用于基于梯度的优化算法。

R2 分数

最后，在查看回归值时，R2 分数是另一个常用指标。优化一个模型，最小化 MSE 也将导致最高的 R2 分数。这是这个指标的一个方便特性。R2 分数通常被解释为模型捕获的“变化量”。因此，你可以把 MSE 看作是所有点的平均值，而把 R2 分数看作是用模型捕获的所有点的变化量。

当模型很好时，R2分数接近1；
当模型很差时，R2分数接近0；

from sklearn.metrics import r2_score
y_true = [ 1, 2, 4]
y_pred = [ 1.3, 2.5, 3.7]
r2_score(y_true, y_pred)

看待机器学习问题，类似与解决机器故障，需要一系列检修工具，也需要一系列评估工具，经过评估选择最适合的工具，修好故障车；

对应到机器学习问题，检修工具是各类算法比如逻辑回归，决策树，神经网络，随机森林等，

评估工具对应模型复杂度、准确率、精确率、召回率、F1分数、学习曲线等。

我们要做的是，用这些指标来测试自己设计的模型，根据表现，选择最优的模型来拟合数据；

OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
Linux find 命令完全指南可问可问春风 Linux从新手到入门 linux chrome 运维
find是Linux系统最强大的文件搜索工具，支持嵌套遍历、条件筛选、执行动作。以下通过场景分类解析核心用法，涵盖高效搜索、文件管理及高级技巧：一、基础搜索模式1.按文件名搜索（精确/模糊匹配）find/path-name"*.log"#精确匹配.log后缀（区分大小写）find/home-iname"*.TXT"#模糊匹配.txt后缀（忽略大小写）find.-name"data_[0-9].cs
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
探索未来技术前沿：FastAPI火箭-boilerplate，打造高性能API的超级引擎！黎杉娜Torrent
探索未来技术前沿：FastAPI火箭-boilerplate，打造高性能API的超级引擎！fastapi-rocket-boilerplateFastAPIRocketBoilerplatetobuildanAPIbasedinPythonwithitsmostmoderntechnologies!项目地址:https://gitcode.com/gh_mirrors/fa/fastapi-roc
强化学习中策略网络模型设计与优化技巧数字扫地僧计算机视觉深度学习
I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。策略网络（PolicyNetwork）是强化学习中一种重要的模型，它直接输出动作的概率分布或具体的动作。本篇博客将深入探讨策略网络的设计原则、优化技巧，并结合具体实例展示其应用。II.策略网络的基本概念A.策略网络的定义策略网络是一种神经网络，它接受当前状态作为
一年狂揽270亿新订单，德赛西威开启「狂飙」模式高工智能汽车人工智能
德赛西威在汽车智能网联产业的龙头地位还在进一步稳固，这从其刚刚公布的2024年年报中可见一斑。2024年，德赛西威实现营业收入276.18亿元，同比增长26.06%，归属于上市公司股东的净利润20.05亿元，同比增长29.62%。综合来看，德赛西威的多项核心业务在2024年均显示了强劲的增长势头，尤其是智能座舱和智能驾驶业务凭借产品迭代升级，在客户新增与市场渗透率方面持续攀升，此外海外业务成长为新
[AI速读]用持续集成（CI）优化芯片验证环境：Jenkins与EDA工具的实战指南 iccnewer ci/cd jenkins 运维
在芯片验证中，回归测试（RegressionTest）是确保设计稳定性的关键步骤。但随着设计复杂度增加，手动管理海量测试用例、分析日志和覆盖率数据变得异常耗时。本文将介绍如何利用持续集成（CI）工具Jenkins，结合EDA验证环境（如CadencevManager），实现自动化测试与结果分析，大幅提升验证效率。传统验证的痛点在传统流程中，验证工程师通常面临以下挑战：手动操作多：每次代码提交后，需
基于Python编程语言实现“机器学习”，用于车牌识别项目我的sun&shine Python python 机器学习计算机视觉
基于Python的验证码识别研究与实现1.摘要验证码的主要目的是区分人类和计算机，用来防止自动化脚本程序对网站的一些恶意行为，目前绝大部分网站都利用验证码来阻止恶意脚本程序的入侵。验证码的自动识别对于减少自动登录时长，识别难以识别的验证码图片有着重要的作用。对验证码图像进行灰度化、二值化、去离散噪声、字符分割、归一化、特征提取、训练和字符识别等过程可以实现验证码自动识别。首先将原图片进行灰度化处理
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略一个处女座的程序猿资深文章(前沿/经验/创新)DataScience ML 数据科学数据科学的生命周期机器学习
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略导读：本文章是博主在数据科学和机器学习领域，先后实战过几百个应用案例之后的精心总结，应该是完全覆盖了数据科学的整个生命周期及其各个阶段的要点。其中机器学习领域六大阶段更是在整个数据科学生命周期中扮演着极其重要的角色。同时，因为涉及到博主出书中出版社要求在
利用HFSS软件对射频电路电磁兼容性的深入研究 DidYour 课程设计
摘要本文旨在借助HFSS（HighFrequencyStructureSimulator）软件深入研究射频电路的电磁兼容性（EMC）。通过对射频电路中电磁干扰产生机制的剖析，阐述如何运用HFSS软件建立精确的射频电路模型，进行电磁兼容性仿真分析，包括近场和远场分析、信号完整性分析等。结合实际案例，探讨不同因素对射频电路EMC性能的影响，提出基于HFSS仿真结果的优化设计策略，为提升射频电路电磁兼容
OpenWrt GPIO模拟I2C最佳实践 HH予嵌入式驱动工程项目开发 LUCI LUA UCI Openwrt openwrt
OpenWrtGPIO模拟I2C最佳实践一、软件实现方案选择|方案|优点|缺点|适用场景||-------------------|-------------------------|-------------------------|-------------------||Shell脚本+sysfs|快速验证功能|无法保证时序精确性|研发初期快速验证||Libgpiod用户态驱动|支持事件监听
JavaScript基础-DOM事件流難釋懷 javascript 开发语言
在Web开发过程中，理解和掌握DOM事件流是实现高效交互的关键。DOM事件流描述了当一个事件发生时，它在文档树中的传播路径。了解事件流的概念有助于我们更精确地控制事件处理逻辑，避免不必要的行为，并提升用户体验。本文将深入探讨DOM事件流的基本概念，包括事件捕获、目标阶段和事件冒泡，并通过示例展示如何应用这些知识。一、什么是DOM事件流？DOM事件流是指事件在整个页面结构中传播的过程。根据W3C标准
如何快速理解模糊PID---（二） Invinciblenuonuo STM32 算法
模糊控制规则上文只介绍了误差这一个输入量，我们可以用相同的方法对误差的变化率这一输入量进行模糊化。模糊控制规则主要有两种，Mamdini和T-S型模糊控制器这里只介绍Mamdini型模糊控制器Mamdini型模糊控制器就是一堆“如果x是U1y是U2那么z是W1”的语句组成先上图设误差为E，误差的变化率为EC，而输出量我们也用上文的方法将他划分出六个区域，并规定出它的模糊论域（NB,NM,NS,Z0
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
简单理解机器学习中top_k、top_p、temperature三个参数的作用无级程序员机器学习人工智能
在机器学习中，top_k、top_p和temperature是用于控制生成模型（如语言模型）输出质量的参数，尤其在文本生成任务中常见。然而，网上文章很多很全，但大多晦涩难懂，今天我们来用最简单的语言谈谈它们的具体作用：1.点菜式筛选法：top_k参数英文全称：top-k中文名称：前k个具体意义：top_k参数就像是你在餐厅点菜时，服务员只给你推荐菜单上前k名的招牌菜。在AI文本生成中，top_k参
小白零基础学数学建模系列-引言与课程目录川川菜鸟数学建模小白到精通系列数学建模
目录引言一、我们的专辑包含哪些内容？第一周：数学建模基础与工具第二周：高级数学建模技巧与应用第三周：机器学习基础与数据处理第四周：监督学习与无监督学习算法第五周：神经网络二、学完本专辑能收获到什么？三、适合什么样的人群学习？四、如何学习本专辑？课程目录第1周：数学建模基础与工具第1天：数学建模入门介绍第2天：数学建模工具介绍第3天：线性回归与曲线拟合第4天：线性规划第5天：动态规划第2周：高级数学
初始OpenCV 指尖下的技术 OpenCV opencv 人工智能计算机视觉
OpenCV是一个功能强大、应用广泛的计算机视觉库，它为开发人员提供了丰富的工具和算法，可以帮助他们快速构建各种视觉应用。随着计算机视觉技术的不断发展，OpenCV也将会继续发挥重要的作用。OpenCV提供了大量的计算机视觉算法和图像处理工具，广泛应用于图像和视频的处理、分析以及机器学习领域。所以学习人计算机视觉或者图像处理方面的知识，OpenCV是一个要重点学习的工具库。首先介绍一下OpenCV
WRF移动嵌套结合伏羲模型与CFD（PALM）高精度多尺度降尺度分析研究 Hardess-god WRF 算法人工智能
随着大气科学与数值模拟技术的发展，高精度多尺度气象模拟日益成为科研与应用的热点问题。本文将详细介绍如何使用WRF移动嵌套技术结合伏羲（Fuxi）模型，并通过CFD模型PALM实现精细化降尺度，以满足城市或区域局地精细化气象预报的需求。1.技术路线概述WRF移动嵌套（MovingNesting）：动态调整高分辨率嵌套网格位置，追踪天气系统（如台风、强对流系统）以提高局地预报精度。伏羲（Fuxi）模型
机器学习结合伏羲模型高精度多尺度气象分析与降尺度实现 Hardess-god WRF 算法人工智能
随着人工智能的发展，机器学习技术在气象预报领域展现出巨大潜力。本文详细探讨如何结合机器学习（ML）和伏羲模型进行高精度多尺度气象模拟分析，并提供详细的实现步骤和相关代码。1.研究目标与技术路线目标：结合机器学习模型与伏羲气象模式，实现区域和局地高精度降尺度。技术路线：伏羲模型提供大尺度气象数据和预报使用机器学习模型（如CNN、LSTM、XGBoost）进行降尺度2.数据准备与处理2.1气象数据获取
基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
2025.03.22【读书笔记】| fastq-multx：高效barcode拆分数据解决工具穆易青读书笔记数据处理读书笔记 linux 运维服务器
文章目录1.工具介绍为什么需要`fastq-multx`？`fastq-multx`的特点2.安装方式通过源代码编译安装使用包管理器安装3.使用命令基本命令高级参数设置结语1.工具介绍在生物信息学的世界里，工具的选择至关重要。今天，我们要介绍的这个工具，就是fastq-multx，一个用于高效barcode去复用和demultiplex的解决方案。fastq-multx是一个专门设计用于处理高通量
Cursor + 向量数据生产力的提升！！ AI Agent首席体验官数据库人工智能 AI编程 ai编程
1.Cursor+向量数据库意味着什么?将Cursor与向量数据库结合意味着强化AI辅助编程的能力，主要体现在以下几个方面：代码理解与上下文感知：Cursor作为AI编程工具可以利用向量数据库存储代码片段、函数、类和项目结构的向量表示，使AI能更精确地理解代码上下文和关系。语义搜索能力：向量数据库使Cursor能够执行基于语义的代码搜索，而不仅仅是关键词匹配，开发者可以用自然语言描述需求，找到语义
毕业论文代码实验（Python\MATLAB）基于K-means聚类的EMD-BiLSTM-Attention光伏功率预测模型清风AI 毕业设计代码实现 python lstm 深度学习神经网络人工智能 matlab pytorch
一、项目背景1.1光伏功率预测意义在能源结构转型背景下（国家能源局2025规划），光伏发电渗透率已超过18%。但受天气突变、云层遮挡等因素影响，光伏出力具有显著波动性，导致：电网调度难度增加（±15%功率波动）电力市场交易风险提升光储协同控制效率降低1.2技术挑战多尺度特征耦合：分钟级辐照度变化与小时级天气模式共存非线性映射关系：气象因素与发电功率呈高阶非线性关系数据模态差异：数值天气预报(NWP
ElasticSearch~查询操作~(简单查询、批量查询、匹配查询、模糊查询、精确查询、范围查询、通配符查询、must查询、should查询、过滤查询）飞Link Elastic elasticsearch lucene 全文检索
一、简单查询一、查询所有结果GET/student_info/_search{"query":{"match_all":{}}}二、根据条件查询GET/student_info/_search{"query":{"match":{"name":"张三"}}}三、排序GET/student_info/_search{"query":{"match":{"name":"张三"}},"sort":[{"
人脸识别的一些代码饿了就干饭 CV相关人脸识别
1、cv2入门函数imread及其相关操作2、（详解）opencv里的cv2.resize改变图片大小Python3、机器学习之人脸识别face_recognition使用4、使用face_recognition进行人脸校准5、简单的人脸识别通用流程示意图（这个看着写的挺好的）6、face_recognition和图像处理中left、top、right、bottom解释7、使用pillow库对图片
Q&A: 设计数据备份方案时，所面临的需求痛点问题是共性问题还是个性问题云祺vinchin 技术分享网络安全数据安全 web安全容灾
在设计数据备份方案时，企业所面临的需求痛点和挑战既包含了行业普遍存在的共性难题，也涵盖了企业自身独特的个性化需求。在我国信息化建设快速发展的背景下，灾备行业的整体发展水平相较于信息化程度仍显不足，尤其是在灾备覆盖率和技术成熟度方面存在较大提升空间。具体而言，以下几点是行业内普遍面临的挑战：1、技术兼容性问题：不同企业的IT架构差异较大，导致备份软件在兼容性上存在一定的局限性。例如，虚拟机、操作系统
探索Python中的集成方法：Stacking Echo_Wish Python 笔记 Python 算法 python 开发语言
在机器学习领域，Stacking是一种高级的集成学习方法，它通过将多个基本模型的预测结果作为新的特征输入到一个元模型中，从而提高整体模型的性能和鲁棒性。本文将深入介绍Stacking的原理、实现方式以及如何在Python中应用。什么是Stacking？Stacking，又称为堆叠泛化（StackedGeneralization），是一种模型集成方法，与Bagging和Boosting不同，它并不直
【Python】 Stacking: 强大的集成学习方法音乐学家方大刚 Python python 集成学习开发语言
我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的薛凯琪《找到天使了》在机器学习中，单一模型的性能可能会受到其局限性和数据的影响。为了解决这个问题，我们可以使用集成学习（EnsembleLearning）方法。集成学习通过结合多个基模型的预测结果，来提高整体模型的准确性和稳健性。Stacki
Stacking算法：集成学习的终极武器 civilpy 算法集成学习机器学习
Stacking算法：集成学习的终极武器在机器学习的竞技场中，集成学习方法以其卓越的性能而闻名。其中，Stacking（堆叠泛化）作为一种高级集成技术，更是被誉为“集成学习的终极武器”。本文将带你深入了解Stacking算法的原理和实现，并提供一些实战技巧和最佳实践。1.Stacking算法原理探秘Stacking算法的核心思想是训练多个不同的基模型，并将它们的预测结果作为新模型的输入特征，以此来
集成学习（上）：Bagging集成方法万事可爱^ 机器学习修仙之旅 #监督学习集成学习机器学习人工智能 Bagging 随机森林
一、什么是集成学习？在机器学习的世界里，没有哪个模型是完美无缺的。就像古希腊神话中的"盲人摸象"，单个模型往往只能捕捉到数据特征的某个侧面。但当我们把多个模型的智慧集合起来，就能像拼图一样还原出完整的真相，接下来我们就来介绍一种“拼图”算法——集成学习。集成学习是一种机器学习技术，它通过组合多个模型（通常称为“弱学习器”或“基础模型”）的预测结果，构建出更强、更准确的学习算法。这种方法的主要思想是
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring

机器学习1：机器学习的模型评估方法

1.分离数据：

2.混淆矩阵(evaluation matrix)

类型1和类型2错误

3.分类模型评估

3.1 准确率(accuracy)

准确率不适用的情形

医疗模型：

垃圾邮件分类模型：

3.2 精确率和召回率

精确率定义：

召回率定义：

3.3 F1得分

3.4 F-Beta得分

F-β 得分的界限

3.5 ROC曲线

如何绘制ROC曲线

如何计算AUC

ROC曲线相比P-R曲线有什么特点

绘制roc代码实现

4 回归模型评估

4.1平均绝对误差

4.2均方误差

4.3 R2分数

5 小结

训练和测试数据

评估分类

准确度

精度

召回率

F-Beta 分数

ROC 曲线 和 AUC

评估回归

平均绝对误差 (MAE)

均方误差 (MSE)

R2 分数

你可能感兴趣的:(机器学习,模型评估,精确率,召回率,ROC曲线,F2分数)

ROC 曲线和 AUC