伊滴小朋友

机器学习笔记1——经验误差、模型评估方法和性能度量

关于模型的评估

文章目录

关于模型的评估
- - 经验误差
  - - - 错误率
      - 经验误差
      - 过拟合和欠拟合
  - 模型评估方法
  - - - 留出法
      - 交叉验证法
      - 交叉验证的特例——留一法
      - 自助法
  - 性能度量
  - - - 精度和错误率
      - 查全率和查准率
      - 受试者工作特征——ROC曲线
      - 代价敏感错误率和代价曲线
      - 期望总体代价和代价曲线

经验误差

错误率

m个样本，a个分类错误，错误率： $E = a / m$ ；

经验误差

学习器在训练集上的误差叫做经验误差或者训练误差；

新样本上的误差叫做泛化误差；

并不是正确率越高，学习器就越好；

过拟合和欠拟合

过拟合：学习器将训练样本学习的太好了，导致很多训练样本自身的特点当作了所有潜在样本的一般性质（训练误差小泛化误差大）；

欠拟合：训练样本的一般性质都没有学号，训练误差大；

下图直观说明（图源：机器学习西瓜书）：

欠拟合一般可以避免，但是过拟合基本是无法避免的，只能说是减少它带来的影响；

模型评估方法

测试集尽量要跟训练集互斥；

留出法

将数据集划分为两个互斥集合，一个作为训练集，一个作为测试集；通常将2/3~4/5的样本用于训练，剩余用作测试；

要注意：需要通过分层采样的方法保证数据的分布一致性；

为了保持训练正确率和普适性，我们可以进行n次划分评估，最后求出n次结果的均值；

交叉验证法

将数据集划分为很多（n）个大小相似的互斥子集，然后进行n次循环（如下图所示）：

每次选取第i个集合作为测试集，剩余子集的并集作为训练集（ $\in [1,n]$ ）；
循环k次，每次选取不同的集合作为测试集，最后返回k次测试的均值；
评估结果的稳定性取决于k的数量，一般k取值为10；

交叉验证的特例——留一法

数据集中有n个样本，进行k次划分，当k=n时，n个样本的划分方式是唯一的，每个划分出来的子集只有一个元素；
之所以叫留一法，因为这种方法是在每次测试中只留一个样本作为测试集；
由于留一法的训练集跟初始数据集只差一个样本，因此留一法的评估结果往往比较准确；
缺点是计算开销有可能很大，因为数据量庞大起来，划分的次数也会跟着变大；

自助法

给定一个包含n个样本的数据集D，和一个采样集T，T初始为空；
每次从D中选择一个样本，复制进T中，也许会出现某一个已经被采集的样本再次被采集；
重复第二步n次，得到最终的采样集T，将T作为训练集，D\T作为测试集；

每个样本从始至终不被采集的概率为 $\lim_{m \to \infty}{(1- \frac{1}{m})^m} = \frac{1}{e}$ ；

也就是说，每个样本都有大约 $\frac{1}{3}$ 的概率不被采集到并作为测试集；从概率宏观的角度来说，也就是我们把约 $\frac{1}{3}$ 的样本当作了测试集；

自助法适用于数据集规模较小或者在划分训练\测试集的时候比较有用，也可以从初始数据集中产生多个不同的数据集；但是这种方法会改变初始数据集的分布（因为每次抽取具有随机性，无法确保分层取样等），因此会有估计误差；所以在数据量足够的时候用前面两种方法会更好。

性能度量

精度和错误率

这两个指标既适用于二分类任务，也适用于多分类任务。

假设给定一个样例集 $D={(x_1,y_1),(x_2,y_2),...,(x_n,y_n)}$ ，其中 $y_i$ 为 $x_i$ 的真实分类结果， $f(x_i)$ 为学习器预测的结果；

错误率指的就是分类错误的样本数占总样本数的比例，定义如下：
$\frac{1}{m} \sum_{i=1}^{m} \parallel(f(x_i) \neq y_i)$

在回归方法中，错误率常用均方误差来表示：
$\frac{1}{m} \sum_{i=1}^{m} (f(x_i) - y_i)^2$

精确度的定义即为： $1 - E (f; D)$ ；

查全率和查准率

错误率并不能满足所有的任务需求，因此我们引入查全率和查准率两个概念；

例如对搜索引擎好坏的判定，假设用户某一个查询的正确信息（我们可以理解为可以满足用户查询需求的信息集合）的总集合为D，该搜索引擎为我们返回的信息的集合为S，我们需要关心的主要有两个问题：

S中有多少信息在D中？
D中有多少信息在S中？

第一个问题，就是我们需要判定搜索引擎返回的正确信息所占的返回总信息数（|S|）的比例，这就是查准率；

如果返回的结果很少，那光有上面这一个指标是不行的，因此我们还要考虑第二个问题，即这个搜索引擎总共能返回多少个正确的信息，这就是查全率；

通过上面的例子，我们可以理解到，这两个指标，一般用于二分类问题中，接下来再看一个例子：

真实情况	检索出的结果	被搜索引擎抛弃的结果
正确信息	TP（真正例）	FN（假反例）
错误信息	FP（假正例）	TN（真反例）

一个搜索引擎检索出的结果可能有真正正确的（TP），实际上不正确的（FP），那么根据查准率的定义，查准率P的计算公式为：
$P=\frac{TP}{TP+FP}$
真正正确的信息中，有被搜索引擎检索出来的（TP），也有被抛弃的（FN），因此查全率的公式为：
$R=\frac{TP}{TP+FN}$
查全率和查准率是两个矛盾的指标，因为如果为了查全率而把查询数量加大，那么查准率会下降，因此，我们引入PR曲线来直观表述这两个指标，进而对学习器性能进行一个描述（图源西瓜书）；

A曲线和B曲线完全把C曲线“包住”了，因此我们可以判定A和B学习器要优于C；但是A和B之间，有一个交叉点，在查全率高的时候B要强一些，反之A强一些，很难断言谁更强。

因此我们引入平衡点的概念：当P=R的时候，谁的PR值更高谁就相对强一些：A的平衡点PR值更高，因此可以认为A相对于B要好一些。

但是这个评价还是不够客观，因为我们已经默认查全率和查准率的重要性是一样的。实际应用中，根据不同需求，查全率和查准率的重要性往往不一样，比如淘宝推荐中，查准率会更加重要。因此我们需要设置一个加权评判标准：
$F_{\beta}=\frac{(1+\beta^2)×P×R}{\beta^2×P+R}$
当 $\beta$ 小于1的时候，对查准率有更大的影响；反之对查全率有比较大的影响；

当 $\beta$ 等于1的时候，这个公式等价为标准 $F 1$ 度量方法：
$F_1=\frac{2×P×R}{P+R}=\frac{2×TP}{N+TP-TN}$
其中 $N$ 为样例总数；

受试者工作特征——ROC曲线

这是查全率和查准率的一个延申，思路就是用于个分类阈值来进行二分类，主要用于神经网络的计算结果进行分类；

神经网络一般预测值都在0-1之间，设置一个在0-1之间的阈值a，大于a则判定为正类，反之为反类；

拿查重率和查准率来说，如果我们希望查准率更加重要，，参照之前讲过的PR曲线，那么我们可以把这个阈值设置的更加小一些；同理，如果我们希望查全率更加重要，那么我们就把阈值设置的更大；

ROC曲线，就是用来判断这种“学习器的期望泛化性能的好坏”的一个工具，概念理解起来有点困难，先看下面的步骤就可以懂了；

首先把上面的表格搬下来：

真实情况检索出的结果被搜索引擎抛弃的结果

正确信息 TP（真正例） FN（假反例）

错误信息 FP（假正例） TN（真反例）

定义两个概念：

命中率： $TPR=\frac{TP}{TP+FN}$ ；

虚惊率： $FPR=\frac{FP}{TN+FP}$ （找到的反例中占所有反例的比例）；

针对训练结果，我们按照预测值排序；

接下来，以FPR为横坐标，TPR为纵坐标绘制一个折线图，类似下图：

绘图过程大致如下：

给定m个正例和n个反例，按照机器学习的结果排序，得到序列 ${s_1,s_2,...,s_{m+n}}$ ；

先把分类阈值设为最大，即所有的样例都设为反例，这个时候TP=0，因此命中率和虚惊率都是0，再坐标原点处画一个点；

此后将阈值设置为每个样例的预测值，计算各自的命中率和虚惊率，得到对应的坐标点 $x_i,y_i)$ ，在图上画出；

最后点连成线，如果曲线包络的面积越大，说明这个学习器分类分的越好，质量就越高；

所以，从上面的过程我们可以看出，这其实是一个查全率和查准率的一个延申应用。为了提高查全率，我们肯定需要增加样本数量，那么如果我的学习器在提升样本数量的同时（虚惊率也会因此而提升），我的命中率如果越来越高，说明我这个学习器就越好。

如果要利用ROC曲线来定量的表示两个学习器的性能，有如下两种方法：

寻找最优零界点：寻找 $m a x (T P R - F P R)$ 所对应的阈值，这个点越在图的左上方就说明ROC曲线越优；
面积法（AUC）：比较两个曲线和x轴、图的右半边竖线围成的面积大小，可利用如下公式计算：
$AUC=\frac{1}{2} \sum_{i=1}^{m-1}(x_{i+1}-x_i)*(y_i+y_{i+1})$
AUC的值越大，就说明学习器越优；

代价敏感错误率和代价曲线

以二分类问题为例，分类错误主要有两种情况：

把一部分假的信息当作真信息返回（假正例）；
把一部分真的信息当作家的信息舍弃（假反例）；

在实际应用中，我们对于两种错误的付出的代价是完全不一样的，比如一个门禁系统，把可通行用户拦在门外和把不可通行用户放进去造成的潜在后果是不一样的。而前面的算法中，我们都是假设了均等错误代价，把错误率直接计算成错误次数，没有考虑不同错误造成的后果。因此，我们需要针对两种错误类别，再做一次加权。

假设一个样例集合D中，正例子集为T，反例子集为F；假正例导致的代价为 $cost_{10}$ ，假反例导致的代价为 $cost_{01}$ ；

对错误率公式进行加权得到代价敏感错误率：
$E(f;D;cost)=\frac{1}{m}(\sum_{x_i \in T}\parallel(f(x_i) \neq y_i+\sum_{x_i \in F}\parallel(f(x_i) \neq y_i)$
当公式中i和j取值不限于0和1的时候，该公式可以改写为多分类问题的代价敏感错误率公式；

同样的，ROC曲线也没有考虑代价的问题，而代价曲线就考虑了，过程如下：

首先引入第一概念叫做加权正例概率，应该还是比较好理解的：
$P_{cost}=\frac{p×cost_{01}}{p×cost_{01}+(1-p)×cost_{10}}$
其中p表示查准率，即样例为正例的概率；

第二个概念叫做归一化代价，先上公式：
$cost_{torm}=\frac{(1-TPR)×p×cost_{01}+FPR×(1-p)×cost_{10}}{p×cost_{01}+(1-p)×cost_{10}}$
公式中的TPR和FPR就是ROC中的命中率和虚惊率，那么 $(1 - T P R)$ 就是没有被选中的真信息的比率，也就是假反例占总正例的比率；整个计算式，就是对 $(1 - T P R)$ 和 $F P R$ 两者进行了一个加权运算，获得的结果我们可以理解为两类错误的平均加权代价。

把加权正例概率作为横坐标，归一化代价作为纵坐标，即可得出代价曲线；

期望总体代价和代价曲线

将ROC中每个点的两个量 $(1 - T P R)$ 和 $F P R$ 计算出来，然后在代价平面上绘制一条从 $(0, F P R)$ 到 $(1, 1 - T P R)$ 的线段，如此遍历所有的ROC点，可以得到一幅类似下图的图像（图源西瓜书）：

阴影部分即为期望总体代价，围成这一部分的折线即为代价曲线。跟上面一小节一对比，我们可以发现，当横坐标为0的时候（即p=0）， $cost_{torm}$ 可以视为 $F P R$ ，而当横坐标为1的时候（p=1）， $cost_{torm}$ 可以视为 $1 - T P R$ ，即图中的 $F N R$ 。

在面对考虑代价的学习模型的时候可以参考使用这两种方法，这两种方法其实从本质上看是同一种思路的不同执行方法而已，选择哪种视具体情况而定。

下一节：机器学习笔记2——比较检验

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key

机器学习笔记1——经验误差、模型评估方法和性能度量

关于模型的评估

文章目录

经验误差

错误率

经验误差

过拟合和欠拟合

模型评估方法

留出法

交叉验证法

交叉验证的特例——留一法

自助法

性能度量

精度和错误率

查全率和查准率

受试者工作特征——ROC曲线

代价敏感错误率和代价曲线

期望总体代价和代价曲线

你可能感兴趣的:(机器学习,机器学习,深度学习,人工智能)