无名乃万物之始

第二章：模型评估与选择

试答系列：“西瓜书”-周志华《机器学习》习题试答

2.1 数据集包含1000个样本，其中有500正例，500反例，将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估，试估算共有多少种划分方式。

2.2 数据集有100个样本，正，反例各一半，假定学习到的模型将新样本分类为训练样本数较多的类别(两类相同时随机猜测)，试给出10折交叉验证法和留一法分别对错误率进行评估所得结果。

2.3 若学习器A的F1值比学习器B高，试析A的BEP值是否也比B高。

2.4 试述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系。

2.5 证明式(2.22)

2.6 试述错误率与ROC曲线的联系。

2.7 试证明任意一条ROC曲线都有一条代价曲线与之对应，反之亦然。

2.8 Min-Max规范化和z-score规范化是两种常见的规范化方法，试析两者的优缺点。

2.9 试述χ2检验过程。

2.10 试述在Friedman检验过程中使用(2.34)和(2.35)的区别。

2.1 数据集包含1000个样本，其中有500正例，500反例，将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估，试估算共有多少种划分方式。

答： $(C_{500}^{150})^{2}$

2.2 数据集有100个样本，正，反例各一半，假定学习到的模型将新样本分类为训练样本数较多的类别(两类相同时随机猜测)，试给出10折交叉验证法和留一法分别对错误率进行评估所得结果。

答：10折交叉验证法将样本分为10份，每份含5个正例，5个反例：

选其中一份作为测试集，其余9份作为训练集，由于训练集中正例和反例样本数总是相等，所以训练到的模型将是随机猜测的模型，因此，最终错误率将接近于50%。

留一法将样本分为100份，依次为正样本，负样本：

1	2	3	4	5	......	99	100
+	-	+	-	+	......	+	-

比方说，将第100份作为测试集，假如它为反例，然后将剩余的99个样本作为训练集，训练集中包含正例50个，反例49个，正例多于反例，于是模型会将任何新样本判定为正例，而测试集(第100号样本)为反例，因此测试结果为错误。
类似的，对于选择其他1~99号所有样本都是如此，都将预测错误。因此，留一法得到的错误率为100%。

2.3 若学习器A的F1值比学习器B高，试析A的BEP值是否也比B高。

答：F1值与P，R值有关，F1=2PR/(P+R)，可以在P-R图中画出F1值的等值线：

而BEP值为P-R曲线与直线P=R(图中红线)相交的P(或R)值。

设学习器A的F1值比学习器B高，比如，如下图所示情况。然后让学习器继续将当前判定为反例的样本按照“可能性”高一个一个的判定为正例，P、R值随之变化，从而绘制出P-R图，可能有多种情况，两者的BEP值孰高孰低不一定。

2.4 试述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系。

答：首先，观察它们的表达式可知，真正例率(TPR)和查全率(R)完全等同。

为了方便理解，可以根据具体实例来理解这几个比值。

假设有100个西瓜，其中有80个好瓜，20个坏瓜，某个人(他作为一个分类器)从中选出了一部分他所认为的好瓜出来。

查准率P：选出的这部分瓜中好瓜所占比例。

查全率R 或 真正例率TPR：80个好瓜中被成功选出的比例。

假正例率FPR：20个坏瓜中被误选出的比例。

它们之间在数量关系上的联系：

1、(TPR, FPR)-> (P, R): P=m+TPR/(m+TPR+m-FPR), R=TPR

2、(P, R)-> (TPR, FPR): TPR=R, FPR=(m+/m-)*R(1-P)/P

它们的区别：

1、对于一个分类器，我们希望 P、R、TPR大一些，希望FPR小一些。

2、以上各个系数虽然都是在具体测试集上得到的具体混淆矩阵(TP,FP,FN,TN)计算得出的，但是从概率角度看，可以把TPR(R)看做是好瓜被选中的概率，将其记为P(+|+)；FPR可以看作坏瓜被误选的概率，记为P(+|-)，它们只与分类器有关，与测试集正负样本比例无关。而查准率P与正负样本比例有关，比如，好瓜较多时，不管谁来选，P值都偏高。

2.5 证明式(2.22)

答：ROC曲线的绘制过程可以这样看：在1×1的坐标区域，横坐标m-等分，纵坐标m+等分，总共划分成m+m-个格子。将所有样本按照预测概率降序排列，从坐标(0,0)开始，一个一个的，若这个样本为正例，则向上走，若这个样本为反例，则往右走。

观察 lrank表达式：

假设一个已经绘制好的ROC曲线如下图所示：

考察每一个正例点，如前所述，将正例预测为正例后，ROC曲线将往上走一步，假设走到了上图中的(x,y)处。lrank式中“(排在x+之前的反例数)/m+m-”这一项恰好代表了上图中左侧阴影部分的面积，因为[排在x+之前的反例数]等于阴影部分格子数，而1/m+m-等于每个格子的面积。Irank式中后一项“(与x+并列排行的反例数)/2”代表了某些反例与这个正例的预测概率相等的情况，比如，只有一个反例与之相等，那么可以随机选择先考虑哪一个，这样将会出现两种情况(见上图右)，两者的相差一个格子的面积，1/m+m-，取其平均作为最终计算面积。

将所有这样的阴影部分面积累加起来便是ROC曲线上半部分的面积。而整个坐标区域面积为1，ROC下半部分面积为AUC，因此有：AUC=1-lrank.

2.6 试述错误率与ROC曲线的联系。

答：

因此，错误率是ROC曲线横坐标FPR，纵坐标TPR，以及样本比例有关。

观察上式可知，错误率ε的等值线(iso-erro rate)为一条直线，斜率为m-/m+，这正好是ROC图中小格子对角线的斜率。若画出ε的等值线图，应如下图所示：

在ROC曲线中，初始错误率为m+/m，之后每向右走一格，错误率增加1/m，每向上走一格，错误率减小1/m。

当样本数量足够多时，ROC网格将越来越密，最终的ROC曲线将趋近于一条与样本数、样本比例无关的一条确定曲线。并且，斜率为m-/m+的直线簇与ROC相切的点所对应的错误率最低。如下图(左)所示：

按照产生ROC曲线的方法，曲线从(0,0)到(1,1)对应于逐步地降低阈值。(0,0)对应于将所有样本判定为反例，此时为最高阈值(最高标准)；(1,1)对应于将所有样本判定为正例，此时为最低阈值(最低标准)。

从上图(右)可以看出，在不同斜率(m-/m+)，亦即不同正样比例下，所对应的最小错误率点不一样，从中可以得到定性结论：

为了降低错误率，

正例较多时，趋近于选择低阈值(低标准)的分类器 (好让正样更易被选中)；

反例较多时，趋近于选择高阈值(高标准)的分类器 (好让反样不易被选中)。

2.7 试证明任意一条ROC曲线都有一条代价曲线与之对应，反之亦然。

答：首先，在读完教材中对于代价曲线部分的讲解后，还是一头雾水，存在很多疑问，比如：

1、“正例概率代价”这个名称该如何理解，(正例的)(概率性的)(代价)？还是(正例概率)(代价)？表达式又代表什么意义？

2、归一化代价又代表什么意义，为什么要归一化？

3、为什么线段下面积表示期望总体代价？为什么要取所有线段的下界？

在通过网上查阅以及文献阅读[Drummond and Holte, 2006]之后逐渐明了，现将我的理解整理如下：

C(-|+)=C(+|-) 的情况

C(-|+)和C(+|-)在教材中分别表示为cost01和cost10，分别代表将正例漏选，反例误选的代价。当C(-|+)=C(+|-)时，可以令其等于1，此时，总的代价为：

cost=FNR*p(+)+FPR*p(-) = FNR*p(+)+FPR*(1-p(+))

该式与上一题(2.6)中错误率的表达式完全等同，这里，P(+)=m+/m 和 p(-)=1-p(+)=m-/m分别代表正例和反例的分布比例，FNR=(1-TPR)表示假反例率。

这里的p(+)在文献中称之为“operating point”，可以直译为“操作点”，意思大概是指一定的限制条件。

按照(2.6)题的做法，在某一固定正样比例p(+)下，若要比较ROC空间中的两个点对应的代价(此时，等同于错误率)，可以绘制斜率为(1-p(+))/p(+)的直线簇(等代价线 iso-cost)，在直线簇的左上方的那个点的代价更低一些。当一个点在另一个点的左上方，对于所有的p(+)取值来说都有，前者的代价低于后者。在其他情况下，需要画等代价线(iso-cost)来确定，比如下图中，对于p(+)1，A点的代价更低，对于p(+)2，B点的代价更低。

这种在ROC空间画等代价线(iso-cost)的方法较为麻烦，要画很多直线，而且不容易直接看出两个点之间的代价差别。而代价曲线，以p(+)为横坐标，以代价为纵坐标，这样便可以一眼看出在所有p(+)情况下，或者说所有“操作点”下的代价值，以及不同点之间的代价差别。

按照前面的公式：cost=FNR*p(+)+FPR*(1-p(+))，在ROC空间中的一个点(TPR,FPR)可以转换为代价空间中的一条线段，线段两个端点为(0,FPR)和(1,FNR)。下图ROC空间中的A、B两点在代价空间中表现为两条线段。从中可以看出，当p(+)p0时，B的代价更小。

ROC空间和代价空间存在双向的对偶关系：ROC空间的一个点(一条线)对应于代价空间中的一条线(一个点)，反之亦然。

ROC空间中的点对应于代价空间中的一条线，前面已经看到。ROC空间中的一条线对应于代价空间中的一个点，该如何理解？（以下个人看法）一种看法是，这条线上的每个点绘制一条直线，这些直线必然有一个共同交点，以这个交点作为代价空间中的那个点。另一种看法，ROC空间中的直线可以看作是等代价线(iso-cost)，这条等代价线有一个明确对应的p(+)值和代价值，由此在代价空间确定出一个点来。具体做法如下图所示：ROC空间中斜率为k，截距为b的直线，对应于代价空间中(p(+)=1/(1+k),cost=(1-b)/(1+k))的点。

类似的，代价空间中的一个点(一条线)对应于ROC空间中的一条线(一个点)。

ROC空间中的一组点在代价空间中对应于一组线段，在每个p(+)取值处，处于最下方的线段是当前条件下的最优分类器，于是，由最下方的那些线段可以形成一条下包络线，并称之为代价曲线。

现在可以来回答题目给出的问题了（任意一条ROC曲线都有一条代价曲线与之对应，反之亦然）

ROC曲线->代价曲线：

方法1、依次由ROC中的各个点在代价空间中绘制一条线段，然后取所有线段的下包络线。

方法2、由ROC中各个分段线段或者光滑ROC曲线上各个点的切线在代价空间中绘制相应的点，然后把这些点连起来组成代价曲线。

代价曲线->ROC曲线：

完全一样的两种方法。

C(-|+)≠C(+|-) 的情况

唯一的变化是对代价空间的x和y坐标进行重新定义：错误率->归一化代价，p(+)->PC(+)。

当代价不均等时，cost=(1-TPR)*p(+)*cos(-|+)+FPR*p(-)*cos(+|-)，在ROC空间中的等代价线(ios-cost)的斜率为k=[p(-)cos(+|-)]/[p(+)cos(-|+)]。此时的“操作点”为一定的类比例和误分代价比例，类似于上一题(2.6)可以得到定性结论：

为了降低代价，

正例较多，或者正例漏选代价大时，趋近于选择低阈值(低标准)的分类器；

反例较多，或者反例误选代价大时，趋近于选择高阈值(高标准)的分类器。

由于p和cost总是以乘积的形式一起出现，可以令p(-)cos(+|-)=pc(-), p(+)cos(-|+)=pc(+)，”pc”意味着“概率乘以代价”，这就解答了前面对于名词“正例概率代价”的疑问，意思应该是“正例概率乘以代价”。

这样，代价可以表达为 cost=FNR*pc(+)+FPR*pc(-)，但是这对于代价曲线绘制仍然有一定困难。其中FNR, FPR独立变化，取值∈[0,1]，而pc(+), pc(-)也是独立变化，取值∈[0,+∞]，最终计算到的cost取值∈[0,+∞]。对于一个确定的分类器，FNR，FPR确定，cost是pc(+)和pc(-)两个变量的函数，这样需要在三维空间绘制，而且坐标轴取值无限。

解决这些问题的办法是归一化。如前已知，为了比较两个分类器(两个ROC空间点)代价孰高孰低，关键在于斜率k=pc(-)/pc(+)这个比值。于是，对pc进行归一化，使之取值为[0,1]，令PC(+)=pc(+)/[pc(+)+pc(-)]，PC(-)=pc(-)/[pc(+)+pc(-)]，PC(+)+PC(-)=1，并以PC(+)作为代价空间的横坐标。

纵坐标也需要进行归一化，使之取值在[0,1]，由于

cost=FNR*pc(+)+FPR*pc(-)

在给定“操作点”下，cost最大可能取值为：max(cost)= pc(+)+pc(-)

于是归一化的代价为：

Norm[cost]= [FNR*pc(+)+FPR*pc(-)]/max(cost)

=FNR*PC(+)+FPR*PC(-)

= FNR*PC(+)+FPR*(1-PC(+))

与前面“C(-|+)=C(+|-)”时的表达式相比较，除了cost变为Norm[cost]，p(+)变为PC(+)，其他完全一致，因此代价曲线与前文所述完全类似，只需将横纵坐标名称修改一下即可：

然后用同样的方法比较在同一个操作点--PC(+)下，两个分类器的代价哪个更低一些。

2.8 Min-Max规范化和z-score规范化是两种常见的规范化方法，试析两者的优缺点。

答：两者的都是一种线性变换，Min-Max规范化实现的效果是将数据转换至所需的最小值和最大值区间内，z-score规范化实现的效果是，数据的均值为0，方差为1。优缺点待以后遇到具体问题再回头来说。

2.9 试述χ2检验过程。

答：[留个空位待填]。

2.10 试述在Friedman检验过程中使用(2.34)和(2.35)的区别。

答：[留个空位待填]。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
Python前沿技术：机器学习与人工智能 4.0啊 Python 人工智能 python 机器学习
Python前沿技术：机器学习与人工智能一、引言随着科技的飞速发展，机器学习和人工智能（AI）已经成为了计算机科学领域的热门话题。Python作为一门易学易用且功能强大的编程语言，已经成为了这两个领域的首选语言之一。本文将深入探讨Python在机器学习和人工智能领域的应用，以及一些前沿技术和工具。二、Python机器学习基础2.1机器学习概述机器学习是人工智能（AI）的一个关键子集，它的核心在于让
chatgpt赋能python：如何在Python中计算平均值 tulingtest ChatGpt python chatgpt numpy 计算机
如何在Python中计算平均值计算平均值是数据分析、统计和机器学习等许多领域中的常见任务。Python作为一门功能强大且易于学习的编程语言，为计算平均值提供了多种方法。在本文中，我们将介绍如何在Python中计算平均值。什么是平均值简单来说，平均值是一组数字的总和除以数字的数量。例如，对于数字序列1，3，5，7，9，平均值是(1+3+5+7+9)/5=5。平均值在数据分析中非常有用，因为它可以提供
Python 初学者入门必知： Anaconda是什么？有什么作用？怎么使用？懒大王爱吃狼 Python基础 python 开发语言 python基础 python学习 anaconda anaconda安装 python教程
初学者在学习Python时，经常看到的一个名字是Anaconda。究竟什么是Anaconda，为什么它如此受欢迎？在这篇文章中，我们将探讨Anaconda，了解Anaconda的从安装到使用的。Anaconda是一个免费开源的Python和R编程发行版，包含上千个适用于数据科学和机器学习的包。同时，配备了Spyder和Jupyternotebook等工具，初学者可以使用它们来学习Python，使用
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
一切皆是映射：AI的去中心化：区块链技术的融合 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：AI的去中心化：区块链技术的融合作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AI，区块链，去中心化，智能合约，共识机制，数据安全，隐私保护，分布式账本技术，机器学习，数据隐私1.背景介绍1.1问题的由来随着人工智能（AI）技术的快速发展，其在各个领域的应用越来越广泛，从自动驾驶、智能医疗到金融服务，AI正在改变着我们的生活。
第五届核磁机器学习班（训练营：2023.6.5~6.17）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★基于血氧水平依赖的功能磁共振成像(fMRI)技术,利用其数据构建的功能性脑网络后,发现脑并不是一个单纯对外界刺激进行
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情

第二章：模型评估与选择

2.1 数据集包含1000个样本，其中有500正例，500反例，将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估，试估算共有多少种划分方式。

2.2 数据集有100个样本，正，反例各一半，假定学习到的模型将新样本分类为训练样本数较多的类别(两类相同时随机猜测)，试给出10折交叉验证法和留一法分别对错误率进行评估所得结果。

2.3 若学习器A的F1值比学习器B高，试析A的BEP值是否也比B高。

2.4 试述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系。

2.5 证明式(2.22)

2.6 试述错误率与ROC曲线的联系。

2.7 试证明任意一条ROC曲线都有一条代价曲线与之对应，反之亦然。

2.8 Min-Max规范化和z-score规范化是两种常见的规范化方法，试析两者的优缺点。

2.9 试述χ2检验过程。

2.10 试述在Friedman检验过程中使用(2.34)和(2.35)的区别。

你可能感兴趣的:(周志华-机器学习)