狗狗熊学AI

西瓜书第二章阅读笔记

第二章模型评估与选择
- 1、经验误差与过拟合
- 2、模型评估方法
- - 2.1 留出法 hold out
  - 2.2 交叉验证法 cross valildation
  - 2.3 自助法 bootstrapping
- 3、分类任务性能度量
- - 3.1 错误率与精度
  - 3.2 查准率、查全率与F1
  - 3.3 ROC与AUC
  - 3.4 代价敏感错误率与代价曲线
- 4、统计假设检验
- - 4.1 二项检验
  - 4.2 t 检验
  - 4.3 交叉验证 t 检验
  - 4.4 McNemar检验（卡方检验）
  - 4.5 Friedman检验与Nemenyi后续检验
- 5、期望泛化误差拆解
- - 5.1 偏差
  - 5.2 方差
  - 5.3 噪声

第二章模型评估与选择

1、经验误差与过拟合

误差 error ：学习器的实际预测输出与样本的真实输出之间的差异。
训练误差 training error / 经验误差 empirical error ：学习器在训练集上的误差
泛化误差 genneralization error ：学习器在新样本上的误差。
过拟合 overfitting ：学习器将训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质而导致泛化能力下降的现象。过拟合是机器学习面临的关键障碍，无法避免，只能“缓解”。
欠拟合 underfitting ：学习器对训练样本的一般性质尚未学好。

模型选择与评估的困境：
理想的模型选择方案是对候选模型的泛化误差进行评估，进而选择泛化误差最小的那个模型。然后，我们无法直接获得泛化误差，而训练误差又由于过拟合现象的存在而不适合作为标准。

现实任务中模型评估往往还需要考虑时间开销、存储开销以及可解释性等方面的因素，这里暂且只对泛化误差进行讨论。

所以接下来将探讨在现实中如何进行模型评估与选择。

2、模型评估方法

假设测试样本也是从样本真实分布中独立同分布采样得来的，考虑使用测试集上的测试误差 testing error作为泛化误差的近似，来测试学习器对新样本的判别能力。
需要注意的是，测试集应尽可能地与训练集互斥。假设我们只有一个m个样本地数据集D，便需要通过适当的处理，从中产生出训练集S和测试集T，可考虑以下方法：

2.1 留出法 hold out

直接将数据集D划分为两个互斥的集合，一个作为训练集S，一个作为测试集T。在S上训练出模型后，用T来评估其测试误差作为泛化误差的统计。

训练/测试集的划分尽可能保持数据分布的一致性，避免因数据划分过程中引入额外的偏差而对最终结果产生影响。
训练/测试集的样本比例确定后，人存在多种划分方式对D进行分割，而不同的分割方式也可能对结果产生影响。所以单次使用留出法得到结果往往不够稳定可靠，一般采用若干次随即划分、重复进行实验评估后取平均值作为留出法的评估结果。
训练集与测试集的比例影响着评估结果的方差与偏差，常见做法是2/3 ~ 4/5的样本用于训练，剩余样本作为测试。但一般而言，测试集至少应含有30个样本。

2.2 交叉验证法 cross valildation

在尽可能保持数据分布一致性的情况下，将数据集D划分为k个大小相似的互斥子集，每次用k-1个子集的并集作为训练集，剩下的那个子集作为测试集，由此获得k组训练/测试集的结果，最终返回的是k个测试结果的均值。

交叉验证法评估结果的稳定性和保真性很大程度上取决于k，因此该方法又称 “k折交叉验证 k-fold cross validation”。
子集的划分与留出法一样存在多种方式，同样为减小因样本划分不同而引入的差别，可将k折交叉验证随机使用不同的划分重复p次，将p次k折交叉验证结果的平均值最为最终的评估结果。
假设D中有m个样本，当k=m时，交叉验证法成为其特例 “留一法 Leave-One-Out” ，此时不受随机样本划分的影响，结果可能更准确，但数据集较大时开销也较大。

2.3 自助法 bootstrapping

对于含有m个样本的数据集D，对其进行自助采样产生数据集D’：每次随机从D中挑选一个样本拷贝至D’中，重复m次。（“拷贝”意味着被选择过的样本在下次采样时仍有可能被选中。）

对于一个样本在m次采样中始终不被选中的概率为： $（1-\frac{1}{m})^m$ ，可做如下简单估计：
$\lim_{m\to\infty}（1-\frac{1}{m})^m = \frac{1}{e} \approx0.368$
意味着D中约有36.8%未出现在D’中，可使用{D-D‘}作为测试集。
不同于留出法和交叉验证法中的训练集S的规模都小于D，自助法中训练集D’的规模等于D。在数据集较小、难以有效划分训练/测试集时较为有效，且能产生的多个不同的训练集对于集成学习等方法也有很大好处。
缺点在于自助法产生的数据集改变了初始数据集的分布，会引入估计偏差。所以在初始数据量足够时，留出法和交叉验证法更常用。

调参与最终模型 ：

调参和算法选择在本质上时相同的。在不少应用任务中，参数调的好不好往往对最终模型性能有关键性影响。
通常把学得模型在实际使用中遇到的数据程为 “测试数据”，而在模型评估与选择中用于评估测试的数据集称为 “验证集”。也就是说，在研究对比不同算法的泛化性能时，我们用测试集上的判别效果来估计模型在实际使用时的泛化能力，而把训练数据另外划分为训练集和验证集，基于验证集上的性能来进行模型的选择和调参。

3、分类任务性能度量

衡量模型泛化能力的评价标准，就是性能度量 performance measure，不同的任务需求往往需要使用不同的性能度量。

3.1 错误率与精度

错误率 ：分类错误的样本数占样本总数的比例。
$E(f;D)=\begin{cases}\frac{1}{m}\sum_{m=1}^{m}\mathbb I（f(x_i) \not =y_i）& \text{ 样本离散} \\\int_{x\sim D} \mathbb I (f(x_i) \not =y_i）p(x) dx& \text{ 样本连续} \end{cases}$
精度：分类正确的样本数占样本总数的比例。
$acc(f;D)=1-E(f;D)=\begin{cases}\frac{1}{m}\sum_{m=1}^{m}\mathbb I（f(x_i) =y_i）& \text{ 样本离散} \\\int_{x\sim D} \mathbb I (f(x_i) =y_i）p(x) dx& \text{ 样本连续} \end{cases}$

3.2 查准率、查全率与F1

对于二分类问题，可将样例根据其真是类别与学习器预测类别得组合划分为真正例、假正例、真反例和假反例四种情形，分别记为TP、FP、TN和FN。显然，TP+FP+TN+FN=样例总数，且构成如下“混淆矩阵”：

查准率P：关注学习器预测为正例的样本中确实为正例的个数
$P=\frac{TP}{TP+FP}$
查全率R：关注在数据集全部的正例中被学习器预测出来的个数
$P=\frac{TP}{TP+FN}$

查准率与查全率是一对矛盾的度量。一般查准率高时，查全率往往低；查全率高时，查准率往往低。
绘制P-R图：根据学习器的预测结果对样例进行排序，排在前面的是学习器认为“最可能”是正例的样本,排在最后的则是学习器认为“最不可能”是正例的样本。按此顺序逐个把样本作为正例进行预测，则每次可以计算出当前的查全率、查准率。以查准率为纵轴、查全率为横轴作图。如下所示：

若一个学习器的P-R曲线被另一个学习器完全“包住”，则可断言后者优于前者。
若发生交叉，则难以一般性断言两者孰优孰劣，只能具体条件下进行比较。此时可根据P-R曲线下的面积大小作为比较依据。
图中 “平衡点”——“查准率 = 查全率” 也是综合考虑查准率、查全率的性能度量，可认为平衡点高的学习器优于低的学习器。

F1度量：除“平衡点”方式外的另一种综合考虑查准率、查全率的性能度量，是两者的调和平均。
$F1=\frac{2\times P\times R}{P+R}=\frac{2 \times TP}{样例总数+TP-TN}$
考虑到具体任务中对查准率和查全率有所偏好，其更一般的形式如下：
$F_ β=\frac{(1+β^2)\times P\times R}{(β^2\times P)+R}$

在以下情况我们将得到多个二分类混淆矩阵：
1. 进行多次训练/测试，每次得到一个混淆矩阵。
2. 在多个数据集上训练/测试，以期得到近似全局的性能。
3. 多分类任务两两类别组合都对应一个混淆矩阵。
所以希望在n个二分类混淆矩阵上综合考虑查准率和查全率，于是有：

宏F1 (macro-F1) : 先在个混淆矩阵上分别计算出查准率和查全率，再计算平均值得到“宏查准率”（macro-P）、“宏查全率”（macro-R），从而得出macro-F1。
${\raisebox{0mm}{-}} P=\frac{1}{n} \sum_{i=1}^{n}P_i \qquad macro{\raisebox{0mm}{-}}R=\frac{1}{n} \sum_{i=1}^{n}R_i$
$macro{\raisebox{0mm}{-}}F1=\frac{2\times macro{\raisebox{0mm}{-}}P\times macro{\raisebox{0mm}{-}}R}{macro{\raisebox{0mm}{-}}P+macro{\raisebox{0mm}{-}}R}$
微F1 (micro-F1) : 先将各混淆矩阵的对应元素进行平均,得到TP、FP、TN、FN的平均值，再基于这些平均值计算出“微查准率”（micro-P）、“微查全率”（micro-R），从而得出micro-F1:
${\raisebox{0mm}{-}} P=\frac{\overline{TP}}{\overline{TP}+\overline{FP}} \qquad micro{\raisebox{0mm}{-}}R=\frac{\overline{TP}}{\overline{TP}+\overline{FN}}$
$micro{\raisebox{0mm}{-}}F1=\frac{2\times micro{\raisebox{0mm}{-}}P\times micro{\raisebox{0mm}{-}}R}{micro{\raisebox{0mm}{-}}P+micro{\raisebox{0mm}{-}}R}$

3.3 ROC与AUC

ROC全称是“受试者工作特征”（Receiver Operating Characteristic）曲线，根据学习器的预测结果对样例进行排序，再按该顺序逐个把样本作为正例进行预测，每次计算出“假正例率”（False PositiveRate，简称FPR）和“真正例率”（True Positive Rate，简称TPR）这两个值，再分别以它们为横、纵坐标作图,就得到了“ROC曲线”。

$TPR=\frac{TP}{TP+FN} \qquad FPR=\frac{FP}{TN+FP}$
例图：

ROC图中，若一个学习器的ROC曲线被另一个学习器的曲线完全“包住”，则可断言后者性能优于前者。
- 若发生交叉，则难以给出一般性断言。此时可以将 ROC曲线下的面积AUC（Area Under ROC Curve） 作为较合理的判据。

3.4 代价敏感错误率与代价曲线

在前面介绍的性能度量中，都隐式地架设了均等代价。而为权衡不同类型错误所造成的不同损失，考虑为错误赋予“非均等代价”（unequal cost）。
如二分类中，可根据任务的领域知识设计如下“代价矩阵”：

非均等代价下，不再考虑简单地最小化错误次数，二是希望最小化“总体代价”（total cost）。对于上表，将第0类作为正类，第1类作为反类，令D⁺、D^-分别代表样例集D中正例集和反例集，则“代价敏感”（cost-sensitive）错误率为： $E(f;D;cost)=\frac{1}{m}（\sum_{x_i \in D^+}\mathbb I (f(x_i) \not =y_i）\times cost_{01}+\sum_{x_i \in D^-}\mathbb I (f(x_i) \not =y_i）\times cost_{10}）$
非均等代价下，使用“代价曲线”（cost curve）来直接反映学习器的期望总体代价。
曲线横轴是取值为[ 0,1 ]的正例概率代价：
$P(+)cost=\frac{p \times cost_{01}}{p \times cost_{01}+(1-p)\times cost_{10}} \qquad (q是样例为正例的概率)$
曲线纵轴是取值为[ 0,1 ]的归一化代价：
$cost_{norm}=\frac{FNR \times p\times cost{01}+FPR\times (1-p)\times cost_{10}}{p\times cost_{01}+(1-p)}\times cost_{10} \qquad (其中FPR是假正例率，FNR是假反例率)$
再按如下步骤绘制：ROC曲线上每一点对应了代价平面上的一条线段，设 ROC曲线上点的坐标为（TPR， FPR），则可相应计算出FNR，然后在代价平面上绘制一条从（0，FPR）到（1，FNR）的线段，线段下的面积即表示了该条件下的期望总体代价；如此将ROC曲线上的每个点转化为代价平面上的一条线段，然后取所有线段的下界，围成的面积即为在所有条件下学习器的期望总体代价。

4、统计假设检验

4.1 二项检验

4.2 t 检验

4.3 交叉验证 t 检验

4.4 McNemar检验（卡方检验）

4.5 Friedman检验与Nemenyi后续检验

5、期望泛化误差拆解

5.1 偏差

5.2 方差

5.3 噪声

OverflowError: Python int too large to convert to C long**：整数太大，无法转换为C类型long完美解决方法 ️ 默语 c语言开发语言
OverflowError:PythoninttoolargetoconverttoClong**：整数太大，无法转换为C类型long完美解决方法️OverflowError:PythoninttoolargetoconverttoClong**：整数太大，无法转换为C类型long完美解决方法️**摘要****1.引言****2.产生`OverflowError`的原因****2.1Python与
热门AI创作助手推荐【第一期】量子星澜文心一言 AI写作 chatgpt
星游AI创作助手人工智能在现代科技中的应用非常广泛，涵盖了诸多领域，包括但不限于以下几个方面：1.语音识别和自然语言处理：人工智能技术被广泛应用于语音识别和自然语言处理领域，例如智能助手、翻译系统、语音交互系统等。2.机器学习和数据分析：人工智能的机器学习算法被用于数据分析、预测建模、用户个性化推荐等领域，帮助企业做出更准确的商业决策。3.计算机视觉：人工智能在计算机视觉领域的应用包括图像识别、视
OpenAI Agents SDK 中文文档中文教程（1） wtsolutions openai agents sdk openai agents sdk python 中文文档教程
英文文档原文详见OpenAIAgentsSDKhttps://openai.github.io/openai-agents-python/本文是OpenAI-agents-sdk-python使用翻译软件翻译后的中文文档/教程。分多个帖子发布，帖子的目录如下：(1)OpenAI代理SDK，介绍及快速入门(2)OpenAIagentssdk,agents，运行agents，结果，流，工具，交接目录O
地基Python中列表（List）和数组（Array）区别天天向上杰 python 开发语言
在Python中，列表（List）和数组（Array）是两种不同的数据结构，主要区别体现在语法、内存管理和适用场景上。以下是详细对比：1.语法区别特性列表（List）数组（Array）定义方式用方括号[]定义需导入array模块，用array.array()构造函数元素类型可以存储不同类型的元素所有元素必须是同一类型（需指定类型码）类型码无类型码必须指定类型码（如'i'表示整数）示例代码：#列表m
地基Python常用的模块包及其用法天天向上杰 python 开发语言
Python标准库非常丰富，提供了大量内置模块，覆盖文件操作、数据处理、网络通信、系统交互等场景。以下是常用模块的详细说明及代码示例：1.文件与系统操作【os模块】处理操作系统相关功能（路径、目录、进程等）。importos#获取当前工作目录current_dir=os.getcwd()print("当前目录:",current_dir)#创建新目录os.makedirs("new_folder"
Web 开发都需要学什么？ Duiz33237 前端 html5 css3 web
Web开发是指开发和构建用于互联网的网站和应用程序的过程。它涉及使用各种编程语言、框架和技术来创建功能丰富、用户友好的网站和应用程序。常见的web开发技术包括HTML、CSS和JavaScript。HTML用于创建网页的结构，CSS用于样式和布局，而JavaScript用于实现交互和动态效果。此外，还有许多其他的编程语言和框架，如Python、PHP、Ruby、React、Angular等，用于开
Python-自定义装饰器玉米丛里吃过亏 python 装饰器
什么是装饰器？装饰器本质是一个函数，它可以在不改变原来的函数的基础上额外的增加一些功能。如常见的@classmethod，@staticmethod等都是装饰器,接下来记录下如何自定义个装饰器:刚刚说过了，装饰器的本质就是一个函数，所有想要自定义一个装饰器，首先自定义一个函数defdecorate(func):defwrapper(*args,**kwargs):print("定义一个装饰器")f
Python+Peewee 中 Model 操作的常见方法爱搬砖的程序猿. python 数据库
Peewee是一个轻量级的PythonORM（对象关系映射）库，它允许开发者使用Python类和对象来与数据库进行交互。在Peewee中，Model是一个核心概念，代表数据库中的一张表，下面详细介绍Peewee中Model操作的常见方法。1.创建表（create_table）该方法用于在数据库中创建与Model类对应的物理表。frompeeweeimport*#连接SQLite数据库db=Sqli
Python 爬虫体验心得：使用 requests 与 Spider 开启数据探索之旅爱搬砖的程序猿. python 网络爬虫
一、引言在当今数字化信息爆炸的时代，互联网上蕴含着海量的数据资源。对于开发者、数据分析师等人群而言，如何高效地从网页中提取所需数据成为一项关键技能。Python凭借其丰富的第三方库和简洁易懂的语法，成为了开发网络爬虫的首选语言。其中，requests库为我们处理HTTP请求提供了便捷的方式，而Scrapy框架中的Spider则可以帮助我们构建复杂的爬虫逻辑。本文将带领大家逐步学习如何使用reque
Python接入支付宝支付 I am not people python 开发语言
Python接入支付宝支付简介支付宝是一家早已在中国非常流行的在线支付服务提供商，近年来发展速度越来越快。由于支付宝提供的安全性和便利性，越来越多的用户开始在网站、移动应用程序等服务上使用支付宝支付，因此接入支付宝支付已成为许多业务的必要选择。在此文中，我们将介绍如何使用Python接入支付宝支付的基础步骤，包括：设置支付宝开发者帐号集成支付宝SDK创建支付请求向支付宝发起支付1.设置支付宝开发者
python 自定义装饰器详解 Panda_Boy_yi python python 自定义装饰器
先看一个例子defdeco(func):print("beforemyfunc()called.")func()print("aftermyfunc()called.")returnfunc@decodefmyfunc():print("myfunc()called.")#myfunc=deco(myfunc)#与上面的@deco等价myfunc()print("***********")myfu
install gdal in python 拙云 python GIS python gdal build
1.Preparespython27vcforpython27http://download.microsoft.com/download/7/9/6/796EF2E4-801B-4FC4-AB28-B59FBF6D907B/VCForPython27.msigdal1111sourcecode2.pre-installs2.1numpyinVisualC++2008commandprompt,r
Prompt工程全解析：从入门到精通的终极指南二川bro 智能AI 人工智能 prompt
Prompt工程全解析：从入门到精通的终极指南发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，可以分享一下给大家。点击跳转到网站。https://www.captainbed.cn/ccc一、Prompt设计核心法则1.1角色定位法则[角色设定]你是一位资深全栈工程师，拥有10年React和Node.js开发经验[任务要求]为电商系统设计购物车模块，要求：1.支持商品增删改查2.实时计算总价
Alipay SDK for Python 常见问题解决方案丁璟耀Optimistic
AlipaySDKforPython常见问题解决方案alipay-sdk-python-all支付宝开放平台AlipaySDKforPython项目地址:https://gitcode.com/gh_mirrors/al/alipay-sdk-python-all1.项目基础介绍和主要编程语言AlipaySDKforPython是支付宝官方提供的Python语言版本的SDK，用于帮助开发者快速接入
支付宝Python SDK官方教程滕妙奇
支付宝PythonSDK官方教程alipay-sdk-python-all支付宝开放平台AlipaySDKforPython项目地址:https://gitcode.com/gh_mirrors/al/alipay-sdk-python-all1.项目介绍alipay-sdk-python-all是支付宝提供的Python版本SDK，用于帮助开发者方便地集成到自己的应用程序中，实现与支付宝开放平台
一览无遗 python 自定义装饰器使用及原理详解 1_bit python flask python flask 开发语言装饰器
注意：先行知识python，本篇文章所有代码均为实际运行，为原理和逻辑讲解一、装饰器装饰器是python中的一种语法糖，虽然我不想用语法糖这个词来表达，但这句话写在了开头，我也不到用别的更准确的词来形容他了。如果你刚接触编程不久，不理解语法糖，也没关系；在这里我说语法糖并不会影响到你接下来的理解，我只是用它在赘述，作为了一种形容词。首先我们要搞懂装饰器是什么东西，其次搞懂装饰器的基础知识点，最后逐
新手村：线性回归-实战-波士顿房价预测嘉羽很烦机器学习线性回归算法回归
新手村：线性回归-实战-波士顿房价预测前置条件阅读：新手村：线性回归了解相关概念实验目的1.熟悉机器学习的一般流程2.掌握基础的数据处理方法3.理解常用的回归算法教学例子：预测房价（以波士顿房价数据集为例）本次实验，你将使用真实的波士顿房价数据集建立起一个房价预测模型，并且了解到机器学习中的若干重要概念和评价方法，请通过机器学习建立回归模型，即:Y=θ0+θ1×X1+θ2×X2+θ3×X3+⋯+θ
新手村：混淆矩阵嘉羽很烦机器学习机器学习
新手村：混淆矩阵一、前置条件知识点要求学习资源分类模型基础理解分类任务（如二分类、多分类）和常见分类算法（如逻辑回归、决策树）。《Hands-OnMachineLearningwithScikit-Learn》Python基础熟悉变量、循环、函数、列表、字典等基本语法。《PythonCrashCourse》或在线教程（如Codecademy）scikit-learn基础掌握模型训练、预测、评估的基
计算机视觉入门 109702008 人工智能 #深度学习计算机视觉人工智能
计算机视觉（ComputerVision）是一门涉及使机器能够从图像或者多维数据中提取信息，解释、理解并对物体或场景进行处理的学科。以下是一个基本的计算机视觉入门学习路线，旨在为刚刚接触这一领域的学习者提供指导。1.基础知识储备数学基础：线性代数、概率论和数理统计、微积分、优化理论。编程语言：掌握至少一门编程语言，Python是目前在计算机视觉领域最流行的语言，其次是C++。2.计算机视觉基础数字
Python 3.12 新特性解析及对开发效率的提升叶间清风1998 python 开发语言
目录一、性能优化（一）FasterCPython（二）新的内存管理机制二、新语法和语言特性（一）Self-typeannotations（二）PatternMatchingEnhancements三、标准库更新（一）NewModulesandFunctions（二）ImprovementstoExistingModulesPython作为一种广泛应用于数据科学、人工智能、Web开发等众多领域的编程
RAG技术深度解析：从基础Agent到复杂推理Deep Search的架构实践小爷毛毛（卓寿杰）系统架构与解决方案搜索推荐架构语言模型人工智能自然语言处理
重磅推荐专栏：《大模型AIGC》《课程大纲》《知识星球》本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域，包括但不限于ChatGPT和StableDiffusion等。我们将深入研究大型模型的开发和应用，以及与之相关的人工智能生成内容（AIGC）技术。通过深入的技术解析和实践经验分享，旨在帮助读者更好地理解和应用这些领域的最新进展一、什么是RAGAgent？1.从信息处理到智能生成在自然语言处
Python Lambda 表达式简介咱家阿星 python python 开发语言
PythonLambda表达式Python的lambda表达式目录什么是Lambda表达式？Lambda的语法规则常见示范例子高阶函数中的Lambda应用Lambda与其他Python特性的结合使用Lambda的优势与限制1.什么是Lambda表达式？Lambda表达式是一种匿名函数，即没有函数名的函数。它通常用于临时场景，不需要像普通函数那样定义多行代码。常规函数与Lambda函数的对比#常规函
代码质量的基石：Python 单元测试实战 (unittest vs pytest) 清水白石008 python Python题库 python 单元测试 pytest
代码质量的基石：Python单元测试实战(unittestvspytest)引言在软件开发的浩瀚征程中，代码质量是决定项目成败的关键因素。如同建筑物的地基，稳固的代码质量能够支撑起复杂而庞大的系统，反之则可能导致系统崩溃、维护困难，甚至安全漏洞。单元测试，作为保障代码质量的第一道防线，扮演着至关重要的角色。Python，作为一门以简洁优雅著称的编程语言，拥有丰富的测试框架，其中unittest和p
免费DeepSeek与ChatGPT（200美元/月）大比拼！小焱创作 chatgpt 人工智能人工智能写作 ai写作深度学习神经网络 ai
目录免费DeepSeek与ChatGPT（200美元/月）大比拼！免费DeepSeek与ChatGPT（200美元/月）大比拼！在人工智能领域，DeepSeek与ChatGPT无疑是两位耀眼的明星。前者以免费服务迅速崛起，后者则以200美元/月的订阅费维持其高端定位。两者之间的竞争，不仅引发了业界对AI技术发展的关注，更深刻地影响了现代生活的方方面面。本文将从基本概念、深层次解读、具体落地实操等多
【解锁机器学习：探寻数学基石】游戏乐趣机器学习人工智能
机器学习中的数学基础探秘在当今数字化时代，机器学习无疑是最具影响力和发展潜力的技术领域之一。从图像识别到自然语言处理，从智能推荐系统到自动驾驶，机器学习的应用无处不在，深刻地改变着我们的生活和工作方式。然而，在这看似神奇的机器学习背后，数学作为其坚实的理论基础，起着不可或缺的关键作用。毫不夸张地说，数学是打开机器学习大门的钥匙，是理解和掌握机器学习算法与模型的核心所在。想象一下，机器学习就像是一座
Python 文件操作基础咱家阿星 python python
Python文件操作基础在这篇将详细介绍如何打开文件、读写文件，以及如何处理文件操作中的异常。1.打开文件：open()open()函数用于打开文件，并返回一个文件对象，你可以通过这个对象操作文件内容。打开文件时，需要指定文件路径和操作模式。语法：file_object=open(file_path,mode)常见操作模式：模式描述'r'读取文件（默认模式），文件必须存在。'w'写入文件，如果文件
机器学习——正则化、欠拟合、过拟合、学习曲线代码的建筑师学习记录机器学习机器学习学习曲线过拟合欠拟合正则化
过拟合（overfitting）:模型只能拟合训练数据的状态。即过度训练。避免过拟合的几种方法：①增加全部训练数据的数量（最为有效的方式）②使用简单的模型（简单的模型学不够，复杂的模型学的太多），这里的简单指的是不要过于复杂③正则化（对目标函数后加上正则化项）：使得这个“目标函数+正则化项”的值最小，即为正则化，用防止参数变得过大（参数值变小，意味着对目标函数的影响变小），λ是正则化参数，代表正则
《Operating System Concepts》阅读笔记：p286-p308 操作系统
《OperatingSystemConcepts》学习第28天，p286-p308总结，总计23页。一、技术总结1.reentrantlock(可重入锁)(1)为什么称为reentrantlock？AthreadacquiresaReentrantLocklockbyinvokingitslock()method.Ifthelockisavailable—orifthethreadinvoking
ubuntu部署ssl证书 QC七哥建站技能 ubuntu ssl linux https
证书安装在进行证书安装前，需要将域名的DNS指定到你的ubuntu服务器节点上，ubuntu安装Let’sEncrypt证书步骤如下安装certbot工具aptupdateaptinstallcertbotpython3-certbot-nginx运行certbot命令进行证书安装对于nginxcertbot--nginx-dmydomain.com-dwww.mydomain.com对于apac
使用 PEP 420 命名空间包构建统一目录风格及可选功能支持
背景在Python项目开发中，随着代码包数量和复杂度的增加，为了更好地管理多个代码包的命名空间及其依赖，推荐使用PEP420提供的命名空间包功能。通过这种方式，可以构建属于同一发行商（vendor）下的多个独立代码包，且这些包可以分别位于不同的代码仓库中。在此基础上，某些代码包可能需要进一步支持可选功能模块（例如optional1和optional2），用户可以根据需要选择安装这些功能模块。本文将
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo

西瓜书第二章阅读笔记