Brandon Bryant

【论文笔记02】Active Learning For Convolutional Neural Networks: A Core-Set Approch，ICLR 2018

目录导引

系列传送
A Core-Set Approach
- 1 Abstract
- 2 Introduction
- - 2.1 CNN
  - 2.2 AL
  - 2.3 Tailor an al method
- 3 Related Works
- - 3.1 Active Learning
  - 3.2 Core-Set Selection
  - 3.3 Weakly-Supervised Deep Learning
- 4 Method
- - 4.0 Problem Definition
  - 4.1 Active Learning as a Set Cover
  - 4.2 Core-Sets for CNNs
  - 4.3 Solving the K-Center Problem
  - - 4.3.1 K-Greedy Algorithm
    - 4.3.2 Optimization
- 5 Experiments
- - CIFAR-10 CIFAR-100 SVHN
Reference

系列传送

我的论文笔记频道

【Active Learning】
【论文笔记01】Learning Loss for Active Learning, CVPR 2019
【论文笔记02】Active Learning For Convolutional Neural Networks: A Core-Set Approch, ICLR 2018
【论文笔记03】Variational Adversarial Active Learning, ICCV 2019
【论文笔记04】Ranked Batch-Mode Active Learning，ICCV 2016

【Transfer Learning】
【论文笔记05】Active Transfer Learning, IEEE T CIRC SYST VID 2020
【论文笔记06】Domain-Adversarial Training of Neural Networks, JMLR 2016

【Differential Privacy】

【Universum Learning】

A Core-Set Approach

论文传送《Active Learning For ConvolutionalNeural Networks: A Core-Set Approch》
这篇文章数学证明部分非常多，有兴趣可以去原文附录阅读定理和引理的证明，文中还引用了很多非常重要的结论，有其他文章中的证明。

从第四节开始是重点，笔者花费了一定时间才理解作者的优化思路。

1 Abstract

使用普适的框架、在非常丰富的有监督数据上进行训练，就使得卷积神经网络被成功地应用在很多识别和学习任务上。但由于收集大量带标签图片代价很高，这样的方法在实践中显得过于严格。一种减轻这个问题的方法就是找到一些巧妙策略，从很大的收集来的数据中选择若干图像进行标注，也就是主动学习。

作者的实证研究表明，很多文献（literature）中的主动学习经验规则（active learning heuristics）在应用到基于批量（查询）背景的CNN上并不高效。受他们的局限性启发，文章将主动学习问题定义为核心集合选择 core-set selection，也就是选择一个数据点集合，使得模型从中学习的成果在剩余的数据点上也有充满竞争力的表现。

作者更进一步提出一个理论成果，可以通过数据点的几何结构（geometry of the datapoints）来描绘任何被选择的子集的表现。作为主动学习算法，文章选择的子集应该要在选定的特征描述（characterization）下取得最好的结果。作者的实验表明他们提出的方法显著地超越了现有的图像分类实验的方法。

2 Introduction

2.1 CNN

最主要的缺点： 大量参数需要大量有标记数据训练

2.2 AL

目标： 在有限的标记预算下，什么样的找数据进行打标签方法可以在精度意义下达到最优。
特点： 主动学习算法迭代进行，每一轮选择一个数据集合进行标注。
局限： 已提出的主动学习算法在CNNs上的应用并不高效。作者认为主要的原因是批量抽样（batch acquisition/sampling）造成的 数据相关性。

注意，在CNN上应用主动学习必须要批量选取数据进行查询，这和传统的分类背景不同，原因是：

由于局部优化方法（local optimization methods），单个数据点的加入对于卷积神经网络的精度不会有统计意义上显著的影响。
每一次迭代都需要对模型在新的有标签数据集上训练到收敛，以准备进行下一轮查询。对于CNNs这么做代价也太大。

关于数据相关性，我的理解是：

让模型一次查询多个样本，模型会选择不确定但是相似的几个数据打包查询，这样实际上带来了冗余，也就是数据之间高度相关。

2.3 Tailor an al method

做法： Core-set selection
目标： In order to attack the unlabeled core-set problem for CNNs, we provide a rigorous bound between an average loss over any given subset of the dataset and the remaining data points via the geometry of the data points. As an active learning algorithm, we try to choose a subset such that this bound is minimized. Moreover, minimization of this bound turns out to be equivalent to the k-Center problem (Wolf, 2011) and we adopt an efficient approximate solution to this combinatorial optimization problem.
实证： We further study the behavior of our proposed algorithm empirically for the problem of image classification using three different datasets. Our empirical analysis demonstrates state-of-the-art performance by a large margin.

3 Related Works

3.1 Active Learning

3.2 Core-Set Selection

因为作者把主动学习任务定义为核心集合选择问题（Core-Set Selection），文献中最接近的问题自然是核心集合选择。这个问题是对一个完全标记的数据集进行挑选，选出一个子集以使模型在这上面训练的效果尽可能接近模型在完整训练集上的训练效果。作者总结具体的算法有：

Core-sets for SVM
Core-sets for k-Means and k-Medians
但没有 Core-sets for CNNs

无监督子集选择算法 是和作者的工作最相近的算法，It uses a facility location problem to find a diverse cover for the dataset. 作者的算法稍有不同，使用了一个不一样的facility location problem的公式。原来是用min-sum，作者用的是minimax的形式。更重要的是，作者是第一次把这种算法应用到主动学习问题上，并对于CNNs给出了理论上的保证。

3.3 Weakly-Supervised Deep Learning

4 Method

4.0 Problem Definition

Notation	Explanation
$X$	特征空间
$Y={1,...,C}$	标签空间
$\times Y -> R$	损失函数
$\eta_c(x)=p(y=c\\|x)$	各类专用的回归函数， $\lambda^\eta-Lipschitz$ 连续
$\times Y$	总体
$\{x_i, y_i\}_{i\in[n]}$	从总体概率分布 $p_z$ 中i.i.d抽出 $n$ 个无标签数据
$s^0=\{s^0(j)\in[n]\}_{j\in[m]}$	初始化有标签数据集，大小为 $m$
$A_s$	用有标签数据集 $s$ 进行训练得到的参数
$b$	每一轮查询的预算，即查询的个数

基于池的主动学习第一轮查询的目标被定义为
$\mathop {\min }\limits_{ {s^1}:|{s^1}| \le b} {E_{x,y\in{Z}}}[l(x,y;{A_{ {s^0} \cup {s^1}}})] \tag{1}$
第 $k + 1$ 轮查询的目标实际上就是
$\mathop {\min }\limits_{ {s^{k+1}}:|{s^{k+1}}| \le b} {E_{x,y\in{Z}}}[l(x,y;{A_{ {s^0} \cup {s^1}...\cup {s^{k+1}}}})] \tag{2}$
每一轮查询完数据之后都要对模型进行重新的训练，然后进行评估。训练可以采用两种方式

纯监督
半监督，把 $\in [n] and \notin s$ 的无标签数据也拿来用

4.1 Active Learning as a Set Cover

${E_{x,y\in Z}}[l(x,y;{A_s})] \le \\ |{E_{x,y\in Z}}[l(x,y;{A_s})] - \frac{1}{n}\sum\limits_{i \in [n]} {l({x_i},{y_i};{A_s})} | + \\ \frac{1}{ {|s|}}\sum\limits_{j \in s} {l({x_j},{y_j};{A_s})} +\\ |\frac{1}{n}\sum\limits_{i \in [n]} {l({x_i},{y_i};{A_s})} - \frac{1}{ {|s|}}\sum\limits_{j \in s} {l({x_j},{y_j};{A_s})} | \tag{3}$

第一部分：generalization error 由于是同分布，泛化能力好。而且被系统研究过，可以把这部分误差界定住(Xu & Mannor(2012))
第二部分：training error 可以非常非常小
第三部分：core-set error 本文关注的关键部分

后文作者假设training error == 0，generalization error 也忽略了

根据文中的定理，我们对core-set error可以求出这样的上界
$|\frac{1}{n}\sum\limits_{i \in [n]} {l({x_i},{y_i};{A_s})} - \frac{1}{ {|s|}}\sum\limits_{j \in s} {l({x_j},{y_j};{A_s})} | \le \delta ({\lambda ^l} + {\lambda ^\mu }LC) + \sqrt {\frac{ { {L^2}\log (1/\gamma )}}{ {2n}}} \tag{4}$
其中，损失函数 $l (\cdot, y; w)$ 对于任意固定的 $y, w$ 满足 $\lambda^l-Lipschitz$ 连续条件，回归函数满足 $\lambda^\eta-Lipschitz$ 连续条件，s 是训练集 $\{x_i, y_i\}_{i\in[n]}$ 的一个 $\delta_s$ 覆盖，并且有概率 $1-\gamma$ 使得 $l(x_{s(j)}, y_{s(j)};A_s)=0, \forall j \in[m]$

由于假设training error == 0，上式左侧可以直接写为 $\frac{1}{n}\sum\limits_{i \in [n]} {l({x_i},{y_i};{A_s})}$

上界部分可以简略地写成阶的形式，文中还给出了这张可视化图：
蓝色的点就是有标签数据集 $s$ 中的点，红色的就是 [n]\s 中的点，对每一个蓝色点做半径为 $\delta_s$ 的邻域，并集就是一个覆盖。上界只和 $\delta_s$ 与 $\sqrt{\frac{ {1}}{ {n}}}$ 有关，但是 $n$ 在一个问题中固定，我们就只需要最小化 $\delta_s$ 来让总体损失最小化。

4.2 Core-Sets for CNNs

最后目标就化简成了让 $\delta$ 覆盖最小化：
${\min _{ {s^1}:|{s^1} \le b|}}{\delta _{ {s^0} \cup {s^1}}}$
更直白的
$\mathop {\min }\limits_{ {s^1}:|{s^1} \le b|} \mathop {\max }\limits_i \mathop {\min }\limits_{j \in {s^1} \cup {s^0}} \Delta ({x_i},{x_j}) \tag{5}$
最小化覆盖半径 $\delta$ 就是让无标签数据离有标签数据最近距离的最大值最小化。

4.3 Solving the K-Center Problem

4.3.1 K-Greedy Algorithm

这是一个NP问题，但是可以用K-Greedy算法得到一个** 2-OPT solution**，这样得到的结果有理论保证，如果设
$\mathop {\min }\limits_{ {s^1}:|{s^1}| \le b} \mathop {\max }\limits_i \mathop {\min }\limits_{j \in {s^1} \cup {s^0}} \Delta ({x_i},{x_j})$
那么有
$\mathop {\max }\limits_i \mathop {\min }\limits_{j \in {s^1} \cup {s^0}} \Delta ({x_i},{x_j}) \le 2*OPT$
语言表达起来就是贪心算法选择的查询集合不一定导致最优的 $\delta_{s^0\cup s^1}$ 但是不会超过两倍的最优值。即加载 $O P T$ 和 $2 O P T$ 之间。

贪心算法流程图：

在一次迭代中选择b个无标签数据，分b次选择。每一次选择与当前有标签数据点距离最远的那个无标签数据，并把它加入到有标签数据之中。故需要注意这b次选择和直接选b个不同。

4.3.2 Optimization

混合整数规划问题（Mixed Integer Program，MIP）
- 该规划问题含参数 $\delta$
- 规划问题有解（feasble）的时候. 说明 $\le \delta$
- 该规划问题允许有标签数据的 $\delta$ 覆盖放空 $\Xi$ 个点，不被覆盖。用于提升模型的鲁棒性，免受个别 $o u t l i e r$ 的影响。
通过二分查找（binary search）找到OPT的确切值
将OPT确切值带入规划问题，解出哪些点应该被当作有标签数据，完成迭代。

MIP具体形式如下：
对其中的符号做如下解释

Notation	Explanation
$u_j$	当一个数是有标签的， $u_j=1$
$\xi_{i,j}$	当数据 $i$ 离有标签数据 $j$ 最近且不在 $\delta$ 覆盖内 $\xi_{i,j}=1$
$w_{i,j}$	数据 $i$ 离有标签数据 $j$ 最近，被覆盖或者属于上面那类
$\Delta(x_i,x_j)$	两个数据输出的概率分布之间的 $l_2$ 距离
$\Xi$	可以当作 $o u t l i e r$ 不被覆盖的个数

算法结构如下：

一开始先用贪心算法做了一个初始化的查询集合 $s_g$ 。之后通过二分查找获得 $O P T$ 的真实值，在 $M I P$ 中代入 $\delta = OPT$ 求解出 ${i s.t.u_i = 1\}$

关于其中的二分查找，稍作说明。
算法流程中的 $u b$ 就是 $O P T$ 的 $u p p e r b o u n d$ ， $l b$ 就是 $O P T$ 的 $l o w e r b o u n d$ 。因为通过贪心算法得到的 $\delta_{2-OPT} \le 2OPT$ ，那么有 $\frac{ {\delta_{2-OPT}}}{ {2}} \le OPT \le \delta_{2-OPT}$ 我们把两端分别作为 $u b$ 和 $l b$ 的初始化值，然后就进行二分查找，直到 $u b = l b$ ，就找到了 $O P T$ 的值。

查找的过程中，如果 $M I P$ 问题有解，说明 $\le OPT \le \frac{ {lb+ub}}{ {2}}$ ，那我们需要把 $u b$ 变小；反之亦然，这就是 $i f - e l s e$ 的作用。

5 Experiments

CIFAR-10 CIFAR-100 SVHN

上图是作者的方法与其他方法对比的结果，上面一排是进行弱监督学习，即在有标签数据集 $s$ 之外，也利用了 [n]\ $s$ 的信息。下面一排是纯监督学习，只利用 $s$ 。
作图说明作者方法和基于不确定性查询相比，查询的结果在 $F e a t u r e M a p$ 上分布更加均匀，有利于总体分布的表现，效果更好。

右下角的图说明对于贪心算法2-OPT solution的优化是有明显效果的。

Reference

[1] Sener O, Savarese S. Active learning for convolutional neural networks: A core-set approach[J]. arXiv preprint arXiv:1708.00489, 2017.
[2] https://arxiv.org/pdf/1708.00489.pdf),

Python编程电子书：从基础到实践王奥雷
本文还有配套的精品资源，点击获取简介：Python电子书汇集了基础语法、面向对象编程、标准及第三方库使用、文件操作、网络编程、并发编程、单元测试与调试、Python2与Python3的区别等核心知识点。通过实例和项目案例，帮助读者在Web开发、数据分析、人工智能等应用领域提升编程技能，跟上Python的技术进步。1.Python基础语法介绍Python作为一种高级编程语言，其易读性和简洁的语法使其
开源模型应用落地-OpenAI Agents SDK-集成MCP与Qwen3-8B模型的创新应用探索（七）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言在人工智能技术飞速发展的今天，如何将先进的模型和技术无缝结合，成为推动行业变革的关键。OpenAIAgents通过集成模型上下文协议（MCP）和阿里巴巴推出的Qwen3-8B模型，正开启一场智能应用的革命。这种创新的结合不仅提升了AI代理与外部工具之间的通信能力，还在多模态任务处理、个性化服务等领域展现出巨大潜力。本文将深入探讨这一技术组合的实际应用场景，揭示其在改善客户体验和提升运营效率
开源模型应用落地-OpenAI Agents SDK-集成Qwen3-8B-探索output_guardrail的创意应用（六）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言随着人工智能技术的迅猛发展，大语言模型（LLM）在各行各业的应用日益广泛。然而，模型生成的内容是否安全、合规、符合用户预期，成为开发者和企业不可忽视的问题。为此，OutputGuardrail应运而生，作为一种关键的安全机制，它在模型生成结果之后进行内容审核与过滤，确保输出不偏离道德、法律和业务规范。通过检测不当的内容，不仅提升了AI系统的可信度，也为构建更加稳健和负责任的人工智能应用提供
什么是深度学习框架中的计算图？杰瑞学AI Computer knowledge NLP/LLMs AI/AGI 深度学习人工智能 pytorch
在深度学习框架中，计算图是核心的数据结构和抽象概念，它用来表示和定义深度学习模型的计算过程。我们可以把它想象成一个描述数学运算如何组合和执行的有向图。以下是计算图的关键要素和作用：节点：代表操作或变量。操作：数学运算，如加法(+)、乘法(*)、矩阵乘法(matmul)、激活函数(ReLU,sigmoid)、卷积(conv2d)、损失函数(cross_entropy)等。变量：通常是张量，即存储数据
开源模型应用落地-让AI更懂你的每一次交互-Mem0集成Qdrant、Neo4j与Streamlit的创新实践（四）开源技术探险家开源模型-实际应用落地 neo4j 开源人工智能语言模型
一、前言在人工智能迅速发展的今天，如何让AI系统更懂“你”？答案或许藏在个性化的记忆管理之中。Mem0作为一个开源的记忆管理系统，正致力于为AI赋予长期记忆与个性化服务能力。通过结合高性能向量数据库Qdrant、图数据库Neo4j的强大关系分析能力以及Streamlit的高效可视化交互，我们可以打造出一个既能存储用户历史行为、又能实时推理并展示结果的智能记忆助手。本文将带您一步步探索这一技术组合的
【优秀文章】7月优秀文章推荐
优秀文章智能自主运动体与人工智能技术——环境感知、SLAM定位、路径规划、运动控制、多智能体协同作者：fpga和matlabC++之红黑树认识与实现作者：zzh_zao【手把手带你刷好题】–C语言基础编程题(十)作者：草莓熊Lotso飞算JavaAI：从“码农”到“代码指挥官”的终极进化论作者：可涵不会debug前端网页开发学习（HTML+CSS+JS）有这一篇就够！作者：一颗小谷粒
蛋白质结构预测/功能注释/交互识别/按需设计，中国海洋大学张树刚团队直击蛋白质智能计算核心任务 hyperai
蛋白质作为生命活动的主要承担者，在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设计效率低下等挑战。近年来，生命科学对蛋白质复杂特性解析的需求日益迫切，大数据、深度学习、多模态计算等技术的突破性发展，为构建蛋白质智能计算体系提供了全新的发展契机。蛋白质智能计算体系的构建，使得蛋白质在大规模功能注释、交互预测及三维结构建模等领域取得显著成果，为药物发现与生
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
【计算机毕业设计】基于Springboot的办公用品管理系统+LW 枫叶学长(专业接毕设) Java毕业设计实战案例课程设计 spring boot 后端
博主介绍：✌全网粉丝3W+,csdn特邀作者、CSDN新星计划导师、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：
MongoDB + Voyage AI 详解：重塑数据库与AI的协同范式 csdn_tom_168 NoSQL 数据库 mongodb 人工智能 AI
MongoDB+VoyageAI详解：重塑数据库与AI的协同范式2025年2月，MongoDB官方宣布收购VoyageAI，这一举措标志着数据库与人工智能技术的深度融合迈入新阶段。通过整合VoyageAI的先进AI检索与嵌入模型能力，MongoDB旨在重新定义AI时代的数据库架构，为企业构建智能应用提供端到端的数据基础设施。一、收购背景与技术战略1.行业趋势驱动AI数据挑战：随着生成式AI与大语言
HarmonyOS5.0仓颉引擎与盘古大模型：个性化作业批改系统架构设计与实现 H老师带你学鸿蒙系统架构 HarmonyOS5.0 鸿蒙华为仓颉教育
人工智能与边缘计算的融合正在重塑教育评价体系。本文将展示如何基于HarmonyOS5.0仓颉并发引擎和盘古大模型，构建新一代智能作业批改系统。系统架构全景graphTDA[学生端设备]-->|提交作业|B[仓颉边缘处理]B-->C[盘古大模型分析]C-->D[个性化反馈生成]D-->E[学生终端]D-->F[教师仪表盘]subgraphHarmonyOS分布式系统B-->|设备协同|G[教室平板集
阿里云瑶池数据库 Data Agent for Meta 正式发布，让 AI 更懂你的业务！数据库观点资讯人工智能
背景随着生成式人工智能（GenerativeAI）从概念验证迈向规模化商业落地，AIAgent已成为企业核心业务流程的重要组成部分。然而，当模型调用日益便捷时，核心痛点已不再是模型本身，而是集中在一个关键要素上：数据。AIAgent的落地瓶颈已从技术能力转向高质量、高相关性、安全合规的数据供给。企业面临的核心挑战在于：数据孤岛导致知识库分散，通用大模型难以理解专业业务传统数据管理依赖人工开发维护，
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
使用 C++ 实现 MFCC 特征提取与说话人识别系统 whoarethenext c++开发语言 mfcc 语音识别
使用C++实现MFCC特征提取与说话人识别系统在音频处理和人工智能领域，C++凭借其卓越的性能和对硬件的底层控制能力，在实时音频分析、嵌入式设备和高性能计算场景中占据着不可或缺的地位。本文将引导你了解如何使用C++库计算核心的音频特征——梅尔频率倒谱系数(MFCCs)，并进一步利用这些特征构建一个说话人识别（声纹识别）系统。Part1:在C/C++中计算MFCCs直接从零开始实现MFCC的所有计算
ImportError: /nvidia/cusparse/lib/libcusparse.so.12: undefined symbol: __nvJitLinkComplete_12_4 爱编程的喵喵 Python基础课程 python ImportError torch nvJitLink 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:/home/
【机器学习笔记 Ⅱ】11 决策树模型巴伦是只猫机器学习机器学习笔记决策树
决策树模型（DecisionTree）详解决策树是一种树形结构的监督学习模型，通过一系列规则对数据进行分类或回归。其核心思想是模仿人类决策过程，通过不断提问（基于特征划分）逐步逼近答案。1.核心概念节点类型：根节点：起始问题（最佳特征划分点）。内部节点：中间决策步骤（特征判断）。叶节点：最终预测结果（类别或数值）。分支：对应特征的取值或条件判断（如“年龄≥30？”）。2.构建决策树的关键步骤(1)
【机器学习笔记 Ⅱ】10 完整周期
机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标：明确业务需求与机器学习任务的匹配性。关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC
【机器学习笔记Ⅰ】13 正则化代价函数
正则化代价函数（RegularizedCostFunction）详解正则化代价函数是机器学习中用于防止模型过拟合的核心技术，通过在原始代价函数中添加惩罚项，约束模型参数的大小，从而提高泛化能力。以下是系统化的解析：1.为什么需要正则化？过拟合问题：当模型过于复杂（如高阶多项式回归、深度神经网络）时，可能完美拟合训练数据但泛化性能差。解决方案：在代价函数中增加对参数的惩罚，抑制不重要的特征权重。2.
【机器学习笔记Ⅰ】6 多类特征巴伦是只猫机器学习机器学习笔记人工智能
多类特征（Multi-classFeatures）详解多类特征是指一个特征（变量）可以取多个离散的类别值，且这些类别之间没有内在的顺序关系。这类特征是机器学习中常见的数据类型，尤其在分类和回归问题中需要特殊处理。1.核心概念(1)什么是多类特征？定义：特征是离散的、有限的类别，且类别之间无大小或顺序关系。示例：颜色：红、绿、蓝（无顺序）。城市：北京、上海、广州（无数学意义的大小关系）。动物类别：猫
图像分割技术详解：从原理到实践 lanjieying
本文还有配套的精品资源，点击获取简介：图像分割是图像处理领域将图像分解为多个区域的过程，用于图像分析、特征提取等。文章介绍了图像分割的原理，并通过一个将图像划分为2*4子块的示例，展示了如何使用Python和matplotlib库中的tight_subplot函数进行图像分割和展示。文章还探讨了图像分割在不同领域的应用，以及如何在机器学习项目中作为数据预处理步骤。1.图像分割基本概念在图像处理领域
机器学习笔记——支持向量机 star_and_sun 机器学习笔记支持向量机
支持向量机参数模型对分布需要假设（这也是与非参数模型的区别之一）间隔最大化，形式转化为凸二次规划问题最大化间隔间隔最大化是意思：对训练集有着充分大的确信度来分类训练数据，最难以分的点也有足够大的信度将其分开间隔最大化的分离超平面的的求解怎么求呢？最终的方法如下1.线性可分的支持向量机的优化目标其实就是找得到分离的的超平面求得参数w和b的值就可以了注意，最大间隔分离超平面是唯一的，间隔叫硬间隔1.1
【机器学习&深度学习】多分类评估策略一叶千舟深度学习【理论】深度学习【应用必备常识】大数据人工智能
目录前言一、多分类3大策略✅宏平均（MacroAverage）✅加权平均（WeightedAverage）✅微平均（MicroAverage）二、类比理解2.1宏平均（MacroAverage）2.1.1计算方式2.1.2适合场景2.1.3宏平均不适用的场景2.1.4宏平均一般用在哪些指标上？2.1.5怎么看macroavg指标？2.1.6宏平均值低说明了什么？2.1.7从宏平均指标中定位模型短板
网络安全相关专业总结（非常详细）零基础入门到精通，收藏这一篇就够了网络安全工程师教学兼职副业黑客技术网络安全 web安全安全人工智能网络运维
一、网络工程专业专业内涵网络工程是指按计划进行的以工程化的思想、方式、方法，设计、研发和解决网络系统问题的工程，一般指计算机网络系统的开发与构建。该专业培养具备计算机科学与技术学科理论基础，掌握网络技术领域专业知识和基本技能，在计算机、网络及人工智能领域的工程实践和应用方面受到良好训练，具有深厚通信背景、可持续发展、能力较强的高水平工程技术人才。学生可在计算机软硬件系统、互联网、移动互联网及新一代
【机器学习笔记Ⅰ】7 向量化巴伦是只猫机器学习机器学习笔记人工智能
向量化（Vectorization）详解向量化是将数据或操作转换为向量（或矩阵）形式，并利用并行计算高效处理的技术。它是机器学习和数值计算中的核心优化手段，能显著提升代码运行效率（尤其在Python中避免显式循环）。1.为什么需要向量化？(1)传统循环的缺陷低效：Python的for循环逐元素操作，速度慢。代码冗长：需手动处理每个元素。示例：计算两个数组的点积（非向量化）a=[1,2,3]b=[4
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
《北京市加快推动“人工智能+医药健康“创新发展行动计划（2025-2027年）》深度解读
引言随着新一轮科技革命和产业变革的深入推进，人工智能技术与医药健康的深度融合已成为全球科技创新的重要方向。北京市于2025年7月正式发布《北京市加快推动"人工智能+医药健康"创新发展行动计划（2025-2027年）》，旨在充分发挥北京在人工智能技术策源、头部医疗资源汇聚、健康数据高度富集等方面的突出优势，构建形成"人工智能+医药健康"创新和应用并举的产业生态体系，打造具有国际影响力的创新策源地、应
李宏毅2025《机器学习》第四讲-Transformer架构的演进
Transformer架构的演进与替代方案：从RNN到Mamba的技术思辨Transformer作为当前AI领域的标准架构，其设计并非凭空而来，也并非没有缺点。本次讨论的核心便是：新兴的架构，如MAMA，是如何针对Transformer的弱点进行改进，并试图提供一个更优的解决方案的。要理解架构的演进，我们必须首先明确一个核心原则：每一种神经网络架构，都有其存在的技术理由。CNN（卷积神经网络）：为
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL