静静的喝酒

机器学习笔记之K近邻学习算法

引言
- 回顾：投票法
- 回顾：明可夫斯基距离
- $\mathcal K$ 近邻算法
- - 算法描述
  - $\mathcal K$ 值的选择
  - 小插曲：懒惰学习与急切学习
- $\text{KD}$ 树描述及示例
- $\mathcal K$ 近邻 $\text{ VS }$ 贝叶斯最优分类器

引言

本节将介绍 $\mathcal K$ 近邻学习算法的理论描述。

回顾：投票法

详见《机器学习》(周志华著) P182 8.4.2 投票法

在介绍集成学习—— $\text{Bagging}$ 中针对分类任务，通常以多数表决的方式决定样本最终预测的归属类别，这种方式能够有效消除样本预测结果的方差信息。

当然，投票法( $\text{Voting}$ )并非只有多数表决一种方式，这里整理了几种投票方式：

场景构建：
已知数据集合 $\mathcal D = \{(x^{(i)},y^{(i)})\}_{i=1}^N$ ，针对一个多分类任务，假设其存在 $\mathcal K$ 个分类，并将 $y^{(i)}(i=1,2,\cdots,N)$ 所有可能取值的标签结果组成的集合 $\mathcal L$ 称作标记集合：
$y^{(i)} \in \mathcal L = \{\mathcal C_1,\mathcal C_2,\cdots,\mathcal C_{\mathcal K}\} \quad i=1,2,\cdots,N$
在模型学习完成后，针对某个陌生样本 $\hat x$ ，通过某学习器 $h_t(\cdot)$ 预测结果记作 $h_t(\hat x)$ 。该结果可表示成一个 $\mathcal K$ 维向量形式，并且向量中的每一个分量 $h_t^{k}(\hat x)(k=1,2,\cdots,\mathcal K)$ 表示：学习器 $h_t(\hat x)$ 在标签结果 $\mathcal C_k$ 上的输出信息：
$h_t(\hat x) = \left[h_t^{1}(\hat x),h_t^{2}(\hat x),\cdots,h_t^{\mathcal K}(\hat x)\right]_{\mathcal K \times 1}^T$
这个输出信息 $h_t^{k}(\hat x)$ 可能是一个概率值 $\mathcal P(\mathcal C_k \mid \hat x) \mid h_t(\cdot)$ ；也有可能 $\in \{0,1\}$ 。但不可否认的是， $h_t(\hat x)$ 中所有分量之和必然等于 $1$ ：
- 因为最终只会选择一个标记作为 $\hat x$ 标签的预测结果。
- 通常将概率值作为输出的投票方式称为软投票 $(\text{Soft Voting})$ ；反之,将 ${0,1\}$ 作为输出的投票方式称为硬投票 $(\text{Hard Voting})$ 。
  $\sum_{k=1}^{\mathcal K} h_t^{k}(\hat x) = 1$
  相应地，假设该模型中存在 $\mathcal T$ 个学习器，那么必然有：
  $\sum_{t=1}^{\mathcal T} \sum_{k=1}^{\mathcal K} h_t^{k}(\hat x) = \mathcal T$
多数表决 $/$ 绝对多数投票法 $(\text{\text{Majority Voting}})$ 。该投票法的思想是：若某标签结果得票超过半数，则预测为该结果；否则拒绝预测。
这里 $\mathcal H(x)$ 表示包含 $\mathcal T$ 的完整模型。可以看出 $\mathcal H(\hat x)$ 有可能无解(拒绝预测)。若学习任务要求必须提供预测结果，该方法则退化为相对多数投票法。
$\mathcal H(\hat x) = \begin{cases} \begin{aligned} \mathcal C_k \quad \text{if }\text{ }\sum_{t=1}^{\mathcal T} h_t^{k}(\hat x) > \frac{1}{2} \sum_{t=1}^{\mathcal T}\sum_{k=1}^{\mathcal K} h_t^{k}(\hat x) \end{aligned} \\ \text{Reject} \quad \text{Otherwise} \end{cases}$
相对多数投票法 $(\text{Plurality Voting})$ 。相比于绝对多数投票法，该方法就是将预测结果设置为投票最多的标签结果。若同时存在多个标签结果获得最高票数，从这些结果中随机选取一个即可：
通常将‘绝对多数投票法’,‘相对多数投票法’统称为'多数投票法'。
$\begin{cases} \hat {\mathcal C} = \mathcal C_{\mathop{\arg\max}\limits_{k} \sum_{t=1}^{\mathcal T} h_t^{k}(\hat x)}\\ \mathcal H(\hat x) = \hat {\mathcal C} \end{cases}$
加权投票法。观察相对多数投票法中所有学习器 $h_t(\cdot) (t=1,2,\cdots,\mathcal T)$ 对某标签 $\mathcal C_k$ 的权重结果均相同。加权投票法通过设置权重来区分各学习器的重要程度：
$\begin{cases} \mathcal H(\hat x) = \mathcal C_{\mathop{\arg\max}\limits_{k}\sum_{t=1}^{\mathcal T} \mathcal W_t \cdot h_t^{k}(\hat x)} \\ \begin{aligned} \mathcal W_t \geq 0;\sum_{t=1}^{\mathcal T} \mathcal W_t = 1 \end{aligned} \end{cases}$

回顾：明可夫斯基距离

在 $\text{K-Means}$ 算法中介绍过明科夫斯基距离 $(\text{Minkowski Distance})$ 。其是空间中两点 $x^{(i)},x^{(j)}$ 之间距离的一种描述：
$\text{Dist}_{mk}(x^{(i)},x^{(j)}) = \left[\sum_{k=1}^p \left|x_k^{(i)} - x_k^{(j)}\right|^m\right]^{\frac{1}{m}}$
其中 $p$ 表示样本点 $x^{(i)},x^{(j)}$ 随机变量/维度数量。当 $m = 1$ 时的明可夫斯基距离为曼哈顿距离 $(\text{Manhattan Distance})$ 。也就是 $L_1$ 范数：
$\text{Dist}_{man}(x^{(i)},x^{(j)}) = \sum_{k=1}^p |x_k^{(i)} - x_k^{(j)}|$
同理，当 $m = 2$ 时候的同理，当 $m = 2$ 时的明可夫斯基距离为欧式距离 $(\text{Euclidean Distance})$ 。也就是 $L_2$ 范数：
$\text{Dist}_{ed}(x^{(i)},x^{(j)}) = \sqrt{\sum_{k=1}^p |x_k^{(i)} - x_k^{(j)}|^2}$

$\mathcal K$ 近邻算法

算法描述

$\mathcal K$ 近邻 $(\text{K-Nearest Neighbor algorithm,KNN})$ 是一种常用的监督学习方法。它的工作流程可表示为如下形式：

给定测试样本，以及训练数据集；
基于某种距离度量找出训练集内与其最接近的 $\mathcal K$ 个样本；
基于该 $\mathcal K$ 个样本的信息对测试样本进行预测：
关于不同任务，可以基于距离远近进行加权平均/加权投票。距离测试样本越近的样本点权重越大。
- 如果是分类任务，关于测试样本的预测标签可使用投票法进行预测；
- 如果是回归任务，关于测试样本的预测标签可用平均法进行预测。即使用 $\mathcal K$ 个样本标签信息的均值作为测试样本的预测结果。

假设我们使用 $\mathcal K$ 近邻算法处理一个分类任务，见下图：

其中 $x_{test}$ 表示测试样本点；
分析过程中并没有使用‘加权投票’。

褐色圆表示 $\mathcal K =1$ 时的判别范围。其中包含蓝色点 $1$ 个大于红色点 $0$ 个，最终测试样本点 $x_{test}$ 判别为蓝色；
黑色圆表示 $\mathcal K = 3$ 时的判别范围。其中包含蓝色点 $1$ 个小于红色点 $2$ 个，最终测试样本点 $x_{test}$ 被判别为红色；
蓝色圆表示 $\mathcal K = 5$ 时的判别范围。其中包含蓝色点 $2$ 个小于红色点 $3$ 个，最终测试样本点 $x_{test}$ 被判别为红色；

很显然， $\mathcal K$ 是一个重要参数，当 $\mathcal K$ 取不同值时，我们关于测试样本点的判别结果有可能存在差异；同理，如果使用不同的距离计算方式，可能会找到不同的近邻结果，从而会影响最终的判别结果。
上述示例中使用欧式距离作为距离计算方式。

$\mathcal K$ 值的选择

$\mathcal K$ 值自身的意义在于满足某种距离计算方式的条件下，符合条件的样本数量。这意味着 $\mathcal K$ 是一个 $> 0$ 的整数：

如果选择较小的 $\mathcal K$ 值，这意味着选择样本的方式是局部的——只有与测试样本点最近似的 $\mathcal K$ 个样本点才会对预测结果起作用，这会出现：我们可能并没有对分布进行完整的认识，仅使用很小一部分子集对测试样本进行判别。这种做法会使得预测结果的偏差很小/很准确，但预测结果的方差很大(相同类别的测试样本可能因各自的小子集结果不同而产生不同的判别结果)，从而容易发生过拟合 $(\text{Over-Fitting})$ 现象。
相反，如果选择较大的 $\mathcal K$ 值，此时的选择样本的方式是宽泛的。如果 $\mathcal K$ 过大，会导致与测试样本点不相似 的其他样本点涵盖进来，从而对大范围的样本进行投票/均值。这会导致回归任务中，两个特征相差较大的样本点经过 $\mathcal K$ 值的平均操作，反而相差不大。这意味着预测结果的方差很小。从而容易发生欠拟合 $(\text{Under-Fitting})$ 现象。
当 $\mathcal K$ 值大到极限，此时 $\mathcal K$ 等于样本点总数 $N$ 。以分类任务为例，每一次判别测试样本点的类别信息时，要将所有样本点放在一起去投票。由于训练集内的样本相对于真实分布是不完整的，而我们此时通过各类别样本数量多少来判别结果，这明显是不合理的。

小插曲：懒惰学习与急切学习

上面介绍了 $\mathcal K$ 近邻算法的执行过程。我们发现它和其他算法的不同之处在于—— $\mathcal K$ 近邻算法没有显式的训练过程/没有训练所谓的模型。直接是已知样本空间，将测试样本点放入样本空间中找到对应位置，通过最近的 $\mathcal K$ 个样本点判别测试样本点信息。

我们称这种训练代价为零，待收到测试样本后再进行处理的方式称作懒惰学习 $(\text{Lazy Learning})$ ；
相反，那些在训练阶段就对样本进行学习和处理的算法(如神经网络等)，被称作急切学习 $(\text{Eager Learning})$ 。

它们各自的特点也是十分明显的：

急切学习虽然在训练过程中耗费了时间进行训练，但在测试/决策过程中花费时间几乎为 $0$ 。此时消耗的内存空间也因训练时模型参数的固定而确定；
懒惰学习没有训练过程，但在决策过程消耗时间较长。就以 $\text{KNN}$ 自身为例。仅仅计算测试样本点最近的 $\mathcal K$ 个样本的信息，就需要对训练集内的所有样本点进行 距离计算和排序，决策时间较慢(时间复杂度较大)，占用内存空间比较大。

$\text{KD}$ 树描述及示例

在懒惰学习部分，介绍了 $\text{KNN}$ 执行过程中的缺陷：训练集和测试样本点均已知的条件下，想要找到某种距离计算方式下最近的 $\mathcal K$ 个样本点，它的计算代价较高。

$\text{KD}$ 树( $\text{K-Dimension Tree,KD-Tree}$ )则给出了一种对样本索引的方式。其底层逻辑就是将整个样本空间有层次地 进行划分，然后通过索引在特定空间寻找合适样本。

$\text{KD}$ 树是一棵平衡二叉树。这里通过示例对 $\text{KD}$ 树以及对应样本空间进行描述：

已知某二维样本空间包含 $6$ 个样本点 $\mathcal D = \{(2,3),(5,4),(9,6),(4,7),(8,1),(7,2)\}$ ，其对应图像表示如下：
确定划分 $(\text{Split})$ 域：基于当前样本两个维度的方差分别表示为： $x : 5.81, y : 4.47$ 。 $x$ 维度的方差大这意味着沿着该维度方向进行数据分割能够获得最好的分辨率。最终选择 $x$ 维度(横坐标)作为划分域。
确定了划分域后，确定初始划分结点 $(\text{Node-Data})$ ：将样本点按照 $x$ 维度数值从小到大排序，位于中间的样本点被选择为 $\text{Node-Data}$ 。该数据集基于 $x$ 维度的排序结果表示如下：
$[(2, 3), (4, 7), (5, 4), (7, 2), (8, 1), (9, 6)]$
这里中间样本点包含两个： $(5, 4), (7, 2)$ ，选择哪个都可以建树。这里以 $(7, 2)$ 为 $\text{Node-Data}$ 示例。
一般情况下取上界。
将 $(7, 2)$ 作为 $\text{KD}$ 树的根节点，并以 $\text{Node-Data}$ 的 $x$ 维度为界，对样本空间进行划分：
此时将样本空间划分为两个部分。各部分内部的样本点重复执行上述划分过程。再次以样本子集 ${(2,3),(4,7),(5,4)\}$ 为例：

确定划分域： $x : 1.56, y : 2.89$
确定划分结点： $\Rightarrow (5,4)$ ，并以其 $y$ 维度为界，对子空间进行划分：
以此类推，可得到最终划分结果以及对应 $\text{KD}$ 树以及 $\text{KD}$ 树表示如下：
相同颜色的划分边界对应 $\text{KD}$ 树中的相同层。

同理。如果步骤1选择 $(5, 4)$ 作为根结点，那么对应结果表示为：

$\mathcal K$ 近邻 $\text{ VS }$ 贝叶斯最优分类器

这里观察 $\mathcal K$ 近邻算法与贝叶斯最优分类器关于错误率 $(\text{Error Rate})$ 的描述，并比较它们直接按的大小关系。

这里假设距离度量得到的结果是有效的，并且仅以 $\mathcal K=1$ 条件下在二分类问题错误率上的简单描述。

定义某测试样本 $\hat x$ ，在 $\mathcal K=1$ 条件下的最近邻样本点是 $\mathcal Z$ 。这意味着，样本 $\hat x$ 强行与 $\mathcal Z$ 的标签 $\mathcal C$ 相同：
从‘软投票’的角度观察， $\hat x$ 对于所有具体标签值的概率结果均与 $\mathcal Z$ 相同。
$\mathcal P(\mathcal C \mid \hat x) = \mathcal P(\mathcal C \mid \mathcal Z) \quad \mathcal C \in \mathcal Y$
那么对应的错误率表示为：
错误就意味着测试样本 $\hat x$ 与样本 $\mathcal Z$ 标记不同类别标签的概率。即 $1 -$ 它们标记相同标签的概率。
$\mathcal P(err) = 1 - \sum_{\mathcal C \in \mathcal Y} \mathcal P(\mathcal C \mid \hat x) \cdot \mathcal P(\mathcal C \mid \mathcal Z)$
如果使用贝叶斯最优分类器来描述测试样本 $\hat x$ 的最优标签结果 $\mathcal C^*$ ，那么 $\mathcal C^*$ 可表示为：
$\mathcal C^* = \mathop{\arg\max}\limits_{\mathcal C \in \mathcal Y} \mathcal P(\mathcal C \mid \hat x) \Leftrightarrow \mathcal P(\mathcal C^* \mid \hat x) = \mathop{\max}\limits_{\mathcal C \in \mathcal Y} \mathcal P(\mathcal C \mid \hat x)$
至此， $\mathcal P(err)$ 可表示为如下形式：首先将 $\mathcal P(\mathcal C \mid \hat x) = \mathcal P(\mathcal C \mid \mathcal Z)$ 带入 $\mathcal P(err)$ 中：
$\begin{aligned} \mathcal P(err) & = 1 - \sum_{\mathcal C \in \mathcal Y} \mathcal P(\mathcal C \mid \hat x) \cdot \mathcal P(\mathcal C \mid \mathcal Z) \\ & = 1 - \sum_{\mathcal C \in \mathcal Y} \left[\mathcal P(\mathcal C \mid \hat x)\right]^2 \end{aligned}$
关于 $\sum_{\mathcal C \in \mathcal Y} \left[\mathcal P(\mathcal C \mid \hat x)\right]^2$ 和 $\left[\mathcal P(\mathcal C^* \mid \hat x)\right]^2$ 之间的大小关系。很明显， $\left[\mathcal P(\mathcal C^* \mid \hat x)\right]^2$ 是 $\sum_{\mathcal C \in \mathcal Y} \left[\mathcal P(\mathcal C \mid \hat x)\right]^2$ 内的一项，自然 $\left[\mathcal P(\mathcal C^* \mid \hat x)\right]^2\leq\sum_{\mathcal C \in \mathcal Y} \left[\mathcal P(\mathcal C \mid \hat x)\right]^2$ 。从而有：
$\mathcal P(err) \leq 1 - [\mathcal P(\mathcal C^* \mid \hat x)]^2$
使用乘法分配律将其展开，其中 $\mathcal P(\mathcal C^* \mid \hat x)$ 表示贝叶斯最优分类器的错误率。且 $\mathcal P(\mathcal C^* \mid \hat x) \leq 1$ 恒成立。因而有：
$\begin{aligned} \mathcal P(err) & \leq [1 + \mathcal P(\mathcal C^* \mid \hat x)] \cdot [1 - \mathcal P(\mathcal C^* \mid \hat x)] \\ & \leq 2 \times [1 - \mathcal P(\mathcal C^* \mid \hat x)] \end{aligned}$

这意味着 $\text{KNN}$ 的泛化错误率不超过贝叶斯最优分类器的两倍。

相关参考：
详细的 $\text{KNN}$ 算法原理步骤
一看就懂的K近邻算法(KNN)，K-D树，并实现手写数字识别！
机器学习(周志华著)

modbus 学习笔记手lu代码哥 stm32学习 modbus 嵌入式 stm32
modbus学习笔记学习资料链接modbus协议讲解及stm32实现视频讲解链接SSCOM串口助手下载链接RS485通信及MODBUS通信协议MCU作主机基于MODBUS协议读取温湿度传感器数据并显示OLED知识点记录一个寄存器两个字节0x0000~0x65535通信地址（ID号取值范围）：1~247指定地址0的指令是广播指令，所有收到指令的从机设备都会运行，不过不回应指令当我们接受当前帧的数据包
【java】list集合遍历的5种方式 IT_Most java 集合 java
平凡也就两个字:懒和惰;成功也就两个字:苦和勤;优秀也就两个字:你和我。跟着我从0学习JAVA、spring全家桶和linux运维等知识，带你从懵懂少年走向人生巅峰，迎娶白富美！关注微信公众号【IT特靠谱】，每天都会分享技术心得~【java】list集合遍历的5种方式List集合在Java日常开发中是非常常见的，快速选择合适的遍历方式能极大提高我们的开发效率。下面我总结了五种List集合的遍历方式
动手实践OpenHands系列学习笔记11：现代开发流程
笔记11：现代开发流程一、引言现代软件开发流程是确保高质量代码交付和团队协作的关键基础。随着软件开发复杂度的增加，自动化工具链和规范化流程变得尤为重要。本笔记将探讨CI/CD管道设计原理，分析OpenHands项目的开发流程，并通过实践搭建一个简化版的OpenHands开发环境。二、CI/CD管道设计理论2.1持续集成(CI)基本概念定义：频繁地将代码集成到主分支，并自动化验证每次集成核心原则：频
JuPyter(IPython) Notebooks中使用pip安装Python的模块 weixin_34218890 开发工具 python 人工智能
问题描述：没有带GPU的电脑，搞深度学习不是耍流氓嘛，我网上看到有个云平台，免费使用了一下，小姐姐很热情。使用过程如下：他们给的接口是Jupyter编辑平台，我就在上面跑了一个小例子。tensorflow和python环境是他们配置好的，不过我的例子中需要导入matplotlib.pylot模块。可是他们没有提供，怎么办呢？网上查了一下啊解决方法：采用如下方法：importpipdefMyPipi
【LangChain编程：从入门到实践】LangChain与其他框架的比较 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【LangChain编程：从入门到实践】LangChain与其他框架的比较1.背景介绍1.1人工智能发展现状在当今时代，人工智能(AI)已经成为科技领域中最热门和最具革命性的话题之一。随着计算能力的不断提升和算法的持续优化,AI系统正在不断扩展其应用范围,包括自然语言处理、计算机视觉、决策系统等各个领域。1.2LangChain概述在这种背景下,LangChain作为一个新兴的AI框架应运而生。L
重塑知识的圣殿：人工智能时代的教育革命与人文守护田园Coder 人工智能科普人工智能科普
教育，承载着文明火种传递的千年使命，其核心始终围绕两个永恒命题：如何让知识更有效地被获取？如何让个体潜能更充分地绽放？在信息爆炸、技能迭代加速的当代，传统教育模式——标准化课程、统一进度、有限师资、资源不均——正面临前所未有的压力。人工智能（AI）的崛起，如同一股强大的变革洪流，正以前所未有的深度和广度渗透教育生态的各个环节。从量身定制的学习路径到永不疲倦的智能导师，从虚拟现实的沉浸课堂到洞察学情
踏入真实：具身智能与物理世界的认知交响
当大型语言模型在文本的海洋中纵横捭阖，生成式AI在数字画布上挥洒创意时，人工智能仍有一个根本性的疆域尚未完全征服——真实的三维物理世界。理解一个苹果，不能仅靠词向量坐标；学会行走，无法通过阅读说明书达成；在拥挤的街道导航，远非处理符号逻辑那般简单。智能的进化，自生命诞生之初，便与具身性（Embodiment）和环境交互（Interaction）密不可分。我们的认知、学习、乃至意识的雏形，都源于身体
Jupyter安装指南及Python配置 CodeWG python jupyter ide Python
Jupyter是一个非常流行的交互式计算环境，广泛用于数据分析、机器学习和科学计算等领域。本文将详细介绍如何安装Jupyter并配置Python环境。步骤1：安装Python首先，我们需要安装Python。请按照以下步骤进行操作：打开Python官方网站（https://www.python.org）并下载适用于您操作系统的最新版本的Python。运行下载的安装程序，并按照向导的指示进行安装。在安
happy-llm 第一章 NLP 基础概念 weixin_38374194 自然语言处理人工智能学习
文章目录一、什么是NLP？二、NLP发展三大阶段三、NLP核心任务精要四、文本表示演进史1.传统方法：统计表征2.神经网络：语义向量化课程地址：happy-llmNLP基础概念一、什么是NLP？核心目标：让计算机理解、生成、处理人类语言，实现人机自然交互。现状与挑战：成就：深度学习推动文本分类、翻译等任务达到近人类水平。瓶颈：歧义性、隐喻理解、跨文化差异等。二、NLP发展三大阶段时期代表技术核心思
Happy-LLM 第二章 Transformer HalukiSan transformer 深度学习人工智能
Transform架构图片来自[Happy-llm](happy-llm/docs/chapter2/第二章Transformer架构.mdatmain·datawhalechina/happy-llm)，若加载不出来，请开梯子注意力机制前馈神经网络每一层的神经元都与上下两层的每一个神经元完全连接数据在其中只向前流动，用于处理静态的数据，进行图像识别或者分类，但是该网络没有记忆能力，数据在它里面没
Java界面开发三水气象台 java 开发语言
一、界面开发1.界面的组成界面开发首先需要我们去了解一个界面,以登陆界面为例,上面需要我们添加什么元素、规则等都是需要我们思考的(可以以分类的思维来对我们界面上需要的各类进行划分)。1)可视化部分窗体按钮标签菜单选项....2)元素规则部分颜色尺寸字体布局方法...3)一些额外的内容:文字or图片以上内容都在java的类库中java.awt:元素规则类javax.swing:可视化组件对于一个登陆
happy-llm 第二章 Transformer架构 weixin_38374194 transformer 深度学习人工智能学习
文章目录一、注意力机制核心解析1.1注意力机制的本质与核心变量1.2注意力机制的数学推导1.3注意力机制的变种实现1.3.1自注意力（Self-Attention）1.3.2掩码自注意力（MaskedSelf-Attention）1.3.3多头注意力（Multi-HeadAttention）二、Encoder-Decoder架构详解2.1Seq2Seq任务与架构设计2.2核心组件解析2.2.1前馈
Python scikit-learn 【机器学习库】全面讲解
让AI成为我们的得力助手：《用Cursor玩转AI辅助编程——不写代码也能做软件开发》scikit-learn（简称sklearn）是Python最流行的机器学习库之一，提供简单高效的数据挖掘和数据分析工具。它基于NumPy、SciPy和Matplotlib构建，广泛应用于工业界和学术界。核心优势统一API设计：所有模型使用一致的接口（fit()、predict()、score()）丰富的算法：覆
超详细yolov8/11-segment实例分割全流程概述：配置环境、数据标注、训练、验证/预测、onnx部署(c++/python)详解
因为yolo的检测/分割/姿态/旋转/分类模型的环境配置、训练、推理预测等命令非常类似，这里不再详细叙述，主要参考**【YOLOv8/11-detect目标检测全流程教程】**，下面有相关链接，这里主要针对数据标注、格式转换、模型部署等不同细节部分；【YOLOv8/11-detect目标检测全流程教程】超详细yolo8/11-detect目标检测全流程概述：配置环境、数据标注、训练、验证/预测、o
Nystromformer：一种基于 Nyström 方法的自注意力近似算法 AI专题精讲 Paper阅读人工智能自然语言处理 AI
1.摘要Transformer已经成为广泛自然语言处理任务中的强大工具。推动Transformer展现出卓越性能的一个关键组件是self-attention机制，它对每个token编码了其他token的影响或依赖关系。虽然self-attention机制具有诸多优势，但其在输入序列长度上的二次复杂度限制了其在较长序列上的应用——这是当前社区积极研究的一个主题。为了解决这一限制，我们提出了Nystr
PHP接单涨薪系列（八）之AI内容工厂：用PHP批量生成SEO文章系统（2025接单秘籍）攻城狮凌霄 PHP PHP接单涨薪 AI 人工智能 php android
某SEO团队采用本方案后，内容产出效率提升10倍，网站流量3个月增长300%，单月通过内容外包获利超¥50,000。本文将揭秘如何用PHP+AI打造全自动SEO内容工厂，让你成为搜索引擎优化领域的抢手人才！一、SEO市场新机遇：AI内容生成的红利期1.12025年SEO行业巨变搜索引擎算法升级2025核心变革SGE体验优化EEAT权重提升多模态内容整合2025年SEO关键数据：指标20232025
告别烦人的休眠：Ubuntu 20.04 彻底禁用自动休眠的七种武器芯作者 D2：ubuntu linux ubuntu
系统休眠就像那个过于热心的同事——在你专注工作时突然关掉你的电脑，还一脸无辜地说"我以为你不需要了"**。本文将为你提供七种专业解决方案，彻底驯服Ubuntu20.04的休眠机制。一、为什么我们需要禁用自动休眠？想象这些场景：深夜挂着下载大文件，早上发现下载中断远程服务器运行着关键任务，突然失联科学计算跑了三天三夜，结果因休眠前功尽弃在线会议中途屏幕突然变黑Ubuntu的休眠机制设计初衷是节能，但
协同过滤算法：挖掘用户偏好，精准推荐商品 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
1.背景介绍协同过滤（CollaborativeFiltering，CF）作为推荐系统中的重要技术，其核心思想是利用用户和物品间的行为数据，挖掘用户隐性偏好，从而实现精准推荐。自20世纪90年代提出以来，协同过滤算法已经在电子商务、社交媒体、音乐视频等多个领域中广泛应用，取得了显著的推荐效果。协同过滤算法主要分为基于用户的协同过滤和基于物品的协同过滤两种。基于用户的协同过滤通过比较用户间的相似性，
PHP接单涨薪系列（九）之计算机视觉实战：PHP+Stable Diffusion接单指南（2025高溢价秘籍）攻城狮凌霄 PHP PHP接单涨薪 AI php 计算机视觉 stable diffusion
案例场景某电商公司使用本方案后，产品图制作成本降低90%，广告转化率提升35%，单月节省设计费用超¥80,000。本文将彻底解密如何用PHP+AI视觉技术接取高单价设计外包，让你在竞争激烈的市场中脱颖而出！一、视觉设计市场的AI革命1.1传统设计vsAI设计设计任务传统流程AI流程需求沟通初稿设计反复修改最终交付AI生成微调即时交付2025年设计市场数据对比：指标传统设计AI设计提升幅度单图制作时
YOLOv11深度解析：Ultralytics新一代目标检测架构创新与实战指南芯作者 D2:YOLO YOLO 神经网络计算机视觉
2024年Ultralytics重磅推出YOLOv11**：在精度与速度的平衡木上再进一步，参数减少22%，推理速度提升2%，多任务支持全面升级！一、YOLOv11核心创新：轻量化与注意力机制的完美融合YOLOv11并非颠覆性重构，而是通过模块级优化实现“少参数、高精度、快推理”的目标。其三大创新点如下：1.1C3k2模块：动态卷积核的灵活设计取代YOLOv8的C2f模块，C3k2通过参数c3k动
ASP.NET MVC 与 ASP.NET Core MVC：架构演进与技术对比
在当今数字化时代，构建高效、可扩展且易于维护的Web应用程序已成为开发人员的核心任务之一。ASP.NETMVC和ASP.NETCoreMVC作为微软在Web开发领域的两大重要框架，为开发者提供了强大的工具来实现这一目标。然而，随着技术的不断演进，这两个框架在设计理念、架构、性能以及生态系统等方面存在着显著差异。对于开发者来说，理解它们之间的区别至关重要，这不仅有助于选择适合项目的框架，还能提升开发
了解IO流
IO流I：inputO：output流：像水流一样传输数据用于读写数据的（可以读写文件，或网络中的数据…），存储和读写数据的解决方案。比如，对游戏历史最高分进行记录，那么就需要用到IO流在硬盘中进行读写。IO流的分类按流的方向分为：输入流（读取），输出流（写出）。按操作文件的类型：字节流（所有类型的文件），字符流（纯文本文件）。纯文本文件：Windows自带的记事本打开能读懂的，是指只包含字符信息
SQL注入与防御-第四章-5：权限提升在安全厂商修设备 SQL注入与防御 sql 网络安全 web安全
SQL注入利用——权限提升全解析（按数据库分类拆解）一、核心背景与目标在SQL注入攻击中，权限提升是突破“普通用户限制”的关键步骤。攻击者通过利用数据库漏洞、配置缺陷或内置功能，将普通用户权限提升至管理员（如SQLServer的sysadmin、Oracle的DBA），从而：访问所有数据库、表、敏感数据（如密码、配置）。执行高危操作（如修改数据、创建后门、远程命令执行）。二、SQLServer权限
SQL注入与防御-第四章-6：窃取哈希口令在安全厂商修设备 SQL注入与防御 sql 网络安全 web安全
SQL注入利用——窃取哈希口令一、核心逻辑：哈希口令的价值与窃取路径数据库中，用户口令通常以哈希形式存储（防明文泄露）。攻击者通过SQL注入窃取哈希后，可：暴力破解：用工具（如JohntheRipper）枚举原始口令。横向渗透：利用“用户reused口令”（同一口令用于多系统）入侵其他设备。不同数据库的哈希存储位置、算法差异极大，需针对性分析。二、SQLServer：哈希存储与窃取（分版本）（一）
Python基础——变量和数据类型全端工程师 python基础 python 开发语言
Python基础——变量和数据类型前言一、什么是变量1.1为什么需要变量1.2变量的基本概念1.3变量的命名规则二、数据类型2.1什么是数据类型2.2使用`type()`函数2.3使用不同的数据类型三、类型转换3.1类型转换的基本概念3.2类型转换函数(显示类型转换)3.3隐式类型转换3.4类型转换的注意事项四、变量的使用五、总结前言今天我们开始学习Python编程的基础——变量和数据类型。这些概
多线程和JUC
进程进程就是正在运行的程序，是系统进行资源分配和调用的独立单位。每一个进程都有他自己的内存空间和系统资源多进程意义在于计算机可以执行多个任务，提高cpu使用率我们在一边玩游戏，一边听音乐的时候，是cpu在做着程序间的高效切换让我们觉得是同时进行的注意：很多多线程是模拟出来的，真正的多线程是指有多个cpu，即多核，如服务器。如果是模拟出来的多线程，即在一个cpu的情况下，在同一时间点，cpu只能执行
纯零基础小白设计的PyCharm + Django 5入门学习大纲001 韩公子的Linux大集市 Python3数据分析 pycharm django 学习
文章目录阶段1：预备知识（1-2天）阶段2：Django初体验（3-5天）阶段3：动手做网页（核心2周）阶段4：实战小项目（1周）阶段5：部署与进阶（可选）避坑指南（小白必看！）学习资源推荐以下是为纯零基础小白设计的PyCharm+Django5入门学习大纲，分阶段渐进式学习，含关键实操点：阶段1：预备知识（1-2天）Python基础速成变量、数据类型、条件语句（if）、循环（for/while）
SurveyForge：AI自动撰写综述论文的革命性工具，助力科研效率跃升花生糖@ AIGC学习资料库人工智能 AI论文 AI助手
在学术研究领域，综述论文（SurveyPaper）的撰写是一项耗时且复杂的任务，通常需要数周甚至数月的文献调研与内容整合。如今，上海人工智能实验室、复旦大学与上海交通大学联合开源的SurveyForge，通过创新的AI技术，将这一过程压缩至10分钟内，且生成质量接近人工水平，成为科研人员的得力助手。项目简介SurveyForge是一款基于大语言模型（LLM）的自动综述论文生成工具，专为计算机科学领
git学习有点小氣 Git git 学习
文章目录介绍git常用命令git分支操作常用命令合并冲突远程仓库常用命令注意事项push、pull操作忽略文件列表git.ignore模版文件介绍github、gitee码云是公有代码仓库（互联网），gitlab是私有的常用于公司内部（局域网）代码推送push、代码拉取pull、代码克隆clone工作区：代码所在目录（而非开发工具idea等）暂存区：临时存储（可以使用命令删除）本地库：历史版本（形
【多线程】线程的引入，创建线程的方式，设置线程名字、获取名字，线程优先级priority，加入休眠的方法，，后台线程，礼让线程，Join，中断线程，某电影院，共有100张票线程流程图，3售票窗口，心盲i1 Java基础多线程 java
多线程1.线程的引入进程：正在运行的程序，是系统进行资源分配和调用的独立单位。每一个进程都有它自己的内存空间和资源。线程：是进程的单个顺序控制流，或者说就是一个单独执行的路径一个进程如果只有一条执行路径，称之为单线程一个进程如果有多条执行路径，称之为多线程线程是包含在进程中。举例：扫雷，360杀毒软件，百度网盘了解三个关键词：1、串行，指的是一个程序中所有的任务都是按照先后顺序执行的，在前一个任务
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc

机器学习笔记之K近邻学习算法