X1AO___X1A

监督学习 | ID3 & C4.5 决策树原理

文章目录

决策树
1. 特征选择

1.1 熵
1.2 条件熵
1.3 信息增益
1.4 信息增益率

2. 决策树生成

算法1 信息增益及信息增益率的算法
2.1 ID3 算法
2.2 C4.5 算法

3. 决策树剪枝

3.1 预剪枝
3.2 后剪枝

算法2 树的剪枝算法

参考文献

相关文章：

机器学习 | 目录

监督学习 | ID3 决策树原理及Python实现

监督学习 | CART 分类回归树原理

监督学习 | 决策树之Sklearn实现

监督学习 | 决策树之网络搜索

本文大部分内容搬运自李航老师的《统计学习方法》^[1]，以给出决策树算法较为完整的定义，关于 ID3 算法的更多推到过程以及例子、Python实现，可以参考这篇文章，关于决策树算法的 Sklearn 实现，可以参考这篇文章。

决策树

决策树是一种基本的分类与回归方法。在分类问题中，表示基于特征对实例进行分类的过程。它可以认为是 if-then 规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。

决策树学习通常包括 3 个步骤：特征选择、决策树的生成和决策树的修剪。这些决策树学习的思想主要来源于由 Quinlan 在 1986 年提出的 ID3 算法和 1993 年提出的 C4.5 算法，以及由 Breiman 等人在 1984 年提出的 CART 算法。这三个算法最大的不同在于特征选择的指标上，三者分别使用：信息增益、信息增益率以及基尼指数作为特征选择指标。本文将介绍 ID3 以及 C4.5 算法，并在下一篇文章中介绍 CART 算法。

1. 特征选择

特征选择在于选取对训练数据具有分类能力的特征，这样可以提高决策树学习的效率。如果利用一个特征进行分类的结果与随机分类的结果没有很大差别，则称这个特征是没有分类能力的。

通常特征选择的准则是信息增益或信息增益率。

1.1 熵

熵（entropy）是表示随机变量不确定性的度量。设 $X$ 是一个取有限个值的离散随机变量，其概率分布为：

$P(X=x_i)=p_i, \quad i=1,2,...,n$

则随机变量 $X$ 的熵定义为：

$H(X)=-\sum_{i=1}^np_i\log p_i \tag{1}$

若 $p_i=0$ ，则定义 $0*\log0=0$ ，通常式 (1) 中的对数以 2 或 e 为底，单位为比特（bit）或纳特（nat）。由此可知，熵只依赖于 $X$ 的分布，而与 $X$ 的取值无关，所以也可以将 $X$ 的熵记做 $H (p)$ ，即：

$H(p)=-\sum_{i=1}^np_i\log p_i \tag{2}$

熵越大，随机变量的不确定性就越大，由此可以验证：

$0\leq H(p)\leq \log n \tag{3}$

1.2 条件熵

设由随机变量 $(X, Y)$ ，其联合概率分布为：

$P(X=x_i,Y=y_j)=p_{ij},\quad i=1,2,...,n;j=1,2,...,m$

条件熵 $H (Y ∣ X)$ 表示在已知随机变量 $X$ 的条件下随机变量 $Y$ 的不确定性，其定义为 $X$ 给定条件下 $Y$ 的条件概率分布的熵的 $X$ 的数学期望：

$H(Y|X)=\sum_{i=1}^n p_iH(Y|X=x_i)\tag{4}$

其中 $p_i=P(X=x_i), \quad i=1,2,...,n$ 。

当熵和条件熵中的概率由数据估计得到时，所对应的熵与条件熵分别称为经验熵（emprical entropy）和经验条件熵（empirical conditional emtropy）。

1.3 信息增益

信息增益（information gain）表示得知特征 $X$ 的信息而使类 $Y$ 的信息不确定性减少的程度。

特征 $A$ 对训练数据集 $D$ 的信息增益 $g (D, A)$ ，定义为集合 $D$ 的经验熵 $H (D)$ 与特征 $A$ 给定条件下 $D$ 的经验条件熵 $H (D ∣ A)$ 之差，即：

$\tag{5}$

一般地，熵 $H (Y)$ 与条件熵 $H (D ∣ A)$ 之差称为 互信息（mutual information）。决策树学习中的信息增益等价于训练数据集中类与特征的互信息。

1.4 信息增益率

信息增益率的大小时相对于训练数据集而言的，在分类问题困难时，也就是说在训练数据集的经验熵大的时候，信息增益值会偏大，信息增益值会偏大。反之，信息增益值会偏小。使用信息增益比（information gain ratio）可以对这一问题进行校正，这是特征选择的另一准则。

特征 $A$ 对训练数据集 $D$ 的信息增益率 $g_R(D,A)$ 定义为其信息增益 $g (D, A)$ 与训练数据集 $D$ 的经验熵 $H (D)$ 之比：

$g_R(D,A)=\frac{g(D,A)}{H(D)} \tag{6}$

2. 决策树生成

设训练集数据为 $D$ ， $∣ D ∣$ 表示其样本容量，即样本个数。

设有 $K$ 个类 $C_k ,k=1,2,...,K$ ， $C_k|$ 为属于类 $C_k$ 的样本个数，因此 $\sum_{k=1}^K|C_k|=|D|$ 。

设特征 $A$ 有 $n$ 个不同的取值 ${a_1,a_2,...,a_n\}$ ，根据特征 $A$ 的取值将 $D$ 划分为 $n$ 个子集 $D_1,D_2,...,D_n$ ， $D_i|$ 为 $D_i$ 的样本个数， $\sum_{i=1}^n|D_i|=D$ 。

记子集 $D_i$ 中属于类 $C_k$ 的样本的集合为 $D_{ik}$ ，即 $D_{ik}=D \bigcap C_k$ ， $D_{ik}|$ 为 $D_{ik}$ 的样本个数。

因此，信息增益以及信息增益率计算如下：

算法1 信息增益及信息增益率的算法

输入：训练数据集 $D$ 和特征 $A$ ；

输出：特征 $A$ 对训练数据集 $D$ 的信息增益 $g (D, A)$ 以及信息增益率 $g_R(D,A)$ 。

（1）计算数据集 $D$ 的经验熵 $H (D)$ ：

$H(D)=-\sum_{i=1}^n \frac{|C_k|}{|D|}log_2\frac{|D_k|}{|D|} \tag{7}$

（2）计算特征 $A$ 对数据集 $D$ 的经验条件熵 $H (D ∣ A)$ ：

$\begin{aligned} H(D|A)& =\sum_{i=1}^n \frac{|D_i|}{|D|}H(D_i)\\ & = - \sum_{i=1}^n \frac{|D_i|}{|D|} \sum_{i=1}^n \frac{|D_{ik}|}{|D_i|}log_2\frac{|D_{ik}|}{|D_i|}\\ \end{aligned}\tag{8}$

（3）计算信息增益：

$\tag{9}$

（4）计算信息增益率：

$g_R(D,A)=\frac{g(D,A)}{H(D)} \tag{10}$

2.1 ID3 算法

输入：训练数据集 $D$ ，特征集 $A$ ，阈值 $\varepsilon$ ；

输出：决策树 $T$ 。

（1）若 $D$ 中所有实例属于同一类 $C_k$ ，则 $T$ 为单节点树，并将类 $C_k$ 作为该节点的类标记，返回 $T$ ；

（2）若 $A=\oslash$ ，则 $T$ 为单节点树，并将 $D$ 中实例数最大的类 $C_k$ 作为该节点的类标记，返回 $T$ ；

（3）否则，按算法1（1-3）计算 $A$ 中各特征对 $D$ 的信息增益，选择信息增益最大的特征 $A_g$ ；

（4）如果 $A_g$ 的信息增益小于阈值 $\varepsilon$ ，则置 $T$ 为单节点树，并将 $D$ 中实例数最大的类 $C_K$ 作为该节点的类标记，返回 $T$ ；

（5）否则，对 $A_g$ 的每一可能值 $a_i$ ，依 $A_g=a_i$ 将 $D$ 分隔为若干非空子集 $D_i$ ，将 $D_i$ 中实例数最大的类作为标记，构建子节点，由节点及其自己点构造数 $T$ ，返回 $T$ ；

（6）对第 $i$ 个子节点，以 $D_i$ 为训练集，以 $A-\{A_g\}$ 为特征集，递归地调用步(1)～步(5)，得到子树 $T_i$ ，返回 $T_i$ 。

2.2 C4.5 算法

C4.5 与 ID3 相比，只是将 ID3 算法中的信息增益换成了信息增益率，因此有：

输入：训练数据集 $D$ ，特征集 $A$ ，阈值 $\varepsilon$ ；

输出：决策树 $T$ 。

（1）若 $D$ 中所有实例属于同一类 $C_k$ ，则 $T$ 为单节点树，并将类 $C_k$ 作为该节点的类标记，返回 $T$ ；

（2）若 $A=\oslash$ ，则 $T$ 为单节点树，并将 $D$ 中实例数最大的类 $C_k$ 作为该节点的类标记，返回 $T$ ；

（3）否则，按算法1（1-4）计算 $A$ 中各特征对 $D$ 的信息增益，选择信息增益最大的特征 $A_g$ ；

（4）如果 $A_g$ 的信息增益小于阈值 $\varepsilon$ ，则置 $T$ 为单节点树，并将 $D$ 中实例数最大的类 $C_K$ 作为该节点的类标记，返回 $T$ ；

（5）否则，对 $A_g$ 的每一可能值 $a_i$ ，依 $A_g=a_i$ 将 $D$ 分隔为若干非空子集 $D_i$ ，将 $D_i$ 中实例数最大的类作为标记，构建子节点，由节点及其自己点构造数 $T$ ，返回 $T$ ；

（6）对第 $i$ 个子节点，以 $D_i$ 为训练集，以 $A-\{A_g\}$ 为特征集，递归地调用步(1)～步(5)，得到子树 $T_i$ ，返回 $T_i$ 。

3. 决策树剪枝

3.1 预剪枝

预剪枝是在决策树生成之前通过限制条件，来防止树过度生长而造成过拟合，常见的有：

最大深度 max_depth
每片叶子的最小样本数 min_samples_leaf
每次分裂的最小样本数 min_samples_split
最大特征数 max_features

关于这些参数的详细介绍，可以参考这篇文章。

3.2 后剪枝

后剪枝先从训练集生成一颗完整决策树，通过向损失函数中增加模型复杂度惩罚来对已生成的决策树进行简化。

设树 $T$ 的叶节点个数为 $∣ T ∣$ ， $t$ 是树 $T$ 的叶节点，该叶节点有 $N_t$ 个样本点，其中 $k$ 类的样本点有 $N_{tk}$ 个， $k = 1, 2, . . ., K$ ， $H_t(T)$ 为叶节点 $t$ 上的经验熵，$\alpha \geq 0 $ 为参数，则决策树后剪枝的损失函数（Cost-Complexity Pruning）可以定义为：

$C_{\alpha}(T)=\sum_{t=1}^{|T|}N_tH_t(T)+\alpha |T|\tag{11}$

其中经验熵为：

$H_t(T)=-\sum_{k} \frac{N_{ik}}{N_t}log\frac{N_{ik}}{N_t} \tag{12}$

令 (11) 式右端第一项为 $C (T)$ ：

$\begin{aligned} C(T)& =\sum_{t=1}^{|T|}N_tH_t(T) \\ & = -\sum_{t=1}^{|T|}N_t\sum_{k} \frac{N_{ik}}{N_t}log\frac{N_{ik}}{N_t} \\ \end{aligned}\tag{13}$

因此式 (11) 可以写作：

$C_{\alpha}(T)=C(T)+\alpha |T| \tag{14}$

其中， $C (T)$ 表示模型对训练数据的预测误差，即模型与训练数据的拟合程度；

$∣ T ∣$ 表示模型复杂度，参数 $\alpha \geq 0$ 控制两者之间的影响。较大的 $\alpha$ 促使选择较简单的模型，较小的 $\alpha$ 促使选择较复杂的模型， $\alpha=0$ 意味者只考虑模型与训练数据的拟合程度，不考虑模型的复杂度。

剪枝，就是当 $\alpha$ 确定时，选择损失函数最小的模型，即损失函数最小的子树。

当 $\alpha$ 确定时，子树越大，往往与训练数据的拟合越好，但是模型的复杂度越高；相反，子树越小，模型复杂度就越低，但是往往与训练数据的拟合不好，损失函数正好表示了对两者的平衡。

可以看到，ID3 和 C4.5 决策树生成只考虑了通过提高信息增益或信息增益率来对训练数据进行更好的拟合。而决策树剪枝通过优化损失函数还考虑了减小模型复杂度。

决策树生成学习局部的模型，而决策树剪枝学习整体的模型。

算法2 树的剪枝算法

输入：生成算法产生的整个树 $T$ ，参数 $\alpha$ ；

输出：修剪后的子树 $T_{\alpha}$ 。

（1）计算每个节点的经验熵；

（2）递归地从树的叶节点向上回缩：

$\quad \quad$ 设一组叶节点回缩到其父节点之前与之后的整体树分别为 $T_B$ 与 $T_A$ ，其对应的损失函数值分别是 $C_{\alpha}(T_B)$ 与 $C_{\alpha}(T_A)$ ，如果：

$C_{\alpha}(T_A)\leq C_{\alpha}(T_B) \tag{15}$

$\quad \quad$ 则进行剪枝，即将父节点变为新的叶节点。

（3）返回 (2) ，直到不能继续为止，得到损失函数最小的子树 $T_{\alpha}$ 。

参考文献

[1] 李航. 统计学习方法[M]. 北京: 清华大学出版社, 2012: 55-66.

你可能感兴趣的:(监督学习,#,分类算法)

【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
CVPR 2024 | 低分辨率引领方向：通过自监督学习提升超分辨率的泛化能力小白学视觉计算机顶会顶刊论文解读计算机视觉深度学习 CVPR 计算机顶会论文解读
论文信息题目：Low-ResLeadstheWay:ImprovingGeneralizationforSuper-ResolutionbySelf-SupervisedLearning低分辨率引领方向：通过自监督学习提升超分辨率的泛化能力作者：HaoyuChen,WenboLi,JinjinGu,JingjingRen,HaozeSun,XueyiZou,ZhensongZhang,Youlia
知识库在意图识别中扮演着**数据支撑**和**语义理解辅助**的双重角色 PersistDZ 大数据与AI 人工智能
知识库在意图识别中扮演着数据支撑和语义理解辅助的双重角色，而训练智能客服的意图识别Agent需要结合知识库的结构化数据与机器学习技术。以下是详细解析：一、知识库在意图识别中的作用1.提供标注数据意图标签定义：知识库中存储了预先定义的意图分类体系（如“订单查询”“退换货”“投诉”等），为模型提供明确的训练目标。标注样本：知识库包含大量用户对话历史及其对应的意图标签，是训练监督学习模型的核心数据源。2
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
AI学习第二天--监督学习半监督学习无监督学习 iisugar 机器学习支持向量机人工智能
目录1.监督学习（SupervisedLearning）比喻：技术细节：形象例子：2.无监督学习（UnsupervisedLearning）比喻：技术细节：形象例子：3.半监督学习（Semi-SupervisedLearning）比喻：技术细节：形象例子：4.三者的对比与选择表格总结：5.实际案例对比案例：电商平台用户分群6.关键逻辑总结1.监督学习（SupervisedLearning）比喻：老
【sklearn 03】逻辑回归、决策树、支持向量机 @金色海岸 sklearn 逻辑回归决策树
逻辑回归、决策树、支持向量机-逻辑回归logisticsregression（逻辑回归）算法是经典的分类算法，基本思想是构造一个概率的拟合函数。决策树决策树的基本思想是根据样例去推断其背后的树形知识表征支持向量机支持向量机SVM(supportvectormachine)的基本思想是寻找最大的间隔的分割超平面。离分割超平面最近的这些样本点称为支持向量机
PlanLLM: 首个支持开放词汇与封闭集任务的跨模态视频程序规划框架数据集
2025年1月7号，由杨德杰、赵子敬、刘洋联合提出PlanLLM，一种基于可微调大型语言模型（LLM）的跨模态联合学习框架，用于解决视频程序规划任务。通过引入LLM增强规划模块和互信息最大化模块，PlanLLM突破了现有方法依赖封闭集标签和固定语义描述的限制，实现了对新步骤和任务的泛化能力。该方法在COIN、CrossTask、NIV三个基准数据集上取得显著性能提升，展现了其在弱监督学习中的有效性
【sklearn 02】监督学习、非监督下学习、强化学习 @金色海岸 sklearn 学习人工智能
监督学习、非监督学习、强化学习**机器学习通常分为无监督学习、监督学习和强化学习三类。-第一类：无监督学习（unsupervisedlearning），指的是从信息出发自动寻找规律，分析数据的结构，常见的无监督学习任务有聚类、降维、密度估计、关联分析等。-第二类：监督学习（supervisedlearning），监督学习指的是使用带标签的数据去训练模型，并预测未知数据的标签。监督学习有两种，当预测
Python第二十三课：自监督学习 | 无标注数据的觉醒程之编 Python全栈通关秘籍 python 开发语言人工智能机器学习
本节目标理解自监督学习的核心范式与优势掌握对比学习（ContrastiveLearning）框架实现图像掩码自编码器（MaskedAutoencoder）开发实战项目：亿级参数模型轻量化探索数据增强的创造性艺术一、自监督学习基础（AI的拼图游戏）1.核心思想解析学习范式数据需求生活比喻监督学习海量标注数据老师逐题批改作业无监督学习纯无标签数据自学杂乱笔记自监督学习自动生成伪标签玩拼图游戏（根据碎片
新手村：数据预处理-异常值检测方法嘉羽很烦机器学习机器学习
机器学习中异常值检测方法一、前置条件知识领域要求编程基础Python基础（变量、循环、函数）、JupyterNotebook或PyCharm使用。统计学基础理解均值、中位数、标准差、四分位数、正态分布、Z-score等概念。机器学习基础熟悉监督/无监督学习、分类、聚类、回归等基本概念。数据预处理数据清洗、特征缩放（标准化/归一化）、数据可视化（Matplotlib/Seaborn）。二、渐进式学习
支持向量机 (SVM) 算法详解 sssugarr 机器学习算法详解 python svm 支持向量机算法 sklearn
支持向量机(SVM)算法详解支持向量机（SupportVectorMachine,SVM）是一种监督学习模型，广泛应用于分类和回归分析。SVM特别适合高维数据，并且在处理复杂非线性数据时表现出色。本文将详细讲解SVM的原理、数学公式、应用场景及其在Python中的实现。什么是支持向量机？支持向量机的目标是找到一个最佳的决策边界（或称超平面）来最大限度地分隔不同类别的数据点。对于线性可分的数据，SV
【人工智能基础2】机器学习、深度学习总结 roman_日积跬步-终至千里人工智能习题人工智能机器学习深度学习
文章目录一、人工智能关键技术二、机器学习基础1.监督、无监督、半监督学习2.损失函数：四种损失函数3.泛化与交叉验证4.过拟合与欠拟合5.正则化6.支持向量机三、深度学习基础1、概念与原理2、学习方式3、多层神经网络训练方法一、人工智能关键技术领域基础原理与逻辑机器学习机器学习基于数据，研究从观测数据出发寻找规律，利用这些规律对未来数据进行预测。基于学习模式，机器学习可以分为监督、无监督、强化学习
Python精进系列： K-Means 聚类算法调用库函数和手动实现对比分析进一步有进一步的欢喜 Python 精进系列算法 python kmeans
一、引言在机器学习领域，聚类分析是一种重要的无监督学习方法，用于将数据集中的样本划分为不同的组或簇，使得同一簇内的样本具有较高的相似性，而不同簇之间的样本具有较大的差异性。K-Means聚类算法是最常用的聚类算法之一，它以其简单性和高效性在数据挖掘、图像分割、模式识别等领域得到了广泛应用。本文将详细介绍K-Means聚类算法，并分别给出调用现成函数和不调用任何现成函数实现K-Means聚类的代码示
新手村：混淆矩阵嘉羽很烦机器学习机器学习
新手村：混淆矩阵一、前置条件知识点要求学习资源分类模型基础理解分类任务（如二分类、多分类）和常见分类算法（如逻辑回归、决策树）。《Hands-OnMachineLearningwithScikit-Learn》Python基础熟悉变量、循环、函数、列表、字典等基本语法。《PythonCrashCourse》或在线教程（如Codecademy）scikit-learn基础掌握模型训练、预测、评估的基
【模拟面试】计算机考研复试集训（第二天） Albert Edison 计算机考研复试高频考点面试考研职场和发展 c++数据结构算法操作系统
文章目录前言一、专业面试1、OSI参考模型和TCP/IP模型的主要区别是什么？简述各层功能2、什么是瀑布模型？其优缺点是什么？3、什么是递归？使用时需注意什么？4、监督学习与无监督学习的核心区别是什么？请举例说明典型算法5、你在项目中遇到过哪些技术挑战？是如何解决的？二、英文口语1、Canyoutellusaboutatimeyouworkedinateamandfacedchallenges?H
机器学习-----决策树多巴胺与内啡肽. 机器学习机器学习决策树人工智能
文章目录1、概念2.决策树的构建过程2.1特征选择2.2树的生成2.3树的剪枝3.决策树的优缺点4.决策树的应用4.1分类任务4.2回归任务4.3集成学习代码示例总结1、概念1.1决策树是什么决策树是通过对样本的训练，建立出分类规则，并对新样本进行预测，属于有监督学习。根节点：最上面的节点。叶子节点：能直接看到结果的节点。非叶子节点：位于中间的节点。1.2决策树的类型分类树：用于分类任务，叶节点代
数据标注质量对AI模型质量的影响分析自由鬼行业发展 IT应用探讨人工智能机器学习深度学习 AI
上、数据标注质量与AI模型的质量关系数据标注是AI最基础的工作，数据标注的质量决定了AI质量，影响数据标注质量的是数据标注的规则。1、数据标注是AI最基础的工作：数据标注是构建高质量AI模型的基石：数据标注尤其是在监督学习范式下，是AI领域最基础、最关键的工作之一。没有高质量的标注数据，就如同建造高楼大厦没有坚实的地基，AI模型就无法有效地学习和训练，最终的AI质量也就无从谈起。训练数据是AI模型
吴恩达机器学习笔记复盘（二）监督学习和无监督学习 wgc2k 机器学习机器学习笔记学习
监督学习经济价值以及定义监督学习是机器学习中创造了99%经济价值的类型，它是学习输入到输出映射的算法，关键在于给学习算法提供包含正确答案（即给定输入X的正确标签Y）的学习例子。生活中的例子邮件分类，输入是电子邮件，输出是判断邮件是否为垃圾邮件。语音识别，输入音频剪辑，输出文本记录。机器翻译，输入一种语言文本，输出其他语言的相应翻译。在线广告，输入广告和用户信息，预测用户是否点击广告，为公司带来大量
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
手写机器学习算法系列——K-Means聚类算法(一) 木有鱼丸223 手写机器学习算法系列机器学习算法聚类
代码仓库(数字空间项目，GN可上)不想看的话，我也将代码上传到本博客中。1.聚类算法简介在数据科学和机器学习领域，聚类(Clustering)算法是一种无监督学习方法，它将相似的对象分到同一个组，而不同的对象则被分到不同的组。这种算法的主要目标是根据数据的特征进行分组，以此找出数据的内在结构。聚类算法的一个核心特点就是它并不需要预先知道数据的类别，而是通过算法自动进行分组。在实际应用中，我们常见的
深入浅出 K 近邻算法：原理、实践与应用烂蜻蜓机器学习近邻算法算法
引言在机器学习的众多算法中，K近邻算法（K-NearestNeighbors，简称KNN）以其简洁而强大的特性占据着重要地位。它既可以用于分类任务，也能在回归任务中发挥作用。无论是处理简单数据集，还是面对复杂的数据分布，KNN都展现出独特的魅力。本文将深入探讨KNN算法的原理、特点、优缺点、实现步骤以及在分类和回归任务中的具体应用。KNN算法的基本原理KNN算法属于监督学习范畴，其核心思想质朴而直
LLM 为什么需要 tokenizer？ SmallerFL NLP&机器学习语言模型 gpt nlp python 词嵌入深度学习 transformer
文章目录1.LLM预训练目的1.1什么是语言模型2.Tokenizer一般处理流程（了解）3.进行Tokenizer的原因3.1one-hot的问题3.2词嵌入4.结语1.LLM预训练目的我们必须知道一个预训练目的：LLM的预训练是为了建立语言模型。1.1什么是语言模型预训练的语言模型通常是建立预测模型的，即预测下一个词的概率。通常采用了基于自监督学习的方式进行预训练，其中最常见的方法之一是使用自
基于多模态大模型的不完整多组学数据特征选择策略 m0_65156252 人工智能
基于多模态大模型的不完整多组学数据特征选择策略是当前生物信息学和精准医学领域的一个前沿问题。在多组学数据中，通常包括不同层次的生物信息（如基因组、转录组、蛋白质组、代谢组等），这些数据通常存在缺失、噪声或不一致的情况。因此，如何有效地在这些不完整的数据中进行特征选择，是实现精确疾病预测和个性化治疗的关键。结合多模态大模型（如自监督学习、图神经网络、Transformer等）可以有效解决这一问题。以
AI 界的包青天：GaussianNB 智断分类难题星际编程喵人工智能分类数据挖掘
前言在机器学习的江湖中，分类算法纷繁复杂，各具特色。有的深不可测，犹如隐世高人的内功心法，让人望而却步；有的则像街头小贩，简单直接却也能精准解决问题。江湖中高手云集，其中有一位侠客，宛如包青天，正气凛然，以公正无私和高效迅捷著称，擅长快速解决分类难题。此侠客正是GaussianNaïveBayes（高斯朴素贝叶斯，简称GaussianNB）。凭借朴素的假设与强大的数学支撑，GaussianNB在分
KMeans实战——聚类和轮廓系数评估啤酒数据集巷955 机器学习人工智能
原理：在数据分析和机器学习中，聚类是一种常用的无监督学习方法，用于将数据集中的样本划分为若干个簇，使得同一簇内的样本相似度较高，而不同簇之间的样本相似度较低。KMeans算法是其中最常用的聚类算法之一。本文将介绍如何使用KMeans算法对啤酒数据集进行聚类，并使用轮廓系数（SilhouetteScore）来评估聚类结果的质量。1.数据准备首先，我们需要导入必要的库并加载数据集。本文使用的数据集是一
人工智能机器学习算法分类全解析 power-辰南人工智能人工智能机器学习算法 python
目录一、引言二、机器学习算法分类概述（一）基于学习方式的分类1.监督学习（SupervisedLearning）2.无监督学习（UnsupervisedLearning）3.强化学习（ReinforcementLearning）（二）基于任务类型的分类1.分类算法2.回归算法3.聚类算法4.降维算法5.生成算法（三）基于模型结构的分类1.线性模型2.非线性模型3.基于树的模型4.基于神经网络的模型
基于PyTorch的深度学习——机器学习1 Wis4e 深度学习机器学习 pytorch
监督学习是最常见的一种机器学习类型，其任务的特点就是给定学习目标，这个学习目标又称标签、标注或实际值等，整个学习过程就是围绕如何使预测与目标更接近而来的。近些年，随着深度学习的发展，分类除传统的二分类、多分类、多标签分类之外，也出现了一些新内容，如目标检测、目标识别、图像分割等监督学习的重要内容半监督学习是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据，同时由部分使用标记
I-JEPA：联合嵌入预测架构的自监督学习实现平奇群Derek
I-JEPA：联合嵌入预测架构的自监督学习实现I-JEPAImplementationofI-JEPAfrom"Self-SupervisedLearningfromImageswithaJoint-EmbeddingPredictiveArchitecture"项目地址:https://gitcode.com/gh_mirrors/ij/I-JEPA项目介绍欢迎来到I-JEPA，这是一个基于Se
机器学习之KMeans算法 Mr终游机器学习机器学习算法 kmeans
目录一、KMeans的核心思想二、KMeans算法流程三、KMeans的关键点1.优点：2.缺点：四、如何确定最佳k值1.肘部法则2.轮廓系数五、Kmeans的典型应用场景六、代码示例KMeans是一种广泛使用的无监督学习算法，主要用于聚类分析（Clustering）。它的目标是将数据集划分为K个互不重叠的子集（簇，Cluster），使得同一簇内的数据点尽可能相似，不同簇之间的数据点尽可能差异显著
大话机器学习三大门派：监督、无监督与强化学习安意诚Matrix 机器学习笔记机器学习人工智能
以武侠江湖为隐喻，系统阐述了机器学习的三大范式：监督学习（少林派）凭借标注数据精准建模，擅长图像分类等预测任务；无监督学习（逍遥派）通过数据自组织发现隐藏规律，在生成对抗网络（GAN）等场景大放异彩；强化学习（明教）依托动态环境交互优化策略，驱动AlphaGo、自动驾驶等突破性应用。文章融合技术深度与江湖趣味，既解析了CNN、PCA、Q-learning等核心算法的"武功心法"（数学公式与代码实现
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b <br>c: %c <br>d: %d <bf>f: %f', 80,80, 80, 80); echo '<br />'; printf('%0.2f <br>%+d <br>%0.2f <br>', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他