李烟云

数据挖掘导论学习笔记第四章分类：基本概念、决策树与模型评估

4.1预备知识

分类任务的输入数据是记录的集合
每条记录也称实例或者样例，用元组 $(x, y)$ 表示， $x$ 是属性的集合，y是样例的类标号（也成为分类属性或目标属性）
类标号必须是离散的，但属性值可以是连续的
分类(classfication)的任务就是得到一个目标函数，将每个属性集映射到一个y上
目标函数也称分类模型
分为描述性建模和预测性建模两种

4.2解决问题的一般方法

分类法的例子：决策树分类法、基于规则的分类法、神经网络、支持向量机、朴素贝叶斯分类法
混淆矩阵 (confusion matrix):用 $f_{ij}$ 表示实际类标号为类 $i$ 但却被预测为类 $j$ 的记录数。混淆矩阵用来衡量分类模型的性能

		预测的类
		类=1	类=0
实际的类	类=1	$f_{11}$	$f_{10}$
–	类=0	$f_{10}$	$f_{00}$

$准确率(accuracy)=\frac{正确预测数}{预测总数}$

4.3 决策树归纳（decision tree）

4.3.1决策树原理

三种结点的定义

根结点（root node）没有入边，但有零或多条出边
内部结点（internal node）恰有一条入边和两条或多条出边
叶结点（leaf node）或终结点，恰有一条入边，无出边，每个叶结点都赋予一个类标号

非终结点都有一个属性测试条件，用来选择分支

4.3.2 如何建立决策树

最优决策树需要指数级的计算往往不可取，因此采取一系列局部最优决策来构造决策树。

1.Hunt 算法

设 $D_t$ 是与结点t相关联的训练记录集， ${y_c\}$ 是类标号，hunt算法定义如下：

如果 $D_t$ 中所有记录都属于同一个类 $y_t$ ，则t是叶结点，用 $y_t$ 标记
如果属于多个类，那就选择一个属性测试条件（attribute test condition),将记录划分成较小的子集。对于测试条件的每一个输出穿紧固件一个子女结点，，将 $D_t$ 中的记录分配，对每个子女结点，递归的调用hunt算法。

2.决策树归纳的设计问题

算法必须为不同类型的属性指定测试条件的方法，并且提供评估每种测试条件的客观度量
如何停止分裂过程

4.3.3表示属性测试条件的方法

二元属性 二元属性的测试条件产生两个可能的输出
标称属性 多路划分(有几个分几个)或者二元划分（k个属性值, $2^{k-1}$ - $1$ 种方法）
序数属性 二元划分或多路划分，但二元划分不能打乱原有的顺序，比如{1,2,3,4}不能分成{1,3}{2,4}
连续属性 二元划分或多路划分。对于二元划分必须选好划分点。多路划分要选好区间，如果区间保持有序性，那么相邻的区间还可以聚集成较宽的区间。

4.3.4 选择最佳划分的度量

设 $p (i ∣ t)$ 表示给定结点 $t$ 中属于类 $i$ 的记录所占的比例，有时省略t，直接用 $p (i)$ 表示。选择最佳划分的度量通常根据划分后子女结点不纯性的程度。不纯性程度越低，类分布 $(p_1,\cdots,p_i)$ 就越倾斜。
不纯性度量的例子包括：
$Entropy(t)=-\sum_{i=0}^{c-1}p(i|t)log_2p(i|t)\\ \\ Gini(t)=1-\sum_{i=0}^{c-1}[p(i|t)]^2\\ Classification\quad error(t)=1-\max_i[p(i|t)]$
其中c是类的个数，不同的度量变化趋势是一致的，但值不同。
父结点与子女结点的不纯程度之差越大，测试条件的效果就越好。增益 $\Delta$ 可以用来确定划分效果：
$\Delta=I(parent)-\sum_{j=1}^{k}\frac{N(v_i)}{N}I(v_j)$ 其中 $I (.)$ 是给定结点的不纯性度量, $N$ 是父结点上的记录总数，k是属性值个数， $N(v_j)$ 是与子女结点 $v_j$ 相关联的记录个数。
$I (p a r e n t)$ 是不变的，所以最大化增益等价于最小化子女结点的不纯性度量的加权平均值。
当选择熵作为不纯性度量时，
熵的差就是信息增益（information gain） $\Delta_{info}$

属性的划分

数据划分的不纯性指标的加权平均值越小，数据划分越合适。多路划分往往比二元划分更合适，二元划分可以看做是多路划分合并了某些输出得到的。
在对连续性属性划分时，为了选取划分点，节约时间，我们不使用穷举法，而是先将所有属性值排序，把两个相邻的属性值的中间值作为候选划分点，进一步简化，我们不必考虑相同类标号之间的划分点。

增益率

对于像顾客ID这样的划分，每个样本在属性上的值都是唯一的，每个划分相关联的记录太少，以至于不能做出可靠的预测。解决这个问题的策略有两种。

指定限制测试条件只能是二元划分，如CART决策树算法
修改评估划分的标准，把属性测试条件产生的输出也考虑进去，例如决策树算法C4.5采用称作增益率（gain ratio）的划分标准来评估划分：
$Gain\ ratio=\frac{\Delta_{info}}{Split\ Info}$
其中划分信息 $Split\ Info=-\sum_{i=1}^kP(v_i)log_2P(v_i)$ ,k是划分的总数。如果每个属性值具有相同的记录数，则划分信息等于 $log_2k$ .这说明如果某个属性产生了大量的划分，它的划分信息将会很大，从而降低了增益率

4.3.5决策树归纳算法

Tree Growth
1:if    stopping_cond(E,F)=ture then        %判断是否终止决策树的增长，通过检查所有记录是否都属于同一类或者都具有相同的属性值或者记录数小于某个阈值
2:		leaf=createNode()                         %创建一个结点，这个结点可能是一个测试条件，也可能是一个类标号
3:		leaf.label=Classify(E)                    %为叶结点确定类标号leaf.label=argmax p(i|t)返回最大化p(i|t)的参数值i
4:else
6:		root=creatNode()       %创建一个根结点
7:		root.test_cond=find_best_solit(E,F)             %选择最适的属性最为测试条件
8:		令V={v|v是root.test_cond的一个可能的输出}
9:		for 每个v∈V do
10：	E_v={e|root.test_cond(e)=v,并且e∈E}         %E是一个训练记录集，F表示属性集
11：	child=TreeGrowth(E_v,F)
12:		将child作为root的派生结点添加到树中，，并将（root→child）标记为v
13：	end for
14:end if
15:return root

4.3.7决策树归纳的特点

不需要任何假设
寻找最佳决策树是NP完全问题
计算代价低。未知样本分类快，最坏情况下时间复杂度是O(w),w是树的最大深度
简单的数据集上，决策树可以与其他分类算法媲美
决策树是学习得到离散值函数的典型代表。但是对于特定的布尔问题，会产生 $2^d$ 个结点，不适用
对于噪声的干扰具有相当好的鲁棒性
冗余属性不会产生不利性影响，但是不相关属性可能会在构造过程中偶然被选中，这需要特征选择技术处理
子树可能重复多次
测试条件每次只涉及一个属性会受到决策边界限制，对复杂关系建模的表达能力较低，所以需要以下的几种方法解决

斜决策树（oblique decision tree）

允许测试条件涉及多个属性，如 $x + y < 1$ ,产生更紧凑的决策树到那时计算会变得很复杂

构造归纳（constructive induction)

创建复合属性，代表已有属性的算术或逻辑组合。在决策树构造之前就增广到数据集里。花费很低，但会产生冗余属性。

10.树剪枝（tree—pruning)减少决策树规模，防止过拟合。

4.4模型的过分拟合

分类模型的误差分为两种，训练误差和泛化误差。训练误差随着模型复杂度升高而降低，泛化误差则先降低后升高。

4.4.1噪声导致的过拟合

4.4.2缺乏代表性样本导致的过拟合

当决策树的叶结点没有足够的代表性样本时，，很可能做出错误的预测，即错误的生成子女结点。

4.4.3过拟合与多重比较过程

设 $T_0$ 是初始决策树， $T_x$ 是插入属性x的内部结点后的决策树。原则上，如果观察到 $\Delta(T_0,T_x)$ 大于某个预先设定的阈值，就可以将x添加到树中。但是在实践中可能会有很多个x, $\{x_1, \cdots ,x_k\}$ ,因此其实是在测试 $\Delta(T_0,T_{max})$ 。随着候选个数k的增加， $\Delta>\alpha$ 的几率也在增大。除非根据k修改增益函数 $\Delta$ 或者 $\alpha$ ，否则算法会在不经意间增加一些欺骗性的结点导致过分拟合。
当选择属性 $x_{max}$ 的训练记录很小时， $\Delta(T_0,T_{max})$ 方差会很大。找到 $\Delta(T_0,T_{max})>\alpha$ 的几率也就增大了。决策树增长到一定深度时就会发生这种情况，降低结点所覆盖的记录数，提高了增加不必要结点的可能性。大量候选属性和少量训练记录都会导致过分拟合。

4.4.4泛化误差估计

1.再带入估计

假设训练数据集可以很好的代表整体数据，即训练误差等于泛化误差

2.结合模型复杂度

定义奥卡姆剃刀:给定两个具有相同泛化误差的模型，较简单的模型比复杂的模型更可取

所有的事情都应该尽可能简单，但不是简化
$\qquad$ $\qquad$ $\qquad$ $\qquad$ $\qquad$ $\qquad$ $\qquad$ $\qquad$ $\qquad$ ——爱因斯坦

下面介绍两种把模型复杂度与分类模型评估结合在一起的方法
悲观误差评估（pessimistic error estimate）
决策树T的悲观误差估计 $e_g(T)$ 表示为
$e_g(T)=\frac{\sum_{i=1}^k[e(t_i)+\Omega(t_i)]}{\sum_{i=1}^kn(t_i)}=\frac{e(T)+\Omega(T)}{N_t}$ 其中 $n (t)$ 是结点t分类的训练记录数， $e (t)$ 是被误分类的记录数。k是决策树的叶结点数， $e (T)$ 是决策树的总训练误差, $N_{t}$ 是训练记录数， $\Omega(t_i)$ 是每个结点 $t_i$ 对应的罚项。
对于二叉树来说，如果罚项为1，那么说明，除非增加一个结点能够减少一个以上的误分类，否则就不再增加结点。

最小描述长度原则（minimum description length MDL）
通过已知的A建模并传送类标号给B，传输的总代价是
$总代价 = 模型编码的开销 + 误分类记录编码的开销$
具体开销方法不唯一，自查。

3.估计统计上界

泛化误差也可以用训练误差的统计修正来估计。统计修正通常是计算训练误差的上界，考虑到达决策树一个特定叶结点的训练记录数。
在决策树算法C4.5中，假设每个叶结点上的错误服从二项分布。用正态分布近似二项分布 $e_{upper}(N,e,\alpha)=\frac{e+\frac{z_{\alpha /2}^2}{2N}+z_{\alpha /2}\sqrt{\frac{e(1-e)}{N}+\frac{z_{\alpha /2}^2}{4N^2}}}{1+\frac{z_{\alpha /2}^2}{N}}$
其中 $\alpha$ 是置信水平， $z_{\alpha /2}$ 是标准正态分布的标准化值，N是计算e的训练记录总数

4.使用确认集

将训练集分成两个较小的子集，一个用于训练，另一个叫做确认集，用于估计泛化误差。
该方法通过控制参数得到不同的模型，直到达到最低的错误率。

4.4.5处理决策树归纳中的过分拟合

前面介绍的是估计分类模型泛化误差的方法，来防止过拟合。下面介绍两种在决策树归纳上避免过分拟合的策略
先剪枝（提前终止规则）：通过设定一些阈值来提前终止，但阈值往往很难确定，既不能太高也不能太低。
后剪枝：先生成最大规模的树，然后自下而上剪枝。剪枝有两种做法（1）子树提升（subtree rasing）：用新的叶结点替换子树，该结点的类标号由子树下记录中的多数类确定。（2）子树替换（subtree replacement）用子树中最常使用的分支代替子树。后剪枝的结果优于先剪枝但会消耗较多的计算量，而且剪枝后，一部分计算量被浪费了。

4.5评估分类器的性能

这一节回顾了一些常用的评估分类器性能的方法

保持方法

一部分训练，一部分检验。局限性在于：（1）训练样本减少，模型不如使用全部记录好（2）模型可能依赖训练集和检验集的构成，一方面训练集越小，方差越大，另一方面，在一个子集中超出比例的类在另一个子集中就低于比例，反之亦然。

随机二次抽样

即多次重复保持方法。缺陷在于训练集减少，和没有控制每个记录用于训练和检验的次数，因此有些用于训练的记录使用的频率可能比其他记录高得多

交叉验证

一分为多，每一个子集检验，剩下的训练。k折交叉检验.缺点是开销很大。

自助法

之前的方法都是不放回抽样，自助法（bootstrap）是有放回的抽样。
原始数据有N个记录，一个记录被抽到的概率是0.632，没有被抽到的做检验集,得到的自主样本准确率的一个估计 $\varepsilon_i$ .抽样b次，产生b个自主样本。总准确率计算如下
${acc}_{boot}=\frac{1}{b} \sum_{i=1}^{b}(0.632 \times \varepsilon_i+0.368\times acc_s)$

4.6比较分类器的方法

4.6.1估计准确度的置信区间

预测检验预测类标号的任务可以被看做二项式实验。给定一个N个记录的检验集。N充分大时用正态分布近似，推导出准确率的置信区间
$P(-Z_{\alpha /2}<=\frac{acc-p}{\sqrt{p(1-p)/N}}<=Z_{1-\alpha/2})=1-\alpha$
Z是在置信水平 $(1-\alpha)$ 下的置信界限，acc表示准确率，p表示检验正确的概率。通过查表可知不同置信水平下的 $Z_{\alpha/2}$

4.6.2比较两个模型的性能

考虑一对模型 $M_1$ 、 $M_2$ ,他们两个独立的检验集 $D_1$ 和 $D_2$ 上进行评估，令 $n_i$ 是 $D_i$ 中的记录数， $M_1$ 在 $D_1$ 的错误率为 $e_1$ ,目标是检验 $e_1$ 和 $e_2$ 的观测差是否统计显著。
设检验集充分大，可以用正态分布近似，，令 $d=e_1-e_2$ .d的方差为
$\sigma^2_d\approx \hat{\sigma}^2_d=\frac{e_1(1-e_1)}{n_1}+\frac{e_2(1-e_2)}{n_2}$
最后在置信水平 $(1-\alpha)\%$ 下， $d_t$ 的置信区间由下式： $d_t=d\pm z_{\alpha/2}\hat{\sigma}^2_d$

4.6.3比较两种分类法的性能

假设我们想用k折交叉验证的方法比较两种分类法的性能。 $M_{ij}$ 表示分类计数 $L_i$ 在第j次迭代产生的模型，观察的差的总方差用下式进行估计：
$\hat{\sigma}^2_{d^{cv}}=\frac{\sum_{j=1}^{k}(d_j-\bar{d})}{k(k-1)}$
其中 $\bar{d}$ 是平均差。对于这个方法我们需要用 $t$ 分布计算 $d^{cv}$ 的置信区间：
$d^{cv}=\bar{d}\pm t_{(1-\alpha),k-1}\hat{\sigma}^2_{d^{cv}}$
系数 $t_{(1-\alpha),k-1}$ 可以通过两个参数(置信水平(1-a)和自由度k-1)查概率表得到

停止过度提示：为什么简短的 AI 提示比长prompt更胜一筹大模型之路 prompt 人工智能 prompt 提示词
当下如何与AI高效互动成为众多用户关注的焦点，而提示词（prompt）的运用则是其中的关键。提示词作为与AI沟通的桥梁，其长度和内容的详略在很大程度上影响着AI的回应效果以及用户体验。近年来，“过度提示”现象逐渐引发热议，与之相对的，短提示词的优势开始受到更多关注。本文将深入探讨为何短AI提示词比长提示词更具优势。长提示词的困境信息过载与AI处理难题在与AI交互的过程中，许多人试图通过提供详尽的长
探索未来桌面应用的极限：QtWebEngine深度剖析与推荐张姿桃Erwin
探索未来桌面应用的极限：QtWebEngine深度剖析与推荐去发现同类优质开源项目:https://gitcode.com/在追求极致用户体验和无缝互联网集成的时代，QtWebEngine犹如一座桥梁，将Chromium的强大力量与Qt框架的灵活性完美融合，为开发者打开了无限可能的大门。本文将深入解析这一开源宝藏，探讨其技术内核，应用场景，并揭示它的独特魅力。项目介绍QtWebEngine——是一
嵌入式系统的核心组成部分处理器、存储器、传感器和执行器 getapi 单片机嵌入式硬件信号处理
处理器、存储器、传感器和执行器是嵌入式系统的核心组成部分。它们共同协作，完成从数据采集到处理再到执行的完整流程。以下是对这些组件的详细解析：1.处理器（Processor）定义处理器是嵌入式系统的大脑，负责执行指令、处理数据和控制其他组件。主要功能执行程序代码。控制外设（如存储器、传感器、执行器）。处理数据输入和输出。分类微控制器（MCU）集成了处理器核心、存储器和外设的单芯片解决方案。适合低成本
奇迹科技：蓝牙网关赋能少儿篮球教育的创新融合案例研究 Ms_lan 蓝牙网关北京桂花网智慧体育
一、引言本文研究了福建奇迹运动体育科技有限公司（简称‘奇迹科技’）如何利用其创新产品体系和桂花网蓝牙网关M1500，与少儿篮球教育实现深度融合。重点分析其在提升教学效果、保障训练安全、优化个性化教学等方面的实践与成效，为教育机构和从业者提供参考。二、企业背景奇迹科技由国资上市企业浙数集团与福建省互联网十强企业来玩互娱联合注资成立，专注于数字化体育产业，业务包括数字体育科技研发、打造并运营少儿科技篮
微信小程序的旅游服务助手景点酒店旅游规划的设计与实现 QQ1304979694 微信小程序旅游小程序
文章目录具体实现截图本项目支持的技术语言研究思路、方法和步骤本系统开发思路主要软件与实现手段系统可行性分析源码获取详细视频演示：文章底部获取博主联系方式！！！！java类核心代码部分展示微信小程序技术现状源码获取/详细视频演示具体实现截图本项目支持的技术语言前端开发框架:vue.js+uniapp数据库mysql版本不限微信开发者工具/hbuiderx数据库工具：Navicat/SQLyog等都可
生成对抗网络（GAN）的高级变体及在图像生成领域的创新实践算法探索者生成对抗网络计算机视觉人工智能
摘要生成对抗网络（GAN）自提出以来，在诸多领域取得了显著进展，尤其是在图像生成方面展现出强大的潜力。本文深入探讨了GAN的多种高级变体，如CycleGAN、StyleGAN等，详细分析它们在结构设计、训练机制上的创新之处，阐述其在生成高分辨率、多样化图像时具备的独特优势，并结合丰富的实际案例，展示这些变体在图像生成领域的卓越应用成果，为相关研究与应用提供全面且深入的参考。一、引言生成对抗网络（G
人工智能与网络信息技术的深度融合鸭鸭鸭进京赶烤学术会议人工智能 AI编程 ai 机器人计算机视觉网络计算机网络
在当今时代，人工智能（AI）和网络信息技术正以前所未有的速度推动着社会变革。从通用人工智能（AGI）到具身智能的普及，AI不仅实现了技术上的飞跃，也在各个行业展现出巨大的应用潜力。随着技术的不断迭代，我们迎来了许多创新应用，例如AI在电子信息技术中的应用，通过算法优化与升级，显著提高了处理效率和准确性。网络信息技术同样在飞速发展。面向2030年的未来网络发展趋势表明，网络将支撑万亿级、人机物、全时
统一的视频动作模型三谷秋水计算机视觉机器学习人工智能计算机视觉深度学习机器学习人工智能
25年3月来自斯坦福大学的论文“UnifiedVideoActionModel”。统一的视频和动作模型对机器人技术具有重大意义，其中视频为动作预测提供丰富的场景信息，而动作为视频预测提供动态信息。然而，有效地结合视频生成和动作预测仍然具有挑战性，当前基于视频生成的方法在动作准确性和推理速度方面难以与直接策略学习的性能相匹配。为了弥补这一差距，引入统一的视频动作模型（UVA），它联合优化视频和动作预
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
Temu跨境新风口：2025年开店必知的账号安全指南香菜9527 安全
近年来，Temu凭借其强大的供货链体系与超低价策略，成为跨境电商行业的新风口，吸引众多卖家入驻。随着平台竞争加剧，账号安全问题逐渐成为卖家面临的核心挑战。账号被封、资金冻结、违规操作等问题频发，轻则影响销量，重则导致店铺损失惨重。因此，了解并遵循安全运营规则，是每位卖家成功的关键。本文将为你详细解析Temu开店过程中必须掌握的账号安全知识，并提供实操建议，助你稳健运营。1.Temu账号安全为何重要
如何避免Bug跟踪系统混乱管理前沿运维人工智能大数据
流程规范化、工具集成化、沟通透明化。其中流程规范化通过明确每个环节的责任分工、标准化Bug报告和处理流程，有效减少混乱和重复劳动，确保Bug跟踪系统高效运转。企业通过数据分析发现，采用标准化流程后Bug处理效率可提升30%以上，这为软件质量控制提供了坚实保障。一、BUG跟踪系统的基本概念与重要性Bug跟踪系统是一种用于记录、管理和解决软件缺陷的工具和流程。它通过集中存储Bug报告、分类处理问题，并
Gradle 打包调试终极指南：全维度日志输出与问题定位有时很滑稽 Android android
Gradle打包调试终极指南：全维度日志输出与问题定位一、Gradle日志级别全解析1.1日志级别控制参数#按日志详细程度递增排序：./gradlewassembleDebug-q#QUIET-仅错误信息./gradlewassembleDebug#LIFECYCLE-默认级别（任务执行概览）./gradlewassembleDebug-i#INFO-显示任务输入/输出变化./gradlewass
侯捷 C++ 课程学习笔记：深入掌握 C++ 高阶特性 —— 实践与心得分享清水白石008 C++学习笔记课程教程 c++学习笔记
侯捷C++课程学习笔记：深入掌握C++高阶特性——实践与心得分享自从开始接触侯捷C++系列精品课程以来，我对C++语言有了全新的认识与深入理解。这套课程不仅系统地梳理了C++的基础知识，更从实际案例中展示了许多高阶特性和工程实战技巧。作为一名长期从事C++开发的专业人士，我深深感受到侯捷老师讲解中那种由浅入深、逻辑严密的魅力，也正是这种教学风格让我在短时间内掌握了不少难以琢磨的知识点。今天，我将结
探索AI模型的巅峰之战：ChatGPT、DeepSeek与Grok 3，谁才是最强？温暖阳光阿斌人工智能 chatgpt
近年来，人工智能领域正处于一场高速迭代的革命中。大型语言模型（LLMs）如ChatGPT、DeepSeek和Grok3纷纷亮相，各展所长，为人们带来了前所未有的体验。在这场"谁是最强"的竞争中，每一方都展现出了令人惊叹的能力和独特的优势。然而，这些模型之间的差异和特点，究竟是什么？它们各自的优势在哪里？又有哪些隐藏的短板？本文将带您深入了解这三位AI巨头的亮点与争议，共同探讨它们在AI领域的位置，
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
Spring的JavaWeb三层架构可问可问春风 JAVA SSM框架 spring 架构 java
Spring三层架构的核心注解及协作在Spring的JavaWeb三层架构中，通过分层注解实现职责分离和组件管理，各层（表现层、业务层、数据访问层）的协作基于组件扫描和依赖注入（DI）机制。以下是各层的核心注解及其协作关系：1.分层架构与对应注解层级职责注解关联技术表现层处理用户请求，返回响应@Controller/@RestControllerSpringMVC,RESTfulAPI业务层实现业
Linux find 命令完全指南可问可问春风 Linux从新手到入门 linux chrome 运维
find是Linux系统最强大的文件搜索工具，支持嵌套遍历、条件筛选、执行动作。以下通过场景分类解析核心用法，涵盖高效搜索、文件管理及高级技巧：一、基础搜索模式1.按文件名搜索（精确/模糊匹配）find/path-name"*.log"#精确匹配.log后缀（区分大小写）find/home-iname"*.TXT"#模糊匹配.txt后缀（忽略大小写）find.-name"data_[0-9].cs
一文说清预训练与微调：AI的双重训练法则 TGITCIC AI-大模型的落地之道人工智能深度学习
什么是预训练？预训练是大型语言模型训练的第一步。它在资金和计算能力的支持下，通过深入分析大量的文本数据，使模型建立起语言的基本构架。在这一阶段，模型通过学习海量的书籍、文章和网页，识别出语言的语法、句法和词汇规律。这就如同一名学生接受通识教育，他并没有专注于某一门学科，而是获取了多方面的知识。自回归语言建模和掩码语言建模是预训练中常见的两种方法。前者在逐步构建文本的连贯性时，通过预测下一单词的方式
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
SQLAdmin 教程：安装与配置指南俞淑瑜Sally
SQLAdmin教程：安装与配置指南sqladminSQLAlchemyAdminforFastAPIandStarlette项目地址:https://gitcode.com/gh_mirrors/sq/sqladmin1.项目目录结构及介绍在sqladmin开源项目中，主要的目录结构如下：docs：存放项目的文档资料，包括Markdown格式的说明文件。sqladmin：核心代码库，包含主要的功
RDMA通信协议中rdma_resolve_addr函数的实现与应用 109702008 #C语言编程网络人工智能网络 linux
在RDMA（远程直接内存访问）通信中，rdma_resolve_addr函数是一个关键的API，用于将目标IP地址解析为RDMA地址，从而建立RDMA连接。在InfiniBand源码包中，mlnx-ofed-kernel_4.9.orig.tar.gz和librdmacm_41mlnx1.orig.tar.gz都提供了rdma_resolve_addr函数，但它们的实现代码不同，且服务于不同的层次
Linux内核网络设备注册与地址族协同机制深度解析 109702008 #C语言编程网络网络人工智能 c语言
在Linux网络子系统中，网络设备注册与地址族（AddressFamily）的协同工作机制是构建高性能网络应用的核心基础。本文将以IPoIB（InfiniBandoverIP）驱动为例，深入解析register_netdev函数在设备注册中的作用，地址族的选择对网络通信的影响，以及如何通过自定义协议实现灵活的网络控制。一、网络设备注册机制解析1.1register_netdev的核心作用regis
【001安卓开发方案调研】之Java+Gradle+XML 原生安卓开发 ThinkPet 移动app开发 android java xml
基于2025年国内安卓开发领域的最新动态，结合Java+Gradle+XML技术组合的生态发展，以下是综合分析：一、技术成熟度评估1.核心架构稳定性Java语言基础作为安卓开发官方支持语言，Java在国内拥有超过15年的技术积累，字节码编译机制与安卓ART虚拟机的深度适配，使其在内存管理、多线程处理等场景表现稳定。主流应用如微信、支付宝均保留Java核心模块。Gradle构建体系Gradle8.5
从注册到落地：Temu中亚首站瞄准乌兹别克斯坦消费潜力香菜9527 人工智能业界资讯经验分享
从注册到落地：Temu中亚首站瞄准乌兹别克斯坦消费潜力近年来，全球跨境电商市场格局加速演变，中国跨境电商平台正积极拓展海外市场。继在北美、欧洲、澳大利亚等地区取得显著成绩后，拼多多旗下跨境电商平台Temu正式开启中亚市场布局。乌兹别克斯坦成为Temu在中亚的首个重点市场，标志着其全球扩张战略进入新的阶段。乌兹别克斯坦市场潜力与政策环境乌兹别克斯坦作为中亚人口最多的国家（约3500万人），近年来消费
python flask 使用教程快速搭建一个 Web 应用莫忘初心丶 python flask 前端
目录一、Flask简介二、Flask安装三、创建一个简单的Flask应用四、Flask路由与视图五、接收和处理用户输入六、模板引擎Jinja2七、Flask与数据库八、总结一、Flask简介Flask是一个轻量级的PythonWeb框架，旨在帮助开发者快速搭建Web应用。相比于Django等重量级框架，Flask更加简洁和灵活，非常适合用于小型Web项目的开发，甚至可以用于构建RESTfulAPI
深入理解Python闭包与递归：原理、应用与实践 Multiple-ji python 开发语言
目录闭包什么是闭包：闭包的基本结构：实现闭包的条件：1.嵌套函数2.内函数引用外部函数的变量3.外部函数返回内部函数4.外部函数已经执行完毕递归函数什么是递归函数：递归函数条件1.必须有个明确的结束条件———递归出口2.每进行更深一步的递归，问题规模相比上一次递归都要有所减少3.相邻两次重复之间有紧密联系分析一下这段代码1.函数定义：2.基准条件（BaseCase）3.递归条件（Recursive
强化学习中策略网络模型设计与优化技巧数字扫地僧计算机视觉深度学习
I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。策略网络（PolicyNetwork）是强化学习中一种重要的模型，它直接输出动作的概率分布或具体的动作。本篇博客将深入探讨策略网络的设计原则、优化技巧，并结合具体实例展示其应用。II.策略网络的基本概念A.策略网络的定义策略网络是一种神经网络，它接受当前状态作为
中小制造企业必看！MES管理系统破解车间管理四大难题指南深蓝易网数字工厂制造人工智能大数据运维 devops
在制造业竞争日益激烈的今天，生产车间的低效与混乱已成为制约企业发展的关键瓶颈。计划频繁变更、异常频发、资源浪费等问题不仅导致成本攀升，更直接影响订单交付与客户信任。如何实现生产透明化、管理精细化？MES系统（制造执行系统）凭借其数据驱动与全流程协同能力，正成为企业突破困局的利器。本文将从四大核心痛点切入，深度解析MES管理系统的破局之道。痛点一：计划脱离实际，排产如同“盲人摸象”传统排产模式下，计
知识图谱系列文章——文物知识图谱 weixin_43407382 知识图谱
文章介绍背景1、文物可以提供创意，如哥窑面饰的照相机2、目前文物数字化工作非常少，没有纳入设计元素3、文物知识图谱建成后具有很多好处&#￥方法一、本体构建1、明确领域和目的——文物知识图谱&设计创意2、领域信息采集与分析——文物信息，３４０件文物实例，3、定义文物本体概念和结构层次4、定义概念属性和属性约束5、本体编码（建模语言和工具）6、本体评估——Jena的内嵌推理机，基于描述的逻辑7、本体实
Ubuntu新服务器安装流程整理 Sion木子 Linux 服务器 ubuntu linux 1024程序员节
Ubuntu新服务器安装流程整理1、修改计算机名2、设置时区与时间3、修改DNS4、更新软件包列表，升级软件包5、清理不再需要的软件包6、清理缓存7、更换内核8、设置SSH空闲超时时间9、设置SSH密码最小间隔天数10、配置GRUB引导加载程序文件权限11、处理具有SUID和SGID权限的文件以防止潜在的权限提升风险12、限制核心转储（coredumps）、禁Ping、开启TCP-SYNcooki
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

数据挖掘导论学习笔记 第四章 分类：基本概念、决策树与模型评估