少云清

9_分类算法—决策树

文章目录

1 信息熵
- 1.1 比特化（Bits）
- 1.2 一般化的比特化（Bits）
- 1.3 信息熵（Entropy）
- - 1.3.1 熵越大混乱程度越大
- 1.4 条件熵H（YIX）
2 决策树
- 2.1 什么是决策树
- 2.2 决策树构建过程（重点）
- 2.3 决策树特征属性类型（离散、连续）
- 2.4 决策树分割属性选择
- 2.5 决策树量化纯度
- - 2.5.1 决策树的划分依据之一-信息增益（越大越好）
- 2.6 决策树算法的停止条件
- 2.7 决策树算法效果评估
- 2.8 决策树直观理解结果计算
- 2.9 决策树的优缺点以及改进
3 决策树生成算法
- 3.1 ID3算法（信息增益最大的准则）
- 3.2 ID3算法优缺点
- 3.3 C4.5算法（信息增益比最大的准则）
- 3.4 C4.5算法优缺点
- 3.5 CART算法（分类回归树算法）
- 3.6 ID3，C4.5，CART分类树算法总结（重点）
4 决策树优化策略
5 决策树的剪枝
- 5.1 决策树剪枝过程
- 5.2 决策树剪枝损失函数及剪枝系数
- 5.3 分类树和回归树的区别
6 决策树可视化
- 6.1 插件安装
- 6.2 graphviz服务安装
- 6.3 决策树可视化案例
7 案例
8 决策树知识回顾

1 信息熵

信息论的创始人，香农是密歇根大学学士，麻省理工学院博士。

1948年，香农发表了划时代的论文——通信的数学原理，奠定了现代信息论的基础。

信息的单位：比特

1.1 比特化（Bits）

假设存在一组随机变量X，各个值出现的概率关系如图；
现在有一组由X变量组成的序列：BACADDCBAC…；如果现在希望将这个序列转换为二进制来进行网络传输，那么我们得到一个得到一个这样的序列：01001000111110010010…
结论：在这种情况下，我们可以使用两个比特位来表示一个随机变量。

而当X变量出现的概率值不一样的时候，对于一组序列信息来讲，每个变量平均需要多少个比特位来描述呢？？

1.2 一般化的比特化（Bits）

假设现在随机变量X具有m个值，分别为：V₁，V₂，…V；并于且各个值出现的概率如下表所示；那么对于一组序列信息来讲，每个变量平均需要多少个比特位来描述呢？？

可以使用这些变量的期望来表示每个变量需要多少个比特位来描述信息：

1.3 信息熵（Entropy）

H(X)叫做随机X的信息熵，单位为比特：m为类别

信息量：指的是一个样本/事件所蕴含的信息，如果一个事件的概率越大，那么就可以认为该事件所蕴含的信息越少。极端情况下，比如：“太阳从东方升起”，因为是确定事件，所以不携带任何信息量。
信息熵：1948年，香农引入信息熵；一个系统越是有序，信息熵就越低，一个系统越是混乱，信息熵就越高，所以信息熵被认为是一个系统有序程度的度量。

1.3.1 熵越大混乱程度越大

概率越大，可能性越大，但是信息量越小，不确定性越小，熵越小，自信息越小

例子：这个很容易理解，举一个极端的例子，如果相空间所有态中只有一个态的概率是1，其它态概率都是0，那这个系统的熵是0，完全没有混乱度，系统只能取这个态。反之，什么时候熵最大呢？当所有态概率相等的时候最大，这个时候系统对取什么态没有偏向性，所以混乱度最大。

信息熵就是用来描述系统信息量的不确定度。

High Entropy（高信息熵）：表示随机变量X是均匀分布的，各种取值情况是等概率出现的。
Low Entropy（低信息熵）：表示随机变量X各种取值不是等概率出现。可能出现有的事件概率很大，有的事件概率很小。

1.4 条件熵H（YIX）

给定条件X的情况下，所有不同x值情况下Y的信息熵的平均值叫做条件熵。另外一个公式如下所示：

事件（X，Y）发生所包含的熵，减去事件X单独发生的熵，即为在事件X发生的前提下，Y发生"新"带来的熵，这个也就是条件熵本身的概念。

2 决策树

2.1 什么是决策树

决策树（Decision Tree）是在已知各种情况发生概率的基础上，通过构建决策树来进行分析的一种方式，是一种直观应用概率分析的一种图解法；决策树是一种预测模型，代表的是对象属性与对象值之间的映射关系；决策树是一种树形结构，其中每个内部节点表示一个属性的测试，每个分支表示一个测试输出，每个叶节点代表一种类别；决策树是一种非常常用的有监督的分类算法。
决策树的决策过程就是从根节点开始，测试待分类项中对应的特征属性，并按照其值选择输出分支，直到叶子节点，将叶子节点的存放的类别作为决策结果。
决策树分为两大类：分类树和回归树，前者用于分类标签值，后者用于预测连续值，常用算法有ID3，C4.5，CART等

2.2 决策树构建过程（重点）

决策树算法的重点就是决策树的构造；决策树的构造就是进行属性选择度量，确定各个特征属性之间的拓扑结构（树结构）；构建决策树的关键步骤就是分裂属性，分裂属性是指在某个节点按照某一类特征属性的不同划分构建不同的分支，其目标就是让各个分裂子集尽可能的 “纯” （让一个分裂子类中待分类的项尽可能的属于同一个类别）。
构建步骤如下：
1，将所有的特征看成一个一个的节点；
2，遍历当前特征的每一种分割方式，找到最好的分割点；将数据划分为不同的子节点，eg：N₁、N₂ ···N_m ；计算划分之后所有子节点的 “纯度” 信息；
3，使用第二步遍历所有特征，选择出最优的特征以及该特征的最优的划分方式；得出最终的子节点：N₁、N₂ ···N_m
4，对子节点N₁、N₂ ···N_m分别继续执行2-3步，直到每个最终的子节点都足够 ”纯“ 。

2.3 决策树特征属性类型（离散、连续）

根据特征属性的类型不同，在构建决策树的时候，采用不同的方式，具体如下：

属性是离散值，而且不要求生成的是二叉决策树，此时一个属性就是一个分支
属性是离散值，而且要求生成的是二叉决策树，此时使用属性划分的子集进行测试，按照"属于此子集”和"不属于此子集"分成两个分支
属性是连续值，可以确定一个值作为分裂点split_point，按照 >split_point 和 <=split_point 生成两个分支

2.4 决策树分割属性选择

决策树算法是一种"贪心"算法策略，只考虑在当前数据特征情况下的最好分割方式，不能进行回溯操作。
对于整体的数据集而言，按照所有的特征属性进行划分操作，对所有划分操作的结果集的“纯度"进行比较，选择“纯度"越高的特征属性作为当前需要分割的数据集进行分割操作，持续迭代，直到得到最终结果。决策树是通过"纯度"来选择分割特征属性点的。

2.5 决策树量化纯度

决策树的构建是基于样本概率和纯度进行构建操作的，那么进行判断数据集是否"纯"可以通过三个公式进行判断，分别是Gini系数、熵（Entropy）、错误率，这三个公式值越大，表示数据越"不纯"；越小表示越"纯"；实践证明这三种公式效果差不多，一般情况使用熵公式

2.5.1 决策树的划分依据之一-信息增益（越大越好）

当计算出各个特征属性的量化纯度值后使用信息增益度来选择出当前数据集的分割特征属性；如果信息增益度的值越大，表示在该特征属性上会损失的纯度越大，那么该属性就越应该在决策树的上层，计算公式为：

Gain：A为特征对训练数据集D的信息增益，定义为集合D的经验熵H（D）与特征A给定条件下D的经验条件熵H（DIA）之差

注：信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度；即信息增益越大越好

2.6 决策树算法的停止条件

决策树构建的过程是一个递归的过程，所以必须给定停止条件，否则过程将不会进行停止，一般情况有两种停止条件：
- 当每个子节点只有一种类型的时候停止构建
- 当前节点中记录数小于某个阈值，同时迭代次数达到给定值时，停止构建过程，此时使用 max(p(i)) 作为节点的对应类型
方式一可能会使树的节点过多，导致过拟合（Overfiting）等问题；比较常用的方式是使用方式二作为停止条件

2.7 决策树算法效果评估

决策树的效果评估和一般的分类算法一样，采用混淆矩阵来进行计算准确率、召回率、精确率等指标
也可以采用叶子节点的纯度值总和来评估算法的效果，值越小，效果越好

2.8 决策树直观理解结果计算

2.9 决策树的优缺点以及改进

优点：

简单的理解和解释，树木可视化。
需要很少的数据准备，其他技术通常需要数据归一化

缺点：

决策树学习者可以创建不能很好地推广数据的过于复杂的树，这被称为过拟合。
决策树可能不稳定，因为数据的小变化可能会导致完全不同的树被生成

改进：

减枝cart算法
随机森林

3 决策树生成算法

建立决策树的主要是以下三种算法

ID3
C4.5
CART（Classification And Regression Tree）

3.1 ID3算法（信息增益最大的准则）

ID3算法是决策树的一个经典的构造算法，内部使用信息熵以及信息增益来进行构建；
每次迭代选择信息增益最大的特征属性作为分割属性
传统ID3算法不支持连续变量；
传统ID3算法对于缺省值不行；

3.2 ID3算法优缺点

优点：

决策树构建速度快；
实现简单；

缺点：

计算依赖于特征数目较多的特征，而属性值最多的属性并不一定最优
ID3算法不是递增算法
ID3算法是单变量决策树，对于特征属性之间的关系不会考虑
抗噪性差
只适合小规模数据集，需要将数据放到内存中

3.3 C4.5算法（信息增益比最大的准则）

在ID3算法的基础上，进行算法优化提出的一种算法（C4.5）；
现在C4.5已经是特别经典的一种决策树构造算法；
使用信息增益率来取代ID3算法中的信息增益，在树的构造过程中会进行剪枝操作进行优化；
能够自动完成对连续属性的离散化处理；
C4.5算法在选中分割属性的时候选择信息增益率最大的属性，涉及到的公式为：

3.4 C4.5算法优缺点

优点：

产生的规则易于理解
准确率较高
实现简单

缺点：

对数据集需要进行多次顺序扫描和排序，所以效率较低
只适合小规模数据集，需要将数据放到内存中

3.5 CART算法（分类回归树算法）

使用基尼系数作为数据纯度的量化指标来构建的决策树算法就叫做CART（Classification And Regression Tree，分类回归树）算法。CART算法使用GINI增益作为分割属性选择的标准，选择GINI增益最大的作为当前数据集的分割属性；可用于分类和回归两类问题。强调备注：CART构建是二叉树。

回归树: 平方误差最小
分类树: 基尼系数最小的准则在sklearn中可以选择划分的原则

3.6 ID3，C4.5，CART分类树算法总结（重点）

ID3和C4.5算法均只适合在小规模数据集上使用
ID3和C4.5算法都是单变量决策树
当属性值取值比较多的时候，最好考虑C4.5算法，ID3得出的效果会比较差
决策树分类一般情况只适合小数据量的情况（数据可以放内存）
CART算法是三种算法中最常用的一种决策树构建算法。
三种算法的区别仅仅只是对于当前树的评价标准不同而已，ID3使用信息增益、C4.5使用信息增益率、CART使用基尼系数。
CART算法构建的一定是二叉树，ID3和C4.5构建的不一定是二叉树。

4 决策树优化策略

剪枝优化

决策树过渡拟合一般情况是由于节点太多导致的，剪枝优化对决策树的正确率影响是比较大的，也是最常用的一种优化方式。

随机森林（Random Forest）

利用训练数据随机产生多个决策树，形成一个森林。然后使用这个森林对数据进行预测选取最多结果作为预测结果。

5 决策树的剪枝

决策树的剪枝是决策树算法中最基本、最有用的一种优化方案，主要分为两大类：

前置剪枝：在构建决策树的过程中，提前停止。结果是决策树一般比较小，实践证明这种策略无法得到比较好的结果。
后置剪枝：在决策树构建好后，然后再开始裁剪，一般使用两种方式：
- 1）用单一叶子节点代替整个子树，叶节点的分类采用子树中最主要的分类；
- 2）将一个子树完全替代另外一棵子树；后置剪枝的主要问题是计算效率问题，存在一定的浪费情况。

后置剪枝总体思路（交叉验证）：

由完全树T₀开始，剪枝部分节点得到T₁，在此剪枝得到T₂ … 直到仅剩树根的树T_k；
在验证数据集上对这k+1个树进行评价，选择最优树T_a（损失函数最小的树）

5.1 决策树剪枝过程

对于给定的决策树T₀

计算所有内部非叶子节点的剪枝系数
查找最小剪枝系数的节点，将其子节点进行删除操作，进行剪枝得到决策树T_k；如果存在多个最小剪枝系数节点，选择包含数据项最多的节点进行剪枝操作
重复上述操作，直到产生的剪枝决策树T_k只有1个节点
得到决策树T₀T₁T₂…T_k
使用验证样本集选择最优子树T_a

使用验证集选择最优子树的标准，可以使用原始损失函数来考虑：

5.2 决策树剪枝损失函数及剪枝系数

5.3 分类树和回归树的区别

分类树采用信息增益、信息增益率、基尼系数来评价树的效果，都是基于概率值进行判断的；而分类树的叶子节点的预测值一般为叶子节点中概率最大的类别作为当前叶子的预测值。
在回归树种，叶子节点的预测值一般为叶子节点中所有值的均值来作为当前叶子节点的预测值。所以在回归树中一般采用MSE作为树的评价指标，即均方差。

一般情况下，只会使用CART算法构建回归树。

6 决策树可视化

6.1 插件安装

决策树可视化可以方便我们直观的观察所构建的树模型；决策树可视化依赖graphviz服务，所以我们在进行可视化之前，安装对应的服务；操作如下：

安装graphviz服务
安装python的graphviz插件：pip install graphviz
安装python的pydotplus插件：pip install pydotplus

6.2 graphviz服务安装

下载安装包（msi安装包）：http://www.graphviz.org/；
执行下载好的安装包（双击msi安装包）；
将graphviz的根目录下的bin文件夹路径添加到PATH环境变量中；

6.3 决策树可视化案例

方式一：将模型输出dot文件，然后使用graphviz的命令将dot文件转换为pdf格式的文件
方式二：直接使用pydotplus插件直接生成pdf文件进行保存
方式三：使用lmage对象直接显示pydotplus生成的图片

# 方式一：输出形成dot文件，然后使用graphviz的dot命令将dot文件转换为pdf
from sklearn import tree
with open('iris.dot', 'w') as f:
    # 将模型model输出到给定的文件中
    f = tree.export_graphviz(model, out_file=f)

# 命令行执行dot命令： dot -Tpdf iris.dot -o iris.pdf

# 方式二：直接使用pydotplus插件生成pdf文件
from sklearn import tree
import pydotplus 
dot_data = tree.export_graphviz(model, out_file=None) 
graph = pydotplus.graph_from_dot_data(dot_data) 
# graph.write_pdf("iris2.pdf") 
graph.write_png("0.png")

# 方式三：直接生成图片
from sklearn import tree
from IPython.display import Image
import pydotplus
dot_data = tree.export_graphviz(model, out_file=None, 
                         feature_names=['sepal length', 'sepal width', 'petal length', 'petal width'],  
                         class_names=['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'],  
                         filled=True, rounded=True,  
                         special_characters=True)  
graph = pydotplus.graph_from_dot_data(dot_data)  
Image(graph.create_png())

7 案例

决策树案例一：莺尾花数据分类

使用决策树算法API对鸢尾花数据进行分类操作，并理解及进行决策树API的相关参数优化
数据来源：鸢尾花数据

决策树案例二：波土顿房屋租赁价格预测

使用决策树算法API对波士顿房屋租赁数据进行回归操作，预测房屋的价格信息，并理解及进行决策树API的相关参数优化
数据来源：波士顿房屋租赁数据

使用决策树实现特征选择：

因为决策树构建过程中，每次选择的划分特征的目的/方向是让数据具有更加明显的区分能力；也就是说我们每次选择的特征其实是具有比较明显的区分能力的特征；可以认为这些被选择的特征其实对于y的取值具有更大的影响；所以我们可以使用决策树来实现特征选择的操作
即选择 clf.feature_importances_ 返回列表中，权重比较大的特征

8 决策树知识回顾

机器学习-三大SOTA Boosting算法总结和调优小新学习屋机器学习机器学习 boosting 集成学习决策树人工智能
参考书籍：《机器学习公式推导和代码实现》书籍页码：P197～205简介除了深度学习适用的文本、图像、语音、视频等非结构化数据，对于训练样本较少的结构化数据，Boosting算法仍是第一选择。XGBoost、LightGBM、CatBoost是目前经典的SOTABoosting算法算法对比维度XGBoostLightGBMCatBoos说明算法的继承性是对GBDT的改进是对XGBoost的改进是对X
基于vue框架的超市订单管理系统16uob（程序+源码+数据库+调试部署+开发环境）系统界面在最后面。小光学长数据库
系统程序文件列表项目功能：员工,商品分类,商品信息,供货商,入库订单,销售订单,货架信息,盈利信息开题报告内容基于Vue框架的超市订单管理系统开题报告一、研究背景与意义随着信息技术的飞速发展和电子商务的普及，传统超市管理模式正面临前所未有的挑战与机遇。传统的手工记录与管理方式已难以满足现代超市对高效、精准、实时管理的需求。超市订单管理系统作为超市运营的核心部分，其信息化、智能化水平直接影响到超市的
JavaSE查漏补缺：Junit_反射_注解摘要 Kenny_Xu_00101854 Java java 反射单元测试
文章目录Part1Junit单元测试Part2反射-框架设计的灵魂Part3Java注解Part1Junit单元测试测试分类黑盒测试：不需要写代码，给输入值，看程序能否输出期望的值白盒测试：需要写代码，关注程序具体的执行流程Junit的使用（白盒测试）步骤：定义一个测试类（测试用例）规范：测试类名是被测试类名+Test包名：xxx.xxx.xx.test定义测试方法：可独立运行规范：方法名：tes
android-性能分析
以下是Android性能分析的完整指南，涵盖核心工具、优化方向及实操方法，适用于2025年开发环境：⚙️一、性能分析工具分类1.官方工具链工具用途关键能力版本适配AndroidProfiler实时监测CPU/内存/网络/能耗火焰图分析、内存泄漏检测（支持Activity/Fragment自动检测）AndroidStudio3.6+Perfetto系统级追踪（替代Systrace）线程调度、GPU渲
为什么 Python 是 AI 的首选语言？
文章目录一、简洁优雅，易于上手二、丰富的库和框架1.数据处理与分析2.数据可视化3.机器学习与深度学习框架三、强大的社区支持四、跨平台性和可移植性五、与其他语言的互操作性文章配套代码已上传，点击查看：https://download.csdn.net/download/2501_92578370/91180848在人工智能（AI）技术飞速发展的今天，编程语言的选择对AI开发者来说至关重要。当你翻开
服务器异常宕机或重启导致 RabbitMQ 启动失败问题分析与解决方案代码怪兽大作战 RabbitMQ 服务器 rabbitmq 宕机启动失败
服务器异常宕机或重启导致RabbitMQ启动失败问题分析与解决方案一、深度故障诊断与解决方案1.权限配置不当故障2.端口占用故障3.数据目录残留故障二、故障类型对比与诊断矩阵三、完整恢复流程（10步法）四、风险规避与最佳实践️数据保护策略预防性配置五、高级故障排除技巧诊断工具集容器特有故障处理容器维护命令速查主机与容器方案对比总结⚡快速恢复决策树六、总结当服务器异常宕机或重启后，RabbitMQ启
如何训练一个 Reward Model：RLHF 的核心组件详解茫茫人海一粒沙深度学习人工智能强化学习
RewardModel（奖励模型）是RLHF的核心，决定了模型“觉得人类偏好什么”的依据。本文将系统介绍如何从零开始训练一个rewardmodel，包括数据准备、模型结构、损失函数、训练方法与注意事项。什么是RewardModel？RewardModel（RM）是一个评分器：它输入一个文本（通常是prompt+模型回答），输出一个实数分值（reward），表示这个回答的“人类偏好程度”。它不是分类
利用人名语言分类案例演示RNN、LSTM和GRU的区别（基于PyTorch） .30-06Springfield rnn lstm gru 分类人工智能 python pytorch
文章目录一、程序结构1.1程序整体结构1.2各模块功能关系流程图二、数据预处理模块详解2.1定义字符集和语言类别2.2读取数据2.3人名转换为one-hot编码张量2.4自定义数据集类2.5数据加载器三、模型定义模块详解3.1RNN模型3.2LSTM模型3.3GRU模型四、模型训练与测试模块详解4.1测试模型基本功能4.2模型训练主函数五、结果可视化与对比模块详解六、模型预测模块详解七、案例结果分
学习笔记-JVM GC 绝不秃头的L君学习笔记 jvm jvm.gc
1.GC分类PartialGC并不会收集整个堆空间，仅仅包括新生代和老年代，不包含永久代（元空间）。YoungGC:只收集YoungGen的垃圾收集过程。OldGC：只收集OldGen的垃圾收集过程。（只有CMS的并发收集是这个模式）MixedGC：收集整个YoungGen以及部分OldGen的垃圾收集过程。（只有G1有这个模式）FullGC收集整个堆，包括YoungGen、OldGen以及Per
Web 服务器架构选择深度解析后端
在Web服务与API设计中，服务器架构的选择直接决定系统的可扩展性、维护成本与性能上限。本文从架构演进脉络出发，系统解析单体架构、微服务、服务网格、Serverless等主流架构的核心特性、适用场景及Java技术栈实现。一、架构演进与核心分类1.1架构演进脉络1.2核心架构对比表架构类型核心特点典型技术栈（Java）部署复杂度扩展性单体架构所有功能模块打包为单一应用，共享数据库SpringBoot
AUTOSAR从入门到精通-【自动驾驶】自动驾驶中的摄像头技术（二）格图素书人工智能深度学习
目录前言算法原理摄像头在自动驾驶中的作用与意义分类按通信协议区分按不同感光芯片按像元排列方式摄像头核心关键指标多传感器融合在自动驾驶中的应用▲不同自动驾驶等级的传感器配置▲L2级别▲L2+/3级别▲L4/5级别摄像头的种类与应用车载智能前视像头关键参数如何选择摄像头全车摄像头布置及功能前视摄像头环视摄像头后视摄像头侧视摄像头内置/外置后视摄像头雷达的种类与应用摄像头与雷达的数量配置产业与行业现状摄
ChatGPT、DeepSeek等大语言模型技术教程
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
Redis 详细介绍骑牛小道士 redis 数据库缓存
RedisRedis是什么为什么要用RedisRedis的持久化Redis数据共享分布式Redis缓存的安全性保证(分布式锁)Redis的部署模式分类Redis的全局IDRedisTemplate常用方法Redis的应用Redis在消息队列中应用方式一：基于List的队列方式二：Redis发布/订阅(Pub/Sub)模式Redis发布消息Redis订阅消息（配置监听器）方式三：基于Streams的
【机器学习】什么是逻辑回归？从入门到精通：掌握逻辑回归与二分类问题的解决之道宸码模式识别机器学习机器学习 python 逻辑回归分类人工智能算法
从入门到精通：掌握逻辑回归与二分类问题的解决之道引言1.1逻辑回归简介1.2逻辑回归的应用场景逻辑回归基本原理2.1逻辑回归概述逻辑回归的基本思想预测类别的概率2.2线性模型与Sigmoid函数线性模型Sigmoid函数Sigmoid函数的性质为什么选择Sigmoid函数2.3逻辑回归的输出：概率值分类决策代价函数与优化数学基础3.1逻辑回归的假设与目标假设目标3.2对数似然函数概率模型对数似然函
CHES2024 issue-1文章总结打工小熊猫密码学文献分类总结 arm开发同态加密零知识证明密码学网络攻击模型安全威胁分析计算机网络
来源：https://ches.iacr.org/2024/acceptedpapers.php简要分类：分类文章编号后量子密码软硬件加速相关无侧信道攻防相关1、10、11、12、14、15同态相关18、19、201.Gadget-basedMaskingofStreamlinedNTRUPrimeDecapsulationinHardwareGeorgLand,AdrianMarotzke,Ja
Python爬虫实战：研究httplib2库相关技术 ylfhpy 爬虫项目实战 python 爬虫 php httplib2
1.引言1.1研究背景与意义随着互联网的快速发展，网络上的信息量呈爆炸式增长。如何从海量的网页中高效地获取有价值的数据，成为了当前信息技术领域的一个重要研究课题。网络爬虫作为一种自动获取互联网信息的程序，能够按照一定的规则，自动地抓取网页内容并提取和整理信息，为信息检索、数据分析、机器学习等领域提供了丰富的数据来源。在电子商务领域，爬虫可以用于价格监控、竞品分析和市场调研；在学术研究中，爬虫可以帮
Python爬虫实战：研究stdlib库相关技术 ylfhpy 爬虫项目实战 python 爬虫前端开发语言 stdlib 标准库
1.引言1.1研究背景与意义在当今信息爆炸的时代，互联网上的数据量呈指数级增长。网络爬虫作为一种自动获取网页内容的工具，在信息检索、数据挖掘、舆情分析等领域发挥着重要作用。Python由于其简洁的语法和丰富的库支持，成为开发网络爬虫的首选语言。本文旨在探讨如何利用Python标准库构建一个功能完整的网络爬虫系统，避免依赖过多第三方库，提高系统的可移植性和稳定性。1.2研究目标本文的研究目标是设计并
机器学习笔记：MATLAB实践 techDM 机器学习笔记 matlab Matlab
在机器学习领域，MATLAB是一种功能强大且广泛使用的工具，它提供了许多内置函数和工具箱，方便开发者进行各种机器学习任务。本文将介绍一些常见的机器学习任务，并提供相应的MATLAB源代码示例。数据预处理在进行机器学习之前，通常需要对原始数据进行预处理。这包括数据清洗、特征选择、特征缩放和数据划分等步骤。%导入数据data=readmatrix('data.csv');%数据清洗cleaned_da
【字节跳动】数据挖掘面试题0004：一个随机整数产生器产生[1，5]，如何设计一个产生[1，7]的随机整数产生器。言析数智数据挖掘常见面试题 python 随机数算法面试题
文章大纲题目描述方法思路具体实现方法解释数学原理通俗类比解释第一步：从1-5到0-4第二步：创造"更大的骰子"第三步：给棋盘编号第四步：压缩到1-7第五步：处理"无效数字"总结：`完成解决方案流程`题目描述要基于一个生成范围在[1,5]的随机整数生成器来设计出能生成[1,7]随机整数的生成器，可按以下步骤操作：方法思路借助原有的生成器生成两个相互独立的随机数，范围都是[1,5]。把这两个随机数组合
Linux——内核——设备驱动 newbie_Joe linux概念 linux内核
Linux设备驱动是操作系统与硬件之间的桥梁，它允许内核与硬件设备进行通信，管理硬件资源，并为上层应用提供标准化的接口。以下从基本概念、分类、架构、开发流程及关键机制等方面，系统梳理Linux设备驱动的核心知识：一、设备驱动的基本概念作用抽象硬件细节：将硬件操作封装为标准接口（如open()、read()、write()），使应用无需直接操作寄存器。资源管理：分配/释放硬件资源（如内存、I/O端口
【字节跳动】数据挖掘面试题0003：有一个文件，每一行是一个数字，如何用 MapReduce 进行排序和求每个用户每个页面停留时间
MapReduce是一种适合处理大规模数据的分布式计算框架，其核心思想是将计算任务分解为Map（映射）和Reduce（归约）两个阶段。对文件中的数字进行排序，可以利用MapReduce的特性来实现。要使用MapReduce对文件中的数字进行排序，需要实现一个MapReduce作业，将数字作为键处理，利用Hadoop的默认排序机制对键进行排序。以下是实现步骤和示例代码：文章大纲题目一：有一个文件，每
基于人体骨架动作识别的神经信息处理技术（2 相关工作-2.4提高信号质量）路由跳变动作识别人工智能
2相关工作在本节中，我们将回顾本论文的相关工作。我们根据文献的功能将文献分为四类，包括1)数据集，2)提取空间特征，3)捕获时间模式，4)提高信号质量。对于每个组件，我们将其进一步分解为细分区域。最后，我们展示了现有方法在不同数据集上的SOTA改进。总之，该分类法如下：1)数据集2)提取空间特征利用拓扑结构、设计空间操作符、分离通道功能、学习参数化拓扑、分区层次结构。3)捕获时间模式提取多尺度特征
西南交通大学【机器学习实验1】
实验目的理解和掌握回归问题和分类问题模型评估方法，学会使用均方误差、最大绝对误差、均方根误差指标评估回归模型，学会使用错误率、精度、查全率、查准率、F1指标评价分类模型。实验内容给定回归问题的真实标签和多个算法的预测结果，编程实现MSE、MAE、RMSE三种评测指标，对模型进行对比分析。给定二分类问题真实标签和多个算法的预测结果，编程实现混淆矩阵评测，采用错误率、精度、查全率、查准率、F1指标对结
用sklearn库中的算法对数据集进行训练和auc评估（个人学习笔记） ZD困困困 python 机器学习
本文为个人学习笔记，仅供学习参考，欢迎讨论，要是有哪里写的不对或有疑问的欢迎讨论。题目：运用已给数据集进行模型训练，使用逻辑回归、决策树、随机森林和AdaBoost几个算法进行训练，并打印各个算法训练后的auc评价指标。文章目录1.导入数据集①read_csv():读取数据并以某字符分隔。②merge():合并③drop():删除行或列④tolist():将数组或矩阵转换为列表⑤train_tes
从数据抓取到智能分类：用 LangChain + 爬虫构建自动化工作流的实战笔记大模型之路大模型（LLM）人工智能 langchain
一、从人工到自动化的迫切需求在数字化时代，信息的快速获取与处理成为个人和组织高效运转的关键。然而，许多重复性强、耗时长且缺乏创造性的任务，如定期收集和整理网络信息并制作成特定格式的内容，依然占据着人们大量的时间和精力。本文作者就面临这样的困境：每两周需花费数小时访问多个大学网站，提取活动信息，手动将其整理成繁琐的HTML表格，并确保在Outlook中格式正确无误。这一过程不仅涉及大量枯燥的重复劳动
学习笔记(28):随机噪声的原理、作用及代码实现详解宁儿数据安全 #机器学习学习笔记 python
学习笔记(28):随机噪声的原理、作用及代码实现详解一、什么是随机噪声？为什么需要添加？在机器学习中，随机噪声是指数据中无法用特征解释的随机波动，通常符合某种概率分布（如正态分布）。在房价模拟中添加噪声的核心原因如下：1.模拟真实世界的不确定性真实房价除了受面积、房龄影响，还受装修情况、学区、交通、政策等未被建模的特征影响，这些因素的综合效应可抽象为“噪声”。示例：两套面积和房龄相同的房子，房价可
DeepSeek 大模型：工单系统优化与企业提效关键合力亿捷-小亿人工智能
随着信息化时代的到来，企业对运营效率的需求日益增强，工单系统作为重要的运营管理工具，其优化程度直接影响到企业的响应速度与服务质量。DeepSeek大模型通过强大的数据处理能力，为工单系统提供了多维度的优化方案，从分类、派发到内容填充、优先级排序，再到知识管理，全面提升了工单处理的智能化与自动化水平，帮助企业在提升客户满意度的同时，也实现了自身运营效率的跃升。一、工单分类与派发1.精准分类工单分类是
学习笔记(29):训练集与测试集划分详解：train_test_split 函数深度解析宁儿数据安全 #机器学习学习笔记深度学习
学习笔记(29):训练集与测试集划分详解：train_test_split函数深度解析一、为什么需要划分训练集和测试集？在机器学习中，模型需要经历两个核心阶段：训练阶段：用训练集数据学习特征与目标值的映射关系（如线性回归的权重）。测试阶段：用测试集评估模型在未见过的数据上的表现，避免“过拟合”（模型只记住训练数据的噪声，无法泛化到新数据）。类比场景：学生通过“练习题”（训练集）学习知识，再通过“考
图像分类：从基础原理到前沿技术随机森林404 计算机视觉分类数据挖掘人工智能
引言在当今数字化时代，图像数据正以惊人的速度增长。从社交媒体上的照片分享到医疗影像诊断，从自动驾驶到工业质检，图像分类技术已经成为人工智能领域最基础也最重要的应用之一。本文将全面介绍图像分类的基础概念、发展历程、关键技术、应用场景以及未来趋势，帮助读者系统性地理解这一领域。第一章图像分类概述1.1什么是图像分类图像分类（ImageClassification）是计算机视觉中的一项核心任务，其目标是
《dlib库中的聚类》算法详解：从原理到实践 A小庞算法算法聚类数据挖掘机器学习 c++
一、dlib库与聚类算法的关联1.1dlib库的核心功能dlib是一个基于C++的机器学习和计算机视觉工具库，其聚类算法模块提供了多种高效的无监督学习工具。聚类算法在dlib中主要用于：数据分组：将相似的数据点划分为同一簇。特征分析：通过聚类结果发现数据潜在的结构。降维辅助：结合聚类结果进行特征选择或数据压缩。dlib支持的经典聚类算法包括K-Means和ChineseWhispers，适用于图像
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23