Tao_RY

机器学习——决策树（分类）

前言：内容参考周志华老师的《机器学习》，确实是一本好书，不过本科生读懂还是有很大难度的，大多数模型都是直接给出公式，其实自己私下有推导，涉及好多自己不懂的数学知识，会一点点补充的

机器学习专栏：机器学习专栏

文章目录

一、决策树基本流程
二、划分选择
- 1、信息增益（ID3算法）
- 2、信息增益率（C4.5算法）
- 3、基尼指数（CART算法）
三、剪枝处理
- 1、预剪枝
- 2、后剪枝
三、连续与缺失值处理
- 1、连续值处理
- 2、缺失值处理
四、多变量决策树
五、sklearn实现决策树

一、决策树基本流程

一颗决策树(decision tree)包括根节点、若干内部节点和若干叶子节点，不断的判断->分支->再判断->再分支……，决策树的构成其实是一个递归的过程，遵循分而治之的策略。

（图源：周志华老师的《机器学习》）

二、划分选择

决策树，最重要的当然是决策（或者说叫选择），那么根据什么标准进行选择呢？如何划分最优属性？我们希望决策树的分支结点所包含的样本尽可能属于同有类别，就是结点的“纯度”（purity）越来越高。

1、信息增益（ID3算法）

“信息熵”（information entropy）是度量样本集合纯度最常用的一种指标，信息熵的计算公式为：
$Ent(D)=-\sum_{k=1}^{K}p_klog_2p_k$
$E n t (D)$ 的值越小，则 $D$ 的纯度越高。其中， $D$ 是总样本集， $p_k$ 表示第 $k$ 类样本出现的概率（第 $k$ 类样本占的比例）， $K$ 是样本总类数。

“信息增益”（information gain）表示知道一个属性后，信息（标签判断）不确定性减少的程度，信息增益的计算公式为：
$Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac{|D^v|}{|D|}Ent(D^v)$
其中，离散属性 $a$ 有 $N$ 种可能的取值 ${a^1,a^2,…,a^V}$ ，如果使用 $a$ 对样本进行划分，则会产生 $V$ 个分支结点，记 $D^v$ 为 $D$ 属性 $a$ 上取值为 $a^v$ 的样本集。
所以，“信息增益”越大，就意味着用属性 $a$ 来划分数据集 $D$ 来进行划分所获得的纯度提升越大。故著名的ID3决策树算法就是以信息增益来选择划分属性：
$a^*=\mathop{arg\;\;max}\limits_{a\in A}\; Gain(D,a)$

2、信息增益率（C4.5算法）

ID3决策树通过信息增益选取划分属性，观察信息增益的公式可以看出，如果属性 $a$ 的属性值很多的情况下，一个属性值的分支节点的样本纯度就会很大，信息增益就会变大。所以C4.5决策算法采用“信息增益率”来选择划分属性。
“信息增益率”定义：
$Gain\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}$
其中
$IV(a)=-\sum_{v=1}^{V}\frac{|D^v|}{|D|}log_2\frac{|D^v|}{|D|}$
称为属性 $a$ 的“固有值”（intrinsic value）。属性 $a$ 的可能取值数目越多( $V$ 越大)，则 $I V (a)$ 的值通常会越大。
但是，“信息增益率”准则可能会对取值数目较少的属性有所偏好。所以，C4.5算法并不是直接选择“信息增益率”最大的候选划分属性，而是使用了一个启发式算法：

先从候选划分属性中找出信息增益高于平均水平的属性；
再从中选择信息增益率最高的。

3、基尼指数（CART算法）

CART决策树使用“基尼指数”（Gini index）来选择划分属性，数据集 $D$ 的纯度用基尼指数来度量：
$Gini(D)=\sum_{k=1}^{K}\sum_{k'\neq k}p_kp_{k'}$
$G i n i (D)$ 表示从 $D$ 中随机抽取两个样本，其类别不一样的概率，故 $G i n i (D)$ 越小， $D$ 纯度越高。
对属性 $a$ 的基尼指数定义为：
${Gini}\_{index(D,a)}=\sum_{v=1}^{V}\frac{D^v}{D}Gini(D^v)$
因此，我们选择那个使划分后基尼指数最小的属性作为最优划分属性，即：
$a^*=\mathop {arg\;min}\limits_{a\in A}\;Gini\_index(D,a)$

三、剪枝处理

与线性回归一样，决策树也会存在过拟合的情况，线性回归的过拟合主要是通过正则化实现（可参考我的另一篇博客机器学习——特征缩放、正则化），决策树的过拟合主要是通过剪枝处理来避免的。

1、预剪枝

预剪枝是在决策树生成的过程中，对每个结点进行划分前先进行估计，若当前结点的划分不能带来决策树泛化性能（验证集的准确度）的提升，则停止划分将当前结点作为叶子结点（分类结果为该结点下占比大的类别）。

（图源：周志华老师的《机器学习》）

2、后剪枝

后剪枝是指先从训练集生成一颗完整的决策树，然后自下而上对非叶子结点进行考察，若将该结点及其子结点替换为叶子结点可以提高泛化能力（验证集的准确度），将该结点及其子结点替换为叶子结点（分类结果为该结点下占比大的类别）。

（图源：周志华老师的《机器学习》）

三、连续与缺失值处理

1、连续值处理

前面我们讨论的都是分类决策树，主要是通过离散属性来生成决策树，现实问题中，我们遇到的往往会有连续属性，这时我们就需要对连续值进行离散化处理，我们通常采用二分法（C4.5中采用的方法）

二分法：
给定样本集D和连续属性a，假定a在D中出现了n个不同的取值，将这些值从小到大进行排序，记为 ${a^1,a^2,a^3,...,a^n\}$ 。基于划分点 $t$ 可以将D分为子集 $D^-_t$ 和 $D^+_t$ ，显然对于相邻的值 $a^i和a^{i+1}$ 来说， $t$ 在区间 $a^i,a^{i+1})$ 中取任意值划分结果是一样的。因此，对于连续属性a，可能的侯划分点集合为：
$T_a=\frac{a^i+a^{i+1}}{2}\quad i\in[1,n-1]$
二分法就体现在这，即把区间 $a^i,a^{i+1})$ 的中位点 $\frac{a^i+a^{i+1}}{2}$ 作为侯划分点，我们要选取最优的划分点：
$Gain(D,a)=\mathop {max}\limits_{t \in T_a}\;Gain(D,a,t)\\ Gain(D,a,t)=Ent(D)-\sum_{\lambda\in{-,+}}\frac{D_t^\lambda}{|D|}Ent(D_t^\lambda)$
其中， $G a i n (D, a, t)$ 就是样本集D基于划分点t二分后的信息增益，我们就选择使 $G a i n (D, a, t)$ 最大化的划分点。

2、缺失值处理

存在缺失值我们主要有两个问题：

如何在属性值缺失的情况下选择最优划分属性（如有的样本在“色泽”这个属性上的值是缺失的，那么该如何计算“色泽”的信息增益等？）；
给定划分属性，若样本在该属性上缺失，如何对该样本进行划分（即这个样本到底属于哪一类？）。

对于问题1，现有数据集D和属性a，令 $\widetilde{D}$ 表示D在属性a上没有缺失值的样本子集，我们可以根据 $\widetilde{D}$ 来进行划分属性的选择。现假定属性a有V个值 ${a^1,a^2,...,a^V}$ ， $\widetilde{D}^v$ 表示 $\widetilde{D}$ 中属性a取值为 $a^v$ 的样本子集， $\widetilde{D}_k$ 表示 $\widetilde{D}$ 中属于第k类的样本子集。则有：
$\left\{\begin{matrix} \widetilde{D}=\bigcup_{k=1}^{K}\widetilde{D}_k\\ \widetilde{D}=\bigcup_{v=1}^{V}\widetilde{D}^v \end{matrix}\right.$
初始，我们为每一个样本 $x$ 赋予一个权重 $w_x$ （初始化为1）,并定义：
$\left\{\begin{matrix} \rho =\frac{\sum_{x\in \widetilde{D}}w_x}{\sum_{x\in D}w_x} \\ \widetilde{p}_k=\frac{\sum_{x \in \widetilde{D}_k}w_x}{\sum_{x \in \widetilde{D}}w_x} \\ \widetilde{r}_v=\frac{\sum_{x\in \widetilde{D}^v}w_x}{\sum_{x\in \widetilde{D}}w_x} \end{matrix}\right.$
其中， $\rho$ 表示无缺失值样本所占比例， $\widetilde{p}_k$ 表示无缺失值样本中第k类中所占比例， $\widetilde{r}_v$ 表示无缺失值样本中在属性a上取值为v的样本所占比例。显然：
$\left\{\begin{matrix} \sum_{k=1}^{K}\widetilde{p}_k=1\\ \sum_{v=1}^{V}\widetilde{r}_v=1 \end{matrix}\right.$
基于上述定义，我们将含缺失值属性的信息增益计算推广为：
$\begin{aligned} Gain(D,a)&=\rho \times Gain(\widetilde{D},a)\\ &=\rho \times (Ent(\widetilde{D})-\sum_{v=1}^{V}\widetilde{r}_vEnt(\widetilde{D}^v)) \end{aligned}$
对问题2，若样本 $x$ 在属性a上的取值未知，则将 $x$ 划入所有子结点，权值由 $w_x$ 变为 $\widetilde{r}\cdot w_x$ ，即让同一个样本以不同的概率划入不同的子结点中去。
这里推荐一篇博客，讲的很详细（包括实例计算过程）决策树（decision tree）（四）——缺失值处理

四、多变量决策树

我们把每个属性视为坐标空间中的一个坐标轴，之前我们介绍的单变量决策树的分类边界都是与各个坐标轴平行的

（图源：周志华老师的《机器学习》）

但是，当学习任务的真实边界比较复杂的时候，必须要使用很多段划分才能获得较好的近似，此时生成的决策树会很复杂。
此时，我们可能需要斜边去划分，“多变量决策树”（multivariate decision tree）的分叶子结点不再是针对某一个属性，而是一个线性分类器 $\sum_{i=1}^{n}w_ia_i=t$ ，其中 $w_i$ 是属性 $a_i$ 的权重， $w_i$ 和t可在该结点所含的样本集和属性值上学的。

五、sklearn实现决策树

可以看一看这一篇博文：DecisionTreeClassifier重要参数
这里再推荐一篇博文（分类结果的评价指标）：分类效果评估

# -*- coding: utf-8 -*-
"""
Created on Sun Nov 17 23:19:23 2019

@author: 1
"""

from sklearn import tree
import pydotplus
from IPython.display import Image
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score     # 准确率

df=pd.read_csv(r"D:\workspace\python\machine learning\data\iris.csv", sep=',')
iris_data=df.iloc[:, 0:3]
iris_target=df.iloc[:, 4]
iris_data_train, iris_data_test, iris_target_train,iris_target_test = train_test_split(iris_data,iris_target,train_size=.80)
clf = tree.DecisionTreeClassifier(criterion='gini')#criterion='gini'基尼指数，criterion='entropy'信息增益，
clf = clf.fit(iris_data_train, iris_target_train)  
dot_data = tree.export_graphviz(clf, out_file =None,
                         feature_names=df.columns[:3], # 特征名称
                         class_names=df.columns[4], # 目标变量的类别
                         filled=True, rounded=True,  
                         special_characters=True)  
y_pred=clf.predict(iris_data_test)
print('accuracy_score:',accuracy_score(iris_target_test, y_pred))
graph = pydotplus.graph_from_dot_data(dot_data)  
graph.write_png("out.png")     # 当前文件夹生成out.png

由iris数据集得到的决策树：

你可能感兴趣的:(机器学习专栏,决策树,机器学习,分类)

机器学习校招面经二 Y1nhl 搜广推面经机器学习人工智能算法推荐算法数据挖掘搜索算法 pytorch
快手机器学习算法一、AUC（AreaUndertheROCCurve）怎么计算？AUC接近1可能的原因是什么？见【搜广推校招面经四】AUC是评估分类模型性能的重要指标，用于衡量模型在不同阈值下区分正负样本的能力。它是ROC曲线（ReceiverOperatingCharacteristicCurve）下的面积。1.1.ROC曲线的坐标ROC曲线以真正例率（TruePositiveRate,TPR）
搜广推校招面经二十八 Y1nhl 搜广推面经推荐算法求职招聘搜索引擎机器学习算法
蚂蚁推荐算法一、介绍损失函数、为什么分类和回归的损失函数不能共用损失函数的介绍见【搜广推校招面经十八】1.1.分类和回归损失函数不能共用的原因分类和回归任务的目标不同，因此它们的损失函数设计也存在本质区别：输出空间的不同回归任务：目标是预测一个连续值（如房价、温度等）。输出空间是连续的实数范围。分类任务：目标是预测离散的类别标签（如“猫”或“狗”）或者概率。输出空间通常是有限的类别集合。误差衡量方
华为面试题及答案——机器学习(二) 麦当当MDD 题目挖掘机器学习人工智能数据库开发数据库大数据
21.如何评价分类模型的优劣?（1）模型性能指标准确率（Accuracy）：定义：正确分类的样本数与总样本数之比。适用：当各类样本的数量相对均衡时。精确率（Precision）：定义：预测为正类的样本中实际为正类的比例。适用：当关注假阳性错误的成本较高时（例如垃圾邮件检测）。召回率（Recall）：定义：实际为正类的样本中被正确预测为正类的比例。适用：当关注假阴性错误的成本较高时（例如疾病检测）。
计算机专业知识【小白必懂的 CIDR “/24” 表示法详解】一勺菠萝丶计算机专业知识网络服务器 linux
一、引言在计算机网络的世界里，常常会遇到像“/24”这样奇怪的表示，对于刚接触网络知识的小白来说，这简直就像神秘的密码一样难以理解。二、什么是CIDR表示法（一）CIDR的定义CIDR是无类别域间路由（ClasslessInter-DomainRouting）的缩写，它是一种用于表示IP地址和子网掩码的简洁方式。在传统的网络分类（A类、B类、C类等）中，子网掩码的划分比较固定，而CIDR打破了这种
顺丰科技-2024 机器学习算法面经程序员奇奇 offer分享+面试经验顺丰科技机器学习机器学习算法面经
专栏分享：计算机小伙伴秋招春招找工作的面试经验和面试的详情知识点专栏首页：软件测试开发类面经合集主要分享：测试开发类岗位在面试互联网公司时候一些真实的经验面试code学习参考请看：数据结构面试必刷100题一面：1.自我介绍2.线程和进程的区别，什么时候用多进程，什么时候用多线程（这个属于给自挖坑了）3.实习项目问题，项目目标是怎么定的，用的什么算法
基于 Python + Django 的学生成绩综合评价分析预测可视化系统源码空间站11 python django 开发语言课程设计机器学习成绩预测毕业设计
开发报告：一、项目概述本项目是一个基于Python和Django框架开发的学生成绩综合评价分析与预测可视化系统。系统的主要功能包括：学生成绩数据的管理与展示、成绩预测模型的建立与应用、以及预测结果的可视化展示。该系统利用机器学习算法（如线性回归）进行成绩预测，并通过DjangoWeb框架实现数据的展示和用户交互。二、系统功能概述学生信息管理：系统管理学生的基本信息，包括年龄、性别、爱好等，基于Dj
机器学习之学习笔记孤城laugh 机器学习学习笔记人工智能 python
机器学习-学习笔记1.简介2.算法3.特征工程3.1数据集3.2特征提取3.3特征预处理3.4特征降维4.分类算法4.1`sklearn`转换器和估计器4.2K-近邻算法（KNN）4.3模型选择与调优4.4朴素贝叶斯算法4.5决策树4.6集成学习方法之随机森林5.回归算法5.1线性回归5.2过拟合与欠拟合5.3岭回归5.4逻辑回归（实际上是分类算法，用于解决二分类问题）6.聚类算法1.无监督学习2
深度学习day1 孤城laugh 深度学习人工智能笔记学习机器学习
深度学习day11.深度学习与机器学习的区别1.1特征提取方面1.2数据量与计算性能要求1.3算法代表2.深度学习框架之TensorFlow2.1TensorFlow基础2.2TensorFlow基础知识1.**张量（Tensor）**：多维数组、多维列表2.**变量（Variable）**：用于表示程序处理的共享持久状态3.**图与函数**4.**可视化学习（TensorBoard）**：用来展
【网络安全】Web渗透测试攻防之浅述信息收集网络安全居居 web安全前端网络网络安全安全计算机网络
前言众所周知渗透测试的本质是信息收集，在渗透测试中信息收集的质量直接关系到渗透测试成果的与否。在对系统进行渗透测试前的信息收集是通过各种方式获取所需要的信息，收集的信息越多对目标进行渗透的优势越有利。通过利用获取到的信息对系统进行渗透。只有掌握了足够多的目标信息才能更好的对目标系统进行渗透。正所谓知彼知己百战不殆。1.信息收集的分类从信息收集方式分类可将信息收集分为两大类：①主动信息收集②被动信息
深度学习现状与未来发展趋势分析报告（深度学习还是主流吗？）与光同尘大道至简深度学习人工智能
此博客分析深度学习当前的主流应用领域、其受关注度的变化趋势、可能的技术替代或补充方案、产业界和学术界的不同发展方向，以及影响其受关注度变化的核心因素。报告将包括结构化分析（背景、现状、挑战、未来趋势）、数据驱动（市场趋势、论文发表量等数据支持）以及行业案例分析，以展示某些行业如何逐步减少对深度学习的依赖。背景深度学习的概念与发展历程：深度学习（DeepLearning）是机器学习中的一类方法，源于
K-means聚类：解锁数据隐藏结构的钥匙蓝天资源分享 kmeans 聚类机器学习
K-means聚类：解锁数据隐藏结构的钥匙在机器学习的广阔领域中，无监督学习以其独特的魅力吸引了众多研究者和实践者。其中，K-means聚类作为一种经典且实用的无监督学习算法，以其简单高效的特点，广泛应用于市场细分、图像分割和基因聚类等领域。本文将深入探讨K-means聚类的工作原理、应用实例及其在这些领域中的具体应用，旨在揭示其如何智能划分数据，解锁隐藏结构，为相关领域提供精准导航。一、K-me
软考笔记——4.1计算机网络（1） weixin_47940048 软件服务器运维学习网络
1、网络功能和分类计算机网络是计算机技术与通信技术相结合的产物，它实现了远程通信、远程信息处理和资源共享。计算机网络的功能：数据通信、资源共享、负载均衡、高可靠性。计算机网络按分布范围和拓扑结构划分如下图所示：网络分类缩写分布距离计算机分布范围传输速率范围局域网LAN10m左右房间4Mbps~1Gbps100m左右楼寓1000m左右校园城域网MAN10km城市50Kbps~100Mbps广域网WA
【零基础到精通Java合集】第十一集：List集合框架与泛型羽轩GM 零基础到精通Java合集 Java教程
课程标题：List集合框架与泛型（15分钟）目标：掌握泛型在List中的应用，理解类型安全的重要性，熟练操作泛型集合0-1分钟：泛型List的意义引入以“分类储物箱”类比泛型List：明确容器内元素类型（如只能放书籍）。说明泛型的核心作用——编译时类型检查，避免运行时类型转换错误。1-2分钟：无泛型List的痛点演示非泛型List的风险：ListrawList=newArrayList();raw
Elasticsearch 学习 Anthonywish java 后端 elasticsearch springdata 全文检索
内容摘要安装Elasticsearch使用Rest的API操作索引使用Rest的API查询数据使用Rest的API聚合数据SpringDataElasticsearch使用1.Elasticsearch介绍和安装用户访问我们的首页，一般都会直接搜索来寻找自己想要购买的商品。而商品的数量非常多，而且分类繁杂。如果能正确的显示出用户想要的商品，并进行合理的过滤，尽快促成交易，是搜索系统要研究的核心。面
【AI深度学习基础】Pandas完全指南入门篇：数据处理的瑞士军刀（含完整代码） arbboter 人工智能人工智能深度学习 pandas 数据处理数据分析数据清洗数据分析效率提升
Pandas系列文章导航入门篇进阶篇终极篇一、引言在大数据与AI驱动的时代，数据预处理和分析是深度学习与机器学习的基石。Pandas作为Python生态中最强大的数据处理库，以其灵活的数据结构（如DataFrame和Series）和丰富的功能（数据清洗、转换、聚合等），成为数据科学家和工程师的核心工具。Pandas以Series（一维标签数组）和DataFrame（二维表格）为核心数据结构，提供高
什么是情绪分析？基本指南沃丰科技人工智能科技科技语音识别人工智能自然语言处理
情感分析用于了解文本中的观点、情感和态度。情绪分析也称为情绪分类或观点挖掘，允许您通过提取特定单词或短语来确定内容是正面、消极还是中性。情绪分析的主要目的是分析公众对某些产品、事件、人或想法的看法。过去几年来，该领域取得了重大进展，这主要是由于用户生成的情绪分析数据空前增长。它现在有无数的应用，为大企业、政治、心理学和社会学提供见解。本基本指南旨在概述情绪分析：基本面、各种类型的情绪分类、工作原理
kNN算法：对红酒数据进行分类阿拉保算法分类数据挖掘
第2关使用sklearn中的kNN算法进行分类fromsklearn.neighborsimportKNeighborsClassifierdefclassification(train_feature,train_label,test_feature):'''使用KNeighborsClassifier对test_feature进行分类:paramtrain_feature:训练集数据:para
Qt-模型视图框架空凝眸_ 跨平台开发_Qt qt
一简介1.模型视图架构(Model/ViewArchitecture)是Qt中用于处理和展示数据的一种设计模式，它将数据的管理(模型Model)、数据的可视化(视图View)、用户与数据的交互(控制器，通常是通过委托(代理)Delegate实现)分离开来，从而提高了代码的可重用性和可维护性。二分类1.模型1.1说明：模型是数据的容器，用于管理原始数据，模型提供了一种标准的接口，使得数据可以被不同的
对“预训练”的理解衣衣困深度学习神经网络自然语言处理
预训练有什么用传统的机器学习是偏数学的，对数据的量不做过多要求，而深度学习的项目通常是有大量的数据可供使用。在平常的任务或者项目中，我们可能并没有大量数据，只有少量数据，在这时我们就可以通过“借用”有大数据支持的模型的参数，作为基准，这样就能提高效率和准确率。因为他们神经网络的浅层是相似的，也就是说，在任务相似的情况下，可以用已有的模型即“预训练”好的模型参数实现小数据量的模型训练。预训练可以节省
MobileNet 进化史：从 V1 到 V3（V1篇） kuweicai 深度总结深度学习 MobileNet v1 v2 v3 总结
MobileNet进化史：从V1到V3（V1篇）这部分内容总共由如下3篇文章构成。MobileNet进化史：从V1到V3（V1篇）MobileNet进化史：从V1到V3（V2篇）MobileNet进化史：从V1到V3（V3篇）MobileNet实战：基于MobileNet的人脸表情分类1.前言MobileNetV1是AndrewG.Howard（GoogleInc.）等人于2017年（其实是201
MobileNet 进化史：从 V1 到 V3（V2篇） kuweicai 深度总结深度学习 MobileNet v1 v2 v3 总结
MobileNet进化史：从V1到V3（V2篇）这部分内容总共由如下3篇文章构成。MobileNet进化史：从V1到V3（V1篇）MobileNet进化史：从V1到V3（V2篇）MobileNet进化史：从V1到V3（V3篇）MobileNet实战：基于MobileNet的人脸表情分类1.前言AndrewG.Howard等于2018年在MobileNetV1的基础上又提出了改进版本MobileNe
5G NR：BWP入门技术探索者 5G NR 5G
简介5GNR系统带宽比4GLTE大了很多，4GLTE最大支持带宽为20MHz，而5GNR的FR1最大支持带宽为100MHz，FR2最大支持带宽为400MHz。带宽越大，意味了终端功耗越多。为了减少终端的功耗，5GNR引入了BWP(BandWidthPart)，即部分带宽概念。BWP是整个带宽的一个子集，可以灵活的适应不同终端的需求。BWP的示意图如下BWP分类初始BWP：用于UE接入前的信息接收，
Java 大视界 -- Java 大数据机器学习模型的可解释性增强技术与应用（107）青云交大数据新视界 Java 大视界大数据 java 可解释性 AI SHAP LIME 因果推理可视化交互
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
数据分类分级：如何用AI自动打标签（附Python代码示例）活力板蓝根数据治理人工智能分类 python
数据分类分级：如何用AI自动打标签（附Python代码示例）1.引言在当今数字化时代，数据的安全管理变得越来越重要。数据分类分级不仅是合规要求，更是保护核心资产的重要手段。然而，随着数据量的激增，传统的人工分类方式已经难以应对这个问题。本文将介绍如何利用AI技术实现数据的自动分类分级。希望大家享用愉快！2.技术方案概述2.1问题定义目标：将数据按照敏感度（公开、内部、机密）和业务类型（财务、人事、
基于K8S设计实现机器学习管理调度平台 richenlin 机器学习
设计和实现一套基于Kubernetes(K8s)的机器学习管理调度平台，目标是利用K8s的容器化和调度能力，提供高效的资源管理、任务调度、可扩展性及灵活性，适应机器学习（ML）训练、推理等不同场景的需求。以下是平台设计的主要模块和实施步骤：1.系统架构概述该平台需要一个多层架构，其中K8s作为底层容器调度和资源管理平台，机器学习任务管理与调度层作为平台的核心模块。平台应具备高可用、弹性伸缩、任务监
【python数据挖掘之numpy】-数组及对象属性和数据转换 sc.溯琛 python 数据挖掘 numpy
Numpy是一个Python库，用于处理多维数组和矩阵，以及针对这些数组执行数学运算的函数。它提供了高效的数组对象和相关的操作，可以用于快速处理大量数据。Numpy的主要功能包括：创建数组、数组运算、数组索引和切片、线性代数、随机数生成等。Numpy在科学计算、数据分析、机器学习等领域都广泛应用。tips：（本博文在jupyter中实训）目录一、创建数组对象1.array（）函数来创建数组的对象2
中国海洋大学计算机复试上机汇总来点小烧烤吗 C++机试 C语言 c++算法
海大历年上机（2009-2019年）试题分类及解答，因精力有限，算法设计中标注TBD的为直接摘抄网上已有答案，未做验证，如有问题可留言。2021复试大纲F0211程序设计实践一、考试性质程序设计实践是计算机科学与技术（0812Z1保密科学与技术除外）、软件工程学术学位硕士研究生，以及电子信息（085400）类别（计算机技术与软件工程方向）专业学位硕士研究生招生考试复试的专业实践科目。二、考查目标要
【异常】商城H5首页接口调用慢开发踩坑日记本本本添哥 003 -中间件 redis 缓存数据库
一、业务功能描述最近业务提出了修改首页UI功能的需求，原来首页都是通过店铺装修功能来实现的，但是原来店铺装修功能，通过接口/mallapi/pagedevise?pageType=1返回给前端数据是存在局限性，返回的都是在店铺装修后数据的缓存值，即返回的内容是用户点击确认之后，记录的是系统商品当时的瞬时值。下面让我们来看看这段代码，代码很简单，主要做了如下事情（1）校验页面分类pageType（1
Camera相关配置 wynn1123 时间同步自动驾驶
一、Purpose目的通常，感知模块使用雷达点云和相机图像来对物体进行检测和分类，感知数据分别来自雷达和相机，就传感器数据融合准确性，我们需要雷达和相机同一时间捕捉到同一物体(时间间隔尽可能短)，否则一个真实的物体可能被感知处理成两个，尤其是移动的物体。二、Measurementtimestamp所有雷达相机都以10fps工作，因此我们在每100ms循环中为每个相机/雷达设定一个触发时间.雷达me
常见加密软件厂商的参数对比大刘讲IT 安全网络安全
本文主要介绍主要的加密软件的一些公开资料的对比，不做任何价值推断和评价，请根据企业实际的需求进行合理评估选择。一、核心加密机制对比1.算法架构与密钥管理IP-Guard亿赛通天锐绿盾迅软DSE文件创建厂商策略触发式AES-256加密全生命周期SM4加密智能分类AES+SM4混合加密行为触发动态密钥轮换分布式密钥池集中式密钥服务器双因子认证+分片存储量子密钥预分发试验维度IP-Guard亿赛通天锐绿
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他