探索世界的小白

决策树--一种常见的机器学习算法

决策树--基于树结构进行决策

简介
一、白话决策树生成过程
二、算法决策树生成过程
三、算法细节
- 1. 信息增益
- 2. 增益率
- 3. 基尼指数
四、树的剪枝（优化）
- 1. 预剪枝
- - 步骤
  - 优缺点
- 后剪枝
- - 优缺点
五、进阶处理--连续值与缺失值
- 1. 连续值
- 2. 缺失值
六、进一步进阶--多变量决策树
信息熵最值证明
参考资料

简介

本文仅提供决策树流程及细节操作，没有例子求解过程供参考，同时也没有编程实现。

一般的，一棵决策树包含一个根节点， 若干内部节点 和 若干叶子节点。 叶子节点 对应决策结果，其他每个节点对应一个 属性测试（即判定一次基于这个属性对现有数据如何分类决策）。每个节点包含的样本集合根据属性测试结果被分到对应节点中。根节点 包含样本全集。

目的：决策树学习的目的是产生一棵泛化能力强的决策树。

一、白话决策树生成过程

有一个训练集 $D$ , 属性集 $A$ ， $a\in A$

首先生成一个节点 $\xi$ （根节点或其他节点，都可以）
1. 若 $D$ 中所有样本都属于同一个类 C，则把这个节点记为C，为子节点。（这个节点不再划分，结束）
2. 如果 $A=\empty$ 或者 $D$ 在 $A$ 上取值都相同：
  把这个节点记为叶子节点，类别标为 $D$ 中所含样本数最多的类。（例：若 $D$ 中 $E$ 类3个， $F$ 类5个， $G$ 类10个，则该叶子节点类别为 $G$ 类）。并且这个节点结束不再划分。
3. $D$ 在 $A$ 上取值不同，则从 $A$ 中选择最优的属性 $a_*$ ，根据这个属性对 $D$ 进行划分（比如分辨西瓜好坏的一个属性是根蒂，取值可以是蜷缩、稍蜷和硬挺。根据属性的不同相应对西瓜有不同的分类）
  对属性 $a_*$ 的每个取值 $v$ :
  
  给节点 $\xi$ 生成一个分支 $\eta$ , $D_v$ 记为 $D$ 中根据属性 $a_*$ 取值为 v的样本子集合。
  
  如果 $D_v=\empty$ : 就把分支记为 叶子节点，赌赢类别标记为 $D$ 中类别最多那个，参见步骤 2.
  
  如果 $D_v \neq \empty$ 此时将这个分支形成的节点 $\eta$ 作为 $\xi$ ，返回 $\xi$ 对应位置（即第 1 步）
  此时对应样本集为 $D_v$ ，属性集 $\ { a ∗ } A \backslash \{a_*\}$ 进行接下来的步骤，与上面步骤相同，直至所有新生成的节点称为叶子节点，结束。

二、算法决策树生成过程

输入：训练集 $D=\{(\bf{x_1},y_1), (x_2,y_2),...,(x_m,y_m)\}$ ;
______属性集 $A=\{a_1, a_2, ...,a_d\}$
过程：函数 $T ree G e n er a t e (D, A)$
1.生成节点 node;
2. if $D$ 中样本完全属于同一类别 $C$ then
3. 将 node 标记为 $C$ 类叶节点； return
4.endif
5. if $A=\empty$ OR $D$ 中样本在 $A$ 上取值相同 then
6. 将 node 标记为叶子节点，其类别标记为 $D$ 中样本最多的类； return
7.endif
8. 从 $A$ 中选择最优划分属性 $a_*$ ;
9. for $a_*$ 的每一个值 $a^{v}_{*}$ do
10. 为 node 生成一个分支；令 $D_v$ 表示 $D$ 中在 $a_*$ 上取值为 $a^{v}_{*}$ 的样本子集；
11. if $D_v$ 为空，then
12. 将分支节点标记为叶子节点，其类别标记为 $D$ 中样本最多的类； return
13. else
14. 以 $\ { a ∗ } ) TreeGenerate(D_v, A\backslash \{a_*\})$ 为分支节点
15. endif
16. endfor

三、算法细节

上述算法过程中，第 8 步最重要。随着划分的不断进行，我们希望决策树的分支节点所包含的样本尽可能属于同一类别，即节点的纯度（purity）越来越高。因此我们希望在划分时，根据所选择的属性划分后的样本“纯度”提升最多。

以下介绍几种会用到的纯度提升方案

1. 信息增益

信息熵（information entropy）是度量样本集合纯度最常用的一种指标。假定当前样本集合 $D$ 中第 $k$ 类样本所占比例为 $p_k$ （ $k = 1, 2, ...∣ y ∣$ ）,则 $D$ 的信息熵定义为
$Ent(D)=-\sum_{k=1}^{|y|}p_klog_2{p_k}$
$E n t (D)$ 最小值为0，最大值为 $log_x|y|$ ，证明见文末。

信息熵的改变量称为 信息增益（information gain）
根据属性 $a$ 划分后得到的信息熵比划分前小，也就是提升了纯度。因此可用 信息增益 作为属性选择的一种方式。信息增益度量公式如下：
$Gain(D,a)=Ent(D)-\sum_{v=1}^V\frac{|D^v|}{|D|}Ent(D^v)$
$V$ 是属性 $a$ 可取值的个数， $D^v$ 是对应取值所含样本个数。信息增益 越大越好。

2. 增益率

实际上，信息增益 对取值数目多的属性比较偏好。比如，根据某一个属性的取值，可将当前样本集划分成一个样本一种划分，此时可以计算得到信息增益最大，但是这样的决策近似枚举，不具备泛化性。
因此，定义 增益率 消除一部分划分数目影响。定义为
$Gain\_rate=\frac{Gain(D,a)}{IV(a)}$
$IV(a)=-\sum_{v=1}^V\frac{|D^v|}{|D|}log_2\frac{|D^v|}{|D|}$
$I V (a)$ 称为 $a$ 的固有值， V 越大， $I V (a)$ 一般会越大，这样就消除个数影响了（有个问题，为什么不直接除以 $a$ 的取值个数？这取有什么坏处？）

但 增益率 会对取值个数少的有偏好。故一般是先找出 信息增益 中高于平均水平的属性，再从中选择增益率最高的。

3. 基尼指数

$=\sum_{k=1}^{|y|}\sum_{k\neq k^{'}}p_kp_{k^{'}}=(\sum_{k=1}^{|y|}p_k)(\sum_{k^{'}=1}^{|y|}p_{k^{'}})-\sum_{k=1}^{|y|}p_k^2 \\ =1-\sum_{k=1}^{|y|}p_k^2$
直观地说， $G ini (D)$ 反应从数据集 $D$ 中随机抽取两个样本，类别不一致的概率，故 $G ini (D)$ 越小，样本集纯度越高。
一个属性的基尼指数定义为
$Gini\_index(D,a)=\sum_{v=1}^V\frac{|D^v|}{|D|}Gini(D^v)$
然后按 $Gini_index(D,a)$ 最小那个 $a$ 作为所选择的划分属性。

四、树的剪枝（优化）

为了防止学习到的决策树过拟合，可对树进行剪枝。两种剪枝方式：预剪枝 和 后剪枝

预剪枝 是指在决策树生成过程中，对每个节点在划分前先进行估计，若当前节点的划分不能带来决策树 泛化性能的提升 ，则停止划分并将当前节点标记为叶子节点；

后剪枝 是先从训练集生成一棵完整的决策树，然后自底向上地对非叶子节点进行考察，若将该节点对应的子树替换为叶子节点能带来决策树 泛化性能的提升，则将该子树替换为叶子节点。

评估决策树性能提升的方法：留出法、交叉验证法、自助法等，详见《机器学习–周志华》2.2节

以 留出法 为例说明两种剪枝方式的操作过程。

1. 预剪枝

预剪枝 决定一个节点处是否根据某属性划分，是比较划分前后泛化性能的差别。

步骤

计算划分前验证集的精度；
再计算按该属性划分后验证集的精度；
若验证集精度有提升，则确定该点划分，否则不划分

优缺点

优点：降低过拟合风险，同时显著减少决策树的训练时间开销和测试时间开销；
缺点：有些分支的当前划分虽然不能提升泛化性能、甚至可能导致泛化性能暂时下降，但在其基础上进行的后续划分却有可能导致性能显著提高；预剪枝基于贪心本质禁止这些分支的展开，给预剪枝决策树带来了 欠拟合 的风险。

后剪枝

过程就是介绍里的过程。

优缺点

优点：通常会保留比 预剪枝 更多的分支，欠拟合风险小，泛化性能往往由于 预剪枝。
缺点：训练时间开销比未剪枝决策树和 预剪枝 决策树都要大很多。

五、进阶处理–连续值与缺失值

1. 连续值

若某属性取值是连续值，可将该连续值 离散化，然后再处理。离散化 可以用 二分法，即取一个值 $t$ , 把连续值范围分成两类，之后再对这两类接下来的进行划分。

如 $t$ 选择 信息增益　最大的值，具体如下：
设已有的连续值，排序后取值为 $a=\{a^1, a^1, ...,a^n\}$ , 候选点
$T_a=\{\frac{a^i+a^{i+1}}{2}, 1\leq i\leq n-1\}$
$t$ 从 $T_a$ 中取。这样不会把已有样本分在端点处。于是连续值的信息增益为
$Gain(D,a)=max_{t\in T_a}Gain(D,a,t)\\ =max_{t\in{T_a}}Ent(D)-\sum_{\lambda \in \{-,+\}}\frac{|D^v|}{|D|}Ent(D_t^v)$
这里 $\lambda$ 是连续值划分后的两类。
这样就可以把离散值的信息增益与连续值的信息增益进行比较，进而选择最优属性。

2. 缺失值

即存在有些样本的有些属性的对应值是缺失的，这种情况很常见，但这类数据如果丢掉不用，则会对数据噪声很大浪费。因此需要一套针对缺失值的处理办法。

对缺失值数据的处理需要解决两个问题：

如何进行属性划分选择？
给定划分属性，若样本该属性的值缺失，如何划分？

对第 1 个问题，我们根据无缺失样本 所占比例 计算对应信息增益，然后比较选择属性。具体如下：
训练集 $D$ ，属性 $a$ 有 $V$ 个取值，无缺失样本集记为 $\tilde{D}$ , $\tilde{D_k}$ 表示 $\tilde{D}$ 中属于第 $k=\{k=1,2,... ,|y|\}$ 个类的样本子集。假定给每个样本 $x$ 赋予一个权重 $w_x$ （一般初始化为 1）。定义
$\rho=\frac{\sum_{x\in \tilde{D}}w_x}{\sum_{x\in D}w_x}$
$\tilde{p_k}=\frac{\sum_{x\in \tilde{D_k}}w_x}{\sum_{x\in \tilde D}w_x}, (1\le k\le|y|)$
$\tilde{r_v}=\frac{\sum_{x\in \tilde{D_v}}w_x}{\sum_{x\in \tilde D}w_x}, (1\le v\le V)$
$\rho$ 是无缺失样本比例， $\tilde{p_k}$ 无缺失样本中第 $k$ 类比例， $\tilde{r_v}$ 无缺失样本中属性 $a$ 上取值为 $a^v$ 的样本比例。显然 $\sum_{k=1}^{|y|}\tilde{p_k}=1$ , $\sum_{v=1}^V\tilde{r_v}=1$ .
此时，
$=\rho \times Gain(\tilde D,a)\\ =\rho \times (Ent(\tilde D)-\sum_{v=1}^V\tilde{r_v}Ent(\tilde D^v))$
$Ent(\tilde D)=-\sum_{k=1}^{|y|}\tilde{p_k}log_x\tilde{p_k}$
有了信息增益，就可以划分属性。

第 2 个问题，在属性 $a$ 上缺失值的样本，在按属性 $a$ 划分时同时划分给属性 $a$ 的所有子节点，但样本的权值调为 $\tilde{r_v} \cdot w_x$ ，再做接下来的工作。

六、进一步进阶–多变量决策树

单变量决策树生成的边界与坐标轴平行。若任务边界很复杂，则需要多段才能近似，同时决策树也会很复杂。

故考虑用 斜的边界，即多个变量作为节点属性进行判别。
具体，每个非叶子节点用一个线性分类器 $\sum_{i=1}^d w_i a_i =t$ 进行划分， $w_i$ 是属性 $a_i$ 的权重， $w_i$ 和 $t$ 可在改节点所含的样本集合属性集上学得。

信息熵最值证明

问题描述：考虑问题 $Ent(D)=-\sum_{k=1}^{|y|}p_klog_2{p_k}$ 的最值，其中 $0\le p_k \le 1, \sum_{k=1}^{|y|}p_k=1$ , 定义 $0log_20=0$
证明：上述问题可以描述为以下约束优化问题
$-\sum_{k=1}^{|y|}p_klog_2p_k$
$\sum_{k=1}^{|y|}p_k=1$
最小值： $Ent(D)\ge 0$
最大值：应用 拉格朗日乘子法 ，引入乘子 $\lambda$ ，则对应的拉格朗日函数为
$L(p_k,\lambda)=-\sum_{k=1}^{|y|}p_klog_2{p_k}+\lambda(-\sum_{k=1}^{|y|}p_k-1)$
求解
$\left\{ \begin{aligned} \frac{\partial L}{p_k}=0 \\ -\sum_{k=1}^{|y|}p_k =1 \end{aligned} \right.$
得
$\frac{\partial L}{p_k}=-log_2p_k-\frac{1}{ln 2}+\lambda=0$ , 得 $p_k=2^{\lambda-\frac{1}{ln 2}}$
带入
$-\sum_{k=1}^{|y|}p_k =1$ 得 $p_k=\frac{1}{|y|}$ , 此时 $Ent(D)=log_x|y|$ .

参考资料

[1]. 《机器学习》，周志华著，清华大学出版社；
[2]. 信息熵最值计算

你可能感兴趣的:(机器学习,决策树,算法)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
非对称加密算法————RSA理论及详情 hu19930613
转自：https://www.kancloud.cn/kancloud/rsa_algorithm/48484一、一点历史1976年以前，所有的加密方法都是同一种模式：（1）甲方选择某一种加密规则，对信息进行加密；（2）乙方使用同一种规则，对信息进行解密。由于加密和解密使用同样规则（简称"密钥"），这被称为"对称加密算法"（Symmetric-keyalgorithm）。这种加密模式有一个最大弱点
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
【加密算法基础——对称加密和非对称加密】 XWWW668899 网络安全服务器笔记
对称加密与非对称加密对称加密和非对称加密是两种基本的加密方法，各自有不同的特点和用途。以下是详细比较：1.对称加密特点密钥:使用相同的密钥进行加密和解密。发送方和接收方必须共享这个密钥。速度:通常速度较快，适合处理大量数据。实现:算法相对简单，计算效率高。常见算法AES(高级加密标准)DES(数据加密标准)3DES(三重数据加密标准)RC4(流密码)应用场景文件加密磁盘加密传输大量数据时的加密2.
【算法练习】IDEA集成leetcode插件实现快速刷 2401_84102892 2024年程序员学习算法 intellij-idea leetcode
============点击右侧边leetcode->设置->配置地址、用户名、密码、存放目录、文件模板用户名要登录后在账号信息里看模板代码1.codefilename!velocityTool.camelC
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
【加密算法基础——RSA 加密】 XWWW668899 网络服务器笔记 python
RSA加密RSA（Rivest-Shamir-Adleman）加密是非对称加密，一种广泛使用的公钥加密算法，主要用于安全数据传输。公钥用于加密，私钥用于解密。RSA加密算法的名称来源于其三位发明者的姓氏：R:RonRivestS:AdiShamirA:LeonardAdleman这三位计算机科学家在1977年共同提出了这一算法，并发表了相关论文。他们的工作为公钥加密的基础奠定了重要基础，使得安全通
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他