Let it go !

决策树算法--原理与python代码实现

算法简单介绍

决策树是一种基本的分类与回归算法，本文介绍该算法的分类应用。在分类过程中，可以看作if-then规则的集合，也可以看作是特征空间与类空间上的条件概论分布。决策树学习，包括三个步骤：特征选择、决策树的生成、决策树的剪枝，利用训练数据，根据损失函数最小化原则构建树的模型。具体算法有：ID3、C4.5、CART。
决策树学习算法通常递归的选择最优特征，依据此特征对训练数据集进行划分，使划分的子数据集有最好的分类过程。开始，构建根节点，将所有数据放在根节点上，选择最优特征，按此特征将数据集划分为不同的子集；如果子集能够基本正确分类，则生成叶子节点，若不能正确分类继续选择新的最优特征划分为更小的子集直到所有子集能够基本正确分类，决策树模型构建完毕。构建的决策树可能发生过拟合，对测试集表现差，可对决策树进行剪枝，去掉过于细分的叶子节点，回退到父节点或更高的节点作为新的叶子节点。决策树的生成只考虑局部最优，对应模型的局部选择；决策树的剪枝考虑全局最优，对应模型的全局选择。

特征选择

特征选择在于选取对训练数据能够进行分类的特征，通常选择的准则为信息增益(information gain)、信息增益比(information gain ratio)最大或者基尼指数(Gini index)最小化准则

信息增益

信息增益表示得知特征X的信息而使类Y的信息不确定性减少的程度，特征A对训练数据集D的信息增益g(D,A)定义为集合D的经验熵与特征A给定条件下集合D的经验条件熵之差。
$g (D, A) = H (D) - H (D ∣ A)$
下面介绍熵(entropy)与条件熵(conditional entropy)的概念。
熵是表示随机变量不确定的度量，设X为取有限值的离散随机变量，其概率分布为：
$P(X=x_{i})=p_{i} , i=1,2...n:$
则随机变量X的熵为：
$H(X)=-\sum_{i=1}^{n}p_{i}logp_{i}$
熵越大不确定性程度越大。式中的对数以2或e为底时，熵的单位分别称为比特和纳特。
随机变量X给定条件下随机变量Y的条件熵 $H (Y ∣ X)$ ，定义为X条件下Y的条件概率分布的熵对X 的数学期望。
$H(Y|X)=\sum_{i=1}^{n}p_{i}H(Y|X=x_{i})$
熵与条件熵之差称为互信息，决策树中的信息增益等价于训练数据集中特征与类的互信息。信息增益大的特征具有较强的分类能力。
假设训练数据集为 $D$ ，数量为 $∣ D ∣$ ，有K个类别 $C_{k}$ ，每个类别数量为 $C_{k}|$ ，根据特征A的取值可将数据集划分为n个子集 $D_{i}$ ，每个子集其数量为 $D_{i}|$ ，按照类别 $C_{k}$ 对 $D_{i}$ 划分成 $D_{ik}$ ，数量为 $D_{ik}|$ 。计算信息增益的过程为：

计算数据集D的经验熵
$H(D)=-\sum_{k=1}^{K}\frac{|C_{k}|}{|D|}log_{2}\frac{|C_{k}|}{|D|}$

#计算经验熵
def cal_entropy(data):
    data_length = len(data)
    data_count = {}
    for i in range(data_length):
        label = data[i][-1]
        if label not in data_count:
            data_count[label] = 0
        data_count[label] += 1
    entropy = -sum([(count/data_length)*np.log2(count/data_length) for count in data_count.values()])
    return entropy

计算特征A对数据集D的经验条件熵
$H(D|A)=\sum_{i=1}^{n}p_{i}H(D|A=x_{i})=\sum_{i=1}^{n}\frac{|D_{i}|}{|D|}\sum_{k=1}^{K}\frac{|D_{ik}|}{|D_{i}|}log_{2}\frac{|D_{ik}|}{|D_{i}|}$

#计算经验条件熵
def cond_entropy(data,axis=0):
    data_length = len(data)
    feature_sets = {}
    for i in range(data_length):
        feature = data[i][axis]
        if feature not in feature_sets:
            feature_sets[feature] = []
        feature_sets[feature].append(data[i])
    cond_entropy = sum([(len(p)/data_length)*cal_entropy(p) for p in feature_sets.values()])
    return cond_entropy

计算信息增益
$g (D, A) = H (D) - H (D ∣ A)$

#计算信息增益
def inf_gain(entropy,cond_entropy):
    return entropy - cond_entropy

信息增益比

信息增益值的大小是相对于训练数据集而言的，无意义。可选用信息增益比进行衡量，特征A对于数据集D的信息增益比 $g_{R}(D,A)$ 定义为：
$g_{R}(D,A)=\frac{g(D,A)}{H(D)}$

基尼指数

分类问题中，假设有K个类别，第k个概率为 $p_{k}$ ，则基尼指数定义为:
$Gini(p)=\sum_{k=1}^{K}p_{k}(1-p_{k})=1-\sum_{k=1}^{K}p_{k}^2$
对于给定数据集D，定义为：
$Gini(D)=\sum_{k=1}^{K}\frac{|C_{k}|}{|D|}(1-\frac{|C_{k}|}{|D|})=1-\sum_{k=1}^{K}\frac{|C_{k}|}{|D|}^2$
给定特征条件A下数据集D的基尼指数定义为：
$Gini(D,A)=\sum_{i=1}^{n}\frac{|D_{i}|}{D}Gini(D_{i})=\sum_{i=1}^{n}\frac{|D_{i}|}{|D|}(1-\sum_{k=1}^{K}\frac{|D_{ik}|}{|D_{i}|})$
基尼指数表示集合的不确定性，指数越大，不确定性越大。

决策树的生成

ID3算法

该算法核心是在决策树的每个节点利用信息增益准则选取特征，递归的构建决策树，直到所有特征的信息增益值都很小或者没有特征为止，相当于利用极大似然法进行模型的选择。算法流程如下：
输入：训练数据集D，特征集A，阈值 $\epsilon$
输出：决策树T
步骤：
（1）如果D中所有实例属于同一类 $C_{k}$ ，则T为单节点树，并用 $C_{k}$ 作为该节点的类标记，返回T;
（2）如果A为空集，则T为单节点树，并用实例数最多的 $C_{k}$ 作为该节点的类标记，返回T;
（3）计算A中所有特征对D的信息增益，选取信息增益最大的特征 $A_{g}$ 进行分类；
（4）如果最大的信息增益小于阈值，则置T为单节点树，并用D中实例数最多的类作为该节点的类标记，返回T;
（5）按照特征 $A_{g}$ 中的取值将D分为若干子集 $D_{i}$ ，用 $D_{i}$ 中实例数最多的类作为类标记构建子节点，由节点和字节点构建成树T，返回T；
（6）对 $D_{i}$ 个子节点，以 $D_{i}$ 为数据集， $A-A_{g}$ 为特征集，递归调用1-5步，生成子树Ti，返回Ti。
该算法产生的树容易过拟合。
完整代码：

import pandas as pd
import numpy as np
from collections import namedtuple

#定义决策树中的节点类，多叉树
class Node:
    def __init__(self,root=True,label=None,feature_name=None,feature=None):
        self.root = root  #判断是否为叶子节点
        self.label = label  #分类标签
        self.feature_name = feature_name  #选择特征名
        self.feature = feature   #记录特征位置
        self.tree = {}   #保存该节点的子节点
        self.result = {'特征':self.feature_name,'分类':self.label,'子树':self.tree}  #记录节点信息
    def __repr__(self):  #重写内置方法，用于打印输出节点，显示构建树的结构
        return '{}'.format(self.result)
    def addNode(self,feature_value,node): #添加子节点
        self.tree[feature_value] = node
    def predict(self,features):
        if self.root is True:
            return self.label
        return self.tree[features[self.feature]].predict(features)

#定义决策树模型
class DecisionTree:
    #计算经验熵
    def calEntropy(self,data):  #data为array-like数据类型，包括类别
        data_length = len(data)
        labels_list = {}  #保存每一类别实例数目
        for i in range(data_length):
            label = data[i][-1]
            if label not in labels_list:
                labels_list[label] = 0
            labels_list[label] += 1
        entropy = -sum([(label_count/data_length)*np.log2(label_count/data_length) for label_count in labels_list.values()])
        return entropy
    #计算经验条件熵
    def calConditionalEntropy(self,data,axis):  #data为array-like数据类型，包括类别；axis为某特征
        data_length = len(data)
        feature_dic = {}  #保存按该特征分类的子集
        for i in range(data_length):
            feature_value = data[i][axis]
            if feature_value not in feature_dic:
                feature_dic[feature_value] = []
            feature_dic[feature_value].append(data[i])
        conditional_entropy = sum([len(feature_data)/data_length*self.calEntropy(feature_data) for feature_data in feature_dic.values()])
        return conditional_entropy
    #计算最大信息增益
    def getMaxEntropyGain(self,data):
        features_length = len(data[0])-1
        value = 0
        feature = 0
        result = namedtuple('max_entropy_gain','feature value')  #记录最大信息增益特征的信息
        entropy = self.calEntropy(data)
        for i in range(features_length):
            entropy_gain = entropy - self.calConditionalEntropy(data,axis=i)
            if value < entropy_gain:
                value = entropy_gain
                feature = i
        return result(feature,value)

    def fit(self,pd_data,feature_labels,epsilon):   #data为数据类型为DataFrame，包括类别；feature_labels为特征标签,array_like类型；epsilon为阈值
        labels = pd_data.iloc[:,-1]
        #1.若数据集所有实例类别均相同，返回单节点树
        if len(labels.value_counts()) == 1:
            return Node(root=True,label=labels.value_counts().index[0])
        #2.若特征集为0，返回单节点树
        if len(feature_labels) == 0:
            return Node(root=True,label=labels.value_counts().sort_values(ascending=False).index[0])
        #3.进行特征选取，取信息增益最大的特征Ag分类
        select_feature = self.getMaxEntropyGain(np.array(pd_data))
        #4.若选取特征Ag的信息增益小于阈值，返回单节点树
        if select_feature.value < epsilon:
            return Node(root=True,label=labels.value_counts().sort_values(ascending=False).index[0])
        #5.按照选取特征Ag值划分数据集为多个子集，对子集进行分类
        max_feature_name = feature_labels[select_feature.feature]
        tree_node = Node(root=False, feature_name=max_feature_name,feature=select_feature.feature)
        feature_value = pd_data[max_feature_name].value_counts().index
        feature_labels.remove(max_feature_name)
        for f in feature_value:
            sub_data = pd_data.loc[pd_data[max_feature_name]==f].drop([max_feature_name],axis=1)
            #6.递归生成树
            sub_node = self.fit(sub_data,feature_labels,epsilon)
            tree_node.addNode(f,sub_node)
        self.tree = tree_node    #用根节点记录整棵树的信息
        return tree_node
    def predict(self,features):
        return self.tree.predict(features)

def create_data():
    datasets = [['青年', '否', '否', '一般', '否'],
               ['青年', '否', '否', '好', '否'],
               ['青年', '是', '否', '好', '是'],
               ['青年', '是', '是', '一般', '是'],
               ['青年', '否', '否', '一般', '否'],
               ['中年', '否', '否', '一般', '否'],
               ['中年', '否', '否', '好', '否'],
               ['中年', '是', '是', '好', '是'],
               ['中年', '否', '是', '非常好', '是'],
               ['中年', '否', '是', '非常好', '是'],
               ['老年', '否', '是', '非常好', '是'],
               ['老年', '否', '是', '好', '是'],
               ['老年', '是', '否', '好', '是'],
               ['老年', '是', '否', '非常好', '是'],
               ['老年', '否', '否', '一般', '否'],
               ]
    labels = ['年龄','有工作','有房子','信贷情况','录取']
    return datasets,labels

datasets,labels = create_data()
pd_data = pd.DataFrame(datasets,columns=labels)
labels.remove('录取')
tree = DecisionTree()
print(tree.getMaxEntropyGain(datasets))
tree_node = tree.fit(pd_data,labels,0.1)
print(tree_node)
print(tree.predict(['老年', '否', '否', '一般']))

运行结果：

max_entropy_gain(feature=2, value=0.41997309402197491)
{'特征': '有房子', '分类': None, '子树': {'否': {'特征': '有工作', '分类': None, '子树': {'否': {'特征': None, '分类': '否', '子树': {}}, '是': {'特征': None, '分类': '是', '子树': {}}}}, '是': {'特征': None, '分类': '是', '子树': {}}}}
否

C4.5算法

特征选择的准则为信息增益比，方法同ID3算法。

CART算法

分类与回归树(classification and regression tree,CART)，是在给定随机变量X条件下输出随机变量Y的条件概率分布。CART假设决策树为二叉树，节点特征取值为’是’(左分支)和’否’(右分支)，由两步组成：决策树的生成和决策树的剪枝。
决策树生成，其回归树利用平方误差最小化准则构建树；其分类树利用基尼指数最小化准则构建树。对于回归树不做介绍，介绍分类树的生成算法：
输入：训练数据集D，算法停止条件（节点中的样本个数小于阈值或基尼指数小于阈值）
输出：CART决策树
步骤：
（1）设根节点的数据集为D，计算数据集D的每一个特征每一个取值的基尼指数。按照特征A（可以取连续值或离散值）的不同取值，如A=a，将数据集按‘是’和‘否’划分为两个子集D1、D2计算。
（2）在所有可能的特征和切分点中，选取基尼指数最大的作为最优特征和切分点划分数据集，生成两个子节点。
（3）递归调用步骤1-2，直到满足算法停止条件。
（4）生成决策树T。
CART决策树的剪枝，在下面介绍。

决策树的剪枝

介绍

将生成的树进行简化的过程称为剪枝，即去掉一些叶子节点或子节点，让其父节点作为新的叶子节点，通过极小化决策树整体的损失函数或代价函数实现。设树的叶子节点个数为 $∣ T ∣$ 个，t为叶子节点，该叶节点有 $N_{t}$ 个样本，其中k类的样本有 $N_{tk}$ 个，则决策树学习的损失函数可以定义为：
$C_{\alpha}(T)=\sum_{t=1}^{|T|}N_{t}H_{t}(T)+\alpha|T| =C(T)+\alpha|T|$
其中， $H_{t}(T)$ 为第t个叶子节点的经验熵：
$H_{t}(T)=-\sum_{k=1}^{K}\frac{N_{tk}}{N_{t}}log2\frac{N_{tk}}{N_{t}}$
$C (T)$ 表示模型对训练数据的预测误差，|T|表示模型复杂度。 $C_{\alpha}(T)$ 的极小化等价于极小化正则化的极大似然函数。
算法流程（动态规划）：
输入：整棵树T，参数 $\alpha$
输出：修剪后的子树 $T_{\alpha}$
步骤：
（1）计算每个节点的经验熵；
（2）递归的从叶子节点向上回缩，设叶子节点向上回缩前与后的树为 $T_{A}、T_{B}$ ，计算代价函数 $C_{\alpha}(T_{A})、C_{\alpha}(T_{B})$ 。如果 $C_{\alpha}(T_{A})>C_{\alpha}(T_{B})$ ，则对该叶子节点进行剪枝；
（3）返回步骤2，直到不能继续剪枝为止，返回子树 $T_{\alpha}$

三种算法比较

算法	支持模型	树结构	特征选择	连续值处理	缺失值处理	剪枝	特征属性多次使用
ID3	分类	多叉树，速度慢	信息增益，偏向特征值多的特征	不支持	不支持	不支持	不支持
C4.5	分类	多叉树，速度慢	信息增益比，偏向特征值小的特征	支持	支持	支持，悲观剪枝策略	不支持
CART	分类回归	二叉树，速度较快	基尼指数，克服对数运算，偏向特征值较多的特征	支持	支持	支持，代价复杂度策略	支持

参考文章：
李航，《统计学习方法》.

Python 应用程序分发全指南：从基础到高级工具与实践面朝大海，春不暖，花不开 Python基础 python 开发语言
文章大纲引言在现代软件开发中，Python因其简洁的语法和强大的生态系统而广受欢迎。然而，将Python应用程序从开发者手中传递给最终用户并非总是简单的过程。分发Python应用程序涉及到诸多挑战，例如依赖管理、跨平台兼容性以及用户环境的多样性。如果分发不当，用户可能面临安装失败或运行错误等问题，从而影响软件的使用体验。本文将深入探讨Python应用程序分发的各种方法，从最基础的源代码分享到现代标
轻松拿捏Anaconda安装，Python开发快人一步奔跑吧邓邓子必备核心技能 python 开发语言 Anaconda 科学计算
目录一、Anaconda是什么1.1包管理与环境管理1.2预装丰富的科学计算库二、为什么选择Anaconda2.1简化依赖管理2.2避免版本冲突2.3丰富的库资源2.4适合的应用场景三、安装前准备3.1确认系统要求3.2下载安装包四、Windows系统安装步骤4.1运行安装程序4.2许可协议4.3选择安装类型4.4选择安装路径4.5高级选项4.6安装完成五、MacOS系统安装步骤5.1下载安装包5
mavlink python 彩云的笔记 linux 无人驾驶 mavlink
frompymavlinkimportmavutil#Createtheconnectionm=mavutil.mavlink_connection('udpin:0.0.0.0:14550')dir(m.mav)['_MAVLink__callbacks','_MAVLink__parse_char_legacy','_MAVLink__parse_char_native','__class__
《用上位机控制无人机：Python+MAVLink协议飞行实验》欧振芳 python
1.实验目标-通过Python编写的上位机程序，基于MAVLink协议控制无人机（如PX4/ArduPilot固件的无人机）。-实现基础飞行指令：解锁、起飞、悬停、降落。-探索MAVLink消息的构造与解析机制。2.实验环境准备硬件-无人机硬件：支持MAVLink协议的飞控（如Pixhawk系列）。-通信链路：USB直连、数传电台（3DRRadio）或WiFi（如通过UDP）。-安全环境：空旷无干
一次Python与STK12.2联合仿真
（一）软件准备：STK12.2是在某宝上花钱买的。我个人在安装软件上，更偏向于能用钱解决的就用钱解决，无论是商家远程安装还是自己按照商家的步骤安装，效率都更高，而自己从网上找免费的渠道安装软件费时费力还不一定能成功。Python是自己按照版本对应关系下载的，我使用的Python版本是3.10.9。我是在PycharmCommunityEdition2023.1.1上进行编程。（二）STK12与Py
《Python 项目 CI/CD 实战指南：从零构建自动化部署流水线》清水白石008 课程教程学习笔记开发语言 python ci/cd 自动化
《Python项目CI/CD实战指南：从零构建自动化部署流水线》一、引言：为什么Python项目需要CI/CD？在现代软件开发中，CI/CD（持续集成/持续部署）已成为不可或缺的工程实践。它不仅提升了开发效率，还显著降低了部署风险。对于Python项目而言，CI/CD的价值尤为突出：✅自动化测试确保代码质量✅快速部署加速产品迭代✅与云平台、容器技术无缝集成✅支持多版本、多环境的灵活发布Python
使用python调用STK12.2并实现霍曼转移 AndyVictory python 开发语言
使用STK的PythonAPI和Astrogator模块来创建一个简单的霍曼转移轨道场景（从近地轨道转移到地球同步轨道）:1、创建一个新的场景并添加一个卫星。2、定义卫星的初始状态（近地轨道的参数）。3、传播近地轨道。4、使用目标序列和DV1机动将卫星转移到转移椭圆轨道。5、传播转移椭圆轨道到远地点。6、使用目标序列和DV2机动将卫星转移到外部轨道（地球同步轨道）。7、传播外部轨道。8、运行任务控
python坦克大战名难取aaa python pygame 开发语言贴图
文章目录前言资源获取一、项目介绍1.pygame是什么？2.操作指南3.项目演示二、项目实现1.安装库2.引入库3.项目代码3.1主逻辑类3.2背景类3.3基类3.4坦克类3.5MyTank类3.6EnemyTank类3.7子弹类3.8爆炸类3.9墙壁类3.10水晶类3.11音乐类4.项目打包参考文档总结前言《坦克大战》，1985年由日本开发商南梦宫（Namco）开发，是第一款可以双打的红白机游戏
Python批量爬取谷歌原图，2021年最新可用版
文章目录前言一、环境配置1.安装selenium2.使用正确的谷歌浏览器驱动二、使用步骤1.加载chromedriver.exe2.设置是否开启可视化界面3.输入关键词、下载图片数、图片保存路径三、爬取效果四、完整代码前言作为一名CVer，数据集获取少不了用到数据、图片爬虫技术，谷歌作为全球最大的数据搜索网站，如何从中快速获取大量有用图片数据尤为重要，但是技术更新，很多代码大多就会失效，爬与反爬永
【Pycharm虚拟环境下载模块】阿斯达使 python
Pycharm虚拟环境下载模块优点步骤优点模块安装在虚拟环境中，不会污染全局Python，并且不同项目可以使用不同版本的模块。步骤使用cmd打开命令提示符，进入项目路径。·C:\\>D:·D:>cd\Pycharm\Rician\venv\Scriptsactivate进行激活使用pipinstall下载需要的模块通过piplist查看当前环境中已安装的模块使用deactivate退出虚拟环境
python基础项目实战-PyQt5制作俄罗斯方块春风抚微霞 python项目实战 python pygame 开发语言
之前已经使用pygame制作了一款简易的俄罗斯方块，最近学习了python的GUI编程，也就进行了实操了一下，用PyQt5制作了一下。1.俄罗斯方块的形状：S、Z、T、L、反向L、直线、方块，每个形状都由4个方块组成，方块最终都会落到屏幕底部。2.操作:左键:左移右键:右移上键:向左旋转下键:向右旋转D键:加速下落空格键:直接掉落到底部P键:暂停3.完整代码如下:#!/usr/bin/python
Python爬虫实战：批量下载小红书笔记图片的全流程技术解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫笔记开发语言音视频 github
1.引言：为什么要爬取小红书笔记图片小红书作为新兴的生活方式分享平台，聚集了大量高质量原创笔记内容，涵盖时尚、美妆、旅游、美食等多领域。笔记中的图片往往是内容的核心，批量下载小红书笔记图片，有助于：内容归档与备份数据分析与用户行为研究图像识别与机器学习训练电商推广及内容再加工但小红书对内容保护做得较好，爬取难度较高，需要结合多技术手段突破。2.小红书平台特点与爬取难点动态加载与API接口多变：页面
基于Python的Google Patents专利数据爬取实战：从入门到精通 Python爬虫项目 2025年爬虫实战项目 python 开发语言爬虫 scrapy selenium
摘要本文将详细介绍如何使用Python构建一个高效的GooglePatents专利爬虫，涵盖最新技术如Playwright浏览器自动化、异步请求处理、反反爬策略等。文章包含完整的代码实现、性能优化技巧以及数据处理方法，帮助读者全面掌握专利数据采集技术。1.引言在当今知识经济时代，专利数据已成为企业技术研发、市场竞争分析的重要资源。GooglePatents作为全球最大的专利数据库之一，收录了来自全
Python游戏开发实战：打造高仿俄罗斯方块掌机坦克大战
引言在那个电子游戏刚刚兴起的年代，俄罗斯方块掌机上的坦克大战承载着无数玩家的童年记忆。简单的像素画面、紧张刺激的战斗、精准的操作反馈，这些元素构成了一个经典的游戏体验。今天，我们将用Python和pygame库来重新诠释这个经典游戏，不仅要还原其精髓，更要在技术实现上进行创新和优化。这个项目不仅仅是一个简单的游戏复刻，更是一次完整的游戏开发实践。从游戏架构设计到用户体验优化，从碰撞检测算法到动态难
Python 代码生成 LaTeX 数学公式：latexify 示例 examples
文中内容仅限技术学习与代码实践参考，市场存在不确定性，技术分析需谨慎验证，不构成任何投资建议。latexify示例本notebook提供了多个使用latexify的示例。更多细节请参阅官方文档。如有任何疑问，请在issuetracker中提出。安装latexify#运行下方示例前请先重启运行时。%pipinstalllatexify-pyCollectinglatexify-pyDownloadi
fdata = fp.read()ValueError: read of closed file 什么意思 whale fall python进阶 python
这个错误提示ValueError:readofclosedfile意味着你尝试从一个已经关闭的文件对象中读取数据。在Python中，当你打开一个文件后，文件需要保持打开状态才能进行读取或者写入操作。如果你关闭了文件（例如使用file.close()或者文件对象自动关闭），再尝试读取就会触发这个错误。要避免这个错误，可以确保在文件关闭之前读取文件，或者使用with语句来自动管理文件的打开和关闭。例如
【华为od刷题（C++）】HJ89 24点运算 m0_64866459 华为od c++开发语言
我的代码：#include//包含了如排序、排列等常用算法#include//用于输入输出操作#include//无序映射，用于将扑克牌的字符映射到对应的数字#include//动态数组，用于存储输入的扑克牌usingnamespacestd;charops[4]={'+','-','*','/'};//这是一个操作符数组，包含了四个基本的数学运算符：加、减、乘、除unordered_mapmap
人脸识别实战：使用Python OpenCV 和深度学习进行人脸识别(2)
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
22、Python 多线程编程与GIL锁机制深度解析 wolf犭良 python python 开发语言
Python多线程编程与GIL锁机制深度解析引言：多线程的意义与挑战在Python并发编程领域，多线程技术因其轻量级和易用性广受欢迎。然而全球解释器锁（GIL）的存在使得Python多线程在CPU密集型任务中表现特殊。本文将通过理论解析、代码实战和性能测试，带你全面掌握线程同步机制，深入理解GIL的工作机制，并提供绕过性能瓶颈的解决方案。一、多线程编程基础1.1线程创建方式Python通过thre
揭秘FloodFill算法：图像填充利器 KENYCHEN奉孝 python实践大全算法 python 开发工具
FloodFill算法概述FloodFill是一种用于填充连通区域的算法，常用于图像处理、绘图工具（如“油漆桶”工具）和迷宫求解等场景。其核心思想是从一个起始点出发，向四周（四邻域或八邻域）扩展，直到遇到边界或满足停止条件。算法原理连通性定义：根据需求选择四邻域（上、下、左、右）或八邻域（包含对角线方向）作为填充方向。边界条件：填充需在指定区域内进行，遇到边界颜色或特定标记时停止。实现方法递归实现
【算法300题】：双指针
双指针板块925.长按键入leetcode链接你的朋友正在使用键盘输入他的名字name。偶尔，在键入字符c时，按键可能会被长按，而字符可能被输入1次或多次。你将会检查键盘输入的字符typed。如果它对应的可能是你的朋友的名字（其中一些字符可能被长按），那么就返回True。思路这道题目只要是末尾的边界条件比较恶心一点classSolution{public:boolisLongPressedName
基于R、Python的Copula变量相关性分析及AI大语言模型应用阁楼里的小花儿 R语言 Python Copula变量相关性分析 AI大语言模型结构方程模型贝叶斯网络统计学
前言：在工程、水文和金融等各学科的研究中，总是会遇到很多变量，研究这些相互纠缠的变量间的相关关系是各学科的研究的重点。虽然皮尔逊相关、秩相关等相关系数提供了变量间相关关系的粗略结果，但这些系数都存在着无法克服的困难。例如，皮尔逊相关系数只能反映变量间的线性相关，而秩相关则更多的适用于等级变量。大多数情况下变量间的相关性非常复杂，而且随着变量取值的变化而变化，而这些相关系数都是全局性的，因此无法提供
轻松入门学python（四）python类的继承、添加与覆盖 Sunhen_Qiletian python 开发语言
Python类的继承、添加与覆盖：从语法到设计思想的完整指南————————————————————（全文约2000字，示例基于Python3.11）一、为什么要继承1.代码复用：子类自动拥有父类的属性与方法，减少重复。2.扩展与特化：在父类基础上增加新功能（添加），或改写已有实现（覆盖），使类型体系更符合领域模型。3.多态：通过继承+方法覆盖，实现“一个接口，多种实现”，让高层代码只依赖父类接口
Python练习（6）Python面向对象编程三大特性：封装、继承与多态的15道实战练习题（含答案与深度解析）一个天蝎座白勺程序猿 python 开发语言
目录引言封装篇（5题）练习1：银行账户安全封装练习2：属性装饰器控制练习3：私有方法调用练习4：受保护属性继承练习5：类属性封装继承篇（5题）练习6：单继承与方法重写练习7：多继承与MRO练习8：抽象基类实现练习9：Mixin模式练习10：super()函数应用多态篇（5题）练习11：接口多态练习12：鸭子类型练习13：多态与异常处理练习14：多态与类型检查练习15：多态与装饰器总结Python爬
【案例教程】基于R、Python的Copula变量相关性分析及AI大模型应用 AAIshangyanxiu 编程算法统计语言农林生态遥感生态环境 r语言 python 人工智能 copula函数变量相关性分析贝叶斯统计学
查看原文>>>https://mp.weixin.qq.com/s?__biz=MzAxNzcxMzc5MQ==&mid=2247726953&idx=6&sn=7ebd9948d54bbce401efdc908dbf67e2&scene=21#wechat_redirect在工程、水文和金融等各学科的研究中，总是会遇到很多变量，研究这些相互纠缠的变量间的相关关系是各学科的研究的重点。虽然皮尔逊相
算法：floyd和高精度洛谷最短路 P1037 [NOIP 2002 普及组] 产生数健仙算法算法数据结构 c++
思路：因为某个数变成另一个数是单向的，并且一个数变成另一个数后还可以变，让我联想到图论的内容，一个数变成其他数就相当于这个数与另一个数有单向边，而且边之间的线路可以让一个数可能变成很多数，因为数据量很小，我就想到了floyd，就是我们用floyd做传递闭包，得出一个数可以变成哪些数，然后将每个位看一遍，乘起来就是答案，不过这里有个小坑，答案超过了2的64次方，所以还要高精度算法处理一下。代码：#i
算法：动态规划洛谷 P8776 [蓝桥杯 2022 省 A] 最长不下降子序列健仙算法动态规划蓝桥杯
思路：首先，这题你得先会（nlogn）复杂度的求最长不下降子序列方法。我们可以直接让k个数从下标为1开始，滑动到末端，这k个数就不用看它，因为我们把他设置成k个数后面的数，所以答案先加上k，然后我们看预处理每一个数从他开始（包括这个数）后面的最长不下降子序列，把长度放入b数组中，这样我们答案就是k加上b【k+1】，然后我们看k前面的数，k前面的数不是让答案加上前面的最长不下降子序列，因为此时我们有
算法竞赛备赛——【图论】求最短路径——Floyd算法 Aurora_wmroy 算法竞赛备赛算法图论 c++蓝桥杯数据结构
floyd算法基于动态规划应用：求多源最短路时间复杂度：n^3dijkstra：不能解决负边权floyd：能解决负边权不能解决负边权回路问题求最短路径：dijkstrabfsfloyd思路1.让任意两点之间的距离变短：引入中转点k通过k来中转i---->k---->jj2.找状态：n个点都可以做中转点的情况下，i到j之间的最短路径的长度是x最终状态：dp[n][i][j]=x;中间状态：dp[k]
《[系统底层攻坚] 张冬〈大话存储终极版〉精读计划启动——存储架构原理深度拆解之旅》-系统性学习笔记（适合小白与IT工作人员）谢郎Kobe 大活存储学习架构云计算硬件架构大数据
致所有存储技术探索者笔者近期将系统攻克存储领域经典巨作——张冬老师编著的《大话存储终极版》。这部近千页的存储系统圣经，以庖丁解牛的方式剖析了：存储硬件底层架构、分布式存储核心算法、超融合系统设计哲学等等。喜欢研究数据存储或者工作应用到存储的小伙伴，可以学习这本书。如果想利用碎片时间学习，也可以持续关注一下笔者不定期的章节解析。现在本人将此书的目录结构整理如下，未来笔者将按照顺序不定期更新【学习笔记
颠覆性的货币时代来了！千城攻略“主权资产货币系统”面世笔记侠
2020年7月7日，深圳千城攻略算法云技术有限公司与重塑布雷顿森林体系委员会云签约，成为面向央行提供服务的主权货币技术核心成员。重塑布雷顿森林委员会执行董事MarcUzan先生、千城攻略首席算法官郑志军先生出席签约仪式。与比特币、Libra完全不一样，千城攻略颠覆了长期以来根深蒂固的“主权信用货币”体制观念，推出了“主权资产货币”，由于其有着非常严谨科学的全新经济学理论和货币理论系统支撑，并且解决
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，