Jianwei Tao

决策树（信息熵、增益率、基尼指数）

前言

一、决策树是什么？

二、实验过程

1.选择数据集中各个决策属性的优先级

1.1信息熵

1.2增益率

1.3基尼指数

2.决策树的构造

2.1创建决策树：

2.2准备数据：

2.3.读取和保存决策树：

2.4绘制决策树：

3运行结果：

3.1利用信息熵进行构造

3.2利用增益率进行构造决策树：

3.3利用基尼指数进行构造决策树：

总结

前言

决策树（Decision Tree）是一种简单但是广泛使用的分类器。通过训练数据构建决策树，可以高效的对未知的数据进行分类。决策数有两大优点：1）决策树模型可以读性好，具有描述性，有助于人工分析；2）效率高，决策树只需要一次构建，反复使用，每一次预测的最大计算次数不超过决策树的深度。

一、决策树是什么？

决策树（decision tree）：是一种基本的分类与回归方法，此处主要讨论分类的决策树。

决策树通常有三个步骤：特征选择、决策树的生成、决策树的修剪。

用决策树分类：从根节点开始，对实例的某一特征进行测试，根据测试结果将实例分配到其子节点，此时每个子节点对应着该特征的一个取值，如此递归的对实例进行测试并分配，直到到达叶节点，最后将实例分到叶节点的类中。

例图：

二、实验过程

1.选择数据集中各个决策属性的优先级

一个数据拥有非常多的属性，选择各个属性在决策树节点中的优先级变得尤为重要，决策树学习的关键在于如何选择最优划分属性。一般而言，随着划分过程不断进行，我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的“纯度 ”(purity)越来越高。

经典的属性划分方法：

–信息增益： ID 3

–增益率： C 4.5

–基尼指数： CART

1.1信息熵

1948年，香农提出了“信息熵”的概念，解决了对信息的量化度量问题。信息熵这个词是C.E.Shannon（香农）从热力学中借用过来的。香农用信息熵的概念来描述信源的不确定度。

“信息熵”是度量样本集合纯度最常用的一种指标，假定当前样本集合 D 中第 k 类样本所占的比例为 p k ( K =1, 2, ..., | y |) ，则 D 的信息熵定义为

Ent(D)的值越小，则D的纯度越高

#计算给定数据集的香农熵
def calcShannonEnt(dataSet):
    # 返回数据集的行数，样本容量
    numEntries = len(dataSet)
    # 保存每个标签出现出现次数的字典
    labelCounts = {}
    #对每组特征向量进行统计
    for featVec in dataSet:
        #提取标签（label）信息
        currentLabel = featVec[-1]
        #如果存在标签没有放入统计次数的字典，则将其添加
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel] = 0
        #label计数
        labelCounts[currentLabel] += 1
    #香农熵赋初值
    shannonEnt = 0.0
    for key in labelCounts:
        #选择该标签的概率
        prob = float(labelCounts[key])/numEntries
        shannonEnt -=prob * log(prob,2)
    return shannonEnt

1.2增益率

C4.5 [Quinlan, 1993] 采用了一个启发式方法：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选取增益率最高的，但增益率准则对可取值数目较少的属性有所偏好

#信息增益率
def chooseBestFeatureToSplit2(dataSet): #使用信息增益率进行划分数据集
    numFeatures = len(dataSet[0]) -1 #最后一个位置的特征不算
    baseEntropy = calcShannonEnt(dataSet) #计算数据集的总信息熵
    bestInfoGain = 0.0
    bestFeature = -1
    for i in range(numFeatures):
        featList = [example[i] for example in dataSet]
        newEntropyProb = calcShannonEnt1(featList, method='prob') #计算内部信息增益率
        uniqueVals = set(featList)
        newEntropy = 0.0
        for value in uniqueVals:
            # 通过不同的特征值划分数据子集
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob *calcGini(subDataSet)
        newEntropy  = newEntropy*newEntropyProb
        infoGain = baseEntropy - newEntropy #计算每个信息值的信息增益
        if(infoGain > bestInfoGain):
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature #返回信息增益的最佳索引

1.3基尼指数

分类问题中，假设 D 有 K 个类，样本点属于第 k 类的概率为 Pk, 则概率分布的基尼值定义为：

：

Gini(D)越小，数据集D的纯度越高；

#基尼指数
def calcGini(dataset):
    feature = [example[-1] for example in dataset]
    uniqueFeat = set(feature)
    sumProb =0.0
    for feat in uniqueFeat:
        prob = feature.count(feat)/len(uniqueFeat)
        sumProb += prob*prob
    sumProb = 1-sumProb
    return sumProb
def chooseBestFeatureToSplit3(dataSet): #使用基尼系数进行划分数据集
    numFeatures = len(dataSet[0]) -1 #最后一个位置的特征不算
    bestInfoGain = np.Inf
    bestFeature = 0.0
    for i in range(numFeatures):
        featList = [example[i] for example in dataSet]
        uniqueVals = set(featList)
        newEntropy = 0.0
        for value in uniqueVals:
            # 通过不同的特征值划分数据子集
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet)/float(len(dataSet))
            newEntropy += prob *calcGini(subDataSet)
        infoGain = newEntropy
        if(infoGain < bestInfoGain): # 选择最小的基尼系数作为划分依据
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature #返回决策属性的最佳索引

2.决策树的构造

2.1创建决策树：

#创建决策树
def createTree(dataSet,labels):
    #取分类标签
    classList = [example[-1] for example in dataSet]
    #特征可能存在多个属性，需要判断一下，如果类别完全相同则停止继续划分
    if classList.count(classList[0]) == len(classList):
        return classList[0]
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)                 #遍历完所有特征时返回出现次数最多的类标签
    bestFeat = chooseBestFeatureToSplit(dataSet)      #选择最优特征
    bestFeatLabel = labels[bestFeat]                  #最优特征的类标签
    myTree = {bestFeatLabel:{}}                       #根据最有特征的标签生成树
    #del(labels[bestFeat])                            #删除已经使用特征标签
    #得到训练集中所有最优特征的属性值
    featValues = [example[bestFeat] for example in dataSet]
    #去掉重复的属性值
    uniqueVals = set(featValues)
    #遍历特征，创建决策树
    for value in uniqueVals:
        subLabels = labels[:]
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels)
    return myTree

#使用决策树的分类函数
def classify(inputTree,featLabels,testVec):
    #firstStr = next(iter(inputTree))            #获取决策树结点
    firstStr = list(inputTree.keys())[0]
    #print(firstStr)
    secondDict = inputTree[firstStr]            #下一个字典
    featIndex = featLabels.index(firstStr)      #获取存储选择的最优特征标签的索引
    classLabel = -1
    for key in secondDict.keys():
        if testVec[featIndex] == key:
            # 测试该结点是否为字典，如果不是字典，代表此结点为叶子结点
            if type(secondDict[key]).__name__=='dict':
                classLabel = classify(secondDict[key],featLabels,testVec)
            else:
                classLabel = secondDict[key]
    # 标记classLabel为-1当循环过后若仍然为-1，表示未找到该数据对应的节点则我们返回他兄弟节点出现次数最多的类别
    if classLabel == -1:
        return (getLeafBestCls(inputTree))
    else:
        return classLabel

#求该节点下所有叶子节点的列表
def getLeafscls(myTree, clsList):
    numLeafs = 0
    firstStr = list(myTree.keys())[0]
    secondDict = myTree[firstStr]
    for key in secondDict.keys():
        if type(secondDict[key]).__name__ == 'dict':
            clsList =getLeafscls(secondDict[key],clsList)
        else:
            clsList.append(secondDict[key])
    return clsList

#返回出现次数最多的类别
def getLeafBestCls(myTree):
    clsList = []
    resultList = getLeafscls(myTree,clsList)
    return max(resultList,key = resultList.count)

2.2准备数据：

准备数据作为决策树的判断构造数据

准备测试数据

2.3.读取和保存决策树：

对于数据的读取：

myData = pd.read_excel('data.xls',header = None)

def storeTree(inputTree, filename):
    import pickle
    fw = open(filename, 'wb')
    pickle.dump(inputTree, fw)
    fw.close()
#读取决策树
def grabTree(filename):
    import pickle
    fr = open(filename)
    return pickle.load(fr)  #决策树字典

存储和读取决策树

2.4绘制决策树：

import matplotlib.pyplot as plt

decisionNode = dict(boxstyle="sawtooth", fc="0.8")
leafNode = dict(boxstyle="round4", fc="0.8")
arrow_args = dict(arrowstyle="<-")


def getNumLeafs(myTree):
    numLeafs = 0
    firstStr = list(myTree.keys())[0]
    secondDict = myTree[firstStr]
    for key in secondDict.keys():
        if type(secondDict[
                    key]).__name__ == 'dict':  
            numLeafs += getNumLeafs(secondDict[key])
        else:
            numLeafs += 1
    return numLeafs


def getTreeDepth(myTree):
    maxDepth = 0
    firstStr = list(myTree.keys())[0]
    secondDict = myTree[firstStr]
    for key in secondDict.keys():
        if type(secondDict[
                    key]).__name__ == 'dict':  # test to see if the nodes are dictonaires, if not they are leaf nodes
            thisDepth = 1 + getTreeDepth(secondDict[key])
        else:
            thisDepth = 1
        if thisDepth > maxDepth: maxDepth = thisDepth
    return maxDepth


def plotNode(nodeTxt, centerPt, parentPt, nodeType):
    createPlot.ax1.annotate(nodeTxt, xy=parentPt, xycoords='axes fraction',
                            xytext=centerPt, textcoords='axes fraction',
                            va="center", ha="center", bbox=nodeType, arrowprops=arrow_args)


def plotMidText(cntrPt, parentPt, txtString):
    xMid = (parentPt[0] - cntrPt[0]) / 2.0 + cntrPt[0]
    yMid = (parentPt[1] - cntrPt[1]) / 2.0 + cntrPt[1]
    createPlot.ax1.text(xMid, yMid, txtString, va="center", ha="center", rotation=30)


def plotTree(myTree, parentPt, nodeTxt):  # if the first key tells you what feat was split on
    numLeafs = getNumLeafs(myTree)  # this determines the x width of this tree
    depth = getTreeDepth(myTree)
    firstStr = list(myTree.keys())[0]  # the text label for this node should be this
    cntrPt = (plotTree.xOff + (1.0 + float(numLeafs)) / 2.0 / plotTree.totalW, plotTree.yOff)
    plotMidText(cntrPt, parentPt, nodeTxt)
    plotNode(firstStr, cntrPt, parentPt, decisionNode)
    secondDict = myTree[firstStr]
    plotTree.yOff = plotTree.yOff - 1.0 / plotTree.totalD
    for key in secondDict.keys():
        if type(secondDict[
                    key]).__name__ == 'dict':  
            plotTree(secondDict[key], cntrPt, str(key))  
        else: 
            plotTree.xOff = plotTree.xOff + 1.0 / plotTree.totalW
            plotNode(secondDict[key], (plotTree.xOff, plotTree.yOff), cntrPt, leafNode)
            plotMidText((plotTree.xOff, plotTree.yOff), cntrPt, str(key))
    plotTree.yOff = plotTree.yOff + 1.0 / plotTree.totalD


def createPlot(inTree):
    fig = plt.figure(1, facecolor='white')
    fig.clf()
    axprops = dict(xticks=[], yticks=[])
    createPlot.ax1 = plt.subplot(111, frameon=False, **axprops)  # no ticks
    # createPlot.ax1 = plt.subplot(111, frameon=False) #ticks for demo puropses
    plotTree.totalW = float(getNumLeafs(inTree))
    plotTree.totalD = float(getTreeDepth(inTree))
    plotTree.xOff = -0.5 / plotTree.totalW;
    plotTree.yOff = 1.0;
    plotTree(inTree, (0.5, 1.0), '')
    plt.show()


def retrieveTree(i):
    listOfTrees = [{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}},
                   {'no surfacing': {0: 'no', 1: {'flippers': {0: {'head': {0: 'no', 1: 'yes'}}, 1: 'no'}}}}
                   ]
    return listOfTrees[i]

3运行结果：

3.1利用信息熵进行构造

准确率：40%

3.2利用增益率进行构造决策树：

预测结果：

准确率：40%

3.3利用基尼指数进行构造决策树：

预测结果：

准确率：40%

总结

在本次实验中由于数据集是自己编写的，导致了对于决策树的预测结果全是不买，对于信息熵、信息增益率，基尼指数三种划分方式的对数据划分的准确率，也不能作出比较，对于划分方式的优缺比较：

1.信息熵H(p)随概率p变化的曲线

由图可知，当p=0或p=1时，H(p)=0，随机变量完全没有不确定性；

所以信息熵无法处理连续特征，容易过拟合。

2.信息增益对可取值数目较多的属性有所偏好；

3.基尼指数可以结合二叉树的特点，处理连续型特征和做回归。

华为OD机试E卷 - 增强的strstr（Java & Python& JS & C++ & C ）算法大师最新华为OD机试 java 华为od python javascript c语言 c++华为OD机试E卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述C语言有一个库函数：char*strstr(constchar*haystack,constchar*needle)，实现在字符串haystack中查找第一次出现字符串needle的位置，如果未找到则返回null。现要求实现一个strstr的增强函数，可以使用带可选段的字符串来模糊查询，与strstr一样返回首次查找到
Python代码用于在Abaqus中提取指定节点集的反作用力数据 Renz_314 python 材料工程
这段代码用于在Abaqus中提取指定节点集的反作用力数据，并显示仿真结果。它通过打开仿真结果数据库（ODB文件），在特定视口中显示仿真结果，并从指定的节点集中提取反作用力数据，供后续分析使用。fromabaqusimport*fromabaqusConstantsimport*importvisualizationimportxyPlot#打开指定路径下的ODB文件odb=visualizatio
Abaqus中批量对节点施加集中力荷载有限元术仿真 Abaqus二次开发 python
笔者为科研界最后的摆烂王，目前利用python代码对Abaqus进行二次开发尚在学习中。欢迎各位摆烂的仁人志士们和我一起摆烂！ps：搞什么科研，如果不是被逼无奈，谁要搞科研！先前撰写了一篇关于Abaqus批量施加荷载（位移）的文章，但是很多哥哥们私信小弟的问题，大都是需要施加集中力或者其他节点力。所以昨天也是抽空写了一下，关于Abaqus批量施加集中力荷载在任一节点上的python脚本。在这段过程
Python爬取搜索引擎结果数目 Gaia_Pygmalion python
#coding:utf-8importurllibimporturllib2importreimportsysimportsocketimporttimeprint"Startofwork"filename="keywords.txt"#关键词文件fid=open(filename,'r')all_text=fid.readlines()NumOutput=open(r'searchnumber.
常用Python自动化测试框架有哪些？字节程序员软件测试 python 开发语言压力测试单元测试集成测试
随着技术的进步和自动化技术的出现，市面上出现了一些自动化测试框架。只需要进行一些适用性和效率参数的调整，这些自动化测试框架就能够开箱即用，大大节省了测试时间。而且由于这些框架被广泛使用，他们具有很好的健壮性，并且具有广泛多样的用例集和技术来轻易发现微小的缺陷。以前，测试团队接手一个项目，他们不得不为这个项目构建一个自动化测试框架。一个测试框架应该具有最佳的测试用例、假设（assumptions）、
华为OD机试E卷 --增强的strstr--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码题目描述C语言有一个库函数:char*strstr(constchar*haystack,constchar*needle),实现在字符串haystack中查找第一次出现字符串needle的位置，如果未找到则返回null。现要求实现一个strstr的增强函数，可以使用带可选段的字符串来模糊查询，strstr
使用 Python 指定内容爬取百度引擎搜索结果 m0_74825614 python 百度开发语言
在本篇博客中，我将展示如何使用Python编写一个简单的百度搜索爬虫。这个爬虫可以自动化地从百度获取搜索结果，并提取每个结果的标题和链接。我们将使用requests库来发送HTTP请求，使用BeautifulSoup库来解析HTML内容。需求分析在实现爬虫之前，我们需要明确以下需求：通过构建百度搜索的URL来发送搜索请求。解析百度搜索结果页面，提取每个结果的标题和链接。将搜索结果以列表形式返回，方
python连接MYSQL数据库（连接MYSQL数据库报错解决方法） Oblinto 数据库学习数据库 mysql
一、连接前的准备（如果报错可以从以下几个方面检查一下）1.检查mysql服务查看mysql服务是否开启sudosystemctlstatusmysql若没开启，开启mysql服务sudosystemctlstartmysql2.检查mysql的3306端口查看3306端口是否打开netstat-an|grep3306若没打开，打开3306端口sudoufwallow3306/tcp3.修改配置文件
PyCharm报 mysql连接异常退出，报错 Process finished with exit code -1073741819 (0xC0000005) maelstorm mysql 数据库
mysql-connector-python9.1.0，PyCharm报Processfinishedwithexitcode-1073741819(0xC0000005)_mysql1073741819-CSDN博客降级mysql-connector-python9.1.0到9.0.0搞得一晚上md
github上的python代码怎么运行_使用 Python 在 GitHub 上运行你的博客 -Fun言 weixin_39946300
使用Pelican创建博客，这是一个基于Python的平台，与GitHub配合的不错。GitHub是一个非常流行的用于源代码控制的Web服务，它使用Git同步本地文件和GitHub服务器上保留的副本，这样你就可以轻松地共享和备份你的工作。除了为代码仓库提供用户界面之外，GitHub还运允许用户直接从仓库发布网页。GitHub推荐的网站生成软件包是Jekll，是使用Ruby编写的。因为我是Pytho
python execjs库_python3调用js的库之execjs 一盏Online python execjs库
针对现在大部分的网站都是使用js加密，js加载的，并不能直接抓取出来，这时候就不得不适用一些三方类库来执行js语句执行JS的类库：execjs，PyV8，selenium，node这里主要讲一下execjs，一个比较好用且容易上手的类库(支持py2，与py3)，支持JSruntime。(一)安装：pipinstallPyExecJSoreasy_installPyExecJS(二)运行时环境exe
Python 执行 javascript PyExecJS 模块 weixin_30376083 python javascript json ViewUI
PyExecJS安装pipinstallPyExecJSPyExecJS的基本使用:>>>importexecjs>>>execjs.eval("'redyellowblue'.split('')")['red','yellow','blue']>>>ctx=execjs.compile("""...functionadd(x,y){...returnx+y;...}...""")>>>ctx.c
「QT」经验篇之界面代码与逻辑代码的分离思想何曾参静谧「QT」QT5程序设计 qt 系统架构数据库
✨博客主页何曾参静谧的博客（✅关注、点赞、⭐收藏、转发）全部专栏（专栏会有变化，以最新发布为准）「Win」Windows程序设计「IDE」集成开发环境「定制」定制开发集合「C/C++」C/C++程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「UG/NX」BlockUI集合「Py」Python程序设计「Math」探秘数学世界「PK」Paras
在Python中运行JavaScript代码（使用execjs模块）飞起来fly呀 Python python 开发语言
使用execjs模块可以在Python中运行JavaScript代码。以下是使用execjs模块的基本步骤：1.安装execjs模块:可以使用pip命令进行安装:pipinstall execjs2.导入execjs模块:import execjs3.使用compile方法可以将JavaScript代码编译为可执行的函数compiled_func = execjs.compile(code)#执行
Kotlin语言之let、with、run、apply、also内联函数 mysimplelove 学无止境 Android kotlin 内联函数 let with run apply also lambda
前言：随着公司项目对主开发语言切换的需要，本人也是在持续的对Kotlin语言进行深入全面的学习和使用。相比Java,Kotlin提供了不少高级语法特性，在Kotlin中的源码标准库(Standard.kt)中提供了一些Kotlin扩展的内置函数可以优化kotlin的编码。Standard.kt是Kotlin库的一部分，它定义了一些基本函数。这个源代码文件虽然一共不到50行代码，但是这些函数功能都非
Python快速使用js接口程序媛小本 python javascript udp
在跨语言编程和Web开发中，Python和JavaScript是两种常用的编程语言。有时候，我们可能需要在Python环境中执行JavaScript代码。这就是execjs库发挥作用的地方。一、安装ExecJS在命令行中输入以下命令：pipinstallPyExecJS二、ExecJS的基本使用ExecJS支持多种JavaScript运行时环境，包括Node.js、SpiderMonkey、Web
Python设计模式详解之5 —— 原型模式拾工 Python设计模式 python 设计模式
Prototype设计模式是一种创建型设计模式，它通过复制已有的实例来创建新对象，而不是通过从头实例化。这种模式非常适合对象的创建成本较高或者需要避免复杂的构造过程时使用。Prototype模式提供了一种通过克隆来快速创建对象的方式。1.Prototype模式简介Prototype模式通过定义一个接口来克隆自身，使得客户端代码可以通过复制原型来创建新对象。Python中，Prototype模式可以
Python中的23种设计模式：详细分类与总结拾工 Python设计模式软件设计设计模式
设计模式是解决特定问题的通用方法，分为创建型模式、结构型模式和行为型模式三大类。以下是对每种模式的详细介绍，包括其核心思想、应用场景和优缺点。一、创建型模式（CreationalPatterns）创建型模式关注对象的创建，旨在解耦对象的创建过程，提高灵活性和可扩展性。1.单例模式（Singleton）核心思想：确保一个类只有一个实例，并提供全局访问点。应用场景：数据库连接、配置管理器、日志记录器。
华为OD机试E卷 -最长方连续方波信号（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od java python javascript c语言华为od机考e卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述输入一串方波信号，求取最长的完全连续交替方波信号，并将其输出，如果有相同长度的交替方波信号，输出任一即可。方波信号高位用1标识，低位用0标识。说明：一个完整的信号一定以0开始然后以0结尾，即010是一个完整信号，但101，1010，0101不是输入的一串方波信号是由一个或多个完整信号组成两个相邻信号之间可能有0个或多个
「Py」进阶语法篇之 Python中的异常捕获与处理何曾参静谧「Py」Python程序设计 python 数据库开发语言
✨博客主页何曾参静谧的博客（✅关注、点赞、⭐收藏、转发）全部专栏（专栏会有变化，以最新发布为准）「Win」Windows程序设计「IDE」集成开发环境「UG/NX」BlockUI集合「C/C++」C/C++程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「UG/NX」NX定制开发「Py」Python程序设计「Math」探秘数学世界「PK」Pa
AI Agent的记忆系统实现：从短期对话到长期知识技术出海录人工智能 AI ai agent
在上一篇文章中，我们搭建了AIAgent的基础框架。今天，我想深入讲讲AIAgent最核心的部分之一：记忆系统。说实话，我在实现记忆系统时走了不少弯路，希望通过这篇文章，能帮大家少走一些弯路。从一个bug说起还记得在开发知识助手的过程中，我遇到了一个很有意思的问题。一天我正在测试多轮对话功能：我：Python的装饰器是什么？助手：装饰器是Python中用于修改函数或类行为的一种设计模式...（省略
python如何在一个类里面调用另一个类里面的东西 xiamu_CDA python 开发语言
Python高手必备：轻松实现在一个类里调用另一个类的方法和属性Python是一门强大且灵活的编程语言，它的面向对象特性使得开发者可以轻松地组织和管理代码。然而，在实际开发过程中，我们经常会遇到这样一个问题：如何在一个类里面调用另一个类里面的东西？这看似简单的问题背后其实涉及到了许多面向对象编程的核心概念。本文将深入探讨这个问题，并提供几种实现方法，帮助你更好地理解和应用Python的类。为什么需
spss因子分析过程中，旋转载荷平方和累积有点低咋办怎么调整 xiamu_CDA python
SPSS因子分析过程中，旋转载荷平方和累积有点低咋办？怎么调整？在数据分析领域，因子分析是一项重要的统计技术，尤其在心理学、社会学、市场营销等领域中应用广泛。它通过将多个变量简化为少数几个潜在因子，帮助研究者理解变量之间的内在结构。然而，在实际操作过程中，我们常常会遇到一些棘手的问题，比如旋转载荷平方和累积值偏低。这不仅会影响模型的解释力，还可能导致研究结果的可靠性大打折扣。那么，当我们在使用SP
python给PDF添加水印 icon920 java pdf
#添加水印fromPyPDF2importPdfReader,PdfWriterfromcopyimportcopysy=PdfReader("C:\\test\\watermark.pdf")＃水印所在位置mark_page=sy.pages[0]#水印所在的页数#读取添加水印的文件file_reader=PdfReader("C:\\test\\PDF.pdf")#需要添加水印的PDFfile
使用python对pdf批量添加水印，并且水印字体，大小，位置，旋转角度都是可以调节不懂python不懂R python python pdf
1.使用python对pdf批量添加水印，并且水印字体，大小，位置，旋转角度都是可以调节的importosfromPyPDF2importPdfReader,PdfWriterfromreportlab.pdfgenimportcanvasfromreportlab.lib.pagesizesimportletterfromreportlab.lib.colorsimportColordefcre
Python批量为PDF添加水印：让你的文件瞬间高大上！码无止尽 Python办公自动化 python pdf
嗨，各位可爱的小伙伴们！小编在此奉上今天的超级干货：如何用Python给一大堆PDF文件添加水印。请放心，这不是在交朋友圈秀操作，而是有实际需求的哦！有时候我们需要在PDF文件上添加水印，比如“草稿”、“保密”、“审阅”等标识，来提醒自己或他人。今天就让我来教你如何用Python轻松搞定这件事！首先，让我给你看一下大致的实现思路，然后再附上实际代码。实现思路1、首先，我们需要一个PDF处理的Pyt
构建自动化网页内容监控系统：使用Python 爱你不会累
本文还有配套的精品资源，点击获取简介：网页监控更新工具是一个由Python开发的软件，用于检测和记录网页内容的变化。该工具利用Python在Web抓取和数据分析方面的优势，包括利用requests,BeautifulSoup,lxml,和diff-match-patch等库来获取网页内容、解析HTML文档及计算文本差异。工具支持在Windows7及Python2.7.3环境下运行，并允许用户设定监
python监控网页更新_【小白教程】Python3监控网页 weixin_39553904 python监控网页更新
之前用RSS来监控网页更新内容，可惜刷新时间太长了，三个小时。。只能看看新闻啥的，又没有小钱钱充会员（摊手听说Python可以做这个功能，抱着试试看的态度，本以为会很麻烦，没想到这么简单哈哈~我从来没有用过Python都做出来了，相信你也没问题！（我真是纯小白，路过的大佬请指教（⊙ｏ⊙）ノ）所用模块#监控模块fromurllibimportrequestfrombs4importBeautiful
python鸢尾花数据集knn_【python+机器学习1】python 实现 KNN weixin_39629269 python鸢尾花数据集knn
欢迎关注哈希大数据微信公众号【哈希大数据】1KNN算法基本介绍K-NearestNeighbor(k最邻近分类算法)，简称KNN，是最简单的一种有监督的机器学习算法。也是一种懒惰学习算法，即开始训练仅仅是保存所有样本集的信息，直到测试样本到达才开始进行分类决策。KNN算法的核心思想：要想确定测试样本属于哪一类，就先寻找所有训练样本中与该测试样本“距离”最近的前K个样本，然后判断这K个样本中大部分所
实时监控网页变化，并增加多种提示信息安替-AnTi 自动化工具 linux 运维服务器监控网页变化
文章目录python代码实现优势手动部署下载源码安装依赖初次登录设置Docker部署设置监控chromeJS插件实现插件1背景介绍使用方法插件2参考文献通过订阅本篇文章，您可以实现在任意打开网页情况下，监控网页内指定内容或者全部内容的变化，变化的内容、时间点可以通过邮箱、微信等方式进行提醒。使用场景可以用来监控足球比赛的赔率、京东商品库存、价格等因素，并且可以为订阅用户添加各种定制化的服务。如在订
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found

决策树（信息熵、增益率、基尼指数）

前言

一、决策树是什么？

二、实验过程

1.选择数据集中各个决策属性的优先级

1.1信息熵

1.2增益率

1.3基尼指数

2.决策树的构造

2.1创建决策树：

2.2准备数据：

2.3.读取和保存决策树：

2.4绘制决策树：

3运行结果：

3.1利用信息熵进行构造

3.2利用增益率进行构造决策树：

3.3利用基尼指数进行构造决策树：

总结

你可能感兴趣的:(python,数据分析,开发语言)