qq_16540387

ID3—决策树算法

一基本概念

ID3 算法以信息论为基础，其中以信息熵和信息增益度为
度量标准，从而实现对数据的归纳分类。
熵的定义：假设有n个互不相容的事件a1,a2,a3,….,an, p(ai)表示事件ai发生的概率，则由该分布传递的信息量称为熵，记为式

举个列子
如英语有26个字母，假如每个字母在文章中出现次数平均的话，每个字母的信息量为：
I(e)=-log2（1/26）=4.7
汉字常用的有2500个，假如每个汉字在文章中出现次数平均的话，每个汉字的信息量为：
I(e)=-log2（1/2500）=11.3
如果两个系统具有同样大的信息量，如一篇用不同文字写的同一文章，由于是所有元素信息量的加和，使用的汉字就比使用英文字母要少。
ID3 –计算信息增益
在决策树分类中，假设S是训练样本集合，假定类别标号属性具有m个不同的值，定义m个不同类**C1,C2,….Cm（身高、体重、学历），设**Si是类Ci中样本的个数。对一个给定的样本分类所需的数学期望信息由下式给出

其中 pi 是任意样本属于Ci的概率，并用Si /S估计。

设属性A具有v个不同值{a1,a2,….,av}，可以用属性A（身高）将S划分为v个子集{s1,s2,….,sv}(高中低);其中Si包含S中这样一些样本，他们在A上具有值aj。如果A选作测试属性，则这些子集对应于包含集合S的节点生长出来的分支。设Sij是子集Sj中类Ci的样本数，根据由A划分成子集的熵或平均期望信息由下式给出：

其中

定义信息增益为

Gain（A）越大，说明选择测试属性对分类提供的信息越多
依据贪婪算法，为了使下一步所需的信息量最小，要求每一次
都选择其信息增益最大的属性作为决策树的新节点。
信息增益（Gain）=信息期望H-平均信息期望E
决策树建立的关键：一个好的决策树取决于决策树跟和子树跟
的属性

二决策树理论计算的例子

第1步计算决策属性的熵
决策属性“买计算机？”。该属性分
两类：买/不买
S1(买)=641 买的样本个数
S2（不买）= 383 不买的样本个数
S=S1+S2=1024

P1=641/1024=0.6260
P2=383/1024=0.3740
测试样本的信息期望：
H(S1,S2)=H(641,383)
=-P1Log2P1-P2Log2P2
=-(P1Log2P1+P2Log2P2)
=0.9537
第2步计算条件属性的熵
条件属性共有4个。分别是年龄、
收入、学生、信誉。
分别计算不同属性的信息增益。
第2-1步计算年龄的熵
年龄共分三个组：
青年、中年、老年
青年买与不买比例为128/256

S1(买)=128
S2（不买）= 256
S=S1+S2=384

P1=128/384
P2=256/384

H青年(S1,S2)=H(128,256)
=-P1Log2P1-P2Log2P2
=-(P1Log2P1+P2Log2P2)
=0.9183
第2-2步计算年龄的熵
年龄共分三个组：
青年、中年、老年
中年买与不买比例为256/0

S1(买)=256
S2（不买）= 0
S=S1+S2=256

P1=256/256
P2=0/256

H中年(S1,S2)=H(256，0)
=-P1Log2P1-P2Log2P2
=-(P1Log2P1+P2Log2P2)
=0
第2-3步计算年龄的熵
年龄共分三个组：
青年、中年、老年
老年买与不买比例为257/127

S1(买)=257
S2（不买）=127
S=S1+S2=384

P1=257/384
P2=127/384

H老年(S1,S2)=H(125，127)
=-P1Log2P1-P2Log2P2
=-(P1Log2P1+P2Log2P2)
=0.9157
第2-4步计算年龄的Gain
年龄共分三个组：
青年、中年、老年
所占比例
青年组 384/1024=0.375
中年组 256/1024=0.25
老年组 384/1024=0.375

计算年龄的平均信息期望
E（年龄）=0.375*0.9183+
0.25*0+
0.375*0.9157
=0.6877
G（年龄信息增益）
=0.9537-0.6877
=0.2660 （1）
第3步计算收入的熵
收入共分三个组：
高、中、低
E（收入）=0.9361
收入信息增益=0.9537-0.9361
=0.0176 (2)
第4步计算学生的熵
学生共分二个组：
学生、非学生
E（学生）=0.7811
学生信息增益=0.9537-0.7811
=0.1726 （3）
第5步计算信誉的熵
信誉分二个组：
良好，优秀
E（信誉）= 0.9048
信誉信息增益=0.9537-0.9048
=0.0453 （4）
第6步计算选择节点
年龄信息增益=0.9537-0.6877
=0.2660 （1）

收入信息增益=0.9537-0.9361
=0.0176 （2）

学生信息增益=0.9537-0.7811
=0.1726 （3）

信誉信息增益=0.9537-0.9048
=0.0453 （4）

ID3 决策树建立算法步骤
1 决定分类属性；
2 对目前的数据表，建立一个节点N
3 如果数据库中的数据都属于同一个类，N就是树叶，在树叶上
标出所属的类
4 如果数据表中没有其他属性可以考虑，则N也是树叶，按照少
数服从多数的原则在树叶上标出所属类别
5 否则，根据平均信息期望值E或GAIN值选出一个最佳属性作
为节点N的测试属性
6 节点属性选定后，对于该属性中的每个值：
从N生成一个分支，并将数据表中与该分支有关的数据收集形
成分支节点的数据表，在表中删除节点属性那一栏
如果分支数据表非空，则运用以上算法从该节点建立子树。

三 python源代码

数据集

决策树源代码1-1（主程序）

#coding=utf-8
from math import log
import operator
import copy
import tree_plot

def createDataSet():
    dataSet = [[0, 2,1, 0, 'no'],
               [0, 2,2, 1,'no'],
               [1, 2,0, 0, 'yes'],
               [2, 1,2, 0, 'yes'],
               [2, 0,1, 0, 'yes'],
               [2, 0,0, 1, 'no'],
               [1, 0,0, 1, 'yes'],
               [0, 1,2, 0, 'no'],
               [0, 0,0, 0, 'yes'],
               [2, 1,1, 0, 'yes'],
               [0, 1,0, 1, 'yes'],
               [1, 1,2, 1, 'yes'],
               [1, 2,0, 0, 'yes'],
               [2, 1,1, 1, 'no']]
    labels = ['weather', 'temperature', 'humidity', 'wind']
    return dataSet, labels

def calcShannonEnt(dataSet):#熵只和决策属性有关
    numEntries = len(dataSet)
    labelCounts = {}
    for featVec in dataSet:  # the the number of unique elements and their occurance
        currentLabel = featVec[-1]
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key]) / numEntries
        shannonEnt -= prob * log(prob, 2)  # log base 2
    return shannonEnt


def splitDataSet(dataSet, axis, value):#某一属性下某一特征的决策属性个数，axis某一属性，value某一特征
    retDataSet = []
    for featVec in dataSet:
        if featVec[axis] == value:
            reducedFeatVec = featVec[:axis]  # chop out axis used for splitting
            reducedFeatVec.extend(featVec[axis + 1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet


def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1  # 非决策属性个数
    baseEntropy = calcShannonEnt(dataSet)#决策属性的熵
    bestInfoGain = 0.0;
    bestFeature = -1
    for i in range(numFeatures):  # 某一非决策属性
        featList = [example[i] for example in dataSet]  # 该属性的值
        uniqueVals = set(featList)  # 该属性下特征的种类
        newEntropy = 0.0
        for value in uniqueVals:    #该属性下特征的某一种类
            subDataSet = splitDataSet(dataSet, i, value)#某一属性下某一特征的个数
            prob = len(subDataSet) / float(len(dataSet))#某一属性下某一特征的概率
            newEntropy += prob * calcShannonEnt(subDataSet)#某一属性下某一特征的熵，并求和
        infoGain = baseEntropy - newEntropy  # 计算某一属性的信息增益
        if (infoGain > bestInfoGain):  #求最大增益的属性
            bestInfoGain = infoGain  # if better than current best, set to best
            bestFeature = i
    return bestFeature  # 返回该属性

def majorityCnt(classList):
    classCount = {}
    for vote in classList:
        if vote not in classCount.keys(): classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

def createTree(dataSet, labels):
    classList = [example[-1] for example in dataSet]#决策类
    if classList.count(classList[0]) == len(classList):#递归终止条件，决策类单一

        return classList[0]  # stop splitting when all of the classes are equal
    if len(dataSet[0]) == 1:   #递归终止条件，特征里只剩决策类
        return majorityCnt(classList)
    bestFeat = chooseBestFeatureToSplit(dataSet)
    bestFeatLabel = labels[bestFeat]
    myTree = {bestFeatLabel: {}}
    del (labels[bestFeat])

    featValues = [example[bestFeat] for example in dataSet]

    uniqueVals = set(featValues)
    for value in uniqueVals:
        subLabels = labels[:]  # copy all of labels, so trees don't mess up existing labels
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value), subLabels)
    return myTree

def classify(inputTree, featLabels, testVec):
    firstStr = inputTree.keys()[0]     #树字典的第一个键值
    secondDict = inputTree[firstStr]   #树字典的第一个键值的值

    featIndex = featLabels.index(firstStr)#树字典第一个键值在标签列表里的引索值
    key = testVec[featIndex]            #树字典第一个键值在标签列表里的引索值
    valueOfFeat = secondDict[key]
    if isinstance(valueOfFeat, dict):   #判断valueOfFeat是否为字典
        classLabel = classify(valueOfFeat, featLabels, testVec)#如果是字典迭代
    else:
        classLabel = valueOfFeat
    return classLabel


def storeTree(inputTree, filename):
    import pickle
    fw = open(filename, 'w')
    pickle.dump(inputTree, fw)
    fw.close()


def grabTree(filename):
    import pickle
    fr = open(filename)
    return pickle.load(fr)

# 执行分类
mydat,labels=createDataSet() # mydat,lables相当于全局变量
myTree=createTree(mydat,labels) # 树字典
labels = ['weather', 'temperature','humidity', 'wind']
print classify(myTree,labels,[1,1,2,0])  # 输出预测类型
tree_plot.createPlot(myTree)

画图源代码1—2 来自篇博客

# -*- coding: utf-8 -*-
"""
绘制树节点
Created on Thu Aug 10 10:37:02 2017
@author: LiLong
"""
#import decision_tree.py
import matplotlib.pyplot as plt



# boxstyle为文本框的类型，sawtooth是锯齿形，fc是边框线粗细
decisionNode = dict(boxstyle="sawtooth", fc="0.8")
leafNode = dict(boxstyle="round4", fc="0.8") # 定义决策树的叶子结点的描述属性
arrow_args = dict(arrowstyle="<-") # 定义箭头属性，也可以是<->,效果就变成双箭头的了


# 绘制结点文本和指向
def plotNode(nodeTxt, centerPt, parentPt, nodeType):
    #nodeTxt为要显示的文本，xytext是文本的坐标，
    #xy是注释点的坐标 ,nodeType是注释边框的属性，arrowprops连接线的属性
    createPlot.ax1.annotate(nodeTxt, xy=parentPt,  xycoords='axes fraction',
                            xytext=centerPt, textcoords='axes fraction',
             va="center", ha="center", bbox=nodeType, arrowprops=arrow_args)


# 获取叶节点的数目
def getNumLeafs(myTree):
    numLeafs = 0
    firstStr = myTree.keys()[0]  # 得到第一个键
    secondDict = myTree[firstStr] # 得到第一个键对应的值
    for key in secondDict.keys():
        # 测试节点的数据类型是否是字典
        if type(secondDict[key]).__name__=='dict':
            numLeafs += getNumLeafs(secondDict[key]) # 又是递归调用
        else:   numLeafs +=1
    return numLeafs # 返回叶节点数

# 获取树的层数(递归在此就像是一层一层的剥到最里面，然后再从里到外加起来)
def getTreeDepth(myTree):
    maxDepth = 0
    firstStr = myTree.keys()[0]
    secondDict = myTree[firstStr]
    for key in secondDict.keys(): #keys()函数得到的是key，是一个列表
        #print'key:',key
        # 测试节点的数据类型是否是字典,如果是字典说明是可以再分的，深度+1
        if type(secondDict[key]).__name__=='dict':
            thisDepth = 1 + getTreeDepth(secondDict[key]) # 递归调用，层层剥离字典
        else:   thisDepth = 1
        if thisDepth > maxDepth: maxDepth = thisDepth
    return maxDepth

# 绘制中间文本的坐标和显示内容，即父子之间的填充文本
def plotMidText(cntrPt, parentPt, txtString):
    xMid = (parentPt[0]-cntrPt[0])/2.0 + cntrPt[0]  # 求中间点的横坐标
    yMid = (parentPt[1]-cntrPt[1])/2.0 + cntrPt[1]
    # 绘制出来此文本
    createPlot.ax1.text(xMid, yMid, txtString)


# 绘制树形图
def plotTree(myTree, parentPt, nodeTxt):
    numLeafs = getNumLeafs(myTree)  # 得到叶节点的数，宽
    print 'numLeafs:',numLeafs
    depth = getTreeDepth(myTree)  # 获得树的层数，高
    firstStr = myTree.keys()[0]    # 得到第一个划分的特征
    # 计算坐标
    print 'plotTree.xOff:',plotTree.xOff
    print 'plotTree.totalW:',plotTree.totalW
    cntrPt = (plotTree.xOff + (1.0 + float(numLeafs))/2.0/plotTree.totalW, \
                plotTree.yOff)
    #print 'cntrPt:',cntrPt
    # cntrPt是刚计算的坐标，parentPt是父节点坐标，nodeTxt目前为空字符
    plotMidText(cntrPt, parentPt, nodeTxt) # 绘制连接线上的文本
    plotNode(firstStr, cntrPt, parentPt, decisionNode) # 绘制树节点
    secondDict = myTree[firstStr] # 下一级字典，即下一层
    plotTree.yOff = plotTree.yOff - 1.0/plotTree.totalD # 纵坐标降低

    for key in secondDict.keys():
        if type(secondDict[key]).__name__=='dict':   # 如果是树节点
            plotTree(secondDict[key],cntrPt,str(key))  #递归，绘制
        else:   #如果是一个叶节点，就绘制出来
            plotTree.xOff = plotTree.xOff + 1.0/plotTree.totalW # 定x坐标
            # secondDict[key]叶节点文本，(plotTree.xOff, plotTree.yOff)箭头指向的坐标
            # cntrPt注释（父节点）的坐标
            plotNode(secondDict[key], (plotTree.xOff, plotTree.yOff), cntrPt, leafNode) #绘制文本及连线
            plotMidText((plotTree.xOff, plotTree.yOff), cntrPt, str(key))  # 绘制父子填充文本
    plotTree.yOff = plotTree.yOff + 1.0/plotTree.totalD

# 预留树信息
def retrieveTree(i):
    listOfTrees =[{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}},
                  {'no surfacing': {0: 'no', 1: {'flippers': {0: {'head': {0: 'no', 1: 'yes'}}, 1: 'no'}}}}
                  ]
    return listOfTrees[i]

#  Axis为坐标轴，Label为坐标轴标注。Tick为刻度线，ax是坐标系区域
def createPlot(inTree):
    fig = plt.figure(1, facecolor='white')
    fig.clf()
    # 横纵坐标轴的刻度线，应该为空，加上范围后，父子间的节点连线的填充文本位置错乱
    axprops = dict(xticks=[], yticks=[]) # {'xticks': [], 'yticks': []}
    # createPlot.ax1创建绘图区，无边框，无刻度值
    createPlot.ax1 = plt.subplot(111, frameon=False, **axprops)
    #createPlot.ax1 = plt.subplot(111, frameon=False)
    # 计算树形图的全局变量，用于计算树节点的摆放位置，将树绘制在中心位置
    plotTree.totalW = float(getNumLeafs(inTree)) # plotTree.totalW保存的是树的宽
    plotTree.totalD = float(getTreeDepth(inTree)) # plotTree.totalD保存的是树的高
    plotTree.xOff = -0.5/plotTree.totalW # 决策树起始横坐标
    plotTree.yOff = 1.0  # 决策树的起始纵坐标
    plotTree(inTree, (0.5,1.0), '') # 绘制树形图
    plt.show() # 显示

四实验结果

Python_线性插值胡小记 python
1、语法解释线性插值主要用到的是numpy中的interp函数interp(x,xp,fp,left=None,right=None,period=None)其中x为要插值点的横坐标，xp为x的坐标值（必须是递增），fp为y的坐标值left是可选择参数，如果x小于xp，则会默认返回xp[0]对应的fp值，right同理。period可设定横坐标的周期，该选项打开时，则忽略left和right。具体
如何用selenium来链接并打开比特浏览器进行自动化操作（1）写python的鑫哥爬虫实战进阶 selenium pyppeteer puppeteer 比特浏览器比特指纹浏览器链接打开
前言本文是该专栏的第76篇，后面会持续分享python爬虫干货知识，记得关注。本文，笔者将基于“比特浏览器”，通过selenium来实现链接并打开比特浏览器，进行相关的“自动化”操作。值得一提的是，在本专栏之前，笔者有详细介绍过“使用selenium或者pyppeteer（puppeteer）来链接并打开指纹浏览器AdsPower”的方法和详细教程。笔者将相关文章的链接，整理如下（对此领域，感兴趣
基于纵横交叉算法优化的最小交叉熵图像多阈值分割 python 图像算法打怪图像分割算法 python 开发语言
基于纵横交叉算法优化的最小交叉熵图像多阈值分割python文章目录基于纵横交叉算法优化的最小交叉熵图像多阈值分割python1.最小交叉熵阈值分割原理2.基于纵横交叉优化的多阈值分割3.算法结果：4.参考文献：5.Python代码摘要：本文介绍基于最小交叉熵的图像分割，并且应用纵横交叉算法进行阈值寻优。1.最小交叉熵阈值分割原理1993年，Li等人将交叉熵的概念引入到图像处理领域，提出了基于一维灰
设计模式-策略模式夏旭泽设计模式策略模式
背景有各种鸭子，野鸭、北京鸭、玩具鸭，有各个行为，比如飞、叫传统思路创建一个Duck父类，在这个父类中声明鸭子的共同行为与属性，所有鸭子继承自这个父类。问题：继承时，一些子类可能修改父类的大部分行为与属性，会有溢出效应。基本介绍定义一些算法族，分别封装起来，让他们之间可以相互替换。把算法封装成接口，聚合到使用类中把变化的代码从不变的代码中分离出来。用聚合和组合的方式代替继承。将使用层和算法实现层分
Python--WinError 2 的常见解决方案 Ambition_LAO python
报错信息：FileNotFoundError:[WinError2]系统找不到指定的文件。这个错误提示FileNotFoundError:[WinError2]系统找不到指定的文件说明在调用subprocess.Popen时，系统找不到指定的文件或可执行程序。在代码中，这个问题主要是因为找不到JavaJAR文件meteor-1.5.jar，也就是用于计算METEOR分数的评估工具。可能的原因和解决
路径规划：环境适应性路径规划_（7）.路径规划的不确定性处理 zhubeibei168 机器人（二）机器人计算机视觉机器人导航人工智能数码相机
路径规划的不确定性处理在路径规划中，不确定性是一个常见的问题，尤其是在动态和复杂的环境中。不确定性可以来源于多种因素，包括传感器误差、环境变化、动态障碍物等。处理不确定性是确保路径规划算法在实际应用中能够稳定、可靠运行的关键。本节将详细探讨路径规划中的不确定性处理方法，包括概率模型、鲁棒优化、重规划策略等。1.不确定性的来源在路径规划中，不确定性主要来源于以下几个方面：1.1传感器误差传感器是路径
LeetCode：455.分发饼干 xiaoshiguang3 代码随想录-跟着Carl学算法 leetcode 算法 java
跟着carl学算法，本系列博客仅做个人记录，建议大家都去看carl本人的博客，写的真的很好的！代码随想录假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个胃口值g[i]，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块饼干j，都有一个尺寸s[j]。如果s[j]>=g[i]，我们可以将这个饼干j分配给孩子i，这个孩子会得到满足。你的目标是满足
day_03_查找算法、排序算法幻影maple 数据结构与算法查找算法排序算法
六算法的概念和评价1基本概念2评定标准3描述方式七常用的查找算法1线性查找算法顺序查找算法1算法流程2算法评价2二分查找算法折半查找算法1算法流程2算法评价八常用的排序算法1冒泡排序算法1算法流程2算法评价2插入排序算法1算法流程2算法评价3选择排序算法1算法流程2算法评价4快速排序算法1算法流程2算法评价六、算法的概念和评价1、基本概念算法就是指对解题方案准确而又完整的描述，是一系列解决问题的清
Python 数据类型之数字型梅子大魔王 python全栈学习笔记 python
Python数据类型之数字型1.整型int1）整型的介绍2）整型的运算3）int()函数2.浮点型float1）浮点型的介绍2）浮点型的运算3）float()函数3.复数型complex1）复数的介绍2）复数的运算3）complex()函数4.布尔型1)布尔型的介绍2）布尔值的运算3）bool()函数数字类型在Pyhton中非常常见，经常用于数字之间的运算、大小比较、条件判断等等。数字类型包括：整
python实现冒泡排序完整算法_利用python实现冒泡排序算法实例代码 weixin_39610759
利用python实现冒泡排序算法实例代码冒泡排序冒泡排序（英语：BubbleSort）是一种简单的排序算法。它重复地遍历要排序的数列，一次比较两个元素，如果他们的顺序错误就把他们交换过来。遍历数列的工作是重复地进行直到没有再需要交换，也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端。冒泡排序算法的运作如下：1、比较相邻的元素。如果第一个比第二个大（升序
通过Amazon Bedrock API调用Anthropic Claude模型的实战指南 qwd41564qwd python
在AI技术的飞速发展中，AmazonBedrockAPI为开发者提供了一种稳定可靠的方式来访问Anthropic的Claude模型。无论是启动新的项目还是集成AI解决方案，通过Bedrock调用Claude模型都提供了更广泛的应用场景和便利性。本文将指导您如何在Python中通过AmazonBedrock向Claude模型发起API调用。技术背景介绍Bedrock是Amazon推出的一个集成平台，
新星计划Day11【数据结构与算法】排序算法2 京与旧铺 java学习排序算法 java 算法
新星计划Day11【数据结构与算法】排序算法2‍博客主页：京与旧铺的博客主页✨欢迎关注点赞收藏⭐留言✒本文由京与旧铺原创，csdn首发！系列专栏：java学习参考网课：尚硅谷首发时间：2022年5月13日你做三四月的事，八九月就会有答案，一起加油吧如果觉得博主的文章还不错的话，请三连支持一下博主哦最后的话，作者是一个新人，在很多方面还做的不好，欢迎大佬指正，一起学习哦，冲冲冲推荐一款模拟面试、刷题
BP神经网络概述及其预测的Python和MATLAB实现追蜻蜓追累了神经网络回归算法深度学习机器学习启发式算法 lstm gru
##一、背景###1.1人工神经网络的起源人工神经网络（ArtificialNeuralNetwork,ANN）受生物神经网络的启发，模拟大脑神经元之间的连接和信息处理方式。尽管早在1943年就有学者如McCulloch和Pitts提出了数学模型，但人工神经网络真正被广泛研究是在20世纪80年代。###1.2BP神经网络的兴起反向传播（BackPropagation，简称BP）算法是20世纪80年
【DAY.2】PHP数据结构与算法_排序_冒泡排序我是妖怪_ 天天学习冒泡排序算法 php
思路分析：循环逐个对比，从第一个开始，与下一个数字进行对比，若大于则交换位置，每循环一遍将最大的一个排到最后。（依次比较相邻的元素，两两比较，就可以最终将最大（小）的元素调整到最顶端、次顶端、、、）$arr=array(3,2,5,6,1,8,4,9);functionbubble_sort($arr){$len=count($arr);//判断数组是否为空if($len$arr[$i+1]){$
python转转商超书籍信息爬虫 Python数据分析与机器学习爬虫 python 网络爬虫爬虫
1基本理论1.1概念体系网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等，可以按照我们设置的规则自动化爬取网络上的信息，这些规则被称为爬虫算法。是一种自动化程序，用于从互联网上抓取数据。爬虫通过模拟浏览器的行为，访问网页并提取信息。这些信息可以是结构化的数据（如表格数据），也可以是非结构化的文本。爬虫任务的执行流程通常包括发送HTTP请求、解析HTML文档、提取所需数据等步骤。1.2技术体系1请求库:
机器视觉在医疗影像分析中的应用：助力放射科医生精准诊断人工智能专属驿站大数据人工智能计算机视觉
在现代医疗领域，影像学检查如X光、CT扫描和MRI等是诊断疾病的重要手段。随着技术的不断发展，机器视觉算法在医疗影像分析中的应用日益广泛，为放射科医生提供了强大的辅助工具，极大地提高了诊断的准确性和效率。本文将探讨机器视觉在医疗影像分析中的具体应用及其对医疗诊断带来的变革。一、机器视觉算法简介机器视觉是一种模拟人类视觉的科学技术，通过图像处理、模式识别和计算机视觉等技术，使计算机能够“看”懂图像中
Python中的数字类型不爱敲代码的小李0812 python二级通关宝典 python 开发语言后端
目录一、概述二、整数类型三、浮点数四、复数类型一、概述1）Python语言提供三种数字类型：整数类型，浮点数类型和复数类型，分别对应数学中的整数，实数和复数2）1010是整数类型，10.10是一个浮点数类型，10+10j是一个复数类型二、整数类型1）与数学中的整数概念一致，没有取值范围限制。2）整数类型有4种进制表示：十进制，二进制，八进制和十六进制。默认情况，整数采用十进制，其他进制需要增加引导
收藏！Python常用的第三方模块,你知道几个呢？ Python子木_ Python入门 Python学习 Python零基础 python pandas python教程 python基础 python学习 python入门青少年编程
作为一种流行的编程语言,拥有丰富的第三方模块,这些模块极大地扩展了的功能,使得各种开发任务变得更加高效和便捷.本文将介绍几种常用的第三方模块,提供示例展示,并对它们进行分类,以帮助读者更好地理解和使用这些工具.这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python学习资料和学习路线规划（免费分享，记得关注）1.
Day_1 数据结构与算法&LeetCode入门及攻略 Finger-Von-Frings c++leetcode
数据结构与算法学习目的：我们学习算法和数据结构，是为了学会在编程中从时间复杂度、空间复杂度方面考虑解决方案，训练自己的逻辑思维，从而写出高质量的代码，以此提升自己的编程技能，获取更高的工作回报。数据结构定义：数据结构(DataStructure)指的是带有结构特性的数据元素的集合。学习的目的：为了帮助我们了解和掌握计算机中的数据是以何种方式进行组织、存储的。Q1：何为结构特性？所谓结构特性，指的是
matlab程序代编程写做代码图像处理BP神经网络机器深度学习python matlabgoodboy 深度学习 matlab 图像处理
1.安装必要的库首先，确保你已经安装了必要的Python库。如果没有安装，请运行以下命令：bash复制代码pipinstallnumpymatplotlibtensorflowopencv-python2.图像预处理我们将使用OpenCV来加载和预处理图像数据。假设你有一个图像数据集，每个类别的图像存放在单独的文件夹中。python复制代码importosimportcv2importnumpya
【Python】Python中对复杂对象列表根据对象属性进行排序花无凋零之时 Python python 开发语言数据结构
对于Python中对象列表进行排序时，我们往往需要根据对象中的属性进行特定的排序。首先我们假设一个类为：classStudent:def__init__(self,name,score,age):self.name=nameself.score=scoreself.age=agedef__str__(self):returnself.name+""+str
Python气象数据分析：风速预报订正、台风预报数据智能订正、机器学习预测风电场的风功率、浅水模型、预测ENSO等小艳加油大气科学 python 人工智能气象机器学习
目录专题一Python和科学计算基础专题二机器学习和深度学习基础理论和实操专题三气象领域中的机器学习应用实例专题四气象领域中的深度学习应用实例更多应用Python是功能强大、免费、开源，实现面向对象的编程语言，在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能，这些优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Py
YOLOv8/YOLOv11使用web界面推理自己的模型，Gradio框架快速搭建挂科边缘 YOLOv8改进 YOLO 前端计算机视觉目标检测人工智能 python
前言Gradio是一个开源Python库，用于快速构建和共享机器学习模型的Web界面。开发者可以通过简单的Python代码将机器学习模型封装成交互式应用，无需复杂的设置即可在浏览器中使用自己训练好模型。接下来教你使用Gradio框架构建一个简单Web界面推理YOLOv8/YOLOv11模型。话不多说上检测结果：一、YOLOv8/YOLOv11源码下载YOLOv8源码下载：官网打不开的话，从我的网盘
Python二进制模式打开文件open() 牧文山 Python python
我们看到了在文件打开模式中有以下模式：rb、wb……有这种带b的。什么意思呢？就是用二进制的方式打开文件。#1.只读模式打开文件f1=open('d:\\infile.txt')#2.写模式打开文件f2=open('output.txt','w')#3.以二进制写模式打开文件f3=open('record.dat','wb',0)open()函数-modeModeFunctionr以读模式打开w以
python tornado websocket ping_tornado WebSocket详解 weixin_39978276 python tornado websocket ping
1.什么是WebSocketwebsocket和长轮询的区别是客户端和服务器之间是持久连接的双向通信。协议使用ws://URL格式，但它在是在标准HTTP上实现的。2.tornado的WebSocket模块tornado在websocket模块中提供了一个WebSocketHandler类，这个类提供了和已连接的客户端通信的WebSocket事件和方法的钩子。open方法，新的WebSocket连
python读二进制文件字节长度_使用Python进行二进制文件读写的简单方法(推荐) weixin_39574388
总的感觉，python本身并没有对二进制进行支持，不过提供了一个模块来弥补，就是struct模块。python没有二进制类型，但可以存储二进制类型的数据，就是用string字符串类型来存储二进制数据，这也没关系，因为string是以1个字节为单位的。importstructa=12.34#将a变为二进制bytes=struct.pack('i',a)此时bytes就是一个string字符串，字符串
python pipeline库_Easy Pipeline，一种轻量级的Python Pipeline库周不宅 python pipeline库
嗯，很久没有写博客了，最近的工作都是偏开发性质的，以至于没有时间对自己感兴趣的领域进行探索，感觉个人的成长停滞了一些。如何在枯燥的工作中，提取出有助于自己成长的养分，对于每个人来说都是不小的考验。这次，带来的是之前编写的一下挺简单的库，用来简化流水线作业的小框架。起因是这样的，组内有一个需求，需要挖掘视频中的检测难样本，这样可以极大地减少标注的量，从而降低成本。难样本挖掘的策略，简单来说就是如果视
python input 文件路径_python基础 — 文件操作童雅洋梨 python input 文件路径
读取键盘输入Python提供了两个内置函数从标准输入读入一行文本，默认的标准输入是键盘。如下：raw_inputinputraw_input函数raw_input([prompt])函数从标准输入读取一个行，并返回一个字符串(去掉结尾的换行符)。input函数input([prompt])函数和raw_input([prompt])函数基本类似，但是input可以接收一个Python表达式作为输入
Python打包工具pyinstaller和Nuitka比较 w315427783 python
.1使用需求这次也是由于项目需要，要将python的代码转成exe的程序，在找了许久后，发现了2个都能对python项目打包的工具——pyintaller和nuitka。这2个工具同时都能满足项目的需要：隐藏源码。这里的pyinstaller是通过设置key来对源码进行加密的；而nuitka则是将python源码转成C++（这里得到的是二进制的pyd文件，防止了反编译），然后再编译成可执行文件。方
调用asyncio.to_thread后上下文依然一致吗 socratescli python asyncio
使用Python的asyncio时，可以把一个同步的函数放到线程池中执行从而避免这个函数阻塞asyncio自身的事件循环。比如可以把requests库的请求放进去asyncdefto_thread_do_request(url):returnawaitasyncio.to_thread(requests.get,url)这个to_thread_do_request方法就不会造成asyncio的阻塞
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

ID3—决策树算法

一 基本概念

二 决策树理论计算的例子

三 python源代码

四 实验结果

你可能感兴趣的:(python学习,机器学习,决策树id3算法,python,机器学习)

一基本概念

二决策树理论计算的例子

四实验结果