myhome908

机器学习实战 -----决策树代码学习笔记（三）

ID3 算法是通过计算信息增益来进行类别的划分。
信息增益g(D,A)=H(D)-H(D|A),熵与经验条件熵的差。D是数据集，A是特征

信息增益的理解：
对于待划分的数据集D，其 entroy(前)是一定的，但是划分之后的熵 entroy(后)是不定的，entroy(后)越小说明使用此特征划分得到的子集的不确定性越小（也就是纯度越高），因此 entroy(前) - entroy(后)差异越大，说明使用当前特征划分数据集D的话，其纯度上升的更快。而我们在构建最优的决策树的时候总希望能更快速到达纯度更高的集合，这一点可以参考优化算法中的梯度下降算法，每一步沿着负梯度方法最小化损失函数的原因就是负梯度方向是函数值减小最快的方向。
同理：在决策树构建的过程中我们总是希望集合往最快到达纯度更高的子集合方向发展，因此我们总是选择使得信息增益最大的特征来划分当前数据集D。
导入所需的包

from math import log
import operator
import plotTree as treeplot    #这一个是用于绘制树的文件，命名为plotTree.py

一、计算给定数据集的香农熵

def calcShangnonEnt(dataSet):
    #计算数据集的长度
    lenData=len(dataSet)
    #定义空的字典，方便以后记性填充
    labelCounts={}
    #遍历数据集，featVec[-1]找到数据集中最后一列的分类结果，主要作用于测试数据集中
    for featVec in dataSet:
        currentLabel=featVec[-1]
        #将分类标签存入字典，加入字典之后将标签的数量+1，其总数用于后边概率的计算
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel]=0
        labelCounts[currentLabel]+=1
 #进行熵的计算，若样本总数是m,表示a类的样本数为l,表示b类的样本数是k
 #则p(a)=l/m,  p(b)=k/m,熵的计算公式为h=-p(x)log(p(x)),一般是以2为底数，此处因为
 #样本数较多，所以进行累加计算（针对离散数据）       
    shangnonEnt=0.0
    for key in labelCounts:
        prob=float(labelCounts[key])/lenData
        shangnonEnt-=prob*log(prob,2)
        pass
    return shangnonEnt

在计算结果中，熵越高，说明混合的数据越多。

二、按照给定特征划分数据集

创建数据函数

def creatData():
    dataSet=[[1,1,'yes'],
          [0,1,'no'],
        [1,1,'yes'],
        [1,0,'no'],
        [0,1,'no']]
    labels=['no surfacing','flippers']
    
    return dataSet,labels

数据集中的各个元素也是列表，遍历每一个元素，发现符合要求的值，就将其添加到新建的列表中，，在if语句中，程序将符合特征的数据抽取出来

#dataSet 待划分的数据集，axis划分数据集的特征如0，value特征的返回值0,该方法主要是进行种类的划分，为后期计算信息增益做准备
def splitDataSet(dataSet,axis,value):
    retDataSet=[]
     #例如 dataSet=[[1,1,'yes'],
     #     [0,1,'no'],
     #  [1,1,'yes'],
    #    [1,0,'no'],
     #   [0,1,'no']]；
     #遍历dataSet,例如取到第一行，featVec =【1,1，‘yes’】若axis=0,则featVec[0]=1,
     #若取到dataSet的第二行则，featVec[0]=0.；将对应的值与参数value对比，如果相等，则进行下一步的操作
    for featVec in dataSet: 
        if featVec[axis]==value:
        #取featVec数组中从0开始到axis之间的数，注意labels[:0]=[]
            reducedFeatVec=featVec[:axis]
            #extend()和append(),a=[1,2,3],b=[4,5,6],a.append(b)=[1,2,3,[4,5,6]]
            #a.extend(b)=[1,2,3,4,5,6]
            #python 切片a=[1,2,3,4,5,6]
            #print(a[3:])---->[4, 5, 6]
            #print(a[1:3])---->[2, 3]
			#print(a[:3])---->[1, 2, 3]
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
            pass
        pass
    #print(retDataSet)
    return retDataSet

3 选择最好的数据集划分方式

在函数调用中的数据（dataSet）需要满足一定的要求，第一个要求时数据必须是由列表元素组成的列表，而且所有列表元素都要有相同的数据长度；第二数据的最后一列或者每一个实例的最后一个元素是当前实例的类别标签，数据集一旦满足上述要求，就可以在函数第一行判定当前数据集包含多少特征属性，而无需限定list的数据模型，既可以是数字也可以是字符串，都不会影响计算。

#计算信息熵，返回信息增益最大的类别对应的标签
def chooseBestFeature(dataSet):
    numFeature=len(dataSet[0])-1
    #print(numFeature)#numFeature=2
    baseEntropy=calcShangnonEnt(dataSet)
    bestInfoGain=0.0
    bestFeature=-1
    #计算各个特征的信息熵
    for i in range(numFeature):
        
        #创建唯一的分类标签列表
        featList=[example[i] for example in dataSet]
        #print(featList)
        #featList是i=0  [1, 0, 1, 1, 0]，i=1    [1, 1, 1, 0, 1]
        uniqueVals=set(featList) #去掉重复值  uniqueVals={0,1},{0,1}
        #print(uniqueVals)
        newEntropy=0.0
        #计算每一种划分方式的信息熵
        for value in uniqueVals:
            subDataSet=splitDataSet(dataSet,i,value)
            #i=0时value=0，subDataSet=[[1, 'no'], [1, 'no']]这种形式
            #1=0，value=1,subDataSet=[[1, 'yes'], [1, 'yes'], [0, 'no']]
            #i=1,value=0,[[1, 'no']]
            #i=1,value=1,[[1, 'yes'], [0, 'no'], [1, 'yes'], [0, 'no']]
            prob=len(subDataSet)/float(len(dataSet))#i=0,prob=0.4,0.6,  i=1 prob=0.2,0.8
            #calcShangnonEnt(subDataSet)分别计算subDataSet=[[1, 'no'], [1, 'no']]，subDataSet=[[1, 'yes'], [1, 'yes'], [0, 'no']]等
            #时的信息熵
            newEntropy+=prob*calcShangnonEnt(subDataSet)
            #print(newEntropy)
            pass
        infoGain=baseEntropy-newEntropy
        #print(infoGain)
        #找出最好的信息增益
        if(infoGain>bestInfoGain):
            bestInfoGain=infoGain
            bestFeature=i
            pass
        pass
    return bestFeature

4、返回出现次数最多的分类名称

#类标签不是唯一的，为定义叶子节点，采用多数表决的方式进行叶子节点的分类
#classList 类似['yes', 'no', 'yes', 'no', 'no']的形式
def majorityCnt(classList):
    classCount={}
    for vote in classList:
        if vote not in classCount.keys():
            classCount[vote]=0
        classCount[vote]+=1    
        pass
    #     a = [1,36,9]
    # b = [[1,2,3],[4,5,6],[7,8,9]]
    # get_21 = operator.itemgetter(2,1)
    # print(get_21(a))-->(9, 36)
    # print(get_21(b))-->([7, 8, 9], [4, 5, 6])
    #classCount---->{'yes': 2, 'no': 3, 'ha': 1},operator.itemgetter(1)按数字大小排序
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    #sortedClassCount=[('no', 3), ('yes', 2), ('ha', 1)]
    return sortedClassCount[0][0]

5、递归创建决策树

输入两个参数：数据集合标签列表，标签列表包含了数据集中所有特征的标签。classList包含了所有特征的标签。递归停止的第一个条件是所有类别标签完全相同，直接返回该标签。
停止的第二个条件是：用完了所有的特征，仍然不能将数据集划分成包含唯一类别的分组。

def createTree(dataSet,lables):
    classList=[example[-1] for example in dataSet]
#     print(classList,"aa")
    #只有一个类别，则停止继续划分,返回类标签。classList=['yes', 'no', 'yes', 'no', 'no','ha'],
    #classList.count(classList[0])是yes,计算yes的数量
    if classList.count(classList[0])==len(classList):
        return classList[0]
  
    #遍历完所有特征，返回出现次数最多的
    if len(dataSet[0])==1:
        return majorityCnt(classList)
    #，使用完了所有特征，仍然不能将数据集划分成仅包含唯一类别的分组，则选用
    #出现次数最多的的类别作为返回值，bestFeat中将得到数据集中选择的最好的特征。
    bestFeat=chooseBestFeature(dataSet) 
    bestFeatLabel=labels[bestFeat]
    myTree={bestFeatLabel:{}}
    del(labels[bestFeat])
#     print("+++++")
#     print(labels)
    featValues=[example[bestFeat] for example in dataSet]
    uniqueVals=set(featValues)
    #print(uniqueVals)
    #最 后 代 码 遍 历 当 前 选 择 特 征 包 含 的 所 有 属 性 值 ，在 每 个 数 据 集 划 分 上 递 归 调 用 函 数
#createTree ( ) ,得到的返回值将被插人到字典变量0 ^ ^ 6 中，因此函数终止执行时，宇典中将
#会嵌套很多代表叶子节点信息的字典数据。
    for value in uniqueVals:
        subLabels=labels[:]
        #print(subLabels)
        myTree[bestFeatLabel][value]=createTree(splitDataSet(dataSet,bestFeat,value),subLabels)
        pass
    return myTree

6、进行预测

#进行预测
def classify(inputTree,featLabels,testVec):
    #得到输入数据第一个key值
    firstStr =list(inputTree.keys())[0]
    #得到key值对应的value，如果是字典可以进一步划分
    secondDict=inputTree[firstStr]
    #firstStr是key值，也就是划分的特征值，如['no surfacing','flippers']，index(firstStr)得到对应的位置如
    #no surfacing的索引值为0，flippers的索引值是1
    featIndex=featLabels.index(firstStr)
    # featLabels=['no surfacing','flippers']遍历字典，如果输入的testVec
    #secondDict===={0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}
    #secondDict.keys==[0,1]
    for key in secondDict.keys():
        if testVec[featIndex]==key:
            if type(secondDict[key]).__name__=="dict":
                classLabel=classify(secondDict[key],featLabels,testVec)
                pass
            else:
                classLabel=secondDict[key]
                pass
            pass
        pass
    return classLabel

7、运行

dataSet,labels=creatData()
mytree=treeplot.retrieveTree(0)
treeplot.createPlot(mytree)#画图的文件，如果不进行绘图，则可以不要
classify(mytree,labels,[1,0])

8、结果

9、附------画图函数代码

#!/usr/bin/env python
# coding: utf-8

# In[ ]:


import matplotlib.pyplot as plt
decisionNode =dict(boxstyle='sawtooth',fc='0.8')
arrow_args=dict(arrowstyle="<-")
leafNode=dict(boxstyle="round4",fc="0.8")
#以文本坐标(-2,-2)
#ha="center"  在水平方向上，方框的中心在为（-2，0）
#va="center"  在垂直方向上，方框的中心在为（0，-2）
# bbox={}  代表对方框的设置
#         { 
#             boxstyle= '' 代表边框的类型
#                     round 圆形方框
#                     rarrow箭头
#             fc  背景颜色   英文首字母 w -whiite r-red
#             ec 边框线的透明度  数字或颜色的首字母
#             alpha 字体的透明度
#             lw 线的粗细
#             rotation  角度

# xy=(横坐标，纵坐标)  箭头尖端
#     xytext=(横坐标，纵坐标) 文字的坐标，指的是最左边的坐标
#     arrowprops= {
#         facecolor= '颜色',
#         shrink = '数字' <1  收缩箭头
#     }


 #得到叶子节点的数目   
def getNumLeafs(myTree):
    numLeafs=0
    #python3中放弃了 dict.keys.index的用法，而是进行强制类型转换，可以将其变为list,然后获取字典的第一个key值
    firstStr =list(myTree.keys())[0]
    #根绝key值，找到key对应的value
#   myTree---->  {'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}
#   myTree.keys()---->  dict_keys(['no surfacing'])
#  list(myTree.keys())[0]----->   no surfacing
#  myTree[firstStr]------->{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}
    secondDict=myTree[firstStr]
    print(secondDict)
    print(secondDict.keys())
    #递归调用本身，如果第一个key对应的value中还有字典则继续进行遍历
    for key in secondDict.keys():
        if type(secondDict[key]).__name__=='dict':
            #当一个key对用的value是字典的时候就进行递归调用，不进行节点的计算，因为字典还有子节点
            #并不是叶子节点，叶子节点没有后续的分支
            numLeafs+=getNumLeafs(secondDict[key])
        else:
            numLeafs+=1
            pass
    return numLeafs
    pass
#得到树的深度
def getTreeDepth(myTree):
    maxDepth=0
    firstStr=list(myTree.keys())[0]
    secondDict=myTree[firstStr]
    for key in secondDict.keys():
        if type(secondDict[key]).__name__=='dict':
            thisDepth=1+getTreeDepth(secondDict[key])
            pass
        else:
            thisDepth=1
            if thisDepth>maxDepth:
                maxDepth=thisDepth
                pass
            pass
        pass
    return maxDepth
# string：图形内容的注释文本， xy：被注释图形内容的位置坐标，xytext：注释文本的位置坐标
#weight：注释文本的字体粗细风格，color：注释文本的字体颜色，arrowprops：指示被注释内容的箭头的属性字典
#https://blog.csdn.net/qq_30638831/article/details/79938967

def plotNode(nodeTxt,centerPt,parentPt,nodeType):
    createPlot.ax1.annotate(nodeTxt,xy=parentPt,xycoords='axes fraction',xytext=centerPt,textcoords='axes fraction',
    va="center",ha="center",bbox=nodeType,arrowprops=arrow_args)
    pass
def createPlot():
    #figsize=(16,6) 窗口大小
    fig=plt.figure(1,facecolor='white')
    fig.clf()
    #subplot(111)一行一列一个图
     # createPlot.ax1为全局变量,绘制图像句柄,理解为一行一列的第一个图
    #frameon=False窗口无框（所绘图形对象大小等于最终图片对象的大小）
    createPlot.ax1=plt.subplot(111,frameon=False)
    plotNode("a decision node",(0.5,0.1),(0.1,0.5),decisionNode)
    plotNode("a leaf node",(0.8,0.1),(0.3,0.8),leafNode)
    plt.show()

def retrieveTree(i):
    listOfTrees=[{"no surfacing":{0:'no',1:{"flippers":{0:"no",1:"yes"}}}},
                {'no surfacing':{0:"no",1:{"flippers":{0:{'head':{0:"no",1:"yes"}},1:"no"}}}}]
    return listOfTrees[i]

#显示文字函数
def plotMidText(cntrPt,parentPt,txtString):
    xMid=(parentPt[0]-cntrPt[0])/2.0+cntrPt[0]
    yMid=(parentPt[1]-cntrPt[1])/2.0+cntrPt[1]
    #text(xMid,yMid,txtString)，在指定位置显示文字
    createPlot.ax1.text(xMid,yMid,txtString)
    pass
def plotTree(myTree,parentPt,nodeTxt):
    numLeafs=getNumLeafs(myTree)
    depth=getTreeDepth(myTree)
    firstStr=list(myTree.keys())[0]
    cntrPt=(plotTree.xOff+(1.0+float(numLeafs))/2.0/plotTree.totalW,plotTree.yOff)
    plotMidText(cntrPt,parentPt,nodeTxt)
    plotNode(firstStr,cntrPt,parentPt,decisionNode)
    secondDict=myTree[firstStr]
    plotTree.yOff=plotTree.yOff-1.0/plotTree.totalD
    for key in secondDict.keys():
        if type(secondDict[key]).__name__=="dict":
            plotTree(secondDict[key],cntrPt,str(key))
            pass
        else:
            plotTree.xOff=plotTree.xOff+1.0/plotTree.totalW
            plotNode(secondDict[key],(plotTree.xOff,plotTree.yOff),cntrPt,leafNode)
            plotMidText((plotTree.xOff,plotTree.yOff),cntrPt,str(key))
            pass
        pass
    plotTree.yOff=plotTree.yOff+1.0/plotTree.totalD
    pass
def createPlot(inTree):
    fig=plt.figure(1,facecolor='white')
    fig.clf()
    axprops=dict(xticks=[],yticks=[])# 定义横纵坐标轴，无内容  
    createPlot.ax1=plt.subplot(111,frameon=False,**axprops)# 绘制图像,无边框,无坐标轴  
    #树宽
    plotTree.totalW=float(getNumLeafs(inTree)) #全局变量宽度 = 叶子数
    #树深
    plotTree.totalD=float(getTreeDepth(inTree))
    plotTree.xOff=-0.5/plotTree.totalW;plotTree.yOff=1.0
    plotTree(inTree,(0.5,1.0),'')
    plt.show()
    


    
    
myTree=retrieveTree(1)
createPlot(myTree)
getNumLeafs(myTree)

计算机毕业设计 ——jspssm507Springboot 的论坛管理系统奔强的程序课程设计
博主小档案：花花，一名来自世界500强的资深程序猿，毕业于国内知名985高校。技术专长：花花在深度学习任务中展现出卓越的能力，包括但不限于java、python等技术。近年来，花花更是将触角延伸至AI领域，对于机器学习、自然语言处理、智能推荐等前沿技术都有独到的见解和实践经验。服务内容：1、提供科研入门辅导(主要是代码方面)2、代码部署3、定制化需求解决等4、期末考试复习计算机毕业设计——jsps
强化学习——基本概念 AI大模型探索者人工智能 ai 深度学习机器学习语言模型
何为强化学习机器学习的一大分支强化学习（ReinforcementLearning）是机器学习的一种，它通过与环境不断地交互，借助环境的反馈来调整自己的行为，使得累计回报最大。强化学习要解决的是决策问题——求取当前状态下最优行为或行为概率。强化学习包括智能体和环境两大对象，智能体是算法本身，环境是与智能体交互的外部。智能体（IntelligentAgent），在人工智能领域，智能体指一个可以观察周
自然语言处理NLP入门 -- 第一节基础概念山海青风 #自然语言处理自然语言处理人工智能 python
本部分主要介绍NLP的基础概念，并通过实际案例演示NLP的核心任务，同时引导你搭建NLP开发环境，确保你能顺利开始后续学习。1.什么是自然语言处理（NLP）1.1NLP的定义自然语言处理（NaturalLanguageProcessing,NLP）是人工智能（AI）的一个子领域，专注于让计算机理解、解释和生成人类语言。NLP结合了计算机科学、语言学和机器学习，以便计算机能自动处理文本和语音数据。简
机器学习与深度学习资料 JasonDing1354 【Machine Learning】
《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林、DeepLearning.《DeepLearninginNeuralNetworks:AnOverview》介绍:这是瑞士人工智能实验室JurgenSchmidhuber写的最新版本《神经网络与深度学习综述》本综述的特点是以
【大模型】大模型分类 IT古董人工智能人工智能大模型
大模型（LargeModels）通常指参数量巨大、计算能力强大的机器学习模型，尤其在自然语言处理（NLP）、计算机视觉（CV）等领域表现突出。以下是大模型的常见分类方式：1.按应用领域分类自然语言处理（NLP）模型如GPT-3、BERT、T5等，主要用于文本生成、翻译、问答等任务。计算机视觉（CV）模型如ResNet、EfficientNet、VisionTransformer(ViT)等，用于图
.net机器学习框架：ML.NET模型生成器 NotOnlyCoding AI编程
ML.NETModelBuilder是一个直观的图形化VisualStudio扩展，用于构建、训练和部署自定义机器学习模型。它利用自动化机器学习（AutoML）来探索不同的机器学习算法和设置，帮助您找到最适合您场景的那个。使用ModelBuilder不需要机器学习专业知识。您只需要一些数据和一个需要解决的问题。ModelBuilder会生成代码，以便将模型添加到您的.NET应用程序中。1.创建一个
【人工智能】数据挖掘与应用题库（101-200）奋力向前123 人工智能人工智能数据挖掘
1、有矩阵A3×2，B2×3，C3×3，下列运算有意义的是（）答案：BC2、13524的逆序数为（）答案：33、矩阵A中元素a14的余子式记作M14，代数余子式记作A14，二者关系为（）答案：相反4、关于机器学习与深度学习的范畴关系，下列说法正确的是？答案：深度学习是机器学习的子集（分支）5、关于机器学习的本质，下列表述最恰当的是？答案：从数据或环境反馈中自主学习到规则6、深度学习的“深度”是指？
【机器学习】平均绝对误差（MAE：Mean Absolute Error） IT古董机器学习人工智能机器学习人工智能 python
平均绝对误差(MeanAbsoluteError,MAE)是一种衡量预测值与实际值之间平均差异的统计指标。它在机器学习、统计学等领域中广泛应用，用于评估模型的预测精度。与均方误差(MSE)或均方误差根(RMSE)不同，MAE使用误差的绝对值，因此它在处理异常值时更加稳定。1.MAE的定义和公式给定预测值和真实值，MAE的公式为：其中：n是样本总数。是模型的预测值。是对应的真实值。MAE表示了预测值
机器学习AI/ML/CV/NLP/GNN算法公式汇总Latex代码 rockingdingo tensorflow 大数据自然语言处理算法深度学习机器学习
图学习和LinkPrediction任务KnowledgeGraphLinkPredictionEquationsAndLatexCodehttp://www.deepnlp.org/blog/knowledge-graph-link-prediction小样本学习和零样本学习公式的Latex代Few-ShotLearningAndZero-ShotLearningEquationsLatexCo
深度学习-【完整代码+数据集】逻辑回归预测乳腺癌检测案例编程千纸鹤人工智能学习专栏深度学习逻辑回归人工智能癌症预测
作者主页：编程千纸鹤作者简介：Java、前端、Python开发多年，做过高程，项目经理，架构师主要内容：Java项目开发、Python项目开发、大学数据和AI项目开发、单片机项目设计、面试技术整理、最新技术分享收藏点赞不迷路关注作者有好处文末获得源码机器学习分为：有监督学习：数据带有标签无监督学习：数据没有标签，根据属性聚类在机器学习有监督学习中大致可以分为两大任务，一种是回归任务，一种是分类任务
计算机视觉与机器学习之文档解析与向量化技术加速多模态大模型训练与应用——文件向量化大模型！知世不是芝士计算机视觉人工智能大语言模型 ai大模型多模态大模型机器学习 LLM
目录前言1、TextIn文档解析技术1.1、文档解析技术1.2、目前存在的问题1.2.1、不规则的文档信息示例1.3、合合信息的文档解析1.3.1、合合信息的TextIn文档解析技术架构1.3.2、版面分析关键技术Layout-engine1.3.3、文档树提取关键技术Catalog-engine1.3.4、双栏1.3.5、非对称双栏1.3.6、双栏+表格1.3.7、无线表格1.3.8、合并单元格
Amazon SageMaker 批量转换中的 JSON 处理技巧 t0_54coder json 个人开发
在使用AmazonSageMaker进行机器学习模型的批量转换时，我们经常会遇到一些配置和数据格式的问题。今天我们来讨论一个常见的困扰：如何处理在MultiRecord批量策略下JSON数据的解析错误。背景介绍AmazonSageMaker提供了强大的批量转换功能，允许我们对大量数据进行推理。这在处理大规模数据集时非常有用。然而，当我们尝试将批量策略从SingleRecord切换到MultiRec
计算机毕业设计 ——jspssm508Springboot 的旅游管理奔强的程序课程设计旅游
博主小档案：花花，一名来自世界500强的资深程序猿，毕业于国内知名985高校。技术专长：花花在深度学习任务中展现出卓越的能力，包括但不限于java、python等技术。近年来，花花更是将触角延伸至AI领域，对于机器学习、自然语言处理、智能推荐等前沿技术都有独到的见解和实践经验。服务内容：1、提供科研入门辅导(主要是代码方面)2、代码部署3、定制化需求解决等4、期末考试复习计算机毕业设计——jsps
Crawl4AI：开源的网络爬虫和抓取工惟贤箬溪穷玩Ai github 开源 ai
crawl4ai是一个开源项目，旨在帮助用户爬取GitHub上与AI（人工智能）相关的内容。这些内容通常包括AI相关的开源项目、库、资源、论文、教程等。项目提供了一个爬虫工具，可以自动化地抓取并提取GitHub上与人工智能相关的资源。以下是对该项目的详细解读：1.项目概述crawl4ai是一个爬虫框架，专门用于从GitHub上抓取与AI相关的开源项目或仓库。这些仓库包括AI领域的机器学习、深度学习
智能投资组合再平衡策略优化 AGI大模型与大数据研究院 DeepSeek 人工智能 ai
文章标题智能投资组合再平衡策略优化文章关键词投资组合管理再平衡策略机器学习优化方法智能投资文章摘要本文深入探讨了智能投资组合再平衡策略的优化方法。首先，介绍了投资组合管理的基本概念及其在金融市场中的重要性。随后，本文详细阐述了再平衡策略的原理和目的，并探讨了如何通过机器学习来构建和优化智能投资组合模型。文章进一步提出了再平衡策略优化的分类和选择标准，并结合具体案例分析了优化策略的实施效果。通过本文
Python从0到100（六十八）：Python OpenCV-图像边缘检测及图像融合是Dream呀 opencv python 计算机视觉
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
解锁机器学习核心算法 | K -近邻算法：机器学习的神奇钥匙紫雾凌寒 AI 炼金厂 #机器学习算法算法机器学习近邻算法 KNN k-近邻算法 python scikit-learn
一、引言今天我们继续学习机器学习核心算法——K-近邻（K-NearestNeighbors，简称KNN）算法。它就像是一位经验丰富的“老江湖”，以其简单而又强大的方式，在众多机器学习任务中占据着不可或缺的地位。K-近邻算法，作为机器学习中的一种基本分类与回归方法，以其独特的“基于邻居投票”策略而闻名。它的核心思想简单易懂，就如同我们在生活中判断一个人可能的兴趣爱好时，会参考他身边最常接触的朋友们的
支持向量机（Support Vector Machine，SVM）详细解释（带示例）浪九天人工智能理论支持向量机算法机器学习
目录基本概念线性可分情况线性不可分情况工作原理示例Python案例代码解释基本概念支持向量机是一种有监督的机器学习算法，可用于分类和回归任务。在分类问题中，SVM的目标是找到一个最优的超平面，将不同类别的样本分隔开来，并且使得两类样本到该超平面的间隔最大。这个超平面被称为最大间隔超平面，而那些离超平面最近的样本点被称为支持向量，它们决定了超平面的位置和方向。线性可分情况当数据是线性可分的，即存在一
基于Python实现的【机器学习】小项目教程案例 xinxiyinhe 人工智能 github python 机器学习
以下是一个基于Python实现的【机器学习】小项目教程案例，结合的经典案例与最佳实践，涵盖数据预处理、模型训练与评估全流程，并附详细代码说明与结果分析：案例1：鸢尾花分类（SVM算法）数据集：IrisDataset（含150个样本，4个特征，3个类别）目标：根据花瓣与萼片长度预测鸢尾花种类步骤：环境准备：安装scikit-learn、pandas、matplotlibpipinstallsciki
深入详解人工智能机器学习：强化学习猿享天开人工智能基础知识学习人工智能机器学习强化学习
目录强化学习概述强化学习的基本概念定义关键组件强化学习过程常用算法应用示例示例代码代码解释应用场景强化学习核心概念和底层原理核心概念底层原理总结强化学习概述强化学习（ReinforcementLearning,RL）是机器学习中的一个重要领域，其核心目标是通过与环境的交互学习如何采取行动以最大化累积奖励。与监督学习不同的是，强化学习不依赖于给定的输入输出对，而是通过试探和反馈不断改进决策策略。强化
JS宏案例：在wps编辑器中玩numpy jackispy JS宏实例 numpy 数据分析 javascript
NumPy是Python中用于科学计算的一个基础库，它提供了大量的数学函数工具，尤其是用于高效处理大型多维数组和矩阵。NumPy是Python数据分析、机器学习、科学计算等领域中不可或缺的一部分。然，在wps的js宏编辑器中，并没有这样一个模块或是全局对象，但是，问题不大，我们可以手搓一个。不过，要使用JS完全模拟python中的numpy是比较困难的，工作量也非常的大，我们可以适当简化一下，如只
机器学习：强化学习的epsilon贪心算法田乐蒙 Python ML 机器学习贪心算法人工智能
强化学习（ReinforcementLearning,RL）是一种机器学习方法，旨在通过与环境交互，使智能体（Agent）学习如何采取最优行动，以最大化某种累积奖励。它与监督学习和无监督学习不同，强调试错探索（Exploration-Exploitation）以及基于奖励信号的学习。强化学习任务通常用马尔可夫决策过程来描述：机器处于环境EEE中，状态空间XXX，其中每个状态x∈Xx\inXx∈X是
无法启动此程序，因为计算机丢失api-ms-win-core-path-l1-1-0.dll的解决方案爱编程的喵喵 Python基础课程 python windows 7 api-ms-win-core 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了无法启动此程序，因为计算机丢失api
Spark技术系列（一）：初识Apache Spark——大数据处理的统一分析引擎数据大包哥 #Spark 大数据
Spark技术系列（一）：初识ApacheSpark——大数据处理的统一分析引擎1.背景与核心价值1.1大数据时代的技术演进MapReduce的局限性：磁盘迭代计算、中间结果落盘导致的性能瓶颈Spark诞生背景：UCBerkeleyAMPLab实验室为解决复杂迭代计算需求研发（2010年开源）技术定位：基于内存的通用分布式计算框架（支持批处理、流计算、机器学习、图计算等）1.2Spark内置模块S
Exception:data did not match any variant of untagged enum PyPreTokenizerTypeWrapper at line 69 解决方案爱编程的喵喵 Python基础课程 python tokenizer PyPreTokenizer 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了Exception:datadidn
电竞赛事数据分析：LNG vs BLG的胜利背后烧瓶里的西瓜皮 python 自动驾驶人工智能数据可视化机器学习
电竞赛事数据分析：LNGvsBLG的胜利背后摘要在S14瑞士轮次日，LNG以1:0战胜BLG，取得了开赛二连胜。本文将通过Python进行数据处理与分析，结合机器学习算法预测比赛结果，并使用数据可视化工具展示关键指标。通过对这场比赛的数据深入挖掘，揭示LNG获胜的关键因素。引言电子竞技（Esports）已经成为全球范围内的一项重要娱乐活动，而《英雄联盟》（LeagueofLegends,LoL）作
222222222222222 智能与优化开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas是基于Nu
python画出roc曲线 auc计算逻辑_Python画ROC曲线和AUC值计算路过炊烟 python画出roc曲线 auc计算逻辑
前言ROC(ReceiverOperatingCharacteristic)曲线和AUC常被用来评价一个二值分类器(binaryclassifier)的优劣。这篇文章将先简单的介绍ROC和AUC，而后用实例演示如何python作出ROC曲线图以及计算AUC。AUC介绍AUC(AreaUnderCurve)是机器学习二分类模型中非常常用的评估指标，相比于F1-Score对项目的不平衡有更大的容忍性，
【python 机器学习】sklearn ROC曲线与AUC指标人才程序员杂谈机器学习 python sklearn 人工智能深度学习神经网络目标检测
文章目录sklearnROC曲线与AUC指标1.什么是ROC曲线与AUC？通俗介绍：学术解释：2.在`sklearn`中绘制ROC曲线与计算AUC2.1导入库和数据2.2加载数据集2.3训练模型2.4预测概率2.5计算FPR、TPR和AUC2.6绘制ROC曲线3.解析ROC曲线和AUC值4.总结sklearnROC曲线与AUC指标在机器学习中，评估分类模型的性能不仅仅依赖于准确率，还需要使用一些更
OpenCV开源机器视觉软件视觉人机器视觉杂说 opencv 开源人工智能
OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉和机器学习软件库，广泛应用于实时图像处理、视频分析、物体检测、人脸识别等领域。它由英特尔实验室于1999年发起，现已成为计算机视觉领域最流行的工具之一，支持多种编程语言（如C++、Python、Java）和操作系统（Windows、Linux、macOS、Android、iOS）。核心功能图像处理基
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

机器学习实战 -----决策树代码学习笔记（三）

你可能感兴趣的:(机器学习)