EternalHan

机器学习----笔记之决策树(3)

决策树（decision tree）（由于水平有限，在这里暂时只介绍分类算法）

1.算法思路：根据已有数据集，通过一定的评估条件构建一棵树形结构--决策树。决策树由节点和有向边组成，其中叶节点为类别标签，非叶节点为评估条件。分类时，用一条未知类别的数据与树形结构的节点进行匹配查询，最终找到唯一叶节点，该叶节点的类别标签即该未知类别数据的类别。

2.常见的决策树算法：ID3、C4.5、CART算法等，下文将逐步展开介绍。

3.决策树模型构建的三部曲：特征选择、决策树生成、决策树剪枝。

3.1特征的选择：

算法ID3的特征选择准则是信息增益，C4.5在ID3的基础上改进使用信息增益比，CART分类算法的特征选择准则是基尼指数，CART回归算法的特征选择准则是平方误差最小化。

3.1.1信息增益

了解信息增益需要首先了解熵和条件熵的概念。特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差，即 g(D,A)=H(D)-H(D|A)。信息增益g(D,A)代表在特征A给定值之前数据集D进行分类的不确定性与特征A给定值之后数据集D进行分类的不确定性之差，熵越大不确定性越大。也就是说，g(D,A)表示当特征A给定值之后，对于数据集D分类的不确定性减小的程度。（个人理解为当特征A给定值后，数据集D中有些数据已经确定类别了，或者根据特征A给定的值能将数据集D大致分类了。）

（一般地，熵H(Y)与条件熵H(Y|X)之差称为互信息。决策树学习中的信息增益等价于训练数据集中类和特征的互信息。）

在ID3算法中，根据信息增益选择特征的方法是：对训练数据集D，计算各个特征的信息增益，选择信息增益最大的特征。

3.1.2信息增益比

以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题。信息增益比可以对这一问题进行矫正，C4.5就是通过比较各特征的信息增益比替代信息增益来选取特征的，同样选取信息增益比最大的特征。

信息增益比：特征A对训练数据集D的信息增益比gr(D,A)定义为其信息增益g(D,A)与训练数据集D关于特征A的值的熵Ha(D)之比，即gr(D,A)=g(D,A)/Ha(D)。其中Ha(D)是按照特征A的取值将数据集D划分为Di，(i=1,2,…,m，其中m表示特征A的取值个数)，P(Di)=|Di|/|D|，即数据子集Di中数据个数与数据集D中数据个数的比值。

3.1.3基尼指数

基尼指数Gini(D)表示数据集D的不确定性，基尼指数Gini(D,A)表示经过A=a分割后数据集D的不确定性。基尼指数值越大，样本集合的不确定性也就越大，这一点与熵相似。具体计算见下图：

CART决策树是二叉树，节点中包括选择的特征和该特征的取值，训练集D中各数据对应特征的值比节点值小的数据放在节点的左孩子，对应特征的值比该节点值大的数据放在节点的右孩子。因此在CART算法中，特征的选择包括选择特征和选择特征的取值（切分点）两部分。CART分类中，计算所有特征A以及他们所有可能的切分点a的基尼指数，选择基尼指数最小的特征及其对应的切分点作为最优特征与最优切分点。

3.1.4平方误差最小化

在CART构建回归树的时候，以平方误差最小化准则选取特征。（这里先略过，日后再补充。）

3.2决策树生成（书上的算法个人觉得有错误或难以理解，下面给出个人理解的算法流程）

3.2.1 ID3决策树生成算法

输入：训练数据集D，特征集A，阈值ε；

输出：决策树T

1）若D中所有实例属于同一类C，则T为单节点树，并将类C作为该节点的类标记，返回T；

2）若A=∅，则T为单节点树，并将D中实例数最大的类C作为该节点的类标记，返回T；

3）否则，计算A中各特征对D的信息增益，选择A中信息增益最大的特征Ai；

4）如果Ai的信息增益小于阈值ε，则T为单节点树，并将D中实例数最大的类C作为该节点的类标记，返回T；

5）否则，以特征标签Ai为T的根节点，特征Ai中各个取值aj下包含的非空数据集Dj为训练数据集，A-Ai为特征集，ε为阈值，递归调用该生成算法生成m个子树Tc（其中m表示特征Ai的取值个数）；

6）返回T。

3.2.2 C4.5决策树生成算法

与ID3类似，不同之处就是在特征选取时用信息增益比代替了信息增益作为最优特征选取的标准。这里不再叙述。

3.2.3 CART决策树生成算法（分类）

输入：数据集D、停止条件

输出：CART决策树

根据训练数据集，从根节点开始，递归地对每个节点进行以下操作，构建二叉决策树。

1）设节点的训练数据集D，计算现有特征对该数据集地基尼指数Gini(D)，对每个特征A，以及可能取的每个值a，根据样本点对A=a的测试为“是”和“否”将D分割成D1和D2两部分，计算A=a时的基尼指数Gini(D,A)。

2）在所有可能的特征A以及他们所有可能的切分点a中，选择基尼指数最小的特征及其对应的切分点作为最优特征和最优切分点，作为该子树的根节点。根据最优特征和最优切分点从根节点生成两个子节点，将训练数据集按照特征和切分点分配到两个子节点中。

3）对两个子节点递归调用1），2），直到满足停止条件。

4）返回生成的CART决策树。

3.3决策树剪枝

决策树生成时过多考虑如何提高训练数据地正确分类，从而构建了过于复杂的决策树。这种决策树往往对训练数据分类准确，但是对未知的测试数据分类准确度下降，即出现过拟合。解决过拟合的办法就是简化决策树。

对已生成的决策树进行简化的过程称为剪枝。具体的，就是在已生成的树中剪掉部分子树或叶节点，使子树或叶节点的父节点变成新的叶节点，从而简化分类树模型。

决策树剪枝往往通过极小化决策树整体的损失函数（loss function）或代价函数（cost function）来实现。（具体实现步骤以后再补充）

4.python代码实现

4.1 ID3和C4.5的Python实现代码

首先添加引用包

from math import log
import operator

1）计算给定数据集dataSet的香浓熵

def calcShannonEnt(dataSet):
    '''
    计算给定数据集的香浓熵
    :param dataSet: 给定数据集
    :return: 数据集的熵
    '''
    numEntries=len(dataSet)#训练集的数据量
    labelCounts={}#类别字典（类别的名称为键，该类别的个数为值）
    for featVec in dataSet:#遍历数据集，实例化类别字典
        currentLabel=featVec[-1]
        if currentLabel not in labelCounts.keys():
            labelCounts[currentLabel]=0
        labelCounts[currentLabel]+=1
    shannonEnt=0.0
    for key in labelCounts:
        prob=float(labelCounts[key])/numEntries#P(Di)
        shannonEnt-=prob*log(prob,2)
    return shannonEnt

2）按照给定特征序号和特征的值划分数据集

def splitDataSet(dataSet,axis,value):
    '''
    按照给定特征给定值划分数据集
    :param dataSet: 数据集
    :param axis: 特征所在数据集的列号
    :param value: 特征的值
    :return:特征axis的值等于value并去除特征axis列的数据子集
    '''
    retDataSet=[]
    for featVec in dataSet:
        if featVec[axis]==value:
            reducedFeatVec=featVec[:axis]
            reducedFeatVec.extend(featVec[axis+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet

3）多数表决函数

def majorityCnt(classList):
    '''
    进行多数表决，返回实例数最多的类别标签
    :param classList: 类别标签列表
    :return: 多数表决后的类别标签
    '''
    classCount={}
    for vote in classList:
        if vote not in classCount.keys():
            classCount[vote]=0
        classCount[vote]+=1
        sortedClassCount=sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)
    return sortedClassCount[0][0]

4.1）采用ID3的最大信息增益，选择最优特征

def chooseBestFeatureToSplitForID3(dataSet):
    '''
    获得最优特征来划分数据集
    :param dataSet: 给定数据集
    :return: 最优特征列序号（信息增益最大的特征）
    '''
    numFeatures=len(dataSet[0])-1#特征个数
    baseEntropy=calcShannonEnt(dataSet)#数据集dataSet的熵
    bestInfoGain=0.0;bestFeature=-1#最优信息增益和最优特征
    for i in range(numFeatures):#对于每一个特征列
        featList=[example[i] for example in dataSet]#获取该特征列的值
        uniqueVals=set(featList)#获得该特征的所有唯一特征值
        newEntroy=0.0#i特征的信息熵
        for value in uniqueVals:
            subDataSet=splitDataSet(dataSet,i,value)#按照i特征的value唯一特征值--拆分数据集
            prob=len(subDataSet)/float(len(dataSet))#新数据集占总数据的比例
            newEntroy+=prob*calcShannonEnt(subDataSet)#给定特征i的数据集dataSet的条件熵
        infoGain=baseEntropy-newEntroy#按照i特征划分的信息增益（数据集dataSet的熵-给定特征i的数据集dataSet的条件熵）
        if(infoGain>bestInfoGain):
            bestInfoGain=infoGain
            bestFeature=i
    return bestFeature

4.2）采用C4.5的最大信息增益比，选择最优特征

def chooseBestFeatureToSplitForC45(dataSet):
    '''
    获得最优特征来划分数据集
    :param dataSet: 给定数据集
    :return: 最优特征序号（信息增益比最大的特征）
    '''
    numFeatures = len(dataSet[0]) - 1  # 特征个数
    baseEntropy = calcShannonEnt(dataSet)  # 数据集dataSet的熵
    bestInfoGainRatio = 0.0;
    bestFeature = -1  # 最优信息增益和最优特征
    for i in range(numFeatures):  # 对于每一个特征列
        featList = [example[i] for example in dataSet]  # 获取该特征列的值
        uniqueVals = set(featList)  # 获得该特征的所有唯一特征值
        newEntroy = 0.0 # 给定特征i的数据集dataSet的条件熵
        ibaseEntroy=0.0#数据集dataSet关于特征i的值的熵（数据集dataSet按照特征i的值划分的各子集的熵*子集占dataSet的比例之和）
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)  # 按照i特征的value唯一特征值--拆分数据集
            prob = len(subDataSet) / float(len(dataSet))  # 新数据集占总数据的比例
            newEntroy += prob * calcShannonEnt(subDataSet)
            ibaseEntroy-=prob*log(prob,2)
        infoGainRatio = (baseEntropy - newEntroy)/ibaseEntroy  # 按照i特征划分的信息增益比
        if (infoGainRatio > bestInfoGainRatio):
			bestInfoGainRatio = infoGainRatio
            bestFeature = i
    return bestFeature

5）创建决策树

def createTree(dataSet,labels):
    #dataset包括特征和类别
    #labels表示每一列特征的名称
    labels=labels[:]#深拷贝，不然删除后面del(labels[bestFeat])后原始标签少一个。
    classList=[example[-1] for example in dataSet]#类标签列表
    if classList.count(classList[0])==len(classList):#如果所有类都一样
        return classList[0]#返回类别标签
    if len(dataSet[0])==1:#如果训练集只有类别标签，没有任何特征列
        return majorityCnt(classList)#返回实例数最多的类别标签
    bestFeat=chooseBestFeatureToSplitForID3(dataSet)#最优特征列的序号
    bestFeatLabel=labels[bestFeat]#最优特征名称
    myTree={bestFeatLabel:{}}#以bestFeatLabel为根节点的树
    del(labels[bestFeat])#在特征列表中删除已选做最优特征的特征
    featValues=[example[bestFeat] for example in dataSet]#最优特征的所有取值
    uniqueVals=set(featValues)#最优特征集合（集合各特征值唯一）
    for value in uniqueVals:#对于集合中每个特征值
        subLabels=labels[:]#深拷贝特征列表，防止修改labels的值。
        # 递归调用，并将返回的树放在最优特征对应的各个value分支下
        myTree[bestFeatLabel][value]=createTree(splitDataSet(dataSet,bestFeat,value),subLabels)
    return myTree

6）使用决策树进行分类

def classify(inputTree,featLabels,testVec):
    firstStr=inputTree.keys()[0]
    secondDict=inputTree[firstStr]
    featIndex=featLabels.index(firstStr)
    for key in secondDict.keys():
        if testVec[featIndex]==key:
            if type(secondDict[key]).__name__=='dict':
                classLabel=classify(secondDict[key],featLabels,testVec)
            else:
                classLabel=secondDict[key]
    return classLabel

7）使用pockle模块存储和读取决策树数据

def storeTree(inputTree,filename):
    import pickle
    fw=open(filename,'w')
    pickle.dump(inputTree,fw)
    fw.close()

def grabTree(filename):
    import pickle
    fr=open(filename)
    return pickle.load(fr)

8）测试代码：

#创建简单的数据集
def createDataSet():
    dataSet=[[1,1,'yes'],
             [1,1,'yes'],
             [1,0,'no'],
             [0,1,'no'],
             [0,1,'no']]
    labels=['no surfacing','flippers']
    return dataSet,labels

#测试分类结果
myDat,labels=createDataSet()
myTree=createTree(myDat,labels)
print classify(myTree,labels,[1,0])
print classify(myTree,labels,[1,1])
'''
storeTree(myTree,'classifierStorage.txt')
print grabTree('classifierStorage.txt')
'''

4.2 CART决策树代码实现：

CART算法的思想和ID3以及C4.5是不太一样的，前面已经提到过，CART生成的是二叉树，下面给出CART生成二叉决策树的python代码：

1)计算给定数据集的吉尼指数

def calcGini(dataSet):
    '''
    计算数据集的吉尼指数
    :param dataSet:
    :return: 数据集dataSet的吉尼指数
    '''
    numEntries=len(dataSet)
    labelCounts={}
    #给所有可能分类创建字典
    for featVec in dataSet:
        currentLabel=featVec[-1]
        if currentLabel not in labelCounts:
            labelCounts[currentLabel]=0
        labelCounts[currentLabel]+=1
    #计算吉尼指数
    Gini=1.0
    for key in labelCounts.keys():
        prob=float(labelCounts[key])/numEntries
        Gini-=prob**2
    return Gini

2)计算给定数据集，给定特征列序号，以及给定划分特征值的吉尼指数，也就是数据集D在特征A=a值时候的吉尼指数

def calcConditionGini(dataSet,axis,value):
    '''
    计算数据集dataSet关于特征序号为axis，特征值为value的条件吉尼指数
    :param dataSet:
    :param axis:
    :param value:
    :return:
    '''
    dataSetEqual,dataSetNotEqual=splitDataSet(dataSet,axis,value)
    conditionGini=(len(dataSetEqual)*calcGini(dataSetEqual)+len(dataSetNotEqual)*calcGini(dataSetNotEqual))/len(dataSet)
    return conditionGini

3)根据特征和特征值切分数据集

def splitDataSet(dataSet,axis,value):
    '''
    对离散数据：
    根据特征序号axis和特征值划分数据集
    :param dataSet:
    :param axis: 特征序号
    :param value: 特征值
    :return: 特征序号axis中的特征值等于value的数据集和剩余数据集
    '''
    dataSetEqual=[];dataSetNotEqual=[]
    for featVec in dataSet:
        if featVec[axis]==value:#如果特征值等于value则划分到左边，并去除该特征
            reducedFeatVec=featVec[:axis]
            reducedFeatVec.extend(featVec[axis+1:])
            dataSetEqual.append(reducedFeatVec)
        else:#如果特征值不等于value，则划分到右边
            dataSetNotEqual.append(featVec)
    return dataSetEqual,dataSetNotEqual

4)选择吉尼指数最小的最优特征和最优特征值对

def chooseBestFeatureAndValue(dataSet,labels):
    '''
    获得最优特征和最优特征值
    :param dataSet:
    :param labels:最优特征标签列表
    :return: 返回最优特征标签和最优值
    '''
    numFeatures=len(dataSet[0])-1
    bestGini=100000.0
    bestFeature=-1
    bestValue=0.0
    for i in range(numFeatures):#对于每一个特征
        featList=[example[i] for example in dataSet]
        featList=set(featList)#获取该特征的唯一特征值集合
        for value in featList:#对于特征i下的每个特征值计算条件吉尼指数
            newGiniContiation=calcConditionGini(dataSet,i,value)
            if newGiniContiation

 
  
 5)多数表决函数 
   
   
  def majorityCnt(classList):
    '''
    多数表决
    :param classList:
    :return:类别标签
    '''
    classCount={}
    for vote in classList:
        if vote not in classCount.keys():
            classCount[vote]=0
        classCount+=1
    return sorted(classCount.items(),lambda item:item[1])[0][0] 
  
 6)创建二叉决策树（CART决策树） 
   
   
  def createTree(dataSet,labels):
    classList=[example[-1] for example in dataSet]#类别标签列表
    if classList.count(classList[0])==len(classList):#如果都是同一类
        return (classList[0],None)#返回该类别和空值
    if len(dataSet[0])==1:#如果没有特征可选择了
        return (majorityCnt(classList),None)#返回多数表决的类别标签和空值
    #选择最优特征和最优值作为非叶子节点
    bestFeat,bestValue=chooseBestFeatureAndValue(dataSet,labels)
    myTree={(bestFeat,bestValue):{}}
    dataSetEqual,dataSetNotEqual=splitDataSet(dataSet,labels.index(bestFeat),bestValue)
    #递归调用createTree函数
    leftLabels=[label for label in labels if label!=bestFeat]
    leftTree=createTree(dataSetEqual,leftLabels)
    rightTree=createTree(dataSetNotEqual,labels)
    myTree[(bestFeat,bestValue)]['left']=leftTree
    myTree[(bestFeat,bestValue)]['right']=rightTree
    return myTree 
  
 7)测试，为了显示CART决策树与ID3和C4.5的不同，这里将上边使用的数据集稍作了修改。 
  
 
   
   
  def createDataSet():
    dataSet=[[1,1,'yes'],
             [1,1,'yes'],
             [1,0,'no'],
             [2,1,'no'],
             [0,1,'no']]
    labels=['no surfacing','flippers']
    return dataSet,labels 
  
 
   
   
  data,labels=createDataSet()
myTree = createTree(data, labels) 
  
 至此，CART分类决策树已经生成了。以下是利用第二个数据集，分别采用CART和ID3生成的决策树。 
   
  
 
   
  8)最后再添加针对上边CART树结构可用的分类函数 
   
  def classify(inputTree,featLabels,testVec):                                               
    '''                                                                                   
    进行分类                                                                                  
    :param inputTree:                                                                     
    :param featLabels:                                                                    
    :param testVec:                                                                       
    :return: 分类结果                                                                         
    '''                                                                                   
    if type(inputTree).__name__=='tuple':#如果是叶节点，返回类别标签                                   
        return inputTree[0]                                                               
    else:                                                                                 
        firstNode=inputTree.keys()[0]                                                     
        featLabel=firstNode[0]                                                            
        featIndex=featLabels.index(featLabel)                                             
        if firstNode[1]==testVec[featIndex]:#如果值相同，进入左子树                                  
            newFeatLabel=[label for label in featLabels if label!=featLabel]              
            newTestVec=[testVec[i] for i in  range(len(testVec)) if i!=featIndex]         
            return classify(inputTree[firstNode]['left'],newFeatLabel,newTestVec)         
        else:#否则进入右子树                                                                     
            return classify(inputTree[firstNode]['right'],featLabels,testVec)              
  
 
  
 
  
 
   
  4.3.树的剪枝 
  
 
  5.思考： 
  敬请期待
 
  （其他内容后续再修改补充）

PHP 爬虫实战：爬取淘宝商品详情数据 EcomDataMiner php 爬虫开发语言
随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍php爬虫的实战应用。准备工作在开始爬虫之前，我们需要做一些准备工作。首先，需要搭建一个本地服务器环境，推荐使用WAMP、XAMPP等集成化工具，方便部署PHP环境。其次，我
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
模拟退火算法：原理、应用与优化策略尹清雅算法
摘要模拟退火算法是一种基于物理退火过程的随机搜索算法，在解决复杂优化问题上表现出独特优势。本文详细阐述模拟退火算法的原理，深入分析其核心要素，通过案例展示在函数优化、旅行商问题中的应用，并探讨算法的优化策略与拓展方向，为解决复杂优化问题提供全面的理论与实践指导，助力该算法在多领域的高效应用与创新发展。一、引言在现代科学与工程领域，复杂优化问题无处不在，如资源分配、路径规划、机器学习模型参数调优等。
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？ yuanpan 机器学习神经网络 transformer
机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的
奇异值分解（SVD）文弱_书生乱七八糟神经网络人工智能
奇异值分解(SVD)介绍奇异值分解(SVD)，这是最强大的矩阵分解技术之一。SVD广泛应用于机器学习、数据科学和其他计算领域，用于降维、降噪和矩阵近似等应用。与仅适用于方阵的特征分解不同，SVD可以应用于任何矩阵，使其成为一种多功能工具。在这里煮啵将分解SVD背后的理论，通过手动计算示例进行分析，并展示如何在Python中实现SVD。在本节结束时，您将清楚地了解SVD的强大功能及其在机器学习中的应
yum install locate出现Error: Unable to find match: locate解决方案爱编程的喵喵 Linux解决方案 linux locate yum 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了yuminstalllocate出现
【人工智能机器学习基础篇】——深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理猿享天开人工智能数学基础专讲人工智能机器学习无监督学习降维
深入详解无监督学习之降维：PCA与t-SNE的关键概念与核心原理在当今数据驱动的世界中，数据维度的增多带来了计算复杂性和存储挑战，同时也可能导致模型性能下降，这一现象被称为“维度诅咒”（CurseofDimensionality）。降维作为一种重要的特征提取和数据预处理技术，旨在通过减少数据的维度，保留其主要信息，从而简化数据处理过程，并提升模型的性能。本文将深入探讨两种广泛应用于无监督学习中的降
Flink启动任务 swg321321 flink 大数据
Flink以本地运行作为解读例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Flink前言StreamExecutionEnvironmentLocalExecutorMiniClusterStreamGraph二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发
计算机专业毕业设计题目推荐（新颖选题）本科计算机人工智能专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计人工智能毕业设计毕设题目毕业设计题目 ai AI编程
文章目录前言最新毕设选题（建议收藏起来）本科计算机人工智能专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能
【机器学习】建模流程 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能线性回归逻辑回归
1、数据获取1.1来源数据获取是机器学习建模的第一步，常见的数据来源包括数据库、API、网络爬虫等。数据库是企业内部常见的数据存储方式，例如：MySQL、Oracle等关系型数据库，以及MongoDB等非关系型数据库，它们能够存储大量的结构化和非结构化数据API（应用程序编程接口）提供了从外部获取数据的便捷方式，例如：社交媒体平台的API可以获取用户发布的内容和互动信息网络爬虫则适用于从网页中提取
机器学习课堂4线性回归模型+特征缩放木尘152132 机器学习线性回归 python
一、实验2-2，线性回归模型，计算模型在训练数据集和测试数据集上的均方根误差代码：#2-2线性回归模型importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt#参数设置iterations=3000#迭代次数learning_rate=0.0001#学习率m_train=3000#训练样本的数量flag_plot_lines=False
【机器学习】模型拟合 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能欠拟合过拟合
1、欠拟合1.1现象欠拟合是机器学习和统计建模中的一种常见问题，表现为模型无法充分捕捉数据中的潜在规律和模式。无论是训练数据还是测试数据，模型的预测误差都居高不下。在实际应用中，欠拟合的模型往往显得过于简单和粗糙，无法对数据进行有效的拟合和描述。1.2原因模型过于简单是导致欠拟合的主要原因：例如，使用直线去拟合具有明显曲线趋势的数据，或者使用低阶多项式去拟合高阶的复杂函数关系。这种情况下，模型的表
基于Python的智能决策支持系统：实现智能化决策的关键要素 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录基于Python的智能决策支持系统：实现智能化决策的关键要素11.背景介绍2.核心概念与联系数据收集与预处理模型构建与训练决策规则生成与优化决策结果评估与反馈3.核心算法原理具体操作步骤数据挖掘算法机器学习算法优化算法4.数学模型和公式详细讲解举例说明线性回归模型最小二乘法5.项目实践：代码实例和详细解释说明6.实际应用场景金融领域医疗领域供应链管理智能制造7.工具和资源推荐编程语言和开发
下一代模型技术演进与场景应用突破智能计算研究中心其他
内容概要当前模型技术正经历多维度的范式跃迁，可解释性模型与自动化机器学习（AutoML）成为突破传统黑箱困境的核心路径。在底层架构层面，边缘计算与量子计算的融合重构了算力分配模式，联邦学习技术则为跨域数据协作提供了安全可信的解决方案。主流框架如TensorFlow和PyTorch持续迭代优化能力，通过动态参数压缩与自适应超参数调优策略，显著提升模型部署效率。应用层创新呈现垂直化特征，医疗诊断模型通
TypeScript语言的计算机视觉苏墨瀚包罗万象 golang 开发语言后端
使用TypeScript进行计算机视觉：一个现代化的探索引言随着人工智能和机器学习的快速发展，计算机视觉（ComputerVision）成为了一个极具活力的研究领域。计算机视觉旨在使计算机能够“看”和“理解”数字图像或视频中的内容。近年来，TypeScript作为一种现代化的编程语言，因其类型安全和更好的开发体验，逐渐在前端和后端开发中得到了广泛应用。本文将探讨如何使用TypeScript进行计算
人工智能之数学基础：数学对人工智能技术发展的作用每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习机器学习神经网络自然语言处理数学
本文重点数学是人工智能技术发展的基础，它提供了人工智能技术所需的数学理论和算法，包括概率论、统计学、线性代数、微积分、图论等等。本文将从以下几个方面探讨数学对人工智能技术发展的作用。概率论和统计学概率论和统计学是人工智能技术中最为重要的数学分支之一。概率论和统计学的应用范围非常广泛，包括机器学习、数据挖掘、自然语言处理、计算机视觉等领域。在人工智能技术中，概率论和统计学主要用于处理不确定性的问题，
人工智能之数学基础：线性子空间每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习线性代数线性子空间线性空间
本文重点在前面的课程中，我们学习了线性空间，本文我们我们在此基础上学习线性子空间。在应用中，线性子空间的概念被广泛应用于信号处理、机器学习、图像处理等领域。子空间的性质子空间是线性空间的一部分，它需要满足下面的性质：设V是数域F上的线性空间，W是V的一个非空子集。如果W对于V中的加法运算和数乘运算也构成F上的一个线性空间，则称W为V的线性子空间（或称向量子空间）。具体来说，设V是一个线性空间，W是
详解离线安装Python库爱编程的喵喵 Python基础课程 python 离线安装 requirements
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了详解离线安装Python库，希望能对
ESG证书：AI预测未来十年职场人的黄金入场券 ESG学习圈 pandas python django
当ChatGPT开始撰写ESG报告，当机器学习模型精准预测企业碳排放轨迹，一场由AI驱动的ESG革命正在颠覆传统可持续发展领域。根据彭博新能源财经预测，到2030年全球ESG资产管理规模将突破50万亿美元，而AI技术将成为撬动这个万亿级市场的核心杠杆。一、AI透视下的ESG黄金时代在微软开发的AI模型ESG-NOW系统中，通过分析全球4300家上市公司近十年的环境数据，成功预测2025年新能源行业
【Dive Into Stable Diffusion v3.5】1：开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练 Donvink 大模型 #AIGC stable diffusion AIGC 人工智能机器学习深度学习
目录1引言2项目简介3快速上手3.1下载代码3.2环境配置3.3项目结构3.4下载模型与数据集3.5运行指令3.6核心参数说明3.6.1通用参数3.6.2优化器/学习率3.6.3数据相关4结语1引言在人工智能和机器学习领域，生成模型的应用越来越广泛。StableDiffusion作为其中的佼佼者，因其强大的图像生成能力而备受关注。今天，我的开源项目DiveIntoStableDiffusionv3
知识库在意图识别中扮演着**数据支撑**和**语义理解辅助**的双重角色 PersistDZ 大数据与AI 人工智能
知识库在意图识别中扮演着数据支撑和语义理解辅助的双重角色，而训练智能客服的意图识别Agent需要结合知识库的结构化数据与机器学习技术。以下是详细解析：一、知识库在意图识别中的作用1.提供标注数据意图标签定义：知识库中存储了预先定义的意图分类体系（如“订单查询”“退换货”“投诉”等），为模型提供明确的训练目标。标注样本：知识库包含大量用户对话历史及其对应的意图标签，是训练监督学习模型的核心数据源。2
近期计算机领域的热点技术 0dayNu1L 云计算量子计算人工智能
随着科技的飞速发展，计算机领域的新技术、新趋势层出不穷。本文将探讨近期计算机领域的几个热点技术趋势，并对它们进行简要的分析和展望。一、人工智能与机器学习人工智能（AI）和机器学习（ML）是近年来计算机领域最为热门的话题之一。AI和ML技术已经广泛应用于图像识别、自然语言处理、智能推荐等领域，并取得了显著的成果。随着技术的不断进步，AI和ML将更深入地渗透到各个行业，为人类社会带来更多便利和效益。在
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
ChatGPT、DeepSeek、GIS与Python机器学习强强联合！地质灾害风险评估、易发性分析、信息化建库及灾后重建 WangYan2022 DeepSeek ChatGPT 地下水地质灾害 DeepSeek ChatGPT GIS 灾后重建
在地质灾害频繁肆虐的当下，精准开展风险评价刻不容缓。如今，一门极具创新性的教程震撼登场，它将ChatGPT、DeepSeek等前沿技术与GIS、Python以及机器学习深度交融，为学员打造出前所未有的学习体验，助力大家在地质灾害风险评价领域强势突围，一路领先。前沿技术融合，铸就智能学习核心动力教程最闪耀的亮点之一，便是大胆引入了ChatGPT和DeepSeek技术。它们恰似无所不能的“数据魔法师”
Hessian 矩阵是什么 ZhangJiQun&MXP 教学 2021 AI python 2024大模型以及算力矩阵线性代数算法人工智能机器学习
Hessian矩阵是什么目录Hessian矩阵是什么Hessian矩阵的性质及举例说明**1.对称性****2.正定性决定极值类型****特征值为2（正），因此原点(0,0)(0,0)(0,0)是极小值点。****3.牛顿法中的应用****4.特征值与曲率方向****5.机器学习中的实际意义**一、定义与公式二、实例分析Hessian矩阵是多元函数二阶偏导数构成的方阵，用于分析函数局部曲率、判断极
LoRA中黑塞矩阵、Fisher信息矩阵是什么 ZhangJiQun&MXP 教学 2021 论文 2024大模型以及算力矩阵机器学习人工智能 transformer 深度学习算法线性代数
LoRA中黑塞矩阵、Fisher信息矩阵是什么1.三者的核心概念黑塞矩阵（Hessian）二阶导数矩阵，用于优化问题中判断函数的凸性（如牛顿法），或计算参数更新方向（如拟牛顿法）。Fisher信息矩阵（FisherInformationMatrix,FIM）统计学中衡量参数估计的不确定性，反映数据中包含的关于参数的信息量。在机器学习中常用于自然梯度下降（NaturalGradientDescent
神经网络基础之正则化硬水果糖人工智能神经网络人工智能机器学习
引言：正则化（Regularization）是机器学习中一种用于防止模型过拟合技术。核心思想是通过在模型损失函数中添加一个惩罚项（PenaltyTerm），对模型的复杂度进行约束，从而提升模型在新数据上的泛化能力。一、正则化目的防止过拟合：当模型过于复杂（例如神经网络层数过多、参数过多）时，容易在训练数据上“记忆”噪声或细节，导致在测试数据上表现差。简化模型：正则化通过限制模型参数的大小或数量，迫
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {

机器学习----笔记之决策树(3)

你可能感兴趣的:(机器学习)