cys_runner

啃书 -《机器学习实战》：决策树（ID3算法）

决策树

1.决策树的构造

1.1 信息增益
1.2 划分数据集
1.3 构建决策树

2 测试和储存分类器

2.1测试算法：使用决策树执行分类
2.2 使用算法：决策树的存储

3.总结

我们经常使用决策树处理分类问题，决策树也是经常使用的数据挖掘算法。它之所以如此流行，一个很重要的原因就是使用者基本上不用了解机器学习算法，也不用深究它是如何工作的。
图3-1所示的流程图就是一个决策树，正方形代表判断模块（decision block），椭圆形代表终止模块（terminating block），表示已经得出结论，可以终止运行。从判断模块引出的左右箭头称作分支（branch），它可以到达另一个判断模块或者终止模块。下图构造了一个假想的邮件分类系统，它首先检测发送邮件域名地址。如果地址为 myEmployer.com，则将其放在分类“无聊时需要阅读的邮件”中。如果邮件不是来自这个域名，则检查邮件内容里是否包含单词曲棍球，如果包含则将邮件归类到“需要及时处理的朋友邮件”，如果不包含则将邮件归类到“无需阅读的垃圾邮件”。

1.决策树的构造

优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。
缺点：可能会产生过度匹配问题。
适用数据类型：数值型和标称型。

在构造决策树时，我们需要解决的第一个问题就是，当前数据集上哪个特征在划分数据分类时起决定性作用。为了找到决定性的特征，划分出好的结果，我们必须评估每个特征。
构建决策树的一般步骤是：先找到一个划分结果最好的特征，作为根节点，也就是最上面的一个节点，然后数据集就被划分成了几个数据子集，所谓数据子集也就是其他特征集合。这些数据子集分布在第一个决策点的子节点上。如果某个子节点的数据属于同一类型，则无需再进行分类，即无需进一步对数据集进行分割。如果数据子集内的数据不属于同一类型，则需要重复划分数据子集的过程。
创建分支的伪代码函数createBranch()如下所示：

上面的伪代码createBranch是一个递归函数，在倒数第二行直接调用了它自己。后面我们将把上面的伪代码转换为Python代码，这里我们需要进一步了解算法是如何划分数据集的。
决策树的一般流程：

(1) 收集数据：可以使用任何方法。
(2) 准备数据：树构造算法只适用于标称型数据，因此数值型数据必须离散化。
(3) 分析数据：可以使用任何方法，构造树完成之后，我们应该检查图形是否符合预期。
(4) 训练算法：构造树的数据结构。
(5) 测试算法：使用经验树计算错误率。
(6) 使用算法：此步骤可以适用于任何监督学习算法，而使用决策树可以更好地理解数据的内在含义。

1.1 信息增益

划分数据集的大原则是：将无序的数据变得更加有序。我们可以使用多种方法划分数据集，但是每种方法都有各自的优缺点。组织杂乱无章数据的一种方法就是使用信息论度量信息，信息论是量化处理信息的分支科学。我们可以在划分数据之前使用信息论量化度量信息的内容。
集合信息的度量方式称为香农熵或者简称为熵，这个名字来源于信息论之父克劳德·香农。
熵定义为信息的期望值，在明晰这个概念之前，我们必须知道信息的定义。如果待分类的事务可能划分在多个分类之中，则符号xi的信息定义为：

Pxi代表信息发生的可能性，发生的可能性越大，概率越大，则信息越少，通常将这种可能性叫为不确定性，越有可能则越能确定则信息越少。
为了计算熵，我们需要计算所有类别所有可能值包含的信息期望值，也就是信息熵了。通过下面的公式得到：

其中n是分类的数目。
信息增益就是用整体的信息熵减掉以按某一特征分裂后的条件熵，结果越大，说明这个特征越能消除不确定性。所以获得信息增益高的特征就是好的选择。

H(D)是总的信息熵，也就是所有样本的分类结果的信息熵。H(D|A)是在某个特征条件下的分类结果的信息熵。举个例子，如下图，关于动物的分类样本：

此样本集有“饮食习性”、“胎生动物”、“水生动物”、“会飞”四个属性可作为特征条件，而“哺乳动物”作为样本的分类属性，有“是”与 “否”两种分类，也即正例与负例。共有14个样本，其中8个正例，6个反例，设此样本集为 S，则分裂前的熵值为

现在我要以’饮食习性’这个特征划分样本集的话，会有三个节点，如下图：

接下来计算以’饮食习性’这个特征划分样本集后的信息熵。
“饮食习性”为“肉食动物”的分支中有3个正例、5个反例，其熵值为：

同理，计算出“饮食习性”分类为“草食动物”的分支与分类为“杂食动物”的分支中的熵值分别为

设“饮食习性”属性为Y，由此可以计算得出,作为分支属性进行分裂之后的信息增益为

通过这个案例应该能很好理解信息增益的计算过程了

下面我们将学习如何使用Python计算信息熵。
首先，我们的数据集是有特征和分类结果组成。这里我们先自己创建一个数据用于测试：

def createDataSet():
    '''
    自己创建数据集，用于测试
    '''
    dataSet = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    labels = ['no surfacing','flippers']
    return dataSet, labels

注意代码中的labels并不是我们的分类结果标签，而是给特征取得名字，方便理解。
接着我们看一下如何利用上面的测试集来计算信息熵，数据集中既有特征，又有分类结果（也就是标签），但是我们计算信息熵时，只需要计算每个类标签出现的概率，这里概率计算是标签出现的次数除以总标签数量，计算出各个标签出现的概率就可以利用我们的公式进行信息熵的计算了，代码如下：

def calcShannonEnt(dataSet):
    '''
    计算信息熵
    '''
    numEntries = len(dataSet)   # 获取样本数量
    labelCounts = {}   # 初始化标签字典，用于统计存储不同分类的数量
    for featVec in dataSet:   # 遍历每行数据
        currentLabel = featVec[-1]   # 获取当前行的标签，也就是分类，在最后一列
        if currentLabel not in labelCounts.keys():   # 如果这个标签第一次出现，就在标签字典中初始化数量为0
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1  # 否则给和这个标签数量加1
    shannonEnt = 0.0   # 初始化信息熵为0
    for key in labelCounts:   # 遍历所有标签
        # 计算每个种类的熵，并相加（其实是先算正的，然后相减）
        prob = float(labelCounts[key])/numEntries
        shannonEnt -= prob * log(prob,2) 
    return shannonEnt

下面我们来测试一下：

#test1
myDat, labels = createDataSet()
print(calcShannonEnt(myDat))
#运行结果为0.9709505944546686

熵越高，则混合的数据也越多，我们可以在数据集中添加更多的分类，观察熵是如何变化的。
得到熵之后，我们就可以按照获取大信息增益的方法划分数据集，下一节我们将具体学习如何划分数据集以及如何度量信息增益。
另外还有C4.5和CART决策树算法分别用了信息增益率和基尼指数。后续再做讲解介绍。

1.2 划分数据集

划分数据集的说法，在看到后面代码之前，书中说的不是很明白，其实就是给定一个数据集和特征，然后我需要按照这个特征指定的值去得到标签还有此特征值下的其他特征的数据集。
还用上面那个动物分类举例子。假如我要计算’饮食习性’这个特征的信息增益，因为’饮食习性’有三种可能，那么每一种可能我都需要再去计算信息熵。
那么划分数据集的过程就是：现在我要计算’饮食习性’为肉食动物的信息熵。则我需要在数据集中先找到’饮食习性’为肉食动物的所有行，得到数据集1。因为我已经用了’饮食习性’作为上一个节点，所以要把’饮食习性’这列特征删除，得到数据集2。这里的数据集2就是我们划分的数据集，他包含了标签和除’饮食习性’的其他特征数据。其中标签用来计算信息熵，其他特征用来继续划分数据集。
然后再计算’饮食习性’为其他情况的信息熵，我们又需要划分一次数据集。然后用划分好的数据集计算信息熵。全部计算完成后，则可以用公式计算’饮食习性’的信息增益了。
下面看一下代码：

def splitDataSet(dataSet, axis, value):
    '''
    划分数据集,即根据每个特征的不同，去划分数据集
    比如第一列特征有0、1两个值，则分别获取为0时的所有数据集，为1时所有的数据集
    获取的数据集中，把这个特征去除了，保留了其他特征和结果标签，
    其中保留的特征用于下一次筛选最好的特征，标签用来计算信息熵
    '''
    retDataSet = []   # 初始化根据某个特征值划分得到的数据集
    for featVec in dataSet:   # 遍历每行数据集
        if featVec[axis] == value:   # 如果这个特征等于传入的特征值，则获取该特征值下的数据
            reducedFeatVec = featVec[:axis]   # 获取这个特征列的前面的所有特征列
            reducedFeatVec.extend(featVec[axis+1:])   # extend加上这个特征列后面的所有列
            retDataSet.append(reducedFeatVec)   # 把获取的当前行数据加入到总数据集列表中
    return retDataSet

代码使用了三个输入参数：待划分的数据集、划分数据集的特征、特征值。
我们来测试一下效果：

#test2
myDat, labels = createDataSet()
splitDat = splitDataSet(myDat,0,1)   #这里的意思就是我要以第1列特征为1时划分数据集
print(splitDat)
# 划分结果为
[[1, 'yes'], [1, 'yes'], [0, 'no']]

接下来我们将遍历整个数据集，循环计算信息熵和splitDataSet()函数，找到好的特征划分方式。熵计算将会告诉我们如何划分数据集是好的数据组织方式。
下面寻找最优划分特征和划分数据集的函数：

def chooseBestFeatureToSplit(dataSet):
    '''
    选取特征，划分数据集，计算最好的划分数据集的特征
    '''
    numFeatures = len(dataSet[0]) - 1  # 去除最后一列标签，统计特征数量
    baseEntropy = calcShannonEnt(dataSet)   # 计算总样本的信息熵
    # 初始化信息增益和最好的特征列
    bestInfoGain = 0.0
    bestFeature = -1
    for i in range(numFeatures):   # 遍历所有特征
        # 获取当前特征的所有特征值，比如第一列的特征的特征值可能为[1,1,0,1,0]
        featList = [example[i] for example in dataSet]
        uniqueVals = set(featList)   # 利用集合方法去重，得到所有可能的特征值,比如去重后为[1,0]
        newEntropy = 0.0   # 初始化熵为0
        for value in uniqueVals:  # 遍历当前特征所有可能的值，即遍历[1,0]
            subDataSet = splitDataSet(dataSet, i, value)   # 划分当前特征值的数据集
            prob = len(subDataSet)/float(len(dataSet))   # 计算当前特征的信息熵
            newEntropy += prob * calcShannonEnt(subDataSet)    
        infoGain = baseEntropy - newEntropy   # 计算该特征划分数据集的信息增益
        # 当前信息增益与最好的信息增益比较，更新最好的信息增益和最好的特征
        if (infoGain > bestInfoGain):
            bestInfoGain = infoGain         
            bestFeature = i
    return bestFeature

下面我们测试一下代码：

#test3
myDat, labels = createDataSet()
bestfeature = chooseBestFeatureToSplit(myDat)
print(bestfeature)
# 结果如下，所以第一列特征是我们目前数据集中划分标签最好的特征
0

1.3 构建决策树

目前我们已经学习了从数据集构造决策树算法所需要的子功能模块，其工作原理如下：得到原始数据集，然后基于好的属性值划分数据集，由于特征值可能多于两个，因此可能存在大于两个分支的数据集划分。第一次划分之后，数据将被向下传递到树分支的下一个节点，在这个节点上，我们可以再次划分数据。因此我们可以采用递归的原则处理数据集。 递归结束的条件是：程序遍历完所有划分数据集的属性，或者每个分支下的所有实例都具有相同的分类。如果所有实例具有相同的分类，则得到一个叶子节点或者终止块。任何到达叶子节点的数据必然属于叶子节点的分类，参见下图：

第一个结束条件使得算法可以终止，我们甚至可以设置算法可以划分的大分组数目。有一种情况是：如果数据集已经处理了所有属性，但是类标签依然不是唯一的，此时我们需要决定如何定义该叶子节点，在这种情况下，我们通常会采用多数表决的方法决定该叶子节点的分类。下面我们定义一个函数完成这个工作：

def majorityCnt(classList):
    '''
    多数表决方法决定分类
    classList为分类列表
    '''
    classCount={}   # 初始化存储标签数量的字典
    # 遍历分类列表，统计每个分类的数量
    for vote in classList:
        if vote not in classCount.keys(): 
            classCount[vote] = 0
        classCount[vote] += 1
    # 对每个分类进行排序
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    # 返回排序后第一名的分类标签
    return sortedClassCount[0][0]

接下来我们就可以开始用上面封装的几个函数来构建我们的决策树了。整体思路是：1.首先递归函数要写递归结束的条件，这里有两个，一个是数据集标签相同，一个是遍历完了所有特征集；2.然后写递归的过程，首先利用chooseBestFeatureToSplit函数找到当前数据集的最好特征；3.把最好的特征添加到树结构中，这里树结构形式是｛bestFeat:{ }｝;4.获取最好特征的所有特征值，把特征值加到树结构中，形式如｛bestFeat:{feat1:{ }, feat2:{ }}}; 5.利用feat1和feat2，使用函数splitDataSet((dataSet, bestFeat, feat1))划分的数据集再递归重复此过程，直到结束。代码如下：

def createTree(dataSet,labels):
    '''
    创建树
    dataSet:数据集
    labels:标签
    '''
    classList = [example[-1] for example in dataSet]   # 获取数据集所有类标签
    if classList.count(classList[0]) == len(classList):    # 递归第一个停止条件：当类标签都相同，则返回改类标签
        return classList[0]
    if len(dataSet[0]) == 1:    # 递归第二个停止条件：用完了所有特征，返回出现次数最多的类别
        return majorityCnt(classList)
    bestFeat = chooseBestFeatureToSplit(dataSet)   # 选择当前划分类别最好的特征
    bestFeatLabel = labels[bestFeat]   # 最好的特征标签加到标签列表里
    myTree = {bestFeatLabel:{}}   # 初始化tree
    subLabels = labels[:]   # 复制类标签，为了每次调用createTree()函数不改变原始的列表标签内容
    del(subLabels[bestFeat])   # 从特征标签列表中删掉已经计算后的标签名称
    featValues = [example[bestFeat] for example in dataSet]   # 获取目前最好特征的所有特征值
    uniqueVals = set(featValues)   # 去重获取所有可能特征值
    for value in uniqueVals:   # 遍历上面所有特征值
        # 添加树结构，调用递归
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels)
    return myTree

上面函数使用两个输入参数：数据集和标签列表。标签列表包含了数据集中所有特征的标签，算法本身并不需要这个变量，但是为了给出数据明确的含义，我们将它作为一个输入参数提供。比如我们createDataSet()创建的数据集的labels。
我们来测试一下代码：

#test4
myDat, labels = createDataSet()
mytree = createTree(myDat, labels)
print(mytree) 
# 结果如下
{'no surfacing': {0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}}

变量myTree包含了很多代表树结构信息的嵌套字典，从左边开始，第一个关键字no surfacing是第一个划分数据集的特征名称，该关键字的值也是另一个数据字典。第二个关键字是no surfacing特征划分的数据集，这些关键字的值是no surfacing节点的子节点。这些值可能是类标签，也可能是另一个数据字典。如果值是类标签，则该子节点是叶子节点；如果值是另一个数据字典，则子节点是一个判断节点，这种格式结构不断重复就构成了整棵树。本节的例子中，这棵树包含了3个叶子节点以及2个判断节点。

2 测试和储存分类器

2.1测试算法：使用决策树执行分类

依靠训练数据构造了决策树之后，我们可以将它用于实际数据的分类。在执行数据分类时，需要决策树以及用于构造树的标签向量。然后，程序比较测试数据与决策树上的数值，递归执行该过程直到进入叶子节点；后将测试数据定义为叶子节点所属的类型。代码如下：

def classify(inputTree,featLabels,testVec):
    '''
    使用构建好的决策树进行分类
    inputTree：构建好的树
    featLabels：特征标签，便于知道该标签在数据集中的列索引位置
    testVec：测试数据
    '''
    firstStr = list(inputTree.keys())[0]   # 获得第一个树节点标签
    secondDict = inputTree[firstStr]   # 获取第一个节点下面的树结构
    featIndex = featLabels.index(firstStr)   # 获取读一个树节点特征的列索引位置
    key = testVec[featIndex]   # 获取测试数据在当前索引下（当前特征）的特征值
    valueOfFeat = secondDict[key]   # 获得第二层树节点下的树结构
    # 如果第二层是字典结构，则还有叶子结构，继续递归寻找下个节点
    if isinstance(valueOfFeat, dict): 
        classLabel = classify(valueOfFeat, featLabels, testVec)
    # 如果没有树结构，即到达了叶子节点，则直接返回改叶子节点额值
    else: 
        classLabel = valueOfFeat
    return classLabel

该函数也是一个递归函数，在存储带有特征的数据会面临一个问题：程序无法确定特征在数据集中的位置，例如前面例子的第一个用于划分数据集的特征是no surfacing属性，但是在实际数据集中该属性存储在哪个位置？是第一个属性还是第二个属性？特征标签列表将帮助程序处理这个问题。使用index方法查找当前列表中第一个匹配firstStr变量的元素。然后代码递归遍历整棵树，比较testVec变量中的值与树节点的值，如果到达叶子节点，则返回当前节点的分类标签。
下面来测试一下代码：

#test5
myDat, labels = createDataSet()
mytree = createTree(myDat, labels)
result =   classify(mytree, labels,[1, 0])
print(result)
# 结果为 no

2.2 使用算法：决策树的存储

构造决策树是很耗时的任务，即使处理很小的数据集，如前面的样本数据，也要花费几秒的时间，如果数据集很大，将会耗费很多计算时间。然而用创建好的决策树解决分类问题，则可以很快完成。因此，为了节省计算时间，好能够在每次执行分类时调用已经构造好的决策树。为了解决这个问题，需要使用Python模块pickle序列化对象。序列化对象可以在磁盘上保存对象，并在需要的时候读取出来。任何对象都可以执行序列化操作，字典对象也不例外。

def storeTree(inputTree,filename):
    '''
    存储树结构
    '''
    import pickle
    fw = open(filename,'wb')
    pickle.dump(inputTree,fw)
    fw.close()
def grabTree(filename):
    '''
    读取树结构
    '''
    import pickle
    fr = open(filename,'rb')
    return pickle.load(fr)

3.总结

决策树分类器就像带有终止块的流程图，终止块表示分类结果。开始处理数据集时，我们首先需要测量集合中数据的不一致性，也就是熵，然后寻找优方案划分数据集，直到数据集中的所有数据属于同一分类。ID3算法可以用于划分标称型数据集。构建决策树时，我们通常采用递归的方法将数据集转化为决策树。一般我们并不构造新的数据结构，而是使用Python语言内嵌的数据结构字典存储树节点信息。
还有其他的决策树的构造算法，流行的是C4.5和CART，后面将会介绍。

Python 机器学习实战：Scikit-learn 算法宝典，从线性回归到支持向量机清水白石008 python Python题库 python 机器学习算法
Python机器学习实战：Scikit-learn算法宝典，从线性回归到支持向量机引言各位Python工程师，大家好！欢迎来到激动人心的机器学习世界！在这个数据驱动的时代，机器学习已经渗透到我们生活的方方面面，从智能推荐系统到自动驾驶汽车，都离不开机器学习技术的支撑。作为一名Python开发者，掌握机器学习技能，无疑将为您的职业发展注入强大的动力，让您在人工智能浪潮中占据先机。Scikit-lea
Python机器学习实战——逻辑回归（附完整代码和结果）小白熊XBX 机器学习机器学习 python 逻辑回归
Python机器学习实战——逻辑回归（附完整代码和结果）关于作者作者：小白熊作者简介：精通c#、Halcon、Python、Matlab，擅长机器视觉、机器学习、深度学习、数字图像处理、工业检测识别定位、用户界面设计、目标检测、图像分类、姿态识别、人脸识别、语义分割、路径规划、智能优化算法、大数据分析、各类算法融合创新等等。联系邮箱：[email protected]科研辅导、知识付费答疑、个性化定制
Python 机器学习实战：泰坦尼克号生还者预测 (从数据探索到模型构建) 程序员阿超的博客 Python python 机器学习开发语言泰坦尼克号 Kaggle Scikit-learn 实战教程
引言：挑战介绍泰坦尼克号的沉没是历史上最著名的海难之一。除了其悲剧色彩，它还为数据科学提供了一个经典且引人入胜的入门项目。Kaggle平台上的“Titanic:MachineLearningfromDisaster”竞赛，要求我们利用乘客数据来预测哪些人更有可能在这场灾难中幸存。这是一个典型的二元分类问题：目标变量Survived只有两个值，0（遇难）或1（生还）。这个项目之所以经典，是因为它涵盖
**基于Python的数据分析与机器学习实战教程****一、引言**随着大数据时代的到来，数据处理和分析能力已经成为现代软件开发人员的必备技能之一。Python作为一种高效、简洁且功能丰富的编程语言， 2401_89451588 python 数据分析机器学习
基于Python的数据分析与机器学习实战教程一、引言随着大数据时代的到来，数据处理和分析能力已经成为现代软件开发人员的必备技能之一。Python作为一种高效、简洁且功能丰富的编程语言，在数据分析领域得到了广泛的应用。本文将介绍如何使用Python进行数据分析，并结合机器学习算法实现数据驱动的应用。二、Python基础首先，我们需要掌握Python的基本语法和常用的库。Python的语法简洁易懂，上
从 “啃书焦虑” 到 “项目通关”：NLP 学习的破局之道木旭林晖自然语言处理学习人工智能
嘿，你好。在CSDN上潜水这么久，我总能看到很多像你我当年一样，怀揣着NLP大厂梦的同学。我猜，你的收藏夹里一定塞满了“NLP必读清单”，书架上可能还放着那本厚得像砖头一样的《统计学习方法》或者“龙书”。每天深夜，你可能都在跟一个又一个复杂的数学公式死磕。什么最大熵模型、什么CRF（条件随机场）的推导……你觉得自己离“精通”越来越近，但心里却越来越慌。为什么慌？因为你打开招聘软件，看到JD（职位描
这份「零基础」机器学习实战课程，帮你彻底搞懂AI不再迷茫！——深度解析ML-For-Beginners wylee 人工智能机器学习
引言：告别迷茫，拥抱AI未来在当今科技浪潮之巅，人工智能（AI）无疑是最璀璨的明星。机器学习（MachineLearning），作为AI的核心驱动力，正以前所未有的速度渗透到我们生活的方方面面：从智能推荐系统到自动驾驶，从疾病诊断到金融风控，其应用场景几乎无处不在。然而，对于无数渴望投身AI领域的学习者而言，机器学习的门槛似乎一直高不可攀。你是否也曾有过这样的困惑：面对海量的在线课程和资料，眼花缭
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
Python机器学习实战：推荐系统的原理与实现方法 AI大模型应用之禅人工智能数学基础计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：推荐系统的原理与实现方法1.背景介绍1.1问题的由来在当今数字化时代，推荐系统已成为电子商务、媒体流媒体平台、社交媒体以及在线购物网站的核心组件之一。推荐系统旨在根据用户的历史行为、偏好以及社会关系等因素，为用户提供个性化的内容或商品建议，从而提高用户体验、增加用户粘性，并提升业务转化率。1.2研究现状随着大数据和深度学习技术的快速发展，推荐系统正从基于规则的简单过滤模型
机器学习实战36-基于遗传算法的水泵调度优化项目研究与代码实现微学AI 机器学习实战项目机器学习数学建模人工智能
大家好，我是微学AI，今天给大家介绍一下机器学习实战36-基于遗传算法的水泵调度优化项目研究与代码实现。文章目录一、项目介绍二、项目背景三、数学原理与算法分析动态规划模型遗传算法设计编码方案适应度函数约束处理算法参数能量消耗模型一泵房能耗二泵房能耗效率计算模型四、系统特性与创新点代码实现基于python实现完整代码五、应用价值与扩展方向六、结论一、项目介绍本项目是一个基于动态规划和遗传算法的水泵调
机器学习实战---书中谬误讨论奔跑的石头_ 机器学习机器学习 numpy
关注公众号“码字读书会”，了解最新消息。5.2.3节首先要把5.2.2节内容做了，不然得不到回归系数weights值。即dataArr,labelMat=logRegres.loadDataSet()logRegres.gradAscent(dataArr,labelMat)reload(logRegres)logRegres.plotBestFit(weights.getA())此处画图做拟合曲
Python机器学习实战：使用Pandas进行数据预处理与分析 AI天才研究院 AI Agent 应用开发计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：使用Pandas进行数据预处理与分析1.背景介绍在机器学习和数据科学领域中,数据预处理是一个至关重要的步骤。原始数据通常存在噪声、缺失值、异常值等问题,直接将其输入机器学习模型会导致模型性能下降。因此,对数据进行清洗、转换和规范化等预处理操作是必不可少的。Pandas是Python中广泛使用的数据分析库,提供了高性能、易于使用的数据结构和数据分析工具。它可以高效地处理结构
Python机器学习实战：智能聊天机器人的构建与优化 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：智能聊天机器人的构建与优化作者：禅与计算机程序设计艺术1.背景介绍1.1人工智能与聊天机器人的发展历程1.1.1人工智能的起源与发展人工智能（ArtificialIntelligence，AI）的起源可以追溯到上世纪50年代，图灵测试的提出标志着人工智能作为一门学科的诞生。随后，人工智能经历了几次高潮和低谷，期间涌现出许多重要的理论和算法，例如符号主义、连接主义、专家系统
分享全国数字人才技能提升师资培训班第五期邀请函泰迪智能科技01 人工智能人工智能
线下（广州班）：大模型与AIGC多模态技术应用实战线下（青岛班）：Deepseek教学应用与智能体开发实战线上班（十二大专题）：DeepSeek大模型教学应用实战大模型与AIGC技术应用实战大模型部署与微调实战AIGC多模态技术应用实战数据分析与挖掘实战（泰迪杯竞赛方向）大数据分析与机器学习实战（数学建模方向）商务数据分析实战（Python）计算机视觉应用实战（Pytorch）大数据技术应用实战（
分享全国数字人才技能提升师资培训班第五期泰迪智能科技01 人工智能
线下（广州班）：大模型与AIGC多模态技术应用实战线下（青岛班）：Deepseek教学应用与智能体开发实战线上班（十二大专题）：DeepSeek大模型教学应用实战大模型与AIGC技术应用实战大模型部署与微调实战AIGC多模态技术应用实战数据分析与挖掘实战（泰迪杯竞赛方向）大数据分析与机器学习实战（数学建模方向）商务数据分析实战（Python）计算机视觉应用实战（Pytorch）大数据技术应用实战（
python3源代码_机器学习实战源代码python3 weixin_39955781 python3源代码
机器学习实战源代码python3\machinelearninginaction\.git\COMMIT_EDITMSG机器学习实战源代码python3\machinelearninginaction\.git\config机器学习实战源代码python3\machinelearninginaction\.git\description机器学习实战源代码python3\machinelearnin
Python机器学习实战：分布式机器学习框架Dask的入门与实战 AI大模型应用之禅人工智能数学基础计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：分布式机器学习框架Dask的入门与实战作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着大数据时代的到来，数据量的爆炸式增长使得传统的单机处理方式逐渐显得力不从心。无论是数据预处理、特征工程还是模型训练，单机环境下的计算资源和内存限制都成为了瓶颈。为了应对这些挑战，分布式计算框架应运而生。Das
【机器学习实战】监督学习：使用 Scikit-learn 库训练一个房价预测模型 phenix_01 机器学习学习 scikit-learn
一、引言在机器学习领域，监督学习是一种通过已有标注数据训练模型，从而对新数据进行预测的重要方法。房价预测作为回归问题的典型应用，在房地产分析、投资决策等场景中具有重要价值。本文将基于Scikit-learn库，完整演示从数据准备到模型评估的全流程，带领读者掌握房价预测模型的构建方法。二、数据准备：从Kaggle获取数据集本文使用Kaggle上的经典波士顿房价数据集（BostonHousingDat
机器学习实战02：学生成绩预测与可视化分析梦弦18 机器学习信息可视化
目录一、项目背景二、数据读取与初步处理三、数据可视化分析（一）相关性矩阵热图（二）父母教育水平与成绩关系（三）种族与成绩关系（四）测试准备课程与成绩关系（五）其他分析四、机器学习模型构建与评估（一）数据预处理（二）模型训练与评估五、总结六、全代码七.数据集callme在教育领域，了解影响学生成绩的因素并对成绩进行预测，对提升教学质量、制定个性化学习方案具有重要意义。本文将通过一个机器学习实战项目，
Python机器学习实战：掌握NumPy的高效数据操作 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
NumPy,Python,机器学习,数据操作,数组,向量,矩阵,线性代数,科学计算1.背景介绍在机器学习领域，数据是至关重要的资源。高效、准确地处理和操作数据是机器学习模型训练和应用的基础。NumPy（NumericalPython）作为Python生态系统中强大的数值计算库，为机器学习提供了高效的数据结构和操作工具。NumPy的核心是ndarray（n-dimensionalarray）数据结构
机器学习实战步骤与案例 enyp80 机器学习
机器学习实战需要结合理论和实践，以下是一个清晰的实战步骤指南，涵盖关键工具、常见任务示例以及避坑建议，帮助你快速上手：一、机器学习实战核心步骤明确问题与数据准备任务类型:分类、回归、聚类、强化学习？数据来源:Kaggle、UCI、公开API、爬虫或业务数据库。数据格式:结构化数据（CSV/SQL）或非结构化数据（图片/文本）。工具推荐:数据清洗:Pandas、NumPy可视化:Matplotlib
机器学习实战：6种数据集划分方法详解与代码实现慕婉0307 机器学习机器学习人工智能深度学习数据集划分
在机器学习项目中，合理划分数据集是模型开发的关键第一步。本文将全面介绍6种常见数据格式的划分方法，并附完整Python代码示例，帮助初学者掌握这一核心技能。一、数据集划分基础函数1.核心函数：train_test_splitfromsklearn.model_selectionimporttrain_test_split#基本用法X_train,X_test,y_train,y_test=trai
机器学习实战：鸢尾花分类学术乙方 Python 机器学习分类人工智能
项目目标使用经典的鸢尾花数据集（IrisDataset），通过支持向量机（SVM）算法训练一个分类模型，能够根据花瓣和萼片的测量数据预测鸢尾花的种类。环境准备Python#需要安装的库（在终端运行）pipinstallnumpypandasmatplotlibscikit-learn完整代码实现#1.导入必要的库importnumpyasnpimportpandasaspdfromsklearni
机器学习实战：以鸢尾花数据集分类问题为例 Tech Synapse 机器学习分类人工智能 SVM scikit-learn 鸢尾花数据集
在当今数据驱动的时代，机器学习已成为解决复杂问题的重要工具。本文将通过一个具体的分类问题——鸢尾花数据集（IrisDataset）的分类，展示如何在实际项目中应用机器学习。我们将使用Python编程语言，并借助流行的机器学习库scikit-learn来实现这一目标。文章将详细介绍数据预处理、模型选择、训练、评估以及预测等步骤，并提供完整且可直接运行的代码示例。一、项目背景与数据集介绍鸢尾花数据集是
从零搭建量化交易工具链：Python数据处理、策略回测与机器学习实战指南灏瀚星空 python 机器学习开发语言学习人工智能算法金融
从零搭建量化交易工具链：Python数据处理、策略回测与机器学习实战指南引言在算法交易席卷全球金融市场的今天，搭建一套高可用的量化工具链已成为开发者掘金Alpha的核心竞争力。然而，面对庞杂的技术组件——从海量数据的清洗对齐、策略逻辑的回测验证，到机器学习模型的实盘部署——许多开发者陷入困境：Pandas处理Tick数据内存爆炸怎么办？回测曲线完美但实盘表现惨淡如何归因？深度学习模型预测准确却无法
机器学习实战：PyTorch 与 Sklearn 线性回归模型大对决 #guiyin11 机器学习 pytorch sklearn
一、引言在机器学习领域，模型的构建和训练依赖于各种工具和框架。PyTorch和Sklearn作为其中的佼佼者，在实现线性回归模型时各有千秋。深入了解它们的差异和优势，对提升模型性能和开发效率意义重大。本文将全面剖析这两个框架在构建和训练线性回归模型方面的特点。二、实验原理（一）线性回归基本原理线性回归旨在寻找输入特征X与输出标签y的线性关系，通过公式y=Xθ+ϵ来描述。其中，θ是待估参数，ϵ为随机
Python机器学习实战：机器学习在金融风险评估中的应用 AI天才研究院 AI大模型应用入门实战与进阶 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：机器学习在金融风险评估中的应用1.背景介绍金融风险评估是金融行业中至关重要的一环。随着数据量的爆炸性增长和计算能力的提升，机器学习在金融风险评估中的应用变得越来越普遍。通过机器学习算法，我们可以更准确地预测违约风险、市场风险和操作风险，从而帮助金融机构做出更明智的决策。2.核心概念与联系2.1机器学习概述机器学习是一种通过数据训练模型，使其能够自动改进和预测的技术。它主要
【机器学习】解锁智能奥秘：从理论到实战的奇幻之旅 Guiat 科学技术变革创新机器学习人工智能开源数据化
个人主页：GUIQU.归属专栏：科学技术变革创新文章目录1.机器学习：开启智能新时代2.机器学习的基础概念大揭秘2.1定义与内涵2.2与人工智能、深度学习的关系图谱2.3关键术语全解析3.机器学习三要素：模型、策略与算法的深度剖析3.1模型：问题解决的基石3.2策略：模型优劣的裁判3.3算法：模型优化的引擎4.机器学习实战：从数据到模型的蜕变之旅4.1数据准备：机器学习的燃料4.2模型搭建：智能大
政安晨：【Keras机器学习示例演绎】（十四）—— 用于弱光图像增强的零 DCE 政安晨机器学习 keras 人工智能 tensorflow 深度学习神经网络弱光图像增强
目录简介下载LOL数据集创建TensorFlow数据集零DCE框架了解光线增强曲线DCE-Net损失函数色彩恒定损失曝光损失光照平滑度损失空间一致性损失深度曲线估计模型训练推论测试图像推理政安晨的个人主页：政安晨欢迎点赞✍评论⭐收藏收录专栏:TensorFlow与Keras机器学习实战希望政安晨的博客能够对您有所裨益，如有不足之处，欢迎在评论区提出指正！本文目标：实施零参考深度曲线估算，实现低-高
Python机器学习实战：随机森林算法集成学习的力量 AGI大模型与大数据研究院程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：随机森林算法-集成学习的力量作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：Python，机器学习，随机森林，集成学习，分类，回归，数据科学，机器学习算法1.背景介绍1.1问题的由来随着数据科学的快速发展，机器学习技术在各个领域都得到了广泛应用。在众多机器学习算法中，随机森林（RandomForest）因其强大的分类
【机器学习实战】加密货币价格预测：从数据探索到模型优化的完整指南 loopdeloop 机器学习人工智能
【机器学习实战】加密货币价格预测：从数据探索到模型优化的完整指南前言最近在《机器学习》课程中完成了一个关于加密货币价格预测的项目，收获颇丰。作为一个小白，从数据清洗到模型优化，踩了不少坑也积累了一些经验。今天就把这个项目的完整过程分享给大家，希望能帮助到对机器学习和加密货币感兴趣的同学~项目概述这个项目的主要目标是利用机器学习算法预测加密货币价格的涨跌趋势。我们使用了一个包含10,422条交易记录
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc