不论如何未来很美好

数据挖掘十大算法（十）：CART（分类回归树）

本文记录一下关于CART的相关知识其中包括（回归树、树的后剪枝、模型树、树回归模型的预测（树回归模型的评估））。在之前学习完ID3算法有记录一篇相关的学习笔记，所以后面学习CART算法能有一个比较和熟悉的理解。

贪心算法的决策树，构建算法是ID3，即通过香农熵计算数据的混乱程度，然后求出信息增益，每次选择最大信息增益的划分方式，作为当前的划分方式，直到数据集完成划分，被划分过的特征在之后不会再有任何作用。所以这种划分方式被认为过于迅速，并且处理连续型数据时需要先离散化，这样可能会破坏连续型数据的内在性质。

另一种切分方式是二元切分法，即每次把数据切成两份。如果数据的某特征值等于切分所要求的值，那么这些数据就进入左子树，反之则进入右子树，这就是CART算法的思想。

CART（分类回归树）算法，该算法既可以用来分类还可以用来回归，所以很值得学习。下面首先使用CART算法构建回归树，并介绍如何为复杂的回归树剪枝（防止过拟合问题）。然后引入一种更高级的方法——模型树。最后对回归树、模型树、线性回归做一个预测（评估）。

模型树与回归树（在叶子节点使用各自的均值做预测）不同，该算法需要在每个叶子节点构建出一个线性模型。

一个核心递归伪代码：

找到最佳的待切分特征：
如果该节点不能再分，将该节点存为叶节点
执行二元切分
在右子树继续调用该函数
在左子树继续调用该函数

回归树：

说明：创建树函数creatTree()的两个参数默认值为回归树的叶子节点创建函数、误差计算函数，所以这决定了如果使用默认值，则创建的是回归树。后面我们需要构建模型树，只需要改为传入模型树的两个函数参数即可。参数ops为预剪枝方法，该参数的设置决定了树构建的大小。

样例数据（来自第九章）：

from numpy import *
import matplotlib.pyplot as plt

# 读取本地文件，python3 list(map)
def loadDataSet(fileName):
    dataMat = []
    fr = open(fileName)
    for line in fr.readlines():
        curLine = line.strip().split('\t')
        fltLine = list(map(float,curLine))  # python3问题修改
        dataMat.append(fltLine)
    return dataMat

# 根据特征值划分数据集，得到两个数据集
def binSplitDataSet(dataSet, feature, value):   # nonzero返回真（True）值的下标
    mat0 = dataSet[nonzero(dataSet[:,feature] > value)[0],:] # 取该列某值大于特征值的行
    mat1 = dataSet[nonzero(dataSet[:,feature] <= value)[0],:]   # python3问题修改
    return mat0,mat1

# 返回一个值，生成叶子节点（目标变量均值）
def regLeaf(dataSet):
    return mean(dataSet[:,-1])

# 误差计算函数 返回方差总和
def regErr(dataSet):
    return var(dataSet[:,-1]) * shape(dataSet)[0]   # var方差计算函数

# 选择最佳的特征、特征值   （一旦不满足划分的条件便返回叶子节点）
def chooseBestSplit(dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)):
    tolS = ops[0]; tolN = ops[1]
    if len(set(dataSet[:,-1].T.tolist()[0])) == 1:  # 特征值唯一，返回None和叶子节点
        return None, leafType(dataSet)
    m,n = shape(dataSet)
    S = errType(dataSet)    # 获得数据集的混乱程度误差，后面求混乱程度减少了多少
    bestS = inf; bestIndex = 0; bestValue = 0
    for featIndex in range(n-1):
        for splitVal in set((dataSet[:, featIndex].T.A.tolist())[0]):   # python3问题修改
            mat0, mat1 = binSplitDataSet(dataSet, featIndex, splitVal)      # 二分 划分数据集
            if (shape(mat0)[0] < tolN) or (shape(mat1)[0] < tolN): continue # 若划分效果不好（数据集太小），继续划分
            newS = errType(mat0) + errType(mat1)    # 两个数据集的混乱程度求和，与bestS相比较
            if newS < bestS:
                bestIndex = featIndex
                bestValue = splitVal
                bestS = newS
    # 如果混乱程度减少不大，则返回叶子节点
    if (S - bestS) < tolS:
        return None, leafType(dataSet)
    mat0, mat1 = binSplitDataSet(dataSet, bestIndex, bestValue) # 根据最佳的特征、特征值来二分划分数据
    if (shape(mat0)[0] < tolN) or (shape(mat1)[0] < tolN):  # 若划分效果不好（数据集太小），返回叶子节点
        return None, leafType(dataSet)
    return bestIndex,bestValue # 返回最佳特征、特征值

# 数据集、创建叶子节点、误差计算函数、（1：最小的误差下降阈值 4：切分的最少样本数要求）
def createTree(dataSet, leafType=regLeaf, errType=regErr, ops=(1,4)):
    feat, val = chooseBestSplit(dataSet, leafType, errType, ops) # 选择最佳特征、特征值
    if feat == None: return val  # 若特征为None，返回叶子节点值
    retTree = {}    # 创建字典，用于保存树节点的信息
    retTree['spInd'] = feat
    retTree['spVal'] = val
    lSet, rSet = binSplitDataSet(dataSet, feat, val)    # 根据已经划分返回的特征、特征值继续划分数据集
    retTree['left'] = createTree(lSet, leafType, errType, ops)  # 这两个函数为递归，直到叶子节点
    retTree['right'] = createTree(rSet, leafType, errType, ops)
    return retTree

myDat2 = loadDataSet('ex00.txt')
myMat2 = mat(myDat2)
result = createTree(myMat2)
print(result)

本段代码在书中有几处错误，我找到了两处，另一处参考了一篇博客：

1、TypeError: unsupported operand type(s) for /: ‘map‘ and ‘int‘
修改loadDataSet函数某行为fltLine = list(map(float,curLine))，因为python3中map的返回值变了，所以要加list()
2、TypeError: unhashable type: ‘matrix’
修改chooseBestSplit函数某行为：for splitVal in set((dataSet[:,featIndex].T.A.tolist())[0]): matrix类型不能被hash。
3、TypeError: index 0 is out of bounds
函数修改两行binSplitDataSet
mat0 = dataSet[nonzero(dataSet[:, feature] > value)[0], :]
mat1 = dataSet[nonzero(dataSet[:, feature] <= value)[0], :]

上面的代码不是特别的复杂，核心思想就是通过二元切分法，用目前最佳的方式对数据进行切分。

看一下数据集的图型：

import matplotlib.pyplot as plt
myDat=loadDataSet('ex00.txt')
myMat=mat(myDat)
plt.plot(myMat[:,0],myMat[:,1],'ro')
plt.show()

树的剪枝：

前面我们提过ops参数的设置，可以决定我们树的构建大小，可能过拟合也可能欠拟合。该参数的设置会对我们树在构建过程中就进行剪枝操作，所以这是一种预剪枝操作。下面介绍一下另一种后剪枝操作，一般需要将两种剪枝操作同时使用，能达到更好的剪枝效果。

后剪枝操作：后剪枝需要将数据分为训练集、测试集，首先给定参数，构建足够复杂的树，然后从上而下找到叶子节点，用测试集来判断将这些叶子节点合并能否降低测试误差，如果可以则合并。

# 后剪枝操作
# 判断该节点是否为子节点（字典 True）
def isTree(obj):
    return (type(obj).__name__ == 'dict')

# 递归 从上到下遍历直到两个叶子节点计算它们的平均值（塌陷处理）
def getMean(tree):
    if isTree(tree['right']):
        tree['right'] = getMean(tree['right'])
    if isTree(tree['left']):                        # 塌陷处理 简单描述就是从最下面的叶子节点（通过某种计算方式）开始两两合并
        tree['left'] = getMean(tree['left'])
    return (tree['left'] + tree['right']) / 2.0

# 修剪过程主函数
def prune(tree, testData):
    if shape(testData)[0] == 0: return getMean(tree)  # 如果没有测试集，塌陷处理（及getMean函数）
    if (isTree(tree['right']) or isTree(tree['left'])):  # 如果有树，则根据树的信息划分测试集
        lSet, rSet = binSplitDataSet(testData, tree['spInd'], tree['spVal'])
    if isTree(tree['left']): tree['left'] = prune(tree['left'], lSet)   # 测试集非空，有树，则继续prune递归对测试集进行切分
    if isTree(tree['right']): tree['right'] = prune(tree['right'], rSet)
    # 如果它们现在都是叶子，看看是否可以合并它们
    if not isTree(tree['left']) and not isTree(tree['right']):
        # 划分测试集，计算划分后的误差与划分前的误差，两者比较，若划分更好则合并操作，否则不合并直接返回
        lSet, rSet = binSplitDataSet(testData, tree['spInd'], tree['spVal'])
        errorNoMerge = sum(power(lSet[:, -1] - tree['left'], 2)) + sum(power(rSet[:, -1] - tree['right'], 2))   # 未合并误差
        treeMean = (tree['left'] + tree['right']) / 2.0   # 合并及将两个叶子节点的值求均值
        errorMerge = sum(power(testData[:, -1] - treeMean, 2))  # 合并后误差
        if errorMerge < errorNoMerge:
            print("merging")
            return treeMean # 合并便返回两者的均值
        else:
            return tree
    else:
        return tree

# 获得数据
myDat2 = loadDataSet('ex2.txt')
myMat2 = mat(myDat2)
# 创建尽可能大的树（0，1）
myTree = createTree(myMat2,ops=(0,1))
myDatTest = loadDataSet('ex2test.txt')
myMat2Test = mat(myDatTest)
# 剪枝过程
result = prune(myTree,myMat2Test)
print(result)

这里是剪枝函数，需要调用上面的树模型构建函数。

剪枝过程的判断条件、递归有点多，需要仔细的理解，当然一步一步来都是比较容易理解的。下面介绍更高级的模型树。

模型树：

上面提到过，该方法与回归树不同的地方是：该算法需要在每个叶子节点构建出一个线性模型，取代回归树的均值表示法。

树模型的叶子节点可以是一个常数，当然也可以是分段的线性函数，下面来看一个图就明白：

模型树的可解释性优于回归树，同时具有更高的预测准确度。如图中如果我们使用分段的线性函数肯定比一组常数拟合的效果好，而分段点大概在0.3左右，等下我们构建出模型树后，便可以得到该分段点和分段函数了。

由于模型树的构建与就回归树大致相同，只是叶子节点的创建函数leafType()、误差计算函数errType()需要重新定义，以及传参改变原来的默认参数。下面为模型树的主要函数：

# 模型树构建
# 这里的模型树使用到了上面回归树的函数createTree(),该函数只需改变两个固定参数（子节点生成函数 误差计算函数）
# 便可以在回归树与模型树之间切换

# 获得线性回归系数  与线性回归那里一样
def linearSolve(dataSet):
    m,n = shape(dataSet)
    X = mat(ones((m,n)))
    Y = mat(ones((m,1)))
    X[:,1:n] = dataSet[:,0:n-1]; Y = dataSet[:,-1]
    xTx = X.T*X        # 线性回归公式代入
    if linalg.det(xTx) == 0.0:
        raise NameError('This matrix is singular, cannot do inverse,\n try increasing the second value of ops')
    ws = xTx.I * (X.T * Y)
    return ws,X,Y # 返回回归系数 数据 目标值

# 创建叶子节点（即回归系数）
def modelLeaf(dataSet):#create linear model and return coeficients
    ws,X,Y = linearSolve(dataSet)
    return ws

# 预测目标值 用于与Y求平方误差和
def modelErr(dataSet):
    ws,X,Y = linearSolve(dataSet)
    yHat = X * ws
    return sum(power(Y - yHat,2))

myMat = mat(loadDataSet('exp2.txt'))
myTree = createTree(myMat,modelLeaf,modelErr,(1,10)) # 传入中间两个用于构建模型树的函数参数
print(myTree)

同过模型树返回划分的信息我们来看看它线性回归的拟合线如何：

y = kx + b 左值为b，右值为k，带入横坐标x得到y y = 3.46+1.185x y = 12x

可以看到，分段的拟合线，很不错，也更加的直观。

树回归于标准回归的评估（预测）：

# （树回归模型与标准回归的预测）树回归模型与标准回归的评估

# 回归树的值计算函数
def regTreeEval(model, inDat):
    return float(model)     # 不是树，则为叶节点（值）

# 模型树的值计算函数
def modelTreeEval(model, inDat):
    n = shape(inDat)[1]     # 模型树通过线性回归系数来计算预测值
    X = mat(ones((1, n + 1)))   # 第一个值为1
    X[:, 1:n + 1] = inDat
    return float(X * model) # 测试数据向量*回归系数向量 得到预测值

# 预测 （通过树模型预测当前值）
def treeForeCast(tree, inData, modelEval=regTreeEval):
    if not isTree(tree):    # 如果不是一颗树，则为叶节点（数值）
        return modelEval(tree, inData)
    # 根据树来查询当前测试数据位置
    if inData[tree['spInd']] > tree['spVal']:   #tree['spInd'] 本次树的划分特征点   inData[tree['spInd']] 该特征值
        if isTree(tree['left']):
            return treeForeCast(tree['left'], inData, modelEval)
        else:
            return modelEval(tree['left'], inData)
    else:
        if isTree(tree['right']):
            return treeForeCast(tree['right'], inData, modelEval)
        else:
            return modelEval(tree['right'], inData)

# 预测 （循环所有测试集）
def createForeCast(tree, testData, modelEval=regTreeEval):
    m = len(testData)
    yHat = mat(zeros((m, 1)))
    for i in range(m):
        yHat[i, 0] = treeForeCast(tree, mat(testData[i]), modelEval)
    return yHat

trainMat = mat(loadDataSet('bikeSpeedVsIq_train.txt'))
testMat = mat(loadDataSet('bikeSpeedVsIq_test.txt'))

myTree1 = createTree(trainMat,ops=(1,20))       # 创建回归树
yHat = createForeCast(myTree1,testMat[:,0])     # 预测
result1 = corrcoef(yHat,testMat[:,1],rowvar=0)[0,1] # 该函数计算预测值与真实值的相关系数
print(result1)

myTree2 = createTree(trainMat,modelLeaf,modelErr,ops=(1,20))    # 创建模型树
yHat = createForeCast(myTree2,testMat[:,0],modelTreeEval)
result2 = corrcoef(yHat,testMat[:,1],rowvar=0)[0,1]
# print(myTree2)
print(result2)

ws,X,y = linearSolve(trainMat)    # 标准回归
for i in range(shape(testMat)[0]):
    yHat[i] = testMat[i,0]*ws[1,0]+ws[0,0]
result3 = corrcoef(yHat,testMat[:,1],rowvar=0)[0,1]
print(result3)

从结果可以看到模型树的效果最好，回归树其次，标准回归的效果最差。

以上是所有内容，通过实践可以看到CART算法，相对于ID3算法确实有很大的优势。尤其是对分类和回归通吃更是让人欲罢不能，CART可以用于构建二元树并处理离散型或连续型数据的切分，使用不同的误差准则、叶节点创建，我们可以构建回归树和模型树。

参考书籍：《机器学习实战》

参考博客：https://blog.csdn.net/sinat_17196995/article/details/69621687 某条代码错误参考

搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
板凳-------Mysql cookbook学习（十一--------4)
唐宇迪机器学习实战课程笔记https://blog.csdn.net/weixin_54338498/article/details/128818007?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ECtr-1-12881
Python 机器学习实战：Scikit-learn 算法宝典，从线性回归到支持向量机清水白石008 python Python题库 python 机器学习算法
Python机器学习实战：Scikit-learn算法宝典，从线性回归到支持向量机引言各位Python工程师，大家好！欢迎来到激动人心的机器学习世界！在这个数据驱动的时代，机器学习已经渗透到我们生活的方方面面，从智能推荐系统到自动驾驶汽车，都离不开机器学习技术的支撑。作为一名Python开发者，掌握机器学习技能，无疑将为您的职业发展注入强大的动力，让您在人工智能浪潮中占据先机。Scikit-lea
Python机器学习实战——逻辑回归（附完整代码和结果）小白熊XBX 机器学习机器学习 python 逻辑回归
Python机器学习实战——逻辑回归（附完整代码和结果）关于作者作者：小白熊作者简介：精通c#、Halcon、Python、Matlab，擅长机器视觉、机器学习、深度学习、数字图像处理、工业检测识别定位、用户界面设计、目标检测、图像分类、姿态识别、人脸识别、语义分割、路径规划、智能优化算法、大数据分析、各类算法融合创新等等。联系邮箱：[email protected]科研辅导、知识付费答疑、个性化定制
Python 机器学习实战：泰坦尼克号生还者预测 (从数据探索到模型构建) 程序员阿超的博客 Python python 机器学习开发语言泰坦尼克号 Kaggle Scikit-learn 实战教程
引言：挑战介绍泰坦尼克号的沉没是历史上最著名的海难之一。除了其悲剧色彩，它还为数据科学提供了一个经典且引人入胜的入门项目。Kaggle平台上的“Titanic:MachineLearningfromDisaster”竞赛，要求我们利用乘客数据来预测哪些人更有可能在这场灾难中幸存。这是一个典型的二元分类问题：目标变量Survived只有两个值，0（遇难）或1（生还）。这个项目之所以经典，是因为它涵盖
**基于Python的数据分析与机器学习实战教程****一、引言**随着大数据时代的到来，数据处理和分析能力已经成为现代软件开发人员的必备技能之一。Python作为一种高效、简洁且功能丰富的编程语言， 2401_89451588 python 数据分析机器学习
基于Python的数据分析与机器学习实战教程一、引言随着大数据时代的到来，数据处理和分析能力已经成为现代软件开发人员的必备技能之一。Python作为一种高效、简洁且功能丰富的编程语言，在数据分析领域得到了广泛的应用。本文将介绍如何使用Python进行数据分析，并结合机器学习算法实现数据驱动的应用。二、Python基础首先，我们需要掌握Python的基本语法和常用的库。Python的语法简洁易懂，上
这份「零基础」机器学习实战课程，帮你彻底搞懂AI不再迷茫！——深度解析ML-For-Beginners wylee 人工智能机器学习
引言：告别迷茫，拥抱AI未来在当今科技浪潮之巅，人工智能（AI）无疑是最璀璨的明星。机器学习（MachineLearning），作为AI的核心驱动力，正以前所未有的速度渗透到我们生活的方方面面：从智能推荐系统到自动驾驶，从疾病诊断到金融风控，其应用场景几乎无处不在。然而，对于无数渴望投身AI领域的学习者而言，机器学习的门槛似乎一直高不可攀。你是否也曾有过这样的困惑：面对海量的在线课程和资料，眼花缭
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
Python机器学习实战：推荐系统的原理与实现方法 AI大模型应用之禅人工智能数学基础计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：推荐系统的原理与实现方法1.背景介绍1.1问题的由来在当今数字化时代，推荐系统已成为电子商务、媒体流媒体平台、社交媒体以及在线购物网站的核心组件之一。推荐系统旨在根据用户的历史行为、偏好以及社会关系等因素，为用户提供个性化的内容或商品建议，从而提高用户体验、增加用户粘性，并提升业务转化率。1.2研究现状随着大数据和深度学习技术的快速发展，推荐系统正从基于规则的简单过滤模型
机器学习实战36-基于遗传算法的水泵调度优化项目研究与代码实现微学AI 机器学习实战项目机器学习数学建模人工智能
大家好，我是微学AI，今天给大家介绍一下机器学习实战36-基于遗传算法的水泵调度优化项目研究与代码实现。文章目录一、项目介绍二、项目背景三、数学原理与算法分析动态规划模型遗传算法设计编码方案适应度函数约束处理算法参数能量消耗模型一泵房能耗二泵房能耗效率计算模型四、系统特性与创新点代码实现基于python实现完整代码五、应用价值与扩展方向六、结论一、项目介绍本项目是一个基于动态规划和遗传算法的水泵调
机器学习实战---书中谬误讨论奔跑的石头_ 机器学习机器学习 numpy
关注公众号“码字读书会”，了解最新消息。5.2.3节首先要把5.2.2节内容做了，不然得不到回归系数weights值。即dataArr,labelMat=logRegres.loadDataSet()logRegres.gradAscent(dataArr,labelMat)reload(logRegres)logRegres.plotBestFit(weights.getA())此处画图做拟合曲
Python机器学习实战：使用Pandas进行数据预处理与分析 AI天才研究院 AI Agent 应用开发计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：使用Pandas进行数据预处理与分析1.背景介绍在机器学习和数据科学领域中,数据预处理是一个至关重要的步骤。原始数据通常存在噪声、缺失值、异常值等问题,直接将其输入机器学习模型会导致模型性能下降。因此,对数据进行清洗、转换和规范化等预处理操作是必不可少的。Pandas是Python中广泛使用的数据分析库,提供了高性能、易于使用的数据结构和数据分析工具。它可以高效地处理结构
Python机器学习实战：智能聊天机器人的构建与优化 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：智能聊天机器人的构建与优化作者：禅与计算机程序设计艺术1.背景介绍1.1人工智能与聊天机器人的发展历程1.1.1人工智能的起源与发展人工智能（ArtificialIntelligence，AI）的起源可以追溯到上世纪50年代，图灵测试的提出标志着人工智能作为一门学科的诞生。随后，人工智能经历了几次高潮和低谷，期间涌现出许多重要的理论和算法，例如符号主义、连接主义、专家系统
分享全国数字人才技能提升师资培训班第五期邀请函泰迪智能科技01 人工智能人工智能
线下（广州班）：大模型与AIGC多模态技术应用实战线下（青岛班）：Deepseek教学应用与智能体开发实战线上班（十二大专题）：DeepSeek大模型教学应用实战大模型与AIGC技术应用实战大模型部署与微调实战AIGC多模态技术应用实战数据分析与挖掘实战（泰迪杯竞赛方向）大数据分析与机器学习实战（数学建模方向）商务数据分析实战（Python）计算机视觉应用实战（Pytorch）大数据技术应用实战（
数据挖掘算法在金融行业中的应用与案例解析数字魔方操控师数据挖掘算法金融
引言在当今数字化时代，金融行业积累了海量的数据。如何从这些海量数据中提取有价值的信息，成为金融机构提升竞争力、降低风险、优化服务的关键。数据挖掘算法应运而生，通过运用聚类算法、关联规则挖掘等技术，为金融行业的决策提供有力支持。聚类算法在金融行业的应用客户细分聚类算法可以将金融客户按照不同的特征进行分组。例如，通过分析客户的年龄、收入、资产规模、消费习惯等数据，将客户分为不同的群体。对于高净值客户群
分享全国数字人才技能提升师资培训班第五期泰迪智能科技01 人工智能
线下（广州班）：大模型与AIGC多模态技术应用实战线下（青岛班）：Deepseek教学应用与智能体开发实战线上班（十二大专题）：DeepSeek大模型教学应用实战大模型与AIGC技术应用实战大模型部署与微调实战AIGC多模态技术应用实战数据分析与挖掘实战（泰迪杯竞赛方向）大数据分析与机器学习实战（数学建模方向）商务数据分析实战（Python）计算机视觉应用实战（Pytorch）大数据技术应用实战（
python3源代码_机器学习实战源代码python3 weixin_39955781 python3源代码
机器学习实战源代码python3\machinelearninginaction\.git\COMMIT_EDITMSG机器学习实战源代码python3\machinelearninginaction\.git\config机器学习实战源代码python3\machinelearninginaction\.git\description机器学习实战源代码python3\machinelearnin
从算法菜鸟到挖掘达人：数据挖掘的算法大冒险 Echo_Wish 大数据算法数据挖掘人工智能
「从算法菜鸟到挖掘达人：数据挖掘的算法大冒险」在这个“大数据”满天飞的时代，数据挖掘不只是个高大上的名词，它正悄悄渗透进我们的日常生活。不论是网购推荐的贴心好物，还是短视频平台精准的“上头”内容推荐，这一切的背后都离不开数据挖掘算法。今天，咱们就从零基础的视角出发，聊聊数据挖掘算法的“生存之道”。什么是数据挖掘算法？通俗来讲，数据挖掘算法就是一套套路，用来从数据海洋中打捞出有价值的信息。经典的挖掘
Python机器学习实战：分布式机器学习框架Dask的入门与实战 AI大模型应用之禅人工智能数学基础计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：分布式机器学习框架Dask的入门与实战作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着大数据时代的到来，数据量的爆炸式增长使得传统的单机处理方式逐渐显得力不从心。无论是数据预处理、特征工程还是模型训练，单机环境下的计算资源和内存限制都成为了瓶颈。为了应对这些挑战，分布式计算框架应运而生。Das
【机器学习实战】监督学习：使用 Scikit-learn 库训练一个房价预测模型 phenix_01 机器学习学习 scikit-learn
一、引言在机器学习领域，监督学习是一种通过已有标注数据训练模型，从而对新数据进行预测的重要方法。房价预测作为回归问题的典型应用，在房地产分析、投资决策等场景中具有重要价值。本文将基于Scikit-learn库，完整演示从数据准备到模型评估的全流程，带领读者掌握房价预测模型的构建方法。二、数据准备：从Kaggle获取数据集本文使用Kaggle上的经典波士顿房价数据集（BostonHousingDat
机器学习实战02：学生成绩预测与可视化分析梦弦18 机器学习信息可视化
目录一、项目背景二、数据读取与初步处理三、数据可视化分析（一）相关性矩阵热图（二）父母教育水平与成绩关系（三）种族与成绩关系（四）测试准备课程与成绩关系（五）其他分析四、机器学习模型构建与评估（一）数据预处理（二）模型训练与评估五、总结六、全代码七.数据集callme在教育领域，了解影响学生成绩的因素并对成绩进行预测，对提升教学质量、制定个性化学习方案具有重要意义。本文将通过一个机器学习实战项目，
Python机器学习实战：掌握NumPy的高效数据操作 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
NumPy,Python,机器学习,数据操作,数组,向量,矩阵,线性代数,科学计算1.背景介绍在机器学习领域，数据是至关重要的资源。高效、准确地处理和操作数据是机器学习模型训练和应用的基础。NumPy（NumericalPython）作为Python生态系统中强大的数值计算库，为机器学习提供了高效的数据结构和操作工具。NumPy的核心是ndarray（n-dimensionalarray）数据结构
机器学习实战步骤与案例 enyp80 机器学习
机器学习实战需要结合理论和实践，以下是一个清晰的实战步骤指南，涵盖关键工具、常见任务示例以及避坑建议，帮助你快速上手：一、机器学习实战核心步骤明确问题与数据准备任务类型:分类、回归、聚类、强化学习？数据来源:Kaggle、UCI、公开API、爬虫或业务数据库。数据格式:结构化数据（CSV/SQL）或非结构化数据（图片/文本）。工具推荐:数据清洗:Pandas、NumPy可视化:Matplotlib
机器学习实战：6种数据集划分方法详解与代码实现慕婉0307 机器学习机器学习人工智能深度学习数据集划分
在机器学习项目中，合理划分数据集是模型开发的关键第一步。本文将全面介绍6种常见数据格式的划分方法，并附完整Python代码示例，帮助初学者掌握这一核心技能。一、数据集划分基础函数1.核心函数：train_test_splitfromsklearn.model_selectionimporttrain_test_split#基本用法X_train,X_test,y_train,y_test=trai
机器学习实战：鸢尾花分类学术乙方 Python 机器学习分类人工智能
项目目标使用经典的鸢尾花数据集（IrisDataset），通过支持向量机（SVM）算法训练一个分类模型，能够根据花瓣和萼片的测量数据预测鸢尾花的种类。环境准备Python#需要安装的库（在终端运行）pipinstallnumpypandasmatplotlibscikit-learn完整代码实现#1.导入必要的库importnumpyasnpimportpandasaspdfromsklearni
机器学习实战：以鸢尾花数据集分类问题为例 Tech Synapse 机器学习分类人工智能 SVM scikit-learn 鸢尾花数据集
在当今数据驱动的时代，机器学习已成为解决复杂问题的重要工具。本文将通过一个具体的分类问题——鸢尾花数据集（IrisDataset）的分类，展示如何在实际项目中应用机器学习。我们将使用Python编程语言，并借助流行的机器学习库scikit-learn来实现这一目标。文章将详细介绍数据预处理、模型选择、训练、评估以及预测等步骤，并提供完整且可直接运行的代码示例。一、项目背景与数据集介绍鸢尾花数据集是
从零搭建量化交易工具链：Python数据处理、策略回测与机器学习实战指南灏瀚星空 python 机器学习开发语言学习人工智能算法金融
从零搭建量化交易工具链：Python数据处理、策略回测与机器学习实战指南引言在算法交易席卷全球金融市场的今天，搭建一套高可用的量化工具链已成为开发者掘金Alpha的核心竞争力。然而，面对庞杂的技术组件——从海量数据的清洗对齐、策略逻辑的回测验证，到机器学习模型的实盘部署——许多开发者陷入困境：Pandas处理Tick数据内存爆炸怎么办？回测曲线完美但实盘表现惨淡如何归因？深度学习模型预测准确却无法
机器学习实战：PyTorch 与 Sklearn 线性回归模型大对决 #guiyin11 机器学习 pytorch sklearn
一、引言在机器学习领域，模型的构建和训练依赖于各种工具和框架。PyTorch和Sklearn作为其中的佼佼者，在实现线性回归模型时各有千秋。深入了解它们的差异和优势，对提升模型性能和开发效率意义重大。本文将全面剖析这两个框架在构建和训练线性回归模型方面的特点。二、实验原理（一）线性回归基本原理线性回归旨在寻找输入特征X与输出标签y的线性关系，通过公式y=Xθ+ϵ来描述。其中，θ是待估参数，ϵ为随机
Python机器学习实战：机器学习在金融风险评估中的应用 AI天才研究院 AI大模型应用入门实战与进阶 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：机器学习在金融风险评估中的应用1.背景介绍金融风险评估是金融行业中至关重要的一环。随着数据量的爆炸性增长和计算能力的提升，机器学习在金融风险评估中的应用变得越来越普遍。通过机器学习算法，我们可以更准确地预测违约风险、市场风险和操作风险，从而帮助金融机构做出更明智的决策。2.核心概念与联系2.1机器学习概述机器学习是一种通过数据训练模型，使其能够自动改进和预测的技术。它主要
数据挖掘与机器学习技术数据库
数据挖掘与机器学习技术数据挖掘算法：数据挖掘旨在从大量数据中发现潜在的模式和规律。常见的数据挖掘算法包括关联规则挖掘（如Apriori算法）、聚类分析（如K-Means算法）、分类算法（如决策树、支持向量机等）。例如，电商平台可以通过关联规则挖掘发现用户购买商品之间的关联关系，从而进行精准营销。机器学习框架：机器学习是大数据分析的核心技术之一，它让计算机通过数据学习模式和规律，并进行预测和决策。常
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C

数据挖掘十大算法（十）：CART（分类回归树）

回归树：

树的剪枝：

树回归于标准回归的评估（预测）：

你可能感兴趣的:(机器学习实战,数据挖掘算法)