捕捉一只Diu

机器学习：回归决策树（Python）

一、平方误差的计算

square_error_utils.py

import numpy as np


class SquareErrorUtils:
    """
    平方误差最小化准则，选择其中最优的一个作为切分点
    对特征属性进行分箱处理
    """
    @staticmethod
    def _set_sample_weight(sample_weight, n_samples):
        """
        扩展到集成学习，此处为样本权重的设置
        :param sample_weight: 各样本的权重
        :param n_samples: 样本量
        :return:
        """
        if sample_weight is None:
            sample_weight = np.asarray([1.0] * n_samples)
        return sample_weight

    @staticmethod
    def square_error(y, sample_weight):
        """
        平方误差
        :param y: 当前划分区域的目标值集合
        :param sample_weight: 当前样本的权重
        :return:
        """
        y = np.asarray(y)
        return np.sum((y - y.mean()) ** 2 * sample_weight)

    def cond_square_error(self, x, y, sample_weight):
        """
        计算根据某个特征x划分的区域中y的误差值
        :param x: 某个特征划分区域所包含的样本
        :param y: x对应的目标值
        :param sample_weight: 当前x的权重
        :return:
        """
        x, y = np.asarray(x), np.asarray(y)
        error = 0.0
        for x_val in set(x):
            x_idx = np.where(x == x_val)  # 按区域计算误差
            new_y = y[x_idx]  # 对应区域的目标值
            new_sample_weight = sample_weight[x_idx]
            error += self.square_error(new_y, new_sample_weight)
        return error

    def square_error_gain(self, x, y, sample_weight=None):
        """
        平方误差带来的增益值
        :param x: 某个特征变量
        :param y: 对应的目标值
        :param sample_weight: 样本权重
        :return:
        """
        sample_weight = self._set_sample_weight(sample_weight, len(x))
        return self.square_error(y, sample_weight) - self.cond_square_error(x, y, sample_weight)

二、树的结点信息封装


class TreeNode_R:
    """
    决策树回归算法，树的结点信息封装，实体类：setXXX()、getXXX()
    """
    def __init__(self, feature_idx: int = None, feature_val=None, y_hat=None, square_error: float = None,
                 criterion_val=None, n_samples: int = None, left_child_Node=None, right_child_Node=None):
        """
        决策树结点信息封装
        :param feature_idx: 特征索引，如果指定特征属性的名称，可以按照索引取值
        :param feature_val: 特征取值
        :param square_error: 划分结点的标准：当前结点的平方误差
        :param n_samples: 当前结点所包含的样本量
        :param y_hat: 当前结点的预测值：Ci
        :param left_child_Node: 左子树
        :param right_child_Node: 右子树
        """
        self.feature_idx = feature_idx
        self.feature_val = feature_val
        self.criterion_val = criterion_val
        self.square_error = square_error
        self.n_samples = n_samples
        self.y_hat = y_hat
        self.left_child_Node = left_child_Node  # 递归
        self.right_child_Node = right_child_Node  # 递归

    def level_order(self):
        """
        按层次遍历树...
        :return:
        """
        pass

    # def get_feature_idx(self):
    #     return self.get_feature_idx()
    #
    # def set_feature_idx(self, feature_idx):
    #     self.feature_idx = feature_idx

三、回归决策树CART算法实现

import numpy as np
from utils.square_error_utils import SquareErrorUtils
from utils.tree_node_R import TreeNode_R
from utils.data_bin_wrapper import DataBinsWrapper


class DecisionTreeRegression:
    """
    回归决策树CART算法实现：按照二叉树构造
    1. 划分标准：平方误差最小化
    2. 创建决策树fit()，递归算法实现，注意出口条件
    3. 预测predict_proba()、predict() --> 对树的搜索
    4. 数据的预处理操作，尤其是连续数据的离散化，分箱
    5. 剪枝处理
    """
    def __init__(self, criterion="mse", max_depth=None, min_sample_split=2, min_sample_leaf=1,
                 min_target_std=1e-3, min_impurity_decrease=0, max_bins=10):
        self.utils = SquareErrorUtils()  # 结点划分类
        self.criterion = criterion  # 结点的划分标准
        if criterion.lower() == "mse":
            self.criterion_func = self.utils.square_error_gain  # 平方误差增益
        else:
            raise ValueError("参数criterion仅限mse...")
        self.min_target_std = min_target_std  # 最小的样本目标值方差，小于阈值不划分
        self.max_depth = max_depth  # 树的最大深度，不传参，则一直划分下去
        self.min_sample_split = min_sample_split  # 最小的划分结点的样本量，小于则不划分
        self.min_sample_leaf = min_sample_leaf  # 叶子结点所包含的最小样本量，剩余的样本小于这个值，标记叶子结点
        self.min_impurity_decrease = min_impurity_decrease  # 最小结点不纯度减少值，小于这个值，不足以划分
        self.max_bins = max_bins  # 连续数据的分箱数，越大，则划分越细
        self.root_node: TreeNode_R() = None  # 回归决策树的根节点
        self.dbw = DataBinsWrapper(max_bins=max_bins)  # 连续数据离散化对象
        self.dbw_XrangeMap = {}  # 存储训练样本连续特征分箱的端点

    def fit(self, x_train, y_train, sample_weight=None):
        """
        回归决策树的创建，递归操作前的必要信息处理（分箱）
        :param x_train: 训练样本：ndarray，n * k
        :param y_train: 目标集：ndarray，（n， ）
        :param sample_weight: 各样本的权重，（n， ）
        :return:
        """
        x_train, y_train = np.asarray(x_train), np.asarray(y_train)
        self.class_values = np.unique(y_train)  # 样本的类别取值
        n_samples, n_features = x_train.shape  # 训练样本的样本量和特征属性数目
        if sample_weight is None:
            sample_weight = np.asarray([1.0] * n_samples)
        self.root_node = TreeNode_R()  # 创建一个空树
        self.dbw.fit(x_train)
        x_train = self.dbw.transform(x_train)
        self._build_tree(1, self.root_node, x_train, y_train, sample_weight)

    def _build_tree(self, cur_depth, cur_node: TreeNode_R, x_train, y_train, sample_weight):
        """
        递归创建回归决策树算法，核心算法。按先序（中序、后序）创建的
        :param cur_depth: 递归划分后的树的深度
        :param cur_node: 递归划分后的当前根结点
        :param x_train: 递归划分后的训练样本
        :param y_train: 递归划分后的目标集合
        :param sample_weight: 递归划分后的各样本权重
        :return:
        """
        n_samples, n_features = x_train.shape  # 当前样本子集中的样本量和特征属性数目
        # 计算当前数结点的预测值，即加权平均值，
        cur_node.y_hat = np.dot(sample_weight / np.sum(sample_weight), y_train)
        cur_node.n_samples = n_samples

        # 递归出口判断
        cur_node.square_error = ((y_train - y_train.mean()) ** 2).sum()
        # 所有的样本目标值较为集中，样本方差非常小，不足以划分
        if cur_node.square_error <= self.min_target_std:
            # 如果为0，则表示当前样本集合为空，递归出口3
            return
        if n_samples < self.min_sample_split:  # 当前结点所包含的样本量不足以划分
            return
        if self.max_depth is not None and cur_depth > self.max_depth:  # 树的深度达到最大深度
            return

        # 划分标准，选择最佳的划分特征及其取值
        best_idx, best_val, best_criterion_val = None, None, 0.0
        for k in range(n_features):  # 对当前样本集合中每个特征计算划分标准
            for f_val in sorted(np.unique(x_train[:, k])):  # 当前特征的不同取值
                region_x = (x_train[:, k] <= f_val).astype(int)  # 是当前取值f_val就是1，否则就是0
                criterion_val = self.criterion_func(region_x, y_train, sample_weight)
                if criterion_val > best_criterion_val:
                    best_criterion_val = criterion_val  # 最佳的划分标准值
                    best_idx, best_val = k, f_val  # 当前最佳特征索引以及取值

        # 递归出口的判断
        if best_idx is None:  # 当前属性为空，或者所有样本在所有属性上取值相同，无法划分
            return
        if best_criterion_val <= self.min_impurity_decrease:  # 小于最小不纯度阈值，不划分
            return
        cur_node.criterion_val = best_criterion_val
        cur_node.feature_idx = best_idx
        cur_node.feature_val = best_val

        # print("当前划分的特征索引：", best_idx, "取值：", best_val, "最佳标准值：", best_criterion_val)
        # print("当前结点的类别分布：", target_dist)

        # 创建左子树，并递归创建以当前结点为子树根节点的左子树
        left_idx = np.where(x_train[:, best_idx] <= best_val)  # 左子树所包含的样本子集索引
        if len(left_idx) >= self.min_sample_leaf:  # 小于叶子结点所包含的最少样本量，则标记为叶子结点
            left_child_node = TreeNode_R()  # 创建左子树空结点
            # 以当前结点为子树根结点，递归创建
            cur_node.left_child_Node = left_child_node
            self._build_tree(cur_depth + 1, left_child_node, x_train[left_idx],
                             y_train[left_idx], sample_weight[left_idx])

        right_idx = np.where(x_train[:, best_idx] > best_val)  # 右子树所包含的样本子集索引
        if len(right_idx) >= self.min_sample_leaf:  # 小于叶子结点所包含的最少样本量，则标记为叶子结点
            right_child_node = TreeNode_R()  # 创建右子树空结点
            # 以当前结点为子树根结点，递归创建
            cur_node.right_child_Node = right_child_node
            self._build_tree(cur_depth + 1, right_child_node, x_train[right_idx],
                             y_train[right_idx], sample_weight[right_idx])

    def _search_tree_predict(self, cur_node: TreeNode_R, x_test):
        """
        根据测试样本从根结点到叶子结点搜索路径，判定所属区域（叶子结点）
        搜索：按照后续遍历
        :param x_test: 单个测试样本
        :return:
        """
        if cur_node.left_child_Node and x_test[cur_node.feature_idx] <= cur_node.feature_val:
            return self._search_tree_predict(cur_node.left_child_Node, x_test)
        elif cur_node.right_child_Node and x_test[cur_node.feature_idx] > cur_node.feature_val:
            return self._search_tree_predict(cur_node.right_child_Node, x_test)
        else:
            # 叶子结点，类别，包含有类别分布
            return cur_node.y_hat

    def predict(self, x_test):
        """
        预测测试样本x_test的预测值
        :param x_test: 测试样本ndarray、numpy数值运算
        :return:
        """
        x_test = np.asarray(x_test)  # 避免传递DataFrame、list...
        if self.dbw.XrangeMap is None:
            raise ValueError("请先进行回归决策树的创建，然后预测...")
        x_test = self.dbw.transform(x_test)
        y_test_pred = []  # 用于存储测试样本的预测值
        for i in range(x_test.shape[0]):
            y_test_pred.append(self._search_tree_predict(self.root_node, x_test[i]))
        return np.asarray(y_test_pred)

    @staticmethod
    def cal_mse_r2(y_test, y_pred):
        """
        模型预测的均方误差MSE和判决系数R2
        :param y_test: 测试样本的真值
        :param y_pred: 测试样本的预测值
        :return:
        """
        y_test, y_pred = y_test.reshape(-1), y_pred.reshape(-1)
        mse = ((y_pred - y_test) ** 2).mean()  # 均方误差
        r2 = 1 - ((y_pred - y_test) ** 2).sum() / ((y_test - y_test.mean()) ** 2).sum()
        return mse, r2

    def _prune_node(self, cur_node: TreeNode_R, alpha):
        """
        递归剪枝，针对决策树中的内部结点，自底向上，逐个考察
        方法：后序遍历
        :param cur_node: 当前递归的决策树的内部结点
        :param alpha: 剪枝阈值
        :return:
        """
        # 若左子树存在，递归左子树进行剪枝
        if cur_node.left_child_Node:
            self._prune_node(cur_node.left_child_Node, alpha)
        # 若右子树存在，递归右子树进行剪枝
        if cur_node.right_child_Node:
            self._prune_node(cur_node.right_child_Node, alpha)

        # 针对决策树的内部结点剪枝，非叶结点
        if cur_node.left_child_Node is not None or cur_node.right_child_Node is not None:
            for child_node in [cur_node.left_child_Node, cur_node.right_child_Node]:
                if child_node is None:
                    # 可能存在左右子树之一为空的情况，当左右子树划分的样本子集数小于min_samples_leaf
                    continue
                if child_node.left_child_Node is not None or child_node.right_child_Node is not None:
                    return
            # 计算剪枝前的损失值（平方误差），2表示当前结点包含两个叶子结点
            pre_prune_value = 2 * alpha
            if cur_node and cur_node.left_child_Node is not None:
                pre_prune_value += (0.0 if cur_node.left_child_Node.square_error is None
                                    else cur_node.left_child_Node.square_error)
            if cur_node and cur_node.right_child_Node is not None:
                pre_prune_value += (0.0 if cur_node.right_child_Node.square_error is None
                                    else cur_node.right_child_Node.square_error)

            # 计算剪枝后的损失值，当前结点即是叶子结点
            after_prune_value = alpha + cur_node.square_error

            if after_prune_value <= pre_prune_value:  # 进行剪枝操作
                cur_node.left_child_Node = None
                cur_node.right_child_Node = None
                cur_node.feature_idx, cur_node.feature_val = None, None
                cur_node.square_error = None

    def prune(self, alpha=0.01):
        """
        决策树后剪枝算法（李航）C(T) + alpha * |T|
        :param alpha: 剪枝阈值，权衡模型对训练数据的拟合程度与模型的复杂度
        :return:
        """
        self._prune_node(self.root_node, alpha)
        return self.root_node

四、回归决策树算法的测试

test_decision_tree_R.py

import numpy as np
import matplotlib.pyplot as plt
from decision_tree_R import DecisionTreeRegression
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor


obj_fun = lambda x: np.sin(x)
np.random.seed(0)
n = 100
x = np.linspace(0, 10, n)
target = obj_fun(x) + 0.3 * np.random.randn(n)
data = x[:, np.newaxis]  # 二维数组

tree = DecisionTreeRegression(max_bins=50, max_depth=10)
tree.fit(data, target)
x_test = np.linspace(0, 10, 200)
y_test_pred = tree.predict(x_test[:, np.newaxis])
mse, r2 = tree.cal_mse_r2(obj_fun(x_test), y_test_pred)


plt.figure(figsize=(14, 5))
plt.subplot(121)
plt.scatter(data, target, s=15, c="k", label="Raw Data")
plt.plot(x_test, y_test_pred, "r-", lw=1.5, label="Fit Model")
plt.xlabel("x", fontdict={"fontsize": 12, "color": "b"})
plt.ylabel("y", fontdict={"fontsize": 12, "color": "b"})
plt.grid(ls=":")
plt.legend(frameon=False)
plt.title("Regression Decision Tree(UnPrune) and MSE = %.5f R2 = %.5f" % (mse, r2))

plt.subplot(122)
tree.prune(0.5)
y_test_pred = tree.predict(x_test[:, np.newaxis])
mse, r2 = tree.cal_mse_r2(obj_fun(x_test), y_test_pred)
plt.scatter(data, target, s=15, c="k", label="Raw Data")
plt.plot(x_test, y_test_pred, "r-", lw=1.5, label="Fit Model")
plt.xlabel("x", fontdict={"fontsize": 12, "color": "b"})
plt.ylabel("y", fontdict={"fontsize": 12, "color": "b"})
plt.grid(ls=":")
plt.legend(frameon=False)
plt.title("Regression Decision Tree(Prune) and MSE = %.5f R2 = %.5f" % (mse, r2))


plt.show()

手机Python爬虫教程：利用手机学习Python爬虫的终极指南一只会写程序的猫 Python 智能手机 python 爬虫
【引言】在数字化时代，手机已经成为人们生活中不可或缺的一部分。而Python爬虫作为一种强大的数据获取工具，也受到越来越多人的关注。但是，是否可以利用手机进行Python爬虫学习呢？本文将介绍如何通过手机学习Python爬虫，为你打开一扇全新的学习之门。【一、手机学习资源】1.《Python爬虫入门教程》（手机应用）这款手机应用程序提供了Python爬虫的基础知识和实例讲解，适合初学者使用。你可以
Python后端flask框架接收zip压缩包方法 Thomas_Cai Python技术工程技术开发语言 python Flask
一、用base64编码发送，以及接收importbase64importioimportzipfilefromflaskimportrequest,jsonifydefunzip_and_find_png(zip_data):#使用BytesIO在内存中处理zip数据withzipfile.ZipFile(io.BytesIO(zip_data),'r')aszip_ref:extracted_p
electron-vue实现与硬件进行串口通信闲人孙大壮 electron npm node.js vue.js electron
背景：项目需求，在electron桌面应用中，实现与硬件进行串口通信，一番调研，选择了契合度高的serialport插件地址：NodeSerialport插件选择好了，接下来就是集成实现功能，它这个集成是有坑的因为版本的问题，导致在集成完后报错在网上查了各种错误，最终总结为以下步骤：前置条件1.确保你的电脑中装有python环境，并且环境为2.7（很重要）2.安装npminstall--globa
Python爬虫从入门到精通（三）简单爬虫的实现_爬虫tl 字节全栈_bgK python 爬虫开发语言
print(requests.get(‘http://example.webscraping.com’).text)**如果没有requests****库，则需要使用命令pipinstallrequests****安装一下；****说明：本讲义目前大部分代码以Python3.6****的代码位蓝本，讲义的附录A****中会将Python2****和Python3****在爬虫这块最主要几个库的对照
手机Python爬虫教程：利用手机学习Python爬虫的终极指南_python可以在手机上写爬虫吗字节全栈_bgK 智能手机 python 爬虫
利用手机进行学习，你可以充分利用碎片化的时间段进行学习。无论是在公交车上还是等待朋友的时候，你都可以打开手机学习Python爬虫知识，提高学习效率。1.1灵活安排学习任务在利用碎片化时间学习时，你可以根据自己的学习进度和时间段的长度，灵活安排学习任务。可以选择浏览一些简单的知识点，阅读一篇相关文章，或者做一些小练习。通过合理安排学习任务，你可以在有限的时间内完成一些小的学习目标，逐渐累积学习成果。
centos系统中安装堡垒机 h韩 centos linux 运维
在CentOS系统上安装堡垒机的过程可以有多个选择，例如使用开源的堡垒机软件Jumpserver或其他类似工具。在这里，我将介绍如何在CentOS上安装Jumpserver，这是一个非常流行的开源堡垒机（BastionHost）软件。1.准备工作确保你已经准备好以下环境：CentOS7/8或更高版本服务器上已安装了Python3和MySQL/MariaDB网络上能访问服务器2.安装依赖软件首先，更
使用Python配置虚拟环境猎猫骑巨兽零碎的知识 python vscode
使用Python配置虚拟环境前言1创建虚拟环境1.1打开命令行1.2确定Python版本1.3创建虚拟环境2配置虚拟环境2.1激活虚拟环境2.2下载依赖包3查看虚拟环境4选择虚拟环境参考资料边学边做笔记更新，欢迎指正。前言针对不同的任务，会运用到不同的Python解释器，安装不同的依赖包。在同一电脑上想要配置不同的环境，为了方便管理，可以创建不同的虚拟环境。常用的工具包括Anaconda和Virt
python-Flask 全方位指南：从入门到模块化开发与代码保护 chenkangck50 python flask 开发语言
1.Flask入门1.1安装Flask开始使用Flask非常简单。首先，你需要在你的Python环境中安装Flask：pipinstallflask1.2创建一个简单的Flask应用下面是一个最基本的Flask应用：fromflaskimportFlaskapp=Flask(__name__)@app.route('/')defhome():return"Hello,World!"if__name
python有趣代码-wtfPython―Python中一组有趣微妙的代码【收藏】 weixin_37988176
wtfPython是github上的一个项目，作者收集了一些奇妙的Python代码片段，这些代码的输出结果会和我们想象中的不太一样；通过探寻产生这种结果的内部原因，可以让我们对Python里的一些细节有更广泛的认知。1.字典键的隐式转换some_dict={}some_dict[5.5]="Ruby"some_dict[5.0]="JavaScript"some_dict[5]="Python"输
python中keras_Python深度学习——keras（一） weixin_39534321 python中keras
神经网络的核心组件是层(layer)，它是一种数据处理模块，可以看成是一个数据过滤器。进去一些数据，出来的数据变得更加有用(吃进去的是草，挤出来的是奶)。大多数深度学习，都是将若干个简单的层给链接起来，实现渐进式的数据过滤，也就是数据蒸馏(过滤到一定程度就等同于蒸馏)首先来看一个数字识别的案例(1)读取训练集和测试集fromkeras.datasetsimportmnist#加载keras中的mn
Python 的虚拟环境配置 NeroChang IT 机器学习 AI 大数据 python 虚拟环境配置
配置虚拟环境上一篇文章我们将virtualenv安装成功，接下来建立虚拟环境：输入指令virtualenvVR，建立虚拟环境：VR。PSC:\>virtualenvVRNewpythonexecutableinC:\VR\Scripts\python.exeInstallingsetuptools,pip,wheel...done.PSC:\>虚拟环境安装成功后，试着进入虚拟环境：PSC:\>VR
metabase邮件订阅指定时分发送邮件ｓｈｕｄｕ metabase python 开发语言
思路：用Python网页自动化操作metabase现在发送电子邮件，任务计划程序在指定的时间触发。操作步骤：一、metabase做好报表，设置好邮件订阅。二、编写Python脚本1、安装selenium、下载浏览器驱动edgedriver（本文是以Edge浏览器举例操作，注意查看浏览器版本与驱动版本是否匹配）pipinstall selenium2、编写配置文件脚本config.py#config
python解决油田问题（Oil Deposits，UVa572）开心是天下最可爱的小猫深度优先算法
题目描述：某石油勘探公司正在按计划勘探地下油田资源，工作在一片长方形的地域中。他们首先将该地域划分为许多小正方形区域，然后使用探测设备分别探测每一块小正方形区域内是否有油。含有油的地块称为油田。如果两个油田相邻，则它们是相同油藏的一部分。油藏可能非常大并且可能包含许多油田。您的工作是确定长方形的地域中包含多少不同的油藏。输入：文件包含一个或多个网格。每个网格以包含m和n的行开始，n是数字网格中的行
Oracle笔记白嫖勇者数据库 mysql
创建(删除)一个新的数据库(数据库实例)左下角开始菜单：绿色图标DatabaseConfigurationAssistantApplicationsystem系统账户sys本地账户一般不用密码（除非自己设置）本地最高权限创建(删除)监听程序(没有监听程序数据库不能接受客户端请求)左下角开始菜单：蓝色NetConfigurationAssistantSQL*Plus数据库管理工具1启动：(1)开始菜
Python 模块学习：（一）turtle模块「已注销」 python
一、turtle模块概述Python标准库中有个turtle模块，俗称海龟绘图，它提供了一些简单的绘图工具，可以在标准的应用程序窗口中绘制各种图形。turtle的绘图方式非常简单直观，就像一只尾巴上蘸着颜料的小海龟在电脑屏幕上爬行，随着它的移动就能画出线条来。使用海龟绘图，我们只用几行代码就能够创建出令人印象深刻的视觉效果，而且还可以跟随海龟的移动轨迹，看到每行代码是如何影响它的移动的。这能够帮助
2025年02月02日Github流行趋势油泼辣子多加 GitHub每日趋势 github
项目名称：oumi项目地址url：https://github.com/oumi-ai/oumi项目语言：Python历史star数：1416今日star数：205项目维护者：xrdaukar,oelachqar,taenin,wizeng23,kaisopos项目简介：构建最先进基础模型所需的一切，从头到尾。项目名称：Qwen2.5-VL项目地址url：https://github.com/Qw
Neo4j图数据库初识六尘知识图谱 nosql neo4j 数据库
graphdatabase图数据库的笔记之Neo4j图数据库初识目录什么是图数据库为什么使用图数据库Neo4j的下载安装Cypher查询语言Neo4j的各类API事务Neo4j数据建模大规模数据导入neo4j一.什么是图数据库关键词：存储图结构数据，NoSQLNeo4j的基本要素(构造单元)：结点，关系，属性二.为什么使用图数据库最大优势：查询的高性能举例说明：RDBMS-MySQLVS.Grap
neo4j初识笔记（一）（python操作篇）夏么 python neo4j python neo4j
1、安装驱动pipinstallpy2neo2、插入数据#-*-coding:UTF-8-*-frompy2neoimportGraph,Node,Relationship#连接neo4j数据库，输入地址、用户名、密码graph=Graph('http://192.168.25.223:7474',username='neo4j',password='123456')defcreate_date(
【知识贴】x86、amd64和arm64区别瓜炉 linux
x86、amd64和arm64区别x86、amd64和arm64是指不同的处理器架构，它们主要区别在于指令集和硬件架构。这些架构影响着软件兼容性、性能和硬件设计。1.x86指的是：32位的x86架构（又叫i386或x86-32），由Intel最早在1978年推出。位宽：32位，也就是每次可以处理32位的数据。常用平台：最常用于较老的桌面和笔记本电脑，早期的Windows和Linux系统也多基于该架
机器学习--学习计划 kyle~ 机器学习机器学习学习人工智能
3周机器学习速成计划基于「28原则」，聚焦机器学习20%的核心概念，覆盖80%的常见应用场景。计划分为理论学习+项目实战，每周学习后通过5个递进项目巩固知识。第1周：数据与监督学习基础学习目标：掌握数据预处理、线性模型与分类任务的基础流程。核心概念（20%关键内容）：数据预处理缺失值处理（均值填充、删除）特征缩放（标准化、归一化）分类变量编码（独热编码、标签编码）监督学习基础线性回归（原理、损失函
【gRPC-gateway】初探grpc网关，插件安装，默认实现，go案例 {⌐■_■} gateway golang 开发语言
grpc-gatewayhttps://github.com/grpc-ecosystem/grpc-gateway作用通过反向代理的方式，将grpcserver接口转为http+jsonapi使用场景向后兼容支持grpc不支持的语言或客户端单纯用grpc实现的服务端代码，只能用grpc客户端调用，（比如用gRPC官方提供的Go、Python、Java等SDK进行调用）现实开发中，不是所有客户端都
机器学习--概览 kyle~ 机器学习机器学习人工智能
一、机器学习基础概念1.定义机器学习（MachineLearning,ML）：通过算法让计算机从数据中自动学习规律，并利用学习到的模型进行预测或决策，而无需显式编程。2.与编程的区别传统编程机器学习输入：规则+数据→输出：结果输入：数据+结果→输出：规则需要人工编写逻辑自动发现数据中的模式3.核心要素数据：模型学习的原材料（结构化/非结构化）特征（Feature）：数据的可量化属性（如房价预测中的
机器学习笔记20241017 tt555555555555 学习笔记深度学习机器学习笔记人工智能
文章目录torchvisiondataloadernn.module卷积非线性激活模型选择训练误差泛化误差正则化权重衰退的基本概念数学表示权重衰退的效果物理解释数值稳定性（GradientVanishing）梯度消失原因解决方法梯度爆炸（GradientExplosion）定义原因解决方法总结继续跟着小土堆学pytorchtorchvision#导入torchvision库，主要用于处理图像数据集
python点亮led_用Python点亮led灯 weixin_39805119 python点亮led
我正试着用我的钢琴和Python来点亮我的dotstarled灯带！在我从键盘上得到我需要的信息，然后我尝试用python打开它。唯一的问题是，这是一个巨大的延迟。如果我一次按多个键，输入的信息就太慢了。在如果我删除代码来点亮我的led，它的工作很好，没有任何延迟。我有什么办法可以加快速度吗？在我对python相当陌生，所以任何提示都会非常有用！在以下是我目前为止的代码：importpygame.
基于机器学习中集成学习的stacking方式进行的金线莲质量鉴别研究（python进行数据处理并完成建模，对品种进行预测） Life is a joke PYTHON 人工智能机器学习机器学习集成学习人工智能
1.前言金线莲为兰科开唇兰属植物，别名金丝兰、金丝线、金耳环、乌人参、金钱草等，是一种名贵中药材，国内主要产地为较低纬度地区如：福建、台湾、广东、广西、浙江、江西、海南、云南、四川、贵州以及西藏南部[1]，被当地人民誉为“药中之王”，福建品种和台湾品种更是其中的上等品种，在治疗肺部炎症、糖尿病、癌症、肾炎、膀胱炎、重症肌无力、风湿性及类风湿性关节炎、高血脂、毒蛇咬伤有着很大的作用[2-3]。由于野
基于BiGRU的预测模型及其Python和MATLAB实现追蜻蜓追累了机器学习深度学习 cnn lstm 神经网络 gru 回归算法
##一、背景在当今快速发展的数据驱动的时代，尤其是在自然语言处理（NLP）、时间序列预测、语音识别等任务中，深度学习技术的应用已经变得越来越普遍。传统的机器学习算法往往无法很好地捕捉数据中的时序信息和上下文关系，因此深度学习中的循环神经网络（RNN）逐渐成为解决这一问题的重要工具。RNN能够处理序列数据，但它们在长序列数据的学习中存在梯度消失和梯度爆炸的问题。为了解决这些问题，长短期记忆网络（LS
Transformer预测模型及其Python和MATLAB实现追蜻蜓追累了 transformer 深度学习人工智能机器学习算法回归算法神经网络
###一、背景在自然语言处理（NLP）领域，传统的序列到序列（Seq2Seq）模型大多依赖于循环神经网络（RNN）和长短期记忆（LSTM）网络。这些模型虽然在许多任务中取得了成功，但由于其计算效率低下以及长距离依赖关系处理的不足，导致模型训练时间漫长，并在处理较长文本时效果不佳。2017年，Vaswani等人提出的Transformer模型在《AttentionisAllYouNeed》一文中引起
随机森林（Random Forest）预测模型及其特征分析（Python和MATLAB实现）追蜻蜓追累了深度学习机器学习 python 随机森林大数据回归算法算法
##一、背景在大数据和机器学习的快速发展时代，数据的处理和分析变得尤为重要。随着多个领域积累了海量数据，传统的统计分析方法常常无法满足复杂问题的需求。在这种背景下，机器学习方法开始广泛应用。随机森林（RandomForest）作为一种强大的集成学习方法，因其高效性和较强的泛化能力而备受关注。随机森林最初由LeoBreiman在2001年提出，基于决策树这一基本分类模型。其基本思想是通过构建多个决策
python——正则表达式(re模块)详解每日一小知识前端 html .netcore http microsoft
在Python中需要通过正则表达式对字符串进匹配的时候，可以使个python自带的模块，名字为re。正则表达式的大致匹配过程是：1.依次拿出表达式和文本中的字符比较，2.如果每一个字符都能匹配，则匹配成功；一旦有匹配不成功的字符则匹配失败。3.如果表达式中有量词或边界，这个过程会稍微有一些不同。r：在带有'r'前缀的字符串字面值中，反斜杠不必做任何特殊处理。因此r""表示包含''和'n'两个字符的
Python函数拆包完全指南：解锁参数处理的高级技巧小彭爱学习 python python python函数拆包 python基础
Python函数拆包完全指南：解锁参数处理的高级技巧一、为什么需要函数参数拆包？在Python开发中，我们经常需要处理以下场景：将集合数据动态传递给函数处理可变数量的参数简化多层数据结构的参数传递实现更灵活的函数接口传统参数传递方式的局限性：defadd(a,b):returna+bnums=(3,5)add(nums[0],nums[1])#需要手动解包二、拆包操作符详解2.1星号(*)操作符用
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比

机器学习：回归决策树（Python）

一、平方误差的计算

二、树的结点信息封装

三、回归决策树CART算法实现

四、回归决策树算法的测试

你可能感兴趣的:(机器学习,回归,决策树,笔记,python)