ShowerSong

手写分类决策树（鸢尾花数据集）

- 1.实验简介及数据集
- 2.算法分析
- 3.具体实现
- - 3.1 数据结构
  - 3.2 如何产生分支
  - - 3.2.1 增益
    - 3.2.2 寻找某一属性的阈值
    - 3.2.3 寻找最优属性及其阈值
  - 3.3 建立决策树
  - 3.4 预测
  - 3.5 整体代码
- 4.实验结果
- 5.实验总结

1.实验简介及数据集

本次实验需要实现一个简单的分类决策树并在鸢尾花数据集上进行预测。鸢尾花数据集中共有150个样本，包含四个属性，值都是连续的，共有三种类别。

2.算法分析

使用分类决策树进行预测可以分为两个部分。
第一部分是建立一棵决策树，在该部分我们需要判断在每个节点使用哪个属性的来划分左右子节点，并将信息储存在当前节点中，这里我们通过使划分后的“增益”最大来选择划分属性。在叶子节点，需要给出到达这个节点的数据的类别，以实现预测的功能。
第二部分就是进行预测了，将数据输入决策树，通过储存在节点中的信息判断当前的数据怎么走，最终到达的叶子节点给出的类别就是该数据的预测值。

3.具体实现

3.1 数据结构

对于决策树的数据结构定义，通过DecisionNode类来实现：
由于鸢尾花数据集的属性值是连续的，所以我们找到一个阈值来将数据划分位两个分支。

class DecisionNode(object):
    def __init__(self, f_idx, threshold, value=None, L=None, R=None):
        self.f_idx = f_idx  # 属性的下标，表示通过下标为f_idx的属性来划分样本
        self.threshold = threshold  # 下标 `f_idx` 对应属性的阈值
        self.value = value  # 如果该节点是叶子节点，对应的是被划分到这个节点的数据的类别
        self.L = L  # 左子树
        self.R = R  # 右子树

3.2 如何产生分支

在数据通过一个节点时，如何将数据进行划分呢？这是决策树的关键，这里分三小节介绍。

3.2.1 增益

我们希望决策树分支节点所包含的样本尽可能属于同一类别，即节点的纯度越高越好。“增益”就可以表示出划分后纯度的提升程度，增益越高，效果也就越好。这里的“增益”可以选择信息增益、信息增益率或基尼系数。
下面给出三种增益计算的方法：


def calculate_entropy(dataset: np.ndarray):  # 熵
    scale = dataset.shape[0]  # 多少条数据
    d = {}
    for data in dataset:
        key = data[-1]
        if key in d:
            d[key] += 1
        else:
            d[key] = 1

    entropy = 0.0
    for key in d.keys():
        p = d[key] / scale
        entropy -= p * math.log(p, 2)
    return entropy


def calculate_gain(dataset, l, r):
    e1 = calculate_entropy(dataset)
    e2 = len(l) / len(dataset) * calculate_entropy(l) + len(r) / len(dataset) * calculate_entropy(r)
    gain = e1 - e2
    return gain


def calculate_gain_ratio(dataset, l, r):
    gain = calculate_gain(dataset, l, r)
    p1 = len(l) / len(dataset)
    p2 = len(r) / len(dataset)
    # 会出现 1/0 的情况 全被划分到一边 s=0
    # print("len", len(l), len(r), p1, p2)
    if p1 == 0:
        s = p2 * math.log(p2, 2)
    elif p2 == 0:
        s = p1 * math.log(p1, 2)
    else:
        s = - p1 * math.log(p1, 2) - p2 * math.log(p2, 2)

    gain_ratio = gain / s
    return gain_ratio


def calculate_gini(dataset: np.ndarray):
    scale = dataset.shape[0]  # 多少条数据
    d = {}
    for data in dataset:
        key = data[-1]
        if key in d:
            d[key] += 1
        else:
            d[key] = 1

    gini = 1.0
    for key in d.keys():
        p = d[key] / scale
        gini -= p * p
    return gini


def calculate_gini_index(dataset, l, r):
    gini_index = len(l) / len(dataset) * calculate_gini(l) + len(r) / len(dataset) * calculate_gini(r)
    return gini_index

3.2.2 寻找某一属性的阈值

有了计算增益的方法后，我们就可以计算某一属性的阈值了，按照该属性的阈值将样本划分为两个分支，小于阈值的划分到左子树，大于阈值的划分到右子树。

求阈值的具体步骤：

将该属性的值进行排序并去重
取相邻两个数据的均值作为候选阈值
遍历候选阈值，对于每一个值：
将数据划分为小于该候选阈值和大于该候选阈值的
计算划分后的增益
选择使增益最大的候选阈值作为该属性的阈值

实现代码如下（给出了三种实现”增益“的方式，用split_choice来表示）：

def find_best_threshold(dataset: np.ndarray, f_idx: int, split_choice: str):  # dataset:numpy.ndarray (n,m+1) x<-[x,y]  f_idx:feature index
    best_gain = -math.inf  # 先设置 best_gain 为无穷小
    best_gini = math.inf
    best_threshold = None
    dataset_sorted = sorted(list(set(dataset[:, f_idx].reshape(-1))))  # 去重
    candidate = []  # 候选值

    for i in range(len(dataset_sorted) - 1):
        candidate.append(round((dataset_sorted[i] + dataset_sorted[i + 1]) / 2.0, 2))

    for threshold in candidate:
        L, R = split_dataset(dataset, f_idx, threshold)   # 根据阈值分割数据集，小于阈值
        gain = None
        if split_choice == "gain":
            gain = calculate_gain(dataset, L, R)  # 根据数据集和分割之后的数
            if gain > best_gain:  # 如果增益大于最大增益，则更换最大增益和最大阈值
                best_gain = gain
                best_threshold = threshold
        if split_choice == "gain_ratio":
            gain = calculate_gain_ratio(dataset, L, R)
            if gain > best_gain:  # 如果增益大于最大增益，则更换最大增益和最大阈值
                best_gain = gain
                best_threshold = threshold
        if split_choice == "gini":
            gini = calculate_gini_index(dataset, L, R)
            if gini < best_gini:  # gini指数越小越好
                best_gini = gini
                best_threshold = threshold

    return best_threshold, best_gain

其中split_dataset函数（将数据划分为左右两子树）如下：

def split_dataset(X: np.ndarray, f_idx: int, threshold: float):
    # L = []
    # R = []
    # for (idx, d) in enumerate(X[:, f_idx]):  # idx:索引, d:值
    #     if d < threshold:
    #         L.append(idx)
    #     else:
    #         R.append(idx)
    # return X[L], X[R]

    L = X[:, f_idx] < threshold
    R = ~L
    return X[L], X[R]

3.2.3 寻找最优属性及其阈值

有了上述基础后，就可以遍历所有的属性，选择使增益最大的属性作为最优属性。这里我们用f_idx_list这个列表存放属性的下标值（0、1、2、3）。注意，用过的属性在接下来不能继续再用了，需要将其从f_idx_list中去除。

		best_gain = -math.inf
        best_gini = math.inf
        best_threshold = None
        best_f_idx = None

        for i in f_idx_list:
            threshold, gain = find_best_threshold(dataset, i, split_choice)
            if split_choice == "gini":
                if gain < best_gini:
                    best_gini = gain
                    best_threshold = threshold
                    best_f_idx = i
            if split_choice == "gain" or split_choice == "gain_ratio" :
                if gain > best_gain:  # 如果增益大于最大增益，则更换最大增益和最大
                    best_gain = gain
                    best_threshold = threshold
                    best_f_idx = i

        son_f_idx_list = f_idx_list.copy()
        son_f_idx_list.remove(best_f_idx)

至此，我们就得到了进行划分的最优属性（下标）及其阈值了。

3.3 建立决策树

我们通过递归来建立决策树（对于递归不太了解的朋友可以去了解一下递归的基本思想，再来看建树过程就会清晰很多了）
首先，给出递归结束的条件：
1. 当前所有数据具有相同的类别标签，类别自然就标记为该类别，并返回叶子节点。
2. 进行划分选择的属性都用完了，类别标记为当先数据中最多的类，并返回叶子节点。

不满足上述结束条件时，创建分支

def build_tree(dataset: np.ndarray, f_idx_list: list, split_choice: str):   # return DecisionNode 递归

    class_list = [data[-1] for data in dataset]  # 类别
    # 全属于同一类别
    if class_list.count(class_list[0]) == len(class_list):
        return DecisionNode(None, None, value=class_list[0])
    # 若属性都用完, 标记为类别最多的那一类
    elif len(f_idx_list) == 0:
        value = collections.Counter(class_list).most_common(1)[0][0]
        return DecisionNode(None, None, value=value)

    else:
        # 找到划分 增益最大的属性 4个属性
        best_gain = -math.inf
        best_gini = math.inf
        best_threshold = None
        best_f_idx = None

        for i in f_idx_list:
            threshold, gain = find_best_threshold(dataset, i, split_choice)
            if split_choice == "gini":
                if gain < best_gini:
                    best_gini = gain
                    best_threshold = threshold
                    best_f_idx = i
            if split_choice == "gain" or split_choice == "gain_ratio" :
                if gain > best_gain:  # 如果增益大于最大增益，则更换最大增益和最大
                    best_gain = gain
                    best_threshold = threshold
                    best_f_idx = i

        son_f_idx_list = f_idx_list.copy()
        son_f_idx_list.remove(best_f_idx)

        # 创建分支
        L, R = split_dataset(dataset, best_f_idx, best_threshold)
        if len(L) == 0:
            L_tree = DecisionNode(None, None, majority_count(dataset))  # 叶子节点
        else:
            L_tree = build_tree(L, son_f_idx_list, split_choice)  # return DecisionNode

        if len(R) == 0:
            R_tree = DecisionNode(None, None, majority_count(dataset))  # 叶子节点
        else:
            R_tree = build_tree(R, son_f_idx_list, split_choice)  # return DecisionNode
        return DecisionNode(best_f_idx, best_threshold, value=None, L=L_tree, R=R_tree)

3.4 预测

这里对一条数据进行预测（传入模型与数据），同样是采用递归的方法：

def predict_one(model: DecisionNode, data):
    if model.value is not None:
        return model.value
    else:
        feature_one = data[model.f_idx]
        branch = None
        if feature_one >= model.threshold:
            branch = model.R  # 走右边
        else:
            branch = model.L   # 走左边
        return predict_one(branch, data)

3.5 整体代码

import math
import numpy
import numpy as np
from typing import Union
import collections

from sklearn.model_selection import train_test_split
from sklearn import tree
from sklearn.tree import DecisionTreeClassifier  # 导入决策树DTC包
from sklearn.datasets import load_iris  # 导入方法类


class DecisionNode(object):
    def __init__(self, f_idx, threshold, value=None, L=None, R=None):
        self.f_idx = f_idx  # 属性的下标，表示通过下标为f_idx的属性来划分样本
        self.threshold = threshold  # 下标 `f_idx` 对应属性的阈值
        self.value = value  # 如果该节点是叶子节点，对应的是被划分到这个节点的数据的类别
        self.L = L  # 左子树
        self.R = R  # 右子树


def find_best_threshold(dataset: np.ndarray, f_idx: int, split_choice: str):  # dataset:numpy.ndarray (n,m+1) x<-[x,y]  f_idx:feature index
    best_gain = -math.inf  # 先设置 best_gain 为无穷小
    best_gini = math.inf
    best_threshold = None
    dataset_sorted = sorted(list(set(dataset[:, f_idx].reshape(-1))))  # 去重
    candidate = []  # 候选值

    for i in range(len(dataset_sorted) - 1):
        candidate.append(round((dataset_sorted[i] + dataset_sorted[i + 1]) / 2.0, 2))

    for threshold in candidate:
        L, R = split_dataset(dataset, f_idx, threshold)   # 根据阈值分割数据集，小于阈值
        gain = None
        if split_choice == "gain":
            gain = calculate_gain(dataset, L, R)  # 根据数据集和分割之后的数
            if gain > best_gain:  # 如果增益大于最大增益，则更换最大增益和最大阈值
                best_gain = gain
                best_threshold = threshold
        if split_choice == "gain_ratio":
            gain = calculate_gain_ratio(dataset, L, R)
            if gain > best_gain:  # 如果增益大于最大增益，则更换最大增益和最大阈值
                best_gain = gain
                best_threshold = threshold
        if split_choice == "gini":
            gini = calculate_gini_index(dataset, L, R)
            if gini < best_gini:  # gini指数越小越好
                best_gini = gini
                best_threshold = threshold

    return best_threshold, best_gain


def calculate_entropy(dataset: np.ndarray):  # 熵
    scale = dataset.shape[0]  # 多少条数据
    d = {}
    for data in dataset:
        key = data[-1]
        if key in d:
            d[key] += 1
        else:
            d[key] = 1

    entropy = 0.0
    for key in d.keys():
        p = d[key] / scale
        entropy -= p * math.log(p, 2)
    return entropy


def calculate_gain(dataset, l, r):
    e1 = calculate_entropy(dataset)
    e2 = len(l) / len(dataset) * calculate_entropy(l) + len(r) / len(dataset) * calculate_entropy(r)
    gain = e1 - e2
    return gain


def calculate_gain_ratio(dataset, l, r):
    gain = calculate_gain(dataset, l, r)
    p1 = len(l) / len(dataset)
    p2 = len(r) / len(dataset)
    # 会出现 1/0 的情况 全被划分到一边 s=0
    # print("len", len(l), len(r), p1, p2)
    if p1 == 0:
        s = p2 * math.log(p2, 2)
    elif p2 == 0:
        s = p1 * math.log(p1, 2)
    else:
        s = - p1 * math.log(p1, 2) - p2 * math.log(p2, 2)

    # print(s)
    # if s == 0:
    #     gain_ratio = math.inf
    # else:
    #     gain_ratio = gain / s
    gain_ratio = gain / s
    return gain_ratio


def calculate_gini(dataset: np.ndarray):
    scale = dataset.shape[0]  # 多少条数据
    d = {}
    for data in dataset:
        key = data[-1]
        if key in d:
            d[key] += 1
        else:
            d[key] = 1

    gini = 1.0
    for key in d.keys():
        p = d[key] / scale
        gini -= p * p
    return gini


def calculate_gini_index(dataset, l, r):
    gini_index = len(l) / len(dataset) * calculate_gini(l) + len(r) / len(dataset) * calculate_gini(r)
    return gini_index


def split_dataset(X: np.ndarray, f_idx: int, threshold: float):
    # L = []
    # R = []
    # for (idx, d) in enumerate(X[:, f_idx]):  # idx:索引, d:值
    #     if d < threshold:
    #         L.append(idx)
    #     else:
    #         R.append(idx)
    # return X[L], X[R]

    L = X[:, f_idx] < threshold
    R = ~L
    return X[L], X[R]


def majority_count(dataset):
    class_list = [data[-1] for data in dataset]
    return collections.Counter(class_list).most_common(1)[0][0]


def build_tree(dataset: np.ndarray, f_idx_list: list, split_choice: str):   # return DecisionNode 递归

    class_list = [data[-1] for data in dataset]  # 类别
    # 全属于同一类别
    if class_list.count(class_list[0]) == len(class_list):
        return DecisionNode(None, None, value=class_list[0])
    # 若属性都用完, 标记为类别最多的那一类
    elif len(f_idx_list) == 0:
        value = collections.Counter(class_list).most_common(1)[0][0]
        return DecisionNode(None, None, value=value)

    else:
        # 找到划分 增益最大的属性 4个属性
        best_gain = -math.inf
        best_gini = math.inf
        best_threshold = None
        best_f_idx = None

        for i in f_idx_list:
            threshold, gain = find_best_threshold(dataset, i, split_choice)
            if split_choice == "gini":
                if gain < best_gini:
                    best_gini = gain
                    best_threshold = threshold
                    best_f_idx = i
            if split_choice == "gain" or split_choice == "gain_ratio" :
                if gain > best_gain:  # 如果增益大于最大增益，则更换最大增益和最大
                    best_gain = gain
                    best_threshold = threshold
                    best_f_idx = i

        son_f_idx_list = f_idx_list.copy()
        son_f_idx_list.remove(best_f_idx)

        # 创建分支
        L, R = split_dataset(dataset, best_f_idx, best_threshold)
        if len(L) == 0:
            L_tree = DecisionNode(None, None, majority_count(dataset))  # 叶子节点
        else:
            L_tree = build_tree(L, son_f_idx_list, split_choice)  # return DecisionNode

        if len(R) == 0:
            R_tree = DecisionNode(None, None, majority_count(dataset))  # 叶子节点
        else:
            R_tree = build_tree(R, son_f_idx_list, split_choice)  # return DecisionNode
        return DecisionNode(best_f_idx, best_threshold, value=None, L=L_tree, R=R_tree)


def predict_one(model: DecisionNode, data):
    if model.value is not None:
        return model.value
    else:
        feature_one = data[model.f_idx]
        branch = None
        if feature_one >= model.threshold:
            branch = model.R  # 走右边
        else:
            branch = model.L   # 走左边
        return predict_one(branch, data)


def predict_accuracy(y_predict, y_test):
    y_predict = y_predict.tolist()
    y_test = y_test.tolist()
    count = 0
    # count = np.sum(y_predict == y_test)
    for i in range(len(y_predict)):
        if int(y_predict[i]) == y_test[i]:
            count = count + 1
    accuracy = count / len(y_predict)
    return accuracy


class SimpleDecisionTree(object):
    def __init__(self, split_choice, min_samples: int = 1, min_gain: float = 0, max_depth: Union[int, None] = None,
                 max_leaves: Union[int, None] = None):
        self.split_choice = split_choice

    def fit(self, X: np.ndarray, y: np.ndarray) -> None:
        dataset_in = np.c_[X, y]
        f_idx_list = [i for i in range(X.shape[1])]
        self.my_tree = build_tree(dataset_in, f_idx_list, self.split_choice)

    def predict(self, X: np.ndarray) -> np.ndarray:   # 递归 how?
        predict_list = []
        for data in X:
            predict_list.append(predict_one(self.my_tree, data))

        return np.array(predict_list)


if __name__ == "__main__":

    predict_accuracy_all = []

    for i in range(10):
        iris = load_iris()  # 导入数据集iris
        x = iris.data  # 特征数据  numpy.ndarray
        y = iris.target  # 分类数据
        X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

        predict_accuracy_list = []  # 储存4种结果
        split_choice_list = ["gain", "gain_ratio", "gini"]
        for split_choice in split_choice_list:
            m = SimpleDecisionTree(split_choice)
            m.fit(X_train, y_train)
            y_predict = m.predict(X_test)
            # print(y_predict)
            # print(y_test.reshape(-1))
            y_predict_accuracy = predict_accuracy(y_predict, y_test.reshape(-1))
            predict_accuracy_list.append(y_predict_accuracy)

            # print("split_choice:", split_choice, " | predict_accuracy: ", predict_accuracy(y_predict, y_test.reshape(-1)))
            # print("-----------------------------------------------------------------------------")
        # print(predict_accuracy_list)
        # print("-----------------------------------------------------------------------------")

        clf = DecisionTreeClassifier()  # 所以参数均置为默认状态
        clf.fit(X_train, y_train)  # 使用训练集训练模型
        predicted = clf.predict(X_test)
        predict_accuracy_list.append(clf.score(X_test, y_test))
        # print("sklearn精度是:{:.3f}".format(clf.score(X_test, y_test)))

        predict_accuracy_all.append(predict_accuracy_list)

    p = numpy.array(predict_accuracy_all)
    p = np.round(p, decimals=3)
    for i in p:
        print(i)
    # print(predict_accuracy_all)
    print(p.mean(axis=0))

4.实验结果

使用信息增益、信息增益率、基尼系数三种不同评价增益的方法进行实验，预测的准确率如下图，另附上使用sklearn方法的准确率。

	信息增益	信息增益率	基尼系数	sklearn
1	0.967	0.967	0.933	0.967
2	0.967	0.967	0.933	0.933
3	0.967	0.967	0.833	0.833
4	0.9	0.9	0.9	0.967
5	0.967	0.967	0.967	0.967
6	0.933	0.933	0.967	0.933
7	1.	1.	0.867	1.
8	0.867	0.867	0.833	0.9
9	0.933	0.933	0.9	0.933
10	0.967	0.967	0.933	0.933
平均值	0.9468	0.9468	0.9066	0.9366

可以发现，使用基尼系数来评价增益，准确率相比其他的方法低一些。总体来看，准确率都还是不错的。但也能看出，准确率的波动比较大，比如使用信息增益时，准确率最高为1，最低为0.867。原因可能是每次所划分的训练集、测试集不同。

使用sklearn方法的决策图如下：

5.实验总结

本次实验难度有点大，首先是对决策树的原理了解不深刻，其次对决策树的数据结构认识不足，不知道怎么样去建树，对于递归的实现也有些困难，导致本次实验花费时间较多。另外，对于numpy的操作不熟悉，导致许多代码显得比较臃肿，可以用更简便的方法实现，后期还得多看看numpy。

机器学习入门（五）：线性回归—从模型函数到目标函数米饭超人
从数据反推公式假设我们获得了这样一张表格，上面列举了美国纽约若干程序员职位的年薪：enterimagedescriptionhere大家可以看到，表格中列举了职位、经验、技能、国家和城市几项特征。除了经验一项，其他都是一样的。不同的经验（工作年限），薪水不同。而且看起来，工作年头越多，工资也就越高。那么我们把Experience与Salary抽取出来，用x和y来分别指代它们。enterimaged
短剧业务产业链涉及的技术系统-TKano模型百态老人大数据
短剧业务产业链涉及的技术系统中，TKano模型的应用主要集中在用户需求分析方面。TKano模型是一种用于识别和分类用户需求的方法，通过将用户需求分为基础型需求、期望型需求和兴奋型需求，帮助短剧业务更好地理解用户需求并优化产品。在短剧业务中，TKano模型的应用可以帮助企业识别出哪些是基础型需求（如内容的连贯性和完整性），哪些是期望型需求（如快速观看和推荐功能），以及哪些是兴奋型需求（如附加资源和福
GEE土地分类——利用landsat 8 和随机森林方法进行土地分类此星光明 gee土地分类专栏前端 gee 机器学习土地分类随机森林 Landsat 土地利用
目录简介代码解释代码函数ee.Classifier.smileRandomForest(numberOfTrees,variablesPerSplit,minLeafPopulation,bagFraction,maxNodes,seed)Arguments:Returns:Classifier结果简介GEE土地分类——利用landsat8和随机森林方法进行土地分类代码解释这段代码是用Google
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
一个例子带你入门机器学习
目录1.为建模选择数据2.选择预测目标3.选择“特征”4.构建您的模型（这篇文章将使用经典墨尔本房价数据集作为例子，引导机器学习的流程，数据集为melb_data.csv，请在csdn的下载区自行下载，运行代码时需要将数据集下载在同个目录下）1.为建模选择数据数据集有太多的变量，多到难以理解，甚至无法很好地打印出来。如何将这海量的数据削减为能够理解的内容？我们将首先凭借直觉选择几个变量。后续将介绍
初探机器学习与力学研究的交叉领域 faderbic 机器学习人工智能深度学习
目录关于如何踏入机器学习领域机器学习与力学研究的交叉方向1.使用机器学习加速有限元求解2.结合有限元计算和机器学习预测复杂材料结构与力学性能的关系3.结构健康检测4.疲劳寿命预测总结关于如何踏入机器学习领域因为我本科的专业是力学，所以当我开始关注机器学习领域时，首先考虑的是机器学习和力学的交叉领域。对于很多对人工智能感兴趣的朋友，想加入人工智能的潮流却不知道从何学起，我提供一个思路，我认为将自己学
[NIPST AI]对抗性机器学习攻击和缓解的分类和术语 Anooyman 人工智能网络安全人工智能大语言模型网络安全安全
原文link：https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-2e2025.pdfIntroduction人工智能（AI）系统在过去几年中持续全球扩展。这些系统正在被众多国家开发并广泛部署于各自的经济体系中，人们在生活的许多领域都获得了更多使用AI系统的机会。本报告区分了两大类AI系统：预测型AI（PredictiveAI，PredAI）和生成型A
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习计算机视觉人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版））工业相机使用YoloV8模型实现动物分类工业相机实现YoloV8模型实现动物分类的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实
通俗易懂：什么是决策树？淦暴尼算法 python 决策树算法机器学习
1.引言：决策树就像“选择题”你是否曾经在生活中做过“选择题”？比如：今天要不要带伞？晚饭吃什么？该不该买那件心仪已久的商品？其实，我们的大脑经常会像“决策树”一样，通过一连串问题和判断，逐步缩小选择范围，最终做出决定。**决策树（DecisionTree）**就是这样一种模拟人类决策过程的机器学习模型。它通过“提问-分支-决策”的方式，把复杂问题拆解成一系列简单的判断，广泛应用于分类（如判断邮件
java毕业设计-基于Javaweb的家常小菜烹饪学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿刘 vue spring boot 毕业设计 java 课程设计学习
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费开题报告、任务书、全bao定制+
java毕业设计源码案例-基于ssm+协同过滤的个性化小说推荐系统设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 项目帮 springboot java 计算机毕设 java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
机器学习中的数据预处理：从入门到实践耐思nice～机器学习由浅入深-吴恩达机器学习人工智能
在当今的智能时代，机器学习已经渗透到我们生活的方方面面。比如我们常用的推荐系统，它能根据我们的浏览记录精准推送喜欢的商品或视频，这背后就离不开机器学习的支撑。而一个优秀的机器学习模型，离不开高质量的数据，数据预处理正是保证数据质量的关键环节，它就像烹饪前的食材处理，直接影响着最终“菜品”的口感，也就是模型的性能。今天，我们就来全面学习机器学习中数据预处理的关键步骤。一、数据预处理的重要性数据预处理
计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
如何使用爬虫简单的爬取一个网页的静态前端代码
什么是爬虫？Python爬虫是一种使用Python语言编写的程序，用于自动访问网页并提取所需信息。它通常用于网络数据抓取、数据挖掘和信息收集。Python爬虫可以模拟浏览器行为，向服务器发送请求并接收响应数据，然后解析这些数据以获取有用的信息。爬虫的基本原理（流程）发送请求：爬虫向目标网站的服务器发送HTTP请求（通常是GET请求）。获取响应：服务器返回网页的HTML内容。解析内容：爬虫解析HTM
Protein FID：AI蛋白质结构生成模型评估新指标
一、引言：蛋白质生成模型面临的评估挑战近年来，AI驱动的蛋白质结构生成模型取得了令人瞩目的进展，但如何有效评估这些模型的质量却一直是一个悬而未决的问题。虽然实验验证仍然是金标准，但计算机模拟评估对于快速开发和比较机器学习模型至关重要。然而，尽管最先进的模型在当前评估指标上表现卓越，但它们在实际设计应用中的成功率仍然相对有限。例如，有研究报告显示生成结构的实验成功率仅为3%，而计算机模拟评分却远高于
在 Conda 中删除环境及所有安装的库 Studying 开龙wu conda
注意事项1.删除环境前确保你没有在该环境中运行任何程序。2.删除操作是不可逆的，所有该环境中的包和配置都会被永久删除。3.如果你想保留环境的配置信息，可以在删除前使用condaenvexport>environment.yml导出环境配置。关于requirements.txt和environment.yaml文件使用介绍详情可参考以往文章，争对机器学习和深度学习里Python项目开发管理项目依赖的
用项目说话：我的React博客构建成果与经验复盘 Pan Zonghui 移动端 react 项目总结 react.js 前端前端框架
这是一个基于React19+TypeScript+Vite构建的现代化博客系统，采用了最新的前端技术栈和工程化实践。项目不仅实现了完整的博客功能，更在架构设计、性能优化、开发体验等方面体现了企业级应用的标准。成品展示个人博客链接地址：https://pzhdv.cnpc端页面展示首页分类页面关于我文章详情页面移动端技术栈选择与分层设计技术栈选择核心框架与工具React19.1.0:最新版本的Rea
OpenCV学习（二）-二维、三维识别香蕉可乐荷包蛋 #OpenCV opencv 学习人工智能
OpenCV是一个功能强大的计算机视觉库，可以用于识别和处理二维图像和三维图像。以下是关于二维图像和三维图像识别的基础知识和示例代码。1.二维图像识别二维图像识别通常包括图像分类、对象检测、特征提取等任务。以下是一些常见的操作：1.1图像分类使用预训练模型对图像进行分类，例如使用深度学习模型（如ResNet、MobileNet等）。importcv2#加载预训练的深度学习模型net=cv2.dnn
睡岗离岗检测算法 Python 燧机科技SuiJi 人工智能 python 算法深度学习神经网络
睡岗离岗检测算法的核心在于实时监控和智能分析，睡岗离岗检测算法通过安装在关键区域的监控摄像头，系统能够捕捉到员工的活动画面。当系统检测到人体位置长时间未发生变化时，将启动睡姿分类器。该分类器能够识别多种睡姿，如趴在桌子上睡、坐在凳子上后仰睡等。一旦识别为睡姿，系统将立即触发告警机制。这可以通过向管理人员发送警报信号，或通过语音提醒员工的方式实现。睡岗离岗检测算法在多种场景下均有广泛应用。该算法能够
题解 | #使用join查询找出没有分类的电影id以及名称# 愤怒的小青春 java
58同城java后端一面凉经主流的哈希算法有哪几种？帮闺蜜们找靠谱男票hc多多光彩积云是什么企业，查不到有用信息太抽象了！培训班装公司招聘阿里巴巴前端暑期实习——无语八面挂怎么写自我介绍|自我介绍保姆级教学灵犀互娱客户端一面面经(求过啊)24找运维实习，这简历可行吗拓竹科技测试开发面经（25届暑期实习）分享一波攒了整个秋招的NLP算法岗面经腾讯广告暑期实习面试1、JVM垃圾回收机制2、syncho
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1024 一元三次方程求解热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：
TensorFlow GPU 2.10.1 for Python 3.9快速安装指南疑样
本文还有配套的精品资源，点击获取简介：TensorFlowGPU2.10.1是专为Windowsx64和Python3.9设计的TensorFlow版本，它集成了GPU支持以加快深度学习模型的训练。本指南提供了该版本的概述、安装步骤及注意事项，旨在帮助开发者利用其性能优势提升机器学习项目的效率。1.TensorFlowGPU介绍1.1TensorFlow的起源与功能TensorFlow是由Goog
进阶向:基于Python的智能客服系统设计与实现
智能客服系统开发指南系统概述智能客服系统是人工智能领域的重要应用，它通过自然语言处理(NLP)和机器学习技术自动化处理用户查询，显著提升客户服务效率和响应速度。基于Python的实现方案因其丰富的生态系统（如NLTK、spaCy、Transformers等库）、跨平台兼容性以及易于集成的特点，成为开发智能客服系统的首选。系统架构系统核心包括两个主要功能模块：1.API集成模块负责连接各类外部服务，
软件测试知识集（杂）-@1 苏丽珍软件测试功能测试
Title1、按测试阶段分类，测试可分为哪几个阶段？2、选择题：下列哪项测试不适合手工测试？3、填空题：ADB的全称4、restful常用四种请求方法5、选择题(多选)：移动app包含哪几种类型？(重点)6、Web自动化和APP自动化的区别？7、自动化测试策略有哪些？(很重要)8、自动化测试有哪些成本？(重点)9、哪些场景不适合自动化测试？10、工资表，要求一条语句查询100天内涨薪的员工名字，涨
No.99 如何阅读一本书23-如何阅读历史书蒙娜丽莎2021
难以捉摸的史实历史学家关心的是已经发生的事件，而且绝大部分是发生在很久以前的事件。试想一下，法庭上的陪审团为了判断一个事件是否为真实的，都要费一番脑筋，那么对于上百年以前甚至更久远的事件到底是如何发生的它的困难是可想而知的。历史的理论如果一定要分类，应该把历史---也就是过去的故事归为小说，而非科学。历史更接近小说，而非科学。历史学家一定会编撰一些东西，他会找出一个共通的模式。他会假设他知道历史上
机器学习专栏（62）：手把手实现工业级ResNet-34及调优全攻略
目录一、ResNet革命性突破解析1.1残差学习核心思想1.2ResNet-34结构详解二、工业级Keras实现详解2.1数据预处理流水线2.2完整模型实现三、模型训练调优策略3.1学习率动态调整3.2混合精度训练四、性能优化技巧4.1分布式训练配置4.2TensorRT推理加速五、实战应用案例5.1医疗影像分类5.2工业质检系统六、模型可视化分析6.1特征热力图6.2参数量分析七、常见问题解决方
【1202读书清单】营销管理飘渺_d65f
001什么是营销一旦有人开始思考自己如何做能够让对方有预期反应，营销游戏已经开始了。最粗暴简单的方式就是告诉对方，我能带给你某些一直想要的好处和需求。002营销什么一根笔（产品）提供记录便利（服务）主要办公（事件）其书写流畅（体验）是白领（人物）在办公室（地点）自我投资（财产）在公众形象（组织）传递（信息）一直进步（观念）10点组成。003需求的分类需求可以从：刻意回避、毫无兴趣、欠缺火候、热情下
模式识别与机器学习课程笔记（1）：数学基础 Ro Jace 学习笔记机器学习笔记人工智能
模式识别与机器学习课程笔记（1）：数学基础特征矢量和特征空间随机矢量的描述随机矢量的分布函数随机矢量的数字特征随机变量、随机矢量间的统计关系随机矢量的变换正态分布正态分布的定义正态分布随机矢量的性质离散随机矢量及其分布信息论矩阵微分法基本知识矢量或矩阵对于数量变量的微分二、数量函数对于矢量的微分三、矢量函数对于矢量的微分特征矢量和特征空间特征量的类型：物理量、次序量、名义量物理量：直接反映特征的实
零基础学习性能测试第一章：核心性能指标-吞吐量QPS/TPS 试着性能测试学习性能测试零基础性能指标 QPS TPS
目录零基础学习性能测试：第一章-核心性能指标：吞吐量(QPS/TPS)一、吞吐量核心概念解析1.吞吐量定义与分类2.核心区别与关系二、吞吐量关键价值与工作应用1.吞吐量的业务意义2.实际工作场景应用三、吞吐量测试实战指南1.测试工具选择2.JMeter吞吐量测试全流程3.关键配置参数四、吞吐量瓶颈分析与优化1.瓶颈定位四步法2.常见瓶颈及解决方案3.优化案例：电商系统吞吐量提升五、工作应用模板与工
零基础学习性能测试第一章-性能测试和功能测试的区别试着性能测试学习功能测试性能测试零基础
目录零基础学习性能测试：性能测试与功能测试的核心区别一、核心概念对比（本质区别）1.测试目标差异2.测试方法对比3.工作流程差异二、实际工作场景应用指南1.何时使用功能测试？（适用场景）2.何时使用性能测试？（关键场景）3.协同应用模式三、工具链对比与实践1.工具选择矩阵2.工具使用对比（以用户登录为例）3.报告输出差异四、工作场景决策树决策指南：五、协同工作最佳实践1.项目各阶段配合2.协作工作
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin