尘世中迷途小码农

机器学习-决策树

本章介绍机器学习中一个非常重要的监督学习算法，决策树，决策树有很多分类，如CART，C4.5，ID3等，这里介绍ID3。

包括以下内容：

决策树的原理
信息，熵，信息增益的概念
如何划分数据集
如何选择最好的数据划分
构建决策树
图形化查看决策树
测试决策树
存储和加载决策树
ID3的优缺点
案例 - 使用决策树预测隐形眼镜类型

部分内容引用自《Machine Learning in Action》

决策树的原理

问题提出：

假定某个数据集S包含M个元素，每个元素都有属性A1，A2，...，Ak，且已知每个元素都有分类，所有分类的集合为C1，C2，...，Cn。若给定数据集S外的其它某个元素的属性(a1，a2，...，ak)，求该元素属于哪个分类。

求解：

决策树的的思想是先通过某种方式，将数据集转换成一颗树（决策树），再按此决策树中定义的顺序依次判断目标元素的属性值a1，a2，...，ak，最后定位到的叶子节点的分类就是目标元素的分类。决策树的构造相对比较费时，但判断分类是非常高效的。

举例：

假设通过某种统计，我们得到以下判断是否去相亲的决策树：

现在给定一人A，其属性为（白，富，美），通过决策树可以得到“去”，说明可以去相亲。再给定另一人B，其属性为（不富，白，不美），通过决策树得到“犹豫”，说明需要考虑一下是否去相亲。可以看出，决策树可以非常快速的判断某个元素属于哪个分类。

信息，熵，信息增益的概念

为了得到一棵合理的决策树，我们必须知道信息，熵和信息增益的概念。

信息：

假设数据集S中有n个分类，C1，C2，...，Cn，则第i个分类的信息定义为：

$\large l\left ( {C_{i}} \right ) = -\log_{2}p\left ( C_{i} \right )$

其中， $\large p\left ( C_{i} \right )$ 为在数据集S中的概率。注意，信息是基于分类的，而不是基于集合中的元素。

熵：

熵可以称为香农熵，是克劳德香农在二十世纪发明的，其描述的是任意数据集S中元素的混乱程度。熵的值越大表示数据越混乱，越小表示越统一。熵定义为信息的期望：

$\large H = -\sum_{i=1}^{n} p\left ( C_{i} \right ) \log_{2}p\left ( C_{i} \right )$

注意，熵基于信息，所以熵也是针对数据集中的分类，而不是数据集中的元素。例如，假设数据集S中有100个元素，所有这些元素的属性值都不一样，且相差很大，但这些元素都属于同一个分类C。那么该数据集的熵为0，表示所有元素绝对统一，没有任何混乱。

信息增益：

信息增益定义为熵的减少。假设初始情况下数据集S的熵为 $\large H_{1}$ ，经过某个操作后其熵变为 $\large H_{2}$ ，则该操作带来的信息增益为：

$\large \Delta_{H}= H_{1} - H_{2}$

一般情况下 $\large \Delta_{H}$ 都为正数，表示经过某个操作后能减少S的混乱程度，让S中的元素更加统一。但如果 $\large \Delta_{H}$ 为负数，表示该操作让S中的的元素更加混乱。下面通过实例计算数据集的熵。

创建Python模块 entropy.py，输入以下代码：

import math


def cal_entropy(data_set):
    """
    This function calculates entropy of a data set, no matter how many attributes that data set have, only depends on
    the last value of each element, it's the element category(label).
    :param data_set: data set
    :return: entropy of a data set
    """
    labels = {}
    for data in data_set:
        label = data[-1]
        if label not in labels.keys():
            labels[label] = 0
        labels[label] += 1
    entropy = 0.0
    for label in labels:
        prob = float(labels[label]) / len(data_set)
        entropy += (-prob * math.log2(prob))
    return entropy


if __name__ == '__main__':
    data_set = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]
    entropy = cal_entropy(data_set)
    print(entropy)

    data_set = [[1, 1, 'yes'], [1, 1, 'not sure'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]
    entropy = cal_entropy(data_set)
    print(entropy)

运行结果：

D:\work\python_workspace\machine_learning\venv\Scripts\python.exe D:/work/python_workspace/machine_learning/decision_tree/entropy.py
0.9709505944546686
1.3709505944546687

Process finished with exit code 0

可以看出，数据集1中的元素相对于数据集2中的元素更加统一。直观来看，数据集1中只有两个分类，yes和no，而数据集2中增加了一个分类not sure，所以数据集2更加混乱。

如何划分数据集

一个数据集有很多属性，我们需要确定属性判断的先后顺序。只要能得到属性判断的先手顺序，就很容易构建出最终的决策树。为了弄清楚这个问题，我们先要尝试划分数据集。

设原数据集为S，其属性有C1，C2，...，Cn，若按照第i个属性的某个值v划分数据集，则将得到新的数据集Si。其中，Si是S中第i个属性值为v的所有元素的集合，且包含除Ci以外的所有属性。

实例：

创建模块 split_data_set.py，输入以下代码：

def split_data_set(data_set, axis, value):
    """
    Split data set by giving axis and value, only return the sub data set which element value on axis equals to the
    giving value, and sub data will not include the value on axis index.
    :param data_set: data set
    :param axis: axis index
    :param value: giving value
    :return: sub data set
    """
    return_data_set = []
    for data in data_set:
        if data[axis] == value:
            reduced_data_set = data[:axis]
            reduced_data_set.extend(data[axis + 1:])
            return_data_set.append(reduced_data_set)
    return return_data_set


if __name__ == '__main__':
    data_set = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]
    print("Original data set: %r" % data_set)
    result = split_data_set(data_set, 0, 1)
    print("Split index 0, value 1: %r" % result)
    result = split_data_set(data_set, 1, 0)
    print("Split index 1, value 0: %r" % result)

运行结果：

D:\work\python_workspace\machine_learning\venv\Scripts\python.exe D:/work/python_workspace/machine_learning/decision_tree/split_data_set.py
Original data set: [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]
Split index 0, value 1: [[1, 'yes'], [1, 'yes'], [0, 'no']]
Split index 1, value 0: [[1, 'no']]

Process finished with exit code 0

如何选择最好的数据划分

现在我们知道了如何划分数据集，那么应该选择哪个属性进行划分才是最好的划分呢？我们应该优先选择能为我们带来最大信息增益的属性来划分数据集，因为这样划分后剩下的数据集将在最大程度上变得统一，能减少决策树的深度和结构。

假设数据集S有n个分类，C1，C2，...，Cn，按照第i个属性的所有值（vi1，vi2，...，vim）能划分出m个子集Si1，Si2，...，Sim，通过上面熵的计算方式可以得到这m个子集的熵分别为 Hi1，Hi2，...，Him，则这m个子集合并到一起的熵为：

$\large H_{i} = \sum_{j=1}^{m} p\left ( S_{ij} \right ) H_{ij}$

其中， $\large p\left ( S_{ij} \right )$ 为集合相对于原集合S的概率。

依次计算按每个属性划分后的熵，选择信息增益最大的属性作为最好的数据划分。

实例：

创建模块 best_feature.py，输入以下代码：

import decision_tree.entropy as entropy
import decision_tree.split_data_set as sp


def choose_best_feature_to_split(data_set):
    feature_size = len(data_set[0]) - 1
    base_entropy = entropy.cal_entropy(data_set)
    best_info_gain = 0.0
    best_feature = -1
    for feature_index in range(feature_size):
        # All element feature values on i axis, this is a set, so will remove duplicated value
        feature_set = set([element[feature_index] for element in data_set])
        feature_entropy = 0.0
        for feature_value in feature_set:
            sub_data_set = sp.split_data_set(data_set, feature_index, feature_value)
            prob = len(sub_data_set) / float(len(data_set))
            feature_entropy += prob * entropy.cal_entropy(sub_data_set)
        info_gain = base_entropy - feature_entropy
        # print("Info gain on feature %r is %r" % (feature_index, info_gain))
        if info_gain > best_info_gain:
            best_info_gain = info_gain
            best_feature = feature_index
    return best_feature


if __name__ == "__main__":
    data_set = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]
    best_feature = choose_best_feature_to_split(data_set)
    print("The best feature is: %r" % best_feature)

运行结果：

D:\work\python_workspace\machine_learning\venv\Scripts\python.exe D:/work/python_workspace/machine_learning/decision_tree/best_feature.py
The best feature is: 0

Process finished with exit code 0

构建决策树

需要用递归的方式依次找出给定集合中的最优划分属性，然后根据该属性将给定数据集划分成若干子集，再找出每个子集中的最优划分属性进行子集划分。递归退出有两个条件，满足一个即可，1）子集中所有类别都相同，2）检查完所有属性，如果此时存在不同类别，则选择类别最多的作为最终类别。

实例：

创建模块 create_tree.py，输入以下代码：

import operator

import decision_tree.best_feature as bf
import decision_tree.split_data_set as sp


def majority_count(class_list):
    class_count = {}
    for value in class_list:
        if value not in class_count.keys():
            class_count[value] = 0
        class_count[value] += 1
    sorted_class_count = sorted(class_count.items(), key=operator.itemgetter(1), reverse=True)
    return sorted_class_count[0][0]


def create_decision_tree(data_set, labels):
    class_list = [element[-1] for element in data_set]
    if class_list.count(class_list[0]) == len(class_list):
        return class_list[0]
    if len(data_set[0]) == 1:
        return majority_count(class_list)
    best_feature = bf.choose_best_feature_to_split(data_set)
    best_feature_label = labels[best_feature]
    tree = {best_feature_label: {}}
    del (labels[best_feature])
    feature_set = set([element[best_feature] for element in data_set])
    for feature in feature_set:
        sub_labels = labels[:]
        sub_data_set = sp.split_data_set(data_set, best_feature, feature)
        tree[best_feature_label][feature] = create_decision_tree(sub_data_set, sub_labels)
    return tree


if __name__ == "__main__":
    data_set = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]
    labels = ['A', 'B']
    tree = create_decision_tree(data_set, labels)
    print(tree)

运行结果：

D:\work\python_workspace\machine_learning\venv\Scripts\python.exe D:/work/python_workspace/machine_learning/decision_tree/create_tree.py
{'A': {0: 'no', 1: {'B': {0: 'no', 1: 'yes'}}}}

Process finished with exit code 0

输出的决策树是一个dict格式，key代表的是label和该属性的所有值。注意，这里的决策树是普通的树，不是二叉树，因为任何属性都可能有多个值。

图形化查看决策树

可以使用 matplotlib 库画出决策树的图像，便于直观理解。

实例：

针对上面的决策树 {'A': {0: 'no', 1: {'B': {0: 'no', 1: 'yes'}}}}，我们画出其图形。创建模块 plot_tree.py，并输入以下代码：

import matplotlib.pyplot as plt

decisionNode = dict(boxstyle="sawtooth", fc="0.8")
leafNode = dict(boxstyle="round4", fc="0.8")
arrow_args = dict(arrowstyle="<-")


def get_num_leafs(tree):
    num_leafs = 0
    first_str = list(tree.keys())[0]
    second_dict = tree[first_str]
    for key in second_dict.keys():
        if type(second_dict[
                    key]).__name__ == 'dict':  # test to see if the nodes are dictonaires, if not they are leaf nodes
            num_leafs += get_num_leafs(second_dict[key])
        else:
            num_leafs += 1
    return num_leafs


def get_tree_depth(tree):
    max_depth = 0
    first_str = list(tree.keys())[0]
    second_dict = tree[first_str]
    for key in second_dict.keys():
        if type(second_dict[
                    key]).__name__ == 'dict':  # test to see if the nodes are dictonaires, if not they are leaf nodes
            this_depth = 1 + get_tree_depth(second_dict[key])
        else:
            this_depth = 1
        if this_depth > max_depth: max_depth = this_depth
    return max_depth


def plot_node(node_txt, center_pt, parent_pt, node_type):
    create_plot.ax1.annotate(node_txt, xy=parent_pt, xycoords='axes fraction',
                             xytext=center_pt, textcoords='axes fraction',
                             va="center", ha="center", bbox=node_type, arrowprops=arrow_args)


def plot_mid_text(center_pt, parent_pt, txt_str):
    x_mid = (parent_pt[0] - center_pt[0]) / 2.0 + center_pt[0]
    y_mid = (parent_pt[1] - center_pt[1]) / 2.0 + center_pt[1]
    create_plot.ax1.text(x_mid, y_mid, txt_str, va="center", ha="center", rotation=30)


def plot_tree(tree, parent_pt, node_txt):  # if the first key tells you what feat was split on
    num_leafs = get_num_leafs(tree)  # this determines the x width of this tree
    depth = get_tree_depth(tree)
    first_str = list(tree.keys())[0]  # the text label for this node should be this
    cntr_pt = (plot_tree.xOff + (1.0 + float(num_leafs)) / 2.0 / plot_tree.totalW, plot_tree.yOff)
    plot_mid_text(cntr_pt, parent_pt, node_txt)
    plot_node(first_str, cntr_pt, parent_pt, decisionNode)
    second_dict = tree[first_str]
    plot_tree.yOff = plot_tree.yOff - 1.0 / plot_tree.totalD
    for key in second_dict.keys():
        if type(second_dict[
                    key]).__name__ == 'dict':  # test to see if the nodes are dictonaires, if not they are leaf nodes
            plot_tree(second_dict[key], cntr_pt, str(key))  # recursion
        else:  # it's a leaf node print the leaf node
            plot_tree.xOff = plot_tree.xOff + 1.0 / plot_tree.totalW
            plot_node(second_dict[key], (plot_tree.xOff, plot_tree.yOff), cntr_pt, leafNode)
            plot_mid_text((plot_tree.xOff, plot_tree.yOff), cntr_pt, str(key))
    plot_tree.yOff = plot_tree.yOff + 1.0 / plot_tree.totalD


def create_plot(tree):
    fig = plt.figure(1, facecolor='white')
    fig.clf()
    axprops = dict(xticks=[], yticks=[])
    create_plot.ax1 = plt.subplot(111, frameon=False, **axprops)  # no ticks
    # createPlot.ax1 = plt.subplot(111, frameon=False) #ticks for demo puropses
    plot_tree.totalW = float(get_num_leafs(tree))
    plot_tree.totalD = float(get_tree_depth(tree))
    plot_tree.xOff = -0.5 / plot_tree.totalW;
    plot_tree.yOff = 1.0;
    plot_tree(tree, (0.5, 1.0), '')
    plt.show()


def retrieve_tree(i):
    list_of_tree = [{'A': {0: 'no', 1: {'B': {0: 'no', 1: 'yes'}}}},
                    {'A': {0: 'no', 1: {'B': {0: {'head': {0: 'no', 1: 'yes'}}, 1: 'no'}}}}
                    ]
    return list_of_tree[i]


if __name__ == '__main__':
    tree = retrieve_tree(0)
    print(tree)
    create_plot(tree)

运行结果：

D:\work\python_workspace\machine_learning\venv\Scripts\python.exe D:/work/python_workspace/machine_learning/decision_tree/plot_tree.py
{'A': {0: 'no', 1: {'B': {0: 'no', 1: 'yes'}}}}

测试决策树

构建完决策树以后，我们希望通过该决策树来判断给定数据的分类。方法是根据给定数据的属性值依次遍历决策树的节点，从而找到最后的分类。

实例：

创建模块 classify.py，输入以下代码：

import decision_tree.create_tree as ct


def classify(tree, feature_labels, test_vec):
    first_str = list(tree.keys())[0]
    second_dict = tree[first_str]
    feat_index = feature_labels.index(first_str)
    for value in second_dict.keys():
        if test_vec[feat_index] == value:
            if type(second_dict[value]).__name__ == 'dict':
                class_label = classify(second_dict[value], feature_labels, test_vec)
            else:
                class_label = second_dict[value]
    return class_label


if __name__ == '__main__':
    data_set = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]
    labels = ['A', 'B']
    tree = ct.create_decision_tree(data_set, ['A', 'B'])
    print(tree)
    obj_leabl = classify(tree, labels, [1, 0])
    print("The label of [1, 0] is %r" % obj_leabl)
    obj_leabl = classify(tree, labels, [1, 1])
    print("The label of [1, 1] is %r" % obj_leabl)
    obj_leabl = classify(tree, labels, [0, 1])
    print("The label of [0, 1] is %r" % obj_leabl)

运行结果：

D:\work\python_workspace\machine_learning\venv\Scripts\python.exe D:/work/python_workspace/machine_learning/decision_tree/classify.py
{'A': {0: 'no', 1: {'B': {0: 'no', 1: 'yes'}}}}
The label of [1, 0] is 'no'
The label of [1, 1] is 'yes'
The label of [0, 1] is 'no'

Process finished with exit code 0

存储和加载决策树

构建决策树的过程往往会消耗比较多的时间，我们可以将构建好的决策树存储到磁盘空间，需要使用的时候再加载，这样就可以不用重复构建决策树了。这可以通过Python内置模块 pickle来实现。

实例：

创建模块 store.py，并输入以下代码：

import decision_tree.create_tree as ct
import decision_tree.classify as cl
import pickle


def store_tree(tree, file_path):
    with open(file_path, 'wb') as f:
        pickle.dump(tree, f)


def restore_tree(file_path):
    with open(file_path, 'rb') as f:
        return pickle.load(f)


if __name__ == '__main__':
    data_set = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]
    tree = ct.create_decision_tree(data_set, ['A', 'B'])
    print(tree)
    store_tree(tree, './my_tree.data')

    tree = restore_tree('./my_tree.data')
    print(tree)

    obj_leabl = cl.classify(tree, ['A', 'B'], [1, 1])
    print("The label of [1, 1] is %r" % obj_leabl)

运行结果：

D:\work\python_workspace\machine_learning\venv\Scripts\python.exe D:/work/python_workspace/machine_learning/decision_tree/store.py
{'A': {0: 'no', 1: {'B': {0: 'no', 1: 'yes'}}}}
{'A': {0: 'no', 1: {'B': {0: 'no', 1: 'yes'}}}}
The label of [1, 1] is 'yes'

Process finished with exit code 0

可以看出此时能够将构建好的决策树存储到文件 my_tree.data，并从该文件加载决策树。

ID3的优缺点

我们目前讨论的决策树都基于ID3，该算法的优点是相对比较简单，便于实现。缺点是如果匹配项太多可能出现过渡匹配现象，其无法裁剪不必要的叶子节点。另外，ID3只能划分标称型数据，无法处理连续的数值数据。

案例 - 使用决策树预测隐形眼镜类型

最后，我们通过一个案例来综合演练决策树的实际应用，使用决策树来预测是否应该给患者配隐形眼镜，以及配什么材质的隐形眼镜。

数据集属性和取值：

属性	取值
age（年龄）	pre（小孩） young（年轻人） presbyopic（老年人）
prescript（症状）	myopia（近视眼） hyperopia（远视眼）
astigmatic（是否散光）	yes no
tearRate（眼泪数量）	normal（正常） reduced（减少）

注：括号内是中文说明，加粗黑体表示属性名和取值。

数据集分类：

分类	说明
no lenses	不能使用隐形眼镜
soft	使用软材质隐形眼镜
hard	使用硬材质隐形眼镜

数据集保存到文件 lenses.txt，每列分别代表年龄，症状，是否散光，眼泪数量，分类：

young	myope	no	reduced	no lenses
young	myope	no	normal	soft
young	myope	yes	reduced	no lenses
young	myope	yes	normal	hard
young	hyper	no	reduced	no lenses
young	hyper	no	normal	soft
young	hyper	yes	reduced	no lenses
young	hyper	yes	normal	hard
pre	myope	no	reduced	no lenses
pre	myope	no	normal	soft
pre	myope	yes	reduced	no lenses
pre	myope	yes	normal	hard
pre	hyper	no	reduced	no lenses
pre	hyper	no	normal	soft
pre	hyper	yes	reduced	no lenses
pre	hyper	yes	normal	no lenses
presbyopic	myope	no	reduced	no lenses
presbyopic	myope	no	normal	no lenses
presbyopic	myope	yes	reduced	no lenses
presbyopic	myope	yes	normal	hard
presbyopic	hyper	no	reduced	no lenses
presbyopic	hyper	no	normal	soft
presbyopic	hyper	yes	reduced	no lenses
presbyopic	hyper	yes	normal	no lenses

创建模块 lenses.py，并输入以下代码：

import decision_tree.create_tree as ct
import decision_tree.plot_tree as pt
import decision_tree.classify as cf


def get_tree():
    with open('./lenses.txt') as f:
        lenses = [inst.strip().split('\t') for inst in f.readlines()]
        tree = ct.create_decision_tree(lenses, get_lense_labels())
        return tree


def get_lense_labels():
    labels = ['age', 'prescript', 'astigmatic', 'tearRate']
    return labels


def plot_tree():
    tree = get_tree()
    pt.create_plot(tree)


def test_classify():
    tree = get_tree()
    print(tree)
    labels = get_lense_labels()
    test_data = ['young', 'hyper', 'yes', 'normal']
    result = cf.classify(tree, labels, test_data)
    print("The label of data %r is %r" % (test_data, result))


if __name__ == '__main__':
    test_classify()
    plot_tree()

运行结果：

D:\work\python_workspace\machine_learning\venv\Scripts\python.exe D:/work/python_workspace/machine_learning/decision_tree/lenses.py
{'tearRate': {'normal': {'astigmatic': {'no': {'age': {'pre': 'soft', 'presbyopic': {'prescript': {'myope': 'no lenses', 'hyper': 'soft'}}, 'young': 'soft'}}, 'yes': {'prescript': {'myope': 'hard', 'hyper': {'age': {'pre': 'no lenses', 'presbyopic': 'no lenses', 'young': 'hard'}}}}}}, 'reduced': 'no lenses'}}
The label of data ['young', 'hyper', 'yes', 'normal'] is 'hard'

可以看出，此时能够正确的判断是否应该给患者配隐形眼镜，以及用什么材质的隐形眼镜。

你可能感兴趣的:(python,机器学习,决策树,python,机器学习)

python中如何组织项目工程文件晓风残月淡 python爬虫 python 开发语言项目工程文件
一、项目工程文件目录一个典型的Python项目工程目录结构可以帮助你更好地组织代码、资源和测试，从而使得项目更加清晰和易于维护。my_project/│├──my_project/#项目的主代码包│├──__init__.py#包初始化文件│├──module_1.py#示例模块1│└──module_2.py#示例模块2│├──tests/#测试代码目录│├──__init__.py#测试包初始
第三十一篇数据仓库（DW）与商业智能（BI）架构设计与实践指南随缘而动，随遇而安数据库 sql 数据仓库大数据数据库架构
目录一、DW/BI架构核心理论与选型策略1.1主流架构模式对比（1）Kimball维度建模架构（2）Inmon企业工厂架构（3）混合架构二、架构设计方法论与实施步骤2.1维度建模实战指南（1）模型选择决策树（2）ETL开发规范2.2实时BI技术栈选型三、全链路实施与优化策略3.1五阶段实施框架3.2数据治理体系构建四、行业场景深度实践4.1电商用户行为分析4.2金融风控实时预警五、关键问题解析Q1
使用Annoy进行高效的近似最近邻搜索 eahba 前端 javascript angular.js python
在处理大型数据集时，我们经常面临需要快速、准确地查找与给定查询点相近的数据点的问题。Annoy（ApproximateNearestNeighborsOhYeah）就是为解决此类问题而生的一个强大工具。Annoy是一个用C++编写并具有Python绑定的库，专用于在空间中搜索与给定查询点相近的点。它能够创建大型的只读文件数据结构，并映射到内存中，以便于多个进程共享相同的数据。技术背景介绍Annoy
文本转语音常用的几个python库天蓝海乡 python 开发语言人工智能 nlp 语音识别
在Python编程领域，文本到语音（Text-to-Speech,TTS）的转换是一个常见的需求，尤其是在开发能够与用户交互的应用程序时。以下是几个流行的Python库，它们可以帮助开发者实现文本到语音的转换，并且有的可以将转换后的语音保存为MP3文件。gTTS(GoogleText-to-Speech)gTTS是一个依赖于Google的文本转语音API的Python库。它能够将文本转换为自然听起
python之pyttsx3实现文字转语音播报 l8947943 python问题语音识别人工智能 pyttsx3 python朗读
1.pyttsx3是什么pyttsx3是Python中的文本到语音转换库，可以实现文本的朗读功能。2.pyttsx3的安装pipinstallpyttsx33.pyttsx3的demoimportpyttsx3pyttsx3.speak("Areyouok?")pyttsx3.speak("最近有许多打工人都说打工好难")戴上耳机直接跑即可。是不是很简单！那如果我们想对读音的速率，中英文问题进行自
Python报错解决：img2pdf.AlphaChannelError: Refusing to work on images with alpha channel 定星照空 python 人工智能
img2pdf.AlphaChannelError:Refusingtoworkonimageswithalphachannel-solved解决img2pdf模块不能上传含alpha通道透明度的图片的问题解决img2pdf模块PNG图片转PDF文件因alpha通道报错问题文章目录前言一、AlphaChannelError为什么出现？二、该种报错解决方法1.方法一：转化其他格式图片2.方法二：去除
基于PyCATIA的工程图视图锁定工具开发实战解析 Python×CATIA工业智造 CATIA二次开发 python 自动化
引言本文针对CATIA工程图设计中视图误操作问题，基于PySide6与PyCATIA库开发了一款轻量化视图锁定工具。通过Python二次开发实现全视图/选定视图快速锁定、非模态交互界面及状态实时反馈功能，有效提升大型装配体工程图操作效率。文章深度解析代码架构设计、关键技术实现及工程应用价值，提供完整的开发方法论。一、工具功能与工程应用场景1.1核心功能模块功能模块技术指标应用场景全视图锁定批量操作
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
简单理解机器学习中top_k、top_p、temperature三个参数的作用无级程序员机器学习人工智能
在机器学习中，top_k、top_p和temperature是用于控制生成模型（如语言模型）输出质量的参数，尤其在文本生成任务中常见。然而，网上文章很多很全，但大多晦涩难懂，今天我们来用最简单的语言谈谈它们的具体作用：1.点菜式筛选法：top_k参数英文全称：top-k中文名称：前k个具体意义：top_k参数就像是你在餐厅点菜时，服务员只给你推荐菜单上前k名的招牌菜。在AI文本生成中，top_k参
Python中Pyttsx3库实现文本转化成语音MP3格式文件定星照空 python
Pyttsx3库介绍pyttsx3库是一个功能强大且使用方便的Python本地文本转语音库。它不仅能在离线下将文本转换为语音MP3格式文件，也能在Windows、MacOS和Linux等多个操作系统上实现语音播报。同时，还可以调整语音播报的语速、音量和音色。安装与基本使用安装：cmd命令行中执行pipinstallpyttsx3。基本使用示例：importpyttsx3#初始化语音引擎engine
使用PyTorch搭建Transformer神经网络:入门篇 DASA13 pytorch transformer 神经网络
1.简介Transformer是一种强大的神经网络架构,在自然语言处理等多个领域取得了巨大成功。本教程将指导您使用PyTorch框架从头开始构建一个Transformer模型。我们将逐步解释每个组件,并提供详细的代码实现。2.环境设置首先,确保您的系统中已安装Python(推荐3.7+版本)。然后,安装PyTorch和其他必要的库:pipinstalltorchnumpymatplotlib3.P
openai-agents 中custom example agent ZHOU_CAMP oi_agents 人工智能
代码pipshowopenai-agentsName:openai-agentsVersion:0.0.4Summary:OpenAIAgentsSDKHome-page:https://github.com/openai/openai-agents-pythonAuthor:Author-email:OpenAILicense-Expression:MITLocation:d:\soft\ana
Python 向量检索库Faiss使用懒大王爱吃狼 python python 开发语言自动化 Python基础 python教程
Faiss（FacebookAISimilaritySearch）是一个由FacebookAIResearch开发的库，它专门用于高效地搜索和聚类大量向量。Faiss能够在几毫秒内搜索数亿个向量，这使得它非常适合于实现近似最近邻（ANN）搜索，这在许多应用中都非常有用，比如图像检索、推荐系统和自然语言处理。以下是如何使用Faiss的基本步骤和示例：1.安装Faiss首先，你需要安装Faiss。你可
Python 应用部署云端实战指南 —— AWS、Google Cloud 与 Azure 全解析清水白石008 python Python题库 python aws azure
Python应用部署云端实战指南——AWS、GoogleCloud与Azure全解析在当下云计算飞速发展的时代，将Python应用部署到云平台已成为大多数开发者和企业的首选。无论是构建Web服务、API接口，还是自动化任务调度，云平台都能为我们提供高可靠性、弹性伸缩与简便管理的优势。本文将详细阐述如何将Python应用分别部署到AWS、GoogleCloud与Azure，并介绍各平台下涉及的部署工
Python编程：为什么使用同步原语林十一npc Python语言 python 开发语言
Python编程：为什么使用同步原语1.同步原语同步原语：计算机科学中用于实现进程或线程之间同步的机制。目的：提供一种方法来控制多个进程或线程的执行顺序，确保他们以一致的方式访问共享资源在多线程/多进程编程中，多个执行单元可能同时访问共享资源，导致竞态条件。同步原语通过协调执行顺序，确保数据一致性和操作原子性2.Python核心同步原语同步原语作用适用场景模块Lock（互斥锁）确保同一时间只有一个
小白零基础学数学建模系列-引言与课程目录川川菜鸟数学建模小白到精通系列数学建模
目录引言一、我们的专辑包含哪些内容？第一周：数学建模基础与工具第二周：高级数学建模技巧与应用第三周：机器学习基础与数据处理第四周：监督学习与无监督学习算法第五周：神经网络二、学完本专辑能收获到什么？三、适合什么样的人群学习？四、如何学习本专辑？课程目录第1周：数学建模基础与工具第1天：数学建模入门介绍第2天：数学建模工具介绍第3天：线性回归与曲线拟合第4天：线性规划第5天：动态规划第2周：高级数学
python函数闭包和递归_闭包和递归_个人文章 - SegmentFault 思否 weixin_39830313 python函数闭包和递归
js变量的作用域:全局作用域(全局变量):在函数外面声明的变量**生命周期(变量从声明到销毁)：页面从打开到关闭.局部作用域(局部变量):在函数里面声明的变量**生命周：开始调用函数到函数执行完毕1.闭包使用介绍1.闭包介绍(closure)1.1闭包：是一个可以在函数外部访问函数内部变量的函数->闭包是函数1.2闭包作用：可以在函数外部访问函数内部变量->延长局部变量的生命周期1.3闭包语法：-
python函数闭包和递归_python函数基础3--闭包 + 递归 + 函数回调 weixin_39532019 python函数闭包和递归
一、闭包1.函数嵌套defouter():print("外层函数")definner():print("内层函数")returninner()outer()函数嵌套流程图2.闭包闭包的表现形式：函数里面嵌套函数，外层函数返回内层函数的函数名，这种情况就称之为闭包defouter():print("外层函数")definner():print("内层函数")returninnerret=outer(
python中的递归、回调函数以及闭包总结敲代码敲到头发茂密 Python成长之路 python 开发语言
这里写目录标题一、递归例1：利用递归函数计算1到10的和例2：利用递归函数计算10的阶乘二、回调函数特别注意：在函数中的调用函数分为以下情况：1、同步回调2、异步回调三、闭包一、递归作用：在函数内部调用自己若干次例1：利用递归函数计算1到10的和defsum_num(num):ifnum>=1:sum=num+sum_num(num-1)else:sum=0returnsumprint(sum_n
使用Pygame实现记忆拼图游戏点我头像干啥 Ai pygame python 开发语言
引言记忆拼图游戏是一种经典的益智游戏，玩家需要通过翻转卡片来匹配相同的图案。这类游戏不仅能够锻炼玩家的记忆力，还能带来很多乐趣。本文将详细介绍如何使用Pygame库来实现一个简单的记忆拼图游戏。我们将从Pygame的基础知识开始，逐步构建游戏的各个部分，最终完成一个完整的游戏。1.Pygame简介Pygame是一个用于编写视频游戏的Python库，它基于SDL库（SimpleDirectMedia
《Python实战进阶》No28: 使用 Paramiko 实现远程服务器管理带娃的IT创业者 Python实战进阶 python 服务器开发语言
No28:使用Paramiko实现远程服务器管理摘要在现代开发与运维中，远程服务器管理是必不可少的一环。通过SSH协议，我们可以安全地连接到远程服务器并执行各种操作。Python的Paramiko模块是一个强大的工具，能够帮助我们实现自动化任务，如代码部署、批量命令执行和文件传输。本集将深入讲解Paramiko的核心功能，并通过实战案例展示如何高效管理远程服务器。核心概念和知识点SSH协议的基本原
python八股（—） --FBV，CBV suohanfjiusbis 数据库 python
引言FBV是面向函数的视图。defFBV(request):ifrequest.method=='GET':returnHttpResponse("GET")elifrequest.method=='POST':returnHttpResponse("POST")CBV是面向类的视图。classCBV(View):defget(self,request):returnHttpResponse("G
初始OpenCV 指尖下的技术 OpenCV opencv 人工智能计算机视觉
OpenCV是一个功能强大、应用广泛的计算机视觉库，它为开发人员提供了丰富的工具和算法，可以帮助他们快速构建各种视觉应用。随着计算机视觉技术的不断发展，OpenCV也将会继续发挥重要的作用。OpenCV提供了大量的计算机视觉算法和图像处理工具，广泛应用于图像和视频的处理、分析以及机器学习领域。所以学习人计算机视觉或者图像处理方面的知识，OpenCV是一个要重点学习的工具库。首先介绍一下OpenCV
【纯职业小组——思维】 Kent_J_Truman 蓝桥杯算法
题目思路第十五届蓝桥杯省赛PythonB组H题【纯职业小组】题解（AC）_蓝桥杯纯职业小组-CSDN博客代码#includeusingnamespacestd;usingll=longlong;intmain(){ios::sync_with_stdio(0);cin.tie(0);intt;cin>>t;while(t--){intn;llk;cin>>n>>k;unordered_maph;f
第十五届蓝桥杯省赛PythonB组B题【数字串个数】题解（AC）信奥郭老师蓝桥杯职场和发展
设n=10000n=10000n=10000。法一枚举333的个数以及777的个数，假设333的个数为iii，777的个数为jjj，那么非3,73,73,7的个数即为n−i−jn-i-jn−i−j。在长度为nnn的字符串中选取iii的方案数为CniC^i_nCni，在剩余n−in-in−i个位置选取jjj个的方案数为Cn−ijC^j_{n-i}Cn−ij，剩余位置个数为n−i−jn-i-jn−i−
ModuleNotFoundError: No module named ‘h5py‘ Hardess-god python
到ModuleNotFoundError:Nomodulenamed'h5py'错误表明Python环境中没有安装h5py模块。h5py是一个用于处理HDF5二进制数据格式的Python接口，广泛用于大规模存储和操纵数据。解决方案：安装h5py要解决这个问题，你需要在你的Python环境中安装h5py。以下是如何在不同环境中安装h5py的步骤：使用pip安装如果你使用的是pip包管理器，可以通过以
CSP-J备考冲刺必刷题（C++） | AcWing 1253 家谱热爱编程的通信人 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】Acwing：1253.家谱-AcWing题库
蓝桥杯2024年第十五届省赛真题-魔法巡游（Python）罄竹_ python刷题 python 蓝桥杯算法
前言本文参考了FJ_EYoungOneC的文章思路，并且修改了该文章的某些理解上的偏差。一、题目题目来源：dotcpp题目描述在蓝桥王国中，两位魔法使者，小蓝与小桥，肩负着维护时空秩序的使命。他们每人分别持有N个符文石，这些石头被赋予了强大的力量，每一块上都刻有一个介于1到109之间的数字符号。小蓝的符文石集合标记为s1,s2,...,sN，小桥的则为t1,t2,...,tN。两位魔法使者的任务是
机器学习结合伏羲模型高精度多尺度气象分析与降尺度实现 Hardess-god WRF 算法人工智能
随着人工智能的发展，机器学习技术在气象预报领域展现出巨大潜力。本文详细探讨如何结合机器学习（ML）和伏羲模型进行高精度多尺度气象模拟分析，并提供详细的实现步骤和相关代码。1.研究目标与技术路线目标：结合机器学习模型与伏羲气象模式，实现区域和局地高精度降尺度。技术路线：伏羲模型提供大尺度气象数据和预报使用机器学习模型（如CNN、LSTM、XGBoost）进行降尺度2.数据准备与处理2.1气象数据获取
想使用dify实现docx文档的自动生成？试了一圈，感觉还是根据python-docx更靠谱几道之旅人工智能智能体及数字员工人工智能
前言：文档自动生成的需求痛点在软件开发过程中，需求文档、设计文档等材料的编写是每个开发者都绕不开的工作。最近笔者接到一个需要批量生成标准化需求文档的任务，尝试了目前热门的低代码工具Dify后，发现对于稍微复杂格式的文档生成需求（例如文本居中这么简单的需求），最终还是回归到基于python-docx库的解决方案。本文将分享两种技术路线的对比实践。一、Dify的踩坑经历我尝试了markdown转doc
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。