咖喱要加力

头歌--机器学习之决策树

第1关：什么是决策树

第2关：信息熵与信息增益

第3关：使用ID3算法构建决策树

第4关：信息增益率

第5关：基尼系数

第6关：预剪枝与后剪枝

第7关：鸢尾花识别

第1关：什么是决策树

1、下列说法正确的是？（AB）

A、训练决策树的过程就是构建决策树的过程

B、ID3算法是根据信息增益来构建决策树

C、C4.5算法是根据基尼系数来构建决策树

D、决策树模型的可理解性不高

2、下列说法错误的是？（B）

A、从树的根节点开始，根据特征的值一步一步走到叶子节点的过程是决策树做决策的过程
B、决策树只能是一棵二叉树
C、根节点所代表的特征是最优特征

第2关：信息熵与信息增益

import numpy as np


def calcInfoGain(feature, label, index):
    '''
    计算信息增益
    :param feature:测试用例中字典里的feature，类型为ndarray
    :param label:测试用例中字典里的label，类型为ndarray
    :param index:测试用例中字典里的index，即feature部分特征列的索引。该索引指的是feature中第几个特征，如index:0表示使用第一个特征来计算信息增益。
    :return:信息增益，类型float
    '''

    #*********** Begin ***********#
    def total_cal(label):
        label_set = set(label)
        result = 0
        for i in label_set:
            p=list(label).count(i)/len(label)
            result-=p * np.log2(p)
        return result
    aba=[]
    length=[]
    for value in set(feature[:,index]):
        # num=feature[:,index].count(value)
        sub_label = []
        for i in range(len(feature)):
            if feature[i][index] == value:
                sub_label.append(label[i])
        aba.append(total_cal(sub_label))
        length.append(len(sub_label)/len(label))
    res=total_cal(label)-length[0]*aba[0]-length[1]*aba[1]
    return res
    #*********** End *************#

第3关：使用ID3算法构建决策树

import numpy as np
class DecisionTree(object):
    def __init__(self):
        #决策树模型
        self.tree = {}
    def calcInfoGain(self, feature, label, index):
        '''
        计算信息增益
        :param feature:测试用例中字典里的feature，类型为ndarray
        :param label:测试用例中字典里的label，类型为ndarray
        :param index:测试用例中字典里的index，即feature部分特征列的索引。该索引指的是feature中第几个特征，如index:0表示使用第一个特征来计算信息增益。
        :return:信息增益，类型float
        '''
        # 计算熵
        def calcInfoEntropy(label):
            '''
            计算信息熵
            :param label:数据集中的标签，类型为ndarray
            :return:信息熵，类型float
            '''
            label_set = set(label)
            result = 0
            for l in label_set:
                count = 0
                for j in range(len(label)):
                    if label[j] == l:
                        count += 1
                # 计算标签在数据集中出现的概率
                p = count / len(label)
                # 计算熵
                result -= p * np.log2(p)
            return result
        # 计算条件熵
        def calcHDA(feature, label, index, value):
            '''
            计算信息熵
            :param feature:数据集中的特征，类型为ndarray
            :param label:数据集中的标签，类型为ndarray
            :param index:需要使用的特征列索引，类型为int
            :param value:index所表示的特征列中需要考察的特征值，类型为int
            :return:信息熵，类型float
            '''
            count = 0
            # sub_feature和sub_label表示根据特征列和特征值分割出的子数据集中的特征和标签
            sub_feature = []
            sub_label = []
            for i in range(len(feature)):
                if feature[i][index] == value:
                    count += 1
                    sub_feature.append(feature[i])
                    sub_label.append(label[i])
            pHA = count / len(feature)
            e = calcInfoEntropy(sub_label)
            return pHA * e
        base_e = calcInfoEntropy(label)
        f = np.array(feature)
        # 得到指定特征列的值的集合
        f_set = set(f[:, index])
        sum_HDA = 0
        # 计算条件熵
        for value in f_set:
            sum_HDA += calcHDA(feature, label, index, value)
        # 计算信息增益
        return base_e - sum_HDA
    # 获得信息增益最高的特征
    def getBestFeature(self, feature, label):
        max_infogain = 0
        best_feature = 0
        for i in range(len(feature[0])):
            infogain = self.calcInfoGain(feature, label, i)
            if infogain > max_infogain:
                max_infogain = infogain
                best_feature = i
        return best_feature
    def createTree(self, feature, label):
        # 样本里都是同一个label没必要继续分叉了
        if len(set(label)) == 1:
            return label[0]
        # 样本中只有一个特征或者所有样本的特征都一样的话就看哪个label的票数高
        if len(feature[0]) == 1 or len(np.unique(feature, axis=0)) == 1:
            vote = {}
            for l in label:
                if l in vote.keys():
                    vote[l] += 1
                else:
                    vote[l] = 1
            max_count = 0
            vote_label = None
            for k, v in vote.items():
                if v > max_count:
                    max_count = v
                    vote_label = k
            return vote_label
        # 根据信息增益拿到特征的索引
        best_feature = self.getBestFeature(feature, label)
        tree = {best_feature: {}}
        f = np.array(feature)
        # 拿到bestfeature的所有特征值
        f_set = set(f[:, best_feature])
        # 构建对应特征值的子样本集sub_feature, sub_label
        for v in f_set:
            sub_feature = []
            sub_label = []
            for i in range(len(feature)):
                if feature[i][best_feature] == v:
                    sub_feature.append(feature[i])
                    sub_label.append(label[i])
            # 递归构建决策树
            tree[best_feature][v] = self.createTree(sub_feature, sub_label)
        return tree
    def fit(self, feature, label):
        '''
        :param feature: 训练集数据，类型为ndarray
        :param label:训练集标签，类型为ndarray
        :return: None
        '''
        #************* Begin ************#
        self.tree = self.createTree(feature, label)
        #************* End **************#
    def predict(self, feature):
        '''
        :param feature:测试集数据，类型为ndarray
        :return:预测结果，如np.array([0, 1, 2, 2, 1, 0])
        '''
        #************* Begin ************#
        result = []
        def classify(tree, feature):
            if not isinstance(tree, dict):
                return tree
            t_index, t_value = list(tree.items())[0]
            f_value = feature[t_index]
            if isinstance(t_value, dict):
                classLabel = classify(tree[t_index][f_value], feature)
                return classLabel
            else:
                return t_value
        for f in feature:
            result.append(classify(self.tree, f))
        return np.array(result)


        #************* End **************#

第4关：信息增益率

import numpy as np

def calcInfoGain(feature, label, index):
    '''
    计算信息增益
    :param feature:测试用例中字典里的feature，类型为ndarray
    :param label:测试用例中字典里的label，类型为ndarray
    :param index:测试用例中字典里的index，即feature部分特征列的索引。该索引指的是feature中第几个特征，如index:0表示使用第一个特征来计算信息增益。
    :return:信息增益，类型float
    '''
    # 计算熵
    def calcInfoEntropy(label):
        '''
        计算信息熵
        :param label:数据集中的标签，类型为ndarray
        :return:信息熵，类型float
        '''

        label_set = set(label)
        result = 0
        for l in label_set:
            count = 0
            for j in range(len(label)):
                if label[j] == l:
                    count += 1
            # 计算标签在数据集中出现的概率
            p = count / len(label)
            # 计算熵
            result -= p * np.log2(p)
        return result

    # 计算条件熵
    def calcHDA(feature, label, index, value):
        '''
        计算信息熵
        :param feature:数据集中的特征，类型为ndarray
        :param label:数据集中的标签，类型为ndarray
        :param index:需要使用的特征列索引，类型为int
        :param value:index所表示的特征列中需要考察的特征值，类型为int
        :return:信息熵，类型float
        '''
        count = 0
        # sub_label表示根据特征列和特征值分割出的子数据集中的标签
        sub_label = []
        for i in range(len(feature)):
            if feature[i][index] == value:
                count += 1
                sub_label.append(label[i])
        pHA = count / len(feature)
        e = calcInfoEntropy(sub_label)
        return pHA * e

    base_e = calcInfoEntropy(label)
    f = np.array(feature)
    # 得到指定特征列的值的集合
    f_set = set(f[:, index])
    sum_HDA = 0
    # 计算条件熵
    for value in f_set:
        sum_HDA += calcHDA(feature, label, index, value)
    # 计算信息增益
    return base_e - sum_HDA


def calcInfoGainRatio(feature, label, index):
    '''
    计算信息增益率
    :param feature:测试用例中字典里的feature，类型为ndarray
    :param label:测试用例中字典里的label，类型为ndarray
    :param index:测试用例中字典里的index，即feature部分特征列的索引。该索引指的是feature中第几个特征，如index:0表示使用第一个特征来计算信息增益。
    :return:信息增益率，类型float
    '''

    #********* Begin *********#
    info_gain = calcInfoGain(feature, label, index)
    unique_value = list(set(feature[:, index]))
    IV = 0
    for value in unique_value:
        len_v = np.sum(feature[:, index] == value)
        IV -= (len_v/len(feature))*np.log2((len_v/len(feature)))
    return info_gain/IV
    #********* End *********#

第5关：基尼系数

import numpy as np

def calcGini(feature, label, index):
    '''
    计算基尼系数
    :param feature:测试用例中字典里的feature，类型为ndarray
    :param label:测试用例中字典里的label，类型为ndarray
    :param index:测试用例中字典里的index，即feature部分特征列的索引。该索引指的是feature中第几个特征，如index:0表示使用第一个特征来计算信息增益。
    :return:基尼系数，类型float
    '''

    #********* Begin *********#

    def _gini(label):
        unique_label = list(set(label))
        gini = 1
        for l in unique_label:
            p = np.sum(label == l)/len(label)
            gini -= p**2
        return gini
    unique_value = list(set(feature[:, index]))
    gini = 0
    for value in unique_value:
        len_v = np.sum(feature[:, index] == value)
        gini += (len_v/len(feature))*_gini(label[feature[:, index] == value])
    return gini
    #********* End *********#

第6关：预剪枝与后剪枝

import numpy as np
from copy import deepcopy
class DecisionTree(object):
    def __init__(self):
        #决策树模型
        self.tree = {}
    def calcInfoGain(self, feature, label, index):
        '''
        计算信息增益
        :param feature:测试用例中字典里的feature，类型为ndarray
        :param label:测试用例中字典里的label，类型为ndarray
        :param index:测试用例中字典里的index，即feature部分特征列的索引。该索引指的是feature中第几个特征，如index:0表示使用第一个特征来计算信息增益。
        :return:信息增益，类型float
        '''
        # 计算熵
        def calcInfoEntropy(feature, label):
            '''
            计算信息熵
            :param feature:数据集中的特征，类型为ndarray
            :param label:数据集中的标签，类型为ndarray
            :return:信息熵，类型float
            '''
            label_set = set(label)
            result = 0
            for l in label_set:
                count = 0
                for j in range(len(label)):
                    if label[j] == l:
                        count += 1
                # 计算标签在数据集中出现的概率
                p = count / len(label)
                # 计算熵
                result -= p * np.log2(p)
            return result
        # 计算条件熵
        def calcHDA(feature, label, index, value):
            '''
            计算信息熵
            :param feature:数据集中的特征，类型为ndarray
            :param label:数据集中的标签，类型为ndarray
            :param index:需要使用的特征列索引，类型为int
            :param value:index所表示的特征列中需要考察的特征值，类型为int
            :return:信息熵，类型float
            '''
            count = 0
            # sub_feature和sub_label表示根据特征列和特征值分割出的子数据集中的特征和标签
            sub_feature = []
            sub_label = []
            for i in range(len(feature)):
                if feature[i][index] == value:
                    count += 1
                    sub_feature.append(feature[i])
                    sub_label.append(label[i])
            pHA = count / len(feature)
            e = calcInfoEntropy(sub_feature, sub_label)
            return pHA * e
        base_e = calcInfoEntropy(feature, label)
        f = np.array(feature)
        # 得到指定特征列的值的集合
        f_set = set(f[:, index])
        sum_HDA = 0
        # 计算条件熵
        for value in f_set:
            sum_HDA += calcHDA(feature, label, index, value)
        # 计算信息增益
        return base_e - sum_HDA
    # 获得信息增益最高的特征
    def getBestFeature(self, feature, label):
        max_infogain = 0
        best_feature = 0
        for i in range(len(feature[0])):
            infogain = self.calcInfoGain(feature, label, i)
            if infogain > max_infogain:
                max_infogain = infogain
                best_feature = i
        return best_feature
    # 计算验证集准确率
    def calc_acc_val(self, the_tree, val_feature, val_label):
        result = []
        def classify(tree, feature):
            if not isinstance(tree, dict):
                return tree
            t_index, t_value = list(tree.items())[0]
            f_value = feature[t_index]
            if isinstance(t_value, dict):
                classLabel = classify(tree[t_index][f_value], feature)
                return classLabel
            else:
                return t_value
        for f in val_feature:
            result.append(classify(the_tree, f))
        result = np.array(result)
        return np.mean(result == val_label)
    def createTree(self, train_feature, train_label):
        # 样本里都是同一个label没必要继续分叉了
        if len(set(train_label)) == 1:
            return train_label[0]
        # 样本中只有一个特征或者所有样本的特征都一样的话就看哪个label的票数高
        if len(train_feature[0]) == 1 or len(np.unique(train_feature, axis=0)) == 1:
            vote = {}
            for l in train_label:
                if l in vote.keys():
                    vote[l] += 1
                else:
                    vote[l] = 1
            max_count = 0
            vote_label = None
            for k, v in vote.items():
                if v > max_count:
                    max_count = v
                    vote_label = k
            return vote_label
        # 根据信息增益拿到特征的索引
        best_feature = self.getBestFeature(train_feature, train_label)
        tree = {best_feature: {}}
        f = np.array(train_feature)
        # 拿到bestfeature的所有特征值
        f_set = set(f[:, best_feature])
        # 构建对应特征值的子样本集sub_feature, sub_label
        for v in f_set:
            sub_feature = []
            sub_label = []
            for i in range(len(train_feature)):
                if train_feature[i][best_feature] == v:
                    sub_feature.append(train_feature[i])
                    sub_label.append(train_label[i])
            # 递归构建决策树
            tree[best_feature][v] = self.createTree(sub_feature, sub_label)
        return tree
    # 后剪枝
    def post_cut(self, val_feature, val_label):
        # 拿到非叶子节点的数量
        def get_non_leaf_node_count(tree):
            non_leaf_node_path = []
            def dfs(tree, path, all_path):
                for k in tree.keys():
                    if isinstance(tree[k], dict):
                        path.append(k)
                        dfs(tree[k], path, all_path)
                        if len(path) > 0:
                            path.pop()
                    else:
                        all_path.append(path[:])
            dfs(tree, [], non_leaf_node_path)
            unique_non_leaf_node = []
            for path in non_leaf_node_path:
                isFind = False
                for p in unique_non_leaf_node:
                    if path == p:
                        isFind = True
                        break
                if not isFind:
                    unique_non_leaf_node.append(path)
            return len(unique_non_leaf_node)
        # 拿到树中深度最深的从根节点到非叶子节点的路径
        def get_the_most_deep_path(tree):
            non_leaf_node_path = []
            def dfs(tree, path, all_path):
                for k in tree.keys():
                    if isinstance(tree[k], dict):
                        path.append(k)
                        dfs(tree[k], path, all_path)
                        if len(path) > 0:
                            path.pop()
                    else:
                        all_path.append(path[:])
            dfs(tree, [], non_leaf_node_path)
            max_depth = 0
            result = None
            for path in non_leaf_node_path:
                if len(path) > max_depth:
                    max_depth = len(path)
                    result = path
            return result
        # 剪枝
        def set_vote_label(tree, path, label):
            for i in range(len(path)-1):
                tree = tree[path[i]]
            tree[path[len(path)-1]] = vote_label
        acc_before_cut = self.calc_acc_val(self.tree, val_feature, val_label)
        # 遍历所有非叶子节点
        for _ in range(get_non_leaf_node_count(self.tree)):
            path = get_the_most_deep_path(self.tree)
            # 备份树
            tree = deepcopy(self.tree)
            step = deepcopy(tree)
            # 跟着路径走
            for k in path:
                step = step[k]
            # 叶子节点中票数最多的标签
            vote_label = sorted(step.items(), key=lambda item: item[1], reverse=True)[0][0]
            # 在备份的树上剪枝
            set_vote_label(tree, path, vote_label)
            acc_after_cut = self.calc_acc_val(tree, val_feature, val_label)
            # 验证集准确率高于0.9才剪枝
            if acc_after_cut > acc_before_cut:
                set_vote_label(self.tree, path, vote_label)
                acc_before_cut = acc_after_cut
    def fit(self, train_feature, train_label, val_feature, val_label):
        '''
        :param train_feature:训练集数据，类型为ndarray
        :param train_label:训练集标签，类型为ndarray
        :param val_feature:验证集数据，类型为ndarray
        :param val_label:验证集标签，类型为ndarray
        :return: None
        '''
        #************* Begin ************#
        self.tree = self.createTree(train_feature, train_label)
        # 后剪枝
        self.post_cut(val_feature, val_label)


        #************* End **************#
    def predict(self, feature):
        '''
        :param feature:测试集数据，类型为ndarray
        :return:预测结果，如np.array([0, 1, 2, 2, 1, 0])
        '''
        #************* Begin ************#

        result = []
 
        # 单个样本分类
        def classify(tree, feature):
            if not isinstance(tree, dict):
                return tree
            t_index, t_value = list(tree.items())[0]
            f_value = feature[t_index]
            if isinstance(t_value, dict):
                classLabel = classify(tree[t_index][f_value], feature)
                return classLabel
            else:
                return t_value
 
        for f in feature:
            result.append(classify(self.tree, f))
 
        return np.array(result)
        #************* End **************#

第7关：鸢尾花识别

#********* Begin *********#

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
 
train_df = pd.read_csv('./step7/train_data.csv').as_matrix()
train_label = pd.read_csv('./step7/train_label.csv').as_matrix()
test_df = pd.read_csv('./step7/test_data.csv').as_matrix()
 
dt = DecisionTreeClassifier()
dt.fit(train_df, train_label)
result = dt.predict(test_df)
 
result = pd.DataFrame({'target':result})
result.to_csv('./step7/predict.csv', index=False)
#********* End *********#

U单元测试.py
前言：在软件开发过程中，代码的质量至关重要，而单元测试是确保代码质量的有效手段之一。目录一、初识单元测试二、Python单元测试利器unittest（一）基本结构（二）常用断言方法三、编写你的第一个Python单元测试（一）创建被测试代码（二）创建测试文件（三）编写测试用例（四）运行测试四、深入理解单元测试的魔力总结一、初识单元测试写代码时，难免会担心功能出错。单元测试就像是给代码的一次次“小考”
Python与自动驾驶仿真平台AirSim：未来驾驶的“练兵场”如何用代码玩转现实？ Echo_Wish Python！实战！python 自动驾驶开发语言
Python与自动驾驶仿真平台AirSim：未来驾驶的“练兵场”如何用代码玩转现实？今天咱们聊聊一个非常火但又特别实用的技术方向——自动驾驶仿真。具体点，就是用Python怎么玩转微软出品的自动驾驶仿真平台AirSim。别看名字叫AirSim，实际上它不仅支持无人机，还对自动驾驶汽车的模拟提供了强大支持。自动驾驶不是科幻，背后需要海量数据、复杂算法和大量实车测试。而现实世界测试成本高、风险大，怎么
OpenAI API接口使用基础教程且漫CN DeepSeek openaiapi api openai
OfficialPython库—OpenAIAPI这是OpenAI官方为Python（支持Python 3.8及以上）提供的RESTAPI客户端，使用现代的httpx库实现同步与异步调用，并内置完整的类型定义([github.com][1])。文档RESTAPI的官方文档请参考platform.openai.com。本库完整API说明可见api.md文件([github.com][1])。安装pi
【openAI库】Python语言openAI库详解：从入门到精通（从0到1手把手教程） Java八股文 python 人工智能开发语言
在人工智能（AI）领域，OpenAI无疑是全球最受瞩目的机构之一。它推出的GPT系列模型、DALL·E等创新技术，正在深刻改变各行各业。作为Python开发者，我们该如何快速上手并高效利用OpenAI的API，成为了提升个人竞争力的关键。本文将带你从零开始，深入解析Python语言中的openAI库，助你掌握AI开发的核心工具，成为AI领域的专家。一、什么是openAI库？它能为开发者带来什么？1
Python中的分支结构新人码农11111 python 开发语言
目录Python分支结构详解：从顺序执行到条件选择1.顺序结构2.分支结构2.1单分支（if语句）2.2双分支（if-else语句）2.3多分支（if-elif-else语句）3.分支嵌套4.pass关键字分支结构实战：成绩评级系统总结Python分支结构详解：从顺序执行到条件选择在Python编程中，流程控制是构建逻辑的核心，主要包括顺序结构、选择结构和循环结构。本文将深入解析分支结构（选择结构
世界人工智能大会在即，中国AI布局展现多重深意未来智慧谷人工智能世界人工智能大会（WAIC）
2025年世界人工智能大会（WAIC）将于7月26日至28日在上海举行。本次大会以“智能时代同球共济”为主题，展览面积首次突破7万平方米，汇聚了来自30余个国家和地区的1200余位嘉宾，其中包括12位图灵奖、诺贝尔奖得主及80余位中外院士。这一全球性平台的搭建，揭示了中国在人工智能领域深化发展的战略路径。技术展示：从模型开源到终端落地本届大会将呈现3000余项前沿展品，涵盖40余款大模型、60余款
python的运算符狡黠的罗伦斯 python 开发语言
文章目录前言一、python的相关运算符1、算术运算符2、比较运算符3、逻辑运算符4、赋值运算符5、位运算符6、其他运算符二、使用方法1、算术运算符2、比较运算符2、逻辑运算符4、赋值运算符5、位运算符6、其他运算符三、运算符的相关事项总结前言运算符是编程语言中不可或缺的组成部分，它们决定了数据如何被处理和计算。在Python中，丰富的运算符提供了灵活的操作方式，涵盖了算术运算、比较运算、逻辑运算
全面学习 OpenAI API：从 Python 教程到 API Key 使用详解，快速上手调用和部署我的学校你进不来学习 python 开发语言人工智能语言模型深度学习
说在前面我们正身处在人工智能迅猛发展的时代，OpenAIAPI无疑是其中的翘楚，它提供了强大的工具，让开发者能够创建智能应用程序。然而，对于许多刚接触这个领域的开发者来说，如何开始使用OpenAIAPI可能是一个不小的挑战。这篇文章旨在全面介绍如何从零开始学习和使用OpenAIAPI，从申请APIKey到在Python中调用和部署，助力你快速上手并实现在项目中的应用。在接下来的内容中，我们将详细阐
Python 爬虫实战：12306 登录与余票监控（图形验证码识别 + 并发请求） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、引言12306作为中国铁路客户服务中心的官方网站，承载着海量的火车票预订业务。在春运、节假日等高峰期，票源紧张，及时获取余票信息对于抢票来说至关重要。本文将详细讲解如何使用Python爬虫技术实现12306的模拟登录，并监控余票信息，包括图形验证码的识别和并发请求的处理。二、环境搭建在开始之前，首先需要搭建好Python爬虫环境，确保已安装Python解释器，并安装以下必要的库：pipinst
Python 爬虫实战：GitHub 热门项目分析（Star 趋势 + 技术栈聚类） Python核芯 Python爬虫实战项目 python 爬虫 github
前言今天我们要一起完成一个实战项目：通过爬取GitHub热门项目，分析它们的Star趋势以及技术栈聚类。这个项目不仅能让我们熟悉GitHubAPI的使用，还能锻炼我们数据处理和可视化的能力。GitHub作为全球最大的代码托管平台，拥有海量的开源项目。通过分析这些项目的Star趋势和技术栈，我们可以了解当前热门的技术方向，这对我们的技术选型和职业发展都有很大的帮助。本文将分为以下几个部分：爬取Git
【机器学习】什么是逻辑回归？从入门到精通：掌握逻辑回归与二分类问题的解决之道宸码模式识别机器学习机器学习 python 逻辑回归分类人工智能算法
从入门到精通：掌握逻辑回归与二分类问题的解决之道引言1.1逻辑回归简介1.2逻辑回归的应用场景逻辑回归基本原理2.1逻辑回归概述逻辑回归的基本思想预测类别的概率2.2线性模型与Sigmoid函数线性模型Sigmoid函数Sigmoid函数的性质为什么选择Sigmoid函数2.3逻辑回归的输出：概率值分类决策代价函数与优化数学基础3.1逻辑回归的假设与目标假设目标3.2对数似然函数概率模型对数似然函
软件测试面试怎么提升通过率？
2025年软件测试面试技巧、软件测试简历包装、能一周光速拿到5个软件测试岗offer的方法|软件测试面试速成简历篇-3招抓住面试官眼球数字说话：写"发现58个缺陷"比"负责测试"强10倍技术组合：列出"Selenium+Python+Jenkins"这种工具链项目亮点：每个项目用1个具体成果，如"自动化覆盖率达70%"面试篇-5个必杀技测试思维：回答时按"功能-性能-安全-兼容性"分层说Bug案例
讯飞星火深度推理模型X1，为教育医疗带来革新
在科技飞速发展的今天，人工智能大模型已经成为推动各行业变革的重要力量。科大讯飞作为人工智能领域的佼佼者，其研发的星火深度推理模型X1，凭借独特的技术优势和强大的功能，为教育和医疗两大关乎国计民生的领域带来了前所未有的革新。技术原理与创新讯飞星火深度推理模型X1基于Transformer架构，并在此基础上进行了一系列创新。它通过大规模多阶段强化学习训练方法，在复杂推理、数学、代码、语言理解等场景全面
python中的分支结构幻鸩605 python 开发语言
一、顺序结构与选择结构顺序结构：代码会按照书写的先后顺序，依次逐行执行。选择结构：依据条件判断的结果，来决定执行哪一部分代码。二、单分支、双分支、多分支单分支（if）#使用if可以开启代码块如果条件为真执行代码块#（多行语句，保持相同缩进）if10>5:#条件满足时执行的代码print("哈哈哈")print("嘿嘿嘿")print("嘻嘻嘻")print("程序结束")双分支（if-else）i
Python 爬虫实战：微博用户数据爬取 Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、前言微博作为国内最大的社交媒体平台之一，蕴含着大量有价值的公开数据。本文将详细介绍如何使用Python爬取微博数据，包括环境搭建、登录模拟、数据抓取、反爬应对、数据存储等完整流程。二、准备工作1.环境准备与工具选择1.1必需工具包安装爬虫所需的库：pipinstallrequestspandasbeautifulsoup4requests：发送HTTP请求。pandas：数据处理和分析。bea
Python爬虫实战：研究httplib2库相关技术 ylfhpy 爬虫项目实战 python 爬虫 php httplib2
1.引言1.1研究背景与意义随着互联网的快速发展，网络上的信息量呈爆炸式增长。如何从海量的网页中高效地获取有价值的数据，成为了当前信息技术领域的一个重要研究课题。网络爬虫作为一种自动获取互联网信息的程序，能够按照一定的规则，自动地抓取网页内容并提取和整理信息，为信息检索、数据分析、机器学习等领域提供了丰富的数据来源。在电子商务领域，爬虫可以用于价格监控、竞品分析和市场调研；在学术研究中，爬虫可以帮
Python爬虫实战：研究stdlib库相关技术 ylfhpy 爬虫项目实战 python 爬虫前端开发语言 stdlib 标准库
1.引言1.1研究背景与意义在当今信息爆炸的时代，互联网上的数据量呈指数级增长。网络爬虫作为一种自动获取网页内容的工具，在信息检索、数据挖掘、舆情分析等领域发挥着重要作用。Python由于其简洁的语法和丰富的库支持，成为开发网络爬虫的首选语言。本文旨在探讨如何利用Python标准库构建一个功能完整的网络爬虫系统，避免依赖过多第三方库，提高系统的可移植性和稳定性。1.2研究目标本文的研究目标是设计并
Python爬虫实战：研究urllib 库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 urllib
1.引言1.1研究背景与意义互联网每天产生海量数据，如何高效获取和利用这些数据成为重要研究方向。网页爬虫作为自动获取网络信息的核心技术，在市场调研、舆情分析、学术研究等领域具有广泛应用。Python凭借其简洁语法和丰富库支持，成为爬虫开发的首选语言。1.2相关技术概述Python爬虫技术栈主要包括：标准库：urllib、re、csv等第三方库：Requests、BeautifulSoup、Scra
python批量判断pdf文件是否损坏前行居士 python pdf 开发语言
importPyPDF2defis_pdf_corrupted(pdf_path):try:withopen(pdf_path,'rb')asfile:reader=PyPDF2.PdfReader(file)#尝试读取第一页，如果PDF损坏，这里会抛出异常firstpage=reader.pages[0]returnFalse#如果没有异常，文件应该不是损坏的exceptExceptionase
【Python】解析pdf文件中的表格并导出为doc或excel (分析思路+测试代码）发现你走远了优质教程 python pdf 办公自动化
目录效果预览依赖pdf素材获取思路分析main方法内部逻辑注意事项pdf内的表格转为excel基本例程pdf内的表格转为docx基本例程总结欢迎关注『Python』系列，持续更新中欢迎关注『Python』系列，持续更新中效果预览转为excel转为docx依赖python3.8.10测试成功cffi==1.17
python3多个图片合成一个pdf文件，生产使用验证过少陽君 python3付费教程 pdf python linux
简单的示例代码，展示如何将多个图片合成为一个PDF文件。步骤1:安装依赖库首先，确保你已经安装了Pillow和reportlab库：pipinstallPillowreportlab步骤2:编写代码下面是一个Python脚本，它将指定目录中的所有图片文件合成一个PDF文件：fromPILimportImageimportosfromreportlab.pdfgenimportcanvasfromr
Django ઈ一笑ഒ django
1.Django和Tornado的关系Django是一个高级PythonWeb框架，它鼓励快速开发和干净、实用的设计。Django遵循MVC（模型-视图-控制器）设计模式的一个变种，称为MTV（模型-模板-视图）。Django框架提供了大量的“开箱即用”功能，包括：ORM（对象关系映射），让数据库操作变得简单。丰富的模板系统，用于快速生成动态网页。强大的表单系统，简化用户输入和验证过程。认证系统、
Python C10K问题、五种Unix IO模型贵哥的编程之路(热爱分享为后来者) python
一、什么是C10K问题？C10K问题（Concurrency10KProblem）指的是：服务器如何高效地同时处理1万（10,000）个并发连接。早期的服务器和操作系统在面对大量并发IO时，效率极低，容易崩溃或响应缓慢。解决C10K问题，推动了操作系统IO模型的不断演进。二、Unix系统的五种IO模型随着网络和并发需求的提升，Unix系统逐步发展出了五种IO模型，每种模型都在解决并发效率问题上迈进
python 优化IO和并发提高性能贵哥的编程之路(热爱分享为后来者) python
一、任务量与执行效率的关系任务量和效率成反比：任务量越大，程序整体耗时越长，执行效率越低。程序执行效率=完成单位任务所需的时间。任务多、耗时长，效率自然低。二、如何提高程序执行效率？减少任务量只做必要的工作，减少无用或重复的任务。例如：数据预处理、过滤无效请求、合并重复操作等。提高并发量让多个任务“同时”进行（并发/并行），充分利用CPU和IO资源。例如：多线程/多进程/协程/异步IO等。减少单个
pdf 删除多页 python实现（已解决） Vertira python python pdf 开发语言
首先安装第三方库pipinstallPyPDF2然后运行importPyPDF2defremove_page(input_pdf_path,output_pdf_path,page_number_to_remove):#打开PDF文件withopen(input_pdf_path,'rb')asfile:reader=PyPDF2.PdfReader(file)writer=PyPDF2.PdfW
【工具】使用Python向PDF文档中签名 MengWoods 工具 python pdf github
经常需要向PDF文档签名，online版本多数都开始收费了，并且用鼠标画签名效果很难看。最后索性用Python开发了一个工具，拍下签名照片就可以放到PDF文档某页某个地方。开始熟悉这个仓库可能需要一定时间，但熟悉之后使用起来就非常方便了。一张签名照片，签遍PDF文档。仓库网址:https://github.com/MengWoods/sign-pdf-with-transparent-backgr
Spring AI ETL Pipeline使用指南超级小忍 SpringAI spring 人工智能
前言（Introduction）版本声明：本文基于SpringAI1.0.0版本编写。由于SpringAI目前仍处于活跃开发阶段，API和组件可能在后续版本中发生变化，请注意及时关注官方文档更新以保持兼容性。在当今大数据和人工智能快速发展的背景下，ETL（Extract,Transform,Load）系统已经不再只是简单的数据搬运工。ETL是数据仓库和数据分析流程中的核心环节，它负责将分散的数据从
进阶向:Django入门,从零开始构建一个Web应用 nightunderblackcat Python进阶 django python 后端
一、Django是什么？想象你建房子需要砖头、水泥、设计图...Django就是Python的Web框架工具箱，它帮你准备好了：数据库管理用户登录系统网页模板引擎安全防护（防黑客攻击）你只需专注"盖房子"（业务逻辑），不用从烧砖开始！二、环境准备（5分钟搞定）安装Python官网下载Python3.8+：python.org安装时勾选AddPythontoPATH安装Django打开命令行（Win
Python爬虫实战：研究pycurl库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 pycurl
1.引言1.1研究背景与意义随着互联网数据量的爆炸式增长，传统爬虫框架在处理大规模数据采集任务时面临性能瓶颈。特别是在需要处理大量并发请求、高频率数据更新的场景下，提升爬虫的效率和稳定性成为关键挑战。Python作为最流行的爬虫开发语言，提供了多种网络请求库，其中pycurl因其基于C语言的libcurl库而具有出色的性能表现。1.2相关技术概述Python爬虫生态系统中的主要网络请求库包括：标准
自动化工具ansible,以及playbook剧本
自动化工具ansible,以及playbook剧本这篇博客主要说的是，ansible,以及playbook和常用的模块首先先介绍ansibleansible是一个自动化的运维工具，基于python开发主要的功能，可以实现批量的部署程序，批量的执行命令ansible默认通过的是ssh的协议管理机器，无需配置任何服务，管理端部署好后就可以使用。应用的环境应用代码的自动化部署系统管路配置自动化支持持续交
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam

头歌--机器学习之决策树

第1关：什么是决策树

第2关：信息熵与信息增益

第3关：使用ID3算法构建决策树

第4关：信息增益率

第5关：基尼系数

第6关：预剪枝与后剪枝

第7关：鸢尾花识别

你可能感兴趣的:(机器学习,决策树,python,人工智能)