aabond

机器学习小结之决策树

文章目录

前言
一、介绍
- 1.1 原理
- 1.2 流程
- 1.3 信息熵，信息增益和基尼不纯度
二、构建决策树
- 2.1 特征选择
- 2.2 决策树生成
- 2.3 剪枝
三、经典算法
- 3.1 ID3
- 3.2 C4.5
- 3.3 CART
四、案例
- 4.1 Iris 数据集鸢尾花分类
- 4.2 基于决策树的英雄联盟游戏胜负预测
参考

前言

决策树(Decision Trees) 是一种基于树结构的机器学习算法，它是近年来最常见的数据挖掘算法，可以用于分类和回归问题。

它可以作为预测模型，从样本的观测数据推断出该样本的预测结果。按预测结果的差异，决策树学习可细分两类。

分类树，其预测结果仅限于一组离散数值。树的每个分支对应一组由逻辑与连接的分类特征，而该分支上的叶节点对应由上述特征可以预测出的分类标签。
回归树，其预测结果为连续值。

决策树可以认为是if-then规则的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。

if-then 规则是指一种形式化的表示方法，用于描述决策树模型中的判断过程。每个规则都由一个前提和一个结论组成。例如，如果正在使用决策树来预测一个人是否会购买某个产品，那么一个规则可能是：“如果这个人的年龄在30岁以下且收入在5万美元以上，则他会购买这个产品。”这个规则的前提是“这个人的年龄在30岁以下且收入在5万美元以上”，结论是“他会购买这个产品”。
特征空间是指所有样本的特征向量所构成的空间，在特征空间中，每个样本都可以表示为一个向量
类空间则是指所有可能的类所构成的空间，在类空间中，每个类都可以表示为一个点或一个区域

决策树算法的目标是在特征空间中找到一个划分，使得每个划分区域内的样本都属于同一类。

一、介绍

1.1 原理

决策树算法的基本原理是将数据集按照某种特定的规则进行划分，使得划分后的子集尽可能的纯，即同一子集中的样本属于同一类别。这个过程可以看作是一个递归的过程，每次选择一个最优的特征进行划分，直到所有样本都属于同一类别或者无法继续划分为止。

在构建决策树时，我们需要考虑如何选择最优的特征进行划分。常用的方法有ID3 (Iterative Dichotomiser 3)、C4.5、CART(Classification and Regression Trees)等。其中ID3和C4.5使用信息增益来进行特征选择，而CART使用基尼不纯度来进行特征选择。

信息增益：数据集划分前后信息发生的变化
基尼不纯度：简单讲就是从一个数据集随机选取子项，度量其被错误分类到其它组的概率

1.2 流程

决策树的基本流程是一个由根到叶的递归过程，在每一个中间结点寻找划分属性，递归重要的是设置停止条件：

当前结点包含的样本属于同一类别，无需划分；
当前属性集为空，或是所有样本在所有属性上取值相同无法划分，简单理解就是当分到这一节点时，所有的属性特征都用完了，没有特征可用了，就根据label数量多的给这一节点打标签使其变成叶节点（其实是在用样本出现的后验概率做先验概率）；
当前结点包含的样本集合为空，不能划分。这种情况出现是因为该样本数据缺少这个属性取值，根据父结点的label情况为该结点打标记（其实是在用父结点出现次数最多的label做先验概率）

1.3 信息熵，信息增益和基尼不纯度

信息熵(entropy) 是对于样本集合的不确定性的度量，它的值越小，样本集合的纯度越高。

在决策树算法中，我们使用信息熵来计算样本集合的纯度。假设样本集合D中第k类样本所占比例为 $p_k(k=1,2,…,y)$ ，则 D 的信息熵定义为：

$Ent(D)=-\sum_{k=1}^{y}p_klog_2p_k$

其中， $y$ 是类别个数。
信息增益(information gain)，它是以信息熵为基础的，它表示得到信息带来的变化量，通常用于选择最优的分裂特征。信息增益的计算公式如下：

$\sum_{v=1}^{V}\frac{|D^v|}{|D|}Ent(D^v)$

其中， $D$ 表示当前节点的训练数据集， $A$ 表示候选特征集合， $V$ 表示候选特征集合中特征的个数， $D^v$ 表示当前节点按照特征 $A$ 的第 $v$ 个取值划分后的子集， $E n t (D)$ 表示当前节点的熵， $Ent(D^v)$ 表示当前节点按照特征 $A$ 的第 $v$ 个取值划分后子集的熵。

信息增益越高表示该特征对分类能力的贡献度越大，即该特征可以更好地区分不同类别的样本。
基尼不纯度(Gini impurity) 是一种用于衡量数据集的纯度的指标，它表示从数据集中随机选取两个样本，其类别不一致的概率。
$\sum_{k=1}^y{p_k(1- p_k)}$

基尼不纯度越低代表数据集的纯度越高，通常用于衡量一个节点的分裂效果，在节点代表该节点分裂后子节点的纯度越高，即子节点中包含的相同类别样本比例越大。

二、构建决策树

2.1 特征选择

特征选择是指从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准，优缺点如下：

优点：

降低决策树复杂度，使模型更加简单，减少过拟合(指模型在训练集上表现良好，但在测试集上表现不佳)的风险，提高模型泛化能力。
减少决策树训练时间和存储空间。

缺点：

可能会丢失一些重要信息，导致模型精度下降。
可能会引入一些噪声，导致模型精度下降。
可能会使数据变得更加复杂，导致模型泛化能力下降。

常用的特征选择方法有信息增益、信息增益比、基尼指数等

2.2 决策树生成

决策树生成是指从训练数据中生成决策树的过程。根据上述特征选择方法，常用的决策树生成算法有ID3、C4.5、CART等。

决策树通过对训练数据进行递归分割，生成一棵树形结构，从而实现对新数据的分类。决策树的生成过程可以分为以下几个步骤：

特征选择：从训练数据的特征中选择一个特征作为当前节点的分裂标准。
节点分裂：将当前节点的训练数据按照分裂标准分成若干个子集，每个子集对应一个子节点。
递归生成子树：对每个子节点递归执行步骤1和步骤2，直到满足停止条件。

停止条件通常有以下几种：

当前节点的训练数据全部属于同一类别。
当前节点的训练数据为空。
当前节点的训练数据中所有特征都相同，无法进行进一步分割。

2.3 剪枝

决策树剪枝是一种用于减少决策树复杂度的技术，它的目的是通过删除一些不必要的节点和子树，从而提高模型泛化能力。常用的决策树剪枝算法有预剪枝和后剪枝两种。

预剪枝是指在生成决策树的过程中，对每个节点进行评估，如果当前节点的分裂不能提高模型泛化能力，则停止分裂，将当前节点标记为叶子节点。预剪枝的优点是简单、快速，但可能会导致欠拟合。
后剪枝是指在生成决策树之后，对决策树进行修剪，从而减少决策树复杂度。后剪枝的过程通常包括以下几个步骤：
1. 对每个非叶子节点进行评估，计算修剪前后模型在验证集上的性能差异。
2. 选择性能差异最小的节点进行修剪，将该节点及其子树删除，并将该节点标记为叶子节点。
3. 重复步骤1和步骤2，直到无法继续修剪为止。
后剪枝的优点是可以避免欠拟合，但可能会导致过拟合。

三、经典算法

3.1 ID3

ID3算法的核心思想是以信息增益来度量特征选择，选择信息增益最大的特征进行分裂

计算数据集的信息熵；
对每个特征，计算其信息增益；
选择信息增益最大的特征作为划分属性；
根据该属性的取值将数据集划分为多个子集；
对每个子集递归调用步骤1-4，直到所有样本属于同一类别或无法继续划分。

缺点：

ID3 没有剪枝策略，容易过拟合
信息增益准则对可取值数目较多的特征有所偏好，类似“编号”的特征其信息增益接近于1
只能用于处理离散分布的特征
没有考虑缺失值

代码如下：

%matplotlib inline

import math
from collections import Counter,defaultdict
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties 
font_set = FontProperties(fname=r"c:\\windows\\fonts\\simsun.ttc", size=15)#导入宋体字体文件


class Id3DecideTree:
    
    def __init__(self, data_set, labels_set):
        self.tree = self.create_tree(data_set,labels_set)
        
    def calc_entropy(self, data):
        """计算数据集的信息熵"""
        label_counts = Counter(sample[-1] for sample in data)
        probs = [count / len(data) for count in label_counts.values()]
        return -sum(p * math.log(p, 2) for p in probs)

    def split_data(self, data, axis, value):
        """根据特征划分数据集"""
        return [sample[:axis] + sample[axis+1:] for sample in data if sample[axis] == value]


    def choose_best_feature(self, dataSet):
        """选择最好的数据集划分方式"""
        numFeatures = len(dataSet[0]) - 1      # 最后一列用于标签
        baseEntropy = self.calc_entropy(dataSet) # 计算数据集的熵
        bestFeature = -1
        for i in range(numFeatures):        # 遍历所有特征
            featList = [example[i] for example in dataSet] # 创建该特征的所有样本列表
            uniqueVals = set(featList)       # 获取唯一值的集合
            newEntropy = 0.0
            for value in uniqueVals:
                subDataSet = self.split_data(dataSet, i, value) # 划分数据集
                prob = len(subDataSet)/float(len(dataSet))
                newEntropy += prob * self.calc_entropy(subDataSet)
            infoGain = baseEntropy - newEntropy     # 计算信息增益；即熵的减少量
            if (infoGain > bestInfoGain):       # 比较目前为止最好的增益
                bestInfoGain = infoGain         # 如果比当前最好的更好，则设置为最好的
                bestFeature = i
        return bestFeature



    def majority_count(labels):
        """统计出现次数最多的类别"""
        label_counts = defaultdict(int)
        for label in labels:
            label_counts[label] += 1
        return max(label_counts, key=label_counts.get)


    def create_tree(self, data, labels):
        """创建决策树"""
        class_list = [sample[-1] for sample in data]
        # 所有样本同一类别
        if class_list.count(class_list[0]) == len(class_list):
            return class_list[0]
        # 只有一个特征
        if len(data[0]) == 1:
            return majority_count(class_list)
        # 选择最优划分特征
        best_feature_index = self.choose_best_feature(data)
        best_feature_label = labels[best_feature_index]
        tree = {best_feature_label: {}}
        del(labels[best_feature_index])
        feature_values = [sample[best_feature_index] for sample in data]
        unique_values = set(feature_values)
        for value in unique_values:
            sub_labels = labels[:]
            tree[best_feature_label][value] = self.create_tree(self.split_data(data, best_feature_index, value), sub_labels)
        return tree


class DecisionTreePlotter:
    def __init__(self, tree):
        self.tree = tree
        self.decisionNode = dict(boxstyle="sawtooth", fc="0.8")
        self.leafNode = dict(boxstyle="round4", fc="0.8")
        self.arrow_args = dict(arrowstyle="<-")
        self.font_set = font_set
        
    def getNumLeafs(self, node):
        firstStr = list(node.keys())[0]
        secondDict = node[firstStr]
        return sum([self.getNumLeafs(secondDict[key]) if isinstance(secondDict[key], dict) else 1 for key in secondDict.keys()])

    def getTreeDepth(self, node):
        firstStr = list(node.keys())[0]
        secondDict = node[firstStr]
        return max([1 + self.getTreeDepth(secondDict[key]) if isinstance(secondDict[key], dict) else 1 for key in secondDict.keys()])

    def plotNode(self, nodeTxt, centerPt, parentPt, nodeType):
        self.ax1.annotate(nodeTxt, xy=parentPt,  xycoords='axes fraction',
                 xytext=centerPt, textcoords='axes fraction',
                 va="center", ha="center", bbox=nodeType, arrowprops=self.arrow_args, fontproperties=self.font_set )

    def plotMidText(self, cntrPt, parentPt, txtString):
        xMid = (parentPt[0]-cntrPt[0])/2.0 + cntrPt[0]
        yMid = (parentPt[1]-cntrPt[1])/2.0 + cntrPt[1]
        self.ax1.text(xMid, yMid, txtString, va="center", ha="center", rotation=30, fontproperties=self.font_set)

    def plotTree(self):
        self.totalW = float(self.getNumLeafs(self.tree))
        self.totalD = float(self.getTreeDepth(self.tree))
        self.xOff = -0.5/self.totalW
        self.yOff = 1.0
        self.fig = plt.figure(1, facecolor='white')
        self.fig.clf()
        self.axprops = dict(xticks=[], yticks=[])
        self.ax1 = plt.subplot(111, frameon=False, **self.axprops)
        self.plotTreeHelper(self.tree, (0.5,1.0), '')
        plt.show()

    def plotTreeHelper(self, node, parentPt, nodeTxt):
        numLeafs = self.getNumLeafs(node)  
        depth = self.getTreeDepth(node)
        firstStr = list(node.keys())[0]     
        cntrPt = (self.xOff + (1.0 + float(numLeafs))/2.0/self.totalW, self.yOff)
        self.plotMidText(cntrPt, parentPt, nodeTxt)
        self.plotNode(firstStr, cntrPt, parentPt, self.decisionNode)
        secondDict = node[firstStr]
        self.yOff = self.yOff - 1.0/self.totalD
        for key in secondDict.keys():
            if isinstance(secondDict[key], dict):
                self.plotTreeHelper(secondDict[key],cntrPt,str(key))        
            else:   
                self.xOff = self.xOff + 1.0/self.totalW
                self.plotNode(secondDict[key], (self.xOff, self.yOff), cntrPt, self.leafNode)
                self.plotMidText((self.xOff, self.yOff), cntrPt, str(key))
        self.yOff = self.yOff + 1.0/self.totalD


labels_set = ['不浮出水面', '拥有鳍','有头']

data_set = [
     ['是', '是', '是', '是鱼类'],
     ['是', '是', '否', '不是鱼类'],
     ['是', '否', '是', '不是鱼类'],
     ['否', '是', '否', '不是鱼类'],
     ['否', '否', '是', '不是鱼类']
]

dt = Id3DecideTree(data_set, labels_set)

print(dt.tree)

plotter = DecisionTreePlotter(dt.tree)
plotter.plotTree()

3.2 C4.5

C4.5算法则采用信息增益比来度量特征选择，选择信息增益比最大的特征进行分裂。

C4.5算法是ID3算法的改进版，其具体流程如下：

计算数据集的信息熵；
对每个特征，计算其信息增益比；
选择信息增益比最大的特征作为划分属性；
根据该属性的取值将数据集划分为多个子集；
对每个子集递归调用步骤1-4，直到所有样本属于同一类别或无法继续划分。

C4.5算法相对于ID3算法的优点在于：

使用信息增益比来选择最佳划分特征，避免了ID3算法中存在的偏向选择取值较多的特征的问题
同时处理连续的属性和离散的属性
处理缺少属性值的训练数据
创建后剪枝树

缺点有：

C4.5 用的是多叉树，用二叉树效率更高
C4.5 只能用于分类
C4.5 使用的熵模型拥有大量耗时的对数运算，连续值还有排序运算
C4.5 在构造树的过程中，对数值属性值需要按照其大小进行排序，从中选择一个分割点，所以只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时，程序无法运行

def calc_info_gain_ratio(data, feature_index):
    """计算信息增益比"""
    base_entropy = calc_entropy(data)
    feature_values = [sample[feature_index] for sample in data]
    unique_values = set(feature_values)
    new_entropy = 0.0
    split_info = 0.0
    for value in unique_values:
        sub_data = [sample for sample in data if sample[feature_index] == value]
        prob = len(sub_data) / float(len(data))
        new_entropy += prob * calc_entropy(sub_data)
        split_info -= prob * math.log(prob, 2)
    info_gain = base_entropy - new_entropy
    if split_info == 0:
        return 0
    return info_gain / split_info

def choose_best_feature(data):
    """选择最好的数据集划分方式"""
    num_features = len(data[0]) - 1
    base_entropy = calc_entropy(data)
    best_info_gain_ratio = 0.0
    best_feature_index = -1
    for i in range(num_features):
        info_gain_ratio = calc_info_gain_ratio(data, i)
        if info_gain_ratio > best_info_gain_ratio:
            best_info_gain_ratio = info_gain_ratio
            best_feature_index = i
    return best_feature_index

3.3 CART

CART 选择基尼不纯度来度量特征选择，选择基尼不纯度最小的特征进行分裂，是一种二分递归分割技术，把当前样本划分为两个子样本，使得生成的每个非叶子结点都有两个分支，因此CART算法生成的决策树是结构简洁的二叉树

CART算法是一种二叉决策树，其具体流程如下：

选择一个特征和一个阈值，将数据集划分为两个子集；
对每个子集递归调用步骤1，直到所有样本属于同一类别或无法继续划分。

CART算法相对于ID3算法和C4.5算法的改进在于，它使用基尼指数来选择最佳划分特征

import numpy as np

class CARTDecisionTree:
    def __init__(self):
        self.tree = {}

    def calc_gini(self, data):
        """计算基尼指数"""
        label_counts = {}
        for sample in data:
            label = sample[-1]
            if label not in label_counts:
                label_counts[label] = 0
            label_counts[label] += 1
        gini = 1.0
        for count in label_counts.values():
            prob = float(count) / len(data)
            gini -= prob ** 2
        return gini

    def split_data(self, data, feature_index, value):
        """根据特征划分数据集"""
        new_data = []
        for sample in data:
            if sample[feature_index] == value:
                new_sample = sample[:feature_index]
                new_sample.extend(sample[feature_index+1:])
                new_data.append(new_sample)
        return new_data

    def choose_best_feature(self, data):
        """选择最佳划分特征"""
        num_features = len(data[0]) - 1
        best_gini_index = np.inf
        best_feature_index = -1
        best_split_value = None
        for i in range(num_features):
            feature_values = [sample[i] for sample in data]
            unique_values = set(feature_values)
            for value in unique_values:
                sub_data = self.split_data(data, i, value)
                prob = len(sub_data) / float(len(data))
                gini_index = prob * self.calc_gini(sub_data)
                gini_index += (1 - prob) * self.calc_gini([sample for sample in data if sample[i] != value])
                if gini_index < best_gini_index:
                    best_gini_index = gini_index
                    best_feature_index = i
                    best_split_value = value
        return best_feature_index, best_split_value

    def majority_count(self, labels):
        """统计出现次数最多的类别"""
        label_counts = {}
        for label in labels:
            if label not in label_counts:
                label_counts[label] = 0
            label_counts[label] += 1
        sorted_label_counts = sorted(label_counts.items(), key=lambda x: x[1], reverse=True)
        return sorted_label_counts[0][0]

    def create_tree(self, data, labels):
        """创建决策树"""
        class_list = [sample[-1] for sample in data]
        if class_list.count(class_list[0]) == len(class_list):
            return class_list[0]
        if len(data[0]) == 1:
            return self.majority_count(class_list)
        best_feature_index, best_split_value = self.choose_best_feature(data)
        best_feature_label = labels[best_feature_index]
        tree = {best_feature_label: {}}
        del(labels[best_feature_index])
        feature_values = [sample[best_feature_index] for sample in data]
        unique_values = set(feature_values)
        for value in unique_values:
            sub_labels = labels[:]
            tree[best_feature_label][value] = self.create_tree(self.split_data(data, best_feature_index, value), sub_labels)
        return tree

    def fit(self, X_train, y_train):
        """训练模型"""
        data_set = np.hstack((X_train, y_train.reshape(-1, 1)))
        labels_set=['feature_{}'.format(i) for i in range(X_train.shape[1])]
        labels_set.append('label')
        
        self.tree=self.create_tree(data_set.tolist(),labels_set)

    def predict(self,X_test):
       """预测"""
       y_pred=[]
       for x_test in X_test:
           node=self.tree.copy()
           while isinstance(node,dict):
               feature=list(node.keys())[0]
               node=node[feature]
               feature_idx=int(feature.split('_')[-1])
               if x_test[feature_idx]==list(node.keys())[0]:
                   node=node[node.keys()[0]]
               else:
                   node=node[node.keys()[1]]
           y_pred.append(node)
       return np.array(y_pred)

四、案例

4.1 Iris 数据集鸢尾花分类

Iris数据集。这个数据集包含150个样本，每个样本有四个特征（萼片长度、萼片宽度、花瓣长度和花瓣宽度），并且每个样本都属于三个类别之一（山鸢尾、变色鸢尾或维吉尼亚鸢尾）。

直接调用 sklearn 库实现

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.model_selection import train_test_split
import graphviz

iris = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=42)

clf = DecisionTreeClassifier(criterion='entropy')
clf.fit(X_train, y_train)

class_names = ['山鸢尾', '变色鸢尾', '维吉尼亚鸢尾']
feature_names = ['萼片长度', '萼片宽度', '花瓣长度', '花瓣宽度']
dot_data = export_graphviz(clf, out_file=None, feature_names=feature_names, class_names=class_names, filled=True, rounded=True, special_characters=True)
graph = graphviz.Source(dot_data)
graph.render('iris_decision_tree')
graph

entropy 表示节点的信息熵
samples表示节点拥有样本数
value表示节点中每个类别的样本数量
class表示节点被分类为哪个类别

上述决策树有点复杂，使用参数控制和剪枝实现优化

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
import graphviz

iris = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=42)

# 定义参数范围
param_grid = {'max_depth': range(1, 10), 'min_samples_leaf': range(1, 10)}

# 使用网格搜索找到最佳参数
grid_search = GridSearchCV(DecisionTreeClassifier(criterion='entropy'), param_grid, cv=5)
grid_search.fit(X_train, y_train)

# 使用最佳参数训练模型
clf = DecisionTreeClassifier(criterion='entropy', **grid_search.best_params_)
clf.fit(X_train, y_train)

# 交叉验证评估每个子树的性能
cv_scores = []
for i in range(1, clf.tree_.max_depth + 1):
    clf_pruned = DecisionTreeClassifier(criterion='entropy', max_depth=i)
    scores = cross_val_score(clf_pruned, X_train, y_train, cv=5)
    cv_scores.append((i, scores.mean()))

# 选择最佳子树进行剪枝
best_depth = max(cv_scores, key=lambda x: x[1])[0]
clf_pruned = DecisionTreeClassifier(criterion='entropy', max_depth=best_depth)
clf_pruned.fit(X_train, y_train)

class_names = ['山鸢尾', '变色鸢尾', '维吉尼亚鸢尾']
feature_names = ['萼片长度', '萼片宽度', '花瓣长度', '花瓣宽度']
dot_data = export_graphviz(clf_pruned, out_file=None, feature_names=feature_names, class_names=class_names, filled=True, rounded=True, special_characters=True)
graph = graphviz.Source(dot_data)
graph.render('iris_decision_tree_pruned')
graph

4.2 基于决策树的英雄联盟游戏胜负预测

数据集来源：

https://aistudio.baidu.com/aistudio/datasetdetail/168986
https://www.kaggle.com/datasets/bobbyscience/league-of-legends-diamond-ranked-games-10-min

特征名	含义
gameId	游戏Id
blueWins	蓝色方是否胜利
blueWardsPlaced	放眼数量
blueWardsDestroyed	毁眼数量
blueFirstBlood	是否拿到一血
blueKills	击杀数
blueDeaths	死亡数
blueAssists	助攻数
blueEliteMonsters	龙和先锋数
blueDragons	小龙数
blueHeralds	峡谷先锋数
blueTowersDestroyed	推塔数
blueTotalGold	总经济
blueAvgLevel	平均等级
blueTotalExperience	总经验
blueTotalMinionsKilled	总补兵数
blueTotalJungleMinionsKilled	野怪击杀数
blueGoldDiff	经济差值
blueExperienceDiff	经验差值
blueCSPerMin	平均每分钟补兵数
blueGoldPerMin	平均每分钟经济

代码参考：https://www.kaggle.com/code/xiyuewang/lol-how-to-win#Introduction

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn import tree
from sklearn.model_selection import GridSearchCV
import graphviz

# %matplotlib inline
# sns.set_style('darkgrid')

df = pd.read_csv('high_diamond_ranked_10min.csv')

df_clean = df.copy()


# 删除冗余的列
cols = ['gameId', 'redFirstBlood', 'redKills', 'redEliteMonsters', 'redDragons','redTotalMinionsKilled',
       'redTotalJungleMinionsKilled', 'redGoldDiff', 'redExperienceDiff', 'redCSPerMin', 'redGoldPerMin', 'redHeralds',
       'blueGoldDiff', 'blueExperienceDiff', 'blueCSPerMin', 'blueGoldPerMin', 'blueTotalMinionsKilled']
df_clean = df_clean.drop(cols, axis = 1)


# g = sns.PairGrid(data=df_clean, vars=['blueKills', 'blueAssists', 'blueWardsPlaced', 'blueTotalGold'], hue='blueWins', size=3, palette='Set1')
# g.map_diag(plt.hist)
# g.map_offdiag(plt.scatter)
# g.add_legend();

# plt.figure(figsize=(16, 12))
# sns.heatmap(df_clean.drop('blueWins', axis=1).corr(), cmap='YlGnBu', annot=True, fmt='.2f', vmin=0);

# 进一步抉择
cols = ['blueAvgLevel', 'redWardsPlaced', 'redWardsDestroyed', 'redDeaths', 'redAssists', 'redTowersDestroyed',
       'redTotalExperience', 'redTotalGold', 'redAvgLevel']
df_clean = df_clean.drop(cols, axis=1)

print(df_clean)

# 计算与第一列的相关性，原理为计算皮尔逊相关系数，取值范围为[-1,1]，可以用来衡量两个变量之间的线性相关程度。
corr_list = df_clean[df_clean.columns[1:]].apply(lambda x: x.corr(df_clean['blueWins']))

cols = []
for col in corr_list.index:
    if (corr_list[col]>0.2 or corr_list[col]<-0.2):
        cols.append(col)


df_clean = df_clean[cols]
# df_clean.hist(alpha = 0.7, figsize=(12,10), bins=5);

from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, export_graphviz
X = df_clean
y = df['blueWins']

# scaler = MinMaxScaler()
# scaler.fit(X)
# X = scaler.transform(X)


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


tree = tree.DecisionTreeClassifier(max_depth=3)

# search the best params
grid = {'min_samples_split': [5, 10, 20, 50, 100]},

clf_tree = GridSearchCV(tree, grid, cv=5)
clf_tree.fit(X_train, y_train)

pred_tree = clf_tree.predict(X_test)

# get the accuracy score
acc_tree = accuracy_score(pred_tree, y_test)
print(acc_tree)

# 0,1
class_names = ['红色方胜', '蓝色方胜']
feature_names = cols
dot_data = export_graphviz(clf_tree.best_estimator_, out_file=None, feature_names=feature_names, class_names=class_names, filled=True, rounded=True, special_characters=True)
graph = graphviz.Source(dot_data)
graph.render('lol_decision_tree')
graph

参考

机器学习实战
决策树算法中，CART与ID3、C4.5特征选择之间的区别
Python代码：递归实现C4.5决策树生成、剪枝、分类
https://github.com/43254022km/C4.5-Algorithm
https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier

你可能感兴趣的:(机器学习,python,决策树,机器学习,人工智能,数据挖掘,python)

提升首屏加载的秘密武器：一文讲透 CDN 加速核心逻辑网罗开发实战源码前端 json javascript
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
量化AI价值的30个关键指标 mao_feng 人工智能 AI
摘要：量化AI的战略价值人工智能（AI）成功集成到业务运营中超越了单纯的技术部署;它需要一种严格、可量化的方法来展示其价值。本报告系统地分类并解释了评估AI优势的基本指标，从核心模型性能到总体战略和道德考虑因素。必须制定多方面的衡量策略，将技术AI指标与运营效率、客户体验、财务绩效、战略优势和负责任的AI实践等有形业务成果直接联系起来。稳健的关键绩效指标（KPI）不仅仅是问责制的工具;它们是持续改
python3常用模块 ZZH1120KQ python 开发语言
1数学运算模块math“math”模块提供了许多常用的数学函数，例如三角函数、四舍五入、指数、对数、平方根、总和等importmath1.1常数math.pi返回圆周率的数学常数。math.e返回指数的数学常数示例：print(math.pi)print(math.e)1.2fabs(x)取绝对值示例：print(math.fabs(5))print(math.fabs(-5))1.3ceil(x
Django REST framework - 设置 djangopython
settings.py命名空间是个绝妙的主意，让我们多用用吧！——《Python之禅》DjangoREST框架的配置都放在一个命名空间内，即Django的一个设置，名为REST_FRAMEWORK。例如，项目的settings.py文件可能包含类似以下内容：REST_FRAMEWORK={'DEFAULT_RENDERER_CLASSES':['rest_framework.renderers.J
生信分析用python还是r_生信分析利器：JupyterLab weixin_39612726 生信分析用python还是r
生信分析对计算机的开发环境有诸多要求，随之而来的自然就是很多麻烦。不说别的，要兼顾Python和R的问题就有够头疼。一边想着用Python搭流程处理文本和分析结果，另一边还想着用R来做统计分析和画图，而且大多数时候生信分析还得在服务器上完成。Python你用Pycharm，R用Rstudio，一会这儿一会那儿的切来切去，还得设置服务器连接(Pycharm如果不是付费版本，要连服务器还挺麻烦)。完了
Python 爬虫实战：抓取哔哩哔哩收藏夹视频（API 逆向 + 视频分类整理）西攻城狮北 python 爬虫音视频
引言哔哩哔哩（B站）作为国内知名的视频分享平台，拥有丰富多样的视频资源和活跃的用户社区。对于视频创作者、数据分析人员或爬虫学习者来说，抓取B站收藏夹中的视频数据，不仅能帮助我们更好地了解用户喜好和视频内容，还能为创作和研究提供有力支持。本文将深入浅出地讲解如何通过Python爬虫实现抓取哔哩哔哩收藏夹视频，并对其进行分类整理，涵盖从环境搭建、API逆向分析到数据处理与存储等关键步骤，旨在为读者提供
【Python学习】可视化图表-使用matplotlib绘制不同种类散点图西攻城狮北 Python实用案例 python 学习 matplotlib 可视化图形
一、引言在数据可视化领域，散点图是一种极其强大的工具，它能够直观地展示变量之间的关系、数据分布的模式以及潜在的聚类情况等。通过散点图，我们可以轻松地发现数据中的异常值、相关性以及其他隐藏的特征。Python的matplotlib库提供了丰富而灵活的功能，可以帮助我们绘制出各种类型的散点图，以满足不同的数据分析和展示需求。本文将深入探讨如何使用matplotlib绘制多种类型的散点图，并提供详细的代
18个Python高效编程技巧！程序员笑武 python 开发语言数据分析信息可视化运维
初识Python语言，觉得python满足了我上学时候对编程语言的所有要求。python语言的高效编程技巧让我们这些大学曾经苦逼学了四年c或者c++的人，兴奋的不行不行的，终于解脱了。高级语言，如果做不到这样，还扯啥高级呢？01交换变量>>>a=3>>>b=6这个情况如果要交换变量在c++中，肯定需要一个空变量。但是python不需要，只需一行，大家看清楚了>>>a,b=b,a>>>print(a
python连接db2的官方库ibm_db的api 数据-脚本-资源-管道 ibm-db python 数据库 python
IBM_DBAPI详细文档ibm_db.active描述检查指定的数据库连接是否处于活动状态传入参数connection:有效的数据库连接资源返回值True:资源处于活动状态False:资源未处于活动状态例子importibm_dbconn=ibm_db.connect("DATABASE=testdb;HOSTNAME=localhost;PORT=50000;PROTOCOL=TCPIP;UI
Python 爬虫实战：动态数据+定时任务+价格预测全链路解析西攻城狮北 python 爬虫开发语言
一、动态数据捕获技术栈1.1目标网站分析（以某OTA平台为例）实现原理：本节演示如何使用Selenium自动化浏览器访问机票查询页面。选择Selenium而非直接请求API的原因在于：目标网站采用JavaScript动态渲染价格数据需要模拟用户操作（如选择日期、舱位）触发数据加载需处理反爬机制（如Cookie验证、行为检测）fromseleniumimportwebdriverfromseleni
Python并发编程基础：进程与线程本质区别详解 Yant224 python #并发编程 python 进程与线程并发编程多线程原理多进程原理并发模型线程安全
一、进程与线程的本质概念1.核心定义操作系统进程1进程2线程1线程2线程3线程1线程2进程(Process)：操作系统进行资源分配的基本单位线程(Thread)：操作系统进行任务调度的基本单位每个进程至少包含一个主线程，线程是进程的执行分支二、核心区别深度解析1.资源分配对比维度进程线程内存空间独立地址空间共享进程内存空间文件句柄独立文件描述符表共享进程文件描述符网络连接独立socket连接共享进
Python 自动批量生成发卡平台卡密信息并导入数据库拉灯的小手支付相关及一些实用小脚本 Python脚本 Python 自动脚本自动发卡平台发卡网
本文仅供学习交流使用，如侵立删！demo下载见文末Python自动批量生成发卡平台卡密信息并导入数据库环境win10Python：3.6.7os、csv、uuid、datetime1、生成脚本生成卡密文件：txt、csv各一份txt：导入发卡平台csv：导入数据库#-*-coding:utf-8-*-#作者：Administrator#文件：提取码txt转csv脚本.py
python中classmethod中讲解 AI专题精讲 python python
classmethod中的cls和self区别在Python中，@classmethod是一个装饰器，用于定义类方法。类方法与实例方法不同，它操作的是类本身，而不是类的实例。cls和self的区别：cls:cls是类方法的第一个参数，代表类本身。类方法通过@classmethod装饰器定义，调用时不需要创建类的实例。cls通常用于访问或修改类级别的属性，或者创建类的实例。self:self是实例方
Python类中cls和self的区别（staticmethod和classmethod的区别） Mr 姚 Python
1、cls和self的区别：self：类的方法的第一个参数，表示一个具体的实例本身。如果类的方法用了修饰符“staticmethod”，则可以无视这个self，这个方法就当成一个普通的函数使用。cls：若类方法用修饰符“classmethod”修饰，则cls作为类方法的第一个参数，表示这个类本身。2、staticmethod和classmethod的区别：一般来说，需要将类实例化后，才能调用类的方
Python中cls和self的区别单单一个越 python python 开发语言
self和cls都是对类或实例的引用，但它们在Python中的用法和含义是不同的。self是实例方法的第一个参数，它代表类的实例。self只能在实例方法中使用，用于访问实例的属性和方法。每个实例都有自己的self，它们互不影响。cls是类方法的第一个参数，它代表类本身。cls只能在类方法中使用，用于访问类的属性和方法。所有实例共享同一个cls。以下是一个简单的示例classMyClass:coun
Python 中的集合（Set）详解：从基础操作到实际应用面朝大海，春不暖，花不开 Python基础 python 开发语言
文章大纲引言：集合在Python中的重要性在Python编程中，集合（Set）是一种极为重要的内置数据结构，它以无序性和元素唯一性为主要特点。集合中的每个元素都是独一无二的，这使得它在处理数据去重、成员检测以及数学运算（如并集、交集）时表现出色。无论是进行大规模数据分析，还是优化算法效率，集合都能提供高效的解决方案。例如，在处理用户ID列表时，集合可以快速去除重复项，确保数据准确性。此外，集合与字
python cls的使用最后冰吻free python cls
importthreadingclassTest:#new方法用于创建类的实例def__new__(cls,*args,**kwargs):print("__new__:",cls.__class__.__name__)returnobject.__new__(cls)#返回实例给initself参数#init用于初始化类的实例，实例由new方法传递过来的，即这里selfdef__init__(s
初识 Flask 框架 2301_80329775 pyton编程基础 flask python 后端
前言Flask是一个轻量级的Web框架，基于Python语言开发，设计理念注重简洁、灵活和易用。作为一个"微框架"，它本身非常简洁，提供了构建web应用所需的核心工具，但并不强制开发者遵循复杂的项目结构，因此被广泛应用于web开发领域。Flask非常适合初学者学习Web开发，因为它让开发者能够专注于应用逻辑，而无需过多担心框架本身的复杂性。无论是快速原型开发，还是较小规模的Web应用，Flask都
抓取HTTP请求与响应头，分析网站请求逻辑：Python爬虫实战指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫网络 selenium 开发语言信息可视化
引言在爬虫开发过程中，分析和理解网站的请求和响应逻辑是非常重要的。通过抓取HTTP请求与响应头，我们不仅可以获取网站内容，还可以帮助我们更好地绕过反爬虫机制、模拟真实用户的行为。HTTP请求和响应头提供了关于请求的数据、服务器的状态以及网页加载过程中的详细信息，掌握这些信息可以让我们在抓取数据时更加高效、灵活。本文将详细介绍如何抓取和分析HTTP请求与响应头，揭示网站请求的底层逻辑，并提供相应的P
SQLAlchemy xnuscd git 学习 elasticsearch
1.简介SQLAlchemy是一个功能强大的PythonSQL工具包和对象关系映射（ORM）框架，旨在提供高效、灵活且便于扩展的数据库交互解决方案。它支持多种数据库，并通过其核心（Core）和ORM两个层次为开发者提供不同的抽象级别。为什么选择SQLAlchemy？灵活性：允许你选择使用核心的SQL构建器，或完全依赖ORM来处理数据库操作。性能：优化的查询生成和连接池管理，适用于高并发和大规模应用
【AI大模型】23、构建你的西部世界：AI小镇具身智能实战指南无心水 AI大模型人工智能 AI小镇搭建具身智能实战智能体系统架构提示语工程优化虚拟社会构建 AI大模型
引言：从代码到虚拟社会的奇妙旅程在人工智能领域，具身智能的发展正引领着一场新的革命。当我们谈论构建一个类似《西部世界》的虚拟社会时，我们不仅在创造一个数字游乐场，更是在探索智能体如何在模拟环境中展现出类似人类的认知、社交和决策能力。本文将带领你踏上一段激动人心的旅程，从底层架构到上层应用，全面解析如何利用提示语工程构建一个充满活力的AI小镇。想象一下，你将成为这个虚拟世界的造物主，通过精心设计的提
如何构建AI原生应用领域的高效SaaS架构 AI原生应用开发 AI-native 架构 ai
如何构建AI原生应用领域的高效SaaS架构关键词：AI原生应用、SaaS架构、微服务、容器化、机器学习模型部署、自动扩展、多租户隔离摘要：本文深入探讨如何构建面向AI原生应用的高效SaaS架构。我们将从基础概念出发，逐步解析AISaaS架构的核心组件、设计原则和最佳实践，并通过实际案例展示如何实现高性能、可扩展的AI服务交付平台。文章将涵盖从基础设施选择到模型部署，从多租户隔离到自动扩展的全方位技
新手了解和使用python环境下的运算符（使用notepad++） 2303_77470379 python
目录一、引言二、Python运算符的分类与使用三、在Notepad++中使用Python运算符四、案例五、总结一、引言在Python编程的世界里，运算符扮演着举足轻重的角色，它们是对数据进行操作的关键工具。从简单的数学运算，到复杂的逻辑判断，运算符贯穿于Python程序的各个角落。而Notepad++作为一款强大的文本编辑器，为我们编写和运行Python代码提供了便利的环境。接下来，让我们深入了解
python的变量和数据类型筱920 python
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档目录一、python的变量变量的命名规则二、python的数据类型五种基本数据类型：整型，浮点型，字符串型，布尔型，空型。（其中type方法是检测变量是什么类型）1，整型毋庸置疑就是整数，python中变量值为0b开头可以定义一个二进制，bin方法可以将十进制数转换成二进制。2，浮点型就是小数，即定义变量的值为小数，主要利用科学计数法
python compile error_Python errors.CompileError方法代码示例 weixin_39705850 python compile error
本文整理汇总了Python中distutils.errors.CompileError方法的典型用法代码示例。如果您正苦于以下问题：Pythonerrors.CompileError方法的具体用法？Pythonerrors.CompileError怎么用？Pythonerrors.CompileError使用的例子？那么恭喜您,这里精选的方法代码示例或许可以为您提供帮助。您也可以进一步了解该方法所
Python和MATLAB数字信号波形和模型模拟
要点Python和MATLAB实现以下波形和模型模拟以给定采样率模拟正弦信号，生成给定参数的方波信号，生成给定参数隔离矩形脉冲，生成并绘制线性调频信号。快速傅里叶变换结果释义：复数离散傅里叶变换、频率仓和快速傅里叶变换移位，逆快速傅里叶变换移位，数值NumPy对比观察FFT移位和逆FFT移位。离散时域表示：余弦信号生成取样，使用FFT频域信号表示，使用FFT计算离散傅里叶变换DFT，获得幅度谱并提
Godot Python 项目常见问题解决方案
GodotPython项目常见问题解决方案godot-pythonPythonsupportforGodot项目地址:https://gitcode.com/gh_mirrors/go/godot-python1.项目基础介绍和主要编程语言GodotPython是一个开源项目，旨在为Godot游戏引擎提供Python语言支持。这个项目允许开发者使用Python语言来编写Godot游戏脚本，从而充分
error: F:\car\dataset\cocoapi-master\pycocotools\_mask.pyx canpian7 python模块安装 cocos
问题描述error:F:\car\dataset\cocoapi-master\pycocotools_mask.pyx安装cocoapi时出现报错代码路径cocoapi当执行pythonPythonAPI\setup.pybuild_extinstall报错runningbuild_extcythoningpycocotools/_mask.pyxtopycocotools_mask.cerro
九章数学体系：定义域无界化——AI鲁棒性的“隐形杀手“ 九章数学体系数学建模拓扑学人工智能神经网络
九章数学体系：定义域无界化——AI鲁棒性的"隐形杀手"摘要传统人工智能模型在面对边缘场景时常常表现出鲁棒性不足的问题，本文深入分析发现，这种现象的本质根源在于模型缺乏显式的定义域约束，导致无界化假设成为影响AI鲁棒性的"隐形杀手"。文章系统阐述了无界假设如何引发对抗样本脆弱性和数值不稳定等核心问题，并引入九章数学体系的定义域约束理论，为解决这些问题提供了全新的数学视角和工程实现路径。研究表明，通过
Python时域信号特征提取技术要点路怜涯
本文还有配套的精品资源，点击获取简介：在机器学习领域，时域信号特征提取是数据预处理的关键环节，特别是对于时间序列数据。时域信号特征包括信号的基本特性量，如平均值、中值、峰值、谷值、峰谷差、方差、标准差、极值点、峭度与峰度、自相关函数、滑动窗口统计、傅立叶变换和小波分析等。使用Python中的NumPy、Pandas和SciPy库可以帮助我们计算这些特征，并为机器学习模型训练准备数据。本文将介绍如何
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本