机器学习之决策树

目录

决策树概念
ID3算法
- 思想
- 划分标准
- 缺点
确定分类指标
代码实现
- 导入必要库
- 创建数据集
- 熵计算
- 计算经验条件熵
- 计算信息增益
- 确定根节点特征
- 定义节点类
- 定义决策树类
- 决策树的生成与预测
- - 打印出树结构
总结

决策树概念

决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和CART等。决策树是一种树形结构，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果。

ID3算法

由于本次实验仅采用ID3算法构建决策树，因此仅介绍该算法。

思想

从信息论的知识中我们知道：信息熵越大，从而样本纯度越低，。ID3 算法的核心思想就是以信息增益来度量特征选择，选择信息增益最大的特征进行分裂。算法采用自顶向下的贪婪搜索遍历可能的决策树空间（C4.5 也是贪婪搜索）。其大致步骤为：
（1）初始化特征集合和数据集合；
（2）计算数据集合信息熵和所有特征的条件熵，选择信息增益最大的特征作为当前决策节点；
（3）更新数据集合和特征集合（删除上一步使用的特征，并按照特征值来划分不同分支的数据集合）；
（4）重复 2，3 两步，若子集值包含单一特征，则为分支叶子节点。

划分标准

ID3 使用的分类标准是信息增益，它表示得知特征 A 的信息而使得样本集合不确定性减少的程度。数据集的信息熵公式如下：
$H(D)=-\sum_{k=1}^{K}\frac{\left | C_k \right | }{\left | D \right | } log_2\frac{\left | C_k \right | }{\left | D \right | }$
其中 $C_k$ 表示集合 D 中属于第 k 类样本的样本子集。
针对某个特征 A，对于数据集 D 的条件熵 H(D|A) 为：
$H(D|A)=\sum_{i=1}^{n}\frac{\left | D_i \right | }{\left | D \right | }H(D_i) =- \sum_{i=1}^{n}\frac{\left | D_i \right | }{\left | D \right | }(\sum_{k=1}^{K}\frac{\left | D_{ik} \right | }{\left | D_i \right | }log_2\frac{\left | D_{ik} \right | }{\left | D_i \right | })$
其中 $D_i$ 表示 D 中特征 A 取第 i 个值的样本子集， $D_{ik}$ 表示 $D_i$ 中属于第 k 类的样本子集。
信息增益 = 信息熵 - 条件熵：
$G a i n (D, A) = H (D) - H (D ∣ A)$
信息增益越大表示使用特征 A 来划分所获得的“纯度提升越大”

缺点

ID3 没有剪枝策略，容易过拟合；
信息增益准则对可取值数目较多的特征有所偏好，类似“编号”的特征其信息增益接近于 1；
只能用于处理离散分布的特征；
没有考虑缺失值。

确定分类指标

在集大食堂吃饭时，经常会点一碗免费的例汤配饭，当我们站在窗口前面对若干碗清汤，大脑就生成了一颗决策树。我将使用（清汤清晰程度、食材量、个人口渴程度、温度）这些离散属性对清汤的需求程度进行分类。

代码实现

导入必要库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import math
from math import log

创建数据集

数据集基于近些天堂食的清汤决策记录。

def create_data():
    datasets = [['清澈', '少', '否', '一般', '否'],
               ['清澈', '一般', '否', '烫', '否'],
               ['清澈', '多', '一般', '凉', '否'],
               ['清澈', '多', '是', '一般', '是'],
               ['清澈', '少', '否', '一般', '否'],
               ['较模糊', '少', '否', '一般', '否'],
               ['较模糊', '一般', '一般', '凉', '否'],
               ['较模糊', '多', '是', '凉', '是'],
               ['较模糊', '一般', '是', '一般', '是'],
               ['较模糊', '少', '是', '烫', '是'],
               ['浑浊', '少', '是', '烫', '否'],
               ['浑浊', '一般', '是', '一般', '是'],
               ['浑浊', '多', '否', '凉', '是'],
               ['浑浊', '多', '一般', '烫', '是'],
               ['浑浊', '少', '否', '一般', '否'],
               ]
    labels = [u'清汤清晰程度', u'食材量', u'个人口渴程度', u'温度', u'是否需求']
    # 返回数据集和每个维度的名称
    return datasets, labels

熵计算

采用上述公式计算信息熵，用于后续信息增益计算。

# 熵
def calc_ent(datasets):
    data_length = len(datasets)
    label_count = {}
    for i in range(data_length):
        label = datasets[i][-1]
        if label not in label_count:
            label_count[label] = 0
        label_count[label] += 1
    ent = -sum([(p/data_length)*log(p/data_length, 2) for p in label_count.values()])
    return ent

计算经验条件熵

# 经验条件熵
def cond_ent(datasets, axis=0):
    data_length = len(datasets)
    feature_sets = {}
    for i in range(data_length):
        feature = datasets[i][axis]
        if feature not in feature_sets:
            feature_sets[feature] = []
        feature_sets[feature].append(datasets[i])
    cond_ent = sum([(len(p)/data_length)*calc_ent(p) for p in feature_sets.values()])
    return cond_ent

计算信息增益

信息增益=总体信息熵-该属性的经验条件熵

# 信息增益
def info_gain(ent, cond_ent):
    return ent - cond_ent

经过一次测试得到对应特征的信息增益，这里个人口渴程度信息增益最高故以此为跟节点

确定根节点特征

根据基尼指数计算信息增益，选择增益最大的属性作为根节点。

def info_gain_train(datasets):
    count = len(datasets[0]) - 1
    ent = calc_ent(datasets)
    best_feature = []
    for c in range(count):
        c_info_gain = info_gain(ent, cond_ent(datasets, axis=c))
        best_feature.append((c, c_info_gain))
        print('特征({}) - info_gain - {:.3f}'.format(labels[c], c_info_gain))
    # 比较大小
    best_ = max(best_feature, key=lambda x: x[-1])
    return '特征({})的信息增益最大，选择为根节点特征'.format(labels[best_[0]])

定义节点类

每个节点需要保存父节点和该节点的子树，方便预测时的遍历和查找

# 定义节点类 二叉树
class Node:
    def __init__(self, root=True, label=None, feature_name=None, feature=None):
        self.root = root
        self.label = label
        self.feature_name = feature_name
        self.feature = feature
        self.tree = {}
        self.result = {'label:': self.label, 'feature': self.feature, 'tree': self.tree}

    def __repr__(self):
        return '{}'.format(self.result)

    def add_node(self, val, node):
        self.tree[val] = node

    def predict(self, features):
        if self.root is True:
            return self.label
        return self.tree[features[self.feature]].predict(features)

定义决策树类

定义决策树时设定阈值，当该节点数据量小于阈值时将其剪枝，防止决策树过拟合。

class DTree:
    def __init__(self, epsilon=0.1):
        self.epsilon = epsilon
        self._tree = {}

    # 熵
    @staticmethod
    def calc_ent(datasets):
        data_length = len(datasets)
        label_count = {}
        for i in range(data_length):
            label = datasets[i][-1]
            if label not in label_count:
                label_count[label] = 0
            label_count[label] += 1
        ent = -sum([(p/data_length)*log(p/data_length, 2) for p in label_count.values()])
        return ent

    # 经验条件熵
    def cond_ent(self, datasets, axis=0):
        data_length = len(datasets)
        feature_sets = {}
        for i in range(data_length):
            feature = datasets[i][axis]
            if feature not in feature_sets:
                feature_sets[feature] = []
            feature_sets[feature].append(datasets[i])
        cond_ent = sum([(len(p)/data_length)*self.calc_ent(p) for p in feature_sets.values()])
        return cond_ent

    # 信息增益
    @staticmethod
    def info_gain(ent, cond_ent):
        return ent - cond_ent

    def info_gain_train(self, datasets):
        count = len(datasets[0]) - 1
        ent = self.calc_ent(datasets)
        best_feature = []
        for c in range(count):
            c_info_gain = self.info_gain(ent, self.cond_ent(datasets, axis=c))
            best_feature.append((c, c_info_gain))
        # 比较大小
        best_ = max(best_feature, key=lambda x: x[-1])
        return best_

    def train(self, train_data):
        """
        input:数据集D(DataFrame格式)，特征集A，阈值eta
        output:决策树T
        """
        _, y_train, features = train_data.iloc[:, :-1], train_data.iloc[:, -1], train_data.columns[:-1]
        # 1,若D中实例属于同一类Ck，则T为单节点树，并将类Ck作为结点的类标记，返回T
        if len(y_train.value_counts()) == 1:
            return Node(root=True,
                        label=y_train.iloc[0])

        # 2, 若A为空，则T为单节点树，将D中实例树最大的类Ck作为该节点的类标记，返回T
        if len(features) == 0:
            return Node(root=True, label=y_train.value_counts().sort_values(ascending=False).index[0])

        # 3,计算最大信息增益 同5.1,Ag为信息增益最大的特征
        max_feature, max_info_gain = self.info_gain_train(np.array(train_data))
        max_feature_name = features[max_feature]

        # 4,Ag的信息增益小于阈值eta,则置T为单节点树，并将D中是实例数最大的类Ck作为该节点的类标记，返回T
        if max_info_gain < self.epsilon:
            return Node(root=True, label=y_train.value_counts().sort_values(ascending=False).index[0])

        # 5,构建Ag子集
        node_tree = Node(root=False, feature_name=max_feature_name, feature=max_feature)

        feature_list = train_data[max_feature_name].value_counts().index
        for f in feature_list:
            sub_train_df = train_data.loc[train_data[max_feature_name] == f].drop([max_feature_name], axis=1)

            # 6, 递归生成树
            sub_tree = self.train(sub_train_df)
            node_tree.add_node(f, sub_tree)

        # pprint.pprint(node_tree.tree)
        return node_tree

    def fit(self, train_data):
        self._tree = self.train(train_data)
        return self._tree

    def predict(self, X_test):
        return self._tree.predict(X_test)

决策树的生成与预测

调用上述函数生成决策树，并输入未曾拥有的数据进行预测得到相应结果。

datasets, labels = create_data()
data_df = pd.DataFrame(datasets, columns=labels)
dt = DTree()
tree = dt.fit(data_df)

print(dt.predict(['浑浊', '多', '否', '一般']))

当属性值时['浑浊', '多', '否', '一般']时，对应清汤的需求为是。

打印出树结构

print(tree)

比较复杂难懂，于是将其可视化。
为了简化代码量，此处利用 sklearn.tree.DecisionTreeClassifier函数构建决策树,默认使用CART算法。数据集采用sklearn的iris数据集。最后采用graphviz进行可视化。

import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
# data
def create_data():
    iris = load_iris()
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['label'] = iris.target
    df.columns = ['sepal length', 'sepal width', 'petal length', 'petal width', 'label']
    data = np.array(df.iloc[:100, [0, 1, -1]])
    # print(data)
    return data[:,:2], data[:,-1]

X, y = create_data()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import export_graphviz
import graphviz


clf = DecisionTreeClassifier()
clf.fit(X_train, y_train,)

clf.score(X_test, y_test)

tree_pic = export_graphviz(clf, out_file="mytree.pdf")
with open('mytree.pdf') as f:
    dot_graph = f.read()
    # 决策树可视化
    graph = graphviz.Source(dot_graph)
    graph.render('mytree')

可视化结果为：

总结

虽然部分属性组合结果可以预测，但由于数据量较少导致树的深度较浅，尚存在其他属性组合无法进行预测。

你可能感兴趣的:(机器学习,决策树,算法)

手机信令数据分析&移动对象轨迹数据分析--论文摘要合集 doublexiao79 数据分析与挖掘数据分析数据挖掘智能手机
1、《基于电信位置数据的人群流量预测》卢光跃，李四维，赵宇翔，王天赐西安邮电大学学报摘要：将遗传算法和支持向量回归法结合起来，给出一种基于电信位置数据的人群流量预测方法。提取出电信位置数据中的人群流量时间序列，综合考虑其不同时间点值的关联性，用支持向量回归方法对其进行预测，并使用遗传算法对支持向量回归方法的参数进行优化。综合考虑人群流量变化的横向和纵向趋势，同时考虑使用遗传算法对SVR算法的参数进
【闲谈】聚类算法的金融数据挖掘应用及实践爱写代码的July 其他金融大数据数据分析数据可视化 python
目录一数据挖掘技术在金融领域应用概述二聚类算法介绍三聚类算法在金融数据挖掘中的应用1.聚类算法在客户细分领域的应用2.聚类算法在客户信用评估领域的应用四算法实践与个人体会1.聚类算法的实践——以k-means算法为例的银行客户数据集分析2.个人实际应用体会五总结与展望参考文献一数据挖掘技术在金融领域应用概述随着金融行业的不断发展，金融领域数字化转型程度愈发加深，计算机科学在金融领域的应用显得更为重
算法学习笔记-复杂度分析上胖琪的升级之路
如何分析、统计算法的执行效率和资源消耗为什么需要复杂度分析首先我们很多程序都可以通过统计，监控等方式帮助我们得到程序执行的时间与占用的内存大小。但是这些统计方法有很大的局限性。测试结果非常依赖测试环境。不同的测试机器，同样的代码执行效率就不同。测试结果数受数据规模的影响很大。数据规模大，我们的代码执行效率低。测试结果不能真正的反应我们的内容大O复杂度表示法我们假设一行代码执行一次的时间是unit_
国产智能搜索MindSearch∶ 能够在不到3分钟内收集并整合300多页相关信息？百态老人人工智能笔记
MindSearch是一款由上海人工智能实验室推出的国产智能搜索工具，具有强大的自然语言处理和机器学习能力，旨在提供高效、精准的信息检索服务。它能够通过自然语言查询快速在各种文件格式（如PDF、DOCX、TXT）中找到所需信息，并利用人工智能技术提供即时答案和相关搜索结果。MindSearch不仅是一个独立的搜索引擎平台，还提供了一个开源的AI搜索引擎框架，用户可以使用闭源或开源的大语言模型（LL
并查集【算法 12】终末圆算法算法 c c++python 数据结构 acm c语言
并查集(Union-Find)的基础概念与实现并查集（Union-Find）是一种用于处理不相交集合（disjointsets）的数据结构，常用于解决连通性问题。典型的应用场景包括动态连通性问题（如网络节点连通性检测）、图论中的最小生成树（Kruskal算法）、社交网络中的群体归属等。并查集的两大基本操作合并操作(Union):将两个不同的集合合并为一个集合。查找操作(Find):查询某个元素属于
jsprit学习笔记 chengong6006 测试 git
jsprit简介jsprit是一个开源的解决VRP（车辆路径问题）问题的工具，其中主要使用的是RuinAndRebuild算法。基本概念jsprit中包含几个基本的概念，包括车辆，车辆类型等，以及他们能挂载的诸多属性。jsprit的结果（solution）结构如图RuinAndRebuild流程Rebuild流程选取现在还未分配的一个服务点尝试加入每个完整路径中在每个完整路径中选取一段路径进行插入
算法day15|513.找树左下角的值、112. 路径总和、113.路径总和Ⅱ、106.从中序与后序遍历序列构造二叉树、105.从前序与中序遍历序列构造二叉树桃酥403 算法数据结构 c++leetcode
算法day15|513.找树左下角的值、112.路径总和、113.路径总和Ⅱ、106.从中序与后序遍历序列构造二叉树、105.从前序与中序遍历序列构造二叉树513.找树左下角的值迭代法112.路径总和113.路径总和Ⅱ106.从中序与后序遍历序列构造二叉树105.从前序与中序遍历序列构造二叉树513.找树左下角的值一开始题意理解错了，做了好多无用功…看来读题真的非常重要。以为重点是左下角，其实题目
Unity游戏中常用的设计模式——策略模式 LittleBridLibrary Unity3D 设计模式 unity
策略模式策略模式：它定义了算法家族，分别封装起来，让它们之间可以互相替换，策略模式让算法的变化，不会影响到使用算法的客户。//抽象算法类策略类publicabstractclassStrategy{//算法方法publicabstractvoidAlgorithmInterface();}//具体算法ApublicclassConcreteStrategyA:Strategy{//算法A实现pub
机器学习基础（四）——决策树与随机森林 Bayesian小孙机器学习基础决策树机器学习随机森林
决策树与随机森林文章目录决策树与随机森林一、知识概要（一）二、决策树使用的算法三、sklearn决策树API四、决策树的案例1.数据清洗2.特征工程3.调用决策树API五、集成学习方法-随机森林1.知识概要（二）2.集成学习API3.随机森林的案例importpandasaspdfromsklearn.feature_extractionimportDictVectorizerfromsklear
【Unity3D与23种设计模式】策略模式（Strategy）林尧彬设计模式游戏
GoF中定义：“定义一组算法，并封装每个算法，让它们之间可以彼此交换使用。策略模式让这些算法在客户端使用它们时能更加独立。”游戏开发过程中不同的角色会有不同的属性计算方法初级解决方法便是：ifelse，不够再来几个ifelse高级点儿的就用switchcase配合enum对于小型项目或者快速开发验证用的项目而言，这么做是没问题的但是开发规模或产品化项目时，最好还是选择策略模式在策略模式中，算法中的
文本分析之关键词提取（TF-IDF算法） SEVEN-YEARS tf-idf
键词提取是自然语言处理中的一个重要步骤，可以帮助我们理解文本的主要内容。TF-IDF（TermFrequency-InverseDocumentFrequency）是一种常用的关键词提取方法，它基于词频和逆文档频率的概念来确定词语的重要性。准备工作首先，我们需要准备一些工具和库，包括Pandas、jieba（结巴分词）、sklearn等。Pandas：用于数据处理。jieba：用于中文分词。skl
机器学习——lightGBM（学习整理） CXDNW 机器学习机器学习人工智能笔记 lightgbm 参数优化 sklearn
目录一、认识lightGBM1.简单介绍2.主要特点LightGBM的缺点3.模型训练方式（1）TrainingAPI（2）Scikit-learnAPI二、相关函数参数1.TrainingAPI2.Scikit-learnAPI（重复只做补充）3.lightgbm.cv4.lightgbm.Dataset5.Callbacks（1）lightgbm.record_evaluation（2）lig
【浙江工业大学、中国人工智能学会自然计算与数字智能城市专委会联合主办|ACM独立出版|往届均已见刊并完成EI、SCOPUS检索】第四届机器学习与计算机应用国际学术会议(ICMLCA 2023) 艾思科蓝 AiScholar 人工智能机器学习信息与通信图像处理人机交互计算机视觉数据分析
第四届机器学习与计算机应用国际学术会议(ICMLCA2023)定于2023年10月27-29日在中国杭州隆重举行。本届会议将主要关注机器学习和计算机应用面临的新的挑战问题和研究方向，着力反映国际机器学习和计算机应用相关技术研究的新进展。大会网站：https://ais.cn/u/iMrIjq（更多会议详情）截稿时间：以官网信息为准收录检索：EICompendex，Scopus【往届已见刊并完成EI
机器学习之决策树与随机森林的实现 SEVEN-YEARS 机器学习决策树随机森林
引言随着互联网技术的发展，垃圾邮件过滤已成为一项重要的任务。机器学习技术，尤其是决策树和随机森林，在解决这类问题时表现出色。本文将介绍随机森林的基本概念，并通过一个具体的案例——筛选垃圾电子邮件——来展示随机森林的实际应用。随机森林简介随机森林是一种基于决策树的集成学习方法，它通过构建多个决策树并综合它们的预测结果来提高准确性和防止过拟合。随机森林的工作原理主要包括以下几个步骤：自助采样：从原始数
没有免费的午餐定理做程序员的第一天机器学习人工智能机器学习
没有免费午餐定理（NoFreeLunchTheorem，NFL）是由Wolpert和Macerday在最优化理论中提出的．没有免费午餐定理证明：对于基于迭代的最优化算法，不存在某种算法对所有问题（有限的搜索空间内）都有效．如果一个算法对某些问题有效，那么它一定在另外一些问题上比纯随机搜索算法更差．也就是说，不能脱离具体问题来谈论算法的优劣，任何算法都有局限性．必须要“具体问题具体分析”．没有免费午
FlexibleBI智能化质量管理系统：让制造更高效、精准三坐标CMM质量数据系统制造大数据人工智能
在现代制造业中，质量管理不仅仅是一个追求卓越的标志，更是企业保持竞争力的核心。我们推出的智能化质量管理系统，通过先进的人工智能技术赋能，为企业带来前所未有的预测能力，助力制造商在竞争激烈的市场中立于不败之地。FlexibleBI1.人工智能赋能的质量预测我们的系统使用先进的人工智能算法，对制造过程中的尺寸数据进行深度分析。与市场上现有的一些高端软件类似，但我们不局限于这些已有的框架。系统能预测潜在
python网络编程学习笔记 github_czy python
知识点框架协议栈与库端口号、套接字、绑定接口、udp分组、套接字选项、广播TCP工作原理，套接字的含义，每个会话使用一个套接字，地址已被占用，绑定接口，死锁，已关闭连接，半开连接，像文件一样使用TCP流主机名与套接字，现代地址解析，DNS协议字节与字符串，封帧与引用，pickle与自定义定界符的格式，xml与json，压缩，未来异常生成证书，TLS负载移除，手动选择加密算法与完美前向安全，支持tl
vue 精选评论词云集成echarts-wordcloud TF-IDF算法麦麦大数据可视化研究 vue.js echarts 前端 tf-idf
这一期在我们的系统里集成词云组件，开发的功能是景区精选评论的词云展示功能。这个界面的逻辑是这样的：在数据框里输入城市，可以是模糊搜索的，选择城市；选择城市后，发往后台去查询该城市的精选评论，由于一个城市会有很多景点，所以精选评论也有很多，采用TF-IDF算法，计算关键词，返回给前端，使用echarts词云组件进行可视化；再次输入城市，可以切换城市，同时词云会重新渲染。1词云页面开发首先前端安装词云
Python实现等距映射（ISOMAP）降维算法闲人编程 python python 算法开发语言 ISOMAP 降维
目录Python实现等距映射（ISOMAP）降维算法的博客引言ISOMAP算法原理ISOMAP的优势与局限Python实现ISOMAP算法1.创建ISOMAP类2.在瑞士卷数据集上应用ISOMAP3.结果分析总结运行结果Python实现等距映射（ISOMAP）降维算法的博客引言在高维数据处理中，降维是一种常用的技术，它通过减少数据的维度来降低计算复杂度，同时保留数据的主要特征。在许多情况下，数据可
算法面经---递归永不熄灭的火焰_e306
递归一、基本概念递归就是方法自己调用自己,每次调用时传入不同的变量.递归有助于编程者解决复杂的问题,同时可以让代码变得简洁。解决的问题：各种数学问题如:8皇后问题,汉诺塔,阶乘问题,迷宫问题,球和篮子的问题(google编程大赛)各种算法中也会使用到递归，比如快排，归并排序，二分查找，分治算法等.将用栈解决的问题-->第归代码比较简洁1.1打印问题图解递归调用实例代码：publicstaticvo
NL2SQL进阶系列(5)：论文解读业界前沿方案（DIN-SQL、C3-SQL、DAIL-SQL、SQL-PaLM）、新一代数据集BIRD-SQL解读汀、人工智能 LLM工业级落地实践 copilot 人工智能 NL2SQL LLM 自然语言处理 NL2DSL Text2SQL
NL2SQL进阶系列(5)：论文解读业界前沿方案（DIN-SQL、C3-SQL、DAIL-SQL）、新一代数据集BIRD-SQL解读NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理NL2SQ
LeetCode 热题100-63 搜索插入位置万雅过往力扣热题100 leetcode 算法 python
搜索插入位置给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。请必须使用时间复杂度为O(logn)的算法。示例1:输入:nums=[1,3,5,6],target=5输出:2示例2:输入:nums=[1,3,5,6],target=2输出:1示例3:输入:nums=[1,3,5,6],target=7输出:4提示:1int:le
Hash函数 WSH2012ffff 编程语言哈希算法算法
Hash函数是一种将输入（任意长度）映射到固定大小（通常较小）输出的算法。输出的固定长度称为哈希值。Hash函数有以下特性：对于相同的输入，必须始终产生相同的哈希值。不同的输入应该具有不同的哈希值（尽可能避免冲突）。不可逆性：无法从哈希值推导出原始输入数据。任意长度的输入应该产生固定长度的哈希值。2.Python中的内置Hash函数Python内置了一个hash()函数，用于计算对象的哈希值。不同
（算法）⽐较含退格的字符串————＜栈—模拟＞课堂随笔算法——栈笔记算法开发语言 leetcode 数据结构
1.题⽬链接：844.⽐较含退格的字符串2.题⽬描述：3.解法（⽤数组模拟栈）：算法思路：由于退格的时候需要知道「前⾯元素」的信息，⽽且退格也符合「后进先出」的特性。因此我们可以使⽤「栈」结构来模拟退格的过程。•当遇到⾮#字符的时候，直接进栈；•当遇到#的时候，栈顶元素出栈。为了⽅便统计结果，我们使⽤「数组」来模拟实现栈结构。C++算法代码：classSolution{public://处理字符串
Linux开发讲课30---基于ARM体系的内核启动解析嵌入式开发1 linux开发讲课 linux arm开发运维
Bootloader至少完成以下基本的初始化准备：设置并初始化RAM（必须），引导加载程序应找到并初始化内核将用于系统中易失性数据存储的所有RAM。它以机器相关的方式执行此操作。（它可以使用内部算法来自动定位和调整所有RAM的大小，或者可以使用机器中RAM的知识或引导加载程序设计者认为合适的任何其他方法。）设置设备树dtb（必须）,设备树blob（dtb）必须8字节对齐，并且大小不能超过2兆字节。
C++ 迭代器猿来如此～ C++学习
迭代器要访问顺序容器和关联容器中的元素，需要通过“迭代器（iterator）”进行。迭代器是一个变量，相当于容器和操纵容器的算法之间的中介。迭代器可以指向容器中的某个元素，通过迭代器就可以读写它指向的元素。从这一点上看，迭代器和指针类似。迭代器按照定义会分成以下四种：1)正向迭代器，定义方法如下：容器类名::iterator迭代器名;2)常量正向迭代器，定义方法如下：容器类名::const_ite
人脸识别设计 melonbo 项目分享深度学习人脸识别 openface
总体思路人脸识别使用的算法思路为：首先，定位一张图像中所有的人脸位置；其次，对于同一张脸，当光线改变或者朝向方位改变时，算法还能判断是同一张脸；然后找到每一张脸不同于其他脸的独特之处，比如脸的大小、眉毛的弯曲程度，并表示出来；最后，通过把表示出来的脸的特征数据与数据库中的所有的人脸特征进行匹配，确定图像中人的身份信息。模型介绍OpenFace是一个基于深度神经网络的人脸识别和面部特征提取系统，它主
C++:迭代器『魔法猫咪』 C++迭代器
迭代器迭代器是算法和容器的桥梁迭代器用作访问容器中的元素算法不直接操作容器中的数据，而是通过迭代器间接操作算法和容器独立增加新的算法，无需影响容器的实现增加新的容器，原有的算法也能适用输入流迭代器和输出流迭代器输入流迭代器以输入流（如cin）为参数构造可用*(p++)获得下一个输入的元素istream_iterator输出流迭代器构造时需要提供输出流（如cout）可用(*p++)=x将x输出到输出
C语言/C++程序员大神打造炫酷的黑客帝国数字雨小辰带你看世界
C语言是面向过程的，而C＋＋是面向对象的C和C++的区别：C是一个结构化语言，它的重点在于算法和数据结构。C程序的设计首要考虑的是如何通过一个过程，对输入（或环境条件）进行运算处理得到输出（或实现过程（事务）控制）。C++，首要考虑的是如何构造一个对象模型，让这个模型能够契合与之对应的问题域，这样就可以通过获取对象的状态信息得到输出或实现过程（事务）控制。所以C与C++的最大区别在于它们的用于解决
2023-03-18：给定一个长度n的数组，每次可以选择一个数x，让这个数组中所有的x都变成x+1，问你最少的操作次数，使得这个数组变成一个非降数组。 n ＜= 3 * 10^5， 0 ＜= 数值福大大架构师每日一题
2023-03-18：给定一个长度n的数组，每次可以选择一个数x，让这个数组中所有的x都变成x+1，问你最少的操作次数，使得这个数组变成一个非降数组。n)->i32{letmax=arr.iter().max().unwrap();letmutop=vec![false;(*max+1)asusize];process1(&mutop,&arr,0,*max)}//算法1的辅助函数fnproces
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他