weiAweiww

sklearn的系统学习——决策树分类器（含有python完整代码）

一、什么是决策树

二、怎么使用决策树解决分类问题

1、重要参数

（1）Criterion

（2）random_state

（3）splitter

(4) 剪枝参数

（5）目标权重参数

2、重要接口

3、重要属性

三、决策树的优缺点以及适用场景

四、代码

使用原因：python可以实现算法，但是比较复杂，耗时耗力，而且对于程序员能力要求很高，可能会出现费力构建的模型稳定性不够或出现其他问题。而这一工作，sklearn帮我们做了，它是一个可以帮我们在操作数据处理数据的时候高效实现算法应用的工具包，使用简单。

简介：scikit-learn，又写作sklearn，是一个开源的基于python语言的机器学习工具包。它通过NumPy, SciPy和Matplotlib等python数值计算的库实现高效的算法应用，并且涵盖了几乎所有主流机器学习算法。

https://scikit-learn.org/stable/index.htmlhttps://scikit-learn.org/stable/index.html

scikit-learn中文社区Scikit-learn（以前称为scikits.learn，也称为sklearn）是针对Python 编程语言的免费软件机器学习库。它具有各种分类，回归和聚类算法，包括支持向量机，随机森林，梯度提升，k均值和DBSCAN。Scikit-learn 中文文档由CDA数据科学研究院翻译，扫码关注获取更多信息。https://scikit-learn.org.cn/以上链接为sklearn的官方教程，英文版和中文版可以对照查看。

其中，常用的模块共有六大类：分类、回归、聚类、降维、模型选择和预处理。

那今天，我们先从分类说起。

分类，顾名思义，就是将一系列的数据进行分类，可以是二分类，也可以是多分类，具体要看我们解决什么问题，预测什么内容。比如我是生物信息方向，预测氨基酸突变是否致病，那这就是一个二分类问题啦（致病or不致病）。

今天的重点是决策树，那就以决策树展开以解决分类问题，主要内容分为什么是决策树，怎么使用决策树解决分类问题以及决策树的优缺点以及适用情况，最后是代码部分。

一、什么是决策树

决策树(DTs)是一种用于分类和回归的非参数有监督学习方法。其目标是创建一个模型，通过学习从数据特性中推断出的简单决策规则来预测目标变量的值。

构建决策树其实就是将数据表通过对特征提问的方式绘制为树，最终的叶节点就是我们想要的分类结果，如下图所示。

在这里，补充节点的相关概念：

根节点：只出不进

中间节点：有进有出

叶子节点：只进不出，每个叶节点都是一个类别标签

子节点和父节点：两个相连的节点中，更接近根的节点就是父节点，另一个是子节点

决策树构建的核心有两点：

找出最佳的节点和最佳的分支。不纯度越低越好，不纯度基于节点计算，书中每个节点都有不纯度，并且子节点的不纯度低于父节点的不纯度，所以，在同一棵决策树上，叶子节点的不纯度一定是最低的。
如何让决策树停止生长，防止过拟合，可以通过剪枝参数调整。

在sklearn中，共有五个关于决策树的类：

Tree.DecisionTreeClassfier 分类树

Tree.DecisionTreeRegressor 回归树

Tree.export_graphviz 将生成的决策树导出为dot格式，画图专用

Tree.ExtraTreeClassifier 高随机版本的分类树

Tree.ExtraTreeRegressor 高随机版本的回归树

二、怎么使用决策树解决分类问题

其实，很简单，四行搞定

from sklearn import tree

clf = tree.DecisionTreeClassifier() #实例化
clf = clf.fit(xtrain,ytrain) #训练
result = clf.score(xtest,ytest) #为测试集打分

我们可以看到在实例化一行中，括号内并无内容，但不代表无参数，而是默认了，那怎么调参呢，该怎么调呢，我们往下看。

1、重要参数

（1）Criterion

上文已经说明了决策树的核心之一就是找出最佳的节点和最佳的分支，这就涉及到不纯度的计算。此参数就决定了怎么计算不纯度，两种方式：gini:基尼系数（默认）；entropy:信息熵。

t代表给定的节点，i代表标签的任意分类，p(i,t)代表标签分类i在节点t上所占的比例。

两个的对比：

差别不大，但是信息熵会慢一些，且对不纯度会更加敏感，所以决策树会更加精细。对于高维数据和噪音过多的数据信息熵很容易过拟合，建议基尼系数，当然也不是绝对的。

具体如何选取：

通常默认
维度大噪音多选择基尼系数
维度低，数据清晰都可以
当欠拟合时可以选用信息熵
个人建议，二者都试试，对比选择

（2）random_state

在建树的过程中，是依靠优化节点来追求一棵优化的树，但最优的节点不一定保证最优的树。所以，在sklearn中，会建更多的树从中取最好的。在每次分枝时，不从全部特征中选取，而是随机从中选取一部分特征，从中选取不纯度相关指标达到最优的作为分枝用的节点。

可以设置任意整数，目的是让指标更优秀。

（3）splitter

控制决策树的随机性。

输入值：best（选择重要性更高的特征）和 random（随机选择，可以防止过拟合）

(4) 剪枝参数

实际情况中，常常会过拟合，也就是训练集上表现非常好，而测试集上表现一般，需要剪枝。

剪枝策略对决策树的影响较大，正确的剪枝是优化决策树算法的核心。

max_depth：特征多，但数据少，限制树的深度可以防止过拟合，建议从3开始尝试

min_samples_leaf 和 min_samples_split：限制叶子节点，可以整数，也可以是浮点数（百分比），搭配max_depth使用，建议从5开始尝试，一般情况，对于类别不多的分类问题，最佳是1。

max_features：限制考虑的特征数，超过限制个数的特征会被舍弃（不太推荐，太暴力，可以选择PCA降维或者sklearn自带的特征选择）

min_impurity_decrease：限制信息增益的大小，信息增益小于设定值分枝就不会发生

如何找出最优秀的剪枝参数？

绘制超参数曲线（详见后文代码）

当然，剪枝后，效果不一定会更好。只是当数据集较大，特征较多时，树枝的无限生长会对内存消耗很大，所以需要提前剪枝处理。

（5）目标权重参数

Class_weight 和 Min_weight_fraction_leaf：完成样本标签平衡的参数。默认值为None，即相同的权重。

样本标签不平衡，指的是在一个数据集中，某一类样本占有大多数，比如银行贷款违约的人数，大概百分之97的人不会违约，但是这样的数据集会导致最终模型的预测只要预测为不会违约，也会有97%的正确率，因此需要Class_weight参数对样本标签进行一定的衡量，给少量的标签更多的权重，让模型偏向于样本较少的那一类。

2、重要接口

fit(xtrain,ytrain) 训练模型

score(xtest,ytest) 得分

predict(xtest) 返回每个测试样本的分类或者回归的结果

apply(xtest) 返回每个测试样本所在的叶子的索引

predict_proba(xtest) 预测的分类结果属于每个标签的概率值

输入的xtrain和xtest必须是二维矩阵，不接受任何一维特征矩阵，如果是一维，需要reshape（-1，1）转换。

3、重要属性

feature_importances_ ：特征重要性

#重要性
importance = clf.feature_importances_
feature_importance = [(feature,importance.round(3)) for feature,importance in zip(feature_name,importance)]
#排序
feature_importance = sorted(feature_importance,key=lambda x :x[1],reverse=True)
#对应进行打印
[print('variable:{:20} importance: {}'.format(*pair)) for pair in feature_importance]

三、决策树的优缺点以及适用场景

决策树的一些优点：

易于理解和解释。树可以被可视化。
几乎不需要数据准备。其他算法通常需要数据标准化，需要创建虚拟变量并删除缺失值。但是，请注意，此模块不支持缺失值。
使用树的成本(即预测数据)是用于训练树的数据点数的对数。
能够处理数值型和分类型数据。其他技术通常专门分析只有一种类型变量的数据集。有关更多信息，请参见algorithms 。
能够处理多输出问题。
使用白盒模型。如果给定的情况在模型中是可以观察到的，那么对条件的解释就很容易用布尔逻辑来解释。相反，在黑箱模型中(例如，在人工神经网络中)，结果可能很难解释。
可以使用统计测试验证模型。这样就有可能对模型的可靠性作出解释。
即使它的假设在某种程度上被生成数据的真实模型所违背，它也表现得很好。

决策树的缺点包括：

决策树学习器可以创建过于复杂的树，不能很好地概括数据。这就是所谓的过拟合。为了避免这个问题，必须设置剪枝、设置叶节点所需的最小样本数或设置树的最大深度等机制。
决策树可能是不稳定的，因为数据中的小变化可能导致生成完全不同的树。通过集成决策树来缓解这个问题。
学习最优决策树的问题在最优性的几个方面都是NP-complete的，甚至对于简单的概念也是如此。因此，实际的决策树学习算法是基于启发式算法，如贪婪算法，在每个节点上进行局部最优决策。这种算法不能保证返回全局最优决策树。这可以通过训练多棵树再集成一个学习器来缓解，其中特征和样本被随机抽取并替换。
有些概念很难学习，因为决策树不能很容易地表达它们，例如异或、奇偶校验或多路复用器问题。
如果某些类占主导地位，则决策树学习者会创建有偏见的树。因此，建议在拟合决策树之前平衡数据集。

适用场景

对于决策树分类而言，它更擅长分月亮型和半分型的数据，对于环状分布的数据效果并不是太好。

最擅长月亮型数据的是最近邻算法，RBF支持向量机和高斯过程

最擅长环形数据的是最近邻算法和高斯过程

最擅长半分的是朴素贝叶斯、神经网络和随机森林

四、代码

本文选择经典的红酒数据集，也是sklearn自带的数据集。相比于鸢尾花数据集，它的特征会更多一些，对于参数调整前后的分数情况更加直观明显。

from sklearn import tree
import pandas as pd
from sklearn.datasets import load_wine  #红酒数据集
from sklearn.model_selection import train_test_split

wine = load_wine()
print(wine.data)
print(wine.data.shape)
print(wine.target)
print(wine.feature_names)
print(wine.target_names)

df = pd.concat([pd.DataFrame(wine.data),pd.DataFrame(wine.target)],axis=1) #将特征和标签合并，axis=0为横向合并
print(df)

# 划分测试集和训练集
xtrain,xtest,ytrain,ytest = train_test_split(wine.data,wine.target,test_size=0.3)
# 创建决策树
clf = tree.DecisionTreeClassifier(criterion='entropy',random_state=42,splitter='random',max_depth=3,min_samples_leaf=10,min_samples_split=10) #实例化
#训练
clf = clf.fit(xtrain,ytrain) 
#为测试集打分,分数每次运行会不一样，原因有两个：测试集和训练集划分不确定；决策树分类器的random_state参数影响
result = clf.score(xtest,ytest) 
print('测试集打分',result)
print('训练集打分',clf.score(xtrain,ytrain))

#可视化
from sklearn.tree import export_graphviz
import pydot
import graphviz  #需要自己导入 pip install graphviz
feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类','花青素','颜色强度','色调','od280/od315稀释葡萄酒','脯氨酸']
dot = tree.export_graphviz(clf
                           ,feature_names=feature_name
                           ,class_names=['琴酒','雪莉','贝尔摩德']
                           ,filled=True   #上色
                           ,rounded=True)  #圆角
graph = graphviz.Source(dot)
print(graph)
#重要性
importance = clf.feature_importances_
feature_importance = [(feature,importance.round(3)) for feature,importance in zip(feature_name,importance)]
#排序
feature_importance = sorted(feature_importance,key=lambda x :x[1],reverse=True)
#对应进行打印
[print('variable:{:20} importance: {}'.format(*pair)) for pair in feature_importance]

#绘制超参数曲线
import matplotlib.pyplot as plt
test = []
for i in range(100):
    clf = tree.DecisionTreeClassifier(max_depth=2
                                      # ,criterion='gini'
                                      ,criterion='entropy'
                                      ,random_state=i
                                      ,splitter='random')
    clf.fit(xtrain,ytrain)
    score = clf.score(xtest,ytest)
    test.append(score)
plt.plot(range(100),test)
plt.xlabel('max_depth')
plt.ylabel('score')
plt.show()

总之，sklearn主要三步：建立模型评估对象，通过模型接口训练模型，最后通过模型接口提取需要的信息。其他模块内容会后续更新，我们一起学习~

GPT-4对话模型在客服中的应用与前景：开启智能客服新时代 Echo_Wish 前沿技术人工智能 python 人工智能 gpt
GPT-4对话模型在客服中的应用与前景：开启智能客服新时代随着人工智能技术的迅猛发展，基于深度学习的对话模型在各个领域中得到了广泛应用。其中，GPT-4对话模型在客服系统中的应用尤为引人注目。本文将探讨GPT-4在客服中的应用与未来发展前景，并结合具体代码示例进行说明。一、GPT-4对话模型概述GPT-4（GenerativePre-trainedTransformer4）是OpenAI开发的一种
STM32学习和实践笔记（28）：printf重定向实验复业思维20240108 STM32 stm32 学习笔记
1.printf重定向简介在C语言中printf函数里，默认输出设备是显示器，如果想要用这个函数将输出结果到串口或者LCD上显示，就必须重定义标准库函数里中printf函数调用的与输出设备相关的函数。比如要使用printf输出到串口，需要先将fputc函数里面的输出指向串口,这个更改就叫重定向。
【AI日志分析】基于机器学习的异常检测：告别传统规则的智能进阶网罗开发 AI 大模型人工智能机器学习
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
Copilot 概述计算机萍萍学姐 copilot copilot 人工智能机器学习
Copilot是什么？它有什么用途？Copilot是由人工智能公司和GitHub合作开发的一个基于人工智能的代码提示工具，它可以利用机器学习技术和大量训练数据生成高质量的代码。Copilot的目标是在保持代码质量和可读性的前提下，提高开发者的编码效率，使得编码工作更为高效和便捷。Copilot的出现是解决编程过程中可能遇到的一些难点和瓶颈问题，特别是在快速迭代的敏捷开发场景中，提高编码效率和减少编
让旅游更智能：基于AR的旅游导览应用解析 Echo_Wish Python 笔记 Python算法旅游 ar restful
友友们好！我的新专栏《Python进阶》正式启动啦！这是一个专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发等。●实战案例：通过丰富的实战案例，带你一步步实现
模型压缩与优化技术——神经架构搜索（Neural Architecture Search, NAS） DuHz 轻量化模型机器学习计算机视觉人工智能神经网络深度学习数据挖掘语音识别
模型压缩与优化技术中的神经架构搜索（NeuralArchitectureSearch,NAS）技术1.引言在深度学习领域，神经网络的架构设计对模型的性能至关重要。传统的手动设计网络架构的过程费时费力，且通常依赖于经验和直觉。为了提升效率与效果，神经架构搜索（NeuralArchitectureSearch,NAS）作为一种自动化的方法，能够通过算法寻找和优化最佳的神经网络架构。NAS可以在图像识别
【AI日志分析】基于机器学习的异常检测：告别传统规则的智能进阶人工智能机器学习深度学习
摘要随着系统规模的扩大和复杂性增加，传统基于规则的日志分析方法难以识别隐藏的复杂异常模式。本文将介绍基于机器学习的日志异常检测技术，包括模型选择、特征工程及实现步骤。通过具体的代码示例与图表，展示如何高效检测异常日志，并提供应用场景与优化策略。引言日志是系统运行状态的关键数据来源，但面对海量日志数据，传统规则式分析显得力不从心。机器学习能够根据日志的历史数据和行为模式，通过训练模型检测异常情况，不
sql：字符集（ASCII、GB2312、GBK、Unicode和UTF）、Mysql字符集（查看默认字符集和支持的字符集、层次级别、连接字符集、JDBC对连接字符集的影响） shanshandeisu sql mysql 数据库
仅为个人学习所用。请支持javaGuide原文。1.字符集1.1.ASCIIASCII字符集是一套现代美国英语适用的字符集，至今为止共定义了128个字符，其中有33个控制字符（比如回车、删除）无法显示。一个ASCII码长度是一个字节也就是8个bit。不过最高位是0仅仅作为校验位，其余7位使用0和1进行组合，所以，ASCII字符集可以定义128（2^7）个字符。1.2.GB2312GB2312字符集
程序员这辈子| 还有5天到2025年，说点掏心窝的话~ 前端后端程序员
1.不要追求完美，专注于成长作为一名程序员，初入职场时总想着把每一行代码都写得完美无缺，生怕出错。其实，真正重要的是不断地学习和成长。不要担心犯错，那是成长的必经之路。每一个Bug都是你前进的一步。#这是一个模拟简单的Bug修复过程的代码defdivide(a,b):try:returna/bexceptZeroDivisionError:print("Error:Divisionbyzerois
【Python】edge文件转csv文件海轰Pro 唯有努力 Python python 开发语言
目录简介问题场景解决方案结语简介Hello！非常感谢您阅读海轰的文章，倘若文中有错误的地方，欢迎您指出～ଘ(੭ˊᵕˋ)੭昵称：海轰标签：程序猿｜C++选手｜学生简介：因C语言结识编程，随后转入计算机专业，获得过国家奖学金，有幸在竞赛中拿过一些国奖、省奖…已保研学习经验：扎实基础+多做笔记+多敲代码+多思考+学好英语！唯有努力本文仅记录自己感兴趣的内容问题场景存在一个类型为edge的文件需要转化为格
python把列表插入列表 Zoert
python相关学习资料：https://edu.51cto.com/video/4102.htmlhttps://edu.51cto.com/video/1158.htmlhttps://edu.51cto.com/video/4645.htmlPython中列表的嵌套与操作在Python编程中，列表（List）是一种非常重要的数据结构，它不仅可以存储数据，还可以进行各种操作，如插入、删除、排序
关于大一上的总结 Rinai_R 对过去的总结与反思学习经验分享
大一上总结前言源于学长们都喜欢写总结，今晚也正好听见一首有点触动心灵的歌，深有感慨，故来此写下这篇总结正文1.暑假前的准备暑假之前姑且还是学习了基本的C语法，大概是到了结构体的地方，进度很慢，主要是我在家确实很懈怠，而且确实也有其他不少的事情。2.军训之后到10月22日我在学校的代码之旅是在军训之后开始的，军训完本来想在寝室学习编程的，却发现室友都在go/瓦/王者启动…还是有点吵，于是转战到了图书
Redis学习笔记1【数据类型和常用命令】 Rinai_R Redis学习笔记 redis 学习笔记数据库经验分享
Redis学习笔记基础语法1.数据类型String:最基本的类型，可以存储任何数据，例如文本或数字。示例值为helloworld。Hash:用于存储键值对，适合存储对象或结构体。示例值为{"name":"Jack","age":21}。List:有序的字符串列表，适用于队列等场景。示例值为[A->B->C]。Set:不重复的元素集合，适用于需要唯一性的场景。示例值为{A,B,C}。SortedSe
计算机组成原理的学习笔记（1） Rinai_R 计算机组成原理学习笔记
学习笔记前言本文主要是对于b站尚硅谷的计算机组成原理的学习笔记，仅用于学习交流。一、hello.c如何运行起来？1.预处理阶段在编译C程序时，预处理器首先处理代码。预处理器会：插入头文件：例如，当在代码中使用#include时，预处理器会将stdio.h中的内容插入到源代码中。这样，编译器在处理时就得到了所有必要的函数声明和宏定义。宏替换和条件编译：将所有的宏定义替换为实际值，并处理任何条件编译的
python打印对角线相连的菱形米酒馆 PYTHON python 开发语言
【开发该软件的操作系统】：windows10【软件开发环境/开发工具】：PyCharm【编程语言】：Python【开发目的】：这是老师布置的作业啦~供初学者参考学习【开发者】：江西农业大学2020级大二学生代码实现：输入菱形边长，打印对角线相连的菱形。代码如下：#打印对角线相连的菱形n=int(input('请输入菱形每边星星个数，n='))m=t=2*n-1#双重赋值,m和t为行数whilem>
QAT与PTQ模型量化方法的区别 old_power 计算机视觉模型量化深度学习计算机视觉
QAT（QuantizationAwareTraining）和PTQ（PostTrainingQuantization）是两种常见的模型量化方法，用于减少深度学习模型的计算和存储开销，同时尽量保持模型的性能。1.QAT（QuantizationAwareTraining）定义：QAT是在模型训练过程中引入量化操作，使模型在训练时就能感知到量化带来的影响，从而更好地适应量化后的精度损失。流程：在训练
SOA（企业服务总线ESB架构实现） AGI-杠哥 AGI 程序人生兼职副业架构人工智能
**企业服务总线（EnterpriseServiceBus，ESB）**是SOA架构中的核心组成部分，主要用于促进企业内部异构系统和应用程序之间的集成与通信。ESB提供了一个统一的服务集成平台，通过使用消息路由、协议转换、服务编排等功能，实现了不同服务之间的无缝通信。我们将详细学习ESB架构的实现，包括其核心功能、架构组件、实现步骤和最佳实践。ESB架构的核心思想ESB的核心思想是通过一个中心化的
毕设分享深度学习街道行人流量计数系统 fawubio_A 毕业设计 python 毕设
文章目录0前言1项目运行效果2设计概要2原理介绍2.1目标检测概况什么是目标检测？发展阶段2.2行人检测行人检测简介行人检测技术难点行人检测实现效果4最后0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要
Python语法总结彧侠脚本处理 Python
Python作为一种解释型的脚本语言，无论从自动化运维、大数据处理还是人工智能都得到了广泛的应用，而且它好理解、易学习、上手快的特点也使它成为了当下最火热的开发语言之一。下面就对Python语言中的各种语法做一个总结，以备后用数据类型一、整数二、浮点数三、字符串四、布尔值五、空值print语句注释什么是变量比如：定义字符串raw字符串与多行字符串Unicode字符串字符串还有一个编码问题。整数和浮
【Java】详细讲解数据类型与运算符 Yui_ Java java 开发语言
大家好，我是Yui_如果文章知识点有错误的地方，请指正！和大家一起学习，一起进步如有不懂，可以随时向我提问，我会全力讲解~如果感觉博主的文章还不错的话，希望大家关注、点赞、收藏三连支持一下博主哦~！你们的支持是我创作的动力！我相信现在的努力的艰辛，都是为以后的美好最好的见证！人的心态决定姿态！欢迎讨论：如有疑问或见解，欢迎在评论区留言互动。点赞、收藏与分享：如觉得这篇文章对您有帮助，请点赞、收藏并
Keras、TensorFlow、PyTorch框架对比及服务器配置揭秘小深ai硬件分享人工智能深度学习服务器
深度学习框架：开启智能大门的钥匙在数字化浪潮中，深度学习如明星照亮众多领域。从智能安防的人脸识别，到医疗图像分析、电商商品推荐、智能语音助手等，其身影无处不在，改变着生活与工作方式。在深度学习领域，Keras、TensorFlow和PyTorch是主流框架，能助开发者构建强大智能模型。但这些框架要充分发挥作用，离不开合适的服务器配置，就像魔法师需要魔法棒和魔力，下面我们就来看看这些具体的框架吧:框
Python 编译Edge-TTS（edge_tts）转MP3工具浩读语音朗读 edge-tts python edge 自然语言处理前端
Python编译Edge-TTS利用PIPEdge-tts库来实现Azure神经网络自然语音转MP3，这应该是微软给老百姓们一个共享前沿科技大餐。（edge_tts）找了网上的很多源代，现在利用现有公开的代码混编译一个个人的学习工具。代码仅供学习研究。fromtkinterimport*fromtkinter.filedialogimport*fromtkinter.messageboximpor
深度学习｜表示学习｜卷积神经网络｜局部链接是什么？｜06 漂亮_大男孩表示学习深度学习学习 cnn
如是我闻：局部连接（LocalConnectivity），是卷积神经网络（CNN）中的一个关键特性。什么是局部连接（LocalConnectivity）？局部连接指的是：在卷积操作中，每个神经元（或输出单元）只与输入数据的一个局部区域相关联，而不是与整个输入数据相连。换句话说：全连接网络（FullyConnectedLayer）中，每个神经元会与上一层所有的神经元相连。卷积网络（Convoluti
Hadoop 与 Spark：大数据处理的比较王子良. 大数据经验分享 hadoop spark 大数据
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
【Python学习笔记】简单调用百度API应用白马银枪素征袍 python python 百度开发语言
#本文一切代码及理论均来自于郑秋生、夏敏捷二位老师主编《Python项目案例发从入门到实践》一书，本人仅做微改。创作本文的目的仅为总结本人的学习过程和成果，借此巩固。可能存在许多疏漏之处，还请各位同道多多批评指正。今天学的是调用百度API一个章节，百度大家都熟悉，现如今中国最大的互联网企业之一，坐拥大量曾经的“爆款”，甚至拥有堪称第一代中国现象级软件的“百度贴吧”，创造了无数出圈梗，几乎是一代人的
纯C#编写的WebServer项目 masterofdotnet c#web服务服务器
http://www.codeplex.com/webserver这是一个完全用C#实现的Web服务器，可用于嵌入到客户端或者作为独立的Web服务器使用。性能上还是很不错的。尤其是作为一个RPC服务器来说。而且学习的价值也很大。
机器人学习的范式转变：从专用走向通用基础模型 XianxinMao 机器人
标题：机器人学习的范式转变：从专用走向通用基础模型文章信息摘要：机器人学习正经历从特定任务向通用基础模型的范式转变，这一演进路径与大语言模型相似。通过多机器人协作和跨任务泛化能力的成功，基础模型方向展现出实现通用人工智能的潜力。然而，这一转变面临两大关键挑战：机器人硬件的高昂成本限制了大规模部署和数据采集，以及获取足够规模和多样性的训练数据存在实际困难。突破这些瓶颈需要在制造工艺创新、数据共享生态
C#实现的中软WebServer架构范例解析艾古力斯
本文还有配套的精品资源，点击获取简介：本示例详细探讨了如何使用C#语言和.NET框架构建一个基于Northwind数据库的Web服务器应用程序。演示了C#在编写服务器端代码、处理HTTP请求和数据库交互中的应用，并提供了关于ASP.NET框架、路由规则和MVC设计模式的深入理解。此外，通过分析源码，开发者可以学习到代码组织、错误处理和性能优化的实践方法。1.C#语言和.NET框架在Web服务中的应
【网络安全】零基础小白如何入门CTF 程序员橘子 web安全安全网络渗透测试网络安全
新手小白应该怎么入门CTF？要如何学习CTF？分几阶段学习？想打CTF，但是没有思路怎么办？这是我花了两天，整理的CTF学习的思路与方法，方便大家学习时可以参考。如果觉得有帮助的小伙伴，记得点赞收藏关注！一、CTF简介01」简介中文一般译作夺旗赛（对大部分新手也可以叫签到赛），在网络安全领域中指的是网络安全技术人员之间进行技术竞技的一种比赛形式。CTF起源于1996年DEFCON全球黑客大会，以代
25.FFmpeg学习笔记 - 用libavfilter转换原始音频格式2 whoyouare888 FFmpeg
本文用libavfilter的另一种方法来转换原始音频格式，见代码。#include#include#include#include#include"libavutil/channel_layout.h"#include"libavutil/md5.h"#include"libavutil/mem.h"#include"libavutil/opt.h"#include"libavutil/samp
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

sklearn的系统学习——决策树分类器（含有python完整代码）

一、什么是决策树

二、怎么使用决策树解决分类问题

1、重要参数

（1）Criterion

（2）random_state

（3）splitter

(4) 剪枝参数

（5）目标权重参数

2、重要接口

3、重要属性

三、决策树的优缺点以及适用场景

四、代码

你可能感兴趣的:(机器学习,sklearn,决策树,学习)