如何原谅奋力过但无声

【2 - 随机森林 - 案例部分：随机森林在乳腺癌数据上的调参】菜菜sklearn机器学习

课程地址：《菜菜的机器学习sklearn课堂》_哔哩哔哩_bilibili

第一期：sklearn入门 & 决策树在sklearn中的实现
第二期：随机森林在sklearn中的实现
第三期：sklearn中的数据预处理和特征工程
第四期：sklearn中的降维算法PCA和SVD
第五期：sklearn中的逻辑回归
第六期：sklearn中的聚类算法K-Means
第七期：sklearn中的支持向量机SVM（上）
第八期：sklearn中的支持向量机SVM（下）
第九期：sklearn中的线性回归大家族
第十期：sklearn中的朴素贝叶斯
第十一期：sklearn与XGBoost
第十二期：sklearn中的神经网络

机器学习中调参的基本思想

（一）泛化误差

（二）偏差（bias）-方差（variance）困境

案例：随机森林在乳腺癌数据上的调参

（一）导入需要的库

（二）导入数据集，探索数据

（三）进行一次简单的建模，看看模型本身在数据集上的效果

（四）随机森林调整的第一步：无论如何先来调n_estimators

（五）在确定好的范围内，进一步细化学习曲线

（六）为网格搜索做准备，书写网格搜索的参数

（七）开始按照参数对模型整体准确率的影响程度进行调参，首先调整max_depth

（八）调整max_features

（九）调整min_samples_leaf

（十）调整min_samples_split

（十一）尝试一下criterion

（十二）调整完毕，总结出模型的最佳参数

Bagging vs Boosting

机器学习中调参的基本思想

通过画学习曲线，或者网格搜索，我们能够探索到调参边缘

正确的模型调参思路：

目标是提升某个模型评估指标，比如对于随机森林来说，想要提升的是模型在未知数据上的准确率（由 score 或 oob_score_ 来衡量）
模型在未知数据上的准确率受什么因素影响？在机器学习中，用来衡量模型在未知数据上的准确率的指标，叫泛化误差（genelization error）

（一）泛化误差

当模型在未知数据（测试集或袋外数据）上表现糟糕时，即模型的泛化程度不够，泛化误差大，模型效果不好

泛化误差受到模型的结构（复杂度）影响：

当模型太复杂，模型就会过拟合，泛化能力就不够，所以泛化误差大
当模型太简单，模型就会欠拟合，拟合能力就不够，所以泛化误差大
只有当模型的复杂度刚刚好，才能够达到泛化误差最小的目标

对树模型来说，树越茂盛，深度越深，枝叶越多，模型就越复杂，所以树模型是天生位于图的右上角的模型
随机森林以树模型为基础，所以随机森林也是天生复杂度高的模型。随机森林的参数都是向着一个目标去：减少模型的复杂度，把模型往图像的左边移动，防止过拟合
但是也有天生处于图像左边的随机森林，所以在调参之前，要先判断模型现在究竟处于图像的哪一边

（二）偏差（bias）-方差（variance）困境

四点结论：

模型太复杂或太简单，都会让泛化误差高，追求的是位于中间的平衡点
模型太复杂就会过拟合，太简单就会欠拟合
对树模型和树的集成模型来说，树的深度越深，枝叶越多，模型越复杂（剪枝是降低模型的复杂度）
树模型和树的集成模型的目标，都是减少模型复杂度，把模型往图像的左边移动

随机森林的调参方向是降低复杂度，故将那些对复杂度影响巨大的参数挑选出来，研究它们的单调性，调整那些能最大限度降低复杂度的参数；对于那些不单调的参数，或者反而会让复杂度升高的参数，视情况使用

一个好的模型，要对大多数未知数据都预测的准又稳，即当偏差和方差都很低的时候，模型的泛化误差就小，在未知数据上的准确率就高。然而，方差和偏差是此消彼长的，不可能同时达到最小值，调参的目标是达到方差和偏差的平衡

偏差：模型的预测值与真实值之间的差异，模型越精确，偏差越低
方差：模型每一次输出结果与模型预测值的平均水平之间的误差，模型越稳定，方差越低

随机森林的基评估器都拥有较低的偏差和较高的方差，因为决策树本身是预测比较准、比较容易过拟合的模型，装袋法本身也要求基分类器的准确率必须要有50%以上。所以以随机森林为代表的装袋法的训练过程，旨在降低方差（即降低模型复杂度），故随机森林参数的默认设定都是假设模型本身在泛化误差最低点的右边

案例：随机森林在乳腺癌数据上的调参

基于方差和偏差的调参方法
乳腺癌数据是sklearn自带的分类数据之一

（一）导入需要的库

from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

（二）导入数据集，探索数据

data = load_breast_cancer()

data.data.shape   # (569, 30)

data.target   # 二分类数据0/1
 
# 可以看到，乳腺癌数据集有569条记录，30个特征，单看维度虽然不算太高，但是样本量非常少，过拟合的情况可能存在

（三）进行一次简单的建模，看看模型本身在数据集上的效果

rfc = RandomForestClassifier(n_estimators=100,random_state=90)
score_pre = cross_val_score(rfc,data.data,data.target,cv=10).mean()  #交叉验证的分类默认scoring='accuracy'
 
score_pre
 
#这里可以看到，随机森林在乳腺癌数据上的表现本就还不错，在现实数据集上，基本上不可能什么都不调就看到95%以上的准确率

调参顺序：n_estimators —> max_depth —> min_samples_leaf —> min_samples_split —> max_features —> criterion

（四）随机森林调整的第一步：无论如何先来调n_estimators

"""
在这里我们选择学习曲线，可以使用网格搜索吗？可以，但是只有学习曲线，才能看见趋势
我个人的倾向是，要看见n_estimators在什么取值开始变得平稳，是否一直推动模型整体准确率的上升等信息
第一次的学习曲线，可以先用来帮助我们划定范围，我们取每十个数作为一个阶段，来观察n_estimators的变化如何引起模型整体准确率的变化
"""
 
scorel = []
for i in range(0,200,10):   # 0 10 20 30 ... 200
    rfc = RandomForestClassifier(n_estimators=i+1,
                                 n_jobs=-1,   # 使用CPU里的所有core
                                 random_state=90)
    score = cross_val_score(rfc,data.data,data.target,cv=10).mean()
    scorel.append(score)

# list.index([object])  返回这个object在列表list中的索引
print(max(scorel),(scorel.index(max(scorel))*10)+1)   
# scorel.index(max(scorel))返回scorel列表中最大值的索引
# scorel.index(max(scorel))*10)+1对应n_estimators的取值

plt.figure(figsize=[20,5])
plt.plot(range(1,201,10),scorel)
plt.show()

（五）在确定好的范围内，进一步细化学习曲线

scorel = []
for i in range(65,75):   # 在上一步得出的71结果附近再细化探索
    rfc = RandomForestClassifier(n_estimators=i,
                                 n_jobs=-1,
                                 random_state=90)
    score = cross_val_score(rfc,data.data,data.target,cv=10).mean()
    scorel.append(score)

print(max(scorel),([*range(65,75)][scorel.index(max(scorel))]))

plt.figure(figsize=[20,5])
plt.plot(range(65,75),scorel)
plt.show()

调整 n_estimators 的效果显著，模型的准确率立刻上升了0.003

接下来就使用复杂度-泛化误差方法（方差-偏差方法）和网格搜索对参数一个个进行调整（同时调整多个参数，会让我们无法理解参数的组合是怎么得来的，所以即便网格搜索调出来的结果不好，也不知道从哪里去改）

（六）为网格搜索做准备，书写网格搜索的参数

有一些参数是没有参照的，很难说清一个范围，这种情况下我们使用学习曲线，看趋势。从曲线跑出的结果中选取一个更小的区间，再跑曲线

param_grid = {'n_estimators':np.arange(0, 200, 10)}
 
param_grid = {'max_depth':np.arange(1, 20, 1)}
    
param_grid = {'max_leaf_nodes':np.arange(25,50,1)}
# 对于大型数据集，可以尝试从1000来构建，先输入1000，每100个叶子一个区间，再逐渐缩小范围

有一些参数是可以找到一个范围的，或者说我们知道它们的取值和随着它们的取值，模型的整体准确率会如何变化，这样的参数我们就可以直接跑网格搜索

param_grid = {'criterion':['gini', 'entropy']}
 
param_grid = {'min_samples_split':np.arange(2, 2+20, 1)}   # 默认值2
 
param_grid = {'min_samples_leaf':np.arange(1, 1+10, 1)}   # 默认值1

# 默认值是特征数量开平方，该值要么是设置的最大值，要么是最小值
# 即范围是从0-该值，或从该值-最大特征量    
param_grid = {'max_features':np.arange(5,30,1)}

（七）开始按照参数对模型整体准确率的影响程度进行调参，首先调整max_depth

#调整max_depth
param_grid = {'max_depth':np.arange(1, 20, 1)}
 
#   一般根据数据的大小来进行一个试探，乳腺癌数据很小，所以可以采用1~10，或者1~20这样的试探
#   但对于像digit recognition那样的大型数据来说，我们应该尝试30~50层深度（或许还不足够
#   更应该画出学习曲线，来观察深度对模型的影响
 
rfc = RandomForestClassifier(n_estimators=73
                             ,random_state=90
                            )

GS = GridSearchCV(rfc,param_grid,cv=10)  #网格搜索
GS.fit(data.data,data.target)

GS.best_params_   #显示调整出来的最佳参数

GS.best_score_   #返回调整好的最佳参数对应的准确率

将max_depth设置为有限之后，模型的准确率不变
限制max_depth，是让模型变得简单，把模型向左推
通常来说，随机森林应该在泛化误差最低点的右边，树模型应该倾向于过拟合，而不是拟合不足。这和数据集本身有关，也有可能是我们调整的n_estimators对于数据集来说太大，因此将模型拉到泛化误差最低点了

当模型位于图像左边时，需要增加模型复杂度（增加方差，减少偏差），因此max_depth应尽量大，min_samples_leaf和min_samples_split应尽量小，这三个参数是剪枝参数（减小复杂度的参数）

（八）调整max_features

max_features是唯一一个既能够将模型往左（低方差高偏差）推，也能够将模型往右（高方差低偏差）推的参数。我们需要根据调参前模型所在的位置（在泛化误差最低点的左边还是右边）来决定我们要将max_features往哪边调

max_features的默认最小值是sqrt(n_features)

# 调整max_features，总共有30个特征，默认值为根号30≈5.
param_grid = {'max_features':np.arange(5,30,1)}    # 往复杂度高的方向调

rfc = RandomForestClassifier(n_estimators=73
                             ,random_state=90
                            )
GS = GridSearchCV(rfc,param_grid,cv=10)
GS.fit(data.data,data.target)
 
GS.best_params_
 
GS.best_score_

提升了

max_features降低之后，模型的准确率提升了。这说明，我们把模型往左推，模型的泛化误差降低了，说明模型在曲线的右边

（九）调整min_samples_leaf

#调整min_samples_leaf
param_grid={'min_samples_leaf':np.arange(1, 1+10, 1)}   # 默认为1（最大复杂度）
 
#对于min_samples_split和min_samples_leaf,一般是从他们的最小值开始向上增加10或20
#面对高维度高样本量数据，如果不放心，也可以直接+50，对于大型数据，可能需要200~300的范围
#如果调整的时候发现准确率无论如何都上不来，那可以放心大胆调一个很大的数据，大力限制模型的复杂度
 
rfc = RandomForestClassifier(n_estimators=73
                             ,random_state=90
                            )
GS = GridSearchCV(rfc,param_grid,cv=10)
GS.fit(data.data,data.target)

GS.best_params_
GS.best_score_

下降了

可以看见，网格搜索返回了min_samples_leaf的最小值，且模型整体的准确率还降低了，即参数把模型向左推，但是模型的泛化误差上升了。在这种情况下，不要把这个参数设置起来，默认即可

（十）调整min_samples_split

#调整min_samples_split
param_grid={'min_samples_split':np.arange(2, 2+20, 1)}   # 默认为2（最大复杂度）
 
rfc = RandomForestClassifier(n_estimators=73
                             ,random_state=90
                            )
GS = GridSearchCV(rfc,param_grid,cv=10)
GS.fit(data.data,data.target)

GS.best_params_
GS.best_score_

和min_samples_leaf一样的结果，返回最小值并且模型整体的准确率降低了

（十一）尝试一下criterion

#调整Criterion
param_grid = {'criterion':['gini', 'entropy']}
 
rfc = RandomForestClassifier(n_estimators=73
                             ,random_state=90
                            )
GS = GridSearchCV(rfc,param_grid,cv=10)
GS.fit(data.data,data.target)

GS.best_params_
GS.best_score_

（十二）调整完毕，总结出模型的最佳参数

rfc = RandomForestClassifier(n_estimators=73,max_features=2,random_state=90)
score = cross_val_score(rfc,data.data,data.target,cv=10).mean()
score
score - score_pre   # 调参前后准确率的变动

在整个调参过程中，首先调整n_estimators（无论如何这都是第一步），然后调整max_depth，通过max_depth产生的结果来判断模型位于复杂度-泛化误差图像的哪一边，从而选择我们应该调整的参数和调参的方向

也可以画学习曲线来观察参数会如何影响准确率，选取学习曲线中单调的部分来放大研究，学习曲线的拐点也许就是我们追求的、最佳复杂度对应的泛化误差最低点（也是方差和偏差的平衡点）

Bagging vs Boosting

Java 大视界 -- Java 开发 Spark 应用：RDD 操作与数据转换一只蜗牛儿 java spark 开发语言
ApacheSpark是一个强大的分布式计算框架，提供了高效的数据处理能力，广泛应用于大数据分析与机器学习。Spark提供了多种高级API，支持批处理和流处理。Spark提供了两种主要的数据抽象：RDD（弹性分布式数据集）和DataFrame。本文将重点介绍如何使用Java开发Spark应用，并深入探讨RDD的操作与数据转换。一、Spark环境搭建首先，确保您的环境中安装了Java和Spark。您
小白也能懂的 Python 入门指南（1）——Python 的前世今生荆州克莱面试题汇总与解析 spring cloud spring boot spring 技术 css3
Lifeisshort.YouneedPython.——BruceEckel上边这句话是Python社区的名言，翻译过来就是“人生苦短，我用Python”，由此可见，Python在很多人心中已成为最中意的编程语言。在人工智能、机器学习日趋火热的时代，Python又赶上了一波AI的热潮，即使你没系统的学习过它，相信你也一定听说过吧，如果你也对Python产生了浓厚的兴趣，跟我一起来了解下它的前世今生
AI大模型荆州克莱面试题汇总与解析技术 css3 spring cloud spring boot spring
系列简书文章目录https://www.jianshu.com/p/d47d5cdc8a3e本篇目录AI大模型什么是AI大模型AI大模型，通常指的是在人工智能领域中，特别是机器学习和深度学习范畴内，具有巨大参数量和复杂结构的模型。这些模型通过使用大规模数据集和先进的计算硬件进行训练，能够学习到数据中的复杂模式和特征，从而在多种任务上展现出卓越的性能。特点包括：参数量大：AI大模型的参数数量往往达到
深度学习：从基础到实践（上、下册）(安德鲁·格拉斯纳) fyjgfyjfg 深度学习人工智能
（pdf）:python33+(0m深度学习概述：深度学习是机器学习的一个分支，它试图通过使用深层神经网络来模拟人脑的学习过程。随机性与基础统计学：在深度学习中，随机性起着重要作用，了解基础统计学有助于更好地理解深度学习中的随机过程和不确定性。训练与测试：深度学习模型的训练过程包括使用训练数据来优化模型参数，而测试过程则使用测试数据来评估模型的性能。过拟合与欠拟合：过拟合是指模型在训练数据上表现过
《量子计算对人工智能发展的深远影响》 cc++人工智能深度学习
在科技发展的浪潮中，量子计算与人工智能无疑是两颗璀璨的明星，二者的融合正引领着一场深刻的科技变革.量子计算的独特之处在于其利用量子比特的叠加和纠缠特性，能够实现并行计算，从而在处理复杂问题时展现出超越传统计算的巨大潜力.这种强大的计算能力为人工智能的发展带来了诸多积极影响。加速机器学习训练机器学习，尤其是深度学习，通常需要处理海量数据和复杂的模型训练，耗时极长。量子计算的并行性可使训练过程大幅加速
2024年诺贝尔奖揭晓:机遇与挑战并存人工智能aigcopenai
ChatGPT竟然也不相信诺贝尔奖结果！2024年诺贝尔奖对科研领域来说是个重要的时刻。诺贝尔奖可谓是科学界的“奥斯卡”,每年的获奖者都会引起广泛关注。今年,瑞典皇家科学院公布,约翰·J·霍普菲尔德和杰弗里·E·辛顿荣获诺贝尔物理学奖,这个消息让不少人感到惊讶。诺贝尔物理学奖:意外的突破一次颁奖的震撼诺贝尔奖的官方网站指出,霍普菲尔德和辛顿因其在人工神经网络和机器学习领域的基础性研究而获奖。他们的
ChatRec的实践：交互式推荐系统的进步 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
交互式推荐系统，Chat-Rec，对话推荐，自然语言处理，机器学习，用户行为分析，个性化推荐1.背景介绍推荐系统作为互联网时代的重要技术支柱，在电商、社交媒体、内容平台等领域发挥着至关重要的作用。传统的推荐系统主要依赖于用户历史行为数据，例如浏览记录、购买历史等，通过协同过滤、内容过滤等算法，预测用户潜在的兴趣并提供个性化推荐。然而，随着用户需求的不断变化和个性化的程度不断提高，传统的推荐系统面临
AI如何帮助电商企业进行数据分析 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
电商数据分析，人工智能，机器学习，深度学习，推荐系统，预测模型，客户画像1.背景介绍在当今数字化时代，电商行业蓬勃发展，数据成为企业最重要的资产。电商企业每天都会产生海量的数据，包括用户行为、商品信息、交易记录等。如何有效地分析这些数据，挖掘其中的价值，对于电商企业的运营、营销和发展至关重要。传统的数据分析方法往往难以应对海量数据的处理和复杂分析需求，而人工智能（AI）技术的出现为电商数据分析带来
神经架构搜索在大模型效率优化中的应用 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
神经架构搜索，大模型，效率优化，自动机器学习，深度学习1.背景介绍近年来，深度学习模型取得了令人瞩目的成就，在图像识别、自然语言处理、语音识别等领域展现出强大的能力。然而，随着模型规模的不断扩大，训练和部署这些大模型也带来了巨大的挑战。计算资源消耗巨大:大模型的训练需要大量的计算资源，例如高性能GPU和TPU，这导致训练成本高昂，难以普及。内存占用量大:大模型的参数量庞大，需要大量的内存进行存储和
机器学习——逻辑回归口_天_光健 python 机器学习逻辑回归
逻辑回归技术文档目录简介逻辑回归的基本概念逻辑回归的数学原理逻辑回归的实现步骤代码示例逻辑回归的应用逻辑回归的优化方法逻辑回归的局限性逻辑回归的扩展与变体逻辑回归与其他算法的对比总结简介逻辑回归（LogisticRegression）是一种广泛应用于分类问题的统计方法。尽管名字中有“回归”二字，但逻辑回归实际上是一种分类算法，主要用于二分类问题，但也可以通过扩展用于多分类问题。逻辑回归通过使用逻辑
【机器学习：十五、神经网络的编译和训练】 KeyPan 机器学习机器学习神经网络人工智能深度学习 pytorch ubuntu linux
1.TensorFlow实现代码TensorFlow是深度学习中最为广泛使用的框架之一，提供了灵活的接口来构建、编译和训练神经网络。以下是实现神经网络的一个完整代码示例，以“手写数字识别”为例：importtensorflowastffromtensorflow.kerasimportlayers,models#加载MNIST数据集(x_train,y_train),(x_test,y_test)
【机器学习：十六、其他的激活函数】 KeyPan 机器学习机器学习人工智能算法服务器运维 ubuntu
1.Sigmoid激活函数的替代方案Sigmoid激活函数在神经网络中曾广泛使用，其数学公式为：σ(x)=11+e−x\sigma(x)=\frac{1}{1+e^{-x}}σ(x)=1+e−x1输出范围为(0,1)，适合二分类问题。但随着深度学习的发展，Sigmoid函数逐渐被替代，主要原因包括：梯度消失问题：当输入绝对值较大时，梯度趋近于零，导致权重更新困难。非零中心问题：输出值始终为正，可能
211本硕二战腾讯大模型算法岗，已凉...... AI大模型入门算法阿里云人工智能云计算目标跟踪
01背景本弱鸡211本硕，nlp，无论文有实习（老板没资源且放养），本科有acm经历（1铜），面试pcg日常实习。02技术一面（时长1h）Q1：了解什么机器学习算法，讲一下原理？当时只记得实体识别用到了隐马尔可夫模型，讲了讲怎么怎么定义观测状态和隐藏状态、前向传播、解码和应用场景。Q2：讲一下Bert的结构和怎么训练的，怎么用bert做下游任务？八股，双向transformerencoder结构，
诺贝尔物理学奖新视野：机器学习与神经网络的璀璨华章青云交大数据新视界 #AI AI&人工智能机器学习神经网络人工智能诺贝尔物理学奖应用实例未来展望传统物理学
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
PHP 与 AI 的强力组合，PHP 如何积极拥抱 AI 的 Ai 编码 Ai编码工具 idea插件 php教程 php 人工智能开发语言
PHP与AI的结合正在成为开发者探索的一个新领域。虽然PHP传统上并不是人工智能和机器学习应用的首选语言，但通过现代工具和技术的结合，PHP已经能够积极拥抱AI，推动创新和应用开发。点击：phpstorm里的JetBrainsAI有哪些好用的功能以下是几种方法和实践，通过它们PHP可以与AI强力结合。1.集成现有的AI服务和API对于很多开发者来说，最简单的方法是通过集成现有的AI服务和API。
应急救援路径规划中的蚁群算法与路径评价研究【附代码】拉勾科研工作室算法
数据科学与大数据专业|数据分析与模型构建|数据驱动决策✨专业领域：数据挖掘与清洗大数据处理与存储技术机器学习与深度学习模型数据可视化与报告生成分布式计算与云计算数据安全与隐私保护擅长工具：Python/R/Matlab数据分析与建模Hadoop/Spark大数据处理平台SQL数据库管理与优化Tableau/PowerBI数据可视化工具TensorFlow/PyTorch深度学习框架✅具体问题可以私
2024年大数据最全【ES专题】ElasticSearch集群架构剖析_es集群 kenzsoft 程序员大数据 elasticsearch 架构
IngestNode：数据前置处理转换节点，支持pipeline管道设置，可以使用ingest对数据进行过滤、转换等操作MachineLearningNode：负责跑机器学习的Job，用来做异常检测TribeNode：TribeNode连接到不同的Elasticsearch集群，并且支持将这些集群当成一个单独的集群处理以下是一个多集群业务架构图：1.2.1.1MasterNode主节点的功能Mas
大数据新视界 --大数据大厂之 Kubeflow 在大数据与机器学习融合中的应用探索青云交大数据新视界 Kubeflow 之道 Kubeflow 大数据机器学习模型训练数据处理资源利用应用案例
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。

【2 - 随机森林 - 案例部分：随机森林在乳腺癌数据上的调参】菜菜sklearn机器学习

机器学习中调参的基本思想

（一）泛化误差

（二）偏差（bias）-方差（variance）困境

案例：随机森林在乳腺癌数据上的调参

（一）导入需要的库

（二）导入数据集，探索数据

（三）进行一次简单的建模，看看模型本身在数据集上的效果

（四）随机森林调整的第一步：无论如何先来调n_estimators

（五）在确定好的范围内，进一步细化学习曲线

（六）为网格搜索做准备，书写网格搜索的参数

（七）开始按照参数对模型整体准确率的影响程度进行调参，首先调整max_depth

（八）调整max_features

（九）调整min_samples_leaf

（十）调整min_samples_split

（十一）尝试一下criterion

（十二）调整完毕，总结出模型的最佳参数

Bagging vs Boosting

你可能感兴趣的:(机器学习,sklearn,随机森林)