虚心求知的熊

Lesson 9.1 集成学习的三大关键领域、Bagging 方法的基本思想和 RandomForestRegressor 的实现

文章目录

一、集成学习的三大关键领域
二、Bagging 方法的基本思想
三、RandomForestRegressor 的实现

在开始学习之前，先导入我们需要的库，并查看库的版本。

import numpy as np
import pandas as pd
import sklearn
import matplotlib as mlp
import seaborn as sns
import re, pip, conda

for package in [sklearn,mlp,np,pd,sns,pip,conda]:
    print(re.findall("([^']*)",str(package))[2],package.__version__)
#sklearn 1.0.1
#matplotlib 3.4.3
#numpy 1.20.3
#pandas 1.3.4
#seaborn 0.11.2
#pip 21.3.1
#conda 4.10.3

如果有缺少的库或者库的版本比较落后可以采用如下的代码进行下载更新。

#下载
pip install --upgrade scikit-learn
#更新
conda update scikit-learn

一、集成学习的三大关键领域

集成学习（Ensemble learning）是机器学习中最先进、最有效、最具研究价值的领域之一，这类方法会训练多个弱评估器（base estimators）、并将它们输出的结果以某种方式结合起来解决一个问题。
在过去十年中，人工智能相关产业蓬勃发展，计算机视觉、自然语言处理、语音识别等领域不断推陈出新、硕果累累，但热闹是深度学习的，机器学习好似什么也没有。2012 年之后，传统机器学习占据的搜索、推荐、翻译、各类预测领域都被深度学习替代或入侵，在招聘岗位中，69% 的岗位明确要求深度学习技能，传统机器学习算法在这一场轰轰烈烈的人工智能热潮当中似乎有些被冷落了。
在人工智能大热的背后，集成学习就如同裂缝中的一道阳光，凭借其先进的思想、优异的性能杀出了一条血路，成为当代机器学习领域中最受学术界和产业界青睐的领域。
从今天的眼光来看，集成学习是：
（1）当代工业应用中，唯一能与深度学习算法分庭抗礼的算法；
（2）数据竞赛高分榜统治者，KDDcup、Kaggle、天池、DC 冠军队御用算法；
（3）在搜索、推荐、广告等众多领域，事实上的工业标准和基准模型；
（4）任何机器学习/深度学习工作者都必须掌握其原理、熟读其思想的领域。
在集成学习的发展历程中，集成的思想以及方法启发了众多深度学习和机器学习方面的工作，在学术界和工业界都取得了巨大的成功。今天，集成学习可以被分为三个主要研究领域：
-（1）模型融合。
模型融合在最初的时候被称为分类器结合，这个领域主要关注强评估器，试图设计出强大的规则来融合强分类器的结果、以获取更好的融合结果。这个领域的手段主要包括了投票法 Voting、堆叠法 Stacking、混合法 Blending等，且被融合的模型需要是强分类器。
模型融合技巧是机器学习/深度学习竞赛中最为可靠的提分手段之一，常言道：当你做了一切尝试都无效，试试模型融合。
（2）弱分类器集成。
弱分类器集成主要专注于对传统机器学习算法的集成，这个领域覆盖了大部分我们熟悉的集成算法和集成手段，如装袋法 bagging，提升法 boosting。这个领域试图设计强大的集成算法、来将多个弱学习器提升成为强学习器。
（3）混合专家模型（mixture of experts）。
混合专家模型常常出现在深度学习（神经网络）的领域。在其他集成领域当中，不同的学习器是针对同一任务、甚至在同一数据上进行训练。
但在混合专家模型中，我们将一个复杂的任务拆解成几个相对简单且更小的子任务，然后针对不同的子任务训练个体学习器（专家），然后再结合这些个体学习器的结果得出最终的输出。

二、Bagging 方法的基本思想

Bagging又称为装袋法，它是所有集成学习方法当中最为著名、最为简单、也最为有效的操作之一。
在 Bagging 集成当中，我们并行建立多个弱评估器（通常是决策树，也可以是其他非线性算法），并综合多个弱评估器的结果进行输出。
当集成算法目标是回归任务时，集成算法的输出结果是弱评估器输出的结果的平均值，当集成算法的目标是分类任务时，集成算法的输出结果是弱评估器输出的结果少数服从多数。
举例来说，假设现在一个 bagging 集成算法当中有 7 个弱评估器，对任意一个样本而言，输出的结果如下：

#分类的情况：输出7个弱评估器上的分类结果（0，1，2）
r_clf = np.array([0,2,1,1,2,1,0])

b_result_clf = np.argmax(np.bincount(r_clf))

b_result_clf #集成算法在现在的样本上应该输出的类别
#1

bincount 会先将 array 由小到大进行排序，然后对每个数值进行计数，并返回计数结果的函数。需要注意的是，bincount 函数不能接受负数输入。
argmax 是找到 array 中最大值，并返回最大值索引的函数。

np.bincount(r_clf) #0类2个，1类3个，2类2个
#array([2, 3, 2], dtype=int64)

np.bincount([3,0,2,1,1,2,1,0]) #0类2个，1类3个，2类2个，3类1个
#array([2, 3, 2, 1], dtype=int64)

np.argmax(np.array([2, 3, 2]))
#不难发现，其返回的就是少数服从多数后数量最多的类别
#1

#如果是二分类，涉及到有一些负数类别的，可以使用如下代码
r_clf = np.array([1,1,1,-1,-1,-1,-1])
(r_clf == 1).sum() #整个集成算法当中，输出为1的弱分类器的数量
#3

(r_clf == -1).sum()
#4

b_result_clf = 1 if (r_clf == 1).sum() > (r_clf != 1).sum() else -1
b_result_clf
#-1

#如果评估器的数量是偶数，而少数和多数刚好一致怎么办？
r_clf = np.array([1,1,1,0,0,0,2,2])

从数量一致的类别中随机返回一个类别（需要进行随机设置）。
从数量一致的类别中，返回编码数字更小的类别（如果使用 argmax 函数）。

#回归的情况：输出7个弱评估器上的回归结果
r_reg = np.array([-2.082, -0.601, -1.686, -1.001, -2.037, 0.1284, 0.8500])
b_result_reg = r_reg.mean()
b_result_reg
#-0.9183714285714285

在 sklearn 当中，我们可以接触到两个 Bagging 集成算法，一个是随机森林（RandomForest），另一个是极端随机树（ExtraTrees），他们都是以决策树为弱评估器的有监督算法，可以被用于分类、回归、排序等各种任务。
同时，我们还可以使用 bagging 的思路对其他算法进行集成，比如使用装袋法分类的类 BaggingClassifier 对支持向量机或逻辑回归进行集成。在课程当中，我们将重点介绍随机森林的原理与用法。

Bagging算法	集成类
随机森林分类	RandmForestClassifier
随机森林回归	RandomForestRegressor
极端随机树分类	ExtraTreesClassifier
极端随机树回归	ExtraTreesRegressor
装袋法分类	BaggingClassifier
装袋法回归	BaggingRegressor

三、RandomForestRegressor 的实现

随机森林是机器学习领域最常用的算法之一，其算法构筑过程非常简单：从提供的数据中随机抽样出不同的子集，用于建立多棵不同的决策树，并按照 Bagging 的规则对单棵决策树的结果进行集成（回归则平均，分类则少数服从多数）。
只要你充分掌握了决策树的各项属性和参数，随机森林的大部分内容都相当容易理解。
虽然原理上很简单，但随机森林的学习能力异常强大、算法复杂度高、又具备一定的抗过拟合能力，是从根本上来说比单棵决策树更优越的算法。
即便在深入了解机器学习的各种技巧之后，它依然是我们能够使用的最强大的算法之一。原理如此简单、还如此强大的算法在机器学习的世界中是不常见的。在机器学习竞赛当中，随机森林往往是我们在中小型数据上会尝试的第一个算法。
在 sklearn 中，随机森林可以实现回归也可以实现分类。随机森林回归器由类 sklearn.ensemble.RandomForestRegressor 实现，随机森林分类器则有类 sklearn.ensemble.RandomForestClassifier 实现。
我们可以像调用逻辑回归、决策树等其他 sklearn 中的算法一样，使用“实例化、fit、predict/score”三部曲来使用随机森林，同时我们也可以使用 sklearn 中的交叉验证方法来实现随机森林。其中回归森林的默认评估指标为 R2，分类森林的默认评估指标为准确率。
随机森林回归器实现模板如下：

class sklearn.ensemble.RandomForestRegressor(n_estimators=100, *, criterion='squared_error', max_depth=None, min_samples_split=2,
min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, min_impurity_decrease=0.0, 
bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, ccp_alpha=0.0, max_samples=None)

随机森林分类器实现模板如下：

class sklearn.ensemble.RandomForestClassifier(n_estimators=100, *, criterion='gini', max_depth=None, min_samples_split=2,
min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, min_impurity_decrease=0.0,
bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None, ccp_alpha=0.0, 
max_samples=None)

不难发现，随机森林回归器和分类器的参数高度一致，因此我们只需要讲解其中一个类即可。任意集成算法在发源时都是回归类算法，因此我们的重点将会放在回归类算法上。
随机森林有大量的参数，幸运的是，随机森林中所有参数都有默认值，因此即便我们不学习任何参数，也可以调用随机森林算法。我们先来建一片森林看看吧：
先导入必要的库。

import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestRegressor as RFR
from sklearn.tree import DecisionTreeRegressor as DTR
from sklearn.model_selection import cross_validate, KFold

这里有几点需要注意：
（1）这里我们不再使用 cross_val_score，转而使用能够输出训练集分数的 cross_validate；
（2）决策树本身就是非常容易过拟合的算法，而集成模型的参数量/复杂度很难支持大规模网格搜索，因此对于随机森林来说，一定要关注算法的过拟合情况。
首先，我们先读入待操作的数据集，并通过 head() 函数读取其中的前五行数据。

data = pd.read_csv(r"D:\Pythonwork\2021ML\PART 2 Ensembles\datasets\House Price\train_encode.csv",index_col=0)
data.head()
#Id	住宅类型	住宅区域	街道接触面积(英尺)	住宅面积	街道路面状况	巷子路面状况	住宅形状(大概)	住宅现状	水电气	...	泳池面积	泳池质量	篱笆质量	其他配置	其他配置的价值	销售月份	销售年份	销售类型	销售状态	SalePrice
#0	0.0	5.0	3.0	36.0	327.0	1.0	0.0	3.0	3.0	0.0	...	0.0	0.0	0.0	0.0	0.0	1.0	2.0	8.0	4.0	208500
#1	1.0	0.0	3.0	51.0	498.0	1.0	0.0	3.0	3.0	0.0	...	0.0	0.0	0.0	0.0	0.0	4.0	1.0	8.0	4.0	181500
#2	2.0	5.0	3.0	39.0	702.0	1.0	0.0	0.0	3.0	0.0	...	0.0	0.0	0.0	0.0	0.0	8.0	2.0	8.0	4.0	223500
#3	3.0	6.0	3.0	31.0	489.0	1.0	0.0	0.0	3.0	0.0	...	0.0	0.0	0.0	0.0	0.0	1.0	0.0	8.0	0.0	140000
#4	4.0	5.0	3.0	55.0	925.0	1.0	0.0	0.0	3.0	0.0	...	0.0	0.0	0.0	0.0	0.0	11.0	2.0	8.0	4.0	250000
#5 rows × 81 columns

可以通过 shape 函数得到数据的行列数量信息。

data.shape
#(1460, 81)

随后对 X 和 y 进行设定，并操作。

X = data.iloc[:,:-1]
y = data.iloc[:,-1]

y #注意，y的类型是整数型，并且y的均值很大，可想而知整体的MSE一定会很大
#0       208500
#1       181500
#2       223500
#3       140000
#4       250000
#         ...  
#1455    175000
#1456    210000
#1457    266500
#1458    142125
#1459    147500
#Name: SalePrice, Length: 1460, dtype: int64

y.mean()
#180921.19589041095

X.shape
#(1460, 80)

X.columns.tolist()
#['Id',
# '住宅类型',
# '住宅区域',
# '街道接触面积(英尺)',
# '住宅面积',
# '街道路面状况',
# '巷子路面状况',
# '住宅形状(大概)',
# '住宅现状',
# '水电气',
# '住宅配置',
# '住宅视野',
# '社区',
# '住宅周边1',
# '住宅周边2',
# '适用家庭',
# '住宅房型',
# '装修质量',
# '整体质量',
# '建造年份',
# '法律拆除年份',
# '天花板类型',
# '天花板材料',
# '户外装饰1',
# '户外装饰2',
# '砖墙类型',
# '砖墙面积',
# '户外材料质量',
# '户外装修质量',
# '地下室类型',
# '地下室深度',
# '地下室质量',
# '花园外墙',
# '地下室现状1',
# '地下室一层标准面积',
# '地下室现状2',
# '地下室二层标准面积',
# '地下室建造现状',
# '整体地下室面积',
# '暖气类型',
# '暖气质量',
# '中央空调',
# '电力系统',
# '二楼面积',
# '三楼面积',
# '全低质量面积',
# '户外活动空间面积',
# '全卫地下室',
# '半卫地下室',
# '全卫及以上',
# '半卫及以上',
# '卧室及以上',
# '厨房及以上',
# '厨房质量',
# '总房间量',
# '住宅性能',
# '壁炉数量',
# '壁炉质量',
# '车库类型',
# '车库建造时间',
# '车库装修现状',
# '车位数量',
# '车库面积',
# '车库质量',
# '车库现状',
# '石板路',
# '木板面积',
# '开放式门廊面积',
# '关闭式门廊面积',
# '三季门廊面积',
# '半开放式门廊面积',
# '泳池面积',
# '泳池质量',
# '篱笆质量',
# '其他配置',
# '其他配置的价值',
# '销售月份',
# '销售年份',
# '销售类型',
# '销售状态']

reg_f = RFR() #实例化随机森林
reg_t = DTR() #实例化决策树
cv = KFold(n_splits=5,shuffle=True,random_state=1412) #实例化交叉验证方式

与 sklearn 中其他回归算法一样，随机森林的默认评估指标是 R2，但在机器学习竞赛、甚至实际使用时，我们很少使用损失以外的指标对回归类算法进行评估。对回归类算法而言，最常见的损失就是 MSE。

cross_validate	参数
n_jobs	允许该程序调用的线程数
verbose	是否打印进度

result_t = cross_validate(reg_t #要进行交叉验证的评估器
                          ,X,y #数据
                          ,cv=cv #交叉验证模式
                          ,scoring="neg_mean_squared_error" #评估指标
                          ,return_train_score=True #是否返回训练分数
                          ,verbose=True #是否打印进程
                          ,n_jobs=-1 #线程数
                         )
#[Parallel(n_jobs=-1)]: Using backend LokyBackend with 16 concurrent workers.
#[Parallel(n_jobs=-1)]: Done   5 out of   5 | elapsed:    1.2s finished

你知道如何查看自己计算机的线程数吗？

result_f = cross_validate(reg_f,X,y,cv=cv,scoring="neg_mean_squared_error"
                          ,return_train_score=True
                          ,verbose=True
                          ,n_jobs=-1)
#[Parallel(n_jobs=-1)]: Using backend LokyBackend with 16 concurrent workers.
#[Parallel(n_jobs=-1)]: Done   5 out of   5 | elapsed:    2.1s finished

result_t #超级过拟合
#{'fit_time': array([0.0220046 , 0.0220046 , 0.0220046 , 0.02100563, 0.02100468]),
# 'score_time': array([0.00199962, 0.00199938, 0.00199938, 0.00199914, 0.00200129]),
# 'test_score': array([-1.13534182e+09, -3.41485921e+09, -1.67088861e+09, -1.67895115e+09,
#        -1.59034213e+09]),
# 'train_score': array([-0., -0., -0., -0., -0.])}

result_f #训练集和测试在交叉验证上的分数差异更小，因此森林的过拟合程度没有决策树高
#{'fit_time': array([1.31684232, 1.19581604, 1.27883458, 1.29583764, 1.21081877]),
# 'score_time': array([0.01100278, 0.01100206, 0.01100206, 0.01100278, 0.0110023 ]),
# 'test_score': array([-7.66379839e+08, -2.01798504e+09, -7.66327398e+08, -4.90163166e+08,
#        -9.88309425e+08]),
# 'train_score': array([-1.27164348e+08, -1.09165780e+08, -1.34679785e+08, -1.39727005e+08,
#        -1.19699899e+08])}

在集成学习中，我们衡量回归类算法的指标一般是 RMSE（根均方误差），也就是 MSE 开根号后的结果。现实数据的标签往往数字巨大、数据量庞杂，MSE 作为平方结果会放大现实数据上的误差（例如随机森林结果中得到的，7∗108 等结果。
，因此我们会对平房结果开根号，让回归类算法的评估指标在数值上不要过于夸张。同样的，方差作为平方结果，在现实数据上也会太大，因此如果可以，我们使用标准差进行模型稳定性的衡量。

trainRMSE_f = abs(result_f["train_score"])**0.5
testRMSE_f = abs(result_f["test_score"])**0.5
trainRMSE_t = abs(result_t["train_score"])**0.5
testRMSE_t = abs(result_t["test_score"])**0.5
trainRMSE_f.mean()
#11218.296933940535
testRMSE_f.mean()
#30773.03828921106

trainRMSE_f.std() #方差数额太大，使用标准差
#487.0084587022606

#默认值下随机森林的RMSE与标准差std
xaxis = range(1,6)
plt.figure(figsize=(8,6),dpi=80)
#RMSE
plt.plot(xaxis,trainRMSE_f,color="green",label = "RandomForestTrain")
plt.plot(xaxis,testRMSE_f,color="green",linestyle="--",label = "RandomForestTest")
plt.plot(xaxis,trainRMSE_t,color="orange",label = "DecisionTreeTrain")
plt.plot(xaxis,testRMSE_t,color="orange",linestyle="--",label = "DecisionTreeTest")
plt.xticks([1,2,3,4,5])
plt.xlabel("CVcounts",fontsize=16)
plt.ylabel("RMSE",fontsize=16)
plt.legend()
plt.show()

其中，横坐标表示交叉验证次数，纵坐标表示 RMSE 数值。
从图像来看，森林与决策树都处于过拟合状态，不过森林的过拟合程度较轻，决策树的过拟合程度较强。两个算法在训练集上的结果都比较优秀，决策树的可以完美学习训练集上的内容，达到 RMSE=0 的程度。
而随机森林在训练集上的 RMSE 大约在 1w 上下徘徊，测试集上的结果则是随机森林更占优。可见，与填写的参数无关，随机森林天生就是比决策树更不容易过拟合、泛化能力更强的。

通达信实时行情API的功能有哪些？如何利用这些功能进行股票分析股票程序化交易接口量化交易股票API接口 Python股票量化交易通达信实时行情api 股票分析行情数据股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>行情数据获取功能通达信实时行情API能够提供全面的行情数据。它可以获取股票的基本信息，如股票代码、名称等。能精确提供股票的实时价格，包括当前价、开盘价、收盘价等重要价格数据。这些数据是进行股票分析的基础。投资者可以根据当前价与开盘价的
Python项目之Pygame制作新年烟花！ WANGWUSAN66 pygame python 开发语言计算机经验分享源码
实现源码涉及到两个Python库：random和pygame。1.random库：randint(a,b)：返回一个在[a,b]范围内的随机整数。uniform(a,b)：返回一个在[a,b]范围内的随机浮点数。choice(sequence)：从给定的序列中随机选择一个元素。2.Pygame是一个用于制作游戏的Python模块，它包含了许多用于游戏开发和图形渲染的功能。以下是Pygame的一些主
python爬虫框架Scrapy简介码农~明哥 python python 爬虫 scrapy
当你写了很多个爬虫程序之后，你会发现每次写爬虫程序时，都需要将页面获取、页面解析、爬虫调度、异常处理、反爬应对这些代码从头至尾实现一遍，这里面有很多工作其实都是简单乏味的重复劳动。那么，有没有什么办法可以提升我们编写爬虫代码的效率呢？答案是肯定的，那就是利用爬虫框架，而在所有的爬虫框架中，Scrapy应该是最流行、最强大的框架。Scrapy概述Scrapy是基于Python的一个非常流行的网络爬虫
【算法】经典博弈论问题——斐波那契博弈 + Zeckendorf 定理 python 查理零世算法 python 数据结构
目录斐波那契博弈（FibonacciNim）齐肯多夫（Zeckendorf）定理示例分析实战演练斐波那契博弈（FibonacciNim）先说结论：当初始石子数目n是斐波那契数时，先手必败；否则，先手有策略获胜。证明概要:当n=2时，先手只能取1颗石子，后手直接取剩下的1颗石子获胜，因此先手必败。假设对于所有小于等于某个斐波那契数f[k]的情况，结论都成立。归纳：对于f[k+1]=f[k]+f[k-
用 Python 实现经典的 2048 游戏：一步步带你打造属于你的小游戏！一位小说男主 python python 游戏
用Python实现经典的2048游戏：一步步带你打造属于你的小游戏！（结尾附完整代码）简介2048是一个简单而又令人上瘾的数字拼图游戏。玩家通过滑动方块使相同数字的方块合并，目标是创造出数字2048！在这篇博客中，我们将用Python的Tkinter库从零开始实现这款游戏，涵盖从界面设计到逻辑实现的每一个细节，帮助你全面了解背后的开发思路。游戏特点经典玩法：滑动合并相同数字，尽可能达到2048。随
Python跨年烟花代码花洵琴
Python跨年烟花代码【下载地址】Python跨年烟花代码分享本资源文件提供了一个使用Python编写的跨年烟花代码，代码中使用了`pygame`、`random`和`math`库来实现烟花的模拟效果。代码中定义了三个类：`Firework`、`Particle`和`Trail`，分别代表烟花、烟花中的颗粒以及颗粒的轨迹点项目地址:https://gitcode.com/open-source-
Python web框架——Django xiabe python python django web开发
简介django是一个免费的开源的pythonweb框架。它遵循了model-view-template（MVT）的架构模式。由DjangoSoftwareFoundation维护，一个以501©(3)非营利组织形式成立的独立组织。django的主要目标是简单的去开发一个复杂的数据库驱动的网站。该框架强调组件的可重用性和“可插拔性”、代码更少、低耦合、快速开发以及“不要重复自己”的原则。Pytho
python 建立并使用 venv 波格斯特问题备忘 python 开发语言
python建立并使用venv[smf@5GC-10mmlShell]$python3-mvenv./.venv[smf@5GC-10mmlShell]$source./.venv/bin/activate(.venv)[smf@5GC-10mmlShell]$(.venv)[smf@5GC-10mmlShell]$(.venv)[smf@5GC-10mmlShell]$pip3installre
Tensorflow入门——训练结果的保存与加载 weixin_34087301 人工智能 python 数据库
2019独角兽企业重金招聘Python工程师标准>>>训练完成以后我们就可以直接使用训练好的模板进行预测了但是每次在预测之前都要进行训练，不是一个常规操作，毕竟有些复杂的模型需要训练好几天甚至更久所以将训练好的模型进行保存，当有需要的时候重新加载这个模型进行预测或者继续训练，这才是一个常规操作我们依然使用最简单的例子进行说明，这里沿用Tensorflow入门——实现最简单的线性回归模型的预测这个例
【Python学习】网络爬虫-获取京东商品评论并制作柱状图西攻城狮北 Python实用案例学习 python 爬虫京东评论柱状图
一、实现目标获取京东网站上商品的评论统计数据，并使用该数据制作了一个简单的柱状图。二、实现步骤2.1网页分析首先打开链接https://www.jd.com/。在搜索框中输入巧克力关键词后，点击第一件商品打开商品网页，找到商品评价，在商品评价模块能够看到用户选择的评论标签。由于该商品的全部用户评论有50万+，数据量较大。我们需要收集商品特点，所以我们选择对评价标签进行分析。打开https://it
python弹窗（tkinter库）：在弹窗中放置图片的两种方法独白不白 python 开发语言
我了解到的方法有两种，但无一例外，重点都是将图片转化成PhotoImage的形式，然后才能在弹窗中显示。相当于PhotoImage是tkinter库导出图片的专属格式。方法1基础写法：首先把gif格式的图片转化成PhotoImage形式，再利用Label导出。importtkinterastkroot=tk.Tk()a=tk.Frame(root)a.pack()b=tk.PhotoImage(f
爬虫实战--- （6）链家房源数据爬取与分析可视化 rain雨雨编程爬虫实战系列 python 爬虫数据分析
文章持续跟新，可以微信搜一搜公众号[rain雨雨编程]，第一时间阅读，涉及数据分析，机器学习，Java编程，爬虫，实战项目等。目录前言1.爬取目标2.所涉及知识点3.步骤分析（穿插代码讲解）步骤一：发送请求步骤二：获取数据步骤三：解析数据步骤四：保存数据4.爬取结果5.完整代码6数据可视化前言今天我将为大家分享一个非常实用的Python项目——链家房源数据的爬取与分析可视化。在这篇文章中，我们将分
Python 项目国际化：使用 Babel 实现多语言支持衫水 python进阶 python
文章目录如何使用Babel实现Python项目国际化1.安装Babel2.设置项目目录结构3.标记可翻译的文本4.提取可翻译的文本生成文件——生成pot文件4.1有配置文件方式（使用`babel.cfg`）4.1.1.创建`babel.cfg`文件4.1.2.提取翻译内容4.2无配置文件方式（直接指定文件路径）5.后续步骤（通用步骤）5.1.初始化翻译文件——生成po文件5.2.编辑po文件5.3
python创建虚拟环境 k47 python python linux 开发语言
python创建虚拟环境准备工作python3.8.8(python3.3以上自带venv模块)环境windows10步骤在D盘创建文件夹Env进入Env文件夹执行命令：python-mvenvtest_env(这里名称自己填)进入上一步创建的文件夹内，并进入scripts文件夹下执行命令进入虚拟环境：.\activatecmd命令窗口前面出现（你自己写的名称）就成功了退出虚拟环境deactiva
查找地理处理工具 pianmian1 arcgis
操作方法:1.在arcmap中打开目标地图2.单机Geoprocessing菜单,选择SearchForTools,打开Search窗口3.在搜索文本框中输入Clip,当开始输入这个单词时,搜索文本框会根据用户输入的字母自动匹配搜索结果4.单机Search按钮,即可生成一个匹配的工具列表.在搜索结果中,锤子图标表示工具,卷轴图标表示python脚本,含有彩色方格的表示模型5.选择Clip工具,将打
关于python语言程序设计课本的总结 pianmian1 python 开发语言
不知不觉就学完了整本书.今天来总结一下内容吧.目录第一章:程序设计基本方法;第二章:python语言基本语法元素第三章:基本数据类型第四章:程序的控制结构第五章:函数和代码复用第一章:程序设计基本方法;本章讲述了程序设计的基本语言概述与python语言特点.讲述了如何正确安装python程序.介绍了python语言的优点:语法简介,生态丰富,多语言集成,平台无关,强制可读,支持中文,模式多样等.并
ArcGis批量导出地图杨汶达@ ArcGis arcgis
ArcGIS软件从诞生之日起就引领着地理信息系统技术的潮流，极大地提高了制图的质量和效率，目前可以满足大多数用户的需求。但是在具有部分行业特色或存在大量重复工作的应用需求中，仅凭ArcGIS软件来完成制图工作不仅费时费力，而且工作量可能超过了可承受范围。因此，通过编程来实现自动化制图技术，则可以起到事半功倍的效果。以林地征占用项目使用林地现状图制图为例，介绍如何使用Python编写代码，利用Arc
使用scikit-learn实现线性回归对自定义数据集进行拟合 Luzem0319 scikit-learn 线性回归 python
1.引入必要的库首先，需要引入必要的库。scikit-learn提供了强大的机器学习工具，pandas和numpy则用于数据处理，matplotlib用于结果的可视化。importpandasaspdimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.linear_modelimportLinear
python3+TensorFlow 2.x（四）反向传播刀客123 python学习 tensorflow 人工智能 python
目录反向传播算法反向传播算法基本步骤：反向中的参数变化总结反向传播算法反向传播算法（Backpropagation）是训练人工神经网络时使用的一个重要算法，它是通过计算梯度并优化神经网络的权重来最小化误差。反向传播算法的核心是基于链式法则的梯度下降优化方法，通过计算误差对每个权重的偏导数来更新网络中的参数。反向传播算法基本步骤：前向传播：将输入数据传递通过神经网络的各层，计算每一层的输出。计算损失
Python pdf转word 树上灵溪 python
最新在翻译英文文档，但都是pdf的，有点不方便，花了点时间做了一个小工具，分享一下，希望对大家有所帮助。这里录了一个视频传到B站了，比较详细可以看一下：传送门。最终结果是生成了一个可执行文件，可以批量转换文件夹中的pdf文件，包含图片和简单的格式转换（复杂的就不用考虑自己搞了QAQ）下面简单描述一下大概思路：1.引用pdf2docx库：frompdf2docximportConverter2.找到
Python SQLAlchemy库详解寒秋丶 Python python 开发语言数据库测试开发软件测试软件开发自动化测试
大家好，在Python生态系统中，SQLAlchemy库是一个强大的工具，为开发人员提供了便捷的方式来处理与数据库的交互。无论是开发一个小型的Web应用程序，还是构建一个大型的企业级系统，SQLAlchemy都能满足你的需求，并提供灵活性和性能上的优势。本文将带你深入探索SQLAlchemy库，从基础概念到高级用法，让你对其有一个全面的了解。一、介绍SQLAlchemy是Python中一个强大的开
三种国产大语言模型Python免费调用小软件大世界 python 人工智能
基础三大模型，需要先去官方注册获得key；后续可以使用下列代码调用1.腾讯安装：pip install -i https://mirrors.tencent.com/pypi/simple/ --upgrade tencentcloud-sdk-python实例：importjsonimporttypesfromtencentcloud.commonimportcredentialfromtenc
Flask教程5：flask数据库SQLAlchemy Cachel wood Flask入门教程数据库 flask oracle python 阿里云开发语言 LLM
文章目录SQLAlchemy为什么使用ORM初始化数据库配置表模型的定义与数据库映射数据的增、删、改、查操作数据的添加数据的查找数据的修改数据的删除init_app作用详解SQLAlchemySQLAlchemy是一个基于Python实现的ORM(ObjectRelationalMapping，对象关系映射）框架。该框架建立在DBAPI(数据库应用程序接口系统)之上，使用关系对象映射进行数据库操作
python对word文档与PDF的操作深海里的盐汽水 python
python操作word文档与PDF对word文档的操作在操作前需要安装第三方库pipinstallpython-docxpillow。用python创建一个word文档创建一个对象添加一个大标题添加段落保存文件fromdocximportDocumentfromdocx.sharedimportInchesfromdocx.documentimportDocumentasDoc#创建一个对象do
＜Python＞＜ffmpeg＞基于python使用PyQt5构建GUI实例：音频格式转换程序（MP3/aac/wma/flac）(优化版2) 机构师 python编程实例 python ffmpeg qt pyqt5 vscode
前言本文是基于python语言使用pyqt5来构建的GUI，功能是使用ffmpeg来对音频文件进行格式转换，如mp3、aac、wma、flac等音乐格式。UI示例：环境配置系统：windows平台：visualstudiocode语言：python库：pyqt5、ffmpeg概述本文是建立在之前的博文的基础上的优化版，前文链接：1、python使用ffmpeg来制作音频格式转换工具（优化版）2、利
第30篇：Python开发进阶：网络安全与测试猿享天开 python从入门到精通 python web安全开发语言
第30篇：网络安全与测试目录网络安全概述什么是网络安全常见的安全威胁Python中的网络安全工具常用安全库介绍安全编码实践密码学基础加密与解密哈希函数数字签名安全认证与授权用户认证访问控制OAuth与JWTWeb应用安全常见的Web安全漏洞防护措施安全测试网络安全测试渗透测试自动化测试工具安全漏洞扫描使用Python进行安全测试使用Scapy进行网络嗅探使用Requests进行安全测试使用Beau
数据挖掘的常用算法北柠陌寒0207 笔记
在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。目前,在很多领域尤其
PyQt4 的图片切割编辑器烛火萤辉 Python python pyqt
一、编辑器功能明确允许用户加载图片、选择切割模式、对切割后的图片片段进行操作（如移动、复制、粘贴、删除等），并支持撤销和重做操作。环境：Py2.7PyQt4.11二、导入模块介绍sys:用于访问与Python解释器强相关的变量和函数。os:提供操作系统相关功能，如文件路径操作。random:用于生成随机数，主要用于自动保存文件名。json:用于数据序列化和反序列化，方便保存和加载编辑状态。glob
知网爬虫，作者、摘要、题目、发表期刊等主要内容的获取大懒猫软件爬虫
爬取知网内容的详细过程爬取知网内容需要考虑多个因素，包括网站的结构、反爬虫机制等。以下是一个详细的步骤和代码实现，帮助你使用Python爬取知网上的论文信息，包括作者、摘要、题目、发表期刊等主要内容。1.数据准备首先，需要准备一些基础数据，如知网的URL、请求头等。2.模型构建使用requests库发送HTTP请求，使用BeautifulSoup库解析HTML内容。如果遇到动态加载的内容，可以使用
使用Python和Flask搭建导航网站需要注意的问题有哪些？大懒猫软件 python flask 开发语言
使用Python和Flask搭建导航网站时，需要注意以下几个关键问题，以确保网站的性能、安全性和可维护性。以下是一些常见问题和建议：1.性能优化静态文件缓存：确保静态文件（如CSS、JavaScript、图片）被浏览器缓存，减少重复请求。在Nginx中配置缓存头：nginx复制location~*\.(css|js|jpg|jpeg|png|gif)${expires1d;#设置缓存有效期为1天}
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str

Lesson 9.1 集成学习的三大关键领域、Bagging 方法的基本思想和 RandomForestRegressor 的实现

文章目录

一、 集成学习的三大关键领域

二、Bagging 方法的基本思想

三、RandomForestRegressor 的实现

你可能感兴趣的:(机器学习,集成学习,python,机器学习)

一、集成学习的三大关键领域