weixin_39949584

gbdt 算法比随机森林容易_机器学习（集成算法1：随机森林分类器-红酒数据集案例、随机森林回归器-波士顿数据集填充缺失值案例）...

UCI机器学习练习数据集网站： http:// archive.ics.uci.edu/ml/ datasets/Skin+Segmentation
竞赛中备青睐的算法：随机森林、梯度提升树（GBDT）、XGBoost等集成树
集成算法应用领域：市场营销建模/统计客户来源、保留和流失/预测疾病的风险和病患者的易感性

一、知识点聚焦

1 、bagging: 随机森林分类器/随机森林回归器

【bagging使用的两个必要条件：基分类器尽量独立！弱分类器的预测准确准确率要>50% ！】

>核心思想：并行建立n个模型，通过一定策略组合合成一个强分类器（基分类器为决策树，[相关剪枝参数]）

>核心参数:

n_estimators: 基分类器的个数;
random_state: 空值森林生成的模式（注意：并不能控制森林中的每一颗树的生成模式）
booststrap: 有放回的随机抽样。默认为True（通常不会改变这个参数）
oob_score: 袋外数据可以作为测试样本，测试模型的效果（设置为True时）

>重要属性和接口

.estimators_：查看森林中每一颗树的情况
.oob_score_: 袋外数据的预测准确率
.feature_importance_: 特征重要性

>常用接口

score : 测试集的预测准确率
apply：样本在森林中的叶子节点的索引
predict：样本预测结果
fit：训练模型的接口
predict_proba: 样本被预测为不同类别的概率（随机分类器）

3、集成算法都包含哪些算法呢？

gbdt 算法比随机森林容易_机器学习（集成算法1：随机森林分类器-红酒数据集案例、随机森林回归器-波士顿数据集填充缺失值案例）..._第1张图片

二、随机森林分类器（红酒数据集案例）

随机森林是在多个决策树基分类器基础上构建的，自然模型效果要比决策树更好，当然模型越复杂意味着计算效率越低。决策树VS随机森林

#导包
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split 

#导数据集,切分数据集
wine = load_wine()
wine.data
wine.target
wine.feature_names
Xtrain, Xtest, Ytrain, Ytest = train_test_split(wine.data,wine.target,test_size=0.3)
Xtrain.shape

#对比随机森林分类器vs决策树
clf = DecisionTreeClassifier(random_state = 0)
rfc = RandomForestClassifier(random_state = 0)

clf = clf.fit(Xtrain,Ytrain)
rfc = rfc.fit(Xtrain,Ytrain)

score_c = clf.score(Xtest,Ytest)
score_r = rfc.score(Xtest,Ytest)

score_c
score_r

gbdt 算法比随机森林容易_机器学习（集成算法1：随机森林分类器-红酒数据集案例、随机森林回归器-波士顿数据集填充缺失值案例）..._第2张图片

score: 随机森林>决策树

一组样本可能说服力不大，下面看看交叉验证的结果吧~

#交叉验证
from sklearn.model_selection import cross_val_score
label = "RandomForest"
for model in [RandomForestClassifier(n_estimators=25),DecisionTreeClassifier()]:
    score = cross_val_score(model,wine.data,wine.target,cv=10)
    # print("{}:".format(label)),print(score.mean())
    print(f"{label}"),print(score.mean())
    plt.plot(range(1,11),score,label = label)
    plt.legend()
    label = "DecisionTree"

gbdt 算法比随机森林容易_机器学习（集成算法1：随机森林分类器-红酒数据集案例、随机森林回归器-波士顿数据集填充缺失值案例）..._第3张图片

交叉验证结果：随机森林>决策树

为了观察更稳定的结果，下面进行十组交叉验证

(单个决策树的准确率越高，随机森林的准确率也越高)

#十组交叉验证
rfc_l = []
clf_l = []
for i in range(10):
    rfc = RandomForestClassifier(n_estimators=25)
    rfc_s = cross_val_score(rfc,wine.data,wine.target,cv=10).mean()
    rfc_l.append(rfc_s)
    clf = DecisionTreeClassifier()
    clf_s = cross_val_score(clf,wine.data,wine.target,cv=10).mean()
    clf_l.append(clf_s)
#绘制结果曲线  
plt.plot(range(1,11),rfc_l,label = "RandomForest")
plt.plot(range(1,11),clf_l,label = "DecisionTree")
plt.legend()
plt.show()

gbdt 算法比随机森林容易_机器学习（集成算法1：随机森林分类器-红酒数据集案例、随机森林回归器-波士顿数据集填充缺失值案例）..._第4张图片

十组交叉验证：随机森林>决策树

n_estimators的学习曲线

#绘制n_estimators的学习曲线
superpa = []
for i in range(200):
    rfc = RandomForestClassifier(n_estimators=i+1)
    rfc_s = cross_val_score(rfc,wine.data,wine.target,cv=10).mean()
    superpa.append(rfc_s)
print(max(superpa),superpa.index(max(superpa)))
plt.figure(figsize=[20,5])
plt.plot(range(1,201),superpa)
plt.show()

gbdt 算法比随机森林容易_机器学习（集成算法1：随机森林分类器-红酒数据集案例、随机森林回归器-波士顿数据集填充缺失值案例）..._第5张图片

最优n_estimator = 19

思考：随机森林用了神马方法，来保证集成的效果一定好于单个分类器？

答：随机森林的本质是一种袋装算法，袋装集成算法是对基评估器的预测结果进行平均或者多数表决原则来决定集成评估器的结果。假设建立了25颗树的森林，只有当13颗以上的树判断错误时，随机森林才会判错。假如一颗树的准确率在0.85上下浮动，判错的可能性为0.25，那么13颗树判断错误的可能性为：

gbdt 算法比随机森林容易_机器学习（集成算法1：随机森林分类器-红酒数据集案例、随机森林回归器-波士顿数据集填充缺失值案例）..._第6张图片

排列组合问题

结果是比决策树小的，这也就说明随机森林判断错误的概率要比决策树小。

random_state

random_state固定时，随机森林得到一组固定的树，但每颗树是不一致的，这里的随机性是指:"随机挑选特征进行分支"。用袋装法集成时，基分类器应当是相互独立的，是不相同的。

#随机森林中的random_state控制的是生成森林的模式
rfc = RandomForestClassifier(n_estimators=20,random_state = 2)
rfc = rfc.fit(Xtrain, Ytrain)
#随机森林的重要属性之一：estimators，查看森林中树的状况
rfc.estimators_[2].random_state
#打印出森林中所有树的随机模式
for i in range(len(rfc.estimators_)):
    print(rfc.estimators_[i].random_state)

设置oob_score参数为True，使用袋外数据来做测试集

#无需划分训练集和测试集
rfc = RandomForestClassifier(n_estimators=25,oob_score=True)
rfc = rfc.fit(wine.data,wine.target)
#重要属性oob_score_
rfc.oob_score_

重要属性和接口

#大家可以分别去尝试一下这些属性和接口
rfc = RandomForestClassifier(n_estimators=25)
rfc = rfc.fit(Xtrain, Ytrain)
rfc.score(Xtest,Ytest)

rfc.feature_importances_  #接口 特征重要性
rfc.apply(Xtest)  #接口 返回预测结果在叶子节点的索引
rfc.predict(Xtest)  #接口 返回预测值
rfc.predict_proba(Xtest)  #接口 返回预测概率

决策树的预测错误率和随机森林预测错误率的关系（运行下面代码。可进行图形输出）

import numpy as np
x = np.linspace(0,1,20)
y = []
for epsilon in np.linspace(0,1,20):
    E = np.array([comb(25,i)*(epsilon**i)*((1-epsilon)**(25-i))
                  for i in range(13,26)]).sum()
    y.append(E)
#绘制图形  
plt.plot(x,y,"o-",label="when estimators are different")
plt.plot(x,x,"--",color="red",label="if all estimators are same")
plt.xlabel("individual estimator's error")
plt.ylabel("RandomForest's error")
plt.legend()
plt.show()

gbdt 算法比随机森林容易_机器学习（集成算法1：随机森林分类器-红酒数据集案例、随机森林回归器-波士顿数据集填充缺失值案例）..._第7张图片

当基分类器的预测准确率<0.5时，随机森林分类器失效

三、随机森林回归器（填充缺失值案例-波士顿数据集）

首先说明的两点是：

所有的参数，属性和接口，基本与随机森林分类器一致，仅有的不同就是回归树与分类树不同，不纯度的指标，参数Criterion不一致
随机森林回归没有predict_proba这个借口，因为对于回归来说，并不存在一个样本要被分到某个类别的概率问题

在回归树中，我们追求的是MSE越小越好，MSE是：

分枝质量衡量指标
最常用的回归树回归质量的衡量指标
交叉验证时，或者用其他方式获取回归结果时，往往选择均方误差作为我们的评估（默认是R方）

然而，回归树的接口score返回的是R方，并不是MSE

填补缺失值（波士顿数据集）

sklearn.impute.SimpleImputer来轻松地将均值，中值，或者其他最常用数值填补到数据中

#导包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_boston
from sklearn.impute import SimpleImputer # 填补缺失值，要求aklearn是20以上版本才行
from sklearn.model_selection import cross_val_score #交叉验证
from sklearn.ensemble import RandomForestRegressor #随机森林回归器

#查看sklearn版本
import sklearn  
sklearn.__version__


#简单的进行随机森林回归，进行交叉验证
boston = load_boston()
regressor = RandomForestRegressor(n_estimators=100,random_state=0)
cross_val_score(regressor, boston.data, boston.target, cv=10,scoring = "neg_mean_squared_error")

#填补缺失值案例，原数据的特征和标签
dataset = load_boston()
dataset.data.shape
#总共506*13=6578个数据
X_full, y_full = dataset.data, dataset.target
n_samples = X_full.shape[0]
n_features = X_full.shape[1]
#查看每一列的缺失值个数
pd.DataFrame(dataset.data).isnull().sum()

由于数据没有缺失值，我们现在需要创造一些缺失值出来

#首先确定我们希望放入的缺失数据的比例，在这里我们假设是50%，那总共就要有3289个数据缺失
rng = np.random.RandomState(0)
missing_rate = 0.5 #缺失值比率
n_missing_samples = int(np.floor(n_samples * n_features * missing_rate)) #缺失值个数
n_missing_samples #np.floor向下取整，返回.0格式的浮点数

missing_features = rng.randint(0,n_features,n_missing_samples) #随机选取列索引
missing_features

missing_samples = rng.randint(0,n_samples,n_missing_samples) #随机选取行索引
missing_samples

X_missing = X_full.copy() #复制一份，以免破坏原始数据集
y_missing = y_full.copy()
X_missing[missing_samples,missing_features] = np.nan #填充为NAN
X_missing = pd.DataFrame(X_missing) #DataFrame查看
#确认没有全部行都为缺失值
X_missing.head()

#使用均值进行填补
from sklearn.impute import SimpleImputer #导包
imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean') #实例化
X_missing_mean = imp_mean.fit_transform(X_missing)  # fit_transform
pd.DataFrame(X_missing_mean).head() #DataFrame查看均值填充后的数据

#使用0进行填补
imp_0 = SimpleImputer(missing_values=np.nan, strategy="constant",fill_value=0) #实例化
X_missing_0 = imp_0.fit_transform(X_missing)  # fit_transform
pd.DataFrame(X_missing_0).head() #DataFrame查看0填充后的数据

利用随机森林回归器对缺失值进行填充，思路（仅填充一列作为示范）：

选出缺失值最多的一列，作为要预测的y
拼接剩余的X和旧的y作为新的x数据集
根据y是否是缺失值，将数据不缺失部分作为训练集，有缺失的部分作为测试集
训练模型，将测试集的预测结果填充到测试集y的缺失值中

X_missing_reg = X_missing.copy() #拷贝原数据集
#返回缺失值由多到少依次排序的索引
sortindex = np.argsort(X_missing_reg.isnull().sum(axis=0)).values 
for i in sortindex:
    # 构建我们的新特征矩阵和新标签
    df = X_missing_reg #原始数据
    fillc = df.iloc[:,i] # 取出新“y”
    #将抽取了新“y”后的剩余X数据集和旧的y合并，组成新特征矩阵
    df = pd.concat([df.iloc[:,df.columns != i],pd.DataFrame(y_full)],axis=1) 
    
    #在新特征矩阵中，对含有缺失值的列，进行0的填补
    df_0 =SimpleImputer(missing_values=np.nan,
                        strategy='constant',fill_value=0).fit_transform(df)
    #找出我们的训练集和测试集
    Ytrain = fillc[fillc.notnull()]
    Ytest = fillc[fillc.isnull()]
    Xtrain = df_0[Ytrain.index,:]
    Xtest = df_0[Ytest.index,:]
    
    #用随机森林回归来填补缺失值
    rfc = RandomForestRegressor(n_estimators=100)
    rfc = rfc.fit(Xtrain, Ytrain)
    Ypredict = rfc.predict(Xtest)
    
    #将填补好的特征返回到我们的原始的特征矩阵中
    X_missing_reg.loc[X_missing_reg.iloc[:,i].isnull(),i] = Ypredict

对所有数据进行建模，观察效果

#对所有数据进行建模，取得MSE结果
X = [X_full,X_missing_mean,X_missing_0,X_missing_reg]
mse = []
std = []
for x in X:
    estimator = RandomForestRegressor(random_state=0, n_estimators=100)
    scores =cross_val_score(estimator,x,y_full,scoring='neg_mean_squared_error',cv=5).mean()
    mse.append(scores * -1)

#画图
x_labels = ['Full data','mean Imputation','zero Imputation','Regressor Imputation']
colors = ['r', 'g', 'b', 'orange']
plt.figure(figsize=(12, 6))
ax = plt.subplot(111)
for i in np.arange(len(mse)):
    ax.barh(i, mse[i],color=colors[i],alpha = 0.6, align='center')
ax.set_title('Imputation Techniques with Boston Data')
ax.set_xlim(left=np.min(mse) * 0.9,right=np.max(mse) * 1.1) 
ax.set_yticks(np.arange(len(mse))) #设置y轴的刻度
ax.set_xlabel('MSE') #设置x的标签 
ax.set_yticklabels(x_labels)
plt.show()

gbdt 算法比随机森林容易_机器学习（集成算法1：随机森林分类器-红酒数据集案例、随机森林回归器-波士顿数据集填充缺失值案例）..._第8张图片

模型效果：随机森林回归填充>原数据>mean填充>0填充

回归器在捕捉的时候，消除了原数据的一些噪音，所以回归结果比原数据都要好！

中原焦点团队焦点初级26期纪小伦2021-5-19坚持分享第107天，坚持读书第115天幽谷兰兮
中原焦点团队焦点初级26期纪小伦2021-5-19坚持分享第107天，坚持读书第115天。[爱心]原创——《‘重复’为大》今天清晨我4点50醒来，鸟儿在5点钟在窗外准时“鸣啾啾”，发现鸟儿在5点开始“鸣啾啾”已经不是第一次了，这让我无比佩服鸟儿的“重复”——准时有规律。“剩者为王，重复为大”，对于人们来说，想做事容易，每天坚持重复做一件事尤其不容易，能坚持下来的，都得有多大毅力和勇气。和孩子关系不
正月14 burenjirigala
正月14日，天气格外暖和。一大早晨4点多我和爱人起床喂牛挤奶。今天比平常起的早些因为今我们要上我舅舅和啊姨他们家去拜年。大概8点左右从家里赶往县城，再从县城赶40多里地到我大姨家，大姨父今年73大寿就现到他们家拜年，大姨头发依然苍白，见我们过来拜年那高兴的，亲子下厨炒了几个菜给我们吃。吃完上我老舅家，老舅今天也出门，只有我妹妹在家就没逗留多长时间，赶往我三舅家。三舅前几年脑出血身体出些问题，但现在
互联网平台轻松赚钱？不存在的 Museaiceonly
80后的我女性受历史遗留的影响，在家庭中仍是主妇的角色，但也有小部分的女性受到高等教育熏陶在事业上取得巨大成功。到了90后的女性，高等教育普及大众，社会发展迅速，特别是第三产业和互联网产业受到大量资金支持和鼓励，衍生出许许多多依靠搭载各类App的移动终端的商业模式。直播、短视频、微商等互联网平台建设使得女性比男性更容易融入这样的平台来展示自己并汲取一定的报酬。这也就象征着女性打开了个性化事业的开端
2019-06-29 房电孟
敬爱的李老师，智慧的马教授，亲爱的家人们：大家好，我是(侯维山)侯总的人，来自滨州鑫山力机械的房电孟。今天是2019年6月29日，我的日精进第297天,我们互相勉励，携手前行，每天进步一点点，距离成功便不远。图片发自App比学习：不要忘记奋斗，人生的路，无需苛求，只要你迈步，路就会在你脚下延伸；只要你扬帆，便会八面来风。启程了，人的生命才真正开始;启程了，人的智慧才得以发挥。生活时常和我们开着玩笑
宝爸一本经典的书
这几天陈娜在广州学习，家里我操持。以前家里陈娜做的事情，现在全部我来做。照顾孩子，买菜做饭，打扫卫生等等。买菜是一件让人头痛的事情，不知道吃什么。一大堆琐碎的事情不想弄，比如凉好的衣服丢在沙发上，不想叠。平时如果我看到沙发上有没叠的衣服，卫生不好，我就会指责陈娜不会打理。现在自己当家两天，做着这些事情有点烦，瞬间就觉得自己平时对陈娜太苛刻。宝妈也不容易。
录取已疯的天才
人似乎永远不能如愿。录取结果出来了，有些意外，却也十分正常。毕竟竞争一年比一年激烈，所以被不是理想学校录取也能释然。其实，在某种意义上也算理想了，毕竟是自己喜欢专业的最后一个志愿学校，还是幸运的。“不完满才是人生，一切都是最好的安排。”季羡林老先生的话陪伴着我面对一次次的遗憾。每一个人在每一件事上都会有遗憾。命运该是如此，也无话可说，只是永远不会放弃努力。努力后失败总比不努力而直接认命要好。坚持，
分享高效背诵单词的方法落笔情深i
图片发自App如何一天刷掉1000多个单词？我对背单词效率高的理解是，在同等时间内，过单词的数量比别人的多，且记忆的效果比别人的好。即单位时间内，既有数量又有质量。当年在准备各种标化考试时，我每天都需要背很多单词。到备考后期，我可以每天刷1000多个左右的单词（含背过待巩固的）。以下我分享自己背单词的经验，包括自己走过哪些弯路，又是如何走出这些弯路。希望能帮到大家。1.要有合理的预期弯路：记得我背
2019-04-06 Emily金金
傍晚把小猫咪再次接回了家，他们好乖呀，在盒子里睡的很熟，也不太吵。梨花弟弟是体型最大的，虽然这么说，但还是只有我的巴掌大。小白真的很文静啊，和梨花比简直就是一个多动症，一个文静娇羞孩子。经历一番周折后，明天终于可以把阿喵带回苏州啦。在家里快被念叨死了。。
小修罗：幸福与自由的秘诀。小修罗投资
今天广州酒家暴跌，我继续把10%的承德露露仓位移了过去，目前广酒仓位占比已经是71.4%，基本就是梭哈了。这个事情和下面我要说的道理无关，只是顺便放在开头，总不能调个仓又发一篇文章吧？------------------------------前段时间我跟我妈闲聊，谈到某新区，她说新区的基建用先进的技术，又引入了多个项目，以后发展空间大，房价便宜。我问，那为什么某新区房价比市区便宜。她说是可能因为
Jetson平台编译Tengine space01 AIoT Jetson 人工智能深度学习计算机视觉
1.Tengine简介Tengine于2017年在GitHub（https://github.com/OAID/Tengine）开源，是OPENAILAB（开放智能）推出的自主知识产权的边缘AI计算框架，致力于解决AIoT产业链碎片化问题，加速AI产业化落地。Tengine兼容多种操作系统和深度学习算法框架，简化和加速面向场景的AI算法在嵌入式边缘设备上快速迁移，以及实际应用部署落地，可以十倍提升
函数对象 tal0n
函数对象是STL库提供的除了迭代器，迭代器配接器以外的另外一种概念。简单来说：函数对象提供了一种方法，将要调用的函数与准备传递给这个函数的隐藏参数捆绑在一起。即：该对象实现了operator()的同时还提供了部分执行时的上下文环境。下面我们通过例子来详细看下函数对象。例子STL中有一个find_if的算法实现，他的参数包括：一组表示范围的迭代器，一个用于生成bool类型值的判断式。例如我们需要在一
一比一高仿服装货源，3分钟讲解攻略及经验大全天坛众
一比一高仿服装货源是指服装零售商、批发商或电商平台从供应商处采购的商品来源。获取优质、价格合理的服装货源对于服装业界的商家来说至关重要，因为这直接关系到他们的销售利润和客户满意度。一比一高仿服装货源的主要渠道包括：1.**品牌制造商**：一些大型批发商或零售商可能会直接从服装品牌的制造商或总公司采购商品，以确保商品质量和供应的稳定性。2.**批发市场**：世界各地有许多著名的服装批发市场，如中国的
三人天一包辣条VHK
坐在荷花湾边的石头上，晒太阳。阳光，照在褐色的裤子上，两三分钟就可以感受到温度。一种比烤炉子舒服的温度。风，吹在脸上。却不怎么让人觉得舒服，因为还有一丝寒意。我就是想晒晒太阳，不想和你表达什么意思。冬天太冷，夏天太热，这里的春天，刚好。
飞算JavaAI：力臻开发之本真，破 AI 代码之繁琐，传统项目一键生成微学AI 人工智能 java javaAI
飞算JavaAI：力臻开发之本真，破AI代码之繁琐，传统项目一键生成文章目录飞算JavaAI：力臻开发之本真，破AI代码之繁琐，传统项目一键生成一、前言二、飞算JavaAI是什么？2.1背景与实力2.2飞算JavaAI的“独门绝技”三、飞算JavaAI实战体验3.1IDEA插件安装配置3.2Main中写一个简单的梯度下降算法3.3main函数搭建一个卷积神经网络网络3.4飞算JavaAI：需求分析
好省邀请码怎么写?好省app升级运营商容易吗? 日常购物小技巧
好省的邀请口令是什么？怎么获取好省APP邀请口令？好省邀请码千万不要随便填写,不然会后悔1、好省app是什么？好省【这个是花桃邀请码：999999【佣金更高，模式更好】】是一个领取天猫淘宝内部优惠券的APP，免费下载注册即可成为合伙人，不仅可以帮你平时网购省钱40%以上，推广分享还能赚佣金，我们平时在手机上经常看到的那些优惠券群主、主播都是靠这个赚钱的，最主要的是完全免费、0门槛！2.好省APP里
2022-04-18团练笔记（第三次）花火喜珠
昨天上午团练摸打滚爬三小时，不觉得累，难道是我体能有增？今天左右臀部，后腰，大臂酸疼，看样子老师还是加了些量，不过还不够过瘾！因为，课后我又步行四十分钟回家了。挑战了一个一直以来很惧怕的动作，有一点点心得，还是比较怕。慢慢来吧。左右侧后翻需要做出分解慢动作。横线组合地面旋转一圈半，一直是摸鱼混过去的，需要多练练。改掉耸肩毛病，动作再舒展一些。呼吸带动动作，听着容易，看老师做的也容易，为啥自己做起来
《宫斗：嫡女虎又娇，权臣折了腰》姜瑶、谢昀免费阅读，宫斗：嫡女虎又娇，权臣折了腰小说免费阅读全章节无弹窗_笔趣阁霸道推书3
小说简介：春天的大宴上，皇后突然给中书令谢昀和太傅家的宝贝闺女来了个“惊喜”赐婚。大家都知道，权臣和太傅在朝廷里头那是冤家对头，见面就掐，斗了多少年了。皇后娘娘这一手，简直比戏文还精彩，京城里的人们都议论纷纷，说皇后娘娘这招儿真是高！可她却没想到，这两人偏偏擦出了火花……书名：《宫斗：嫡女虎又娇，权臣折了腰》主角配角：姜瑶、谢昀推荐指数：✩✩✩✩✩———小说内容试读———“你尝尝这个牛乳糕，超级好
MySQL 多表关联执行计划全面解析：从 N-LJ 到子查询优化
在实际企业开发中，多表关联查询更为常见，也是导致SQL执行效率低下的重要原因之一。今天，我们将系统性地解析MySQL多表关联查询的执行机制，重点包括：多表关联底层执行机制（N-LJ嵌套循环连接）为什么多表查询容易性能差，以及驱动表的选择有多重要多表查询执行计划分析与优化技巧（附实际案例）一、MySQL多表关联的执行机制：N-LJ嵌套循环连接在MySQL中，多表连接最常见的执行策略就是NestedL
177+小燕子+为什么不让你钻牛角尖？ Sailing333
生活中有很多人是喜欢钻牛角尖的。但是这样很容易形成认知偏误，从而带来更加灾难性的后果。是不是很可怕呢？所以今天我要与大家分享的是吴伯凡老师的《认知论》。一、书中自有颜如玉。我们受到的教育告诉我们：因和果是可以分开的。可以先看到一个“果”，然后去追溯“因”。但事实未必是这样。在追溯“原因”的时候，我们很容易犯两个错误：对因素的变量认知不完备。很多的因素可能会逃出我们的认知范围，形成我们的盲点；真正的
几大及其冷门却死赚钱副业！氧惠_飞智666999
有哪些行业看似很容易，实则很简单，关键还非常赚钱呢?今天，将自己总结梳理的，一些冷门却赚钱的行业分享给大家，希望能给大家带来一些启发，帮助大家日进斗金、早日实现财务自由，哈哈~案例一，养蟑螂，公司不到10个人，做一年提一辆兰博基尼没想到吧?你们平时害怕的“蟑螂”，在我这里全是宝贝!它的成虫、卵、粪便全是钱，关键是价值不菲。只需要两到三天喂一次，，每次仅需30分钟左右。一个盒子里面的蟑螂卵，可以孵化
小廌学论语（公孙长第五｜九）：人与人比，远谈不上比智商，主要分界岭在于勤奋和朝气。小廌
人与人比，远谈不上比智商，主要分界岭在于勤奋和朝气。【原文】宰予昼寝。子曰：“朽木不可雕也，粪土之墙不可圬也。于予与何诛！”子曰：“始吾于人也，听其言而信其行。今吾于人也，听其言而观其行。于予与改是。”【译文】宰我白日睡眠，孔子说：“烂木不能再雕刻，肮脏的土墙不能再粉饰，我对宰予，还能如何责备呀！”孔子又说：“以前我对人，听了他说话，便信他的行为了。现在我对人，听了他说话，再得看他的行为。这一态度
2020年52/49周总结，逆鳞大熊律师
本周真是焦虑的一周。一、职业发展一周5个工作日，检察院和法院各上班一天，然后开庭3件，一件艰难的谈判一场，还有一个顾问单位专场汇报会，奔波和辗转安排下周的各项工作，已经对接上周的焦虑的下行工作，有时候忙碌的连中午也没能休息，一鼓作气写材料。沟通是很复杂的系统，结构化沟通真的很不容易，所以我一直在调整自己让自己变得更好更强大面对很多问题。认真梳理自己的问题，和管委会成员开会讨论今年计划和明年方案，认
2022-07-09 析异
工作中不可控的东西:领导的看法、用户的评价、用户在这件事情上你的建议是否可实施，公司是否录用你的决定可控的事情是:你工作上面积极的心态、积极的心态调整。业务的熟悉、话术的背诵理解总结、流程的熟悉，不会就问，对舆情的了解，培训内容的总结用户的看法没那么重要把目光专注在，自己从中获得成长上你有进步就是好的进步的地方:求助类更加顺畅，开会时敢于提问。打标签更加细节会明显感觉比之前顺畅一下子聊几个也是可以
探寻广州一比一衣服原单货源的10个渠道金源皮具
探寻广州一比一衣服原单货源的10个渠道广州，这座繁华的南方大都市，不仅是中国的经济重镇，也是全球服装产业的重要枢纽。在这里，一比一衣服原单货源的寻找成为了许多服装商人和时尚爱好者的热门话题。本文将为您揭秘广州一比一衣服原单货源的10个渠道，助您在服装市场中抢占先机。重要提醒→购买联系方式在文章底部1.广州白云服装市场广州白云服装市场是广州乃至华南地区最大的服装批发市场之一。这里汇集了大量的服装厂家
短剧小程序的「技术革命」：从「粗放生长」到「精准运营」 weixin_lynhgworld 小程序
随着短剧行业进入「存量竞争」阶段，技术能力正成为小程序的核心竞争力。从内容推荐到用户留存，从广告变现到IP开发，每一环节都需要数据驱动和算法优化。一、智能推荐：让「用户找到剧」变成「剧找到用户」传统短剧平台依赖标签匹配，而小程序通过多维度数据实现精准推荐：「情绪图谱」分析：记录用户观看时的快进、暂停、重复播放等行为，构建情绪波动曲线；「场景化推荐」：根据时间（如深夜）、地点（如地铁）、设备（如手机
2018-11-19 金八力杜老师
日精进68天亲爱的王总及何校，亲爱的家人们大家好!我是来自山峰教外教育的杜胜利，今天是我第68天的日精进，给大家分享我今天的进步，我们互相勉励，携手前行。每天进步一点点，距离成功便不远。1、比学习:一年级离不开王老师，我还要不断学习，还要不断磨练。2、比改变：孩子们都会自己记作业条了，虽然个别不全，这是不小的进步！3、比付出:不流血不撒汗收获不了一片天。4、比谦卑：向优秀的家人，智慧的领导学习。5
中国男篮首战大败，张镇麟21+5爆发，五人未获出场机会体娱荒原
中国男篮在欧洲开始了首场热身赛，令人遗憾的是久疏战阵的中国队以64比82输给了克罗地亚。这场比赛中国队的中投命中率低至18%，三分球也只有25%，中远投的低效导致了得分低效以及比赛的失利。本场比赛有13人获得出场机会，其中五人枯坐替补席没有出场，包括备受信任的赵继伟和周琦，还有新人程帅澎、曾凡博，老将周鹏，可能是由于身体状态的原因没有出场，特别是周琦正在寻找比赛状态。虽然是一场大败，也有表现出色的
深入理解Mysql索引底层数据结构与算法桑翔
一.索引的本质索引是帮助MySQL高效获取数据的排好序的数据结构二.索引数据结构1.二叉树2.红黑树3.Hash表4.B-Tree1.叶节点具有相同的深度,叶节点的指针为空2.所有索引元素不重复3.节点中的数据索引从左到右递增排序B-Tree5.B+Tree1.非叶子节点不存储data,可以放更多的索引2.叶子节点包含所有索引字段3.叶子节点用指针连接,提高区间访问的性能(体现在做范围查询的时候)
GEE土地分类——利用landsat 8 和随机森林方法进行土地分类此星光明 gee土地分类专栏前端 gee 机器学习土地分类随机森林 Landsat 土地利用
目录简介代码解释代码函数ee.Classifier.smileRandomForest(numberOfTrees,variablesPerSplit,minLeafPopulation,bagFraction,maxNodes,seed)Arguments:Returns:Classifier结果简介GEE土地分类——利用landsat8和随机森林方法进行土地分类代码解释这段代码是用Google
你有资格等别人出错吗？邵小絮_5737
吴军老师在《成功并不难，在于少犯错》一封信中提到，世界上有两种比赛，一种是比绝对成绩，自己跟自己比，比如3000米成绩可以通过锻炼提高，但跑进10分钟多数人都做不到；一种是比相对成绩，在这种比赛中只要比对手强就好，关键是比对方少出错。吴军老师认为人生是一个持续时间特别长的比赛，我们大部分时间并不需要关注“赢”这件事，而只要不输就可以了。确保自己在行业、城市的贡献在前1/4，人生就“赢”，大家比的是
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS

gbdt 算法比随机森林容易_机器学习（集成算法1：随机森林分类器-红酒数据集案例、随机森林回归器-波士顿数据集填充缺失值案例）...

一、知识点聚焦

二、随机森林分类器（红酒数据集案例）

三、随机森林回归器 （填充缺失值案例-波士顿数据集）

你可能感兴趣的:(gbdt,算法比随机森林容易)

三、随机森林回归器（填充缺失值案例-波士顿数据集）