2017.07.27回顾 ET和RT比较 高级切片 argsort barplot(yerr=) xgb.plot_importance

1、一到办公室写了上一日的小结

2、昨天帮同事拉进白名单,就只能顺带更新了channel rolling variable,运行良好

3、看了下ExtraRandomizedTrees和randomForest的文档,随机森林是有放回的抽样,样本数等于原始样本数,特征数随机子集,结果回归用average,分类用voting(但是sklearn的实现是对probability的average),ExtraRandomizedTrees是用的全样本,默认不抽样,特征是子集,他的极限随机是体现在每个候选特征,是随机生成一个分裂值,然后选出最佳分化特征。GBDT有两个参数可以选择样本子集和特征子集,目的都是增加偏差来降低方差防止过拟合。当时GBDT的子树用的是CART树,分裂准则是GINI,随机森林和ET树我需要再看一下!

4、下午又是开会,反正都没什么收获了

5、python有一些切片方法,我并没有掌握,小结一下

  • a[::-1]逆向list
  • a[:10:2]取前10个元素,每2个取1个
  • a[::5]每5个元素取1个
6、numpy的argsort()其实见过很多次了,但是老是记不住,他是对一个array-like结构的元素下标进行排序,要特别记住的的地方就是对 下标进行排序

7、然后新同事的任务中涉及到如何判断一个数是整数,因为有2.0这种形式,实际上还是整数,原来python数字都有一个内建方法,2.0.is_integer()

8、把阿三的风骚EDA是抄完了,最后两步就是用ET树和XGBOOST输出了一个feature_importance,其中xgboost提供了方法直接输出比较方便,ET树需要自己画图设置一些东西

9、sns.barplot或者plt.bar,有一个参数yerr是y error的简称,可以画出y的偏差,另外sns.barplot确实屌,自动配色,简直骚气

10、plt.xlim,xlim是x limit的简写,可以限定X轴的范围,其实没有多大必要,跟默认autoscaling的结果似乎没差

11、xgb内建画变量重要性

fig, ax = plt.subplots(figsize=(12,12))
#xgboost的内建画变量重要性的方法需要传axes对象
xgb.plot_importance(model, max_number_features=50, height=0.8, ax=ax)
plt.show()

你可能感兴趣的:(日记,python)