向上取整/echart地图不显示/同时含离散和连续变量的决策树

分析建模,日常问题整理(二十三)


2019.1.31~2019.2.18


    1. ceil()向上取整 math模块函数
      print(math.ceil(0.1))
    1. echarts百度地图不显示图像
      一定要同时加载bmap.js和输入正确的ak码,ak码在申请时要设定浏览器端还是服务器端。
    
    
    1. pyecharts的line-横轴类必须是字符串,如果是数值型,会显示不出图像的!
    1. 小样本如何选择模型
      训练求解的模型参数受样本影响特别大,样本变化一点点,参数解就跳到另一组解去了。总之,模型是不稳定的。(正好遇到这个问题)
      一是使用少量的稳定的变量
      二是等数据积累足够了再做模型吧

AIC:寻找可以最好地解释数据但包含最少自由参数的模型
AIC=2k+nln(SSR/n)最小
elastic net:弹性网络是一种使用 L1,L2范数作为先验正则项训练的线性回归模型.这种组合允许学习到一个只有少量参数是非零稀疏的模型,就像 Lasso一样,但是它仍然保持一些像Ridge的正则性质。我们可利用 l1_ratio 参数控制L1和L2的凸组合。弹性网络是一不断叠代的方法。
scikit-learn

弹性网络目标函数.jpg

对损失函数(目标函数)加入一个惩罚项,使得模型由多解变为更倾向其中一个解。
在最小二乘法中,可以这样理解。XTX可能是不可逆的,通过加上正则项,迫使弱的特征的系数缩减为0.

    1. 同时包含离散变量和连续变量的决策树模型在Python中的实现。
      R中可以同时处理,但是sklearn不行。
      使用ID3(只能处理离散变量),修改脚本处理存在连续变量的模型。
      cart只能同时处理离散变量和连续变量。如果同时包含离散变量和连续变量,需要把离散变量进行编码或者哑变量转换。
      lgbm在训练单棵树时能够同时处理离散和连续变量,(大多数机器学习算法都不支持类别特征)LightGBM优化了对类别特征的支持,可以直接输入类别特征,不需要额外的one-hot编码展开。【但是lgb.fit()时还是会报错不能float(x)???】

CTR特征是啥??
决策树单独用来做预估模型效果一般,但是有几个用处
1)用来对连续变量选择最优分箱(这个可以尝试一下)
2)用来选择规则
3)提炼规则用来做衍生变量,使用衍生变量来做更精准的模型。

你可能感兴趣的:(向上取整/echart地图不显示/同时含离散和连续变量的决策树)