分析建模，日常问题整理（二十三）

2019.1.31~2019.2.18

1. ceil()向上取整 math模块函数
  print(math.ceil(0.1))
1. echarts百度地图不显示图像
  一定要同时加载bmap.js和输入正确的ak码，ak码在申请时要设定浏览器端还是服务器端。

1. pyecharts的line-横轴类必须是字符串，如果是数值型，会显示不出图像的！
1. 小样本如何选择模型
  训练求解的模型参数受样本影响特别大，样本变化一点点，参数解就跳到另一组解去了。总之，模型是不稳定的。（正好遇到这个问题）
  一是使用少量的稳定的变量
  二是等数据积累足够了再做模型吧

AIC：寻找可以最好地解释数据但包含最少自由参数的模型
AIC=2k+nln(SSR/n)最小
elastic net：弹性网络是一种使用 L1，L2范数作为先验正则项训练的线性回归模型.这种组合允许学习到一个只有少量参数是非零稀疏的模型，就像 Lasso一样，但是它仍然保持一些像Ridge的正则性质。我们可利用 l1_ratio 参数控制L1和L2的凸组合。弹性网络是一不断叠代的方法。
scikit-learn

弹性网络目标函数.jpg

对损失函数(目标函数)加入一个惩罚项，使得模型由多解变为更倾向其中一个解。
在最小二乘法中，可以这样理解。XTX可能是不可逆的，通过加上正则项，迫使弱的特征的系数缩减为0.

1. 同时包含离散变量和连续变量的决策树模型在Python中的实现。
  R中可以同时处理，但是sklearn不行。
  使用ID3（只能处理离散变量），修改脚本处理存在连续变量的模型。
  cart只能同时处理离散变量和连续变量。如果同时包含离散变量和连续变量，需要把离散变量进行编码或者哑变量转换。
  lgbm在训练单棵树时能够同时处理离散和连续变量，（大多数机器学习算法都不支持类别特征）LightGBM优化了对类别特征的支持，可以直接输入类别特征，不需要额外的one-hot编码展开。【但是lgb.fit()时还是会报错不能float(x)???】

CTR特征是啥？？
决策树单独用来做预估模型效果一般，但是有几个用处
1）用来对连续变量选择最优分箱（这个可以尝试一下）
2）用来选择规则
3）提炼规则用来做衍生变量，使用衍生变量来做更精准的模型。

向上取整/echart地图不显示/同时含离散和连续变量的决策树

分析建模，日常问题整理（二十三）

你可能感兴趣的:(向上取整/echart地图不显示/同时含离散和连续变量的决策树)