和DH大神交流总结

归档至github

交流目的及解答

反馈现在遇到的问题

获得解答

确定后续的技术路线,借助DT的经验来确定选型是否合适

之前定的方案是合适的,但是细节上需要进一步明确。

得出能够落实的方案(理论依据 + 实现可能)

  • 向业务请教现有有效规则经验,抽象化为特征
  • 积累数据
  • 模型迁移尝试
  • 构建稀疏特征,第一步尝试使用MLR等传统模型处理,第二步采用多层神经网络(是否激进一些,直接使用神经网络???)

交流内容点

异常值处理

问题

  • 是否进行异常值处理?
  • 使用哪些异常处理的方式会更为合适?

解答

  • 尽量使用尊重数据本身,不要做异常值处理

特征构建及选择

问题

  • 如何进行分段(离散化、分箱) ?
  • 是否做哑变量处理?
  • 如何进行选择(高度线性相关、近零方差、逐步迭代回归)?
  • 扩展维度编码(是否一起编码) 做成插件形式?

解答

  • 通过业务的先验知识,增加强相关的特征
  • 通过比较粗暴的方式,获取全量的特征(比如每个时间段的点击),然后通过多层神经网络(中间层加入特征选取的功能)进行筛选和预测
  • 通过高次特征组合的方式,来扩展特征
  • 尽量使用端到端的方式,进行特征选取
  • case1 人 品牌 交互行为 时间 ,以这个四个张量维度,作为基础,分别计算各个维度可能扩展出来的特征,从而扩展出数百个强关联的特征。例如人的年龄、性别。 品牌的价位,点击情况等等。
  • 总结:尽可能多的选取特征,交给模型去筛选(注:为避免高阶特征可能出现的共线性问题,尽量选取抗共线性模型)

稀疏矩阵处理

问题

  • 采用神经网络:技术选型 线下Keras 线上DL4J
  • 采用GBDT + LR
  • 采用XGBoost

解答

  • 第一步可以使用MLR,GBM,XGBoost等
  • 后续,构建多层神经网络(层之间,增加不同的特征处理手段)
  • 采用流式学习的模型,可以考虑进行增量学习
  • 调优经验:一方面是根据已有的经验(树的深度,分叉等等)进行调参,另一方面是通过grid search 搜索

数据非平衡 & 数据提纯问题

解答

  • 尽量尊重样本本身,不要对样本做过多的处理
  • case1 文本问题,4万样本,百万级别特征
  • case2 图像问题,3万样本
  • case3 CTR 问题,4亿样本,亿级别特征,正负样本1:80

关于推荐算法

解答

  • 可以尝试
  • 无监督学习一般来说,难以超越有监督学习

关于模型迁移

解答

  • 相似类型业务的模型,可以迁移使用

你可能感兴趣的:(和DH大神交流总结)