机器学习中模型优化的两个问题

知识图谱

这篇文章题目是机器学习模型中不得不思考的问题’
那么有哪些是不得不思考的问题：

问题1.作为机器学习工程师，最重要的知识体系是哪几块？

模型与特征，和技术变现能力

模型构建：
机器学习树形结构搜索、推荐框架、计算广告
统计学习 LR/LASSO/RIDGE/GLMNET
深度学习 ensemble&DNN&CNN&RNN

特征工程：
变量选择、转换、交互作用刻画方法
噪音处理、缺失填充
样本失衡处理

技术变现：解决业务核心问题的专业能力
业务如何沟通、理解业务目标
业务目标不清晰时，如何推进技术项目
优先级什么情况下该做什么，怎么做
业务、特征、数据、模型

问题2.项目推进的时候有哪些核心要素？如何高效进行？

业务：项目的技术目标是否在解决当下核心业务问题
业务问题：业务KPI和deadline
界定问题：业务核心目标、场景
内核思考：定义目标概念，为什么要这么定义，更大的业务目标是什么，如何排期，目标概念与模型之间的关系是怎样的。
业务核心问题，关键场景；
评价模型的指标是什么；
项目输送给业务的关键信息；
业务如何运营这个信息；

评估方案：
追求闭环：项目的输出是什么？如何运营？

特征：兼容模型、最优化为目标对数据进行加工
价值：突破项目天花板的有效武器
业务导向：特征源自研发，用特征充分刻画业务理解
方法论：变量体系、研发流程，旧特征精细化、新特征扩展
设计特征：现有的基数数据+业务“二维图”
业务“二维图”：把业务整个流程抽象成几个核心的维度进行考虑

数据：数据是模型性能的上确界
训练数据一致对接线上预测的业务场景
噪音的过滤与99%准则

技术选型：在业务的约束下
业务导向：在项目排期，业务预期等多方面约束下，恰到好处的选型
项目本身：GBDT,LASSO
强业务解释型模型：如定价和反作弊
统计学习模型：Glmnet>LASSO>=Ridge>LR/Logistic
ridge通过正则化约束缓解了LR在过拟合方面的问题
lasso更是通过L1约束做类似变量选择的工作
Glmnet不需处理很难决定最优的约束强度的问题

开发复杂模型：RF<=GBDT<=XGBoost
XGBoost：轻量化模型和快速训练
GBDT：Gradient Boosting Decision Tree|它是一种基于决策树实现的分类回归算法
RF：Random Forest|基本的模型

机器学习中模型优化的两个问题

你可能感兴趣的:(机器学习中模型优化的两个问题)