数据挖掘工程师 = 大数据工程师 + 算法工程师
1) Prediction Tasks 预测性任务
Use some variables to predict unknown or future values of other variables
2) Description Tasks 描述性任务
Find human-interpretable patterns that describe the data
3) Common data mining tasks
1) 有什么样的数据,这是个什么问题?分类,聚类,推荐……
2) 怎样的假设?数据>anything
1) 数据集成,数据冗余,数值冲突
2) 数据采样
3) 数据清理,缺失值处理,噪声数据
1) 模型的选择,NB,LR,SVM,Ensemble,NN,DL
2) 自己实现还是利用开源工具
3) 模型的评价
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
launches 启动次数
durations 停留时长
model 机型
1)属性选择: ID3 — 信息增益
C4.5 — 信息增益比
CART — 基尼指数
2) 特点: 便于理解和解释
不需要考虑异常数据,不需要考虑数据是否线性可分
容易过拟合
KNN算法特点:
1)对噪声敏感
2)采用适当的距离计算方式和数据预处理方式
3)适合处理样本不多的情况
4)K选取是个问题
贝叶斯定理: P(B|A)=P(A|B)*P(B)/P(AB)
特点: