《大数据挖掘与统计机器学习》

统计前期看模型所得结果的性质,都是手工计算,得到置信区间、相合性等等。这些性质有时候依赖于中心极限定理或大样本定理得到的当样本趋于无穷的理论性质。
(ps:中心极限定理是说样本的平均值约等于总体的平均值。不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。)

统计学习方法分为两种,有监督学习和无监督学习。
有监督学习,数据中有明确的目标变量Y,如果Y是连续型,就是回归分析,如果Y是一个分类标签,则是分类问题。目前使用最广泛的有监督学习方法,包括决策树及其组合算法、神经网络、支持向量机、最近邻居法、朴素贝叶斯等。
无监督学习主要为主成分分析、聚类、关联规则等。

多元回归的多重共线性和高维问题的自变量选择问题,有两种压缩回归方法——岭回归和Lasso回归。
岭回归就是为了解决回归中的多重共线性问题。岭估计是有偏估计,而且是岭回归的一种压缩估计。以此引出惩罚函数。我用的少,就不多写了。

线性分类方法——Logistic回归
混淆矩阵:真正类(TP)假负类(FN)假正类(FP)真负类(TN)
模型整体正确率:accuracy=(TP+TN)/(TP+FP+FN+TN)
第一类错误FPR:FP/(TN+FP)
召回率TPR:TP/(FN+TP)
准确率PPV:TP/(FP+TP)
与准确率相反NPV:TN/(TN+FN)
综合指标F值:F=2×召回率×准确率/(召回率+准确率)
最优阈值需要讨论。
针对不同分类器,用ROC曲线来评价模型,一个有效的分类器AUC值要大于0.5,一个比较好的分类器AUC值大于0.8。
对于逻辑回归里变量选择的问题,可以通过传统的逐步回归法来解决,也可以根据Lasso惩罚回归算法来解决。

估计预测误差最常用、最简单的方法是交叉验证,就是数据重利用来分析。
还有就是自助法(bootstrap),需要用python写写代码呀。

你可能感兴趣的:(数据挖掘)