第二部分 数据挖掘技术理论
2.1 数据分析方法论
KDD知识发现Knowledge Discovery from Database:数据清理、数据集成、数据选择、数据变换(正规化、泛化、离散化)、数据挖掘、模式评估、知识表示。
CRISP-DM(cross-industry process for data mining):业务理解、数据理解、数据准备、建模、模型评估和模型发布。
SEMMA:抽样Sample、探索Explore、修订Modify、建模Model、评估Assess。
2.2 数据挖掘基础理论
描述性数据数据挖掘/无监督数据挖掘(聚类分析、关联规则、序列模式),不需要目标字段
聚类分析算法:聚类算法、分层聚类法(单一链结法、完全链结法、平均链结法、中心法、Ward‘s法)、划分聚类法(K-Means法、EM法、K-Medoids法、神经网络SOM法、两步法)、密度聚类算法(DBSCAN)
关联规则:评估指针(支持度、置信度、提升度)Apriori算法
序列模式:评估支持(支持度、置信度)
预测型数据挖掘/有监督数据挖掘(分类、预测)
预测型数据挖掘:分类预测-目标字段是类别变量,算法有贝式网络、决策树、神经网络、逻辑回归
数值预测-目标字段是数值变量,算法有决策树、神经网络、线性回归、时间序列
模型评估:混淆矩阵(正确率Accuracy、查准率、查全率、F-指标)
统计方式的变量选择:卡方检验、ANOVA检验、T检验
模型方式的变量选择:决策树、逻辑回归、随机森林
混淆矩阵
正确率Accuracy=模型预测准确的数目/总预测数目
响应率Precision模型预测响应的准确程度,模型预测会响应且真实响应了的数目占模型预测会响应的总数的百分比 =模型预测响应准确的数目/总模型预测响应数目
查全率Recall表示模型预测响应的敏感程度,模型预测会响应且真实响应了的数目占真实响应的总数目的百分比=模型预测响应准确的数目/总真实响应数目
F-Measure=2*Precision*Recall/(Precision+Recall),值越高模型越好
好模型响应率和查全率都很高,但二者存在负相关关系
基础数据挖掘KNN算法
KNN(K Nearest Neighbor)K最近邻算法,注意对数据量纲处理-极值正规化
极值正规化
曼哈顿距离(直角距离、街区距离)计算公式