数据挖掘技术基本任务

数据挖掘技术基本任务

  • 1.分类与预测
  • 2.聚类分析
  • 3.关联规则
  • 4.时序模式
  • 4.偏差检测
  • 5.智能推荐

1.分类与预测

  1. 定义
    分类:构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别,分类模型建立在已有类标记的数据集上。
    预测:建立两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制。
    两步过程:通过训练集建立预测属性(数值型的)的函数模型;在模型通过检验后进行预测或控制。
  2. 实现过程
    (1)学习步
    通过归纳分析训练样本集来建立分类模型得到分类规则
    (2)分类步
    先用已知的测试样本集评估分类规则的准确率,如果准确率是可以接受的,则使用该模型对未知类标号的待测本集进行预测。
  3. 常用的分类与预测算法
    (1)定义
    回归分析:确定预测属性(数值型)与其他变量间相互依赖的定量关系最常用的统计学方法。
    (2)模型分类
    *回归分析

· 线性回归
适用条件:呈线性关系,用最小二乘法求解模型系数

· 非线性回归
适用条件:呈非线性关系,用非线性最小二乘方法求解

· Logistic回归
适用条件:因变量一般有1和0(是否)两种取值
广义线性回归模型的特例,利用Logistic函数将因变量的取值范围控制在0和1之间,表示取值为1的概率

Logistic回归建模步骤:
a. 根据目的设置指标变量
b. 列车线性回归方程,估计模型回归系数
c. 进行模型检验
d. 模型应用

· 岭回归
适用条件 :参与建模的自变量之间具有多重共线性,是一种改进最小二乘估计的方法

· 主成分回归
适用条件:参与建模的自变量之间具有多重共线性
根据主成分分析的思想提出,对最小二乘法的一种改进,它是参数估计的一种有偏估计,可以消除自变量间的多重共线性

· 偏最小二乘回归等

*决策树
采用自顶向下的递归方式,在内部节点进行属性值的比较,并根据不同的属性值从该节点向下分支,最终得到的叶节点是学习划分的类。

*人工神经网络
一种模仿大脑神经网络结构和功能而建立的信息处理系统,表示神经网络的输入与输出变量之间关系的模型。
贝叶斯网络
又称信度网络,是bayes方法的扩展,是目前不确定知识表达和推理领域最
有效的理论模型之一。
支持向量机
是一种通过某种非线性映射,把低维的非线性可分转化为高纬的线性可分,在高纬空间进行线性分析的算法。

2.聚类分析

*常用聚类分析算法
K-means聚类算法

3.关联规则

*常用聚类分析算法
Apriori算法

4.时序模式

*常用聚类分析算法
平稳时间序列分析
非平稳时间序列分析

4.偏差检测

*常用聚类分析算法
基于模型的离群点检测方法
基于聚类的离群点检测方法

5.智能推荐

你可能感兴趣的:(python,机器学习,数据分析,数据挖掘,机器学习)