Mine Data

1. 商业上进行Data Mining的意义：

1）时时刻刻有许多数据在产生并被存储。(随着电子产品的升级，用户数据复杂并趋向平民化）
2）电脑性价比变得更高
3）有些人需要匿名，但数据公司需要更高超的技巧获取数据
3）需要提供更高阶的更有针对性的服务给客户

2. 科学上进行Data Mining的意义

1）数据量大（有些数据需要更加谨慎的处理，如医疗数据）
2）对于各种各样的原始数据，传统方法无法识别并处理。数据维度庞大，数据形式多样如医疗无法做到非常精确的对号入座（一种症状，一种疾病，一种治疗方法）
3） Data Mining会帮助建立正确的模型解决问题：
a)识别并区分数据
b)提出假设（更加可视化，容易找到规律)

3. Data Mining的动机

1）市场方面：运营者将重点从商品及服务本身转移到了用户的需求。
2）IT运营方面：运营者将重点从实时的数据转变为数据事务过程中的规律性问题。更加具体的说，OLAP(Online Analytic Processing)：联机分析
3）存储成本的降低
4）自动获取事务过程信息技术的发展
5）因特网的发展：个性化互动，长期记录的数据
6）对数据的浪费很多
7）无法完全保证数据的匿名性。动一发而动全身，可以通过各种关系定位到个人的私人数据。

4.课程主题：

数据约简(Data Reduction)，挖掘(exploration)，可视化(visualization)
有监督的技术(Supervised Techniques）
a) 分类识别(Classification):
--KNN（k-Nearest Neighbors）算法：KNN算法
其简略过程如下：
把所有数据（包括迷点）放入图中。
测量迷点和每个点的距离。
选取一个数值。对于小型数据集，3是不错的选择。
找出哪3(k)个点离“迷点”最近。
3个点中多数点所代表的，就是我们想要的答案。

【关键词：数据近似化预处理，勾股定理求距离，比较】
--朴素贝叶斯（Naive Bayes）：
--分类树
--判别式分析
--逻辑回归（经常出现的错误：
--神经网络
--支持向量机
b)预测(Prediction):
--回归
--回归树
--KNN
--处罚函数法

无监督的技术（Unsupervised Techniques)：将数据的复杂性降维，变得简单
聚类分析，
collaborative filtering:推荐算法，Netflix 获奖的算法，但本身公司没有用

5.分类识别：

训练集(training set)：用来训练模型
验证集(validation set):用来确定问题使用的model
测试集(test set)：测试最终得出的模型是否可用

与传统数据分析的区别：需要解决训练集之外的问题，不只是获取训练集的规律。

聚类识别：

将元素的各个性质根据置于同一度量体系中（如坐标系），寻找其中元素之间的聚类关系。
关键重点在于，其度量在坐标系中的尺度

应用：

1）信用卡用户分析。
2）网络侵入检测。

3)事物之间的联系发现
4)推荐系统

5)垃圾邮件
6)基因库
7)医疗数据：敏感而且重要（有些数据很难获取），医疗保险行业对于数据非常感兴趣
8）社交软件信息安全问题非常严峻
9）安全问题：
--a) Container Shipment
--b)Stock trading fraud(股票交易欺诈)：可以通过分析公司之间的
--交易聚类得到欺诈风险的信息
10）RFID Tags(射频识别）

Step in Data Mining

1）确定需求
2）获取数据（主要涉及到取样的方法）
3）搜索，清洗，预处理数据
4）精简数据；如果是监督学习则将其分块分区
5）将数据与最终目标契合（分类识别，聚类）
6）选择技术方法（回归，分类树及回归树，神经网络）
7）迭代验证技术方法，并进行tunning、
8）评估结果（或进行validation）
9）部署最佳的模型

重要点：

Tunning（选择决策树的层数等等调节动作）
选择正确的Model进行训练及验证

主要的元素：

1）数据的类型：
2）过拟合（Overfitting and generalization)
3）Regularization：相应模型复杂度带来的损耗
4）如何进行多个数据属性在一个坐标系中的度量。
5）如何取样：根据问题的具体需求（因为许多数据在取样时有可能不是公平取样，如男女取样的比例有可能不一样，此时就需要考量是否需要将性别的比例平衡化）
6）当维度增加时，数据在结论中的作用会变得稀疏
7）数据缺失采取的数据恢复方法

数据清洗：

大部分情况下只有大约20%的数据是有效的。

2018-07-11笔记（1）：Data Mining综述