数据挖掘笔记(三)

数据挖掘-聚类

聚类是一种将一组观察值划分为不同子集且子集中的元素都有相似特征的方法。与分类不同的是聚类是一种无监督的方法。

距离指标(Distance Metrics)

欧氏距离(Euclidean Distance)几何距离
曼哈顿距离(Manhattan Distance)绝对轴距总和
马氏距离(Mahalanobis Distance)可以看作是欧氏距离的一种修正,修正了欧式距离中各个维度尺度不一致且相关的问题
算法

K-Means(K均值)
Sequential Leader(序列数据)
Affinity Propagation(AP)
分类方式

Hierarchical 层次聚类:对象总是和与之临近的对象相关性更强,计算每个对象和其他对象之间的距离,不断将距离最短的两个对象合并成一类,直到所有的对象合并成单个类别为止。
Density-based 密度聚类:定一个距离半径最少有多少个对象,然后把可以达到的对象都连起来判定为同类,简单的说就是画圈,需要定义两个参数,圈的最大半径和圈内最少容纳的对象数量。DBSCAN通过优先对高密度(high density)进行搜索,然后根据高密度的特点设置参数。
Model-based 模型聚类:指基于概念模型或者神经网络模型的方法,同一类的数据属于同一种概率分布。最典型方法就是高斯混合模型(GMM,Gaussian Mixture Models)
Association Rule 关联规则:买面包会一起买牛奶
Regression 回归:拟合曲线-多项式拟合曲线
数据预处理

GIGO:garbage in garbage out

典型问题

Missing Attribute Values 缺少属性值
Different Coding/Naming Schemes 不同的编码/命名方案
Infeasible Values 不可行值
Inconsistent Data 不一致的数据
Outliers 异常值
数据质量

Accuracy 准确性
Completeness 完整性
Consistency 一致性
Interpretability 可解释性
Credibility 可靠性
Timeliness 及时性
数据清理

填充缺失数据
修正矛盾数据标度
识别异常值和噪点
数据集成:将数据从不同的数据源组合起来

数据转换

正常化(Normalization)
聚合(Aggregation)
类型转换(Type Conversion)
数据缩减

特征提取(Feature Selection)
采样(Sampling)
隐私保护问题

数据是一把双刃剑:人们可以从数据分析中获益很多;信息泄露的后果是灾难性的。由于隐私问题,人们可能不愿意提供敏感信息比如服用的药物,收入和性取向。如何在不知道每个人的真实答案的情况下,找出具有特定属性的人的百分比。
设计了两个问题
问题1:具有特征A?
问题2:不具有特征A?
受测试人群有P的概率分到问题1,1-P的概率分到问题2,但并不知道每个人分到的是问题几。
P*(True)所有人回答True的概率,P(True)具有属性A的人的概率。
P*(True)=p×P(True)+(1-p)×P(False)

GOLANG ROADMAP : https://www.golangroadmap.com/
GOLANG ROADMAP
现在只能邀请注册,我的邀请码Gopher-1035-0722,大家赶紧的呀,里面内容真的超棒!

数据挖掘笔记(三)_第1张图片

你可能感兴趣的:(机器学习,数据挖掘)