写在前面的话:学习过的知识不常用就会生疏,概念的东西特别容易遗忘,还是老老实实过一遍书,并做好笔记,以待日后快速查阅。
属性的类型
标称(nominal):定性属性。仅仅是不同的名字,如性别,邮政编码,判别用=,≠
序数(ordinal):定性属性。能提供足够的信息确定序,成绩(优良中差),病情严重(好,较好,一般,差),判别:< ,>
区间(interval):定量属性。值之间的查是有意义的,如温度
抽样方法
简单随机抽样:有放回抽样,无放回抽样
分层抽样:解决简单随机抽样无法保证解决稀缺种类的样本数量的情况。
(1):尽管每组大小不同,但是抽取的对象个数相同。
(2):每一组抽取的样本个数与该组样本容量成正比。
数据标准化(normalization)
数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
(1)z-score:
数据的相异性(距离)
距离公式(闵可夫斯基):
数据的相似性
(1)Jaccard系数:
仅能处理二元属性的对象:
例如
x=(1,0,0,0,0,0,0,0,0,0)
y=(0,0,0,0,0,0,1,0,0,1)
f11 =0, f01 =2, f10 =1, f00 =0
J=0
(2)余弦相似性:
能够处理非二元向量
(3)广义Jaccard系数:(Tanimoto系数)
Sxy=1n−1∑nk=1(xk−x¯)(yk−y¯)=E(XY)−E(X)E(Y) —协方差
Sx=1n−1∑nk=1(xk−x¯)2−−−−−−−−−−−−−−−√ –标准差
D(x)= ∑ni=1(xi−x¯)(xi−x¯)n−1
(5)马氏距离Mahalanobis
处理除值域不同外,当某些属性之间还相关时,如何计算距离,马氏距离在处理两个属性相关之间的距离时较欧氏距离更加考虑了相关性:
(6)加权的闵可夫斯基距离:
以上。