数据挖掘_数据

1、抽样:

对关注的属性,样本与原始数据集有相同的性质,则用抽样计算的结果与全集是一样。
1.1 抽样的方法
- 1)简单随机抽样(simple random sampling):放回、不放回
- 2)分层抽样(stratified sampling):如果数据集不同类型的数据数量差异过大,则随机抽样会丢失数量少的样本。可针对不同数据组,按比例抽取样本。
- 3)渐进抽样:样本容量越大,准确性越高,计算没有简化;样本容量越小,准确性越低,计算简化。
当模型准确率不再随样本容量快速提升,则达到了容量的平衡。
1.2 维规约
1.合并属性减低属性数,减少时间、空间复杂度。

2、相似性和相异性的度量

2.1相似、相异是聚类、最近邻分类、异常检测的基本概念
相似similarity:两个对象的相似程度的数值度量。
2.2相异度
1)距离:
欧几里得距离:二维坐标系里有4个点,可以有用4*4的矩阵表示4个点的相对位置。
欧几里得距离3个性质:
1.非负性:d(x,y)>=0,举例肯定不能为负数。
2.对称性:d(x,y)=d(y,x),即x->y的距离与y->x的距离相等。
3.三角不等式:d(x,z)<=d(x,y)+d(y,z)
满足以上3个性质的称为度量(metric)。
非度量的相异度:集合差、时间。
2.3临近性度量的例子
1)二元数据的相似性度量
二元属性:只有2个状态的属性,如0和1,true和false等。
假设x和y是2个对象,都由n个二元属性构成。如客户购物数据
x={1,0,0,0,0,0,0,0,0,0}
y={0,0,0,0,0,0,1,0,0,1}
则:
**汉明距离hamming distance:**2个等长字符串相同位置上不同字符的个数。上例的为3。
简单匹配系数SMC:(Simple Matching Coefficient)=(xy都为1的属性+xy都为0的属性)/n=(7+0)/10=0.7,认为都没有也是匹配。
Jaccard系数:=xy都为1的属性/xy出现过的属性总数=0/3=0。
2)余弦相似度(常用来分析文档相似性)
cos(x,y)=x*y/||x||||y||
x=(3,2,0,5,0,0,0,2,0,0)
y=(1,0,0,0,0,0,0,1,0,2)
x*y=3*1+2*0+…+0*0+0*2=5
||x||=power(3*3+2*2+…+0*0+0*0,1/2)=6.48
||y||=power(1*1+0*0+…+1*1+0*0,1/2)=2.45
cos(x,y)=0.32
x*y:对应维度的值乘积;
||x||:对应维度的值自己的乘积(平方)和
怎么理解?用文档相似度理解,
1.x*y:同样的单词都出现且数值越大,则cos越大;
2.x*y:仅一方出现,则分子为0,cos小;
3.||x||||y||:分母是词汇量的表示(类似方差);词汇量很大,相同的越少,cos越小。
4.0<=cos<=1,两篇相同的文章cos=1。
**3)欧几里得距离:**square((x1-y1)^2+(x2-y2)^2+…+(xn-yn)^2) (类似三角形的a^2=b^2+c^2,各对应维度的差平方的和开方是n维空间的距离)
4)曼哈顿距离:|x1-y1|+|x2-y2|+…|xn-yn| (n维空间各维度距离的和)
故事:概念出自在曼哈顿街区开车从a点到b点,实际行驶距离不是ab的直线距离,是走街区的2个坐标的距离差的和(xa-xa)+(ya-yb)。
5)闵可夫斯基距离(Minkowski Distance):因有可变参数p,所以是一组距离的定义。
d=square((x1-y1)^p+(x2-y2)^p+…+(xk-yk)^p,-p)。维度距离的p次方和,再p次方根。1次方是曼哈顿,2次方是欧式,p次方是闵距。
当p=1时,即为曼哈顿距离
当p=2时,即为欧式距离
当p->无穷时,切比雪夫距离。
类似欧式距离,不过平方改为p次方的和再开p次方根。
6)标准化欧式距离:各维距离除以方差(相当于各维的权重).
7)皮尔森相关: corr(x,y)=Sxy/SxSy

你可能感兴趣的:(数据挖掘)