对称/非对称二元数据

如果它的两个状态有相同的权重, 那么该二元变量是对称的,也就是两个取值 0或 1 没有优先权。例如,属性“性别”就是这样的一个例子,它有两个值:“女性”和“男性”。基于对称二元变量的相似度称为恒定的相似度,即当一些或者全部二元变量编码改变时,计算结果不会发生变化。

对恒定的相似度来说,评价两个对象 i和 j 之间相异度的最著名的系数是简单匹配系数SMC,其定义如下:
d(I,j) = (r+s) / (q+r+s+t) (8.9 p342 ?)

如果两个状态的输出不是同样重要,那么该二元变量是不对称的。例如一个疾病检查的肯定和否定的结果。根据惯例,我们将比较重要的输出结果,通常也是出现几率较小的结果编码为 1(例如,HIV阳性),而将另一种结果编码为 0(例如 HIV阴性)。给定两个不对称的二元变量,两个都取值 1 的情况(正匹配)被认为比两个都取值 0 的情况(负匹配)更有意义。因此,这样的二元变量经常被认为好像只有一个状态。基于这样变量的相似度被称为非恒定的相似度。对非恒定的相似度,最著名的评价系数是 Jaccard 系数,在它的计算中,负匹配的数目被认为是不重要的,因此被忽略。 D(I,j) = (r+s) / (q+r+s) (8.10) 当对称的和非对称的二元变量出现在同一个数据集中,在 8.2.4 节中描述的混合变量方法可以被应用。

比如 购买记录就是非对称二元数据,因为我们更关注买的 item 而非没有买的 item

但答题的 True 和 False 就是对称二元数据,因为 在考察两题答案的关联时, True 和 False 的出现是同样重要的。

参考:http://www.cnblogs.com/end/p/3330466.html

更详细的介绍:http://blog.csdn.net/sjpz0124/article/details/45980361

你可能感兴趣的:(对称/非对称二元数据)