数据的属性——区间与比率的理解

数据具有属性,如关系型数据库中每一个entry都具有若干个attribute。 attribute可以按属性值之间可以进行那些操作(也就是进行哪些操作是有意义的)来分成4类:Nominal(标称)Ordinal(序数)Internal(区间)Ratio(比率)

其中 Nominal 和 Ordinal 都好理解,一个是仅仅给出了一个名称(属性值之间只能进行=和≠),一个是只提供了对象的顺序(属性值之间除了=和≠之外还可以进行<和>运算)。

然而 Internal 和 Ratio 的区别有点confusing,先看一下书上的解释:

区间:对于区间属性,值之间的差是有意义的,即存在测量单位。如日历日期、摄氏或华氏温度
比率:对于比率属性,差和比率都是有意义的。如绝对温度、货币量、计数、年龄、电流等

WTF?

参考网上资料:http://blog.csdn.net/tomcmd/article/details/41311575 得以下结论:

对于日期来讲,不能说2014年是1007年的两倍所以日期是区间属性而不是比率属性,也就是说差是有意义,但是比值却没有意义
拿货币来说,我有200元,你有100元,可以说我比你多100元,也可以说我的钱是你的两倍,所以货币量就是比率属性。

这样理解起来貌似能区分一些区间属性和比率属性,但是总感觉不能明显的区分这两种类型。比如昨天10℃,今天20℃,我们可以说今天比昨天气温高10℃,也可以说今天的温度是昨天的两倍,这么说摄氏度应该属于比率属性,但事实上摄氏度属于区间。后面这句话到底有没有意义我们很难分辨。所以我们可以根据该属性是否具有固定零点来理解:

就拿摄氏度来说,为什么摄氏度不是比率而绝对温度是比率属性呢?因为摄氏度不存在固有零点,也就是说0℃并不是指现在没有温度,或者该物质的粒子具有零动能。而绝对温度在0K时,物质粒子具有零动能,以0K为固有零点,我们可以说20K是10K的两倍,而20℃(=293.15K) 并不是10℃(=283.15K)的两倍。再比如年龄,0岁表示我们刚出生,可以以此为固有零点,20岁是10岁的两倍,所以年龄和绝对温度都是比率。

你可能感兴趣的:(数据的属性——区间与比率的理解)