【导读】今天我们继续以《数据挖掘概念与技术》(机械工业出版社,作者:Jiawei Han;Micheline Kamber;翻译:范明 / 孟小峰)一书为基础,配合Python代码给大家介绍数据属性、度量和基本统计描述图形。今天我们所涉及的内容依然非常基础,但却是后续不断会用到的一些概念和知识。笔者也将书中内容提炼成了层次更加清晰的思维导图, 并在jupyter notebook 中使用python书写了对应代码。你可以在我们的公众号"数据臭皮匠" 中回复"第二章xmind", 获取xmind格式的思维导图。回复"第二章代码",获取本文的jupyter代码
1、数据属性
书中称数据属性。分为标称属性、序数属性、数值属性。尽管每个出处的叫法可能不一样,但其实就是我们很熟悉的数据分类的概念,下面大家可以感受下
标称属性
类别型属性,不同类别间无法比较顺序, 如:职业类别, 颜色类别等
二元属性
只有两个类别, 0表示属性不出现, 1表示出现 如,是否抽烟等
对称的二元属性
两种状态有相同的价值,携带相同的权重,如性别的男女属于对称的二元属性(一般 标识性别时男为1,女为0)
非对称的二元属性
两种状态有着不一样的权重, 如艾滋病病毒化验结果,1 为阳性,0 为阴性,通常使用1表示重要的状态(HIV阳性), 另一个用0表示(HIV阴性)
序数属性
可以排先后顺序, 单元素之间的差值无意义 如, 大中小, 很满意, 满意, 中性,不满意等