数据挖掘概念与技术-第2章

【导读】今天我们继续以《数据挖掘概念与技术》(机械工业出版社,作者:Jiawei Han;Micheline Kamber;翻译:范明 / 孟小峰)一书为基础,配合Python代码给大家介绍数据属性、度量和基本统计描述图形。今天我们所涉及的内容依然非常基础,但却是后续不断会用到的一些概念和知识。笔者也将书中内容提炼成了层次更加清晰的思维导图, 并在jupyter notebook 中使用python书写了对应代码。你可以在我们的公众号"数据臭皮匠" 中回复"第二章xmind", 获取xmind格式的思维导图。回复"第二章代码",获取本文的jupyter代码

 

1、数据属性

书中称数据属性。分为标称属性、序数属性、数值属性。尽管每个出处的叫法可能不一样,但其实就是我们很熟悉的数据分类的概念,下面大家可以感受下

数据挖掘概念与技术-第2章_第1张图片

标称属性

类别型属性,不同类别间无法比较顺序, 如:职业类别, 颜色类别等

 

二元属性

只有两个类别, 0表示属性不出现, 1表示出现 如,是否抽烟等

 

对称的二元属性

两种状态有相同的价值,携带相同的权重,如性别的男女属于对称的二元属性(一般 标识性别时男为1,女为0)

 

非对称的二元属性

两种状态有着不一样的权重, 如艾滋病病毒化验结果,1 为阳性,0 为阴性,通常使用1表示重要的状态(HIV阳性), 另一个用0表示(HIV阴性)

 

序数属性

可以排先后顺序, 单元素之间的差值无意义 如, 大中小, 很满意, 满意, 中性,不满意等

 

你可能感兴趣的:(数据挖掘,大数据,python)