Python数据科学技术详解与商业实践 -读书笔记 一

变量类型与分布类型

名义变量
等级变量(有序分类变量)
连续型变量

变量的分布类型是对实际变量分布的一个概括和抽象。经常遇到的分布有二项分布、正态分布、卡方分布、t分布、f均匀分布和泊松分布等。
探索变量分布的意义在于:只要知道某个变量服从某个分布,就可以很快地了解变量在相应取值时的概率(分布是从无数个变量频率得到的,对其统计特性有了深入的分析),并且结合相应的业务场景做出解释。
正太分布的特性: 均值 = 中位数 = 众数
正太分布的3\sigma准则。

分类变量的统计量

名义变量等级变量统称为分类变量。
名义变量是指变量值不能比较大小的分类变量,例如性别男和女,并不能说女性高于男性或者说男性高于女性。这类变量还有民族、职业、行业(采掘业/制造业等)。名义变量有两种统计量,分别是频次、百分比
等级变量指变量值有等级关系,可比较大小,例如教育程度(小学<初中<高中<大学)、产品质量(低<中<高)等。等级变量有四类统计量,分别是频次、百分比、累计频次、累计百分比

连续变量的分布与集中趋势

描述变量的统计量主要有四类统计量:集中趋势、离中趋势、偏态分布与尖峰程度。
数据的集中水平:使用某个指标代表数据的集中趋势,常见指标有平均数、中位数、众数。

撤销:Ctrl/Command + Z
重做:Ctrl/Command + Y
加粗:Ctrl/Command + B
斜体:Ctrl/Command + I
标题:Ctrl/Command + Shift + H
无序列表:Ctrl/Command + Shift + U
有序列表:Ctrl/Command + Shift + O
检查列表:Ctrl/Command + Shift + C
插入代码:Ctrl/Command + Shift + K
插入链接:Ctrl/Command + Shift + L
插入图片:Ctrl/Command + Shift + G

如何插入一段漂亮的代码片

// An highlighted block
var foo = 'bar';

你可能感兴趣的:(数据挖掘)