写给所有人的极简统计学
永野裕之
23个想法
图表
>> 那就是图表绘制者可以(在某种程度上)改变读者对数据变化程度的印象。
>> 柱状图也可以通过在图表中的数值间隔上“下功夫”,改变读者的印象。
>> 饼状图一般从时钟的12点位置开始,按照比例从大到小的顺序将各个项目进行排序。
>> 带状图通常用于根据年份等条件,比较同一项目的占比变化情况。
数据与变量
>> 离散型数据”是指两个相邻的项之间没有可取值的数据。
代表值
>> 中位数:将数据由大到小排列时,位于最中间的数值。
>> 数据存在偏离值(与其他数值相比,很明显偏大或偏小的值)的情况,平均值会因为偏离值的影响偏大或偏小。在这种情况下,更多时候会使用更加适合的中位数来代替平均数,作为数据的代表值。
>> 众数:一组数据中出现次数最多的数值。
研究数据的离散性
>> 数据的离散性
>> 方差和标准差
>> 四分位数是指,将数据从小到大排列并分成4等份后,处于3个分割点上的数。这3个四分位数按照从小到大的顺序分别被称为第一四分位数、第二四分位数和第三四分位数。
箱形图
>> 我们可以将5大要数列出来,制成箱形图。
>> [插图]
>> 被5大要数切分成的各区间,各包含了整体数据值的约25%,若每个区间的长度均等,则意味着数据整体的离散性是均匀的。反之,若各区间长度不均,则表明数据的离散程度有所偏离。
在统计学中的应用
>> 四分位数以及将其图表化的箱形图等,用于表示数据离散程度的知识点。
>> 四分位数与箱形图都是以中位数为基准来表示数据离散程度的。
>> 方差与标准差等值是以平均数为基准来表示数据离散程度的。
方差
>> 这种以平均数为基准,“(与平均数的差)2的平均数”被称作方差。
点位图
>> 矩形图与箱形图,适用于针对单变量数据加以整理,并表示其倾向特征的图像
>> 要抓住两个变量之间的倾向特征,就必须要用到别的图表,这就是点位图(又称散布图)。
>> 对于从所有数据的一部分标本(样本)中得出的结果,其是否可
>> 以代表所有数据特征的方法被称作“推测统计”。
相关系数
>> 表示相关关系的正负与强弱的数值,这就是相关系数。