均值是为了描述集中趋势,而方差则是描述分散情况。
汇总统计量简单明了, 但风险也大, 因为它们很有可能会掩盖数据的真相。 另一种方法就是看数据的分布(distribution),它描述了各个值出现的频繁程度。
表示分布最常用的方法是直方图(histogram),这种图用于展示各个值出现的频数或概率。直方图很有用,因为它可以非常直观地展现数据的以下特征。在数据量较大时,可以使用曲线图。
• 众数
分布中出现次数最多的值叫做众数,众数是最适合描述典型值的汇总统计量。
• 形状
以众数为中心,整个分布的形状是否对称,是否有奇异处,比如升降快慢、截断、突出尖刺等等,分析是否合理。
• 异常值
远离众数的值叫做异常值(outlier)。其中有些只是罕见情况,但有些很有可能是汇总或者记录数据的某个环节中的失误导致的。
如果你对数据的含义有基本认识,设计一个能展示直观效应的可视化方法通常会有所帮助。可以做一个变换,凸显数据的特征,比如,放大图形的某一部分、归一化处理,或者将数据从一个域变换到另一个域等等。
可以用相对风险(relative risk)来概括类似的数据,它代表两个概率的比值。例如。第一胎提前出生的概率是18.2%。非第一胎婴儿提前出生的概率是16.8%。因此相对风险就是1.08。这意味着第一胎较其他几胎更早出生的可能性有8。
平均数:是统计中最常用的数据代表值,比较可靠和稳定,因为它与每一个数据都有关,反映出来的信息最充分。平均数既可以描述一组数据本身的整体平均情况,也可以用来作为不同组数据比较的一个标准。因此,它在生活中应用最广泛,比如我们经常所说的平均成绩、平均身高、平均体重等。
中位数:作为一组数据的代表,可靠性比较差,因为它只利用了部分数据。但当一组数据的个别数据偏大或偏小时,用中位数来描述该组数据的集中趋势就比较合适。
众数:作为一组数据的代表,可靠性也比较差,因为它也只利用了部分数据。在一组数据中,如果个别数据有很大的变动,且某个数据出现的次数最多,此时用该数据(即众数)表示这组数据的“集中趋势”就比较适合。
平均数、中位数和众数的联系与区别:
平均数应用比较广泛,它作为一组数据的代表,比较稳定、可靠。但平均数与一组数据中的所有数据都有关系,容易受极端数据的影响;简单的说就是表示这组数据的平均数。中位数在一组数据中的数值排序中处于中间的位置,人们由中位数可以对事物的大体进行判断和掌控,它虽然不受极端数据的影响,但可靠性比较差;所以中位数只是表示这组数据的一般情况。众数着眼对一组数据出现的频数的考察,它作为一组数据的代表,它不受极端数据的影响,其大小与一组数据中的部分数据有关,当一组数据中,如果个别数据有很大的变化,且某个数据出现的次数较多,此时用众数表示这组数据的集中趋势,比较合适,体现了整个数据的集中情况。 这三个统计量虽反映有所不同,但都可表示数据的集中趋势,都可作为数据一般水平的代表。应用时可以根据数据的特点进行选择,一般使用平均数,可以用中位数和众数作为辅助考察数据。
偏度(skewness)是度量分布函数不对称程度的统计量。样本偏度的定义为:
这里 m2 是均方离差(即方差),m3 是平均的立方离差。负的偏度表示分布向左偏(skews left),此时分布函数的左边会比右边延伸得更长;正的偏度表示分布函数向右偏。上述计算样本偏度的公式在实际应用中使用得并不多。 因为如果样本中存在异常值, 那么这些异常值可能对偏度的值产生非常大的影响。
另外一个评价分布函数非对称程度的方法是比较均值和中位数的大小。
皮尔逊中值偏度系数(Pearson’s median skewness coefficient)就是一个基于这种思想的偏度度量(其中μ为均值,μ1/2 为中位数):
该统计量是偏度的一个鲁棒估计,它对异常值的影响不敏感。
假设检验(hypothesis testing)的逻辑类似于数学上的反证法:为了证明数学命题A是正确的,我们先假设A是错误的,如果基于这个假设得出了矛盾的结果,那么我们就证明了A是正确的。同样地,为了检验某个直观效应是否真实存在,我们首先假设这个效应不是真实存在的,即偶然造成的(原假设)。然后基于这个原假设计算出发生这种效应的概率(p 值)。如果p值非常小,我们就可以认为原假设不大可能是真的。
我们提到了一个问题:如何确定观测到的表观效应是否真实存在?我们是这样来处理的。首先,定义原假设(效应不存在)为H0,然后定义p值为 P(E|H0), 这里的E表示的是与表观效应相符以及比表观效应更显著的效应。 最后我们可以计算得到p值,并将其与阈值α作比较。一般说来有如下的几种解释:
• 古典解释
在古典的假设检验中,如果p值小于阈值α,那么我们可以说效应在统计学上是显著的,但是不能得到效应真实存在的结论。这种解释很谨慎,避免提到结论,但无法让人满意。
• 实际解释
在实际应用中,人们并没有像上述那样正式地处理假设检验。在绝大多数科学杂志中,研究者毫无节制地报道p值,读者也将它们作为表观效应真实存在的证据。p值越低,就越能使他们相信结论的正确性。
• 贝叶斯统计解释
实际上我们想知道的是 P(HA|E),这里HA是与H0相对的假设,即效应是真实存在的。由贝叶斯定理可得
这里P(HA)是在我们观测到这个效应之前的先验概率。P(E|HA)是在HA成立的条件下观测到效应E的概率。P(E)是在任意情况下观测到效应E的概率。效应要么存在,要么不存在,所以这里P(E)可以表示为
P(E) = P(E|HA)P(HA) + P(E|H0)P(H0)
我们使用数据集来构建HA,然后再用同一个数据集进行检验。这并不是一个好方法,很容易产生错误结果。可以用交叉验证(cross-validation)的方法来解决这个问题:用一批数据来计算δ,然后再用另一批数据来计算 P(HA|E)。 第一批数据称为训练集(training set),第二批数据称为测试集(testing set)。
贝叶斯概率依赖于先验概率的指定,而人们在这个问题上往往很难达成一致,一些人因此对贝叶斯概率持反对态度。对那些坚持认为科学结果应是具有客观性和普遍性的人来说,贝叶斯概率的这种性质是他们无法接受的。
针对反对观点,下面是一种解释:在实际应用中,强有力的证据会降低先验概率的影响,所以即使人们初始指定的概率不同,最终的后验概率会倾向于收敛。