如何确定适当的统计测试

JOHN H. MCDONALD. HANDBOOK OF BIOLOLOGICAL STATISTICS. 3ed.

如何确定适当的统计测试

我发现系统的、逐步的方法是决定如何分析生物数据的最好方法。我建议您按照以下步骤操作:

  1. 指定你问的生物问题。
  2. 以生物无效假设和备选假设的形式提出问题。
  3. 以统计无效假设和备选假设的形式提出问题。
  4. 确定哪些变量与问题相关。
  5. 确定每个变量是什么类型的变量。
  6. 设计一个控制或随机混淆变量的实验。
  7. 根据变量的数量,变量的种类,对参数假设的预期拟合以及要测试的假设,选择使用的最佳统计测试。
  8. 如有可能,进行功效分析以确定实验的良好样本量。
  9. 做实验。
  10. 检查数据以确定它是否符合您选择的统计检验的假设(主要是测量变量检验的正态性和同方差性)。如果没有,请选择更合适的测试。
  11. 应用您选择的统计检验,并解释结果。
  12. 有效地沟通你的结果,通常用图表或表格。

当你按照这本教科书的方式工作时,你会了解这个过程的不同部分。你要记住的一点很重要:“做实验”是第9步,而不是第1步。在做实验之前,你应该做很多思考,计划和决策。如果你这样做,你将有一个容易理解,易于分析和解释的实验,回答你试图回答的问题,既不太大也不太小。如果你只是想一个实验而不考虑如何进行统计,那么最终可能需要更复杂和更隐蔽的统计检验,得到的结果难以解释并向其他人解释,也可能使用太多的材料(因此浪费你的资源)或者太少的材料(从而浪费了整个实验)。

以下是该过程如何工作的示例。 Verrelli和Eanes(2001)测量了果蝇个体中的糖原含量。苍蝇在编码磷酸葡萄糖苷酶(PGM)的遗传基因座处具有多态性。在PGM蛋白质序列的位点52处,苍蝇具有缬氨酸或丙氨酸。在现场484,他们有一个缬氨酸或亮氨酸。存在氨基酸(V-V,V-L,A-V,A-L)的全部四种组合。

  1. 一个生物学问题是“Pgm基因座的氨基酸多态性对糖原含量有影响吗?”生物学问题通常是关于生物过程的东西,通常以“变化的X会导致Y的变化?”的形式出现。你可能想知道药物是否会改变血压;土壤pH值是否影响蓝莓灌木丛的生长;或蛋白质Rab10是否介导膜转运成纤毛。
  2. 生物无效假说是“不同的氨基酸序列不影响PGM的生化性质,所以糖原含量不受PGM序列的影响。”生物替代假说是“不同的氨基酸序列确实影响PGM的生化性质,所以糖原含量受PGM序列的影响。”通过思考生物无效和备选假设,你可以确保你的实验能够为你的生物问题的不同答案提供不同的结果。
  3. 统计零假设是“具有不同PGM酶序列的苍蝇具有相同的平均糖原含量”。另一种假设是“具有不同PGM序列的苍蝇具有不同的平均糖原含量”。虽然生物无效假设和替代假设是关于生物过程的,但统计无效假设和替代假设都是关于数字的;在这种情况下,糖原含量可以相同或不同。测试你的统计零假设是本手册的主要内容,它应该给你一个明确的答案;您将拒绝或接受统计null。是否拒绝统计无效假设是有足够的证据来回答你的生物问题可能是一个更困难,更主观的决定;你的结果可能有其他可能的解释,而你作为生物学专业领域的专家将不得不考虑它们的合理性。
  4. Verrelli和Eanes实验中的两个相关变量是糖原含量和PGM序列。
  5. 糖原含量是一个测量变量,可以记录为可能有许多可能值的数字。苍蝇所具有的PGM序列(V-V,V-L,A-V或A-L)是标称变量,通常记录为单词的可能值较少(在本例中为四个)。
  6. 可能很重要的其他变量,如年龄和蝇蛹在小瓶中的位置被控制(使用所有相同年龄的苍蝇)或随机分配(从小瓶中随机取出苍蝇,不考虑它们在哪里蜕皮)。也有可能观察混杂变量;例如,Verrelli和Eanes可以使用不同年龄的苍蝇,然后使用统计技术调整年龄。这可能会使分析变得更加复杂并且更难以解释,尽管它可能会提出有关年龄和糖原含量的一些有趣的内容,但它不会帮助解决有关PGM基因型和糖原含量的主要生物问题。
  7. 因为目标是比较一个名义变量组中的一个测量变量的均值,并且有两个以上的类别,所以适当的统计测试是单向anova。一旦你知道你正在分析哪些变量以及它们是什么类型,可能的统计测试数量通常限制在一到两个(至少对于本手册中的测试)。
  8. 功效分析需要对糖原含量的标准偏差进行估计,这可能在已发表的文献中可以找到,而效应大小的数字(实验人员想要检测的基因型中糖原含量的变化)。在这个实验中,基因型之间糖原含量的任何差异都会很有趣,所以实验者只是在可用时间内尽可能多地使用苍蝇。
  9. 实验完成:用不同的PGM序列在苍蝇中测量糖原含量。
  10. anova假设测量变量糖原含量正常(分布符合钟形正态曲线)和同方差(不同PGM序列中糖原含量的变化相等),并检查数据的直方图显示数据符合这些假设。如果数据不符合anova的假设,那么Kruskal?allis测试或Welch测试可能会更好。
  11. 使用电子表格,网页或计算机程序完成单向anova,并且anova的结果是P值小于0.05。 其解释是具有一些PGM序列的苍蝇具有与其他PGM序列苍蝇不同的平均糖原含量。
  12. 结果可以总结在一个表格中,但更有效的沟通方式是使用图表。

你可能感兴趣的:(如何确定适当的统计测试)