卫生统计学 复习资料
章节重点:
第一章绪论
1.当人们研发了一种治疗高血压的新药,应该怎样评价该新药的疗效?最基本的方法就是比较。
2.每个人的血压值都不一样,每个高血压患者对同一种药物治疗的反应也存在差别,这就是所谓的个体差异和不确定性。
3.在统计设计的基础上,对数据收集、整理、分析以及对分析结果的正确解释和表达是医学统计学的基本内容以及统计工作的基本步骤。
4.研究的统计设计按照是否对研究对象施加干预措施分为观察性研究和实验性研究两大类,前者又可分为横断面研究、病例对照研究和队列研究,后者又可根据研究对象的不同分为动物实验、临床试验和社区干预试验。
5.数据的统计分析主要包括两方面的内容:一是统计描述,二是统计推断,即在一定的可信程度或概率保证下,根据样本信息推断总体特征。
6.统计推断通常包括参数估计和假设检验两个内容。参数估计是指用样本指标推断总体相应的指标。
7.总体:人们通常需要了解或研究整个的一类个体,简单地说,这个类就是总体。
8.样本:研究整个总体一般并不现实,能研究的通常只是它的一个部分,这个部分就是样本。
9.总体就是所有同质观察单位某种观察值(即变量值)的全体,样本是总体中抽取部分观察单位的观测值的集合。总体是根据研究目的所确定的,一般有无限总体和有限总体之分。总体的某些数值特征,称为参数。
10.有代表性的样本要满足两个条件:随机抽样和足够的样本含量。
11.采用干预措施叫实验值,没有干预措施叫对照组。
12.定量变量:有些问题的答案如年龄、家庭人口数是具体的数值,所对应的变量是定量的,称为定量变量。
13.定量变量有连续和离散之分。年龄就是一个连续变量。
14.定性变量又可分为有序分类和无序分类的变量,所谓有序分类变量,是指其取值的各类别之间存在程度上的差别,给人以“半定量”的感觉,因此也称为等级变量,如学历;无序变量又可分为二项分类变量和多项分类变量。
15.误差:实测值与真实值之差,一般可分为随机误差和非随机误差。随机误差在随机抽样和观测中是不可避免的。非随机误差最常见的即所谓的系统误差,是指实测值系统偏离真实值的、具有方向性的误差,因此也常称为偏性或偏倚。
16.概率:统计推断中最为重要的概念。一个事件机会的大小,取决于该事件的可能发生数与这一事件的可能发生和不发生的全部数之比,这个比值就是这一事件发生概率的表示。
17.概率通常用P表示,概率取值界于0与1两个极端之间。当某事件发生的概率小于或等于0.05时,统计学习惯上称该事件为小概率事件。
第二章调查研究设计
1.调查研究设计是调查研究取得真实和可靠结果的重要保证。
2.调查目的是选定调查指标的依据,而调查指标又是调查目的的具体体现。
3.根据调查目的确定调查对象,即明确调查总体的同质范围。目标总体中组成调查对象的每个“个体”即为观察单位。应根据不同的研究目的选择不同的调查对象。若调查目的是早发现、早诊断、早治疗,则可选择高危人群。
4.确定调查对象和观察单位后,还要确定需要调查多少观察单位,即样本变量。
5.普查:就是全面调查,即调查目标总体中全部观察对象。
6.普查的优点:理论上普查没有抽样误差,可以直接得到总体参数。
7.疾病普查时应考虑的条件:①疾病患病率的高低和病程的长短②是否具有灵敏度和特异度较高的检查或诊断方法③普查方法是否便于普查人员操作,易被群众接受④是否具有实施以及治疗条件。
8.抽样调查:是一种非全面调查。调查抽样有概率抽样与非概率抽样之分。概率抽样是指总体中观察单位被抽中的概率是已知的或可以计算的。概率抽样的样本对总体代表性较好,可以计算抽样误差,可以对总体进行统计推断。
9.调查研究中常用的几种概率抽样方法:单纯随机抽样、系统抽样、整群抽样和分层抽样。
10.非概率抽样是指总体中每个观察单位被抽中的概率是未知的或不能计算的。
11.在调查问题设计中,应注意避免的问题:①双重问题②双重否定问题③模棱两可的问题④语义模糊的问题⑤诱导性问题⑥问题中的专业术语
12.调查问题安排顺序总原则:①符合逻辑②一般问题在前,特殊问题在后③易答题在前,难答题在后④如果采用封闭式和开放式相结合的问题,一般先设置封闭式问题⑤敏感问题一般放在最后
13.资料分组的目的:将性质相同的观察单位合在一起,将性质不同的观察单位分开。
14.分组可按类型分组,也可按数量分组。所谓按类型分组,就是按分组因素的类别或特征进行分组;所谓按数量分组,就是按分组因素的数量大小进行分组。
15.常用的概率抽样方法:
(1)单纯随机抽样
优点:均数(或率)及标准误的计算简便。
缺点:当总体观察单位数较多时,要对观察单位一一编号,比较麻烦,实际工作中有时难以办到。
(2)系统抽样
优点:①易于理解,简便易行②容易得到一个按比例分配的样本③样本的观察单位在总体中分布均匀,其抽样误差一般小于单纯随机抽样。
缺点:①当总体中观察单位按顺序有周期趋势或单调增(或减)趋势时,系统抽样将产生明显的偏性;但对于适合采用系统抽样的情形,一旦确定了抽样间隔,就必须严格遵守,不得随意更改,否则,可能造成另外的系统误差。②实际工作中一般按单纯随机抽样方法估计系统抽样的抽样误差,因此这样计算得到的抽样误差一般偏大。
(3)分层抽样
分层时应使样本中各层的比例接近总体的比例。
确定各层观察单位数的方法:①按比例分配②最优分配
优点:①减少抽样误差②便于对不同的层采用不同的抽样方法③还可对不同层进行独立分析
(4)整群抽样
优点:便于组织,节省经费,容易控制调查质量。
缺点:当样本含量一定时,抽样误差一般大于单纯随机抽样的误差。
16.各种抽样方法的抽样误差大小的关系:整群抽样误差≥单纯随机抽样误差≥系统抽样误差≥分层抽样误差
17.常见的非概率抽样方法:偶遇抽样、立意抽样、定额抽样、雪球抽样
18.效度:又称真实性或准确性,用以反映测量结果与“真实性”的接近程度。包括标准效度、内容效度、结构效度和区分效度。
19.效度的计量方法
(1)定量观察的标准效度:设用两个测量手段对n个个体进行定量观察,其中一个手段为标准手段,即“金标准”。
(2)定性观察的标准效度。设用两个测量手段对n个个体进行定性观察,结果为二分类或者是多分类变量。
(3)半定量观察的标准效度:Kappa系数就是标准效度的度量。Kappa系数的取值范围为-1~1,但通常落在0和1之间。Kappa<0.4,两者一致性较差,0.4≤Kappa<0.75,两者一致性一般;Kappa≥0.75,两者一致性较好。
(4)结构效度
20.信度:又称可靠性、重复性、稳定性或精密度,用以反映相同条件下重复测定结果的一致程度。
21.常用的信度指标:
(1)重测信度:在一定时间间隔中运用同一量表对同一组被调查对象进行重复测量所得的信度系数。
(2)分半信度
(3)克朗巴赫α系数:克朗巴赫α系数的值在0和1之间,其值越大,信度越高。
22.反应度:指内、外环境变化时,若被测对象有所变化,则测量结果应该敏感地显示出反应。
一般来说,效应尺度应大于0.2,,0.2~0.4为较小效应,0.5`~0.8为中等效应,0.8以上为较大效应。
第三章实验研究设计
1.实验研究是指将来自同一研究总体的研究对象随机分配到两个或多个处理组后,分别给予不同的实验条件或处理措施,随访并比较组间实验效应(或结果)的差别,从而评价实验条件或干预处理措施效果的研究方法。
2.根据受试对象的不同,实验可以分为:
①动物实验:受试对象通常为动物
②临床试验:受试对象通常为患者
③现场试验:受试对象通常为自然人群
3.实验设计必须遵循对照、随机化和重复三个基本原则。
(1)对照原则:空白对照、安慰剂对照、标准对照、实验对照、自身对照、相互对照
(2)随机化原则:随机抽样、随机分配、实验顺序随机
(3)重复原则:对多个受试对象进行实验、对同一受试对象进行重复观测
4.实验设计的三个基本要素:受试对象、处理因素和实验效应。
5.准确度:观察值与真值的接近程度,主要受系统误差的影响。
6.精密度:相同条件下对同一对象的同一指标进行重复观察时,观察值与其均数的接近程度,其差值受随机误差的影响。
7.偏倚是一种系统误差。根据偏倚所来源的实验阶段不同,可将其分为选择性偏倚、测量性偏倚、混杂性偏偏倚。
8.沾染和干扰的控制有赖于加强实验管理,临床试验中应尽量使用
9.常用的实验设计类型:
(1)完全随机设计:①采用完全随机化的方法将同质的受试对象分配到各处理组
②从不同的总体中随机抽取部分观察单位进行对比研究
优点:设计简单,易于实施,出现缺失数据时仍可进行统计分析。
缺点:小样本时,均衡性可能较差,与随机区组设计相比,一般效率较低。
(2)配对设计:将受试对象按配对因素相同或相近配成对子,再将每对中的两个受试对象随机分配到两个不同的处理组中。
优点:可增强处理组间的均衡性,效率较高。
缺点:在于配对条件不易严格控制,当配对失败或配对欠佳时,反而会降低效率,而且配对的过程还可能延长实验时间。
(3)随机区组设计
(4)交叉设计
(5)析因设计
第四章 定量资料的统计描述
1.临床常用格拉斯哥昏迷评分,总分最高为15分,最低为3分,GCS处于13-15分者为轻度意识障碍,9-12分为中度意识障碍,3-8分为重度意识障碍。
2.全距:全距又称为极差,是全部数据中最大值与最小值之差,用符号R表示。
3.划分组段:(1)确定组数,一般当观察值的个数n在50以下时可分5到8组,n在50以上时可分9到15组。
(2)确定组距,组距=R/组数,为了便于计算,组距可适当取整。
(3)确定各组段的上下限,上限=下限+组距
4.频数分布表和频数分布图的主要用途:
(1)揭示频数分布的特征:从频数分布表和频数分布图可以看出频数分布的两个重要特征:集中趋势和离散趋势。集中趋势是指一组数据向某一个位置聚集或集中的倾向,离散程度则反映的是一组数据的分散性或变异性。
(2)揭示频数分布的类型:根据频数分布的特征可以将资料资料的分布分为对称型和不对称型两种类型。不对称型的分布是指频数分布不对称,集中位置偏向一侧,有时也称之为偏态分布。若集中位置偏向数值小的一侧(左侧),称为正偏态;若集中位置偏向数值大的一侧(右侧),称为负偏态。
5.均数:用于描述一组同质定量资料的平均水平。常用希腊字母μ表示总体均数,用表示样本均数。
6.样本均数的计算
(1)直接法 将所有的原始观察值直接相加后,再除以观察值的个数n,
7.均数的特性:(1)各观察值与均数之差(离均差)的总和等于零。
(2)各观察值的离均差平方和最小。
以上两个特性表明均数是一组单峰对称分布观察值最理想的代表值。
8.均数的应用:(1)均数反映一组同质观察值的平均水平。
(2)均数适用于单峰对称分布资料,特别是正态分布或近似正态分布的资料。
9.几何均数的计算:样本几何均数用G表示
10.几何均数的应用:
(1)适用于观察值间呈倍数或近似倍数关系的资料。
(2)适用于变量呈正偏态分布,经过对数变换后呈正态分布或近似正态分布的资料。
(3)负偏态资料则不宜用几何均数,宜用中位数。
11.中位数是一个位置指标,它是将一组观察值按顺序排列后位次居中的数值,因此,在全部观察值中,大于和小于中位数的观察值个数相等。样本中位数用M表示。
12.中位数的应用:
(1)中位数可以用于各种分布的资料,在正态分布资料中,中位数等于均数,在对数正态分布资料中,中位数等于几何均数。
(2)中位数不受极端值的影响,实际工作中主要用于不对称分布类型的资料、两端无确切值或分布不明确的资料。
13.描述离散程度的常用指标有极差、四分位数间距、方差、标准差和变异系数。
14.极差:用符号R表示。极差大,说明变异程度大;反之说明变异程度小。
缺点:只涉及两个极端值,没有利用全部数据的信息,不能反映组内其他观察值的变异。
常用于描述单峰对称分布小样本资料的离散程度,或用于初步了解资料的变异程度。
17.标准差:方差的单位是观察值单位的平方,在实际工作中使用不方便,为还原单位,将方差开平方得到标准差。或
标准差是描述单峰对称分布资料离散程度最常用的指标。标准差大,表示观察值之间变异程度大,即一组观察值的分布较分散。
19.正态分布特征:(1)正态曲线在横轴上方均数处最高
(2)正态分布以均数为中心,左右对称
(3)正态分布有两个参数,即位置参数和形态参数
(4)正态曲线下的面积分布有一定的规律
21.参考值是具有明确背景资料的参考人群某项指标的测定值,医学参考值范围指包括绝大多数正常人的人体形态、功能和代谢产物等各种生理及生化指标观察值的波动范围,一般在临床上用作判定正常和异常的参考标准。
22.确定医学参考值范围的步骤和注意事项:
(1)确定观察对象和抽取足够的观察单位
(2)测定方法应统一、准确
(3)决定是否分组制定参考值范围
(4)确定取双侧或单侧参考值范围
(5)选定适当的百分界限
(6)选择制定医学参考范围的方法
第五章 定性资料的统计描述
1.列联表的横标目一般为分组变量,纵标目为结局变量。
2.率:某现象实际发生数与某时间段可能发生该现象的观察单位总数之比,用以说明该现象发生的频率或强度。
3.构成比:事物内部某一组成部分观察单位数与同一事物各组成部分的观察单位总数之比,用以说明事物内部各组成部分所占的比重,常用百分数表示。
4.构成比的特点:①分子是分母的一部分,各组成部分构成比数值在0和1之间波动。各组成部分的构成比数值之和等于1或100%
②事物内部各组成部分之间呈此消彼长关系。
5.相对比:简称比,是两个有关联的指标之比值,用以说明一个指标是另一个指标的几倍或几分之几。
6.应用相对数的注意事项:(1)计算相对数应有足够的观察单位数:计算相对数时,应注意观察单位的单位数不能太小。必须要有足够的观察单位数作为分母。
(2)分析时不能以构成比代替率:构成比说明事物内部各组成部分所占的比重,不能说明某现象发生的概率或强度大小。在实际应用中,错误地将构成比当成率来应用,常导致一些不合理的推论。
(3)应将分子和分母分别合计求合计率
(4)相对数的比较应注意其可比较性
(5)样本率或样本构成比的比较应作假设检验
(6)某些情况下最好使用绝对数:①传染病疫情描述②其他突发事件的描述
7.标准化法的意义:标准化法的基本思想就是采用统一的标准构成,以消除年龄、性别、病情轻重及病程长短等因素构成不同对病死率、死亡率、治愈率等的影响,使算得的标准化率具有可比性。
8.标准化率的计算:计算标准化率的常用方法有直接法和间接法两种。
9.选择标准组:①根据研究目的选择有代表性的、较稳定的、数量较大的人群
②也可将欲比较的两地或两组的人口数合并作为标准组,或选择其中一组人口作为标准组。
10.应用标准化法的注意事项:
(1)标准化法的目的是为了消除混杂因素的影响,通过选择同一参照标准,使算得的标准化率具有可比性。但标准化率并不代表真实水平,选择的标准不同,计算出来的标准化率也不相同。标准化率仅适用于相互间的比较。
(2)样本的标准化率是样本指标值,亦存在抽样误差,需作假设检验。
(3)注意标准化方法的选用。
(4)各年龄组率若出现明显交叉,或呈非平行变化趋势时,则不适合采用标准化法,宜分层比较各年龄组率。
第六章 总体均数的估计
1.在抽样研究中,由于同质总体的个体间存在差异,即个体差异,因而从同一总体中随机抽取若干份样本,样本均数往往不等于总体均数,且各样本均数之间也存在差异。这种由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异 称为抽样误差。
2.样本均数的抽样分布具有以下特点:
①各样本均数未必等于总体均数
②样本均数之间存在差异
③样本均数的分布很有规律,围绕总体均数4.5,中间多、两边少,左右对称,基本服从正态分布
④样本均数的变异比总体的变异少
⑤随着样本含量的增加,样本均数的变异范围逐渐缩小
3.样本均数的标准差称为均数的标准误
4. 标准差和均数的标准误的区别和联系
5.t分布的特征:①以t=0为中心左右对称的单峰分布。
②t分布曲线的形态取决于自由度y的大小。
6.参数估计有点估计和区间估计两种方法。
7.区间估计:按一定的概率,估计总体参数所在的范围,这个范围称为参数的置信区间。
8.置信区间的正确应用
(1)置信区间的含义
(2)置信区间的两个要素
第七章假设检验
1.假设检验的目的是推断样本统计量的差异是由于总体参数的不同造成的,抑或由于抽样误差造成的。假设检验的基本思想是在总体参数相等这一假设成立的前提下,计算出现等于及大于(或等于及小于)现有样本统计量的可能性(P值)。如果P值很小,小于等于事先规定的一个界限(例如5%),结论就是拒绝无效假设“总体参数相同”,认为总体参数不同。如果p值大于事先规定的界限,就不能拒绝这个假设,尚不能认为总体参数间不同。
2.假设检验的基本步骤:
①建立检验假设,确定检验水准
②计算检验统计量
③确定p值,作出统计推断
3.当样本量固定时,α越小,β越大;反之,α越大,β越小。
4.假设检验需要注意的问题:
(1)数据应该来自科学严密设计的实验或调查
(2)数据应该满足假设检验方法的前提条件
(3)正确理解假设检验中概率P值的含义
(4)结论不能绝对化
5.置信区间可以回答假设检验的问题,能提供假设检验没有提供的信息。
6.置信区间在回答差别有无统计学意义的同时,还可以提示差别是否具有实际意义。
7.置信区间与假设检验是相辅相成的,若两者结合起来,可以提供更为全面的统计推断信息。
第八章检验
1.t检验的应用条件:
①在单样本t检验中,总体标准差未知且样本含量较小,要求样本来自正态分布总体。
②配对t检验是样本t检验的特殊情况,配对设计是指同质受试对象配成对子,分别接受两种不同处理,或同一受试对象分别接受两种不同处理。
③两小样本均数比较时,要求两样本均来自正态分布总体,且两样本总体方差相等;若两样本总体方差不相等时,则用t’检验。
④对两大样本的均数比较,可用z检验。
2.配对设计均数的比较:亦称为配对t检验。配对设计资料主要有以下三种:
①配对的两个受试对象分别接受两种不同处理之后的数据,如把年龄、同种属、同窝别的动物配成一对
②同一样品用两种方法(或仪器)检验出的结果
③同一受试对象处理前后的测定数据
第九章方差分析
1.方差分析的基本思想:把全部观察值间的变异按研究目的、设计类型的不同,分解成两个或多个组成部分,然后将各部分的变异与随机误差进行比较,以判断各部分的变异是否具有统计学意义。
2.三种变异:①总变异②组间变异③组内变异
3.方差分析的应用条件
①各样本是相互独立的随机样本,均服从正态分布
②各样本的总体方差相等,即满足方差齐性
第十章二项分布和Poisson分布及其应用
1.Poisson分布的适用条件:普通型、独立性、平稳性
2.Poisson分布的性质
第十一章检验
2.R×C列联表检验注意事项
3.配对设计样本率比较的检验
4.四表格的Fisher确切概率法:理论依据是超几何分布,不属于检验的范畴,适用于四表格中理论频数小于1或n小于40的情况,以及当其他检验方法所得的概率P接近检验水准α时的情况。
第十二章秩和检验
1.检验假设方法可分为参数检验和非参数检验两大类。t检验和方差分析均要求样本来自正态总体,非参数检验不以特定的总体分布为前提,也不对总体参数做推断。
2.秩和检验主要适用范围:①定量资料不满足参数检验条件
②等级资料或者以秩次为数据的资料。
3.配对设计的两样本比较
4.成组设计两样本比较的秩和检验
第十三章双变量关联性分析
1.pearson积矩相关系数常被用于定量描述两个定量变量间直线关系的相关方向和密切程度。因此,又被称为直线相关系数。
2.样本相关系数r的正负号表示两变量直线相关的方向,大于0为正相关,小于0位负相关,等于0为零相关。其绝对值大小表示两变量间直线相关的密切程度,绝对值越接近于1,说明相关密切程度越高;绝对值越接近于0.说明相关密切程度。R没有单位,取值范围在-1,1之间。
3.假设检验回答两变量间的直线相关是否具有统计学意义,P值越小并不表示相关性越强,回答两变量相关的密切程度需要计算总体相关系数β的置信区间。
4.直线相关分析应用中应注意的问题:
(1)进行直线相关分析前应先绘制散点图
(2)pearson积矩相关系数的统计推断要求两个随机变量均服从正态分布
(3)出现离群点时慎用相关
(4)相关关系不一定是因果关系
(5)分层资料不可盲目合并
第十四章直线回归分析
1.用来研究两个连续型变量之间的数量上线性依存关系的方法称为直线回归或简单回归,其中被估测的随机变量称为因变量或反应变量,常用Y表示。
2.统计学上将各点距回归直线的纵向距离平方和最小这一原则称为“残差平方和最小”。
第十九章医学人口与疾病统计常用指标
1.反映疾病发生水平的指标:
发病率:表示在一定时期内,可能发生某病的一定人群中新病例出现的频率。
患病率:在特定时间内总人口中某病新旧病例所占比例,按观察时间的不同可分为时点患病率和期间患病率。
某病病死率:某病患者中因该病而死亡的频率。
第二十一章 统计分析结果的正确表达
1.统计表是表达医学科研结果中数据和统计指标的表格形式。
2.统计图是用点、线、面等各种几何图形表达统计数据和分析结果。
3.统计表的基本结构与要求
(1)标题:置于表的最上方
(2)标目
(3)线条:采用三线表,即顶线、底线、纵标目下横线
(4)数字:同一指标小数点位数一致,位次对齐。表内不留空项,无数字用“一”表示,缺失数字用“...”表示,数值为0者记为“0”
4.统计图的基本结构
(1)标题
(2)标目
(3)刻度:纵、横轴的比例一般为5:7
(4)图例
5.常用统计图的适用条件与绘制要求
(1)条图:又称直线图
(2)圆图:以圆的总面积表示事物的全部,将其分割成若干扇面表示事物内部各构成部分所占的比重。
(3)百分比条图:以某一矩形总长度表示事物的全部,将其分割成不同长度的段表示事物内部各构成部分的比重或构成比。
(4)线图:用线段的升降来表示数值的变化,适合于描述某统计量x随另一连续型变量Y变化而变化的趋势。
(5)直方图
(6)散点图:横轴代表自变量,纵轴代表应变量,将每一个个体值描绘在坐标系中,以点的密集程度和趋势来表示两个变量间的数量关系。