ltfgood

信度分析，如何设计考试卷

（一）信度

1 、信度的含义

测验的信度又称测验的可靠性 , 是指同一个测验对同一组被试施测两次或多次 , 所得结果一致形程度。一个好的测验必须是稳定可靠的 , 多次使用所获得的结果是前后一致的。例如 , 用直尺测量长度 , 其结果是稳定可靠的 ; 用橡皮筋测长度则是不可靠的 , 前后测量结果缺乏一致性。在测量理论中 , 信度被定义为 : 某次测验分数的真变异数与总变异数 ( 即实测分数 ) 之比 :

           ST 2

Rxx= ───

           Sx 2

式中 Rxx 表示测量的信度 ,ST 2 代表真分数的变异数 ( 方差 ),Sx 2 表示实得分数的变异数 ( 方差 ) 。

从上式可看出 , （ 1 ）信度是指实测值和真值相差的程度 , 实测值是指对某物实际进行测量时所获得值 , 也称实测分数 (X); 真值是指被测事物的真实规模取值 , 也称真分数 (T) 。由于各种原因 , 实得分数常不等于真分数 , 两者之差称为测量误差或误差分数 (E) 。从理论上看 , 实得分数由真分数和误差分数两部分组成即 :

        X=T+E

    Rxx 就是对一组测验数据的实测分数与真分数相差程度的最好估计。

（ 2 ）信度又是指相同的测验对相同的被试再次测量时引起的同样反应的程度。如果两次测验中 , 受测者所得分数或所处等级前后一致 , 则说明测验结果的信度较高 ; 反之 , 两次测验结果一致性低 , 说明测验结果的信度低。

信度是任何一种测量的必要条件 ( 但不是唯一条件 ), 只有测量值接近或等于真值 , 用同一工具多次测量同一特性获得相同或相近的结果 , 才能认为这个测量结果是可靠的。信度对于教育测量尤其重要 , 只有信度高的教育测验才能成为教育工作者有用的工具 , 才能为教育工作者提供可靠的信息 , 为教育预测和决策提供客观依据。

2 、信度的估计方法

     测验的信度是用信度系数的大小来表示的 , 根据测量理论 , 信度系数

               ST 2

    Rxx= ─── ,

             Sx 2

但是在实际测量中 , 一般只能获得实得分数 (X) 及实得变异数 (Sx 2 ), 而真分数 (T) 及真变异数 (ST 2 ) 是不知道的 , 因此 , 依据上述公式还无法机算信度系数。在统计上 , 主要采用相关分析的方法即机算两列变量的相关系数 , 用相关系数的大小来表示信度的高低。主要用以下方法来求得信度 :

（ 1 ）再测法 : 用同一测验对同一被试 , 前后施测两次 , 根据两次测验分数计算相关系数 , 即是再测信度。该信度反映了测验的稳定性程度 , 故又称稳定性系数 , 是用皮尔逊积差相关公式计算的 :

                         ∑ X 1 X 2 /N-M1M2

                 Rxx= ─────────────

                             S 1 · S 2

     式中 X 1 .X 2 为同一被试的两次测验得分 ,M1.M2 为两次测验的平均分数 ,S 1 .S 2 是两次测验的标准差 ,N 是被试人数。

用再测法估计信度 , 可以得到有关测验结果是否随时间而变化及变化程度的资料 , 可以作为预测被测者将来行为表现的依据。但也存在明显的局限性 : 前后两次测验结果易受到练习和记忆的影响 , 前后两次施测的时间间隔影响稳定性系数 , 特别是对学绩测验的影响较大。如果时间间隔太长 , 被测者的身心因受环境影响将发生大的变化 , 从而对第二次施测结果产生较大影响 , 使稳定性系数降低 ; 如果间隔太短 , 则被试第一次完成测验时练习和记忆会对第二次测验产生较大影响 , 使第二次测验性质发生变化。另外 , 有些测验不宜用再测法估计信度 , 如测量创造力测验 , 被试一旦掌握了解决问题的办法、原则 , 重测时 , 他将很容易作出反应 , 这样测验的性质就发生了改变。因此 , 只有在没有复本可用 , 测验不易受重复使用影响 , 现实条件又允许重复施测的情况下才使用重测法估计信度。

用重测法估计信度 , 间隔时间长短没有严格的规定 , 一般说 , 间隔时间越长 , 稳定性系数越低 , 最适宜的时距应根据测验目的、性质及被试特点而定 , 最好不超过六个月。对儿童的时距应该短些 , 对成年人的时距可适当长些 , 因为个体早期的身心特征变化较大 , 而成年人的身心特征则相对稳定。

（ 2 ）复本法 . 根据同一测验目的编制的许多平行德等值测验 , 可测定被试的同一特征 , 这些等值的测验叫做复本。对一组受测者间隔一定时间或同时施测两个复本 , 根据两次测验结果求得相关系数 , 即得等值性系数 , 又称复本信度。对一组受测者间隔一定时间后施测两个复本所求得的稳定性系数又称等值稳定性系数。因为用这种方法求得的信度不仅受复本质量的影响 , 而且受时间练习等因素的影响 , 因此 , 等值稳定性系数更全面地反映了测验的信度。计算等值稳定性系数是对两个复本测验结果计算斯皮尔曼积差相关系数 ( 具体公式见前 ) 。

（ 3 ）分半法 . 当测验没有复本 ( 复本的编制是很复杂的 ) 而且测验只适合施测一次的情况下 , 可用分半法估计信度 , 即将测验题目分成对等的两半 , 根据每人在这两半测验中的得分 , 计算其相关系数 , 这个系数又称内部一致性系数。

要求得分半信度 , 首先要将测验分成对等的两半。绝大多数测验是由许多题目排列组成的 , 但是若将测验简单地分成前后两部分 , 常常是不对等的 , 对等的两部分起码有两个要求 : 一是测验的两部分在难度、区分度及测验目标上基本是相同的 ; 一是被测者以同等的态度来对待两部队测验 , 即在完成两部分测验过程中 , 练习 , 疲劳 , 情绪等因素对被试产生了同等的影响。因此 , 将一个测验分成两部分时 , 常用的是奇偶分半法 , 即将奇数题分为一部分 , 将偶数题分为一部分。特别是测验题目是按由易到难排列时 , 这种分法可以将测验分为大致相等的两半 , 但是 , 对于速度型的测验不适合用奇偶分半法。

用分半法求出的测验的信度系数并不能反映整个测验的信度。这是因为信度受测验的长度的影响 , 测验越长 , 信度越高 , 将测验分成两半求得的信度系数 , 低估了整个测验的信度 , 因此 , 需对测验系数加以校正 , 校正公式是斯皮尔曼—布朗 (Spearman — Brown) 公式 :

                      2Rhh

          Rxx= ─────

                     1+Rhh

    Rxx 是整个测验的信度估计系数 ,Rhh 是两个分半测验的相关系数。上述公式的前提假设是两个半测验分数的变异性相等 , 但是若测验资料不符合这个假定 , 可用下列公式求得信度 :

     弗朗那根 (Flanagan) 公式 :

                                  Sa 2 +Sb 2

              Rxx=2 · (1- ━──── )

                                     Sx 2

   Sa 2 和 Sb 2 分别代表两个分测验分数的变异数 ,Sx 2 代表整个测验的变异数。

     卢伦 (Rulon) 公式 :

                           Sd 2

           Rxx=1- ━───

                           Sx 2

    Sd 2 代表两个半测验分数之差的变异数 ,Sx 2 代表总测验变异数。

     对于由客观性题目组成的测验 ( 即答对一题得一分 , 答错得 0 分 ), 则可用库得─理查逊 (Kuder ─ Richardson) 公式估计测验的内部一致性 :

                   k ∑ (pq)

    Rkk=( ──── )(1- ────── )

                  k-1 Sx 2

    k 为测验的总题目数 ,p 为某一个题目的答对率或通过该题目的人数比例 ,q 为未通过该题目的人数比例 ,p=1-q,Sx 2 为测验总分的方差。

     对于由客观性题目和主观性题目组成的测验 , 有些题目是多重计分的情况下 , 则要用克伦巴赫 (Cronbach) 公式计算α系数来估计测验的内部一致性 :

                k ∑ Si 2

     α =( ──── )(1- ───── )

                k-1 Sx 2

    k 为测验题目总分 ,Si 2 是某一题目得分的方差 ,Sx 2 是整个测验分数的方差。

上面这些公式不适用于速度性测验 , 因为只有每个人做完所有的题目 , 题目的方差才是准确的。

3 、提高测验信度的方法 :

影响测验信度的误差归纳起来主要有 :

(1) 抽样误差 : 简单说 , 这是在抽样过程中由于被试间的差异所造成的误差。被试间的差异可以用全距和方差大小来表示。全距是指某一心理量最大值与最小值之差。全距大说明被试间差异大 , 全距小说明被试间差异小。被试间在某一心理量上参差不齐 , 差别悬殊 , 则该心理量的方差大 ; 反之 , 方差小。对于方差小的样本 , 被试间在某一心理特征上相差较小 , 则前后两次测验结果的一致性较低 , 即降低了信度。因为被试之间的差别越小其同质性越高 , 被试的分数只要发生小的变化 , 其名次就可能改变 , 从而降低信度。

(2) 随机误差 : 由于各种偶然因素的影响而产生的误差 , 表现为用同一方法多次测量同一对象时结果上不一致。随机误差是由许多因素造成的 , 如量标的质量 , 测量的程序 , 被试的身心状态 , 测量的环境等。

根据影响测验信度的因素 , 可从以下几方面来提高测验的信度 : 一是从测验本身考虑 , 如测验的长度、难度、区分度、速度、程序、环境条件与计分方法等 ; 一是从被试自身考虑 , 如被试在被测心理特征上的差异大小 , 参加测验的动机水平 , 对测验的态度和积极性等。在此主要介绍如下几种提高测验信度的方法 :

（ 1 ）适当延长测验的长度 :

     测验的长度主要指量表所包含的题目多少。对一个测验来说 , 测验的题目越少 , 得分越容易受偶然因素的影响 , 故测验的信度越低。反之如果测验题目较多 , 即测验长度延长 , 扩大了被试得分范围 , 可在一定程度上排除偶然因素的影响 , 从而提高测验信度。但是测验信度的增加并不是等比例提高信度系数。当信度系数较小时 , 延长测验长度信度系数增加较大 ; 当信度系数已经较大时 , 延长测验长度对信度系数的影响就较小了。而且 , 在延长测验长度时 , 还需考虑其他因素的影响 , 如被试在回答问题时是否疲倦或产生厌烦情绪 , 是否节省时间、物力和财力 , 测题是否附合测验目的等。

（ 2 ）测验的难度要适中 : 难度即测验的难易程度 , 当测验难度太大时 , 被试得分普遍太低 , 呈负偏态分布 ; 当测验难度太小时 , 被试得分普遍较高 , 呈正偏态分布。太难太易的测验都使被试得分差异减小 , 使实得分数方差减小 , 从而降低测验信度。参见公式 :

                     δ E 2

            R=1- ─────

                     δ x 2

（ 3 ）测验的内容尽量同质 : 性质相同的测验内容 , 对被试也要求相同的能力、知识和技能 ; 而内容不同质的测验 , 则要求被试不同的能力、知识和技能。因而为了提高测验信度 , 测验内容应尽量同质。

（ 4 ）测验的时间要充分 : 对某一测验而言 , 应保证绝大多数被试在规定时间内完成测验 ; 否则 , 如果被试不能从容回答所有问题 , 就不能反映被试的真实水平。

（ 5 ）测验的程序要统一 : 包括测验的题目统一 , 指导语、回答问题的方式、分收试卷的方法、测验时间等都要统一。

（ 6 ）评分要客观 : 评分是否客观对测验信度有直接的影响。对于客观性题目 , 评分标准明确 , 评分容易做到客观 ; 但对于主观性题目 , 受评分者影响较大 , 不易做到客观。为了尽可能客观评分 , 应制定明确而易掌握的评分标准 , 尽量做到一卷多评 , 或一人只评一题等。

（二）效度

1 、效度的含义

     效度 (Validity) 是指测量的有效程度或测量的正确性 , 即一个测验能够测量出所要测量特性的程度。例如 , 用直尺测量长度是有效的 , 而用来测量温度则是无效的。对效度的定义可作如下理解 :

（ 1 ）任何一种测验只是对一定目的来说才是有效的。

（ 2 ）测验的效度是对测量结果而言的 , 即一种测量工具只有经过实际测量 , 才能根据测量结果判断它的效度。

（ 3 ）测验的效度是相对的而非绝对的。测验是根据行为样本 , 对所要测量的心理特性作间接推断 , 只能达到某种程度的准确性 , 而没有全有、全无的差别。

在测量理论中 , 效度被定义为 : 在一系列测量中 , 与测量目的有关的真变异数 ( 即有效变异 ) 与总变异数之比 : Sv 2

        rxy 2 = ───────

                         Sx 2

rxy 表示测量的效度系数 ,Sv 2 代表有效变异数 ,Sx 2 代表总变异数。

根据上述公式 , 可看出效度与信度的关系 :

     ∵ Sx 2 =Sv 2 +SI 2 +SE 2

       ST 2 =Sv 2 +SI 2

                    Sv 2 ST 2 -SI 2 SI 2

     ∴ rxy 2 = ─── = ───── = rxx- ─────

                 Sx 2 Sx 2 Sv 2

     ∴ rxy 2 ≤ rxx

SI 2 表示系统误差方差 , 它稳定地与有效方差结合在一起 , 对信度没有影响 , 而影响效度。从以上证明看出 , 测验的效度受测验的信度所制约 , 而且效度系数不会大于信度系数。效度高的测验 , 信度必定高 ; 但信度高的测验 , 效度则未必高。

效度在教育测量中有重要的意义。对一个测验来说 , 效度比信度更为重要 , 测验首先要保证能如实地测量出所要测量的东西 , 否则 , 这种测量将是没有意义的。在教育测量中 , 效度问题尤其重要 , 首先 , 教育测量的对象大多是精神现象 , 只能对被测者的外部表现进行测量 , 以间接了解其心理活动特点或知识技能水平。其次 , 学生的心理活动特征与其外部表现之间 , 仅有相关关系而没有严格的函数关系 , 外部行为有时并不能准确地反映某种心理状态。再次 , 教育测量对象是有主观能动性的人 , 人是能够有意识地调节自己的外部行为 , 掩盖自己的内心活动 , 这就更增加了教育测量的难度。

2 、效度的类型与估计

(1) 内容效度 (Content Validity): 是指测验目的代表所欲测量的内容和引起预期反应所达到的程度。例如 , 以考查学习成绩为目的的测验来说 ," 所欲测量的内容 " 是指教学大纲所规定的全部教材 ;" 起预期反应 " 是指学生学习这些教材所产生的行为变化 , 如对教材的记忆、理解和应用。

     在编制测验时 , 内容效度是一个相当复杂的问题 , 例如教师编制学绩测验 , 其目的是了解学生在某一学科或专题上对知识掌握情况 , 若条件允许 , 应该对大纲规定的所有内容进行全面考试 , 这显然是行不通的 , 只能从这一范围总体内容中选取有代表性题目 ( 样本 ), 组成测验 , 根据测验分数推论学生对该范围总体知识的掌握。若测验题目较好地代表了这个知识范围 , 则推论是有效的 , 即测验的内容效度高 ; 若选题有偏差 , 则推论是无效的 , 即测验的内容效度低。从另一方面看 , 测验题目所引起的被试反应 ( 是一个样本 ), 若能代表其对本学科或专题的全部行为反应 , 也说明该测验是有效的 ; 反之 , 则是无效的。因此 , 一个测验要有较高的内容效度应具备如下两个条件 :1. 要有定义好的内容范围。 2. 测验题目取样应有代表性 ( 对所界定的内容范围而言 ) 。

     估计内容效度的方法 :

A 、由专家进行逻辑分析 : 即请有关专家对测验题目与原来的内容范围是否符合进行分析 , 作出判断 , 看测验题目是否较好地代表了原来的内容。

B 、统计分析 : 克伦巴赫 (Cronbach) 认为内容效度可以进行数量估计 , 方法是从同一教学内容总体中抽取两套测题 , 分别对同一组被试进行测验 , 两种测验的相关系数可用来估计内容效度。若相关系数大 , 则内容效度高 ; 若相关系数小 , 则两个测验中至少有一个内容效度低。

另外 , 有经验的任课教师对本学科测验的内容效度有较好的判断。当然 , 若能与有关专家配合会更好些。

（ 2 ）结构效度 (Construct Validity): 又称构想效度 , 是测验对某一理论概念或心理特质测量的程度。即某测验对所要测量的结构或心理特质实际测量的程度。心理测验都是建立在心理学理论基础的 , 例如比纳─西蒙智力量表的制订 , 心理学家比纳 (Binet) 首先详细研究了智力的结构 , 他认为智力行为是一种连锁性的过程 , 包括判断、推理、解决问题等。他根据这一理论编制的智力测验 , 确实测量出被试的判断、推理和解决问题能力 , 可以认为他所编制的测验具有结构效度。一般说 , 学科测验主要看内容效度 , 心理测验主要看结构效度。判断内容效度更容易一些 , 有教学大纲作依据 ; 判断结构效度更难一些 , 因为理论结构和心理特质不易把握。因此 , 要制订有构想效度的测验 , 首先要建立理论结构 , 例如智力测验 , 先要确定关于智力的一套理论 , 如智力的概念、结构、与环境的关系、与年龄的关系、与性别的关系等 , 在理论的基础上提出若干假设并编制测题。

确定结构效度的方法 :

A 、对测验题目进行分析 : 主要是分析测验的内容 , 被试对题目所作的反应 , 测验题目的同质性以及分测验之间的关系来判断测验的构想效度。

B 、计算与同类权威测验的相关 : 某一个新测验如果与同类的大家公认有效的已有测验之间 , 在测验结果上相关很高 , 说明这两个测验测的是相同特质 , 即新测验也有较高的结构效度 , 如后编的智力测验常与斯坦福─比纳智力量表进行比较。

C 、因素分析 : 通过因素分析找到影响测验分数的共同因素 , 在测验分数的总变异中来自有关因素的比例 , 可以作为构想效度的指标。

(3) 预测效度 (Predictive Validity): 又称实证效度 , 是指一个测验对个体将来的行为或获得的成就进行预测时的准确性。一个测验预测得越准确 , 预测效度越高。被预测的行为或成绩是检验预测效度的标准 , 简称效标 (Criterion), 即衡量测验有效性的参照标准。效标是估计预测效度的主要依据 , 应具备如下一些条件 1) 有效性 : 即效标测量本身必须有效。 (2) 可靠性 : 效标测量要具有较高的信度。 (3) 客观性 : 在效标测量时要防止受评定者主观印象和成见的影响 , 要防止效标污染 , 即由于主试知道某个人原来的测验成绩 , 因而影响了在效标测量中对这个人的评定分数。 (4) 效标测量应该简单省时 , 花费少 , 经济实用。一般常用学业成就 , 等级评定 , 临床诊断 , 实际的工作表现作为效标。例如 , 一个智力测验其预测效度既可用被试的学业成就作效标 , 也可用熟悉的班主任对其进行等级评定作效标。

估计预测效度的主要方法是 :

A 、相关法 : 即求某测验分数与效标测量间的相关 , 所得结果即效标系数。当测验分数与效标测量分数都是连续变量时 , 用积差相关公式求相关系数 ( 具体公式见统计教材 ) 。

     当测验分数是连续变量 , 而效标测量分数是二分变量时 , 可用二列相关公式计算效度系数 ( 具体公式见统计教材 ) 。

B 、区分法 : 即看原先测验的分数是否可以区分由效标测量所化分的团体。例如 , 某工厂通过测验录用了一批工人 , 过一段时间后 , 根据工作成绩将其分为称职和不称职两种 , 然后回过头来检查他们的测验分数 , 运用 t 检验看看两组在测验上的平均分数是否有显著差异。若有显著差异 , 说明测验是有效的 ; 若差异不显著 , 说明测验是无效的。

C 、功利率 : 为了测定测验的功效 , 人们还可对使用测验所化掉的费用与得到的利益进行比较 , 看其利弊大小 , 这种效度指标叫功利率。

U=B(Ns)-C(Nu)-S

U 代表功利率 ,B 表示录用一个合格的工人所产生的平均利润 ,C 表示录用一个不合格的工人所造成的损失 ,Ns 和 Nu 分别代表所录用的人中成功和不成功的人数 ,S 代表整个选人程序的费用。

计算功利率说明 , 如果一个测验简单易做 , 适合于团体施测 , 即使效度低些 , 也会有人采用 ; 反之 , 如果测验复杂 , 只能个别施测 , 费时费力 , 那么只有效度极高 , 给人带来极大好处时 , 人们才会使用它。

提高测验效度对教育测验非常关键 , 效度系数多大合适 ? 要根据测验的具体情况而定 :

    (1) 智力测验分数与熟悉教师对学生智力等级评定之间的效度系数一般在 0.30 ─ 0.50 之间。教师评定常受许多其他因素的影响。

    (2) 某一科目的标准测验成绩与任课教师对学生名次排列之间的相关系数应达到 0.60 ─ 0.70 。

    (3) 两种不同的智力测验或两种标准测验之间的相关系数应达到

0.60 ─ 0.80

      效度系数可解释为效标分数中的变异有百分之几来源于测验的变异。例如效度系数为 0.50, 则说明效标分数中有 0.502=25% 的变异来自原测验分数的变异 ; 若效度系数为 0.71, 则效标分数中有 50% 的变异来自原测验分数。

3 、提高测验效度的方法 :

（ 2 ）控制系统误差 : 系统误差是影响测验效度的主要因素。它主要包括仪器不准 , 题目和指导语有暗示性 , 答案按排不当 ( 被试可以猜测 ) 等 , 控制这些因素可以降低系统误差 , 提高效度。

(2) 精心编制测题和测验量表 : 首先测题内容要适合测验目的 , 如知识性测题就不能全面反映被试的智力水平 , 它主要测量其知识水平。其次 , 测题要清楚明了 , 用语要让被试理解 , 排列由易到难。第三 , 测题的难度和曲分度要合适。

(3) 严格按照测验程序进行测量 , 防止测量误差 : 要严格按照测验手册进行测量 , 不能作过多的解释 , 按标准评分 , 两次测验间隔要适当。

(4) 样本容量要适当 : 当样本容量增大时 , 样本对总体的代表性提高 , 样本大 , 被试的内部差异增大 , 扩大了真分数的方差 , 使效度提高。样本容量一般不应低于 30 。另外 , 抽样方法也很重要 , 一般用随机抽样 , 当群体很大时 , 可分层抽样 , 样本容量扩大时 , 其代表性才随之增大。

(5) 正确处理好信度与效度的关系 : 信度是效度的必要条件 , 但信度高的测验 , 效度不一定高 ; 而效度高的测验 , 信度却比较高。但是 , 既要有高效度 , 又要有高信度是不容易做到的。“最大可靠度（信度）要求测验项目之间有高度的组间相关；最大预测有效度却要求低度的组间相关。最大可靠度（信度）要求项目等同的难度；最大预测有效度却要求项目的难度有所区别。中等程度的组间相关（ 0.10 ─ 0.60), 通常可产生良好的效度 (0.30 ─ 0.80), 并且产生满意的信度 (0.90) 。” ( 郝德员 : 《教育与心理统计》 , 教育科学出版社 ,1962 年版 .P429)

(6) 适当增加测验的长度 : 增加测验的长度可提高测验的信度 , 也可以提高效度 , 但增加测验的长度对信度的影响大于对效度的影响。如果增加测验长度到原来的 n 倍 , 则新测验的效度系数 Rnxy 计算公式 :

                Rxy

    Rnxy= ───────────

             ├────────

             │ 1-Rxx

             │──── + Rxx

            √ n

式中 Rxy 、 Rxx 分别是原测验的效度系数和信度系数。

（三）难度

1 、测验的含义

难度 (Difficulty) 简单说是指测验的难易程度 , 通常是以题目的通过率来表示大小的 , 通过率是指被试正确回答或通过题目的人数与所有被试之比 , 即 :

            R

    P = ────── *100 ％

            N

P 表示题目难度 ,R 表示被试正确回答或通过题目的人数 ,N 表示参加测验的所有被试。 P 值越大 , 表示题目越简单 ;P 值越小 , 说明题目越难。

（ 1 ）难度影响测验分数的分布状态 : 当难度值 P 趋向 1.00 时 , 说明所有被试都得了高分 ; 当难度值 P 趋向 0.00 时 , 说明被试得了低分。在此情况下 , 被试得分集中在高分和低分端 (100 和 0), 学生间的实际差异被掩盖。因此 , 有两种非常态的分布 : 正偏态 . 负偏态 ( 如下图 ) 正偏态说明 , 被试得分集中在低端 , 表明题目偏难 ; 负偏态说明 ,

被试得分集中在高端 , 表明题目偏易。

（ 2 ）难度影响测验的信度 : 难度太大或太小的测验 , 被试得分集中在高分端或低分端 , 测验分数之间的差异变小 , 则测验分数的方差 ( δ x2) 也变小 , 根据信度公式 :

          δ E2

Rxx=1- ─── , 测验分数的方差减小 , 则 Rxx 值将降低。

          δ x2

（ 3 ）难度影响测验的鉴别力 : 在测验中 , 被试之间相互配对比较的可能性越多 , 就越有利于准确地鉴别被试的不同能力。如有 100 个学生参加考试 , 若 P=0.50 的题目 , 则必有 50 人答对 ,50 人答错 , 此题就有 2500(50*50) 次配对比较 ; 若 P=0.70, 则有 70 人答对 ,30 人答错 , 可组成 70*30=2100 次配对比较 ; 若 P=1.00 或 P=0.00, 则没有比较的可能 (100*0=0,0*100=0) 。因此 ,P 值越接近 0.50, 题目的鉴别力就越高 ; P 值越接近 1.00 或 0.00, 题目鉴别力就越低。

（ 4 ）如何确定适宜的难度水平 ?

     一个测验的难度是由组成测验的各个题目的难度决定的。整个测验的难度的确定可根据测验分数的分布作出 , 每个题目的难度多大合适 ? 这是由测验的目的决定的 , 并不是要求所有题目的难度都要在

0.50 左右 , 若所有题目的难度都要在 0.50, 题目过分同质 , 也会降低测验总分的区分力。如要通过测验选拔 10% 的学生参加某项比赛 , 测验的难度应与选拔率相当 , 保持 P=0.50 左右。有些题目即使 P 值为 0, 有时也是需要的 , 如成就测验 , 只要教育者认为重要的内容可编入测验 , 而不管 P 值大小。一般说 , 在测验中 , 题目的难度在 0.20 ─ 0.80 之间 , 整个测验的平均难度接近 0.50, 是比较理想的难度。另外 , 对于选项不同的选择题 , 难度值要求也不同 , 五择一题目 , 适宜的难度值约为 0.69; 四择一题目 , 难度值应为 0.67; 是非题的难度值应为 0.50 。

2 、难度的计算方法

（ 1 ）用题目的通过率估计难度 :

            R

    P = ────── *100%

            N

（ 2 ） . 用被试得分平均数估计难度 :

             M

    P = ────── *100%

             W

P 为难度值 ,M 是被试在某题目上的平均得分 ,W 是该题目的最高得

分 ( 满分 ) 。该公式适合于计算大题目的难度。

（ 3 ）用两端分组法计算难度 :

            PH+PL

    P = ──────── *100%

               2

P 是难度 ,PH 和 PL 分别代表高分组和低分组的通过率。当被试人数较多时 , 可用该公式计算难度。在测验总分的分布符合正态分布时 , 高分组与低分组的最适当比例是各占 27%, 如果分布较平坦 , 应高于 27% 。一般情况下 , 其比率介于 27% ─ 33% 。各类标准化测验是取 27% 。例如 , 在 100 名学生中 , 高分组与低分组各有 27 人 , 其中高分组答对第一题的有 20 人 , 低分组答对第一题的有 10 人。该题的难度是 H=20/27=0.74 PL=10/27=0.37

       0.74+0.34

    P= ─────── *100% = 56%

           2

该公式适合用二分法 ( 即答对得 1 分 , 答错得 0 分 ) 计分的题目。

（ 4 ）选择题的难度计算 :

在多项选择题中 , 由于有猜测的成分 , 被试的得分可能被夸大 , 不能真正反映测验的难度 , 吉尔福德提出了一个难度的校对公式 :

            KP-1

     CP = ──────

            K-1

CP 为校正后的通过率 ,P 为实际得到的通过率 ,K 为选项的数目。

  例如 , 某题有 75% 的被试通过 , 若该题有 5 个选项 , 则校正后的通过率应为 CP=(5*0.75-1)/(5-1)= 0.69; 同理可得 ,K=4 时 ,CP=0.67,K=2 时 ( 即是非题 ),CP=0.50 。

（ 5 ）等距量表的难度计算 : 以通过率作为难度指标 , 实际上是以顺序量标来表示难度 , 这只能指出题目难度的顺序或相对难度的高低。例如有 3 个试题 1.2.3, 其通过率分别为 50%.30%.10%, 我们可以断定第一题最易 , 第三题最难 , 但无法确定题目 1 和 2 之间的难度差别是否等于题目 2 和 3 之间的难度差别。如果被试在所欲测量的特性上呈常态分布 , 则可以根据常态曲线表 , 将试题难度转化成具有相等单位的等距量表 , 即用 Z 分数表示难度。下面是美国教育测验中心 (ETS) 采用的难度指标 :

     Δ =13+4Z

Δ (delta) 为常态化等距难度值 ,13 是平均数 , 目的是为了消除小数 ,Z 表示某题目难度距平均数有多少个标准差 ( δ ) 。Δ值介于 1 ─ 25 之间 , Δ值越大 , 难度越高 ; Δ值越小 , 难度越小。对于大多数测验而言 , 只要算出 P 值即可 , 但如要作精确的统计分析 , 则需要计算出具有等距性质的Δ值。

（四）区分度

1 、区分度的含义

区分度 (Dscimination) 是指测验项目对被试实际水平的区分程度 , 又称鉴别力。具有良好区分度的测验 , 实际水平高的被试应得高分 , 水平低的被试应得低分。它是测验是否有效的 " 指示器 ", 被作为评价试题质量 , 筛选试题的主要指标与依据。

区分度的取值范围 ( 指数 D) 在 +1.00 ─ -1.00 之间。如果测验题目有足够的效度 , 则水平高的被试得分高或通过该题的人数多 ,D ＞ 0, 这种区分被称为积极的区分 ; 反之 , 若测验的效度不高 , 水平高的被试得分低或通过的人数少 , 而水平低的被试反而得分高 ,D ＜ 0, 这种区分被称为消极的区分 ; 若高分组与低分组通过的人数相等 , 则 D=0, 说明无区分作用。具有积极区分作用的题目 ,D 值越大 , 其区分效果越好。

2 、测验区分度与信度的关系 :



区分度与信度的关系 :

     ━━━━━━━━━━━━━━━━━━━━━

          区分度 (D) 信度

     ━━━━━━━━━━━━━━━━━━━━━

               .1225 .00

               .16 .42

               .20 .63

               .30 .84

               .40 .915

               .50 .949

    ━━━━━━━━━━━━━━━━━━━━━━

上表是 R.L. 艾伯于 62 年发表的 , 假定全部题目 ( 共 100 题 ) 的难度均为 0.50 时所预测的信度系数。由上表可看出 , 测验信度随区分度的提高而增长 , 且信度增长的速度较区分度为快。因此 , 要提高测验的信度 , 提高题目的区分度是方法之一。

3 、区分度与难度的关系 :

    表 3 ━ 2 区分度与难度的关系 :

   ━━━━━━━━━━━━━━━━━━━━━━

               难度 ( P ) 区分度 (D)

   ━━━━━━━━━━━━━━━━━━━━━━

         1.00 .00 .

         90 .20

        .70 .60

        .50 1.00

         .30 .60

         .10 .20

          .00 .00

━━━━━━━━━━━━━━━━━━━━━━

由上表可知 , 当难度为 1.00 或 0 时 , 区分度将是 0, 即题目没有区分被试实际水平的能力 ; 难度为 0.50 时 , 题目的区分度达到最大值 (P=1), 因此 , 要求题目的难度应在 0.50 左右。

     题目鉴别指数与优劣评价

──────────────────────

     鉴别指数 D 试题评价

─────────────────────

    0.4 以上非常优良

    0.30 ─ 0.39 良好

    0.20 ─ 0.29 尚可

    0.19 以下应该淘汰

───────────────────────

  ( 美国测量学家伊贝尔 L.Ebel 提出 )

4 、区分度的计算

（ 1 ）客观性试题的区分度计算 :

          D=PH-PL

PH 为高分组通过试题的人数比例 ,PL 为低分组通过试题的人数比例。 D 为区分度。

（ 2 ）论文题目的区分度计算 :

           XH-XL

      D= ──────

          N(H-L)

D 为区分度指数 ,XH 为高分组得分总数 ,XL 为低分组得分总数 ,H 为该题目的最高得分 ,L 为该题目的最低得分。例如 , 一道满分为 5 分的论文性题目 , 学生回答结果统计如下 :

       表 3 ─ 3 论文性试题分析表

    ━━━━━━━━━━━━━━━━━━━━━

            高分组 │ 低分组

  ──────────────────────

     得分人次 │ 得分人次

     x f fx │ x f fx

  ━━━━━━━━━━━━━━━━━━━━━━

    5 4 20 │ 5 0 0

    4 3 12 │ 4 1 4

    3 2 6 │ 3 1 3

    2 1 2 │ 2 3 6

    1 0 0 │ 1 4 4

    0 0 0 │ 0 1 0

  ━━━━━━━━━━━━━━━━━━━━━━━━

    ∑ 10 40 ∑ 10 17

  ━━━━━━━━━━━━━━━━━━━━━━━━

               40-17

       D= ────── = 0.46

               10(5-0)

三、测验的编制

编制测验的一般程序主要包括 : 确定测验目的 , 制定编题计划 , 编制测题 , 最后合成测验。

（一）测验目的的确定

编制测验首先要明确为什麽测验 , 要测量什麽 , 即要明确测验目的。只有明确了测验目的 , 我们才知道测什麽 , 怎样测 , 才能解决测验质量的优劣问题。在教育测验中 , 教育目标是确定测验目的的唯一依据。因此 , 要明确教育测验目的 , 首先要明确教育目标 , 即教育目标必须是能够测量 , 适合于测量。所以 , 分析测验目的 , 首先要从分析教育目标入手。

教育目标的确定也是一个十分复杂的问题 , 它包括许多要素 , 这些要素既是相互独立 , 又是彼此联系的。 1956 年 , 美国心理学家布鲁姆 (B.S.Bloom) 最早提出了教育目标分类系统。他把教育目标分为认知目标、情感目标、运动技能目标三大类 , 每类目标又分成不同层次 , 如认知目标分成六个层次 : 1. 知识 ( Knowledge) , 2. 理解 (Comprehesion),3. 应用 (Application),4. 分析 (Analysis),5. 综合 (Synthesis),6. 评价 (Evoluation) 。情感目标 (Affective Domain) 分为五个层次 :1. 接受 ,2. 反应 ,3. 评价 ,4. 价值组织 ,5. 品格形成。布鲁姆的教育目标分类理论无疑对教育测验的编制有重要意义 , 但应该看到他的理论并不是尽善尽美的 , 如认知目标的六个层次存在着交叉重叠现象 , 在教育测验中很难将这些层次明确的化分开来。我国的测验理论工作者正在研究这个问题 , 准备创建一套适合我国实际的教育目标分类系统。

（二）制定编题计划

遍题计划通常就是编制测验的双向细目表 , 指出测验所包含的内容和要测定的技能 , 以及对每一项内容和技能的相对重视程度。下表是一个小学高年级自然常识测验的双向细目表 :

         表 4 ─ 1 假定的自然常识测验的双向细目表

━━━━━┳━━━━━━━━━━━━━━━━━━━━━━

教学目标 ┃基本│原理│原理因果│

教学内容 ┃知识│理解│应用分析│综合│评价│合计

   ━───╂──┼──┼─────┼──┼──┼─────

生物世界 ┃ 3 │ 5 │ 6 3 │ 2 │ 1 │ 20

资源利用 ┃ 2 │ 3 │ 3 1 │ 1 │ 0 │ 10

动力和机械┃ 2 │ 3 │ 4 2 │ 0 │ 1 │ 12

物资、物性┃ 5 │ 6 │ 8 3 │ 2 │ 1 │ 25

    能量 ┃ │ │ │ │ │

气象 ┃ 2 │ 4 │ 3 2 │ 2 │ 0 │ 13

宇宙 ┃ 2 │ 5 │ 4 1 │ 0 │ 0 │ 12

地球 ┃ 2 │ 2 │ 2 1 │ 1 │ 0 │ 8

─────╂─┼─┼─────┼──┼───────

合计 ┃ 18 28 │ 30 13 │ 8 │ 3 │ 100

━━━━━━━━━━━━━━━━━━┷━━━━━━━━━━

此表的顶端开列了要测量的认知目标 , 与目标对应最下一行的数值是各项目标所分配的权重 , 左边一栏开列的是测验内容 ( 教学内容 ), 与该栏对应的右边一栏是各项内容所分配的权重。编制这个表首先要开列教材大纲并对大纲规定的教学内容分配权重 , 其次 , 对各种教学目标分配权重 , 然后才能编制出双向细目表 , 这是编题的依据。

但在具体编制试题时 , 不宜过于拘泥于此表 , 而要根据具体情况。

（三）编制测题

编制测题是一项非常复杂的工作 , 它是实现测验目的的关键 , 测题编写的好坏直接反映了测验质量的高低 , 这是编制测验的核心环节。

1 、试题的种类 : 根据不同标准可以将试题分为不同种类 , 最常见的是根据评分是否客观将试题分为 :

（ 1 ）客观性试题：即评分标准和评分过程都是客观的 , 评分者之间的信度系数可达到 1.00 。客观性试题又可分为 : 简答题、是非题、填空题、配对题、排列题、多项选择题、找错题等。客观性试题的优点是： A 、有明确的标准答案 , 评分简单准确 , 便于使用计算机阅卷 , 节省时间； B 、这类题目适合于测量被试的知识、理解、应用、分析几个层次的认知目标； C 、在限定的时间内可包含足够的试题数量 , 保证对所测内容的覆盖率。其缺点是： A 、客观性试题不易编制 , 化费较多时间和精力； B 、它不适合测量被试的综合、评价两级认知目标； C 、学生在答题时 , 难以排除被试的随机猜测。

（ 2 ）非客观性试题 : 又包括 , 应用题、论述题、作文题、分析题等 , 这些题目被统称为论文性试题。这类题目的优点是： A 、适合测量被试较高层次的认知目标 , 如组织材料的能力、综合能力、文字表达能力、评价能力和创造能力等 , 这是客观性测题难以测量的； B 、论文性试题编制起来比较简单 , 不需要准备很多选项 , 省时省力； C 、论文性试题可克服被试的随机猜测以及对知识的简单背诵而得高分现象。其缺点也是明显的： A 、论文性试题没有明确答案 , 评分困难且不可靠； B 、题目数量少 , 对要测量内容的覆盖面小 , 不能保证内容效度； C 、测验成绩易受被试写作能力 , 书写质量等无关因素的影响。

两类题目各有利弊 , 在编制测验时应根据测验目的的要求 , 在充分了解各类试题特点的基础上 , 选择合适的题型。一般说应遵循以下原则 :

（ 1 ）依据测验目的选择题型。

（ 2 ）题目取样要有代表性。

（ 3 ）各种题目类型要合理搭配。

（ 4 ）施测与评分应符合经济性原则。

2 、多项选择题的编制 :

     在标准化测验中 , 多项选择题是应用最多的一种题型 , 它是由题干和选项两部分组成的。题干常常用直接问句或不完全陈述句 , 选项由一个正确答案和若干错误答案组成。错误答案又称干扰项 , 目的是干扰被试的选择 , 使不具备相应知识的学生作出错误的选择 , 因此又称诱答项。例如 : 找出与其他几项不属于同类的一项 :

    (A) 狗 ( 鸟 (C) 树 (D) 鱼

     孔子的最伟大成就在哪一方面 ?

    (A) 学术教育 ( 国防军事 (C) 艺术建筑 (D) 内政外交

     多选题的优点是 :1) 单位时间内可以施测很多题目 , 从而保证取样的广泛性、代表性。 2) 评分客观 , 题目量多 , 可以保证测验的可靠性。 3) 阅卷方便 , 机器评分 , 保证测验的经济性。 4) 题目可以存于题库重复使用。其缺点是 :1) 有固定答案 , 测不出对材料的组织能力和创造能力。 2) 编题复杂 , 题目量大 , 要编出一些似是而非的答案是需要一定技巧的。

多项选择题的编制应遵循以下原则 :

（ 1 ）题干意义要完整。读了题干 , 即使不看选项 , 也要知道该题的确切含义。

（ 2 ）题干的陈述要简单、明确。避免使用不必要的修饰词和太复杂的句子。

（ 3 ）错误答案要有迷惑性 , 不能错得太明显。例如 , 唐朝定都在 :

(A) 北京 (1321 (C) 长安 (D) 勃海

此题中选项 ( (D) 不是城市名 , 是明显错误的答案 , 不合要求 , 若改成 ( 兰州 (D) 洛阳较好。

（ 4 ）在选项中不宜使用重复的语句。例如 , 客观性试题的所谓 " 客观 ", 指的是 :

(A) 指鉴别认知目标的方法 ( 指选择测验内容的方法

(C) 指提出问题的方法 (D) 指试题评分的方法

选项中都有 " 的方法 ", 是没必要的 , 应删去 , 可改为 :

(A) 鉴别认知目标 ( 选择测验内容

(C) 提出问题 (D) 试题评分

（ 5 ）选项不应互相重叠 , 互相包括。例如 ,9-3 是多少 ?

(A) 大于 5 (6 (C) 小于 7 (D)12

选项中除 (D) 外 , 其余三项相互重叠 , 应予以修改。

（ 6 ）应注意题干与选项之间在逻辑与语法上的联系。

3 、论文式试题的编制 :

论文式试题的优缺点前面已分析过 , 编写这类题目应注意以下几点 :

（ 1 ）题目的范围应限制好。要让被试明确答题的范围、要求 , 不使题目过于笼统。

（ 2 ）题目的数量要适当 , 内容要具体。题目太少 , 其代表性就差 , 测验误差就大 ; 题目过多 , 易成为速度型测验 , 不利于被试对题目作深入的分析、理解。

（ 3 ）在编写试题的同时应拟定出较具体的答案及评分标准。一般说 , 这类题目的答案常常是不固定的 , 有时会有多个理想答案 , 这在测量前都应考虑到。

（ 4 ）一般不要有任选题 , 因为两个论文式题目很难做到等值。

     另外还有匹配题、操作题、改错题、是非题等 , 这些题目的编制方法及应注意的问题 , 请参考其他测量教材。

（四）合成测验

试题编好后 , 应对题目进行检查 , 组合 , 最后编辑成完整的测验 ( 试卷 ) 。

1 、检查题目 :

首先检查题目是否符合双向细目表要求。因为题目的编写一般是根据双向细目表来进行的。第二 , 检查题目叙述是否明确清晰 , 内容有无科学性错误。第三 , 检查题目的难度是否恰当 , 题目的数量是否合适。第四 , 检查题目的内容是否彼此独立 , 没有交叉。第五 , 检查题目是否适合于所测对象。

2 、编辑成测验 :

将测题编辑成完整的测验 , 一般有如下几种形式：（ 1 ）按题目的类型组合测验。将同一类型的测题组合在一起 , 这样便于计分和被试回答 , 如大部分学业成就测验即属于这种形式。（ 2 ）按题目所测量的内容排列。将测量相同要素的测题排列在一起 , 如韦氏儿童智力量表。（ 3 ）按难度递增排列题目。又有两种形式 , 一种是测验的所有题目是按由易到难排列的 ; 另一种是测验分为若干分测验 , 每个分测验是按由易到难排列的 , 韦氏智力量表。（ 4 ）按难度分层次排列 , 又称混合螺旋式排列。将各种类型的侧题依难度分成若干不同的层次 , 将同难度水平但不同性质和类型的题目组合在一起 , 再依难度排列 , 如比内─西蒙智力量表。但是 , 在实际编排测题时 , 有时是将上述几种类型混合起来 , 并不一定按照某一单一类型。类型的化分主要是便于实施和计分 , 而对被试测验分数的提高无明显影响 , 真正影响测验分数的是测题本身。因此 , 应更多地注意编题的质量。

书名叫：SPSS统计应用实务。
里面讲了信度分析的方法，效度没有说。

大学英语考试的设计原则

大规模标准化考试

大学英语四、六级考试以《大学英语教学大纲》为基础。八十年代初随着我国政府实行对外开放政策，人们认识到英语作为国际交际工具的重要性，英语教学受到了各级各类学校的高度重视。为了适应新的形势，1982 年国家教委成立了教学大纲修订组。修订组经过两年的社会需要调查、中学生英语水平调查，确定了大学英语教学目标，又在应用语言学理论指导下，通过调查研究确定了词汇表、结构表、功能意念表、和微技能表，具体地规定了大学英语课程的教学内容，《大学英语教学大纲》还把整个大学英语课程分为六级，每级都有定量指标加以规定。其中一至四级为必修课，五至六级为选修课。《大学英语教学大纲》于1985 年由国家教委颁布，是全国高等学校都要执行的重要教学文件。

国家教委在批准实施《大学英语教学大纲》的通知中指出：“《大纲》确定的教学目的和要求反映了当前国家对高等专业人才外语方面的要求，是我委今后检查大学英语教学质量的依据”，“重点院校应达到的级别由各校自定”，“凡执行本大纲的学校，国家教委将……对结束四、六级学习的学生进行统一的标准考试”。这里所说的标准考试就是“大学英语四、六级标准化考试”。

•以教学大纲为依据

<<大学英语教学大纲>>规定，语言测试要“着眼在考核学生的语言能力和交际能力，准确性和流利程度。”教学大纲指出：大学英语教学的目的是培养学生具有较强的阅读能力，一定的听的能力和译的能力，以及初步的写和说的能力，使学生能以英语为工具，获取专业所需要的信息，并为进一步提高英语水平打下较好的基础。为此，大学英语考试主要考核学生运用语言的能力，同时也考核学生对语法结构和词语用法的掌握程度。

•质量要求

<<大学英语教学大纲>>又规定：“语言测试是检查学生语言水平的重要手段，要做到科学、客观、统一和标准化”。为此，大学英语考试在设计时力求做到大规模标准化考试对质量的要求，做到：

1) 评分具有客观性、一致性

2) 对教学具有正确的指导性

3) 分数具有可比性

4) 施考条件对所有考生以及不同考次的考生一律平等

5) 便于施考

•大学英语考试的总体设计流程

大学英语考试的总体设计流程及运作流程如下。

大学英语考试的质量控制

•标准化考试

大学英语考试是一种标准化考试。标准化考试是指采用教育测量技术对学生的英语能力进行测量并符合严格规范要求的大规模考试。

标准化语言测试的目的是提供一种公认的客观标准，通过对学生语言运用的抽样检查来确定学生的实际语言能力。标准化考试通常指跨地区甚至跨国界的大规模考试，往往涉及数十万甚至上百万考生，因此对标准化考试有一系列规范要求，包括内容和形式的标准化、质量的标准化、以及过程的标准化。

1) 内容和形式的标准化

对于标准化考试来说，每次考试的试卷不同，但所考核的内容（语言知识和能力）总体保持不变，试卷形式相对稳定。不同的语言观和考试的不同用途决定考试的内容。

有些考试以考核语言水平（language proficiency）为理论基础，如美国的 TOEFL 考试；有些考试以语言交际需要为基础，如英国的 IELTS 考试；有些则以某一教学大纲为基础，如我国的“大学英语四、六级考试”。不同的语言观又决定不同的考试形式。有的认为语言能力是可以分解的，大量采用孤立的离散题（discrete-point items），以便扩大对语言点的采样，增加覆盖面；有的认为语言是一种综合能力，应大量采用综合能力题（integrative skills items），以便测量学生运用语言进行交际的能力。标准化考试通常不以某一教材为依据。对于英语标准化考试来说应妥善处理知识与能力的关系、领会能力与表达能力的关系、流利与准确的关系、句子水平与语篇水平的关系等。

2) 质量的标准化

(1) 标准化考试的信度与效度：信度和效度是标准化考试最重要的质量指标。信度指的是测量的误差要小、可靠程度要高。大规模标准化考试在公开实施前其内部信度应经过检验，一般应大于 0.85。效度指某一项考试是否考了应该考核的内容。效度只能通过外部的、独立的标准进行评价，例如把学生成绩与教师的评价进行比较、把一项考试与某一公认的大规模标准化考试作相关分析、通过长期观察考生语言能力的变化来验证考试的效度等等。一项考试的效度愈高，对分数的解释愈准确。现代语言测试研究的重点是提高测试的效度；

(2) 评分的客观性和一致性：根据评分是否受阅卷员主观判断的影响试题可分为客观性试题和主观性试题。客观性试题的常见形式有多项选择题、简答题、MC-完型填空等。客观性试题的答案是唯一的，因此可用机器阅卷。大规模标准化考试通常采用较多的客观性试题，以保证评分的客观性。主观性试题的常见形式有命题作文、翻译、回答问题等。主观题的阅卷需要采用一系列质量控制措施，包括用计算机进行调整，保证阅卷员本人、阅卷员之间、以及阅卷点之间评分的一致性。也有一些题型如简答题、综合填空等，设计试题时事先规定一定数量的可接受答案，可以称为半客观题，目的是使其尽可能兼具客观题和主观题的优点；

(3) 试题设计的质量控制：为了保证质量，试题设计一般要经过“命题--初审--预测--试题项目分析--审题--构卷--施考--阅卷及统计分析--建立题库”等环节。其中命题应有命题要求，命题员要经过专门训练，考核内容要有一定的覆盖率；进行试题项目分析和建立题库要有一定的数学模型，如经典测试理论的真分数模型、试题响应理论模型等，使每道试题都有客观数据作为参数，保证每一试卷在使用前整卷的平均难易度、试题难易度及区分度的分布情况等都能满足预定的质量要求。对于标准化考试来说一切应经过检验，且有实验数据支持。为了保证质量，标准化考试的试题在考前和考后都是保密的。

3) 过程的标准化

(1) 标准化考试要公布考试大纲。标准化考试作为一种大规模考试，应当让广大考生和用户了解考试内容、试卷构成、试题形式、记分体制等。让考生在答题过程中能充分表现自己的实际能力，使考试能保持评份标准的稳定性，并且使用户能了解分数的含义，正确使用考试结果，为此必须事先公布考试大纲。考试大纲应相对稳定，如果要改变题型，同样应经过充分实验研究，经事先公布后才能实施，以保证考试的稳定性；

(2) 标准化考试的分数应具有可比性，因此通常要对不同考次的结果进行等值处理。等值处理可以采用线性等值法、等价百分位法或试题响应理论的分数等值处理方法等，把原始分转换成换算分。只有换算分才能对考生成绩以及教学过程提供大量反馈信息。根据参照系的不同，记分体制分为正态分制、等级分制、百分制等。正态分制要求建立考生成绩常模，用考生在考生总体中的位置来表示考生的成绩，通常用均值和标准差表示。以考生成绩的正态分布作为参照系的考试称为常模参照考试。采用正态分制的考生成绩可与考生总体比较、不同考次可以比较、学校与学校可以比较、不同科目也可以比较，因此考试结果能提供大量反馈信息，成为各级用户决策的依据。正态分是间接解释的分数，而等级分则是把语言能力划分为若干等级，每级所表示的语言能力从词汇、语法、读音、交际功能、流利程度、语言复杂程度等方面进行描述，根据考生的实际能力进行判定，等级分是可以直接解释的分数。这种以某种尺度作为参照系的考试称为尺度参照考试。也可以把两者结合起来，大学英语四、六级考试以教学大纲为依据，又参照一定的常模建立记分体制，同时又考虑到我国采用百分制的习惯，以 72 分作为均值，12 分为一个标准差，60 分为及格，因此大学英语四、六级考试是一种尺度相关常模参照考试；

(3) 标准化考试还应当定期发布成绩公报，常模参照考试要公布建立常模的依据，提供使用手册等；

(4) 过程的标准化还包括施考条件的标准化，如考试时间、考场条件、考场指令等都要标准化，使不同的考生具有相同的考试条件。

•命题过程的质量控制

考试过程是环绕试卷进行的，在考试过程的诸多环节中起关键作用的是试卷的质量。大规模标准化考试要保持评价标准的稳定性，必须从保证试卷质量着手。试卷的设计要解决考什么和怎么考的问题，同时要保持评分的一致性。前者涉及考试的效度，后者涉及考试的信度。

下面分别从命题过程、记分体制、作文分调整及考务管理等方面说明大学英语四、六级考试的质量控制措施。

•命题流程

大规模标准化考试由于规模大，不得不大量采用多项选择题，以便实现机器阅卷并保证评分的客观性和一致性。实验研究证明多项选择题不但可以考核记忆，也可考核判断、分析、推理，甚至可以考核应用。多项选择题虽然形式简单，阅卷方便，但是其命题却是一项专业性极强的工作。

为了保证多项选择题的质量，不但要有一支经过专业训练的命题员队伍，而且整个命题过程包括许多环节，一般来说，用于大规模标准化考试的多项选择题，其命题流程应包含如下环节：

大规模标准化考试中多项选择题的命题流程

•命题要求

大学英语四、六级考试委员会以三个考试中心为基础建立了相当稳定的命题员网络。命题员都经过专门训练，熟悉客观题和主观题的命题原则。命题员送交的客观题在题眼的确定、题干和选择项的设计等方面都要符合多项选择题的基本技术指标。此外，考试委员会还对各部分试题提出了具体的命题要求，从考核什么语言技能到怎么考核有关语言技能，都提出了明确的可以操作的要求，以保证考试的效度。

1) 听力理解部分命题要求

听力理解部分的目的是测试学生获取口头信息的能力，包括理解主旨大意、重要的事实细节、理解隐含的意义、言语的交际功能、理解谈话人的观点态度等。

听力理解部分主要考核语言能力，要避免测验智力、记忆力或背景知识等语言外的能力。

听力理解部分目前分为对话和短篇听力材料两部分，所选材料应当是题材熟悉的对话、讲话、叙述、解说等，语言要口语化，避免采用书面语体太强的材料。所用词语不超出教学大纲词汇表规定的范围。

命题时应考虑能够全面考核教学大纲所规定的各种听力微技能。在构成一张试卷时各种听力微技能都要占一定比例。

2) 阅读理解部分命题要求

阅读理解部分的目的是测试学生通过阅读获取信息的能力。包括掌握所读材料的主旨和大意；了解说明主旨和大意的事实和细节；既理解字面的意思，也能根据所读材料进行一定的判断和推论；既理解个别句子的意义，也理解上下文的逻辑关系，理解文章的深层含义。阅读理解不但要求准确，而且要有一定的速度。

阅读材料的选材原则是：

(1) 题材广泛，可以包括人物传记、社会、文化、日常知识、科普常识等，但是所涉及的背景知识应能为学生所理解；

(2) 体裁多样，可以包括叙述文、说明文、议论文等，应体现学术英语（ English for Academic Purposes ）的特点；

(3) 语言难度及词汇量符合教学大纲规定的范围。

阅读理解能力包括三个层次：句子层次、语篇层次、以及推理判断层次，命题时应考虑到各个层次的阅读能力要有一定的比例。

3) 词语用法和语法结构部分命题要求

词语用法部分主要测试学生对词和短语的意义、搭配和用法的掌握程度，语法结构部分则主要测试正确使用语法结构的能力。词语用法和语法结构题在四、六级中各占一定比例，但都不应超出教学大纲规定的范围。

4) 完形填空部分命题要求

完形填空部分的目的是测试学生综合运用语言的能力。

完形填空部分的选材原则与阅读理解部分相同，要求学生在全面理解内容的基础上答题。命题时要考虑到要求填入的词项中虚词和实词各占一定比例，并且要包含若干必须在正确理解全文后才可能答对的题项。

5) 综合改错部分命题要求

综合改错部分的目的是测试学生综合运用语言的能力，不但要求学生能够识别错误而且能够写出正确的语言形式，因此是一种对语言表达能力的测试。

综合改错部分的选材要求是题材熟悉、没有背景知识方面的困难、文章难度略浅于阅读理解材料、文章内容要有一定的逻辑展开。命题时在短文中安排 10 个错误（不含拼写错误或标点错误）要求学生改正。错误分三种类型，一种是需要改正某个词，一种是需要增添某个词，一种是需要删除某个词。需要改正的错误有的是局部性的，有的是全局性的，涉及篇章结构；两者有一定比例，要求考生在全面理解内容的基础上改正错误，使短文的意思完整、语言正确。

6) 短文写作部分命题要求

短文写作部分的目的是考核学生运用英语书面表达思想的能力，要求学生在 30 分钟内写出一篇短文，四级不少于 100 词，六级为不少于 120 词。试卷上可能给出题目、或要求看图作文、或根据所给文章（英语或汉语）写成摘要或大意、或给出关键词或提纲要求写成短文等等。短文写作部分的命题原则是要做到使考生要求明确，使考生能够展开思想，学习好的和学习一般的学生都有内容可写，但要避免构思方面的困难，不含有背景知识方面的困难，以便达到考核书面表达能力的目的。评分时主要考虑作文是否切题、能否正确表达思想、意义是否连贯、文理是否基本通顺并无重大语言错误等。

•题库建设

题库建设是一个考试机构的基本建设，为了建设题库，大学英语四、六级考试的试卷在考前考后都严格保密。题库要有一定的数学模型，没有数学模型的试题的集合称为题堆（Item Pool），目前大学英语四、六级考试的题库建设采用经典测验理论（CTT）数学模型，今后拟逐步过渡到采用试题响应理论（IRT）数学模型，并在此基础上逐步开发大学英语四、六级考试自适应计算机考试系统。

大学英语考试的数据处理

大学英语四、六级考试每次考试结束后在发布考试成绩之前，要经过一系列的统计处理，分为数据输入、数据处理、成绩计算及统计分析三部分，其流程如下：

大学英语四、六级考试机器阅卷及统计分析流程图

大学英语四、六级考试每年考生超过一百万，因此只能依靠机器阅卷。为了保证机器阅卷的精度及正确性，在数据输入阶段还要采取大量质量保证措施。

数据输入阶段结束后即开始数据处理阶段，包括 IRT 等值处理、作文分调整、考生成绩正态化处理三个步骤。大学英语四、六级考试为了进行等值处理，每次考试前一周要组织对比考试，建立 IRT 等值处理模型。

在对客观题进行等值处理后，对作文分进行调整。进行作文分调整的目的是滤除阅卷过程中阅卷员评分的主观误差，保证主观题的阅卷信度。这一步骤完成后输出客观题成绩在 25 分以下而作文成绩在 10 分以上的异常考生清单，这种客观题得分极低而主观题得分相当高的异常情况说明必然在某一环节上发生了差错。这时首先检查考生的答题纸，再查作文成绩，检查是否登分错误、或阅卷员评分错误、或因为考生填错 A、B 卷代号而造成错误等等。在以上步骤都确认正确无误后，输出作文分调整模型。

最后进行各种统计，包括全国的、各省市的、各校的成绩统计。作为数据处理的最后一环还要进行试题分析、完成试卷检验报告。

大学英语四、六级考试的数据处理采取如此严格的质量控制措施是为了保证考试的信度，最终也是为了保证考试的效度，因为没有信度就谈不上效度。

•等值处理

大规模标准化考试的重要标志之一是分数的可比性。为此，首先必须根据考试的性质和目的确定记分体制，使分数具有可解释性，能够说明分数所反映的考生实际水平，以便于用户使用；此外还必须通过等值处理，使不同考次的分数做到等值，达到可比的目的，并保持稳定的测量标准，也就是保持记分体制的参照系不变。

大学英语四、六级考试等值处理的方法及其质量控制措施见《大学英语四、六级考试效度研究》一书。

•作文分调整

作文是一种对语言表达能力的考试。学生运用语言的结果，可以直接观察，因此作文是一种直接考试。只要题目出得好，作文对考生语言能力的测量最准确，效度最高。而且作文这种题型最难搞应试培训，也最难搞题海战术。要提高学生的成绩，唯一途径是扎扎实实搞好课堂教学，提高学生实际英语能力。从组织考试的角度来看，采用作文题的困难在于如何保证评分的一致性。

作文题是主观题。所谓主观题只是指在阅卷过程中评分要依靠阅卷员的主观判断的题目。至于命题和答题，当然必然是主观的。这些因素最终都会影响到对作文阅卷的判分。要使作文卷的分数能正确地反映考生的真实能力，如果不考虑考生本身这一因素，则影响最大的主要是命题和阅卷两个因素。

大学英语四、六级考试中安排短文写作这一部分，主要目的是考核学生用英语进行书面表达的能力，也就是说主要是考核语言运用能力，因此大学英语四、六级考试的作文部分不是自由作文，而是有控制的作文，对考生写什么内容有比较明确的要求，用各种明确的方式如提纲、图表、关键词等加以规定；但提纲常用中文给出，以避免考生将提纲中的文字直接抄录进作文。采用有控制的作文也有利于提高评分的一致性。

对作文评分影响最大的是评分过程。同一篇作文，不同的阅卷员可能给出不同的分数。提高作文阅卷的信度就是要保证评分的一致性，包括阅卷员本人的一致性（intra-marker consistency）、阅卷员之间的一致性（inter-marker consistency）、和阅卷点之间的一致性（inter-centre consistency），要采取一定的质量控制措施尽量减少和滤除阅卷员评分的主观性对分数客观性的影响。

近年来在大规模标准化考试中采用作文题的重要性已为大家所接受，对作文评分的研究发展也很快。作文题的评分通常有两种方法：一种是综合法（holistic approach），一种是分析法（analytic approach）。分析法是把一篇作文分解为若干要点，如内容、结构、文章连贯性（cohesion）、语法、词汇等，不同的要点也可作不同的加权处理，各要点得分的总和即为全篇得分。综合法是凭阅卷员通读一遍的总体印象打分。综合法的优点是能从总体上把握通篇印象，评卷速度比较快。此外，为了提高阅卷的信度也有采用两读的方法，即每篇作文由两名阅卷员分别独立评分，若分数差两档以上，由第三名阅卷员重判。考虑到大学英语四、六级考试规模太大，不可能进行两读，因此，决定采用综合法和一读的评分方法，然后根据考生的客观题得分进行调整，滤除系统误差。大学英语四、六级考试实践和效度研究结果证明，大学英语四、六级考试目前采用的作文分调整方法能保证阅卷信度。　

大学英语考试效度研究

大学英语四、六级考试到 92 年 9 月时已实施五年，为了验证大学英语四、六级考试的效度，进一步改革与完善大学英语四、六级考试，自 92 年 10 月起至 95 年 12 月进行了为期三年的大学英语四、六级考试效度研究。

•大学英语考试效度研究的目的

1. 论证大学英语四、六级考试作为一种大规模标准化考试的可靠性、科学性，检验大学英语四、六级考试能否为准确测量学生英语水平提供科学的手段；

2. 改善大学英语考试的后效，推动教学大纲的贯彻执行，使考试更好地为教学服务；

3. 如有必要，改进大学英语考试的设计，采用新题型，完善考试的格式和形式；

4. 验证大学英语四、六级考试的统计分析手段，验证它能否为教学提供必要的动态信息；

5. 推动对语言测试和大规模标准化考试的理论研究。

•大学英语考试效度研究的组织

大学英语四、六级考试效度研究是经国家教委和英国文化委员会批准的中英合作项目，为期三年，其中英方得到了英国政府海外开发署的支持，中方由全国大学英语四、六级考试委员会负责，并成立了专门的效度研究小组；英方由雷丁大学（University of Reading）应用语言学研究中心 ( CALS ) 负责。

•大学英语考试效度研究的内容

大学英语四、六级考试效度研究涉及结构效度（construct validity）、内容效度（content validity）、同期效度（concurrent validity）、预期效度（predictive validity）、表面效度（face validity）等，此外还对题型、记分体制、统计分析软件、考务管理等方面进行了全面的研究检验。在三年研究期间，制定了大学英语四、六级考试内容规范、完成了大学英语四、六级考试范型试卷、组织了各种大规模的对比考试、实验研究、问卷调查、座谈会等，此外还进行了阅读测试过程的内省法心理研究。通过对所得到的大量数据及实验结果进行统计分析，可以得出如下结论：

1）大学英语四、六级考试是一项信度极高的考试，每次考试客观题的内部信度都达到0.9 以上；

2）大学英语四、六级考试是一项效度相当高的考试，回收问卷中有 92%的教师认为大学英语四、六级考试能反映学生的实际英语水平；

3）大学英语四、六级考试是一种尺度相关-常模参照性考试，其设定的及格线与教师对学生是否及格的判断，相关高达 0.82；大学英语考试成绩与教师判断的学生成绩，名次相关高达 0.7，这在大规模标准化考试中是极难做到的；

4）大学英语四、六级考试的内容设计合理，86%以上的教师认为各部分内容比例适当，内容对各专业学生均公正；

5）大学英语四、六级考试已建立了一整套完整的制度；在试卷设计方面，从命题、预测、试题项目分析到题库建设等都有严格的质量控制措施，保证了该考试学术水平的稳定性；在统计分析及成绩发布方面，从自动阅卷、IRT 等值处理、作文分调整到成绩正态化处理等都有成熟的措施，保证了成绩报导的科学性和一致性；在考务组织方面有严格的制度，保证了考试的严密性和公正性；

6）大学英语四、六级考试已开发了一系列计算机软件，为考试的组织、实施、管理和成绩的统计计算提供了条件，实现了考试过程管理的计算机化，每次考试为各级教学行政部门进行决策提供了大量信息；

7）大学英语四、六级考试实施八年来已建立了一支有相当规模的、老中青结合的专业队伍，并已经具备有一定规模的计算机设备及图书资料，有能力开展语言测试方面的重要研究。

计算机自适应考试

传统的测验，不论考生水平高低全部要接受同一批题目的测验，结果对水平低的考生来说，那些难度大的题目，根本无法作答，反而引起焦虑。对高水平考生来说，那些难度小的题目，又测不出考生的真实水平，徒然浪费精力。理论的分析与实践的经验都证明，当题目难度跟考生水平相适应时，题目所提供的信息量最大，考生的积极性最高，测验效度也就最好。

八十年代中期兴起的机助自适应测验解决了主动适应考生状况的“因人施测”问题。其理论基础题目响应理论（IRT）建立了深刻地、综合地反映考生作答反应与题目质量及能力水平间关系的非线性模型，估出的能力水平不依赖于特定的施测题目样本，而且能明确算出信息量即测量精度，因而，即使两考生各自接受了一批难度变化不同的测验，据此估出的能力水平值也是可以相互比较，处于同一量表上的值。

编制自适应测验，首先要建立大型题库，题库要有一定的教学模型，没有教学模型的试题称为题堆，在测试中没有使用价值。机助自适应考试以题目响应理论（IRT）为教学模型建立题库，这是一项要耗费大量人力和财力的工程。而考试的施测大体分为两个阶段，一是考生能力水平的探查阶段。具体做法可以是，从题库中随机调取一中等难度水平题目施测；若考生能正确作答，则继之以更难的题目；若考生不能正确作答，则继之以较易的题目，到考生既有答对题目又有答错题目时，就可以初步估出其能力值。第二步针对初步估计能力值继续从题库中挑出难度最适当、信息量最大的题目施测，并不断地估计考生能力，逐步向考生的能力真值逼近，直到满足测量精度要求为止，从面对考生的真实能力作出准确的评价。

自九十年代初期开始，全国大学英语四、六级考试委员会一直致力于题目响应理论和“机助自适应测验”的研究和开发。目前 IRT 已成功地用于 CET 分数等值处理过程中，机助自适应测验题库也正在建设和完善过程中，我们希望不久将推出 CET 机助自适应测验系统，为中国英语测验开辟一块新的园地。

大学英语口语考试

为了进一步推动我国大学英语教学，适应国家改革开放的需要，使学生更加重视英语口语学习，获得较强的交际能力，经教育部高等教育司批准，全国大学英语四、六级考试委员会将开始实施口语考试（CET- Spoken English Test），1999 年 5 月起将首先在部分重点院校试行。报考对象暂定为大学英语四、六级考试成绩达到 80 分的在校本科生及在校研究生，符合报考条件者自愿参加。考试每年举行两次。

考试成绩合格者发给证书。证书分为三个等级，A 等表示能用英语就熟悉的题材进行口语交际，基本上没有困难；B 等表示能用英语就熟悉的题材进行口语交际，有些困难，但不影响理解；C 等表示具有初步的英语口语交际能力。

高级英语阅读能力测试

根据全国大学英语教学大纲规定，在基础阶段的英语教学完成以后，大学英语必须继续进行更高一级的专业英语阅读教学。这一课程也被大纲列为全国大学生的必修课，是继基础阶段完成以后的必要阶段。是保证实现教学目标的重要环节。

但是自 1985 年以来，专业英语阅读教学并未受到足够的重视。专业英语阅读的教学与测试的实践仍处于比较“自由化”的状态。不同院校对此课程的认识不同，重视程度不同，采用的教材不同，测试方法也不同。这样，教学大纲中规定的培养“以英语为工具通过阅读获取专业所需信息的能力”这一根本的教学目的就有可能落空。专业英语阅读课程没有受到足够重视的原因是多方面的，如缺乏合适的教材，英语教师缺乏专业知识，专业教师缺乏英语能力等等。其中一个重要原因是没有适当的检查手段。

对于专业英语阅读能力的培养，大多数高等院校还是认识其必要性的，因为这一能力对大学生今后在专业上的提高和发展至关重要。为此，早在 1988 年教育部高教司外语处就提出要“正确理解全面贯彻执行教学大纲”。近年来，在高教司外语处的领导下，全国高校已开始重视专业阅读课程的教学。随着专业英语阅读教学的不断正规化，客观上要求在我国部分重点高校范围内为专业英语阅读教学提供一种测试手段。

因此，高级英语阅读能力测试（AERT）项目的长远目标是通过设计一个有理论基础的、高效度、高信度的高级英语阅读考试来推动全国的大学专业英语阅读的教学，以期最终真正、彻底地实现大学英语教学大纲所规定的目标，使我国大学生真正具备“以英语为工具获取专业所需的信息的能力”，更好地为我国的现代化建设服务。

在基础阶段，英语阅读教学与测试（如 CET 的 reading comprehension test）仍以提高学生的英语语言能力为目标，而在高级英语阅读阶段，教学与测试的重点应转向阅读的各种技能和策略的培养。因此，AERT项目的近期目标是：（1）设计一个高效度、高信度的高级英语阅读考试，使之能最大限度地体现专业英语阅读阶段的教学目标。（2）不断完善 AERT 考试，使之能最有效的测量大学生专业英语阅读的能力。（3）通过AERT 考试的反拨作用来推动大学三、四年级的专业英语阅读教学。

目前 AERT 研究已经完成，已经建立了一套完整的、有理论依据的、有数据支持的、高效度、高信度的检查专业英语阅读教学效果的、衡量学生专业英语阅读能力的考试体系，包括考试的实施细则，命题及选材的要求和原则、阅卷标准，分数调整，数据分析，成绩报道等诸多的标准化考试必备的因素。在此基础上，已经完成了 AERT 范型卷的设计和命题。

为了对范型卷的各项指标进行检测，在上海和山东进行了两次大规模的试测。研究证实了对中国大学生专业英语阅读的理论模式的假设，肯定了阅读能力的可分解性，即除了一个最主要的一般阅读能力因素外，还存在着快速阅读与仔细阅读这两种不同的阅读方式的因素以及在篇章水平上的阅读与在词汇水平上的阅读这两种不同层次上的阅读的因素。

随着对专业英语阅读教学与测试的不断重视，随着这方面的理论研究的不断深入和实践经验的不断积累，专业英语阅读的教学与测试将会与基础阶段的分级教学和测试一样逐步走上正规化的道路。专业英语阅读将会真正成为大学生的一门必修课，中国的大学毕业生将会真正具备“以英语为工具通过阅读获取专业所需的信息”的能力。

AERT“高级英语阅读能力测试”将以一定方式提供给各校使用。

关于问卷的信度分析
一、概念：

信度是指根据测验工具所得到的结果的一致性或稳定性，反映被测特征真实程度的指标。一般而言，两次或两个测验的结果愈是一致，则误差愈小，所得的信度愈高，它具有以下特性：

u 信度是指测验所得到结果的一致性或稳定性，而非测验或量表本身；

u 信度值是指在某一特定类型下的一致性，非泛指一般的一致性，信度系数会因不同时间、不同受试者或不同评分者而出现不同的结果；

u 信度是效度的必要条件，非充分条件。信度低效度一定低，但信度高未必表示效度也高；

u 信度检验完全依赖于统计方法。

信度可分为：内在信度：对一组问题是否测量同一个概念，同时组成量表题项的内在一致性程度如何；常用的检测方法是Cronbach’s alpha系数。外在信度：对相同的测试者在不同时间测得的结果是否一致，再测信度是外在信度最常用的检验法。

二、信度指标：

1. 用信度系数来表示信度的大小。信度系数越大，表明测量的可信程度越大。究竟信度系数要多少才算有高的信度。学者DeVellis(1991)认为，0.60～0.65（最好不要）；0.65～0.70（最小可接受值）；0.70～0.80（相当好）；0.80～0.90（非常好）。由此，一份信度系数好的量表或问卷，最好在0.80以上，0.70至0.80之间还算是可以接受的范围；分量表最好在0.70以上，0.60至0.70之间可以接受。若分量表的内部一致性系数在0.60以下或者总量表的信度系数在0.80以下，应考虑重新修订量表或增删题项。

2. 信度指标多以相关系数来表示：大致可分为三类：稳定系数（跨时间的一致性）、等值系数（跨形式的一致性）和内在一致性系数（跨项目的一致性）。

三、信度分析方法：

u 重测信度法：

用同样的问卷对同一被测间隔一定时间的重复测试，也可称作测试——再测方法，计算两次测试结果的相关系数。很显然这是稳定系数，即跨时间的一致性。重测信度法适用于事实性的问卷，也可用于不易受环境影响的态度、意见式问卷。由于重测信度需要对同一样本试测两次，而被测容易受到各种事件、活动的影响，所以间隔时间需要适当。较常用者为间隔二星期或一个月。

u 复本信度法（等同信度法）：

复本信度法是让被测一次填写两份问卷复本，计算两个复本的相关系数。由于这种方法要求两个复本除表达方式不同外，在内容、格式、难度和对应题项的提问方式等方面都要完全一致，所以复本信度属于等值系数。在实际的调查中，问卷很难达到这种要求，这种方法较少被采用。

u 折半信度法：

折半信度法是指将测量项目按奇偶项分成两半，分别记分，测算出两半分数之间的相关系数(实际应用EXCEL软件)，再据此确定整个测量的信度系数RXX。折半信度属于内在一致性系数，测量的是两半项目间的一致性。这种方法不适合测量事实性问卷，常用于态度、意见式问卷的信度分析。在问卷调查中，态度测量最常见的形式是5级李克特量表。进行折半信度分析时，如果量表中含有反意题项，应先将反意题项的得分作逆向处理，以保证各题项得分方向的一致性，然后将全部题项按奇偶或前后分为尽可能相等的两半，计算二者的相关系数（rhh）），即半个量表的信度系数），最后用斯皮尔曼-布朗（Spearman-Brown）公式：rtt=2rhh/(1+rhh)，求出整个量表的信度系数rtt。

u 评分者信度

这种方法在测量工具的标准化程度较低的情况下进行的。不同评分者的判分标准也会影响测量的信度，要检验评分者信度，可计算一个评分者的一组评分与另一个评分者的一组评分的相关系数。

u a信度系数法

克伦巴赫a信度系数是目前最常用的信度系数。其公式为：a=(k/k-1)*(1-(∑Si2)/ST2)
其中，K为量表中题项的总数，Si2 为第i题得分的题内方差，ST2为全部题项总得分的方差。从公式中可以看出，a系数评价的是量表中各题项得分间的一致性，属于内在一致性系数。这种方法适用于态度、意见式问卷（量表）的信度分析。

在李克特量表法中常用的信度检验方法为“Cronbach’s a”系数及“折半信度”

你可能感兴趣的:(信度分析，如何设计考试卷)

Python 编程基础作业总结
本周主要围绕Python基础编程展开了学习，通过一系列的作业题来巩固所学知识。这些题目涵盖了输入输出、条件判断、循环结构等多个基础知识点，下面将对每道作业题进行详细分析。1.计算指定月份第一天是星期几题目描述编写一个程序，接受用户输入的一个年份和一个月份，输出该月份的第一天是星期几。使用蔡乐公式计算星期。提示：使用蔡乐公式计算星期。W=((26*M-2)/10+D+Y+Y/4+C/4-2*C)%7
SQLite - C/C++编程环境搭建与使用指南 lsx202406 开发语言
SQLite-C/C++编程环境搭建与使用指南引言SQLite是一款轻量级的数据库管理系统，广泛应用于嵌入式系统、移动设备、Web应用等场景。其独特的架构和易用性使其成为许多开发者的首选。本文将详细介绍如何搭建SQLite的C/C++编程环境，并探讨如何在C/C++程序中集成SQLite数据库。环境搭建1.获取SQLite首先，我们需要从SQLite的官方网站（https://www.sqlite
如何自定义R语言函数？参数中的省略号`...`有什么用？「已注销」 python 编程语言 java 人工智能 c++
学习R未必要学习很多工具包，有时候根据自己的理解去自定义函数也是一个不错的选择。本篇推文主要介绍两方面的内容：在R语言中自定义函数的一般方法；函数参数中...的作用。在看函数的帮助文档时会发现许多函数的参数中都有...符号，它是表示被省略的参数吗？如果是，作者为什么会省略它？如果不是，那又表示什么含义呢？不久前，学堂君分享了自己编写的计算空间可达性的函数，详见推文：两步移动搜索法（2SFCA）计算
【C#之模块化】C#和C++之不同的模块化形式子夏i C#C/C++c#c++
C#和C++之不同的模块化理念一、前言二、C++和C#的模块化方式1.C++2.C#一、前言C++和C#都支持面向对象编程，但C#通过简化模块化组织，移除了C++中诸如头文件和预处理器等被认为是冗余的设计元素。这种简化使得C#在面向对象方面更为直观和易于管理，能够获得更加清晰和一致的代码结构。二、C++和C#的模块化方式1.C++在C++中，模块化结构通常涉及头文件和源文件的分离。头文件包含类的声
MavenHelper插件：解决IntelliJ IDEA中Maven依赖冲突的利器
本文还有配套的精品资源，点击获取简介：MavenHelper是一款专门针对IntelliJIDEA设计的Maven插件，旨在帮助开发者快速识别和解决Maven项目中的依赖冲突问题。该插件能生成项目的依赖树，标记版本冲突的依赖项，并提供建议解决方案和可视化界面来管理依赖。此外，它还包括一键升级或降级依赖、清理Maven缓存和自定义配置功能，以确保与团队规范的一致性。通过使用MavenHelper，开
如何解决ubuntu 中DNS无法修改导致无法联网的问题 BTU_YC linux ubuntu ubuntu linux 服务器
写在前面：在刚开始遇到这个问题的时候，在网上搜了很多资料，都无法解决DNS总是无法修改，一些文章中提到过，直接修改的/etc/resolv.conf，之后确实能够通过pingwww.baidu.com的方式解决，但是当重启电脑的时候，网络有无法使用了。之前的方法就不提了，直接介绍一下我这解决的方法吧如何解决：先使用这个命令进入编辑页面vim/etc/systemd/resolved.conf输入命
ViP-LLaVA: 使大型多模态模型理解任意视觉提示 AI专题精讲 Paper阅读多模态人工智能 AI
摘要现有的大型视觉-语言多模态模型主要关注整体图像理解，但在实现区域特定的理解方面仍存在显著差距。目前，使用文本坐标或空间编码的方法通常无法为视觉提示提供用户友好的接口。为了解决这个问题，我们提出了一种新颖的多模态模型，能够解码任意（自由形式）视觉提示。这使得用户可以通过自然提示（如“红色边框”或“指向箭头”）直观地标记图像并与模型互动。我们的简单设计直接将视觉标记叠加在RGB图像上，避免了复杂的
IDEA依赖冲突分析神器—Maven Helper
IDEA依赖冲突分析神器—MavenHelperMavenHelper是一款专为IntelliJIDEA设计的插件，它极大地简化了Maven项目中依赖冲突的分析和解决过程。以下是对MavenHelper的详细介绍及其使用方法：一、MavenHelper简介MavenHelper插件提供了一个直观的图形界面，帮助开发者查看和管理Maven项目的依赖关系。它特别擅长于展示和识别依赖冲突，使开发者能够迅
通信算法之278：数据链/自组网通信设备--MIMO(2T2R)-OFDM系统系列--实际工程应用算法代码--1.系统指标需求及帧结构设计秋风战士无线通信基带处理算法 MATLAB仿真软件无线电算法无人机经验分享
MIMO(2T2R)-OFDM系统系列–实际工程应用算法代码第一章：系统指标需求拆解分析第二章：通信系统帧结构设计和OFDM参数设计第三章：通信业务速率设计及理论解调门限第四章：同步序列设计及同步性能仿真验证第五章：数据业务设计及性能仿真验证第六章：信道模型设计第七章：接收关键算法设计及仿真验证第八章：其它待补充本文目录MIMO(2T2R)-OFDM系统系列--实际工程应用算法代码一、实际项目：系
通信算法之287：通信技术点咨询秋风战士 MATLAB仿真软件无线电无线通信基带处理算法网络算法无人机经验分享
专业技术咨询方向第一：SFBC编码与解码原理推导第二：SFBC系统中信道均衡推导第三：云哨物理层协议-速率匹配-解调门限-5dB第四：两天线SCFDE系统（SFBC码）帧结构设计第五：两天线OFDM系统（SFBC码）帧结构设计第一：SFBC编码与解码原理推导第二：SFBC系统中信道均衡推导第三：云哨物理层协议-速率匹配-解调门限-5dB第四：两天线SCFDE系统（SFBC码）帧结构设计第五：两天线
【计算机毕业设计】基于Springboot的办公用品管理系统+LW 枫叶学长(专业接毕设) Java毕业设计实战案例课程设计 spring boot 后端
博主介绍：✌全网粉丝3W+,csdn特邀作者、CSDN新星计划导师、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。主要内容：
HarmonyOS5.0仓颉引擎与盘古大模型：个性化作业批改系统架构设计与实现 H老师带你学鸿蒙系统架构 HarmonyOS5.0 鸿蒙华为仓颉教育
人工智能与边缘计算的融合正在重塑教育评价体系。本文将展示如何基于HarmonyOS5.0仓颉并发引擎和盘古大模型，构建新一代智能作业批改系统。系统架构全景graphTDA[学生端设备]-->|提交作业|B[仓颉边缘处理]B-->C[盘古大模型分析]C-->D[个性化反馈生成]D-->E[学生终端]D-->F[教师仪表盘]subgraphHarmonyOS分布式系统B-->|设备协同|G[教室平板集
医咖会免费STATA教程学习笔记——单因素方差分析 Unacandoit stata 单因素方差分析
单因素方差分析和单因素回归分析相同1.单因素方差分析需要满足的假设：（1）因变量为连续变量（2）至少有一个分类变量（大于等于2类）（3）观测值相互独立（4）没有异常值（5）服从正态分布（6）方差齐性2.准备工作（1）导入数据集：webusesystolic,clear（2）检验是否存在异常值：方法一：图形——箱线图——在变量中选择systolic——确定方法二：grahboxsystolic,ov
Java 中 Maven 依赖冲突的解决策略 Java大师兄学大数据AI应用开发 AI实战 AI人工智能与大数据应用开发 java maven 网络 ai
Java中Maven依赖冲突的解决策略关键词：Java、Maven、依赖冲突、解决策略、依赖分析摘要：在Java开发中，Maven作为强大的项目管理和构建工具，极大地提高了开发效率。然而，依赖冲突是使用Maven时常见且棘手的问题，它可能导致项目编译失败、运行时出现异常等情况。本文将深入探讨Maven依赖冲突的产生原因、表现形式，并详细介绍多种有效的解决策略。通过实际案例和代码分析，帮助开发者更好
DeepSeek在智能教育评估中的应用：试题检索 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 easyui 前端 javascript ai
DeepSeek在智能教育评估中的应用：试题检索关键词：DeepSeek、智能教育、试题检索、自然语言处理、知识图谱、个性化学习、评估系统摘要：本文探讨了DeepSeek大模型在智能教育评估系统中的试题检索应用。我们将深入分析如何利用先进的自然语言处理技术和知识图谱构建高效的试题检索系统，实现个性化学习路径推荐和精准评估。文章将从核心概念、技术原理到实际应用场景，全面解析这一创新教育技术解决方案。
RESTful API 安装使用教程小奇JAVA面试安装使用教程 restful 后端
一、RESTfulAPI简介REST（RepresentationalStateTransfer）是一种基于Web的架构风格，RESTfulAPI是使用HTTP协议并遵循REST原则设计的API接口。其核心思想是：使用标准HTTP方法（GET、POST、PUT、DELETE）对资源进行操作。RESTfulAPI通常用于构建前后端分离、微服务架构等系统，具备易理解、易扩展、易维护等优点。二、常用技术
基于高斯两步移动搜寻法（2SFCA）的城市绿地可达性分析 yorov GIS技巧算法
【2SFCA的基本思路，可以略过】对每个供给点j，搜索所有在j搜寻半径（d0）范围内的需求点（k），计算供需比Rj；对每个需求点i，搜索所有在i搜寻半径（d0）范围内的供【数据】成都市城区绿地数据、各街道小区数据、路网数据OSM【那再来理解一下高斯两步移动搜索法】对于最初的两步移动模型相当于二分，而高斯型相当于是缓慢下降—急速下降—趋于平缓的状态。很像上次莫兰指数里说的空间关系概念化。第一步，对于
MCP协议：开发者生态系统的未来基石？ Echo_Wish Python 进阶人工智能大数据
MCP协议：开发者生态系统的未来基石？近年来，随着物联网（IoT）、工业自动化、智能设备互联的爆发式增长，通信协议的标准化成了关键。而MCP（MessageCommunicationProtocol）协议正逐步成为开发者生态的重要成员，它提供了高效、灵活、可扩展的消息通信机制，使得不同设备、服务和系统可以无缝协作。那么，MCP协议究竟有什么优势？开发者应该如何利用它？以及它在当前技术环境中的实际应
A1126LLHLX-T Allegro霍尔效应锁存器，5kHz+推挽输出，汽车级转速检测专家！深圳市尚想信息技术有限公司霍尔效应锁存器汽车工业消费电子
A1126LLHLX-T（Allegro）产品解析一、产品定位A1126LLHLX-T是AllegroMicroSystems推出的全极性霍尔效应锁存器，采用超薄SOT-23W封装（1mm厚度），专为高可靠性位置检测与转速测量设计，具有低功耗、高抗干扰特性，适用于汽车、工业和消费电子领域。二、核心功能与参数特性参数/性能工作模式全极性锁存（南北磁极均可触发，保持输出状态）工作电压3V~24V（宽压
【前端进阶】【实战】【性能优化】前端开发中的事件监听与DOM操作优化实践患得患失949 数字孪生前端性能优化前端
前端开发中的事件监听与DOM操作优化实践在前端开发中，事件监听器的管理和DOM操作的优化是提升应用性能和稳定性的关键。本文将结合具体案例，探讨如何通过技术手段解决这些问题，并分享一些实用的优化技巧。问题背景在一个基于高德地图的应用中，我们实现了一个信息窗口组件（InfoWindow），其中包含视频播放功能和轮播图展示。随着用户交互的增加，我们遇到了以下问题：信息窗口频繁打开关闭后，页面性能明显下降
SLF4J深度解析：Java日志世界的“唯一标准” 沉浸式炼丹 java 开发语言 log4j SLF4J
SLF4J——Java生态系统中极其重要的组件，它不仅仅是一个日志工具，更体现了一种面向接口编程和“解耦合”的优雅设计思想。理解了SLF4J，你不仅能写出更专业的日志代码，更能加深对软件设计原则的理解。引子：日志框架的“战国时代”在SLF4J出现之前，Java的日志领域一片混乱，群雄并起，如同一个“战国时代”：JUL(java.util.logging):JDK自带的“亲儿子”，但功能简陋，配置复
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
QA - RAG智能问答系统中的文档切片与实现原理 ai开发
引言在现代企业知识管理系统中，智能问答系统正发挥着越来越重要的作用。GC-QA-RAG系统作为葡萄城技术栈中的重要组成部分，其核心功能是通过对文档内容进行智能切片和向量化存储，实现对技术文档的高效检索和问答。本文将深入剖析该系统的文档切片原理，包括短文档和长文档的不同处理策略，以及如何将这些技术应用于实际场景中。正文1.原始方案及其局限性最初的GC-QA-RAG系统采用了一种直观的方法：将整个文档
【限时干货】Calibre智能分类，轻松突破内网限制畅享电子书库比头发还脆弱服务器 tcp/ip linux
文章目录前言1.网络书库软件下载安装2.网络书库服务器设置3.内网穿透工具设置4.公网使用kindle访问内网私人书库前言本研究旨在构建一套运行于微软操作系统环境下的独立电子图书管理体系，核心目标是建立可远程操作的资源访问机制。该架构采用高可用性设计，在第三方阅读平台服务中断时仍能保障数字内容传输的稳定性。系统创新性地融合了两大核心技术组件：通过Calibre开源软件实现文献分类算法与格式转换功能
LeetCode1004. 最大连续1的个数 III Zedthm 算法 java leetcode
题目分析本题要求在最多翻转K个0的条件下，找到二进制数组中最长的连续1子数组。翻转操作实际上是将0视为可用资源，用来扩展连续1的区间。解题思路滑动窗口（双指针）：核心思想：维护一个窗口，确保窗口内最多包含K个0（即最多可翻转K次）右指针：遍历数组，扩展窗口左指针：当窗口内0的数量超过K时，收缩窗口直到满足条件关键操作：遇到0时增加计数器当0的数量超过K时，移动左指针直到移除一个0始终记录窗口的最大
跨平台ZeroMQ：在Rust中使用zmq库的完整指南涵树_fx 架构设计 Rust 实战 rust 开发语言后端
“消息就像神经元间的电信号，而ZeroMQ就是那个让系统思考的神经网络”——某个深夜调试zmq的程序员当你需要轻量级、高性能的进程间通信时，ZeroMQ就像代码世界里的瑞士军刀。今天我们一起探索如何在Rust生态中使用这把利器，感受它如何在不同操作系统间架起通信的桥梁。安装ZeroMQ：三大操作系统的通关秘籍Linux(Debian/Ubuntu)sudoaptupdatesudoaptinsta
善用关系网络：开源AI大模型、AI智能名片与S2B2C商城小程序赋能下的成功新路径
摘要：本文聚焦于关系在个人成功中的关键作用，指出关系即财富，善用关系、拓展人脉是成功的重要途径。在此基础上，引入开源AI大模型、AI智能名片以及S2B2C商城小程序等新兴技术工具，探讨它们如何助力个体在复杂的关系网络中更高效地挖掘和利用资源，提升处理关系的能力，从而为事业成功开拓新道路，揭示这些技术元素在当代成功路径中的创新应用与重要意义。关键词：关系网络；开源AI大模型；AI智能名片；S2B2C
学Simulink——整流器场景：基于Simulink的单相全桥可控硅整流器仿真建模 xiaoheshang_123 MATLAB 开发项目实例 1000 例专栏手把手教你学 MATLAB 专栏 simulink matlab
目录手把手教你学Simulink——整流器场景：基于Simulink的单相全桥可控硅整流器仿真建模一、背景介绍二、系统结构设计三、建模过程第一步：创建新Simulink项目第二步：添加主要模块1.交流电源2.单相全桥可控硅整流器3.LC滤波器4.负载模拟5.触发脉冲生成模块6.测量模块第三步：搭建主电路拓扑第四步：搭建触发脉冲生成逻辑1.设计触发脉冲逻辑2.集成至Simulink模型四、参数设置五
从0到1打造创始人IP：创客匠人如何用内容构建商业护城河创客匠人老蒋创始人IP 创客匠人 IP变现大数据知识付费
创始人IP为何成为企业破局的关键引擎？在知识付费赛道竞争白热化的当下，创客匠人创始人老蒋以“IP新商业架构师”的身份，将个人IP与企业品牌深度绑定，走出了一条差异化路径。当传统企业还在纠结流量成本时，老蒋通过输出“成事心法”“商业认知”等干货内容，在公众号、短视频等平台积累精准用户，其“正确的事做长期”理念，正是创客匠人9年深耕行业的缩影。这种将创始人个人影响力转化为企业信任背书的模式，让创客匠人
QML与C++交互之创建自定义对象
在qml中，我们一般都是希望使用qml做界面展示，而数据处理转由c++处理；在此篇博客，将介绍如何在c++中给qml定义全局对象；在c++中如何定义对象给qml使用。1给qml定义全局对象正常我们定义了一个qml项目后，main函数是这样的：#include#include#includeintmain(intargc,char*argv[]){QCoreApplication::setAttri
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1