学术论文是知识员工工作成果的一个重要组成部分,如何对学术论文进行科学的评价涉及到对知识员工进行绩效考核的公平性和合理性,是知识员工管理的一个重要组成部分。国内外对如何评价学术论文已经做了大量的研究。但是,由于学术论文是一种知识性的成果,对它的评价比对非知识性成果的质量检验要困难得多,因此许多问题并没有得到解决。而且近年来,由于我国科学研究发展迅速,各种学术期刊不断增加,高质量的编辑队伍和审稿人队伍远远达不到学术论文评审的要求,导致学术论文评审的诸多问题不仅没有解决,甚至于越来越严重。
一、关于论文评审标准的已有研究
关于学术论文的评审标准,目前国内外学者进行了比较广泛的研究。概括而言,已有研究主要从评审结果、评审过程和评审主体三个视角予以展开。第一,从评审结果视角研究评审标准。根据结果的好坏,该类研究又可分为两小类。第一类是从被拒的学术论文中反推或归纳出评审标准。例如,Fischer认为投稿人应理解评审专家眼中的高质量稿件标准,并采取相应的策略。作者对美国期刊JMI过去13年遭拒的稿件及评审意见进行了归纳,结果表明论文评审标准的重要性排序(从大到小)依次为:理论贡献(原始的)、方法的准确性、概念的准确性、结果的讨论、长度 /贡献比率、相关文献的处理、理论贡献(修改后)、逻辑结构、研究目的的清晰性、可读性与研究主题的意义等 11项。导致论文未能通过内审的原因源于不符合杂志要求、论文粗制滥造、文献陈旧、未达到应有的学术水平与应用价值。Bonjean对社科类期刊的 600多份稿件进行追踪发现,拒稿的原因依次为:贡献不重要、研究方法的缺陷、理论基础的问题、随意的编辑与论证的不足。Townsend等也指出,导致论文需要修改的原因包括:缺乏研究深度、写作的缺陷与无应用价值。与第一类的反推法不同,第二类则主要从优秀的研究成果应该具备什么样的结果或特点来探讨评审标准。Dixon认为稿件评审最重要的标准在于论文的分析或结果是否让人们不再一味相信现有的解释、从而拓展新方向上的视野或形成崭新的理论思想与研究方法。王国兴认为研究成果的价值应包含学术价值、技术价值与经济价值三个方面,其中学术价值应包括新颖性、理论性、效应性和实用性,技术价值包括先进性、可靠性、难易性与适应性,经济价值包括投入成本、直接效益产量价格等。任火认为评价科学论文的学术价值应基于问题性、前沿性、实验性与逻辑性四方面原则。此外,陶立方等对国内 70多家学报的审稿单进行归纳发现,“选题的新颖性”,“理论依据的正确性”以及“题意的确切”是决定论文是否被录用的重要因素。
第二,从评审过程视角研究评审标准。目前,论文评审一般实行三级审稿制,即初审、复审与终审。此制度集编辑、专家、主编意见于一体,能较公正评价论文。关开澄指出初审的内容包括:类别审查、政治审查、论文摘要、引言、参考文献与其它明显缺项,专家审查的内容包括:创新性、学术性与保密性、科学性、实用性、可靠性、再现性、准确性与数学公式或模型是否正确等。韦翠芳则认为在评审论文时应对论文的科学意义、学术水平、实用价值等七项进行评价打分和汇总。
第三,从评审主体视角研究评审标准。由于论文评审工作是由编辑及同行专家等评审主体完成的,他们的经验、认知和偏好也会对评审标准形成一定的影响, 并进而成为一种隐性的标准。Patterson&Bailar、Over等学者认为,评审主体在评判论文主题、论文质量、论文的创新性、论文长度等方面拥有优越性,因此评审主体的价值取向与主观认知就决定了论文的评价标准。Starbuck 也认为,分析评审主体如何看待稿件应从他们主观认知对误差的想象开始。Stuart在一项针对美国核心期刊评审专家的态度、观点与价值观的调查中发现,接近50%的评审专家不使用正式的评审表, 他们往往将主题的有效性与创造性认为是评审稿件时最关键的因素。不过, Smith 、张揆一都指出,评审主体应尽量减少在评审过程中的主观性, 而应该以客观的标准和科学的态度来评价学术成果。
二、我国学术论文评审标准现状
2.1 研究方法与资料收集
本研究以我国《中文核心期刊目录总览》(2008年版)为总体,对该目录上共计 1913份核心期刊进行分层随机抽取(每五份期刊中选取一份) ,最终抽出383份样本期刊。笔者于2008年4月向这些期刊编辑部逐一发放信件,要求回寄其论文评审表。截至2008年7月,最终回收148份有效评审表样本(纸质评审表126份,电子评审表22份) ,有效回收率为44.8% 。样本期刊目录分布情况见表 1。从该表可以看出,本研究的样本具有广泛的代表性,每类期刊回收的数量在 11 - 35份之间,所占总体样本的比率在 7. 43% - 23. 65%之间。此外,根据联合国教科文组织对研究项目的分类标准,所有期刊又可分为基础研究和应用研究,本次调查分别获得基础研究类样表 88份,应用类样表60份,对应的比例分别为 40.5%与 59.5% 。我们采用 Excel2003和SPSS16.0对所收集的数据进行了整理与分析。
2.2 我国学术论文评审标准现状
本文主要从评审指标的数量分布、内容分布和不同类别的论文评审差异三个方面,来阐述和分析我国学术论文评审标准的现状。
(1)评审指标的数量分布
通过统计分析发现,在148份评审表中,总样本的平均评审指标数为8.32,标准差为 4.82。从基础类研究与应用类研究来看,它们的平均指标个数分别是8.86和7.53。从指标的分布区间来看,最少的只有1个评审指标,最多的有22个评审指标,评审指标主要集中于3至6个之间,其中含有10个以上指标的样本数所占比例超过 1/3。其分布情况见图 1所示。
(2)评审指标的内容分布
由于每种期刊的评审指标名称和内容存在一定的差异,本文采用了先提炼再归纳的方法。具体的做法先把所有期刊的评审指标提炼出来,然后再对这些指标进行归类。我们发现有22类在内容上存在差异的指标,如表2所示。其中,创新性、学术价值、实用性和选题意义被超过 20%的期刊当作是必不可少的评审指标。另外,文字表达、参考文献、论文结论等也被较多期刊视为必要的评审指标。
(3)不同类别的论文评审标准差异
为了探究不同类别论文在评审指标内容上的差异,本研究对基础类与应用类研究论文进行了比较,比较结果如表 3所示。两类研究评审指标最大的差异体现在中英文摘要上,有 20.45%的基础类研究期刊强调中英文摘要的完备性,而仅有 1.67%的应用类研究期刊关注中英文摘要,两类研究在实用性、图表、学术价值等指标上也存在较大的差异。从表3中还可以看出,基础类研究期刊注重创新性、学术价值、实用性、选题意义与图表,而应用类研究期刊注重创新性、学术价值、文字表达、写作水平、实用性与选题意义等评审指标。
三、评审标准存在的问题
通过对上述数据及所有评审表格的深入分析,我们发现我国期刊论文的评审存在以下一些问题。
3.1 评审标准和质量参差不齐
在所收集的评审表格中,尽管每份表格都阐释了该期刊论文的评审标准,但这些标准的详略程度存在差别,进而导致评审的质量参差不齐。有的表格非常全面地列出了论文评审的标准和内容,对论文的选题、方法、文字表达、图表格式等均有涉及。根据这些标准,评审者能对论文作出更全面、更准确的评价,而有的表格仅仅列出了少数几项评审标准,对标准的阐述也只是寥寥数语,甚至有些表达容易引起误解,导致评审者无法完全准确地对论文的质量予以评价。
3.2 评审指标的量化不够科学
通过对148份评审表的阅读发现,在相当多的评审表中,每一个指标下选项的设计缺乏科学性,这不仅影响到了评审结果的信度和效度,而且给评审人的评审工作增加了难度。该问题具体表现在以下几个方面:
第一,过多使用抽象用语。我国《科学技术评价办法 (试行) 》第 51条明确指出评审标准不得滥用“国内先进” 、“国内首创”、“国际领先”、“国际先进” 、“填补空白”等抽象用语。然而,通过对本研究148份评审表的阅读发现, 45.95%的评审表中在“论文学术水平”这个指标下包含了以上用语。
第二,选项不能准确代表指标应该反映的内容。例如,一大学学报的评审表在方法一栏下的四个选项为: (1)成法套用; (2)有所改进; (3)几成法巧妙结合; (4)有独创性。显然,评审人在阅读完大部分论文之后,很难对阅读过论文的研究方法按照上面的四个选项进行评审。
第三,选项的区间不呈连续变化,而是无规律的离散性变化。一学术期刊在文字表达一栏的三个选项是: (1)含糊费解; (2)繁琐; (3)流畅通顺。这些选项的设置过于随意,不满足测量学或评价学的基本原理。另一学术期刊在实际应用价值一栏下的四个选项是: (1)有重要价值; (2)有参考价值; (3)应用价值低; (4)无应用价值。这种选项的设置也未呈现规律的变化。一般而言,选项应该按李克特的五点或七点制设置。例如,在评价论文的“应用价值”这个选项时,应设置为: (1)应用价值很高; (2)应用价值高; (3)应用价值一般; (4)应用价值低;(5)应用价值很低。
第四,选项太模糊,评审人很难做出选择。例 如,一个学术期刊在文题一栏下的五个选项为: (1)切题; (2)不明确; (3)过长; (4)过大; (5)文题不符。这里有太多的不确定性和模糊性,对文题及各选项的理解存在一定的困难。
第五,评审的标准不统一。即使采用同样的指标,如创新性或研究方法,不同的评审表选项是大不一样的。我们从理、工、文史类三种学科中各选择了一种典型期刊,列出了三种期刊在评价创新性时的具体指标,如表4所示。从该表中不难看出,不同期刊对如何评价“创新性”这个指标也存在一定的差异,期刊 A既关注创造性的内容又关注创新的程度,而期刊 B和 C只关注了创新的程度,但两者评价的方式还是存在一定的区别。
3.3 评审指标多寡不一
从图 1中我们可以看出,我国期刊评审指标的多寡很不相同,最少的只有1项评审指标,而最多的有22项评审指标。一般来说,评价指标过多或过少都不好。白秀英也认为考核指标的数量要适中,不宜太少也不宜太多,通常以3~5个指标为宜。评审指标太少,可能所选的指标缺乏足够的代表性, 容易产生片面性,同时也不能反映不同论文之间的差异性。但如果指标太多,不仅增加了评审人的脑力负荷,也稀释了各个指标的作用,反而增加了对论文水平判断的困难。
3.4 编辑与专家的指标评审分工模糊
当前我国期刊大多采用三级评审的方式,即编辑初审、专家外审和主编终审。由于三者熟悉的领域各有不同,那么他们在论文评审过程中关注的内容也应该有所差异,在论文的评审过程中三者的职责应适度分配。但从目前的调查来看,在评审表中并没有对论文的评审指标进行明确的划分,进而造成编辑与专家的角色错位现象出现。例如,一期刊在外审表中,不仅要求外审专家对文章的学术性进行评价,而且还要求他们对一些非学术性的指标予以审查,而对这些指标的评审已经超出了外审专家的知识范围。
3.5 不同学科评价指标的针对性不强
由于不同学科论文的性质和内容分存在较大的差异,如果采用同一评价标准,往往难以客观、准确地反映该论文的真实水平。叶蓬认为,在论文评审时,我们应以创新性和应用价值指标为核心,根据不同类别和性质的成果确定对应的指标及权重。但遗憾的是,在我国期刊的论文评审中,几乎没有对论文的类别和性质进行区分,也很少针对自身学科的特点设置相对应的指标。我们从本次的调查中发现,无论是哪种期刊,都要求对论文的理论贡献、实用性、方法科学性、可读性等指标进行评价,但对于不同类别的论文这些指标的重要程度是存在差异的。例如,与理论性论文相比,应用性论文的理论贡献就显得不是非常重要。
四、我国学术论文评审指标的选取与评价
4.1 评审指标数量
在评审指标数量的选择上,应坚持两个原则。第一个原则是定量与定性相结合的原则。根据目的的不同,绩效评价可分为评估型目的和发展型目的。在论文评审表格中,定量指标主要用于评估型目的, 即评价论文水平的高低,为决定论文是否录用提供直接的依据;定性指标则用于发展型目的,为论文修改提供方向和具体的意见。目前在国内,无论是编辑还是评审人,对定性评价的关注都还不够。国内多数期刊对论文的定性反馈比较肤浅,这与国外高度重视定性评价的做法形成了巨大的反差。
第二个是 1 + N原则。对绩效评估的研究结果表明,当对绩效作决策时,一个评价指标更好,当找绩效原因时,多指标更好。在评审一篇论文时,我们既在决定一篇论文是否应该被录用,同时也要指出它被录取的原因,因此评审指标应该采用 1 + N原则,其中, 1个指标是做决策,即决定该论文是否被录用或需要修改, N个指标是找原因,即指出该论文为什么好或不好,为决策提供具体的依据。如上所述,我国目前的学术论文评审指标存在多寡不一的现象。那么,究竟选择多少个指标合适呢? 综合各方面的考虑,我们认为3到6个指标比较合适。从图 1中的折线图中可以看出,评审指标在3至6之间的样本数量要明显多于其他样本,超过了总体样本的50%,这说明该指标数量得到了多数期刊的认可,这也与学者白秀英对一般考核指标数量的建议比较接近。当论文评审的指标设置在 3至 6这个区间时,既能用少量的关键性要素来决定论文的总体特征,又不至于增加评审人的脑力负荷,比较适合操作。
4.2 评审指标内容
在论文的评价过程中,评审应根据论文具体性质和特点的不同进行分类评价。对于基础类研究, 由于其主要关注的是理论性工作,因此对此类论文的评审要更加注重其理论价值及创新性,关键指标包括:
(1)科学性:稿件内容是否符合客观实际,反映事物的本质与内在规律,表现为概念、定义、论点是否正确、论据是否充分、实验材料、数据与结果是否可靠等;
(2)创新性。论文是否在某一学科领域有新发现、新观点,而非简单重复他人的研究;
(3)研究价值:学术价值是评价论文质量的最终衡量标准,表现为发现某专业领域的主流、规律与脉络,找出其中存在的问题和空白,不断促进学术领域的发展;
(4)研究方法:研究采取的试验设计、数据处理等研究方法对于保证研究的客观性起着至关重要的作用。
对于应用类研究,由于其具有明确的、特定的应用目的,在这类论文的评审中需强调其应用价值,关键指标包括:
(1)实用性:应用类研究一般都是针对特定的实际目的或目标开展的,这类研究的成果要能应用到实际工作中去;
(2)研究价值:由于应用类研究大多源于当前科学技术发展领域的热点或难点问题,旨在提出相应的对策与解决措施,因此论文的经济与社会价值是衡量论文水平的重要指标;
(3) 创新性:应用类研究的创新性不是体现在理论的贡献上,而是体现在对解决实际困难的新方法、新途径上;
(4)研究方法:科学的、合理的研究方法能确保研究成果的准确性,提高成果的实际应用价值。
4.3 评审指标评分方法
为了减小主观判断与客观标准之间的偏差,评审指标应进行量化。目前,评审指标所采取的评分方式较为凌乱。大体上,评审样表显示指标的评分主要采用 3、4与 5分制量表,该区间段比例达到91.54% 。笔者认为,论文的评审指标适宜采用五分制李克特量表。目前常用的三种量表分别是瑟斯顿量表,李克特量表和格特曼量表。相对于瑟斯顿量表的严格编制要求和格特曼量表在实际中难以满足的条件,李克特量表由于易于编制和较高的信度,成为应用最为广泛的一种量表形式。常见的李克特量表4点制、5点制、6点制、7点制、9点制甚至10点制,研究者们已对这些评审量表的等级数进行了探讨,并提出了不同的意见与看法。例如 Jensen和T ndering通过比较 2点、4点和 30点量表,发现 4点量表可以得到最好的结果,作者同时也指出被访者在判断选项时所花费的时间与量表等级数正相关。Bending比较了 3、5、7、9与 11点量表后认为应该使用 9点量表。另外,一些研究者认为内部一致性与量表等级数无关。通过市场调查的满意度研究,李育辉等则指出不同李克特量表的应用不会直接给统计结果带来明显差异,但是量表等级越多鉴别力就越高。根据上述研究成果,笔者推荐在论文评审时采用 5点或 7点制,这一方面不会因等级太多而增加评审人的评审负担,另一方面在于现有的实证研究大多采用了 5点制或 7点制,这表明该等级已经具有了较强的鉴别力。以李克特 5点制量表为例,在评价一篇学术论文的“创新性“指标时,应设置为: ( 1)创新性很低或完全没有创新性; ( 2)创新性较低; ( 3)创新性一般; ( 4)创新性较高; ( 5)创新性很高。
4.4 其他建议
为了更加科学地评审论文,我们认为在论文评审过程中还应该注意以下两点:
(1)明确不同评审主体的职责。编辑初审应注重对政治方面 (先进性、是否属于反党言论等) 、学术规范性的评价(中英文摘要、编辑标准、图表、参考文献、有无类似文章发表等)等方面的内容,专家评审应注重对选题、创新性(理论创新、技术创新、研究方法创新) 、科学性(技术水平、研究方法、实验设计、数据处理、论文结论) 、写作水平(中英文摘要、可读性、文字表达)以及研究价值(学术价值)的评价。鉴于研究价值一般包含学术价值、社会价值与经济价值,笔者认为学术价值应当由专家评审进行评价,而社会价值与经济价值需要由专家评审与主编终审共同评价甚至由主编进行评价;
(2)注重论文评审意见的反馈。从本质上看,论文评审的最终目的是为了帮助作者不断完善和改进论文,此时给作者提供详细的反馈是非常重要的。在这点上,国外期刊的做法值得我们学习。国外有的评审者为作者提供的长达十几页的反馈意见,这对于提升学者的学术水平是很有帮助的。
如何科学地评价学术论文是一项棘手的任务,本文从论文评审标准这个视角对该问题进行了尝试性的探讨。通过对《中文核心期刊目录总览》进行抽样,本文共获得了 148个样本,并对样本期刊在评审指标上的现状进行了分析,进一步的分析表明,现有论文评审标准存在诸如评审标准和质量参差不齐、评审指标量化不够科学、评审指标多寡不一等问题。针对这些问题,本文从评审指标的选取和评价共四个方面提出了若干建议。未来的研究可尝试建立一套完整的学术论文评审体系,并验证该体系的可靠性和有效性,这不仅有利于对研究人员科技成果的规范评价,而且对其他领域知识工作者的工作绩效评价也有所裨益。