编辑一旦发现论文的重复率过高(即和已发表的论文数据库中的某一篇或多篇论文高度相似),就会直接拒稿或退回。
重复率等于论文中重复的单词个数除以论文参与查重的总字数(原则上参考文献不参与查重)。
在查重报告中,一般用SimilarityScore(相似度分数)或Similarity Index(相似度指数)表示重复率,两者的定义没有任何差别。
我们想强调的是,学会改写不是为了更好地拷贝再转化成自己的写作,而是让大家更好地学会消化吸收和引用参考已发表的论文,特别是论文的引言和材料方法部分以及综述性论文的写作方法。
国际上越来越多的SCI期刊设置了论文预筛选环节
,即编辑在查看论文内容之前,用查重软件对提交上来的论文进行查重。
即使论文侥幸通过编辑预审和审稿人审稿而发表,在论文见刊后也需要接受读者的审阅。
重复可分为故意重复
(即直接挪用他人写作成果)和无意重复
(即自己写的内容也会重复)。
对无意重复的6个主要原因从SCI论文的各个部分进行解释说明。
由于题目中包含的核心关键词在同一领域中很可能一样,因此如果研究内容和已发表论文的研究内容相似,那么就很可能出现题目高度重复的情况
题目重复的主要原因是题目的核心要素相似,如研究的对象、研究的变量、研究的条件、研究理论/方法/关系
等。这些核心要素常常被写在一些常用的表达中,比如题目的经常写法
有(加粗表示研究对象或条件):
虽然论文题目的字数很少,即便被查出有重复也不会对全文整体的重复率有较大影响,但是如果被SCI期刊编辑发现高度重复,就很可能会判断我们的论文是在重复前人的研究
,也就是说创新性很差,很有可能直接被编辑拒稿
。
在引言的写作中,首先要在第一段介绍研究背景
,这在两种情况下容易造成重复。
在引言中,容易出现重复的第二个部分是对前人研究成果的总结概括
。如果没有高度概括前人的研究成果,就容易出现短语结构和关键词重复的情况。
或者选用一些常见的短语
进行概括,也有可能出现重复的情况,例如a number of experimental and numerical studies on。
此外,在报道某种情况或数据
时,由于数据和报道的对象都是统一的,就容易造成重复。
如果我们的论文研究方法和国际同行类似,往往需要参考已发表论文中的方法和具体步骤。其中那些较为标准和通用的方法步骤往往可以被借鉴。
同时,如果我们已经发表过使用某个试验方法或数值分析方法的论文,在新的论文中需要再次描述同一方法,就很容易造成自我重复
如果使用和已发表的论文中相同的试验或模拟方法,特别是和自己已发表论文中的实验方法相同,且测量的变量也相同,就会出现在论文结果部分使用和已发表论文结果部分相类似的句子结构去表达的情况。
目前的计算机查重算法将有固定表达
的作者单位信息(Affiliations)、变量说明(Notations)、相对固定的致谢(Acknowledgement)、利益冲突申明(Conflict of Interest Statement)和道德申明(Ethical Statement)都纳入查重范围,因此这五部分一般都会被算作重复部分。不过大部分SCI期刊编辑都理解这些部分的重复,而且它们字数很少,因此不会对全文的重复率有大的影响。
理论上,判断论文内容是否重复的方法是看论文中的想法是否来自于作者自己,且用自己的话表达
;如果不是,则要看是否将借鉴的内容进行了恰当改写并且写上了参考文献
。因此,想要避免重复,则要在论文中用自己的话表达原创的想法,否则就要改写并附上参考文献。
(1)复制粘贴重复
是指克隆式地去照抄别人论文中的语句,是一种“暴力”重复,是绝对逃不出目前查重算法的法网的。---------- 字符串精确匹配算法
(即一句话中连续重复3个及以上单词即可判定为重复)
(2)伪装式重复
是指对原文的形式进行小改动,且没有加双引号明确指出引用的内容,比如表11.2中下划线部分的句子就是伪装式重复句子。 ---------- 字符串精确匹配算法
(3)改写式重复
是指通过意译改写句子,即保持句子意思不变,但重新用自己的话表达出来。
(4)翻译式重复
是指翻译其他语言的论文,保持译文与原文意思一致,比如将英文论文翻译成中文论文,并在中文期刊上发表,这样的操作就可以被称作翻译式重复。
(5)想法重复
是指论文中语句表达出来的想法存在雷同,即语句表达的核心意思一致,但是语言表达的形式不同。
目前绝大多数国际SCI期刊采用的权威查重算法是一种基于语言风格的算法
理解句子结构
(只要句子结构和原文类似,那么即使句子中的部分单词不同,剩余重复的单词也照样可以被查出,即便是常用的介词或冠词)不过,目前最先进的查重算法的识别程度还只能局限在句子结构上,而不能理解单词的含义
,即不能在语义上进行查重,比如近义词替换后就可以躲开重复。
总结一下,目前的最新权威查重算法能覆盖所有的“复制粘贴重复”和“伪装式重复”,部分覆盖“改写式重复”。这就意味着,对于准备投稿国际SCI期刊的作者,只要避免暴力的“复制粘贴重复”以及对原文表达形式进行小变动的“改写式重复”,以及采用正确的改写方法,就能大幅度降低重复率,从而成功通过SCI期刊的查重预筛选。
目前受到国际SCI期刊认可程度最高的查重软件是iThenticate
。
期刊编辑主要看的是总的重复率
,但是也看重复的具体情况。
比如一篇论文的重复率是20%,表示有20%的文字和数据库中的一篇或多篇论文重复。重复的部分既可以是和单独一篇论文重复(单篇20%的重复率),也可以和20篇论文重复(每篇论文1%的重复率)。很明显,前者重复的情况要比后者严重得多,因为作者有可能大幅度复制同一篇论文。因此,如果重复的篇数很多且每篇论文重复率都很低,比如1%,那么有一个高的总重复率的论文也不一定被判定为重复。这也告诉我们,要判断论文重复的程度可以先看是零散的单词或句子重复,还是整段或多段文字的集中重复
。
同时,即便同一重复率下,在不同位置
的重复也会产生不同的重复结果。比如,在实验方法部分
重复就比在结果、讨论和结论部分
重复的程度要轻。这是因为描述材料、实验分析方法和过程的语句形式变化有限,从而容易造成重复,这通常可被期刊编辑所理解。然而论文的结果、讨论和结论部分是体现论文个性和创新性的核心部分,也就意味着不能和其他论文重复,这也是编辑会比较严苛对待的部分。
此外,论文的类型
也会影响期刊编辑判断期刊的重复程度。比如综述性论文就比原创性论文更加容易造成重复。因为在综述性论文中,作者需要大量地总结前人的研究成果,几乎没有或较少地贡献原创数据和分析。但是笔者强烈建议大家在理解前人研究成果的基础上用自己的话表述,这是写综述性论文的基本要求。
因此,期刊编辑在拿到论文的查重报告后,会首先看总的重复率,再考虑重复的分布、重复的主要位置、论文类型等来判断重复程度。由于单一的总重复率不能决定重复的严重性,因此目前国际上并没有统一的最低重复率标准,即不能说哪一个具体的重复率以下的重复程度可算作合格。
因此,我们可以认为,总重复率在10%以下
且单篇不超过5%
会比较安全,基本不会算作重复;但如果总重复率超过20%,这样的论文基本会判定为严重重复。
值得注意的是,改写时要遵守句子意思不变或相近的原则。主要降重方法及流程
:首先应理解要改写句子的意思,然后在整体形式上改变句子结构
(比如复杂句与简单句转换、主动句与被动句转换等),并进行局部改动
,比如词组变换、同义词替换、单词形式变化(单复数变化、动词与名词转换、名词与形容词转换等)
(1)改写句子结构
的例子,以复杂句与简单句转换为例,比如:
复杂句:Based on the WL theory, Wang et al.developed an analytic model, which combinesthe Fourier synthesis method and the time-dependent linear stability analysis, to predict theinterface structures.
简单句:Based on the WL theory, Wang et al.developed an analytic model to predict theinterface structures.This model combines the Fourier synthesis method and the time-dependent linear stability analysis.
(2)词组变换
,以名词所有格变换为例:the influence of…factor与the factor’s influence。
(3)同义词替换
的例子,比如:use和utilize; a positive change与an improvement。
(4)单复数变化
的例子,比如:result与results。
(5)动词与名词转换
的例子,比如:We consider….与The consideration of…
(6)名词与形容词转换
的例子,比如:The experiment was a success与The experiment was successful。
其他改写技巧:
(1)单复数变换不算重复
,比如可将apple改成apples。
(2)图形
不会记入查重,即可将表格中的数据用图形表示。
(3)多次出现的专业词组改成简写
,比如可将sea spray generation function改写为SSGF。
具体案例还是自己看原书吧,不整理了。
Q: 为什么一些非常基础的词汇,比如and, on, the, of等词都会被查重识别出来?
这是因为它们所在的句子和前人发表过的句子结构上相似,且这些简单词又在已发表论文的相似句子结构中出现。句子相似是目前权威查重算法能有效识别的,具体见本讲11.3。比如句子“I like appleand orange.”其句子结构为“…like A and B.”那么这个相似句子“You like watermelon andbanana”中的like和and就是重复词。