关于伪原创 各类伪原创对比分析

应用户要求,最近在对我开发的那个站群软件做升级打算接入伪原创处理,目前市面上伪原创的工具五花八门,原理无非就3种,一种是nlp语料训练的,这种目前用的应该是最少的、可以说基本没有,另外两种就是翻译的和分词替换的。
以下测试所用到的算法:余弦相似度以及百度dnn语言模型

关于伪原创 各类伪原创对比分析_第1张图片


根据目前市面上主流的几大伪原创工具的原理  挑选了以下三家做了下对比。
测试文本 有时事新闻、n年前的内容以及手工编辑的
下面是部分测试结果

关于伪原创 各类伪原创对比分析_第2张图片

关于伪原创 各类伪原创对比分析_第3张图片

关于伪原创 各类伪原创对比分析_第4张图片

关于伪原创 各类伪原创对比分析_第5张图片



说下结论(由于5118没付费的话只有100次机会,测试结果样本有点少,所以5118的就抛开不讲了)百度和谷歌的差不多跑了1万次,结论是百度吊打谷歌。。。。。。。。。。。。。

你可能感兴趣的:(伪原创,github)