【发点感慨】我的cnblogs的文章被爬到了别的网站,阅读量比在cnblogs上还要高

近期我写了挺多VictoriaMetrics的文章,在搜索相关文章的时候发现,我的文章被别的网站爬去了:
【发点感慨】我的cnblogs的文章被爬到了别的网站,阅读量比在cnblogs上还要高_第1张图片

写写技术文章就是无偿分享给别人看的,越多人看到越多人受益,这一点没毛病。
但是:

  • 爬了别人的文章,是不是应该注明一下作者和原文链接?
  • 爬过去的内容,最好是完整的易于阅读的。有几篇文章丢了图片,有几篇丢了链接,有的铺满了各种广告……
  • 某个网站,大量爬取免费的文章,仗着自己的内容多、SEO做得好,就可以靠着搜索流量,通过别人创作的内容来加入广告变现……挺无耻的!

这个问题挺难搞的:
1.首先,cnblogs这样的网站要做好SEO优化,并要能够相比第三方网站的爬虫,更早被主流搜索引擎爬到;
2.搜索引擎应该要保护原创作者:

  • 能够识别两个URL的内容是相同的
  • 识别出最早的发布源,将真正的原创排在前面
  • 如果某个网站总是出现大量重复文章,则应该惩罚性的排名靠后
    3.cnblogs这样的网站要做好运营:
  • 通过某种机制,发现恶意的爬取网站。例如,在文章中隐藏某个特殊字符串,这个字符串全网唯一,通过搜索这个字符串发现偷盗者
  • 屏蔽偷窃网站的爬虫
  • 采用法律手段主动出击

以上都是挺大的工作,对于创作者个人,我觉得可以这样:

  • 文章中手动加上作者和出处的声明。就算文章被爬,也能够“宣誓”自己的原创地位;
  • 放弃开放性,选个封闭的圈子。例如微信公众号、头条等。搜索引擎搜不到,但是能防止这种没良心的爬取。

鼓励分享,反对偷窃!

你可能感兴趣的:(【发点感慨】我的cnblogs的文章被爬到了别的网站,阅读量比在cnblogs上还要高)