用户隐私数据是怎么泄露的?揭秘黑客的惯用手段——《Robots协议漏洞详解》(建议收藏)

隔壁大娘看着光秃秃的菜园彻底呆住了,冲到狗剩家门口骂了三天三夜,丝毫没有要走的意思,狗剩忍无可忍,拿出电脑在大娘的农场搜索了好久,竟然找到了大娘私藏的照片。
狗剩:大娘,您跟隔壁王叔。。。

用户隐私数据是怎么泄露的?揭秘黑客的惯用手段——《Robots协议漏洞详解》(建议收藏)_第1张图片

Robots协议漏洞

  • 一、用户隐私数据泄露
  • 二、Robots协议简介
    • 1、什么是Robots协议
    • 2、初识网络爬虫
    • 3、为什么要使用Robots协议
  • 三、Robots协议漏洞利用
    • 1、如何查看网站的Robots协议
    • 2、Robots协议内容解析
    • 3、网站对Robots协议的利用方式
    • 4、Robots协议漏洞利用
  • 总结

一、用户隐私数据泄露

相信很多朋友都接到过【骚扰电话】,有卖房子的,有带宽的,还有推销动作电影的(手动捂脸),虽然很多时候来电显示会标明骚扰电话,但大家有没有想过,我们的私人信息是怎么被他们拿到的呢?如果只是单纯的骚扰电话还好,一旦不法分子利用我们的隐私数据进行【诈骗】,后果将不堪设想。

用户隐私数据泄露的途径有很多,归根结底都是利用了网站存在的一些漏洞,网站的漏洞可谓是五花八门,本期就跟大家分享一下【Robots协议漏洞】导致的用户隐私数据泄露。

二、Robots协议简介

1、什么是Robots协议

Robots协议全称是Robots Exclusion Standard,翻译成中文就是【网络爬虫排除协议】,别名:爬虫协议,机器人协议等。 Robots协议依靠 robots.txt 文件来【制定爬虫访问的规则】,其本质上是一个文本文件,这个文本文件规定了网站中哪些内容可被爬取,哪些内容不可以被爬取。
需要注意的是,robots.txt必须放在 网站的根目录 下,并且文件的名字必须全部小写

2、初识网络爬虫

我们平时在百度上搜索的内容,实际上是百度的 【搜索引擎】 利用 【网络爬虫】 爬取到的内容,当爬虫访问一个站点的时候,首先会检查站点的根目录下是否存在robots.txt文件,
如果存在这个文件,爬虫就会 按照文件中的规则来确定访问的内容
如果没有这个文件,爬虫 默认能够访问网站上的所有内容

3、为什么要使用Robots协议

出于 【网络安全】 的考虑,每个网站都需要设置自己的Robots协议规则,来表明哪些内容愿意被搜索引擎收录,哪些内容禁止被爬取。Robots协议代表一种 网站的根目录 契约精神,所有网站都应该遵守这一约定,以保证网站以及用户的隐私数据不被泄露。

三、Robots协议漏洞利用

1、如何查看网站的Robots协议

我们就拿平时最常用的百度来举例,这种大型的正规网站肯定会使用Robots协议,首先我们输入 www.baidu.com,进入百度的首页

用户隐私数据是怎么泄露的?揭秘黑客的惯用手段——《Robots协议漏洞详解》(建议收藏)_第2张图片
接下来,我们在地址栏中追加输入 /robots.txt

用户隐私数据是怎么泄露的?揭秘黑客的惯用手段——《Robots协议漏洞详解》(建议收藏)_第3张图片

因为robots.txt必须放在网站的根目录下,所以我们直接在域名后面输入文件名就可以了,这个操作本质上是访问 robots.txt这个文件,由于是纯文本文件,所以访问时不会执行文件,而会展示文件中的内容(如果是程序文件则会执行文件中的代码,而不是展示文件内容)

2、Robots协议内容解析

Robots协议的内容需要写在robots.txt文件中,格式是: 【协议头】:【空格】【协议头内容】,常见的协议头有以下几个

  • User-agent: 爬虫名
  • Disallow: 禁止访问的路径
  • Allow: 允许访问的路径
  • Sitemap: 网站地图

比如,禁止百度的爬虫爬取网站指定目录可以这样写
用户隐私数据是怎么泄露的?揭秘黑客的惯用手段——《Robots协议漏洞详解》(建议收藏)_第4张图片
网站通常会采用【黑名单】的方式来标明禁止爬取的内容,而没有标明是否可以爬取的内容默认可以被爬取

3、网站对Robots协议的利用方式

爬虫协议的主要作用是规定 哪些文件不能被爬虫爬取 ,不希望被爬取的文件大致有两种可能:一种是 【无意义的文件】,禁止JS、CSS、图片等资源型文件,这种文件即使被爬取了也没有任何意义,禁止被爬取反而可以节省服务器的资源;还有一种就是 【敏感文件】,这也是采用Robots协议的主要目的,网站出于对安全和隐私的考虑,会禁止一些敏感文件被被浏览器爬取;

4、Robots协议漏洞利用

需要注意的是: 【不能被爬取不代表不能被访问!】,网站在禁止访问的路径中标识了不希望被访问的敏感文件,殊不知,这一操作变相的告诉了用户敏感文件的所在位置,用户根据路径访问敏感文件即可获取网站的敏感数据。比如访问配置文件,查看配置文件的内容,根据网站的不当配置进行漏洞利用;或者在日志文件中传入一句话木马,访问日志文件来连接网站后门,获取网站权限等等。利用这些漏洞(为了能过审,这里就不进行实际的演示了),非法用户可以轻易的获取数据库中的信息,包括 用户的手机号,家庭住址,购物信息等敏感信息,从而进行电话骚扰,甚至是诈骗!

用户隐私数据是怎么泄露的?揭秘黑客的惯用手段——《Robots协议漏洞详解》(建议收藏)_第5张图片

总结

Robots协议本是用来保护网站和用户隐私数据的准则,但总有一些 【年轻人不讲武德】,反向利用防护规则来窃取用户隐私数据。虽然网络安全的圈子不乏各种灰产,以及高调宣传自己是黑客的脚本小子,但不可否认,这个圈子仍有不少人保持着 【举世皆浊我独清,众人皆醉我独醒】的心态,努力磨砺技术,提升自身修养,让互联网变得更加安全。
本期内容旨在提高大家的网络安全意识,动歪脑筋的同学请在心里默念三遍 【我国有一部完整且历史悠久的法律】

用户隐私数据是怎么泄露的?揭秘黑客的惯用手段——《Robots协议漏洞详解》(建议收藏)_第6张图片

你可能感兴趣的:(Web渗透,爬虫,python,网络安全,信息安全,java)