攻防世界——robots

解题挺简单,用上robots.txt

出现      

User-agent: *
Disallow: 
Disallow: f1ag_1s_h3re.php

接着直接访问f1ag_1s_h3re.php,出现flag。。。。

robots是搜索引擎爬虫协议,也就是你网站和爬虫的协议。

简单的理解:robots是告诉搜索引擎,你可以爬取收录我的什么页面,你不可以爬取和收录我的哪些页面。robots很好的控制网站哪些页面可以被爬取,哪些页面不可以被爬取。

主流的搜索引擎都会遵守robots协议。并且robots协议是爬虫爬取网站第一个需要爬取的文件。爬虫爬取robots文件后,会读取上面的协议,并准守协议爬取网站,收录网站。

robots文件是一个纯文本文件,也就是常见的.txt文件。在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。因此,robots的优化会直接影响到搜索引擎对网站的收录情况。

存放目录

robots文件必须要存放在网站的根目录下。也就是 域名/robots.txt 是可以访问文件的。你们也可以尝试访问别人网站的robots文件。 输入域名/robots.txt 即可访问。

robots写作语法

disallow为不可爬取的意思。

“Disallow: /?s*” 表示路径中带有“/?s”的路径都不能爬取。

“Disallow: /” 因为所有路径都包含/ ,所以这表示禁止爬取网站所有内容。

你可能感兴趣的:(学习)