经发现,虽然wget遵循 robots.txt 规则,但是那个还是可以绕过去,现在56云小编把我自己使用的屏蔽方法分享给大家:

  1. 屏蔽下载任何文件

.htaccess

SetEnvIfNoCase User-Agent "^wget" bad_bot

Order Allow,Deny

Allow from all

Deny from env=bad_bot

  1. 屏蔽下载部分文件

.htaccess

SetEnvIfNoCase User-Agent "^Wget" bad_bot

SetEnvIfNoCase User-Agent "^Wget/1.5.3" bad_bot

SetEnvIfNoCase User-Agent "^Wget/1.6" bad_bot

Order Allow,Deny

Allow from all

Deny from env=bad_bot