web spider(网络爬虫)研究

搜索引擎即:网络爬虫,又叫蜘蛛,某些搜索引擎的算法较差,爬服务器时严重耗资源,还有可能造成内存溢出。可以设置 robots.txt来禁止爬虫来爬服务器。网站根目录下没有放置robots.txt文件,是允许所有网络爬虫搜索所有文件。
在网站根目录下放一个文件robots.txt,但好像不会立刻生效。
如要禁止sogou的爬虫,可以在robots.txt这样设置
User-agent:Sogou web spider
Disallow: /
如要禁止baidu的爬虫,可以在robots.txt添加
User-agent:Baiduspider
Disallow:/

你可能感兴趣的:(Web,爬虫,网络,spider,研究)