爬虫被封原因

各大网站爬虫

'Googlebot', // Google 爬虫
'Baiduspider', // 百度爬虫
'Yahoo! Slurp', // 雅虎爬虫
'YodaoBot', // 有道爬虫
'msnbot' // Bing爬虫
// 更多爬虫关键字

有一些网站会判断你的user-agent如果是属于爬虫就会返回禁止爬虫这类的页面,或者直接屏蔽~


cookie问题,有一些网站只认某一个页面的cookie其他的都不可以

你可能感兴趣的:(百度,Yahoo,Google,bing)