2017.08.02

hadoop 集群还有点问题,没有搭建完成,明天继续,应该能完成。


变动 user-agent 的方法,有两种:

  1. 通过将 fake_useragent 维护的所有 user agent 获取下来,生成为一个 user_agent_list,然后每次在 scrapy 中Request 的时候在 headers 中就随机去一个 user agent 代替

  2. 直接使用 fake useragent
    pip install fake_useragent

from fake_useragent import UserAgent

ua = UserAgent()
ua.ie
ua.firefox
ua.safari
ua.random

以上这些都能获取到不断变化的 user agent


获取代理的方法,使用 西刺网 提供的免费的代理服务器

你可能感兴趣的:(2017.08.02)