爬虫

静态网页

  • urllib2
    x=re.compile(r"title>.*?<\title")
    y=re.search(x,str)

  • 正则表达式

  • re

  • requests

  • beautifulsoup

动态网页

  • 抓包工具

模拟登陆

  • cookielib
  • headers设置
  • 表单数据的提交

你可能感兴趣的:(爬虫)