Python爬虫技术汇总

基础技术

urllib
urllib.quote
urllib.urlencode

urllib2
urllib2.HTTPCookieProcessor
urllib2.build_opener

cookielib
cookielib.CookieJar

进阶技术

request
request.get
request.post
s = request.Session

Beautiful Soup HTML页面解析工具
PyQuery jQuery的Python实现
PhantomJS 是一个无界面的,可脚本编程的WebKit浏览器引擎
lxml xpath支持
Selenium 支持各种浏览器驱动(包括PhantomJS), 可操作浏览器自动请求

高级

PySpider
Scrapy

你可能感兴趣的:(Python)