python爬虫,requests+beautifulsoup+selenium+phantomJS

对爬虫理解不多,以前也没接触过,只是最近有个朋友让帮忙爬点东西,解放繁重的重复操作,才开始看,本篇文章仅用于自己记录。


一个测试工具:Chrome下的REST client(网页调试工具,可以修改headers、cookies进行post和get网页url)

两个快捷键:crtl+u打开网页源码,F12打开调试(或在页面某个想查看的元素上右键,然后点击审查元素(360),检查(chrome))

三个概念:DOM,CSS,JS(类比成骨骼、肌肉、衣服的关系)

四个依赖库:requests,BeautifulSoup,selenium,phantomJS(获取源码,正则化匹配,模拟器)


针对网页的编写格式分类:1、静态html;2、javascript动态加载。

1、静态html

静态html的网页源码里直接有想爬的东西,通过requests+BeautifulSoup就能解决,把正则表达式用好就行。

2、动态JS

(1)打开“调试”界面,刷新网页,在Network-XHR或JS里会出现网页请求,点开某个请求在preview里查看是否有想要的东西,如果有那么在headers里复制request url、headers、cookies,用这个request url替代网页的总url进行爬取。

python爬虫,requests+beautifulsoup+selenium+phantomJS_第1张图片


(2)selenium+phantomPS

通过模拟器的方式,模仿人访问网页然后爬取信息,可以进行翻页、点击等,缺点是速度慢。

你可能感兴趣的:(python相关,爬虫,selenium)