day3、bs4,jsonPat(了解),selenium,chromedriver

1、bs4

BeaufulSoup 和lxml一样都是用于解析html的框架,对数据的分析和提取。

和lxml相比,效率略低,用起来比较方便

bs4需要下载安装: pip install bs4

2、jsonPath(了解)

安装:pip install jsonpath

3、selenium

selenium+phatomjs和selenium+chrome

selenium:是一种用于web程序测试的工具,selenium测试的代码可以直接运行在浏览器中,就像真正的用户操作一样。

在写python爬虫的时候,主要是用selenium的webdriver 来驱动浏览器进行相关的操作

安装:pip install selenium

selenium中元素查找:

​ find_element_by_id()

​ find_elements_by_name()

​ find_elements_by_xpath()

​ find_elements_by_tag_name()

​ find_elements_by_class_name()

​ find_elements_by_css_selector()

​ find_elements_by_link_text()

​ 事件

​ click() 点击

​ send_keys()

​ switch_to_alert()

chromedriver:谷歌浏览器驱动

加载方法如下:

法一:driver = webdriver.Chrome(r'/Users/fanjianbo/Desktop/chromedriver')

法二:把chromedriver的目录配成环境变量路径,然后:driver = webdriver.Chrome()

【注意】chromedriver的版本要和chrome浏览器相对应,不然很多功能不能用

下载操作谷歌浏览器驱动的页面:http://chromedriver.storage.googleapis.com/index.html 或者 http://npm.taobao.org/mirrors/chromedriver/2.37/

谷歌驱动和谷歌浏览器版本之间的映射表:http://blog.csdn.net/huilan_same/article/details/51896672

phantomjs:无界面浏览器

加载方法如下:

    法一:driver = webdriver.PhatomJS("C:\Users\ZBLi\Desktop\1706\day04\ziliao\phantomjs-2.1.1-windows\bin\phantomjs.exe")

    法二:把phantomjs拷贝到c盘下,并把bin目录配置成环境变量,然后driver = webdriver.PhatomJS()

【注意】phantomjs目前已经不再更新

下载地址:http://phantomjs.org/download.html

你可能感兴趣的:(day3、bs4,jsonPat(了解),selenium,chromedriver)