4.爬虫基础3

1.bs4


BeaufulSoup 和lxml一样都是用于解析html的框架,对数据的分析和提取。

和lxml相比,效率略低,用起来比较方便

bs4需要下载安装: pip install bs4


2.jsonPath(了解)


安装:pip install jsonpath


3.selenium


selenium+phatomjs和selenium+chrome

selenium:是一种用于web程序测试的工具,selenium测试的代码可以直接运行在浏览器中,就像真正的用户操作一样。

在写python爬虫的时候,主要是用selenium的webdriver 来驱动浏览器进行相关的操作

安装:pip install selenium

selenium中元素查找:
    find_element_by_id()
    find_elements_by_name()
    find_elements_by_xpath()
    find_elements_by_tag_name()
    find_elements_by_class_name()
    find_elements_by_css_selector()
    find_elements_by_link_text()

    事件
    click() 点击
    send_keys() 输入
    switch_to_alert()

chromedriver:谷歌浏览器驱动
加载方法如下:

法一:driver = webdriver.Chrome(r'/Users/liujun/Desktop/chromedriver')

法二:把chromedriver的目录配成环境变量路径,然后:driver = webdriver.Chrome()

【注意】chromedriver的版本要和chrome浏览器相对应,不然很多功能不能用

下载操作谷歌浏览器驱动的页面:http://chromedriver.storage.googleapis.com/index.html 或者 http://npm.taobao.org/mirrors/chromedriver/2.37/

谷歌驱动和谷歌浏览器版本之间的映射表:http://blog.csdn.net/huilan_same/article/details/51896672

phantomjs:无界面浏览器
加载方法如下:

法一:driver = webdriver.PhatomJS("C:\Users\ZBLi\Desktop\1706\day04\ziliao\phantomjs-2.1.1-windows\bin\phantomjs.exe")

法二:把phantomjs拷贝到c盘下,并把bin目录配置成环境变量,然后driver = webdriver.PhatomJS()

【注意】phantomjs目前已经不再更新

下载地址:http://phantomjs.org/download.html

你可能感兴趣的:(4.爬虫基础3)