selenium PhantomJS 的基本操作

#!/usr/bin/env python
# -*- coding:utf-8 -*- 
# Author: json_steve

from selenium import webdriver
import sys
reload(sys)
sys.setdefaultencoding('utf-8')


def selenium_base_use():

    # 创建浏览器对象
    driver = webdriver.PhantomJS()

    # 发送请求
    driver.get('http://www.baidu.com')

    # 点击新闻按钮
    driver.find_element_by_name('tj_trnews').click()

    # 输入框输入数据 :unicode编码
    driver.find_element_by_id('ww').send_keys(u'json')

    # 点击一下百度一下按钮
    driver.find_element_by_class_name('btn').click()

    # 点击一条新闻
    driver.find_element_by_xpath('//*[@id="1"]/h3/a').click()

    # 找到新开的页面,list
    print driver.window_handles

    # 根据下表索引 切换窗口
    # driver.switch_to_window(driver.window_handles[1]) # 过去但是可以用
    driver.switch_to.window(driver.window_handles[1])

    # 查看当前网址
    current_url = driver.current_url
    print current_url

    # 获取所有cookie
    driver.get_cookies()

    # 快照
    # driver.save_screenshot("1baidu.png")

    # 获取内容
    data = driver.page_source
    data = data.decode('utf-8').encode('gbk')
    with open('baidu.html', 'w') as f:
         f.write(data)


    # 关闭当前的页面
    # driver.close()
    # 关闭浏览器
    # driver.quit()

if __name__ == '__main__':
    selenium_base_use()

你可能感兴趣的:(spider)