day02:requests爬取豆瓣电影信息

一、requests爬取豆瓣电影信息
-请求url:
https://movie.douban.com/top250
-请求方式:
get
-请求头:
user-agent
cookies
二、selenium请求库
1、什么是selenium?
起初是一个自动化测试工具,原理是驱动浏览器执行一些一定好操作的操作。
爬虫本质是上就是模拟浏览器,所以可以使用它来做爬虫。
2、为什么要用selenium?
优点:
-执行js代码
-不需要分析复杂的通信流程
-可以对浏览器做弹窗,下拉等动作
-***** 可以获取动态数据
-*** 破解登录验证
缺点:
-执行效率低

3、安装与使用
1、安装selenium请求库:
pip3 install selenium
2、必须安装浏览器
谷歌或者火狐
3、安装浏览器驱动
http://npm.taobao.org/mirrors/chromedriver/2.38/
windows:
下载win32驱动
'''
爬取豆瓣TOP205电影信息:
    电影名称    电影url    电影导演
    电影主演    电影年份    电影类型
    电影评分    电影评论    电影简介

1、分析所有主页的url:
第一页:
https://movie.douban.com/top250
第二页:
https://movie.douban.com/top250?start=25&filter=
第三页:
https://movie.douban.com/top250?start=50&filter=
'''
import requests
import re
# 爬虫三部曲
# 1.发送请求
def get_page(url):
    respones = requests.get(url)
    # print(respones.text)
    return respones

# 2. 解析数据

'''
电影排名、、、
 

selenium请求库的使用:

from selenium import webdriver  # web驱动
from selenium.webdriver import ActionChains  # 破解滑动验证码的时候用的 可以拖动图片
from selenium.webdriver.common.by import By  # 按照什么方式查找,By.ID,By.CSS_SELECTOR
from selenium.webdriver.common.keys import Keys  # 键盘按键操作
from selenium.webdriver.support import expected_conditions as EC  # 和下面WebDriverWait一起用的
from selenium.webdriver.support.wait import WebDriverWait  # 等待页面加载某些元素
import time

# 方式一:通过驱动打开浏览器
driver = webdriver.Chrome(r'E:\phyon\driver\chromedriver.exe')

# 方式二:把webdriver.exe驱动放到 python解释器安装目录/Scripts文件夹中
# python解释器安装到目录Scripts配置环境变量
# python解释器安装到目录,配置环境变量
driver = webdriver.Chrome()
try:
    driver.get('https://www.jd.com/')


    wait = WebDriverWait(driver, 10)

    input_tag = wait.until(EC.presence_of_element_located((By.ID, 'key')))
    time.sleep(5)

    input_tag.send_keys('公仔')

    input_tag.send_keys(Keys.ENTER)

    time.sleep(15)
finally:
    driver.close()

 

转载于:https://www.cnblogs.com/963989822cmd/p/11124219.html

你可能感兴趣的:(day02:requests爬取豆瓣电影信息)