python实训笔记(动态爬虫)

动态爬虫

  • 动态爬虫
    • 1、动态页面抓取
      • 1、抓包
        • JSON数据转换
      • 2、selenium获取

动态爬虫

1、动态页面抓取

1、抓包

①找到数据传输的真实的请求地址
②找到地址之后,动态请求的数据类型一般为json(javascript中的一种数据类型)

JSON数据转换

json.loads()
将json数据类型转换为python数据类型

data=json.loads(json_data)

json.dumps()
将python数据类型转换为json

text=json.dumps(data,ensure_ascii=False,indent=2)

将利用真实请求地址获取到的json数据转化为python数据进行内容提取

data=json.loads(html) #将json数据类型转换为python数据类型
for d in data: #遍历数据拿到每个电影信息的字典
    title=d["title"] #获取电影的名称
    release_date=d["release_date"] #获取上映时间
    actors=d["actors"] #获取演员信息  list
    actors=",".join(actors)
    score=d["score"] #获取电影的评分
    regions=d["regions"] #获取国家信息 list
    regions=",".join(regions)
    content=[title,actors,release_date,score,regions] #整合写入数据库的序列
    self.save_data(content) #调用保存数据的函数

2、selenium获取

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

browser = webdriver.Chrome()
browser.get("https://www.baidu.com/")
input_label = browser.find_element_by_id("kw")
input_label.send_keys("英雄联盟")
# 敲回车
input_label.send_keys(Keys.ENTER)
time.sleep(5)
browser.close()
#三种查询方式
data=browser.find_element_by_css_selector()
data=browser.find_element_by_class_name("head-nav-title")
data = browser.find_element_by_xpath('//span[@class="head-nav-title"]')
#滚动
browser.execute_script("window.scrollTo(0,document.body.scrollHeight)")
#获取class和text
print(data.get_attribute("class"))
print(data.text)

# 隐式等待,等待时间内找出来就返回,找不出来就报错
browser.implicitly_wait(20)
# 显式等待
wait = WebDriverWait(browser, 10)
data = wait.until(EC.presence_of_element_located((By.XPATH, '//span[@class="head-nav-title"]')))

#点击下一页
button=browser.find_element_by_css_selector("#page > div > a:nth-child(12)")
button.click()
#获取当前操作页面的url地址
browser.current_url

你可能感兴趣的:(python实训笔记(动态爬虫))