回顾
- 5种反爬机制
- robots.txt:反爬机制,防君子不防小人
- UA检测:UA伪装
- 数据加密
- 图片懒加载
- 代理ip
- requests模块爬取流程:
- 指定url
- 发起请求
- 获取页面数据
- 数据解析
- 持久化存储
- bs4解析:
- 环境安装:bs4、lxml解析器
- 实例化bs对象,将页面源码数据加载到该对象中
- 定位标签
- find('a',class_='xxx')
- findall()
- select()
- 大于号,一个层级
- 空格,多个层级
- 将标签中的文本内容获取
- string 返回标签下文本内容
- text 返回标签下所有字标签问本内容
- get_text()
- 获取属性
- a['href']
xpath使用(【重点】xpath表达式)
- 环境安装:pip install lxml
- 解析原理:
- 获取页面源码数据
- 实例化一个etree的对象,并且将页码源数据加载到该对象中
- 调用该对象的xpath方法进行制定标签的定位
- 【注意】xpath函数必须结合着xpath表达式进行标签定位和内容捕获
- 将html文档或xml文档转换成一个etree对象,然后调用对象中的方法查找指定的节点
- 本地文件:tree = etree.parse(文件名)
tree.xpath('xpath表达式')
- 网络数据:tree = etree.HTML(网页内容字符串)
tree.xpath('xpath表达式')
- 本地文件:tree = etree.parse(文件名)
xpath表达式
- / 层级之间的关系
- / 相当于bs4中select中的>
- // 相当于bs4-select中的空格
- 举例:
- /html/head/title 从根目录开始找,html下的 head标签下的 title标签
- //head/title 先找到当前源码中所有的head标签,在找到head标签下的title标签
- //title 找到所有title标签
- 属性定位:
- //div[@class='song'] 定位所有class属性值为song的div标签;[]中必须跟@符号,属性名称前必须有@【语法结构】,返回的是列表
- 层级&索引定位:
- //div[@class='tang']/ul/li[2]/a 定位所有class属性值为tong的div直系标签 ul标签下的 第二个li标签下的直系字标签 a标签;
- 逻辑运算:
- //a[@href='' and @class='du'] 定位所有href属性值为空且class属性值为du的所有a标签
- 模糊匹配:
- //div[contain(@class,'ng')] 定位class属性值包含ng的所有div标签
- //div[start-with(@class,'ta)] 定位class属性值以ta开头的所有div标签
- 取文本
- 表示获取某个标签下的文本内容
- 表示获取某个标签下的文本内容和所有子标签下的文本内容
- //div[@class='song']/p[1]/text() 获取class属性值为song的所有div标签下的 第一个p字标签 包含的文本
- //div[@class='tang]//text() 获取class属性值为tang的所有div标签下的 所有文本,及其字标签下的所有文本,返回的是列表,列表里有多个列表元素
- 取属性
- //div[@class='tang']//li[2]/a/@href 返回属性对应的属性值
案例:获取58二手房相关房源信息
In [1]:
import requests
from lxml import etree url = 'https://bj.58.com/beijingzhoubian/ershoufang/?PGTID=0d30000c-0000-1175-8e33-a6e941f8aff5&ClickID=1' headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER' } # 获取源码数据 page_text = requests.get(url=url,headers=headers).text # 实例化etree对象 tree = etree.HTML(page_text) # 调用xpath方法,后去li标签列表 li_list = tree.xpath('//ul[@class="house-list-wrap"]/li') fp = open('58.csv','w',encoding='utf-8') #遍历列表 for li in li_list: # .开头的意思:进行局部页面解析;./开头表示从li标签开始解析 title = li.xpath('./div[2]/h2/a/text()')[0] price = li.xpath('./div[3]//text()') #将价格的三个列表拼接为字符串 price = ''.join(price) fp.write(title+':'+price+'\n') fp.close() print('over')
案例:获取图片
In [27]:
import requests
from lxml import etree import os import urllib url = 'http://pic.netbian.com/4kmeinv/' headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER' } response = requests.get(url=url,headers=headers) #response.encoding = 'utf-8' if not os.path.exists('./imgs'): os.mkdir('./imgs') page_text = response.text tree = etree.HTML(page_text) li_list = tree.xpath('//dic[@class="slist"]/ul/li') # //dic[@class="slist"]//li for li in li_list: img_name = li.xpath('./a/b/text()')[0] # 处理中文乱码 img_name = img_name.encode('iso-8859-1').decode('gbk') img_url = 'http://pic.netbian.com' + li.xpath('./a/img/@src')[0] img_path = './imgs/' + img_name + '.jpg' urllib.request.urlretrieve(url=img_url,filename=img_path) print(img_path,'下载成功')
案例:煎蛋网中图片数据:http://jandan.net/ooxx
- 第三种反爬机制:数据加密
In [6]:
import requests
from lxml import etree import base64 import urllib headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER' } url = 'http://jandan.net/ooxx' page_text = requests.get(url=url,headers=headers).text tree = etree.HTML(page_text) img_hash_list = tree.xpath('//span[@class="img-hash"]/text()') for img_hash in img_hash_list: img_url = 'http:' + base64.b64decode(img_hash).decode() img_name = img_url.split('/')[-1] urllib.request.urlretrieve(url=img_url,filename=img_name)
爬取站长素材中的简历模板
In [12]:
import requests
from lxml import etree import random headers = { 'Connection':'close',# 当请求成功后,马上断开该次请求(及时释放请求池中的资源)) 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER' } url = 'http://sc.chinaz.com/jianli/free-%d.html' for page in range(1,4): if page == 1: new_url = 'http://sc.chinaz.com/jianli/free.html' else: new_url = format(url%page) response = requests.get(url=new_url,headers=headers) response.encoding = 'utf-8' page_text = response.text tree = etree.HTML(page_text) div_list = tree.xpath('//div[@id="container"]/div') for div in div_list: detail_url = div.xpath('./a/@href')[0] name = div.xpath('./a/img/@alt')[0] detail_page = requests.get(url=detail_url,headers=headers).text tree = etree.HTML(detail_page) download_list = tree.xpath('//div[@class="clearfix mt20 downlist"]/ul/li/a/@href') download_url = random.choice(download_list) data = requests.get(url=download_url,headers=headers).content file_name = name + '.rar' with open(file_name,'wb') as fp: fp.write(data) print(file_name,'下载成功')