爬虫
今日内容
- 1、爬虫介绍
- 2、爬取汽车之家
- 3、requests
- 4、bs4
- 5、内容编码改为utf-8
掌握requests /bs4 不考虑验证码和性能基本网页都能爬取
以后实际工作中这两个脚本加scrapy框架就可以了
一、爬虫介绍
* 1、什么事爬虫
编写程序,根据URL获取网站信息。
历史背景:2015年起我国对数据爬取进行了立法
* 2、爬取汽车之家新闻
a、伪炤浏览器向某个地址发送http请求,获取返回的字符串
ret = requests.get(
url='https://www.autohome.com.cn/news/',
)
print(ret.text)
注:ret是一个对象
request是伪造浏览器的行为
ret.encoding = ret.apparent_encoding
数据类型转换(转换成中文)
ret.text 按照字符串显示内容
ret.content 按照字节显示
b、解析:获取指定内容
BeautifulSoup 用于把html中的标签做切割
bs4解析html格式的字符串
div = soup.find(name='标签名')
div = soup.find(name='标签名',id='id名')
div = soup.find(name='标签名', class_='') class后面有_
div = soup.find(name='标签名',attrs={id:'user',class:'page-one'})
div.text 获取标签的文本
div.attrs 获取标签的属性
div.get('src') 获取标签属性的值
li = soup.find_all(name='标签名')
li_list 获取的是列表
如果要查询具体的li_list列表的值,必须要下标索引查找
li_list[0]
request模块
url:
params: url中传入参数
data:
json:
headers: 请求头
cookies:
proxies:封IP 用代理
files: 上传文件
auth: 基本认证
timeout: 超时时间
allow_redirects: True
是否允许重定向
stream: 下载大文件时
ret = requests.get('http://127.0.0.1:8000/test/', stream=True)
for i in r.iter_content():
#iter_content() 方法表示来边下载边存硬盘
# print(i)
from contextlib import closing
with closing(requests.get('http://httpbin.org/get', stream=True)) as r:
# 在此处理响应。
for i in r.iter_content():
print(i)
cert: 证书
verify: 确认