普通爬虫笔记

通用爬虫

爬虫的定义

网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序.
只要是浏览器能做的事情,原则上,爬虫都能够做

爬虫的分类

  • 通用爬虫:通常指搜索引擎的爬虫
  • 聚焦爬虫:针对特定网站的爬虫

http和https

HTTP

  • 超文本传输协议
  • 默认端口号:80

HTTPS

  • HTTP + SSL(安全套接字层)
  • 默认端口号:443
    HTTPS比HTTP更安全,但是性能更低

HTTP常见请求头

普通爬虫笔记_第1张图片
image.png

响应状态码(status code)

200:成功
302:临时转移至新的url
307:临时转移至新的url
404:not found
500:服务器内部错误

str类型和bytes类型

bytes:二进制
互联网上数据的都是以二进制的方式传输的
str :unicode的呈现形式

str bytes如何转化

str 使用encode方法转化为 bytes
bytes通过decode转化为str
编码方式解码方式必须一样,否则就会出现乱码
decode(解码)
encode(编码)

普通爬虫笔记_第2张图片
普通爬虫流程图

Requests

作用:发送网络请求,返回响应数据

为什么要学习requests?
requests的底层实现就是urllib
requests在python2 和python3中通用,方法完全一样
requests简单易用
Requests能够自动帮助我们解压(gzip压缩的等)网页内容
中文文档 API: http://docs.python-requests.org/zh_CN/latest/index.html

get请求

#导入requests包
import requests
#请求的网址
url = "https://www.baidu.com"
#url后面的参数?xxx
kw = {'wd':"我爱你"}
#请求头
headers = {"User-Agent":"xxx"}
#GET请求(url,请求头,url后面参数?xxx)
response = requests.get(url,headers=heasers,params=kw)
#打印网页源代码
print(response.content.decode())

post请求

#导入requests包
import requests
#请求的网址
url = "https://www.baidu.com"
#post参数
formdata = {"xxx":"xxx"}
#请求头
headers = {"User-Agent":"xxx"}
#POST请求(url,请求头,post请求参数)
response = requests.post(url,headers=headers,data=formdata)
#json格式
response = requests.post(url,headers=heasers,data=dumps(formdata))
#打印网页源代码
print(response.content.decode())

请求参数

url = "xxx"   #请求网址
headers = {}  #请求头
data = {}     #post请求参数
params={"xx":"我爱你"}#url后面的参数?xxx
#代理
proxies={
      "http":"http://12.34.56.79:9527",
      "https":"https://12.34.56.79:9527"
      }

响应参数

content  #响应内容,返回字节流数据,用decode()解码
text  #响应内容,返回Unicode格式的数据
url  #查看url地址
encoding  #查看响应头字符编码
status_code  #查看状态码
request.headers #查看发过去的报头信息
json()  #如果是json文件可以直接显示
.decode(‘gb18030’,’ignore’) #忽略非法字符

timeout请求超时

https://www.jianshu.com/p/5cf16cb5a362

爬虫处理Cookie和Session

  • 带上cookie、session的好处:

    • 能够请求到登录之后的页面
  • 带上cookie、session的弊端:

    • 一套cookie和session往往和一个用户对应
    • 请求太快,请求次数太多,容易被服务器识别为爬虫

不需要cookie的时候尽量不去使用cookie
但是为了获取登录之后的页面,我们必须发送带有cookies的请求

requests 提供了一个叫做session类,来实现客户端和服务端的会话保持
使用方法:

  • 实例化一个session对象
  • 让session发送get或者post请求
session = requests.session()
response = session.get(url,headers)

模拟登陆的三种方式

  • session
    • 实例化session(session具有的方法和requests一样)
    • session发送请求post请求,对方服务器设置的cookie会保存在session
    • session请求登录后能够访问的页面
  • cookie放在headers中
    • headers = {"Cookie":"cookie字符串"}
  • cookie转化为字典放在请求方法中
    • requests.get(url,cookies={"name的值":"values的值"})

正则使用

import re
re.findall(r"a(.*?)b",body)

\t 制表符 \r 回车 \n 换行

#替换
.replace('\t','').replace('\r','').replace('\n','')

xpath使用

#获取文本
a/text()    #获取a下的文本
a//text()    #获取a下的所有标签的文本
//a[text()='下一页']    #选择文本为下一页三个字的a标签

#@符号
a/@href    #获取url
//ul[@id="detail-list"]    #获取标签属性
//div[contains(@class,"i")]    #div标签包含i属性的
#在xpath最前面表示从当前html中任意位置开始选择
#li//a表示的是li下任何一个标签

//ul/li[1]    #ul下第一个li标签
//ul/li[last()]    #ul下最后一个li标签
//ul/li[last()-1]    #ul下倒数第二个li标签
//ul/li[position()<3]    #ul下前两个li标签

//div/*    #div下所有的标签
//div[@*]    #选取所有带属性的div标签

/li[not(@class="height_5")]  #不包括某个属性节点
//tbody/tr[not(@class or @id)]  #不包括多个属性节点

lxml库

安装lxml:pip install lxml

#导入lxml的etree库
from lxml import etree
response = requests.get(url,headers=headers)
html = response.content.decode()
#利用etree.HTML,将字符串转化为Element对象,Element具有xpath的方法
body = etree.HTML(html)
#在利用xpath取数据,先分组,在遍历取值
data = body.xpath('//div[@id="content-left"]/div')
for i in data:
    #拿到图片连接,列表形式[www.xxxx.com]
    touxiang = i.xpath('.//a/img/@src')
            #拼接"http",并判断头像列表长度是不是大于0,如果不大于0就为空列表,输出None
            touxiang = "http:"+touxiang[0].replace('?imageView2/1/w/90/h/90','') if len(touxiang)>0 else None

lxml使用注意点

  • lxml能够修正HTML代码,但是可能会改错了
  • 使用etree.tostring观察修改之后的html的样子,根据修改之后的html字符串写xpath
  • lxml 能够接受bytes和str的字符串
  • 提取页面数据的思路
    • 先分组,渠道一个包含分组标签的列表
    • 遍历,取其中每一组进行数据的提取,不会造成数据的对应错乱

数据提取之JSON

json.dumps和json.loads()使用方法
数据类型转换
dumps:字典转字符串
loads:字符串转字典

json.dump和json.load()使用方法
json.dump()和json.load()使用方法
用来对json文件的读和写

import requests
import json
#漂亮显示json
from pprint import pprint
#请求json地址
url = "https://www.baidu.com/rec?platform=wise&ms=1&lsAble=1&rset=rcmd&word=python&qid=9063735324500671597&rq=python&from=844b&baiduid=243F13D57A4DA7E648A71F9C61F2160A%3AFG%3D1&tn=&clientWidth=360&t=1541323156347&r=2799"
#请求头信息,如果不显示内容,把所有请求头加进来
headers = {"User-Agent":"xxx"}
#发起请求
response = requests.get(url,headers=headers)
html_str = response.content.decode()
#把字符转成字典,不然不显示中文
ret1 =json.loads(html_str)
#取数据
print(ret1["trans"][0]['dst'])
#漂亮的显示内容
print(pprint(ret1))

json文件读和写

#保存json文件,以utf-8的格式写进去
with open("a.json","w",encoding="utf-8") as f:
    #json.dumps能够把python类型转化为json字符串
    #ensure_ascii=False 显示中文,不然是ascii格式
    #indent=4   换行显示,下一级比上一级多4个空格,跟漂亮显示一样
    f.write(json.dumps(ret1,ensure_ascii=False,indent=4))

#使用json.load提取json文件的数据
with open("a.json",encoding="utf-8")as f:
    ret4 = json.load(f)
    print(ret4)   #字典类型

爬取数据存到mysql数据库

#导入连接数据库的包
from pymysql import connect
#连接数据库
conn = connect(host='localhost',port=3306,db='biaoqing',user='root',passwd='root',charset='utf8')
#获取游标,实现数据库的(增删改查)
cc = self.conn.cursor()
#需要存的数据
aa = (touxing,mingzi,neirong,url)
#存数据库的命令
sql = 'insert into qsbk1(touxiang,mingzi,neirong,url) values ("%s","%s","%s","%s")'
#向数据库添加数据
cc.execute(sql%aa)
#提交数据
conn.commit()
#关闭游标
cc.close()

数据去重

def shuju(self):
rs = self.quchong(url)
#如果数据库有数据,不执行下面的语句
if rs == True:
  continue
#数据去重
def quchong(self,url):
        #数据查询语句
        sql = "select count(1) from qsbk1 WHERE url='%s';" % url
        #在数据库查询
        self.cc.execute(sql)
        #查询一条
        f = self.cc.fetchone()[0]
        #如果查询的数据大于0
        if f > 0:
            #有数据
            return True
        else:
            #没有数据
            return False

你可能感兴趣的:(普通爬虫笔记)