2021/4/26爬虫课第一次周复盘

一、urllib实现Post请求

注意点

data = urllib.parse.urlencode(data)
data = bytes(data)

import json
html = res.read().decode('utf-8')
# 解析数据
# json类型的str --> python类型的字典
r_dict = json.loads(html)

二、requests库

'''
如果出现乱码
第一种方式response.content.decode('utf-8')
第二种 response.encoding = 'utf-8'   response.text
'''

四、反反爬

  • U-A
  • Cookie
  • proxies
    都是k-v形式

其他可能参数:verify

五、总结

关键是找对URL,最终的URL可能还要修改
预想的response在“检查”中的’response’或’preview’中查找
一些标识符命名技巧:

  • ans=0#最终答案
  • count=[]#定义计算列表
    encode和decode使用
    在计算机内存中,统一使用 Unicode 编码,当需要保存到硬盘或者需要传输的时候,
    就转换为 UTF-8 编码。
  • 内存
    内存是计算机中重要的部件之一,它是与CPU进行沟通的桥梁。计算机中所有程序的运行都是在内存中进行的,因此内存的性能对计算机的影响非常大。内存(Memory)也被称为内存储器,其作用是用于暂时存放CPU中的运算数据,以及与硬盘等外部存储器交换的数据。只要计算机在运行中,CPU就会把需要运算的数据调到内存中进行运算,当运算完成后CPU再将结果传送出来,内存的运行也决定了计算机的稳定运行。 内存是由内存芯片、电路板、金手指等部分组成的。

你可能感兴趣的:(笔记,爬虫,爬虫)