Python网络爬虫学习中的注意事项

一、准备工作 URL分析

header
1、user-agent
浏览器的开发者工具中 network 查询 user-agent ,获取电脑型号和浏览器型号,主要为了返回电脑可以接收的response。(比如有时候会返回浏览器版本过低等等)
2、cookie获取
cookie包含了经常浏览的网站,从哪儿链接过来,以及登录的信息等等。

python grammer notice

3、if name == main:
该语句个人理解,就是函数的调用前的入口,把前面定义的各个函数在这个入口下排序,规定顺序。

二、获取数据
1、import urllib.request
urllib.request.urlopen(url)
几种获取方式,其中GET和POST最为常用,httpbin.org测试网站

post用于用户登录密码cookie等发送到目标网站
其中需要将信息封装到二进制文件bytes中:
urllib.parse.urlencode({’’:’’},encoding=‘utf-8’)

你可能感兴趣的:(Python网络爬虫学习中的注意事项)