python爬虫案例——知乎数据采集

全栈工程师开发手册 (作者:栾鹏)
python教程全解

首先你需要了解python数据挖掘库urllib、urllib2、cookie的知识。参考http://blog.csdn.net/luanpeng825485697/article/details/78383884

cookie模拟登陆

知乎需要设置cookie模拟登陆状态,需要设置http头,满足知乎服务器的检测。

知乎地址https://www.zhihu.com

在没有登陆时访问这个网址,只能出现登陆界面
python爬虫案例——知乎数据采集_第1张图片

如果登陆以后,在访问这个网址,就会出现文章列表。

python爬虫案例——知乎数据采集_第2张图片

这是因为访问此地址,知乎服务器会查询请求cookie,如果请求cookie没有用户信息,就证明没有登陆,就会返回登陆界面,如果有cookie信息就会返回文章列表界面,同时包含用户的其他信息。所以首先需要让自己的请求中能带有包含自己信息的cookie。这一步通过登陆来实现。

在登陆界面,通过post将用户账号密码发送给服务器,服务器会将用户信息以cookie的形式返回给用户,用户在下次请求时,就会自动将这个co

你可能感兴趣的:(python系列课程,快速学习实战应用,网络爬虫,系列课程,快速学习实战应用)