在当今数据化的时代下，数据越来越多也越来越重要。而爬虫也成为获取数据的主要途径。而本人心血来潮刚好想玩一下一般的爬虫，经过一天的学习有点收获，小结一下。刚入门，可能有不全的地方还请大家指正。（使用python2进行编程，运行环境为Windows，以下会涉及Fiddler抓包工具和HTTP协议）

可能很多小伙伴也想尝试一下python爬虫，但自己却对python零基础。如果不考虑代码风格（例如：if __name__ == "__main__"）的话，掌握一下常用的python语法即可进行操作（甚至可以不用了解类）。但是建议了解HTTP协议，以及抓包等，但主要还是HTTP协议和如何抓包（可在百度搜索Fiddler抓包工具进行下载）。

1.个人对爬虫理解

所谓爬虫，其实就是爬取页面中相关的数据，为什么这里要说数据呢。因为笔者今天通过学习，尝试了GET，POST两种请求的数据爬虫，还有页面触发AJAX的爬虫（豆瓣电影网）。前两个的数据和页面都是在同一个url中，而在豆瓣中数据和页面分离。

豆瓣首页.png

TIM图片20200204222313.png

这里我们通过抓包软件可以看到，豆瓣首页中并无任何JSON数据，通过WebView显示其只有一些固定数据，而电影评分等真正数据在哪呢？

页面真正数据.png

豆瓣网.png

我们可以看到，豆瓣网通过触发JS进行页面的获取（这里不具体讨论前端如何获取）大家看两个的url（主页和主页数据，通过上图抓包工具右上角GET后面的那一串URL）显然就不是同一个。那么我们在进行爬取数据指定URL时，就应该选取数据那一部分的URL，而主页的URL我们可以不管。

2.爬虫的实现

爬虫其实是模拟HTTP请求对服务器进行一个请求的发送获取页面信息。所以当我们在调用相关函数的时候要把请求头给附上，否则在HTTP请求中的相关信息会显示python的相关信息，后台可能会识别进行反爬虫。这里就不做过多扩展。

Python中进行爬虫的模块主要是：urllib2,以及urllib。前者主要用Requset()以及urlopen()方法，而后者是对相关数据（中文等）进行url编码。

我们先来看urlpoen(),因为模拟浏览器访问就通过这个函数进行
在python中对urlpoen()函数的定义
点击查看urllib2 源码

def urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT,
 cafile=None, capath=None, cadefault=False, context=None)

通过函数可知我们只需要传入需要爬取的URL路径即可。

传入参数.png

返回信息.png

根据官方文档介绍绍，我们知道该函数的url参数可以传入一个字符串或者一个Request对象（下文会讲）返回文件对象，既然是文件对象，那么我们可通过read()方法进行数据的读取。并且可以调用geturl()、getcode()、info()三个附加的方法。

我们来简单尝试一下：

#导入urllib2模块
import urllib2
url = "http://www.baidu.com"
#调用模块的urlopen()方法
data = urllib2.urlopen(url)
#读取数据
print data.read()

数据获取.png

当我们执行Python命令行，发现网页的全部都爬下来了，但是居然出现了乱码！！

笔者今天百度了一下，据说是因为编码解码问题，具体也还没深入了解，但是在linux环境开发下缺不会出现这个乱码的问题。笔者在CSDN中查询到了解决办法，里面还有另一个链接是对编码解码的原理，感兴趣的小伙伴可以继续深入了解。
具体是引入sys的模块并调用其方法

import urllib2
import sys
types = sys.getfilesystemencoding()
url = "http://www.baidu.com"
data = urllib2.urlopen(url)
print data.read().decode("utf-8").encode(types)

结果.png

我们可以看到Python成功爬取到了页面的内容，并且也没有乱码，那么我们成功了一大半。

3.Requset()的加入

只单纯用了urlopen()方法.png

前文说到，爬虫实质是模拟浏览器进行访问。通过抓包工具我们可以看到其请求头数据的User-Agent为Python-urilib/2.7，

就好比，人家每家都有门，你以一个路人的身份直接闯进去显然不是很礼貌。而且有一些站点不喜欢被程序（非人为访问）访问，有可能会拒绝你的访问请求。但是如果我们用一个合法的身份去请求别人网站，显然人家就是欢迎的，所以我们就应该给我们的这个代码加上一个身份，就是所谓的User-Agent头。

其实就是自身身份的一个标识通过Request()函数可对请求头的该参数进行添加：

import urllib2
import sys
types = sys.getfilesystemencoding()
url = "http://www.baidu.com"
ua_headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"
}
request = urllib2.Request(url,headers=ua_headers)
"""
方法二：通过Request的add_header方法添加User-Agent参数，也可以添加其他参数
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"
request = urllib2.Request(url)
request.add_header("User-Agent", user_agent)
"""
data = urllib2.urlopen(url)
print data.read().decode("utf-8").encode(types)

Request类.png

OienerDirector类.png

我们看这个对象可以指定其可以传入header字典类型的头信息，并且不填会有默认值。所以为了模拟浏览器访问，需要加入User-Agent这个参数。

4.AJAX的爬虫和POST的爬虫

前文我们可以看到Request()和urlopen()方法中都有data的这个参数，而这个参数就是请求体，采用 POST方法时，参数方法data中，即可爬取对应数据。

而AJAX请求的爬虫，我们需要找到对应的数据源URL，对数据源URL进行爬取对应数据即可。
对于豆瓣网电影的爬取：

#coding=utf-8
#python开发模板都如此
import urllib
import urllib2
import sys
types = sys.getfilesystemencoding()

def main():
    url = "https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action="
    header = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36"}
    formdata = {
        "start":"0",
        "limit":"20",
    }
#对中文进行URL编码
    data = urllib.urlencode(formdata)
    response = urllib2.Request(url,data = data,headers = header)
    html = urllib2.urlopen(response).read().decode("utf-8").encode(types)
    print html

if __name__ == "__main__":
    main()

该URL就是豆瓣获取数据的URL而非首页的URL，对于AJAX数据的爬取应当先使用抓包工具，尝试看一下数据获取的URL，然后将URL填到函数中的参数中去。
而代码中urllib.urlencode()就是对一个字典数据进行url编码，这里不过多解释，但是在爬虫中很经常用，因为有些数据是中文的，我们需要对其进行URL编码转换。

贴吧数据.png

抓包工具.png

例如我们要对贴吧进行爬取数据，我们通过浏览器看到URL是包含有中文的；而通过抓包工具，我们看到kw的值是一串url的编码。所以我们在爬取数据的时候最好先进行Url编码。

好了，小结到这先告一段落。可能讲的地方有些模棱两可，毕竟好久没写了，希望能对大家有帮助，也希望大家多多指正。

新手入门爬虫小结

1.个人对爬虫理解

2.爬虫的实现

3.Requset()的加入

4.AJAX的爬虫和POST的爬虫

最后，武汉加油，中国加油！

你可能感兴趣的:(新手入门爬虫小结)