爬虫学习总结

断断续续学了一点爬虫,算是入了个门,很多时候对一些基本点还是不够熟悉,特此来总结归纳一下

分析网页数据包

数据来源:构造get请求或post请求,ajax加载

获取原数据方式

urllib库使用较为复杂,而requests相较更为方便,且功能基本包括。
使用requests库根据url等参数请求,判断状态码解决异常处理问题

import requests
from requests.exceptions import RequestException
def get_one_page(url):
    try:#异常处理来增强爬虫的健壮性
        response=requests.get(url)
        if response.status_code==200:#判断请求代码
            return response.txt#此时返回的是源代码,可以返回.content二进制文件形式
        return None
    except RequestException:
        return None

多页爬取是观察规律采用组合url

url='http:www.baidu.com&page='+str(offset)#offset作函数参数传进来
url='链接:%s?offset=%s异常'.format(start_url,i)#利用forma函数

原数据清洗获得数据

利用re(正则)库提取,利用xpath或者css提取,或者转化为字典列表等python数据类型提取
requests.json()直接将json数据转为字典型数据

数据保存

保存为txt,csv文件或者保存到数据库中

你可能感兴趣的:(爬虫学习总结)