Python爬虫——入门篇(简单粗暴入门法 )

Python爬虫——入门篇

个人总结的爬虫四小点:

  1. 目标:一个url地址
  2. 伪装:对请求参数进行伪装——伪装User-Agent
  3. 响应:在伪装后使用伪装过的对象进行响应
  4. 获取:获取响应内容()
简单提一下伪装:
 user-agent:是指用户浏览器端的信息,比如你是用IE的,还是firefox的.
 
 现在大多数网页网站都是反爬虫的,会对user-agent进行判断,所以我们对爬虫的处理必须要有伪装步骤,
 否则我们在进行爬虫操作的时候可能会出现错误。

本篇内容介绍urllib库与 requests库的简单使用方法

#MyPyClass类 方便对UA进行获取
import random
def GetUserAgent():
    ua_list = [
        # Safari
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2',
        # 360浏览器
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36',
        # 搜狗浏览器
        'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 SE 2.X MetaSr 1.0',
        # UC浏览器
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 UBrowser/4.0.3214.0 Safari/537.36'
    ]
    return random.choice(ua_list)  # 从ua列表中选择一个

一、使用urllib库

from urllib.request import urlopen,Request
import MyPyClass
url='https://www.csdn.net' # 爬取的网页地址
ua=MyPyClass.GetUserAgent() # 获取一个User-Agent
request_seting=Request(url,headers={
     'User-Agent':ua}) # 设置请求参数的设置————伪装
response=urlopen(request_seting,timeout=20) # 响应对象
content=response.read().decode('utf-8')
#decode编码,需要根据页面实际编码进行修改,某些页面是gbk编码的
print(content) # 爬取的实际页面内容
print('-'*100) # 打印分隔符
print(response.getcode()) # 响应状态码
print(response.geturl()) # 爬取的地址
print(response.info()) # 响应信息

二、使用 requests库

安装:
pip install requests

import requests
import MyPyClass
url='https://www.baidu.com' # 爬取的网页地址
ua=MyPyClass.GetUserAgent() # 获取一个User-Agent
response=requests.get(url,headers={
     'User-agent':ua}) #发送一个get请求,并且对UA进行伪装
print(response.content.decode('utf-8')) #打印内容
print('-'*100) #打印分隔符
print(response.headers) #输出头信息
两种库的的运行结果大致相同,其差别在此不做叙述。
运行结果如图:

Python爬虫——入门篇(简单粗暴入门法 )_第1张图片
Python爬虫——入门篇(简单粗暴入门法 )_第2张图片
本篇内容仅供学习参考

你可能感兴趣的:(爬虫,入门,python学习,python)